華爾街深度研究：DeepSeek是AI末日嗎？

快訊 2025年01月30日 02:45 1 admin

專題：DeepSeek為何能震動(dòng)全球AI圈

　　來源：華爾街見聞

　　春節(jié)期間，DeepSeek新一代開源模型以驚人的低成本和高性能引發(fā)熱議，在全球投資界引發(fā)劇震。

　　市場(chǎng)上甚至出現(xiàn)了DeepSeek“僅用500萬美元就復(fù)制OpenAI”的說法，認(rèn)為這將給整個(gè)AI基礎(chǔ)設(shè)施產(chǎn)業(yè)帶來“末日”。

　　對(duì)此，華爾街知名投行伯恩斯坦在詳細(xì)研究DeepSeek技術(shù)文檔后發(fā)布報(bào)告稱，這種市場(chǎng)恐慌情緒明顯過度，DeepSeek用“500萬美元復(fù)制OpenAI”是市場(chǎng)誤讀。

　　另外，該行認(rèn)為，雖然DeepSeek的效率提升顯著，但從技術(shù)角度看，并非奇跡。而且，即便DeepSeek確實(shí)實(shí)現(xiàn)了10倍的效率提升，這也僅相當(dāng)于當(dāng)前AI模型每年的成本增長幅度。

　　該行還表示，目前AI計(jì)算需求遠(yuǎn)未觸及天花板，新增算力很可能會(huì)被不斷增長的使用需求吸收，因此對(duì)AI板塊保持樂觀。

　　“500萬美元復(fù)制OpenAI”是誤讀

　　對(duì)于“500萬美元復(fù)制OpenAI”的說法，伯恩斯坦認(rèn)為，實(shí)際上是對(duì)DeepSeek V3模型訓(xùn)練成本的片面解讀，簡單將GPU租用成本計(jì)算等同于了總投入：

這500萬美元僅僅是基于每GPU小時(shí)2美元的租賃價(jià)格估算的V3模型訓(xùn)練成本，并未包括前期研發(fā)投入、數(shù)據(jù)成本以及其他相關(guān)費(fèi)用。

　　技術(shù)創(chuàng)新：效率大幅提升但非顛覆性突破

　　接著，伯恩斯坦在報(bào)告中詳細(xì)分析了DeepSeek發(fā)布的兩大模型V3、R1詳細(xì)技術(shù)特點(diǎn)。

　?。?）V3模型的效率革命

　　該行表示，V3模型采用專家混合架構(gòu)，用2048塊NVIDIA H800 GPU、約270萬GPU小時(shí)就達(dá)到了可與主流大模型媲美的性能。

　　具體而言，V3模型采用了混合專家（MoE）架構(gòu)，這一架構(gòu)本身就旨在降低訓(xùn)練和運(yùn)行成本。在此基礎(chǔ)上，V3還結(jié)合了多頭潛在注意力（MHLA）技術(shù)，顯著降低了緩存大小和內(nèi)存使用。

　　同時(shí)，F(xiàn)P8混合精度訓(xùn)練的運(yùn)用進(jìn)一步優(yōu)化了性能表現(xiàn)。這些技術(shù)的綜合運(yùn)用，使得V3模型在訓(xùn)練時(shí)僅需同等規(guī)模開源模型約9%的算力，便能達(dá)到甚至超越其性能。

　　例如，V3預(yù)訓(xùn)練僅需約270萬GPU小時(shí)，而同樣規(guī)模的開源LLaMA模型則需要約3000萬GPU小時(shí)。

華爾街深度研究：DeepSeek是AI末日嗎？

　　談及V3模型帶來的效率提升，伯恩斯坦認(rèn)為，與業(yè)界3-7倍的常見效率提升相比并非顛覆性突破：

MoE架構(gòu)的重點(diǎn)是顯著降低訓(xùn)練和運(yùn)行的成本，因?yàn)樵谌魏我淮沃挥幸徊糠謪?shù)集是活動(dòng)的（例如，當(dāng)訓(xùn)練V3時(shí)，只有671B個(gè)參數(shù)中的37B為任何一個(gè)令牌更新，而密集模型中所有參數(shù)都被更新）。

對(duì)其他MoE比較的調(diào)查表明，典型的效率是3-7倍，而類似大小的密度模型具有類似的性能；

V3看起來甚至比這個(gè)更好（10倍以上），可能考慮到該公司在模型中帶來的其他一些創(chuàng)新，但認(rèn)為這是完全革命性的想法似乎有點(diǎn)夸張，并且不值得在過去幾天里席卷twitter世界的歇斯底里。

　?。?）R1模型的推理能力與“蒸餾”策略

　　DeepSeek的R1模型則在V3的基礎(chǔ)上，通過強(qiáng)化學(xué)習(xí)（RL）等創(chuàng)新技術(shù)，顯著提升了推理能力，使其能夠與OpenAI的o1模型相媲美。

華爾街深度研究：DeepSeek是AI末日嗎？

　　值得一提的是，DeepSeek還采用了“模型蒸餾”策略，利用R1模型作為“教師”，生成數(shù)據(jù)來微調(diào)更小的模型，這些小模型在性能上可以與OpenAI的o1-mini等競(jìng)爭模型相媲美。這種策略不僅降低了成本，也為AI技術(shù)的普及提供了新的思路。

　　對(duì)AI板塊保持樂觀

　　伯恩斯坦認(rèn)為，即便DeepSeek確實(shí)實(shí)現(xiàn)了10倍的效率提升，這也僅相當(dāng)于當(dāng)前AI模型每年的成本增長幅度。

　　事實(shí)上，在“模型規(guī)模定律”不斷推動(dòng)成本上升的背景下，像MoE、模型蒸餾、混合精度計(jì)算等創(chuàng)新對(duì)AI發(fā)展至關(guān)重要。

　　根據(jù)杰文斯悖論，效率提升通常會(huì)帶來更大的需求，而非削減開支。該行認(rèn)為，目前AI計(jì)算需求遠(yuǎn)未觸及天花板，新增算力很可能會(huì)被不斷增長的使用需求吸收。

　　基于以上分析，伯恩斯坦對(duì)AI板塊保持樂觀。

標(biāo)簽：華爾街末日深度

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

男人到天堂在线A无码,chinesefuckxxxxhd,亚洲av无码国产精品色软件下戴,婷婷丁香五月缴情视频

華爾街深度研究：DeepSeek是AI末日嗎？

深度解析，獲嘉網(wǎng)站搭建，助力企業(yè)數(shù)字化轉(zhuǎn)型，獲嘉網(wǎng)站搭建深度解析，企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵助力，獲嘉網(wǎng)站搭建深度解析，企業(yè)數(shù)字化轉(zhuǎn)型的核心動(dòng)力

歡迎使用Z-BlogPHP！

標(biāo)簽列表

最新評(píng)論

最新留言

男人到天堂在线A无码,chinesefuckxxxxhd,亚洲av无码国产精品色软件下戴,婷婷丁香五月缴情视频

華爾街深度研究：DeepSeek是AI末日嗎？

歡迎使用Z-BlogPHP！

標(biāo)簽列表

最新評(píng)論

最新留言

華爾街深度研究：DeepSeek是AI末日嗎？

歡迎使用Z-BlogPHP！