男人到天堂在线A无码,chinesefuckxxxxhd,亚洲av无码国产精品色软件下戴,婷婷丁香五月缴情视频

首頁 快訊文章正文

中信證券:看好DeepSeek新一代模型帶動云端推理需求爆發(fā),加速AI應(yīng)用端側(cè)落地

快訊 2025年02月16日 04:45 6 admin

  炒股就看金麒麟分析師研報,權(quán)威,專業(yè),及時,全面,助您挖掘潛力主題機會!

  中信證券研究 文|徐濤? 楊澤原? 雷俊成? 王子源? 夏胤磊? 程子盈

  DeepSeek通過工程化能力創(chuàng)新,實現(xiàn)了大模型訓(xùn)練和推理算力成本的極致優(yōu)化,也為端側(cè)部署高性能模型提供新的方向。本篇報告我們通過分析DeepSeek V3和R1模型論文,理解其核心邏輯是“按需分配算力,最小化冗余計算”,使得千億級模型在低成本硬件(甚至邊緣設(shè)備)上高效運行成為可能,為大規(guī)模商業(yè)化落地提供了技術(shù)基礎(chǔ)。我們看好DeepSeek新一代模型帶動云端推理需求爆發(fā),加速AI應(yīng)用端側(cè)落地:建議核心關(guān)注晶圓代工、國產(chǎn)算力芯片、定制化存儲、終端品牌、SoC五大方向。

  ▍DeepSeek如何實現(xiàn)的訓(xùn)練成本降低?

  1)架構(gòu)創(chuàng)新: DeepSeek-V3的基礎(chǔ)架構(gòu)中采用了DeepSeekMoE專家架構(gòu)和MLA多頭潛在注意力機制,DeepSeekMoE通過細粒度專家分配、共享專家及無輔助損失負載均衡策略優(yōu)化傳統(tǒng)MoE,提升計算資源效率;MLA通過低秩聯(lián)合壓縮減少注意力鍵值緩存占用,提升計算效率、減少內(nèi)存消耗。

  2)FP8混合精度訓(xùn)練:在全球主流大模型中率先采用FP8低精度數(shù)據(jù)進行大規(guī)模訓(xùn)練,大部分核心計算用FP8提升速度、降低內(nèi)存用量,部分關(guān)鍵操作保留高精度確保動態(tài)穩(wěn)定性。

  3)訓(xùn)練工程優(yōu)化:DeepSeek在主流大模型中率先采用硬盤充當(dāng)輸入端緩存,設(shè)計DualPipe算法實現(xiàn)高效流水線并行,融合前后向通信階段,減少阻塞;采用定制化高效跨節(jié)點all-to-all通信內(nèi)核降低通信開銷;通過重計算、EMA、共享向量和輸出頭減少內(nèi)存占用。

  4)數(shù)據(jù)策略優(yōu)化:應(yīng)用多token預(yù)測機制MTP,增加訓(xùn)練信號密度,減少20%訓(xùn)練迭代次數(shù),幫助模型捕捉長距離依賴關(guān)系。

  ▍DeepSeek如何實現(xiàn)的推理成本降低?

  DeepSeek-V3對推理的預(yù)填充和解碼兩個階段都優(yōu)化了專家使用效率:預(yù)填充階段MoE用EP32及冗余專家策略提升效率,解碼階段探索動態(tài)路由減少通信開銷;還通過支持FP8、INT8量化和提供蒸餾版本,實現(xiàn)低精度量化與模型壓縮,減少顯存占用。DeepSeek的開源生態(tài)可以更好支持硬件廠商適配,例如可以對MLA算子優(yōu)化提升推理效率,DeepSeek-R1發(fā)布后國內(nèi)外芯片廠商快速響應(yīng)支持DeepSeek。1月25日,AMD宣布已將新的DeepSeek-V3集成到Instinct MI300X GPU上并經(jīng)過SGLang對推理過程進行了優(yōu)化,英偉達、英特爾也隨后在1月31日官宣支持。國內(nèi)廠商都已經(jīng)官宣完成對DeepSeek的適配,國產(chǎn)算力成為相對穩(wěn)定可靠的選項,支撐國產(chǎn)大模型從研發(fā)走向商業(yè)化。

  ▍從DeepSeek算力需求看AI芯片設(shè)計方向?

  DeepSeek 在論文的芯片設(shè)計意見指導(dǎo)中指出通信和計算同等重要,計算方面降低精度和內(nèi)存需求是關(guān)鍵。在通信硬件優(yōu)化上,DeepSeek建議開發(fā)獨立通信協(xié)處理器,實現(xiàn)計算與通信物理分離,同時建議融合網(wǎng)絡(luò)架構(gòu),統(tǒng)一IB和 NVLink的網(wǎng)絡(luò)協(xié)議棧,統(tǒng)一通信接口以簡化編程復(fù)雜度和降低通信延遲;在計算硬件優(yōu)化上,建議提升 FP8 計算精度,并支持分塊量化與在線量化,減少訪存開銷,提升推理效率。我們認為DeepSeek建議帶來兩點啟示:

  1)“推理速度”基本90%是由decoding階段決定的,因此內(nèi)存容量決定大模型推理速度,我們認為內(nèi)存升級仍是算力芯片升級的重點方向,看好近存計算發(fā)展。

  2)我們認為在模型開源的策略下,DeepSeek-R1蒸餾后的小模型性能有望持續(xù)快速提升,幫助端側(cè)硬件加速接入,助力AI應(yīng)用全面落地。我們看好品牌商和SoC芯片廠商的成長機遇。

  ▍風(fēng)險因素:

  算力芯片供應(yīng)鏈風(fēng)險;芯片產(chǎn)能供給不足的風(fēng)險;互聯(lián)網(wǎng)大廠資本開支不及預(yù)期;相關(guān)產(chǎn)業(yè)政策出臺力度不及預(yù)期;AI技術(shù)及應(yīng)用發(fā)展不及預(yù)期;芯片技術(shù)迭代不及預(yù)期;國產(chǎn)先進制程量產(chǎn)進展不及預(yù)期;行業(yè)競爭加劇等。

  ▍投資策略:

  我們看好DeepSeek新一代模型帶動云端推理需求爆發(fā),加速AI應(yīng)用端側(cè)落地:

  1)云端:DeepSeek有望開啟全新的Scaling Law,模型重心逐步從預(yù)訓(xùn)練切換到強化學(xué)習(xí)、推理階段,助力算力需求持續(xù)增長。

  2)終端:我們看好DeepSeek帶來模型輕量化的全面升級,端側(cè)硬件接入有望加速爆發(fā),助力AI應(yīng)用全面落地,建議關(guān)注品牌廠商,SoC芯片廠商。

標(biāo)簽: 中信證券 云端 推理

上海衡基裕網(wǎng)絡(luò)科技有限公司,網(wǎng)絡(luò)熱門最火問答,網(wǎng)絡(luò)技術(shù)服務(wù),技術(shù)服務(wù),技術(shù)開發(fā),技術(shù)交流 備案號:滬ICP備2023039794號 內(nèi)容僅供參考 本站內(nèi)容均來源于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系我們刪除QQ:597817868