突然宣布!暫停DeepSeek API服務(wù)
專(zhuān)題:DeepSeek為何能震動(dòng)全球AI圈
【導(dǎo)讀】DeepSeek一天能賺多少錢(qián)?官方突然揭秘!潞晨科技暫停DeepSeek API服務(wù)
中國(guó)基金報(bào)記者 泰勒
大家好,一起關(guān)注一下關(guān)于DeepSeek的最新消息!
DeepSeek首次披露:理論成本利潤(rùn)率545%
當(dāng)市場(chǎng)以為DeepSeek的開(kāi)源周內(nèi)容發(fā)布完畢之后,3月1日,DeepSeek宣布了“One More Thing”,突然揭秘V3/R1推理系統(tǒng),公開(kāi)了大規(guī)模部署成本和收益。
根據(jù)《DeepSeek-V3/R1推理系統(tǒng)概覽》的文章,假定GPU租賃成本為2美元/小時(shí),總成本為87072美元/天;如果所有tokens全部按照DeepSeek R1的定價(jià)計(jì)算,理論上一天的總收入為562027美元/天,成本利潤(rùn)率為545%。
據(jù)官方披露,DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是:更大的吞吐,更低的延遲。
為了實(shí)現(xiàn)這兩個(gè)目標(biāo),DeepSeek使用大規(guī)??绻?jié)點(diǎn)專(zhuān)家并行(Expert Parallelism / EP)。首先EP使得batch size大大增加,從而提高GPU矩陣乘法的效率,提高吞吐。其次EP使得專(zhuān)家分散在不同的GPU上,每個(gè) GPU 只需要計(jì)算很少的專(zhuān)家(因此更少的訪存需求),從而降低延遲。
但EP同時(shí)也增加了系統(tǒng)的復(fù)雜性。復(fù)雜性主要體現(xiàn)在兩個(gè)方面:
EP引入跨節(jié)點(diǎn)的傳輸。為了優(yōu)化吞吐,需要設(shè)計(jì)合適的計(jì)算流程使得傳輸和計(jì)算可以同步進(jìn)行。
EP涉及多個(gè)節(jié)點(diǎn),因此天然需要Data Parallelism(DP),不同的DP之間需要進(jìn)行負(fù)載均衡。
因此,DeepSeek介紹了如何使用EP增大batch size,如何隱藏傳輸?shù)暮臅r(shí),如何進(jìn)行負(fù)載均衡。
大規(guī)模跨節(jié)點(diǎn)專(zhuān)家并行(Expert Parallelism / EP)
由于DeepSeek-V3/R1的專(zhuān)家數(shù)量眾多,并且每層256個(gè)專(zhuān)家中僅激活其中8個(gè)。模型的高度稀疏性決定了必須采用很大的overall batch size,才能給每個(gè)專(zhuān)家提供足夠的expert batch size,從而實(shí)現(xiàn)更大的吞吐、更低的延時(shí)。需要大規(guī)??绻?jié)點(diǎn)專(zhuān)家并行(Expert Parallelism / EP)。
采用多機(jī)多卡間的專(zhuān)家并行策略來(lái)達(dá)到以下目的:
Prefill:路由專(zhuān)家EP32、MLA和共享專(zhuān)家DP32,一個(gè)部署單元是4節(jié)點(diǎn),32個(gè)冗余路由專(zhuān)家,每張卡9個(gè)路由專(zhuān)家和1個(gè)共享專(zhuān)家。
Decode:路由專(zhuān)家EP144、MLA和共享專(zhuān)家DP144,一個(gè)部署單元是18 節(jié)點(diǎn),32個(gè)冗余路由專(zhuān)家,每張卡2個(gè)路由專(zhuān)家和1個(gè)共享專(zhuān)家。
計(jì)算通信重疊
多機(jī)多卡的專(zhuān)家并行會(huì)引入比較大的通信開(kāi)銷(xiāo),所以使用了雙batch重疊來(lái)掩蓋通信開(kāi)銷(xiāo),提高整體吞吐。
對(duì)于prefill階段,兩個(gè)batch的計(jì)算和通信交錯(cuò)進(jìn)行,一個(gè)batch在進(jìn)行計(jì)算的時(shí)候可以去掩蓋另一個(gè)batch的通信開(kāi)銷(xiāo);
對(duì)于decode階段,不同階段的執(zhí)行時(shí)間有所差別,所以把a(bǔ)ttention部分拆成了兩個(gè)stage,共計(jì)5個(gè)stage的流水線來(lái)實(shí)現(xiàn)計(jì)算和通信的重疊。
盡可能地負(fù)載均衡
由于采用了很大規(guī)模的并行(包括數(shù)據(jù)并行和專(zhuān)家并行),如果某個(gè)GPU的計(jì)算或通信負(fù)載過(guò)重,將成為性能瓶頸,拖慢整個(gè)系統(tǒng);同時(shí)其他GPU因?yàn)榈却辙D(zhuǎn),造成整體利用率下降。因此需要盡可能地為每個(gè)GPU分配均衡的計(jì)算負(fù)載、通信負(fù)載。
PrefillLoadBalancer
核心問(wèn)題:不同數(shù)據(jù)并行(DP)實(shí)例上的請(qǐng)求個(gè)數(shù)、長(zhǎng)度不同,導(dǎo)致core-attention計(jì)算量、dispatch發(fā)送量也不同。
優(yōu)化目標(biāo):各GPU的計(jì)算量盡量相同(core-attention計(jì)算負(fù)載均衡)、輸入的token數(shù)量也盡量相同(dispatch發(fā)送量負(fù)載均衡),避免部分GPU處理時(shí)間過(guò)長(zhǎng)。
DecodeLoadBalancer
核心問(wèn)題:不同數(shù)據(jù)并行(DP)實(shí)例上的請(qǐng)求數(shù)量、長(zhǎng)度不同,導(dǎo)致core-attention計(jì)算量(與KVCache占用量相關(guān))、dispatch發(fā)送量不同。
優(yōu)化目標(biāo):各GPU的KVCache占用量盡量相同(core-attention計(jì)算負(fù)載均衡)、請(qǐng)求數(shù)量盡量相同(dispatch發(fā)送量負(fù)載均衡)。
Expert-ParallelLoadBalancer
核心問(wèn)題:對(duì)于給定MoE模型,存在一些天然的高負(fù)載專(zhuān)家(expert),導(dǎo)致不同GPU的專(zhuān)家計(jì)算負(fù)載不均衡。
優(yōu)化目標(biāo):每個(gè)GPU上的專(zhuān)家計(jì)算量均衡(即最小化所有GPU的dispatch接收量的最大值)。
線上系統(tǒng)的實(shí)際統(tǒng)計(jì)數(shù)據(jù)
DeepSeekV3和R1的所有服務(wù)均使用H800GPU,使用和訓(xùn)練一致的精度,即矩陣計(jì)算和dispatch傳輸采用和訓(xùn)練一致的FP8格式,core-attention計(jì)算和combine傳輸采用和訓(xùn)練一致的BF16,最大程度保證了服務(wù)效果。
另外,由于白天的服務(wù)負(fù)荷高,晚上的服務(wù)負(fù)荷低,因此實(shí)現(xiàn)了一套機(jī)制,在白天負(fù)荷高的時(shí)候,用所有節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候,減少推理節(jié)點(diǎn),以用來(lái)做研究和訓(xùn)練。在最近的24小時(shí)里(北京時(shí)間2025/02/27 12:00至2025/02/28 12:00),DeepSeek-V3和R1推理服務(wù)占用節(jié)點(diǎn)總和,峰值占用為278個(gè)節(jié)點(diǎn),平均占用226.75個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)為8個(gè)H800GPU)。假定GPU租賃成本為2美金/小時(shí),總成本為87072美元/天。
在24小時(shí)統(tǒng)計(jì)時(shí)段內(nèi),DeepSeek-V3和R1:
輸入token總數(shù)為608B,其中342Btokens(56.3%)命中KVCache硬盤(pán)緩存。
輸出token總數(shù)為168B。平均輸出速率為20~22tps,平均每輸出一個(gè)token的KVCache長(zhǎng)度是4989。
平均每臺(tái)H800的吞吐量為:對(duì)于prefill任務(wù),輸入吞吐約73.7ktokens/s(含緩存命中);對(duì)于decode任務(wù),輸出吞吐約14.8ktokens/s。
以上統(tǒng)計(jì)包括了網(wǎng)頁(yè)、APP和API的所有負(fù)載。如果所有tokens全部按照DeepSeek-R1的定價(jià)計(jì)算,理論上一天的總收入為562027美元,成本利潤(rùn)率為545%。當(dāng)然實(shí)際上沒(méi)有這么多收入,因?yàn)閂3的定價(jià)更低,同時(shí)收費(fèi)服務(wù)只占了一部分,另外夜間還會(huì)有折扣。
有網(wǎng)友將DeepSeek與OpenAI進(jìn)行對(duì)比,表示:“‘成本利潤(rùn)率545%’,等一下,所以你是說(shuō)我被OpenAI搶劫了?”
潞晨科技暫停DeepSeek API服務(wù)
就在DeepSeek披露大規(guī)模部署成本和收益之后,潞晨科技突然宣布:“尊敬的用戶(hù),潞晨云將在一周后停止提供DeepSeek API服務(wù),請(qǐng)盡快用完您的余額。如果沒(méi)用完,我們?nèi)~退款?!?/p>
此前2月4日晚間,華為計(jì)算微信公眾號(hào)發(fā)文表示,DeepSeek-R1系列模型的開(kāi)源,因其出色的性能和低廉的開(kāi)發(fā)成本,已引發(fā)全球的熱切討論和關(guān)注。潞晨科技攜手昇騰,聯(lián)合發(fā)布基于昇騰算力的DeepSeek-R1系列推理API,及云鏡像服務(wù)。
但近期潞晨科技CEO尤洋指出,滿血版DeepSeek-R1每百萬(wàn)token(輸出)定價(jià)16元,如果每日輸出1000億token,一個(gè)月算下來(lái)接入方企業(yè)可獲得4800萬(wàn)元收入。據(jù)他測(cè)算,完成1000億token的輸出,需要約4000臺(tái)搭載H800的機(jī)器,以目前H800的市價(jià)或者折舊來(lái)計(jì)算,每月僅機(jī)器成本就達(dá)4.5億元,因此企業(yè)方可能面臨每月4億元的虧損,“用戶(hù)越多,服務(wù)成本越高,虧損越多”。
3月1日下午4點(diǎn),潞晨科技CEO尤洋發(fā)文回應(yīng)DeepSeek公布的理論成本利潤(rùn)率。
公開(kāi)資料顯示,潞晨科技是一家致力于“解放AI生產(chǎn)力”的全球性企業(yè),團(tuán)隊(duì)核心成員來(lái)自美國(guó)加州大學(xué)伯克利分校,斯坦福大學(xué),清華大學(xué),北京大學(xué)等國(guó)內(nèi)外知名高校。主營(yíng)業(yè)務(wù)包括分布式軟件系統(tǒng),大規(guī)模人工智能平臺(tái),以及企業(yè)級(jí)云計(jì)算解決方案。公司旨在打造一個(gè)開(kāi)源低成本AI大模型開(kāi)發(fā)系統(tǒng)Colossal-AI,作為深度學(xué)習(xí)框架的內(nèi)核,幫助企業(yè)最大化人工智能訓(xùn)練效率的同時(shí)最小化人工智能的訓(xùn)練成本。
校對(duì):紀(jì)元
編輯:嘉穎
審核:許聞
張家港移動(dòng)網(wǎng)站搭建,助力企業(yè)轉(zhuǎn)型升級(jí),打造數(shù)字化新名片,張家港移動(dòng)網(wǎng)站賦能,企業(yè)數(shù)字化轉(zhuǎn)型升級(jí)新篇章,張家港移動(dòng)網(wǎng)站賦能,企業(yè)數(shù)字化轉(zhuǎn)型升級(jí)新篇章啟航
下一篇歡迎使用Z-BlogPHP!
相關(guān)文章
最新評(píng)論