突然宣布！暫停DeepSeek API服務(wù)

快訊 2025年03月01日 22:30 1 admin

專(zhuān)題：DeepSeek為何能震動(dòng)全球AI圈

　　【導(dǎo)讀】DeepSeek一天能賺多少錢(qián)？官方突然揭秘！潞晨科技暫停DeepSeek API服務(wù)

　　中國(guó)基金報(bào)記者泰勒

　　大家好，一起關(guān)注一下關(guān)于DeepSeek的最新消息！

　　DeepSeek首次披露：理論成本利潤(rùn)率545%

　　當(dāng)市場(chǎng)以為DeepSeek的開(kāi)源周內(nèi)容發(fā)布完畢之后，3月1日，DeepSeek宣布了“One More Thing”，突然揭秘V3/R1推理系統(tǒng)，公開(kāi)了大規(guī)模部署成本和收益。

突然宣布！暫停DeepSeek API服務(wù)

　　根據(jù)《DeepSeek-V3/R1推理系統(tǒng)概覽》的文章，假定GPU租賃成本為2美元/小時(shí)，總成本為87072美元/天；如果所有tokens全部按照DeepSeek R1的定價(jià)計(jì)算，理論上一天的總收入為562027美元/天，成本利潤(rùn)率為545%。

　　據(jù)官方披露，DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標(biāo)是：更大的吞吐，更低的延遲。

　　為了實(shí)現(xiàn)這兩個(gè)目標(biāo)，DeepSeek使用大規(guī)?？绻?jié)點(diǎn)專(zhuān)家并行（Expert Parallelism / EP）。首先EP使得batch size大大增加，從而提高GPU矩陣乘法的效率，提高吞吐。其次EP使得專(zhuān)家分散在不同的GPU上，每個(gè) GPU 只需要計(jì)算很少的專(zhuān)家（因此更少的訪存需求），從而降低延遲。

　　但EP同時(shí)也增加了系統(tǒng)的復(fù)雜性。復(fù)雜性主要體現(xiàn)在兩個(gè)方面：

　　EP引入跨節(jié)點(diǎn)的傳輸。為了優(yōu)化吞吐，需要設(shè)計(jì)合適的計(jì)算流程使得傳輸和計(jì)算可以同步進(jìn)行。

　　EP涉及多個(gè)節(jié)點(diǎn)，因此天然需要Data Parallelism（DP），不同的DP之間需要進(jìn)行負(fù)載均衡。

　　因此，DeepSeek介紹了如何使用EP增大batch size，如何隱藏傳輸?shù)暮臅r(shí)，如何進(jìn)行負(fù)載均衡。

　　大規(guī)模跨節(jié)點(diǎn)專(zhuān)家并行（Expert Parallelism / EP）

　　由于DeepSeek-V3/R1的專(zhuān)家數(shù)量眾多，并且每層256個(gè)專(zhuān)家中僅激活其中8個(gè)。模型的高度稀疏性決定了必須采用很大的overall batch size，才能給每個(gè)專(zhuān)家提供足夠的expert batch size，從而實(shí)現(xiàn)更大的吞吐、更低的延時(shí)。需要大規(guī)?？绻?jié)點(diǎn)專(zhuān)家并行（Expert Parallelism / EP）。

　　采用多機(jī)多卡間的專(zhuān)家并行策略來(lái)達(dá)到以下目的：

　　Prefill：路由專(zhuān)家EP32、MLA和共享專(zhuān)家DP32，一個(gè)部署單元是4節(jié)點(diǎn)，32個(gè)冗余路由專(zhuān)家，每張卡9個(gè)路由專(zhuān)家和1個(gè)共享專(zhuān)家。

　　Decode：路由專(zhuān)家EP144、MLA和共享專(zhuān)家DP144，一個(gè)部署單元是18 節(jié)點(diǎn)，32個(gè)冗余路由專(zhuān)家，每張卡2個(gè)路由專(zhuān)家和1個(gè)共享專(zhuān)家。

　　計(jì)算通信重疊

　　多機(jī)多卡的專(zhuān)家并行會(huì)引入比較大的通信開(kāi)銷(xiāo)，所以使用了雙batch重疊來(lái)掩蓋通信開(kāi)銷(xiāo)，提高整體吞吐。

　　對(duì)于prefill階段，兩個(gè)batch的計(jì)算和通信交錯(cuò)進(jìn)行，一個(gè)batch在進(jìn)行計(jì)算的時(shí)候可以去掩蓋另一個(gè)batch的通信開(kāi)銷(xiāo)；

突然宣布！暫停DeepSeek API服務(wù)

　　對(duì)于decode階段，不同階段的執(zhí)行時(shí)間有所差別，所以把a(bǔ)ttention部分拆成了兩個(gè)stage，共計(jì)5個(gè)stage的流水線來(lái)實(shí)現(xiàn)計(jì)算和通信的重疊。

突然宣布！暫停DeepSeek API服務(wù)

　　盡可能地負(fù)載均衡

　　由于采用了很大規(guī)模的并行（包括數(shù)據(jù)并行和專(zhuān)家并行），如果某個(gè)GPU的計(jì)算或通信負(fù)載過(guò)重，將成為性能瓶頸，拖慢整個(gè)系統(tǒng)；同時(shí)其他GPU因?yàn)榈却辙D(zhuǎn)，造成整體利用率下降。因此需要盡可能地為每個(gè)GPU分配均衡的計(jì)算負(fù)載、通信負(fù)載。

PrefillLoadBalancer

核心問(wèn)題：不同數(shù)據(jù)并行（DP）實(shí)例上的請(qǐng)求個(gè)數(shù)、長(zhǎng)度不同，導(dǎo)致core-attention計(jì)算量、dispatch發(fā)送量也不同。

優(yōu)化目標(biāo)：各GPU的計(jì)算量盡量相同（core-attention計(jì)算負(fù)載均衡）、輸入的token數(shù)量也盡量相同（dispatch發(fā)送量負(fù)載均衡），避免部分GPU處理時(shí)間過(guò)長(zhǎng)。

DecodeLoadBalancer

核心問(wèn)題：不同數(shù)據(jù)并行（DP）實(shí)例上的請(qǐng)求數(shù)量、長(zhǎng)度不同，導(dǎo)致core-attention計(jì)算量（與KVCache占用量相關(guān)）、dispatch發(fā)送量不同。

優(yōu)化目標(biāo)：各GPU的KVCache占用量盡量相同（core-attention計(jì)算負(fù)載均衡）、請(qǐng)求數(shù)量盡量相同（dispatch發(fā)送量負(fù)載均衡）。

Expert-ParallelLoadBalancer

核心問(wèn)題：對(duì)于給定MoE模型，存在一些天然的高負(fù)載專(zhuān)家（expert），導(dǎo)致不同GPU的專(zhuān)家計(jì)算負(fù)載不均衡。

優(yōu)化目標(biāo)：每個(gè)GPU上的專(zhuān)家計(jì)算量均衡（即最小化所有GPU的dispatch接收量的最大值）。

突然宣布！暫停DeepSeek API服務(wù)

　　線上系統(tǒng)的實(shí)際統(tǒng)計(jì)數(shù)據(jù)

　　DeepSeekV3和R1的所有服務(wù)均使用H800GPU，使用和訓(xùn)練一致的精度，即矩陣計(jì)算和dispatch傳輸采用和訓(xùn)練一致的FP8格式，core-attention計(jì)算和combine傳輸采用和訓(xùn)練一致的BF16，最大程度保證了服務(wù)效果。

　　另外，由于白天的服務(wù)負(fù)荷高，晚上的服務(wù)負(fù)荷低，因此實(shí)現(xiàn)了一套機(jī)制，在白天負(fù)荷高的時(shí)候，用所有節(jié)點(diǎn)部署推理服務(wù)。晚上負(fù)荷低的時(shí)候，減少推理節(jié)點(diǎn)，以用來(lái)做研究和訓(xùn)練。在最近的24小時(shí)里（北京時(shí)間2025/02/27 12：00至2025/02/28 12：00），DeepSeek-V3和R1推理服務(wù)占用節(jié)點(diǎn)總和，峰值占用為278個(gè)節(jié)點(diǎn)，平均占用226.75個(gè)節(jié)點(diǎn)（每個(gè)節(jié)點(diǎn)為8個(gè)H800GPU）。假定GPU租賃成本為2美金/小時(shí)，總成本為87072美元/天。

突然宣布！暫停DeepSeek API服務(wù)

　　在24小時(shí)統(tǒng)計(jì)時(shí)段內(nèi)，DeepSeek-V3和R1：

　　輸入token總數(shù)為608B，其中342Btokens（56.3%）命中KVCache硬盤(pán)緩存。

　　輸出token總數(shù)為168B。平均輸出速率為20~22tps，平均每輸出一個(gè)token的KVCache長(zhǎng)度是4989。

　　平均每臺(tái)H800的吞吐量為：對(duì)于prefill任務(wù)，輸入吞吐約73.7ktokens/s（含緩存命中）；對(duì)于decode任務(wù)，輸出吞吐約14.8ktokens/s。

　　以上統(tǒng)計(jì)包括了網(wǎng)頁(yè)、APP和API的所有負(fù)載。如果所有tokens全部按照DeepSeek-R1的定價(jià)計(jì)算，理論上一天的總收入為562027美元，成本利潤(rùn)率為545%。當(dāng)然實(shí)際上沒(méi)有這么多收入，因?yàn)閂3的定價(jià)更低，同時(shí)收費(fèi)服務(wù)只占了一部分，另外夜間還會(huì)有折扣。

突然宣布！暫停DeepSeek API服務(wù)

　　有網(wǎng)友將DeepSeek與OpenAI進(jìn)行對(duì)比，表示：“‘成本利潤(rùn)率545%’，等一下，所以你是說(shuō)我被OpenAI搶劫了？”

突然宣布！暫停DeepSeek API服務(wù)

　　潞晨科技暫停DeepSeek API服務(wù)

　　就在DeepSeek披露大規(guī)模部署成本和收益之后，潞晨科技突然宣布：“尊敬的用戶(hù)，潞晨云將在一周后停止提供DeepSeek API服務(wù)，請(qǐng)盡快用完您的余額。如果沒(méi)用完，我們?nèi)~退款?！?/p>

突然宣布！暫停DeepSeek API服務(wù)

　　此前2月4日晚間，華為計(jì)算微信公眾號(hào)發(fā)文表示，DeepSeek-R1系列模型的開(kāi)源，因其出色的性能和低廉的開(kāi)發(fā)成本，已引發(fā)全球的熱切討論和關(guān)注。潞晨科技攜手昇騰，聯(lián)合發(fā)布基于昇騰算力的DeepSeek-R1系列推理API，及云鏡像服務(wù)。

　　但近期潞晨科技CEO尤洋指出，滿血版DeepSeek-R1每百萬(wàn)token（輸出）定價(jià)16元，如果每日輸出1000億token，一個(gè)月算下來(lái)接入方企業(yè)可獲得4800萬(wàn)元收入。據(jù)他測(cè)算，完成1000億token的輸出，需要約4000臺(tái)搭載H800的機(jī)器，以目前H800的市價(jià)或者折舊來(lái)計(jì)算，每月僅機(jī)器成本就達(dá)4.5億元，因此企業(yè)方可能面臨每月4億元的虧損，“用戶(hù)越多，服務(wù)成本越高，虧損越多”。

突然宣布！暫停DeepSeek API服務(wù)

　　3月1日下午4點(diǎn)，潞晨科技CEO尤洋發(fā)文回應(yīng)DeepSeek公布的理論成本利潤(rùn)率。

突然宣布！暫停DeepSeek API服務(wù)

　　公開(kāi)資料顯示，潞晨科技是一家致力于“解放AI生產(chǎn)力”的全球性企業(yè)，團(tuán)隊(duì)核心成員來(lái)自美國(guó)加州大學(xué)伯克利分校，斯坦福大學(xué)，清華大學(xué)，北京大學(xué)等國(guó)內(nèi)外知名高校。主營(yíng)業(yè)務(wù)包括分布式軟件系統(tǒng)，大規(guī)模人工智能平臺(tái)，以及企業(yè)級(jí)云計(jì)算解決方案。公司旨在打造一個(gè)開(kāi)源低成本AI大模型開(kāi)發(fā)系統(tǒng)Colossal-AI，作為深度學(xué)習(xí)框架的內(nèi)核，幫助企業(yè)最大化人工智能訓(xùn)練效率的同時(shí)最小化人工智能的訓(xùn)練成本。

　　校對(duì)：紀(jì)元

　　編輯：嘉穎

　　審核：許聞

標(biāo)簽：暫停 DeepSeek 宣布