界面新聞記者 | 李彪
界面新聞編輯 | 文姝琪
持續五天的“DeepSeek開源周”剛結束,DeepSeek團隊就在國內知乎平臺注冊官方賬戶,并在3月1日當天發布了第一條動態。這篇最新的帖子首次對外公布模了型的優化技術細節、成本利潤率等關鍵信息。
這篇帖子最吸引眼球的一個結論是,按DeepSeek測算,假定GPU租賃成本為2美元/小時,總成本為8.7萬美元/天。如果統計包括網頁、App和API在內的所有負載,將所有模型tokens全部按照DeepSeek-R1的定價(DeepSeek R1 的定價:$0.14 / 百萬輸入 tokens (緩存命中),$0.55 / 百萬輸入 tokens (緩存未命中),$2.19 / 百萬輸出 tokens)計算,理論上一天的總收入為5.62萬美元,算下來成本利潤率為545%。
高達545%的利潤率意味著什么,又會給行業帶來了怎樣的影響?界面新聞采訪了復旦大學計算機科學技術學院教授張奇,他的研究方向為自然語言處理、信息檢索 、數據密集型計算。
在自然語言處理中,Token是語言文本被分割后的基本單位,每個用戶向AI提問并獲取回答,問題及答案的文本長度對應數量不等的Token。AI處理每個Token都需要消耗算力。此外,還存在命中緩存與否的情況,命中緩存指用戶向AI提問涉及的相關數據已存在于緩存之中,模型可直接調用,無需重新計算或從數據庫檢索,節省了算力、時間及存儲資源,成本更低,若沒能命中,則需要消耗更多算力等資源,成本更高。
目前,按Token計價收費是AI公司的主要商業模式。命中緩存相對價格較低,未命中則收費更高。
張奇告訴記者,對行業來說,DeepSeek在最新的文章中提到的56.3%緩存命中率(原文稱,在 24 小時統計時段內,DeepSeek V3 和 R1都能實現輸入 token 總數為 608B,其中 342B tokens(56.3%)命中 KVCache 硬盤緩存)是一項具有重要意義數據。
“雖然各家沒有公布過相關數據,但超過一半的命中率在業內應該已是很高的水平。”張奇認為,像在DeepSeek所開發的6710億參數超大模型上,幾億用戶提問時所寫的文本多多少少存在差異,在這種前提下能夠實現高中率,說明團隊在模型整體優化上做了很多工作。
據DeepSeek團隊介紹,V3、R1推理系統的優化目標就是追求“更大的吞吐,更低的延遲。”
基于DeepSeek采取的混合專家模型核心架構(MOE),超大模型由眾多規模較小的專家模型組成,并承擔不同的分工。通俗用人類世界的團隊合作來解釋其中所需要的調度工作,如果一個團隊要將各個領域的專家集合到一起來攻克某項任務,就需要事先把整體任務拆分成多個流程環節的任務,再按照分配給不同領域的專家,讓他們每個人都發揮專業技能解決問題,最后匯總結論。
DeepSeek在文中寫道,由于DeepSeek-V3 / R1的專家數量眾多,并且按照最初的設計規則,每層256個專家在實際運行中僅激活其中8個。要實現團隊的“大吞吐,低延遲”的優化目標,就需要做到短時間處理大量任務時“高效調用”每個專家,也就是DeepSeek在文中提到的“大規模跨節點專家并行(Expert Parallelism / EP)”。
“這是一項難度極大的平衡工作,如果模型優化分配上做不好,就會使得一個6000多億參數的超大模型,每次可能只有8個或幾個專家在實際運行,而且如果某一個沒有運行完,剩下的所有專家可能在等待。等待則通常又意味著計算資源的浪費。”張奇認為,在DeepSeek開源前,混合專家模型的平衡設計對許多AI模型大廠都是尚未攻克的難題。
此外,據DeepSeek介紹,另外,由于白天用戶訪問量大、服務負荷高,晚上的服務負荷低,團隊實現了一套機制,在白天負荷高的時候,利用所有模型節點部署推理服務。晚上負荷低的時候,減少推理節點,以用來做研究和訓練。
根據DeepSeek統計,按照這套“白天推理——晚上訓練”的方案規劃,在最近的24小時內,將DeepSeek V3和R1推理服務占用節點加到一起,任務繁忙的高峰期最多占用278個節點,平均占用226.75個節點(每個節點為8個英偉達H800 GPU)。
張奇認為,考慮到DeepSeek還有新模型項目及其他工作需要GPU,上述1800-2000張H800GPU(平均占用節點數乘以8個GPU),大概率已經用上了DeepSeek現階段為DeepSeek V3與R1模型所能調用的“全部算力資源”。
此前按照行業觀點,DeepSeek的創新突破在于,在有限資源的環境下,將效率提升到了極致,從而實現了模型的低成本開發。在上述一系列優化效率的基礎之上,才有了545%的成本利潤率。
但DeepSeek也強調,545%只是一個理論值,實際運行時沒“有這么多收入”。因為 V3 的定價更低,同時收費服務只占一部分,另外夜間還另有折扣。
此前,DeepSeek在同類模型廠商中就以“AI拼多多”的低價標簽備受關注。
去年推出V2模型時,DeepSeek就曾在4月首次將API調用價格降至輸入1元/百萬tokens、輸出2元/百萬tokens,引發了豆包、Kimi、文心一言等廠商的跟進,帶動了第一波模型價格戰。最新的V3模型服務定價僅為OpenAI同類模型4o的1/15,R1模型的價格也遠低于同行。
此次公布出的高利潤率也讓外界看清了DeepSeek降價的“底牌”。
在此之前,業內一度熱議“DeepSeek模型API定價過低是否會帶來巨大虧損”,DeepSeek前研究員羅福莉去年5月在個人知乎上否認了這一點。據她透露,目前以DeepSeek現在的定價,大規模服提供服務,不虧本,利潤率超50%。DeepSeek創始人梁文峰也在接受36氪媒體專訪時提到,公司的定價策略是“原則上不虧本銷售,也不追求過高利潤。目前的定價僅在成本之上保留了一定的利潤空間。”
目前,業內宣布接入部署“滿血版”DeepSeek R1模型的廠商大多以單機(8張GPU的服務器)、雙機這一類小規模設備為主。據記者了解,“四機目前是業內考驗公司技術能力的一道分水嶺”。而隨著服務器臺數越多,規模化部署調度和優化難度越大,DeepSeek團隊所實現的300多臺服務器部署工程對團隊技術能力要求更是急劇上升。
眼下,雖然545%的成本利潤率是DeepSeek基于大規模部署測算的一個理論值,實際的利潤水平官方并未公布,但依然讓行業開始看到了“賺錢的希望”。
張奇認為,DeepSeek在公布利潤率的同時也將模型優化方法開源,行業會更加積極學習這套優化方法部署DeepSeek。雖然對絕大多數公司來說,“知道”和“做到”是兩件事,將同樣優化方法落到實際會遇到各種新問題,但整個行業會在這方面進行更多嘗試。
(界面新聞記者伍洋宇對此文亦有貢獻)