成本是GPT的1/20,轟動矽谷的中國大模型DeepSeek是怎麼做到的?

“善攻者,敵不知其所守;善守者,敵不知其所攻。這基本就是美國和中國了。”


01

站在匯金國際大廈,透過巨大的落地窗,京杭大運河一覽無餘。樓下的環城北路,是杭州最繁忙的主幹道之一。而在這座被嘈雜聲包圍的冷色調建築裡,誕生一家被美國矽谷稱為“東方神秘力量”的公司。

如今恐怕都不能用“火熱”“震驚”來形容它了。年末的時候,它迭代推出大語言模型DeepSeek-V3,報導稱“訓練消耗的算力僅為最強大的開源模型Llama 3 405B的1/11”,轟動了全球AI圈。



這家“神秘”的公司便是“深度求索”,大模型產品叫DeepSeek,如今更新到第三代,手機註冊帳號,個人就能免費使用。創始人叫梁文鋒,80後,浙大高才生,也是深度求索母公司——私募巨頭幻方量化的創始人。

梁文鋒很低調,平時“看論文,寫程式碼,參與小組討論”,甚至連DeepSeek機器人都反覆糾正自己的老闆叫“朱明傑”。他提前囤了一萬枚輝達的GPU,在大語言模型大門關閉前一隻腳跨了過去。深度求索成了除大廠外唯一一家能做通用大模型的中國初創公司。

公司成立一年半,很年輕,休息日不加班。保潔阿姨說是一群不起眼的小夥子和小姑娘。而這幫目光澄澈的年輕人中,一個名叫羅福莉的95後脫穎而出,她僅僅參與了上一代大模型的關鍵研發,就被雷軍用千萬年薪招至麾下,媒體叫她“天才少女”。



用梁文鋒受訪的話講,“看能力,而不是看經驗”,核心技術崗位“基本以應屆和畢業一兩年的人為主”。

過去的一年裡,他們一邊搞研究,一邊拿著新鮮熱乎的論文評獎。當有了一個不錯的想法,公司會自上而下調動資源,所以即便一個實習生,都能在大模型的研發上貢獻頗多。在矽谷圈,他們被描述為“一批高深莫測的奇才”。

無論是團隊特徵還是運作結構,難免會讓人想起那股曾風靡AI界的力量——OpenAI。這便是媒體和早期採訪中DeepSeek的樣子。


02

DeepSeek的規模不大,算上樑文鋒不到150人,而OpenAI有2000多人。或許,從它進入公眾視野的那一刻起,就註定會被拿來和OpenAI比較。

相較OpenAI的GPT系列產品,DeepSeek在訓練方法和模型架構上有多方面的創新。

雖然兩者都是基於Transformer架構,但它採用了全新的MLA(多頭潛在注意力機制)架構,能降低5%—13%的推理視訊記憶體,而自研的DeepSeekMoE架構,大幅減少了計算量。

知名科技博主Rick 張打了個比喻:

OpenAI的訓練方法是‘大水漫灌式’,拿來的資料放到‘黑盒’裡訓練,一次不行再試一次,直到行為止,因此很燒錢;DeepSeek是先一步利用演算法,對資料進行總結和分類,然後輸送給大模型,類似把目錄和框架先給到大模型,再將所有內容,按照這個分類和知識點,訓練大模型理解並掌握。這意味著大模型的訓練相比‘黑盒’變得更加規律和透明化。


通過此法,DeepSeek形成了最大競爭優勢——便宜,而且便宜到了“不可思議”。

根據媒體報導,DeepSeek-V3僅用了2048塊GPU,訓練了不到2個月,共花費550多萬美元。而GPT-4o模型訓練成本約為1億美元,這意味著DeepSeek的成本只有GPT-4o的1/20。


OpenAI創始成員之一 對DeepSeek-V3超低訓練成本感到震驚


鮮為人知的是,上半年中國大模型價格戰的“始作俑者”,正是DeepSeek。5月,DeepSeek-V2的推理成本被降到每百萬token僅1塊錢,是GPT-4 Turbo的1/70,智譜AI、豆包、通義千問等大模型先後跟進。

DeepSeek也因此解鎖新綽號——AI界拼多多。

然而,DeepSeek並非和價格戰中的一些玩家那樣一直“虧錢賺吆喝”。梁文鋒曾說:“我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”

由於DeepSeek太過驚豔,難免會被懷疑“站在了巨人的肩膀上”。

科技圈知名研究員David 劉(化名),曾體驗過DeepSeek,他發現了一個早期的漏洞:當你問DeepSeek是誰的時候,機器人會回答“我是ChatGPT”。


圖源:網路


“國內做大模型有個套路,喜歡拿GPT訓練,速度又快又隱蔽。”劉說,“相互訓練只是全球各大模型訓練的常規操作。當你問Google大模型產品‘你是誰’時,它同樣會說‘我是文心一言’。”

不過,DeepSeek“站在了巨人的肩膀上”更多是指OpenAI為它提供了創新的“踏腳石”。

一位DeepSeek資料科學家表示,DeepSeek-V3採用的一項關鍵項目創新建立在FP8上訓練模型,而非GPT使用的FP16。

簡而言之,FP8訓練精準度更低。如果沒有GPT-4等前沿模型“鋪路”,用較低的精準度訓練是不可能的。

打個比方。你想從A地到陌生的B地,你不知道如何到達,甚至懷疑到底能否到達時,就會變得小心翼翼,步履維艱。但如果A點到B點確定能到,而且只要按照大致方向前進,你就會放心大膽地向前跑。


03

清華大學人工智慧學院教授瀋陽認為,從深度思考來看,DeepSeek是國內大模型第一,也是全球開源大模型第一。


DeepSeek


在不少業內人看來,深度求索即將加入“大模型六小龍”的陣營。

“大模型六小龍”指的是,經過一年多來的“百模大戰”,有六家估值超10億美元的獨角獸AI創業公司站穩了腳跟,分別是智譜、MiniMax、月之暗面、百川智能、零一萬物和階躍星辰,它們帶著各自的產品緊跟國外領先大模型。

這六家公司都面臨同樣挑戰。在算力上缺乏高端晶片,只能通過AI人才最佳化演算法。商業化上面臨國內大模型巨頭在開發和流量上的優勢,它們積極尋找差異化應用方向,以求在殘酷的競爭中活下來。

但深度求索是個例外。

在七家中國大模型明星創業公司中,它是“至今專注於研究和技術的公司,也是唯一一家尚未全面考慮商業化,選擇開源路線甚至都沒融過資的公司”。

或許梁文鋒真的試圖打破“國外從0到1,中國從1到N”的定式思維——歐美人搞基礎性研究,中國人負責應用落地。

而從如今歐美科技圈的各種評論來看,聖誕節後的“大禮”,除了中國第六代戰機,可能沒有什麼比推出一款對標GPT、訓練成本只要500萬美元且開放原始碼的大模型更震撼了。以至於他們反思:難道電動車、無人機的故事,也會在AI領域重演嗎?

當然,關於DeepSeek是否真的如媒體報導的那樣效率極高、成本極低,還有待驗證。為此,我們請來了一些科技領域的專家,通過親身體驗,來客觀分析和評價一下DeepSeek的技術和前景,以及中美未來的圖景。


大頭有話說


張孝榮 深度科技研究院院長


關於DeepSeek的使用體驗,我有四個感受。

◎ 第一,在問題答覆、文書處理方面,跟其他國產大模型相比,相差並不明顯,也時常容易出現AI幻覺。所謂的AI幻覺,指的就是AI工具給到的結論或資訊,存在一定的虛假成分或誤導性。

◎ 第二,相較於其他大模型,DeepSeek模型優點體現在多模態處理、高解析度圖片輸入、開源與商用授權政策上。換言之,能理解多種類型的資料,從圖片到音視訊等等;可以再大尺寸解析度圖片中,識別圖中細小的物體;並提供開源商用授權,為開發者和研究者提供技術支援。

◎ 第三,不足之處主要體現在處理極端複雜的情形,或者非常規的視覺-語言(VLM)場景時,還需要進一步最佳化。即讓大模型在同時接收處理一些非常規的圖像和文字時,表現有待提高。

◎ 第四,由於這個產品剛起步推廣,至今也沒有開發移動終端,社區和生態系統也有待完善。

進一步分析訓練方法和原理,與包括OpenAI的其他大模型相比,DeepSeek在高效性和成本效益方面具有明顯優勢。

DeepSeek採用了混合專家架構(MoE)和多頭潛在注意力機制(MLA),通過顯著壓縮鍵值(kv)快取為潛在向量,減少了推理過程中對鍵值快取的需求,提高了推理效率。

而以OpenAI為例,則更注重內部思維鏈(internal chain of thought)的建構,在回答問題前會主動思考,將複雜問題拆解為多個子問題。

此外,兩者在訓練資料的選擇和最佳化上可能也存在差異。

DeepSeek在架構設計和最佳化技術上進行了創新,包括混合專家架構、多頭潛在注意力機制、最佳化預訓練語料庫等。這些技術使得DeepSeek能夠在保持性能的同時,大幅度降低計算和儲存需求。

通俗一點來說,包括以下做法:

1.資料壓縮:通過MLA架構和FP8混合精度,減少資料量,降低記憶體佔用。

2.選擇性處理:優先處理重要資料,簡化次要資料,提高訓練效率。

3.知識蒸餾:利用教師模型生成高品質資料,加速學生模型訓練。

最終結果就是,DeepSeek-V3作為一款參數量高達671B的大型語言模型,在預訓練階段只用了2048塊GPU,這一數字相比其他大型模型動輒幾萬塊GPU來說僅是個零頭,確實很少。

由於沒有直接驗證,關於坊間所謂的“DeepSeek以1/11算力訓練出超過Llama 3 405B的開源模型”的真實性,我無法給出確切結論,如果這一說法屬實,那麼它確實涉及到底層技術的革命性變化。

不可否認的是,DeepSeek-V3的訓練方法確實給大模型訓練降低研發成本提供了新思路。

作為AI領域的一股清流,DeepSeek專注於研究和技術的態度值得肯定,它的實踐打破了“演算法越強算力需求越大”的認識誤區,證明了大模型對先進算力的依賴並非如想像中那麼強烈,可以有低成本的選擇。同時,DeepSeek的開源策略也為整個AI行業帶來了積極影響,加速了技術的普及和應用。


何帥 資深科技自媒體人


從體驗來看,DeepSeek有自己的優點,比如在解決數學運算方面的邏輯性更強一些,但是在更廣泛的知識層面的問答、常識上的問答就和百度等主流模型以及OpenAI的大模型GPT-4尚存差距。

關於媒體或專家所說的DeepSeek訓練效率更高、成本更低這件事,甚至“用1/11的訓練速度超過Google的Llama”等,目前還停留在報導層面,只是這些報導,再加上員工曾被小米高薪挖走等熱點的疊加,讓它突然火了起來。據我所知,它在量化交易上的表現較為優異,但其他商業化方面暫沒有特別突出的表現,有待進一步觀察。

相對可以肯定的是,DeepSeek是“站在巨人的肩膀上”,當前國內外的大模型發展都比較迅速,它作為“新人”自然可以集各家所長,進行訓練資料的選擇、模型架構的設計以及最佳化訓練策略,這可能是它表現優異的原因之一。

至於拿它在訓練效率上的突破,來延伸到對輝達衝擊,我覺得可能性不大,至少目前的影響很小。

中美之間,技術和人才的差距其實並不大,主要我們還是硬體部分受限,技術研究、軟體生態方面,基本上和美國不相向下。


張津京 BT財經創始人


去年六月,中國大模型和人工智慧頂級專家之一、清華大學的張鈸院士曾經排序,指出國內要想在大模型領域獲得突破。第一個要注意的是知識,第二個注意的就是演算法,第三個是資料,最後才是算力。

*小巴註:據業內人士指出,知識可能是knowhow的意思,以供參考。

DeepSeek的做法,實際上就是跑通了張院士的這套邏輯,也直接證明,國內人工智慧學界對這件事情的認知和判斷是正確的。

與此同時,它有可能會戳破美國製造的“人工智慧硬體狂潮泡沫”。

所謂的人工智慧硬體狂潮,簡單而言,即算力舉足輕重,由此輝達的卡要做得越來越好,賣得越來越貴,買的人卻越來越多。因為算力跟不上,大模型就難以實現。

但現在的情況卻相反:不需要那麼多的算力也可以搞出很好用的模型。或許這也解釋了為什麼當前輝達在到處尋找下一個階段人工智慧的機會,比如具身智能和機器人。

2025年的大模型發展,大機率會往這樣的方向發展。

第一,部分大模型不再沉醉於大規模的訓練(OpenAI在GPT-5上的推遲就是一個訊號),而是開始像DeepSeek精耕細作,做好內部的訓練。

第二,所有大模型都會去爭奪應用領域,在細分場景裡各自進化——就我們團隊的使用體驗來說,資料分析解讀上,星火和通義千問就很不錯;文章寫作,文心一言效果最好;外文讀寫,智譜AI;豆包,多模態處理能力;Kimi大模型搜尋上表現神奇等等——差異化競爭是未來方向。


業內資深人士

從業內視角看,DeepSeek橫空出世,肯定會面臨一些質疑。原因在於,這麼好的產品做出來了,但團隊的成員,在歷史上都尚未發表過比較有價值的論文,也沒有成名的實戰項目,大家心裡自然會犯嘀咕。

但這件事情比較振奮人心的一面在於,它說明,中國在工程能力和工程人才的儲備上,是比較誇張的,也是我們國家的核心優勢。

就是中國科學家在面對這類問題時,一貫的看法是,用系統和工程的視角看問題,絕對可以超越對手。

這是錢學森先生當年提出的理論。

他將極其複雜的研製對象稱為“系統”,即由相互作用和相互依賴的若干組成部分結合成的具有特定功能的有機整體,而且這個“系統”本身又是它所從屬的一個更大系統的組成部分。

例如,研製一種戰略核導彈,就是研製由彈體、彈頭、發動機、制導、遙測、外彈道測量和發射等分系統組成的一個複雜系統;它可能又是由核動力潛艇、戰略轟炸機、戰略核導彈構成的戰略防禦武器系統的組成部分。

研製這樣一種複雜工程系統所面臨的基本問題是:怎樣把比較籠統的初始研製要求逐步地變為成千上萬個研製任務參加者的具體工作,以及怎樣把這些工作最終綜合成一個技術上合理、經濟上合算、研製周期短、能協調運轉的實際系統,並使這個系統成為它所從屬的更大系統的有效組成部分。

從這個意義上來說,美國更崇尚自由探索,工程師以演算法和軟體為主,最大的短板是工程師種類少、數量少、有吃苦精神的少。而中國恰恰相反,硬體工程師和可以“下工地”的工程師多。

比如,馬斯克是典型的系統論,所以在美國顯得特立獨行,但在中國就有情感共鳴,從造電動汽車、火箭到人工智慧,都有很強的系統論思想痕跡。

善攻者,敵不知其所守;善守者,敵不知其所攻。這基本就是美國和中國了。 (吳曉波頻道)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題