【DeepSeek】創始人梁文鋒的獨家採訪

2025/02/03

•

以下是完整採訪，採訪內容翻譯自2024年7月暗湧記者對DeepSeek創始人梁文鋒的獨家採訪。就在該公司憑藉其開源V2模型一舉成名後不久，與他展開了這場對話，揭秘一家中國創業公司如何敢於超越科技巨頭，重塑創新規則。

價格戰的第一槍是如何打響的？

安勇（採訪者）： DeepSeek V2模型發佈後，迅速引發了大模型行業的激烈價格戰。有人認為你們是市場的顛覆者。

梁文峰（DeepSeek創始人）： 我們從未想過要成為顛覆者，這一切只是意外發生的。

安勇： 這個結果讓你意外嗎？

梁文峰： 非常意外。我們沒想到定價會是如此敏感的問題。我們只是按照自己的節奏，計算成本後合理定價。我們的原則是不虧本銷售，也不追求過高利潤。目前的定價僅在成本之上保留了一定的利潤空間。

安勇： 五天後，智譜AI跟進降價，隨後字節跳動、阿里巴巴、百度和騰訊也加入了這場價格戰。

梁文峰： 智譜AI只是降低了入門級產品的價格，而他們的旗艦模型仍然很貴。真正匹配我們旗艦產品價格的是字節跳動，這對其他公司形成了壓力。由於大公司的大模型成本遠高於我們，我們從未想過有人會願意虧本營運。但最終，市場竟然回到了網際網路時代的補貼競爭邏輯。

安勇： 站在外部觀察，降價似乎是一種典型的網際網路時代競爭策略，目的是搶佔使用者。

梁文峰： 搶使用者並不是我們的主要目標。我們降價的原因有兩個：首先，在探索下一代模型架構的過程中，我們的成本下降了；其次，我們認為AI和API服務應該是人人都能負擔得起、隨時可用的。

安勇： 在此之前，大多數中國公司只是複製Llama的模型架構來開發應用。為什麼你們選擇專注於模型結構本身？

梁文峰： 如果目標是做應用，採用Llama的架構快速上線產品是合理的選擇。但我們的目標是AGI（通用人工智慧），這要求我們探索新的模型架構，以在有限的資源下實現更強的能力。這是規模化發展的基礎性研究。除了架構，我們還深入研究了資料篩選和類人推理能力，這些都在我們的模型中有所體現。而且，Llama的訓練效率和推理成本相比全球最前沿的標準，至少落後兩代。

安勇： 這兩代的差距主要體現在那裡？

梁文峰： 首先是訓練效率的差距。我們估算，中國目前最好的模型，在算力相同的情況下，可能需要兩倍的計算資源才能達到全球頂尖模型的水平。這是由於架構和訓練策略的差距。其次是資料利用效率，中國的模型大約只有全球最優水平的一半，也就是說，同樣的結果需要兩倍的資料和計算量。兩者疊加，意味著整體資源消耗是四倍。我們的目標是不斷縮小這個差距。

安勇： 大多數中國公司都會同時佈局模型和應用，為什麼DeepSeek只專注於研究？

梁文峰： 因為我們認為當下最重要的，是參與全球科技創新。長期以來，中國企業習慣於利用海外的技術創新，並通過應用層面進行商業化，但這種模式是不可持續的。這一次，我們的目標不是快速盈利，而是推動技術前沿的發展，從根本上促進整個生態的成長。

安勇： 網際網路和移動網際網路時代的普遍共識是，美國擅長創新，而中國擅長應用落地。

梁文峰： 我們認為，隨著經濟的發展，中國必須逐步從技術的受益者轉變為貢獻者，而不是一直依賴別人的成果。在過去30年的IT革命中，我們幾乎沒有真正參與核心技術創新。

我們習慣了摩爾定律“從天而降”——只需等上18個月，就能獲得更先進的硬體和軟體。同樣，我們對大模型的“規模定律”也是如此。但事實上，這些技術進步是西方科技社區幾代人持續努力的結果。由於我們長期未能深度參與這一處理程序，反而漸漸忽視了其真正的價值。

真正的差距在於原創性，而不僅僅是時間

安勇： 為什麼DeepSeek V2會讓矽谷許多人感到意外？

梁文峰： 在美國，每天都有各種創新出現，從這個角度看，我們的突破並不算特別。但他們驚訝的是，一家中國公司不僅僅是跟隨者，而是以創新者的身份加入了他們的競爭。這與大多數中國企業習慣的模式完全不同。

安勇： 但在中國的現實環境下，單純追求創新似乎是一種奢侈。大模型研發本身極其燒錢，不是每家公司都能在商業化之前只專注於研究。

梁文峰： 創新當然成本高昂，而過去我們傾向於採用現成技術，主要是因為中國的發展階段所限。但今天，中國的經濟規模以及字節跳動、騰訊等巨頭的盈利能力，已經具有全球影響力。我們真正缺乏的不是資金，而是信心，以及組織高水平人才進行有效創新的能力。

安勇： 為什麼即使是資金充足的中國科技巨頭，也往往更重視快速商業化？

梁文峰： 過去30年，我們更關注利潤，而不是創新。但創新不僅僅是商業驅動的，它需要好奇心和創造的野心。我們被過去的習慣束縛住了，但這只是一個階段。

安勇：但DeepSeek畢竟是一家企業，而不是非營利的研究機構。如果你們進行創新，並且像5月發佈的MLA架構那樣開源突破性成果，競爭對手豈不是很快就能複製？你們的護城河在那裡？

梁文峰： 在顛覆性技術領域，封閉式的護城河並不持久。即便是OpenAI的閉源模式，也無法阻止其他公司迎頭趕上。

因此，我們真正的護城河在於團隊的成長——積累技術Know-how，培養創新文化。開源和發表論文不會帶來重大損失。對於技術人員來說，被同行追隨本身就是一種成就。開源不僅僅是商業策略，更是一種文化。回饋社區是一種榮譽，同時也能吸引更多優秀人才。

安勇： 你怎麼看待市場派的觀點，比如朱嘯虎的立場（他主張AI公司應優先商業化，而不是進行基礎研究，並認為AGI是不切實際的）？

梁文峰： 朱嘯虎的邏輯適用於短期盈利項目，但美國最賺錢的公司，往往是那些依靠長期研發建立技術壁壘的科技巨頭。

安勇： 但在AI領域，單純的技術領先還不夠。DeepSeek在更長遠的層面上，究竟押注的是什麼？

梁文峰： 我們認為，中國的AI不能永遠做跟隨者。人們常說，中國AI比美國落後一到兩年，但真正的差距在於“原創”與“模仿”。如果不改變這一點，中國永遠只能追趕別人，而不是引領方向。有些探索是無法迴避的。

輝達的成功並不僅僅是自身努力的結果，而是西方科技生態系統長期合作，共同規劃下一代技術路線的成果。中國也需要類似的生態體系。國內許多晶片失敗，不是因為資金不足，而是因為缺乏支撐性技術社區，僅依賴二手資訊。必須有人走在前沿。

V2模型：完全由本土人才打造

安勇： OpenAI前政策主管、Anthropic聯合創始人Jack Clark曾提到，DeepSeek吸引了一批“難以捉摸的天才”，他們打造了DeepSeek V2。這些人有什麼特點？

梁文峰： 其實沒有什麼“難以捉摸的天才”，只是來自頂尖高校的應屆生、博士生（甚至是四五年級的實習生），以及一些有幾年經驗的年輕人。

安勇： 許多AI大廠熱衷於全球招募頂級人才，有人認為全球前50的AI科學家，很難會在中國的公司任職。你的團隊來自那裡？

梁文峰： DeepSeek V2完全是由本土人才打造的。目前，全球前50的AI人才可能確實不在中國，但我們希望自己培養出這樣的團隊。

安勇： MLA架構創新是怎麼誕生的？聽說最初是某個年輕研究員的個人興趣？

梁文峰： 他在總結主流Attention架構的關鍵演化規律後，突然靈感迸發，設計出了一種新的替代方案。但從想法到現實，是一個漫長的過程。我們組建了團隊，花了幾個月時間驗證它的可行性。

安勇： 這種自發的創新似乎和你們扁平化的組織結構有關。在煥放，你們避免了自上而下的管理。但AGI是一個高不確定性的前沿探索，你們會不會有更多的管理干預？

梁文峰： DeepSeek依然是完全自下而上的。我們也不預先設定角色，分工是自然形成的。每個人都帶著自己的經驗和想法，不需要被推動。當他們遇到挑戰時，會自發地拉上別人討論。不過，一旦某個想法被證明有潛力，我們就會從上層投入資源，推動它的發展。

安勇：我們聽說 DeepSeek 在計算資源和人員調配方面非常靈活。

梁文鋒：我們的計算資源和團隊成員的使用沒有限制。如果有人有想法，他們可以隨時呼叫我們的訓練叢集，無需審批。此外，由於我們沒有嚴格的層級架構或部門壁壘，只要彼此感興趣，團隊成員可以自由協作。

安勇：這種寬鬆的管理方式依賴於招聘極具驅動力的人才。據說 DeepSeek 擅長通過非傳統標準識別卓越人才。

梁文鋒：我們的招聘標準一直基於熱情和好奇心。我們的團隊成員背景各異，充滿個性和趣味性，他們對研究的渴望遠超對金錢的關注。

安勇：Transformer 誕生於 Google AI Lab，ChatGPT 來自 OpenAI。在你看來，大公司 AI 實驗室與創業公司在創新方面有何不同？

梁文鋒：無論是 Google 研究院、OpenAI，還是國內科技巨頭的 AI 實驗室，它們都提供了重要價值。OpenAI 之所以能最終取得突破，也有一定的歷史偶然性。

安勇：所以你認為創新主要靠運氣？你們的辦公室設計中有會議室，兩側的門可以輕鬆打開。你的同事們提到，這種設計讓“偶然相遇”成為可能。這讓我想起 Transformer 的誕生——當時一位路過的研究員無意間聽到討論，幫助將其發展成了通用架構。

梁文鋒：我認為，創新首先是一種信念。為什麼矽谷的創新能力強？因為他們敢於嘗試。ChatGPT 出現時，中國在前沿研究上信心不足。從投資人到大公司，很多人認為差距太大，轉而專注於應用。但創新需要信心，而年輕人往往更具信心。

安勇：與其他 AI 公司積極尋求融資和媒體關注不同，DeepSeek 一直相對低調。你如何確保 DeepSeek 成為 AI 人才的首選？

梁文鋒：因為我們在解決最難的問題。對於頂尖人才來說，最具吸引力的就是挑戰世界上最困難的問題。事實上，中國的頂尖人才經常被低估，因為硬核創新稀缺，他們很少得到認可。而我們正好提供了他們渴望的舞台。

安勇：最近 OpenAI 的發佈會上並未推出 GPT-5，許多人認為行業的技術增長曲線正在放緩，一些人開始質疑 Scaling Law【規模法則】。你怎麼看？

梁文鋒：我們仍然保持樂觀。行業的進展依然符合預期。OpenAI 並非神一般的存在，他們不可能永遠領先。

安勇：你認為實現 AGI 需要多長時間？在 V2 之前，你們發佈了程式碼/數學模型，並從稠密（Dense）架構轉向 MoE【混合專家模型】。你們的路線圖是什麼？

梁文鋒：可能是兩年，五年，或者十年——但一定會在我們這一代人有生之年發生。至於我們的路線圖，即便在公司內部也沒有統一結論。但我們正在下注以下三個方向：

1. 數學與程式碼

——它們是 AGI 的天然試驗場，就像圍棋一樣，是封閉且可驗證的系統，自學習有可能孕育高度智能。

2. 多模態

——讓 AI 直接接觸現實世界進行學習。

3. 自然語言

——它是類人智能的基石。

我們對一切可能性保持開放態度。

安勇：你認為大模型的終局形態會是什麼？

梁文鋒：未來會有專門提供基礎模型和服務的公司，形成一個長產業鏈的專業分工體系。更多公司將在這些基礎之上，為社會的多元需求提供解決方案。

所有策略都是上一代的產物

安勇：過去一年，中國的大模型創業格局發生了許多變化。例如，曾經高調入局的王慧文【美團聯合創始人】中途退出，而新晉選手正在逐步形成差異化。

梁文鋒：王慧文承擔了所有損失，讓其他人全身而退。他做出了對自己最不利、但對大家最有利的決定。我很敬佩他的擔當。

安勇：你目前最關注的是什麼？

梁文鋒：我最關注的是下一代大模型的研究，因為還有很多問題沒有解決。

安勇：許多 AI 創業公司堅持模型研發和應用並重，因為技術領導力並非永久優勢。為什麼 DeepSeek 仍然堅定地專注於研究？是因為你們的模型還不夠強嗎？

梁文鋒：所有策略都是上一代的產物，未來未必仍然適用。用網際網路時代的商業邏輯討論 AI 的未來盈利模式，就像把騰訊早期的發展軌跡拿來對比通用電氣或可口可樂——這就像“刻舟求劍”，是落後的思維方式。

安勇：幻方【量化投資公司】擁有強大的技術和創新基因，發展軌跡也相對順利。這是否讓你對技術驅動的創新更有信心？

梁文鋒：幻方在一定程度上增強了我們對技術驅動創新的信心，但它的成長並非一路平坦。我們經歷了漫長的積累。人們只看到了 2015 年之後的爆發，但實際上，我們已經沉澱了 16 年。

安勇：回到原創性創新的問題——在經濟放緩、資本降溫的背景下，這是否會抑制顛覆性的研發？

梁文鋒：不一定。中國產業格局的重塑將越來越依賴深度科技創新。隨著快速獲利的機會減少，更多人會轉向真正的創新。

安勇：所以你對此持樂觀態度？

梁文鋒：我在 1980 年代成長於廣東的一個五線城市，父親是一名小學教師。上世紀 90 年代，廣東有很多賺錢的機會，很多家長來我家爭論，說讀書沒用。但回頭看，現在的觀點已經變了。賺錢不再像過去那麼容易——甚至連開計程車都不再是一個可行的選擇。僅僅一代人的時間，環境已經發生了巨大變化。

未來，硬核創新只會越來越多。現在大家對它的理解還不夠深，因為整個社會仍在從現實中學習。當社會開始認可深度科技創新者的成功時，集體認知自然會改變。我們需要的，只是更多真實的成功案例，以及時間讓這一過程發生。 (大狐AI)

價格戰的第一槍是如何打響的？

真正的差距在於原創性，而不僅僅是時間

更多資金 ≠ 更多創新

V2模型：完全由本土人才打造

所有策略都是上一代的產物