【DeepSeek】創始人梁文鋒的獨家採訪

以下是完整採訪,採訪內容翻譯自2024年7月暗湧記者對DeepSeek創始人梁文鋒的獨家採訪。就在該公司憑藉其開源V2模型一舉成名後不久,與他展開了這場對話,揭秘一家中國創業公司如何敢於超越科技巨頭,重塑創新規則。

價格戰的第一槍是如何打響的?

安勇(採訪者): DeepSeek V2模型發佈後,迅速引發了大模型行業的激烈價格戰。有人認為你們是市場的顛覆者。

梁文峰(DeepSeek創始人): 我們從未想過要成為顛覆者,這一切只是意外發生的。

安勇: 這個結果讓你意外嗎?

梁文峰: 非常意外。我們沒想到定價會是如此敏感的問題。我們只是按照自己的節奏,計算成本後合理定價。我們的原則是不虧本銷售,也不追求過高利潤。目前的定價僅在成本之上保留了一定的利潤空間。

安勇: 五天後,智譜AI跟進降價,隨後字節跳動、阿里巴巴、百度和騰訊也加入了這場價格戰。

梁文峰: 智譜AI只是降低了入門級產品的價格,而他們的旗艦模型仍然很貴。真正匹配我們旗艦產品價格的是字節跳動,這對其他公司形成了壓力。由於大公司的大模型成本遠高於我們,我們從未想過有人會願意虧本營運。但最終,市場竟然回到了網際網路時代的補貼競爭邏輯。

安勇: 站在外部觀察,降價似乎是一種典型的網際網路時代競爭策略,目的是搶佔使用者。

梁文峰: 搶使用者並不是我們的主要目標。我們降價的原因有兩個:首先,在探索下一代模型架構的過程中,我們的成本下降了;其次,我們認為AI和API服務應該是人人都能負擔得起、隨時可用的。

安勇: 在此之前,大多數中國公司只是複製Llama的模型架構來開發應用。為什麼你們選擇專注於模型結構本身?

梁文峰: 如果目標是做應用,採用Llama的架構快速上線產品是合理的選擇。但我們的目標是AGI(通用人工智慧),這要求我們探索新的模型架構,以在有限的資源下實現更強的能力。這是規模化發展的基礎性研究。除了架構,我們還深入研究了資料篩選和類人推理能力,這些都在我們的模型中有所體現。而且,Llama的訓練效率和推理成本相比全球最前沿的標準,至少落後兩代。

安勇: 這兩代的差距主要體現在那裡?

梁文峰: 首先是訓練效率的差距。我們估算,中國目前最好的模型,在算力相同的情況下,可能需要兩倍的計算資源才能達到全球頂尖模型的水平。這是由於架構和訓練策略的差距。其次是資料利用效率,中國的模型大約只有全球最優水平的一半,也就是說,同樣的結果需要兩倍的資料和計算量。兩者疊加,意味著整體資源消耗是四倍。我們的目標是不斷縮小這個差距。

安勇: 大多數中國公司都會同時佈局模型和應用,為什麼DeepSeek只專注於研究?

梁文峰: 因為我們認為當下最重要的,是參與全球科技創新。長期以來,中國企業習慣於利用海外的技術創新,並通過應用層面進行商業化,但這種模式是不可持續的。這一次,我們的目標不是快速盈利,而是推動技術前沿的發展,從根本上促進整個生態的成長。

安勇: 網際網路和移動網際網路時代的普遍共識是,美國擅長創新,而中國擅長應用落地。

梁文峰: 我們認為,隨著經濟的發展,中國必須逐步從技術的受益者轉變為貢獻者,而不是一直依賴別人的成果。在過去30年的IT革命中,我們幾乎沒有真正參與核心技術創新。

我們習慣了摩爾定律“從天而降”——只需等上18個月,就能獲得更先進的硬體和軟體。同樣,我們對大模型的“規模定律”也是如此。但事實上,這些技術進步是西方科技社區幾代人持續努力的結果。由於我們長期未能深度參與這一處理程序,反而漸漸忽視了其真正的價值。

真正的差距在於原創性,而不僅僅是時間

安勇: 為什麼DeepSeek V2會讓矽谷許多人感到意外?

梁文峰: 在美國,每天都有各種創新出現,從這個角度看,我們的突破並不算特別。但他們驚訝的是,一家中國公司不僅僅是跟隨者,而是以創新者的身份加入了他們的競爭。這與大多數中國企業習慣的模式完全不同。

安勇: 但在中國的現實環境下,單純追求創新似乎是一種奢侈。大模型研發本身極其燒錢,不是每家公司都能在商業化之前只專注於研究。

梁文峰: 創新當然成本高昂,而過去我們傾向於採用現成技術,主要是因為中國的發展階段所限。但今天,中國的經濟規模以及字節跳動、騰訊等巨頭的盈利能力,已經具有全球影響力。我們真正缺乏的不是資金,而是信心,以及組織高水平人才進行有效創新的能力。

安勇: 為什麼即使是資金充足的中國科技巨頭,也往往更重視快速商業化?

梁文峰: 過去30年,我們更關注利潤,而不是創新。但創新不僅僅是商業驅動的,它需要好奇心和創造的野心。我們被過去的習慣束縛住了,但這只是一個階段。

安勇: 但DeepSeek畢竟是一家企業,而不是非營利的研究機構。如果你們進行創新,並且像5月發佈的MLA架構那樣開源突破性成果,競爭對手豈不是很快就能複製?你們的護城河在那裡?

梁文峰: 在顛覆性技術領域,封閉式的護城河並不持久。即便是OpenAI的閉源模式,也無法阻止其他公司迎頭趕上。

因此,我們真正的護城河在於團隊的成長——積累技術Know-how,培養創新文化。開源和發表論文不會帶來重大損失。對於技術人員來說,被同行追隨本身就是一種成就。開源不僅僅是商業策略,更是一種文化。回饋社區是一種榮譽,同時也能吸引更多優秀人才。

安勇: 你怎麼看待市場派的觀點,比如朱嘯虎的立場(他主張AI公司應優先商業化,而不是進行基礎研究,並認為AGI是不切實際的)?

梁文峰: 朱嘯虎的邏輯適用於短期盈利項目,但美國最賺錢的公司,往往是那些依靠長期研發建立技術壁壘的科技巨頭。

安勇: 但在AI領域,單純的技術領先還不夠。DeepSeek在更長遠的層面上,究竟押注的是什麼?

梁文峰: 我們認為,中國的AI不能永遠做跟隨者。人們常說,中國AI比美國落後一到兩年,但真正的差距在於“原創”與“模仿”。如果不改變這一點,中國永遠只能追趕別人,而不是引領方向。有些探索是無法迴避的。

輝達的成功並不僅僅是自身努力的結果,而是西方科技生態系統長期合作,共同規劃下一代技術路線的成果。中國也需要類似的生態體系。國內許多晶片失敗,不是因為資金不足,而是因為缺乏支撐性技術社區,僅依賴二手資訊。必須有人走在前沿。

更多資金 ≠ 更多創新

安勇: DeepSeek現在給人的感覺很像OpenAI早期的理想主義階段,而且你們堅持開源。未來會像OpenAI或Mistral那樣,轉向閉源嗎?

梁文峰: 我們不會閉源。我們認為,建立一個強大的技術生態,比封閉式的商業模式更重要。

安勇: 有沒有融資計畫?有媒體報導,煥放【1】計畫將DeepSeek拆分上市。矽谷的AI初創公司最終都會與大公司結盟,你們會跟隨這種趨勢嗎?

梁文峰: 目前沒有短期融資計畫。我們真正的挑戰從來不是資金,而是高端晶片的出口禁令。

安勇: 許多人認為,AGI的發展需要高調的合作和行業影響力,而不像量化投資那樣適合低調運作。你認同這種觀點嗎?

梁文峰: 更多的投資並不一定能帶來更多的創新。如果資本堆砌就能推動技術突破,那大公司早就壟斷了所有創新。

安勇: DeepSeek不做應用,是因為缺乏營運能力嗎?

梁文峰: 我們認為,當前階段是技術創新期,而不是應用爆發期。從長遠來看,我們希望建立一個生態系統,讓行業直接使用我們的技術和成果,其他公司基於我們的模型開發B2B/B2C服務,而我們專注於基礎研究。如果產業鏈完整,我們無需親自做應用。當然,如果有必要,我們完全有能力去做,但研究和創新始終是我們的核心優先順序。

安勇: 為什麼客戶會選擇DeepSeek的API,而不是更大的玩家?

梁文峰: 未來的世界很可能是一個高度分工協作的世界。基礎AI模型需要持續創新,而大公司也有自身的侷限,並不一定最適合承擔這一角色。

安勇: 但僅憑技術,真的能拉開足夠大的競爭差距嗎?你之前也提到過,並沒有絕對的“秘密”。

梁文峰: 沒有秘密,但複製需要時間和成本。輝達的GPU沒有什麼神秘之處,但要趕上他們,就必須重建團隊、追趕下一代技術——這才是真正的護城河。

安勇: 你們降價後,字節跳動是第一家跟進的公司,說明他們感受到了競爭壓力。你如何看待創業公司和大廠之間的新競爭格局?

梁文峰: 說實話,我們並不太在意。降價只是順手而為。提供雲服務並不是我們的核心目標,我們的目標是實現AGI。目前,我們還沒有看到真正突破性的解決方案。大公司雖然有使用者,但它們的“現金牛”業務也束縛了自身,給了創業公司顛覆它們的機會。

安勇: 你覺得中國目前的六家主要AI創業公司,最終結局會如何?

梁文峰: 可能最終會剩下2-3家。目前大家都在“燒錢”,但能活下來的,一定是那些戰略清晰、執行力強的公司。其他的可能會轉型。價值不會消失,只是會以不同的形式存在。

安勇: 你的競爭哲學是什麼?

梁文峰: 我更關注一項技術是否提升了社會效率,以及我們是否能在行業價值鏈中找到自己的優勢。只要最終目標是提升效率,就是有意義的。很多競爭都是階段性的,過於糾結於短期競爭,反而容易迷失方向。

V2模型:完全由本土人才打造

安勇: OpenAI前政策主管、Anthropic聯合創始人Jack Clark曾提到,DeepSeek吸引了一批“難以捉摸的天才”,他們打造了DeepSeek V2。這些人有什麼特點?

梁文峰: 其實沒有什麼“難以捉摸的天才”,只是來自頂尖高校的應屆生、博士生(甚至是四五年級的實習生),以及一些有幾年經驗的年輕人。

安勇: 許多AI大廠熱衷於全球招募頂級人才,有人認為全球前50的AI科學家,很難會在中國的公司任職。你的團隊來自那裡?

梁文峰: DeepSeek V2完全是由本土人才打造的。目前,全球前50的AI人才可能確實不在中國,但我們希望自己培養出這樣的團隊。

安勇: MLA架構創新是怎麼誕生的?聽說最初是某個年輕研究員的個人興趣?

梁文峰: 他在總結主流Attention架構的關鍵演化規律後,突然靈感迸發,設計出了一種新的替代方案。但從想法到現實,是一個漫長的過程。我們組建了團隊,花了幾個月時間驗證它的可行性。

安勇: 這種自發的創新似乎和你們扁平化的組織結構有關。在煥放,你們避免了自上而下的管理。但AGI是一個高不確定性的前沿探索,你們會不會有更多的管理干預?

梁文峰: DeepSeek依然是完全自下而上的。我們也不預先設定角色,分工是自然形成的。每個人都帶著自己的經驗和想法,不需要被推動。當他們遇到挑戰時,會自發地拉上別人討論。不過,一旦某個想法被證明有潛力,我們就會從上層投入資源,推動它的發展。

安勇:我們聽說 DeepSeek 在計算資源和人員調配方面非常靈活。

梁文鋒:我們的計算資源和團隊成員的使用沒有限制。如果有人有想法,他們可以隨時呼叫我們的訓練叢集,無需審批。此外,由於我們沒有嚴格的層級架構或部門壁壘,只要彼此感興趣,團隊成員可以自由協作。

安勇:這種寬鬆的管理方式依賴於招聘極具驅動力的人才。據說 DeepSeek 擅長通過非傳統標準識別卓越人才。

梁文鋒:我們的招聘標準一直基於熱情和好奇心。我們的團隊成員背景各異,充滿個性和趣味性,他們對研究的渴望遠超對金錢的關注。

安勇:Transformer 誕生於 Google AI Lab,ChatGPT 來自 OpenAI。在你看來,大公司 AI 實驗室與創業公司在創新方面有何不同?

梁文鋒:無論是 Google 研究院、OpenAI,還是國內科技巨頭的 AI 實驗室,它們都提供了重要價值。OpenAI 之所以能最終取得突破,也有一定的歷史偶然性。

安勇:所以你認為創新主要靠運氣?你們的辦公室設計中有會議室,兩側的門可以輕鬆打開。你的同事們提到,這種設計讓“偶然相遇”成為可能。這讓我想起 Transformer 的誕生——當時一位路過的研究員無意間聽到討論,幫助將其發展成了通用架構。

梁文鋒:我認為,創新首先是一種信念。為什麼矽谷的創新能力強?因為他們敢於嘗試。ChatGPT 出現時,中國在前沿研究上信心不足。從投資人到大公司,很多人認為差距太大,轉而專注於應用。但創新需要信心,而年輕人往往更具信心。

安勇:與其他 AI 公司積極尋求融資和媒體關注不同,DeepSeek 一直相對低調。你如何確保 DeepSeek 成為 AI 人才的首選?

梁文鋒:因為我們在解決最難的問題。對於頂尖人才來說,最具吸引力的就是挑戰世界上最困難的問題。事實上,中國的頂尖人才經常被低估,因為硬核創新稀缺,他們很少得到認可。而我們正好提供了他們渴望的舞台。

安勇:最近 OpenAI 的發佈會上並未推出 GPT-5,許多人認為行業的技術增長曲線正在放緩,一些人開始質疑 Scaling Law【規模法則】。你怎麼看?

梁文鋒:我們仍然保持樂觀。行業的進展依然符合預期。OpenAI 並非神一般的存在,他們不可能永遠領先。

安勇:你認為實現 AGI 需要多長時間?在 V2 之前,你們發佈了程式碼/數學模型,並從稠密(Dense)架構轉向 MoE【混合專家模型】。你們的路線圖是什麼?

梁文鋒:可能是兩年,五年,或者十年——但一定會在我們這一代人有生之年發生。至於我們的路線圖,即便在公司內部也沒有統一結論。但我們正在下注以下三個方向:

1. 數學與程式碼

——它們是 AGI 的天然試驗場,就像圍棋一樣,是封閉且可驗證的系統,自學習有可能孕育高度智能。

2. 多模態

——讓 AI 直接接觸現實世界進行學習。

3. 自然語言

——它是類人智能的基石。

我們對一切可能性保持開放態度。

安勇:你認為大模型的終局形態會是什麼?

梁文鋒:未來會有專門提供基礎模型和服務的公司,形成一個長產業鏈的專業分工體系。更多公司將在這些基礎之上,為社會的多元需求提供解決方案。

所有策略都是上一代的產物

安勇:過去一年,中國的大模型創業格局發生了許多變化。例如,曾經高調入局的王慧文【美團聯合創始人】中途退出,而新晉選手正在逐步形成差異化。

梁文鋒:王慧文承擔了所有損失,讓其他人全身而退。他做出了對自己最不利、但對大家最有利的決定。我很敬佩他的擔當。

安勇:你目前最關注的是什麼?

梁文鋒:我最關注的是下一代大模型的研究,因為還有很多問題沒有解決。

安勇:許多 AI 創業公司堅持模型研發和應用並重,因為技術領導力並非永久優勢。為什麼 DeepSeek 仍然堅定地專注於研究?是因為你們的模型還不夠強嗎?

梁文鋒:所有策略都是上一代的產物,未來未必仍然適用。用網際網路時代的商業邏輯討論 AI 的未來盈利模式,就像把騰訊早期的發展軌跡拿來對比通用電氣或可口可樂——這就像“刻舟求劍”,是落後的思維方式。

安勇:幻方【量化投資公司】擁有強大的技術和創新基因,發展軌跡也相對順利。這是否讓你對技術驅動的創新更有信心?

梁文鋒:幻方在一定程度上增強了我們對技術驅動創新的信心,但它的成長並非一路平坦。我們經歷了漫長的積累。人們只看到了 2015 年之後的爆發,但實際上,我們已經沉澱了 16 年。

安勇:回到原創性創新的問題——在經濟放緩、資本降溫的背景下,這是否會抑制顛覆性的研發?

梁文鋒:不一定。中國產業格局的重塑將越來越依賴深度科技創新。隨著快速獲利的機會減少,更多人會轉向真正的創新。

安勇:所以你對此持樂觀態度?

梁文鋒:我在 1980 年代成長於廣東的一個五線城市,父親是一名小學教師。上世紀 90 年代,廣東有很多賺錢的機會,很多家長來我家爭論,說讀書沒用。但回頭看,現在的觀點已經變了。賺錢不再像過去那麼容易——甚至連開計程車都不再是一個可行的選擇。僅僅一代人的時間,環境已經發生了巨大變化。

未來,硬核創新只會越來越多。現在大家對它的理解還不夠深,因為整個社會仍在從現實中學習。當社會開始認可深度科技創新者的成功時,集體認知自然會改變。我們需要的,只是更多真實的成功案例,以及時間讓這一過程發生。 (大狐AI)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題