DeepSeek 效應正在不斷髮酵。輝達暴跌近17%,市值蒸發5,927億美元,創下美股史上最大單日市值損失紀錄。CNBC用近一小時時間與北美最火的AI搜尋獨角獸討論DeepSeek對全球人工智慧產業的影響,也全面展示了美國當下的最真實心態,美國AI初創公司Perplexity CEO分析為何DeepSeek會引發人們對美國在AI領域的全球領先地位是否正在縮小的擔憂。
“需求是發明之母”,Aravind Srinivas談起DeepSeek,“因為他們必須想辦法繞過限制,最終實際上打造出了效率更高的東西。”
在對話中,Aravind Srinivas不僅分析了DeepSeek對美國AI的影響,對DeepSeek的創新給予了較高的評價,沒有一味搞對立,還是比較中肯的。
以下是對話原文(不影響原意的情況下翻譯略有刪改):
主持人:請描述中美之間的AI競賽,以及其中的利害關係。
Aravind Srinivas: 首先,中國在與美國的競爭中存在很多劣勢。第一,他們無法獲得我們這裡能夠使用的所有硬體資源。他們基本上在使用比我們低端的GPU,幾乎像是上一代的GPU。由於更大的模型往往更智能,這自然讓他們處於劣勢。
但另一方面,需求是發明之母。因為他們不得不尋找變通方案,最終他們實際上建構了更高效的解決方案。這就像說:“嘿,你們必須建構一個頂級模型,但我不會給你們資源,你們得自己想辦法。”除非數學上證明這是不可能的,否則你總能嘗試找到更高效的解決方案。這可能會讓他們比美國找到更高效的解決方案。
當然,他們有開源模型,我們也可以在這裡採用類似的東西。但他們培養的這種人才將逐漸成為他們的優勢。目前,美國領先的開源模型是Meta的Llama系列,它非常出色,幾乎可以在你的電腦上運行。儘管它在發佈時接近GPT-4的水平,但最接近質量的模型是巨大的405B參數模型,而不是你可以在電腦上運行的70B模型。因此,仍然沒有一個既小又便宜、快速且開放原始碼的模型能夠與最強大的閉源模型相媲美。
然後,這些中國團隊推出了一個瘋狂的模型,API價格比GPT-4便宜10倍,甚至比Claude便宜15倍,速度極快,並且在某些基準測試中與GPT-4相當,甚至更好。他們只用了大約2048個H800 GPU,相當於1500到2000個H100 GPU,這比GPT-4通常訓練的GPU數量少了20到30倍。他們總共只花了500萬美元的電腦預算,就做出了如此驚人的模型,並且免費公開了技術論文。
主持人:當你理解他們所做的一切時,你的驚訝是什麼?
Aravind Srinivas: 我的驚訝是,當我閱讀他們的技術論文時,他們提出了許多聰明的解決方案。首先,他們訓練了一個混合專家模型(Mixture of Experts),這並不容易訓練。主要原因是人們發現很難跟上OpenAI的步伐,尤其是在MoE架構上,因為存在很多不規則的損失峰值,數值不穩定,經常需要重新啟動訓練檢查點。他們提出了非常聰明的解決方案來平衡這一點,而不需要額外的技巧。
他們還提出了8位浮點訓練,至少在部分數值上。他們巧妙地確定了那些部分需要高精度,那些部分可以低精度。據我所知,8位浮點訓練在美國並不常見,大多數訓練仍然在16位進行,儘管有些人正在探索這一點,但很難做到正確。
由於需求是發明之母,他們沒有那麼多記憶體和GPU,因此他們找到了許多數值穩定的方法,使他們的訓練能夠順利進行。他們在論文中聲稱,大部分訓練是穩定的,這意味著他們可以隨時重新運行這些訓練,使用更多的資料或更好的資料。整個訓練只花了60天,這非常驚人。
主持人:你剛才說你很驚訝。
Aravind Srinivas: 通常的認知是中國人擅長複製。如果我們停止在美國發表研究論文,停止描述我們的基礎設施架構細節,停止開源,他們將無法趕上。但現實是,DeepSeek 3中的一些細節非常出色,我甚至不會驚訝Meta會借鑑其中的一些內容,並將其應用到Llama模型中。
這並不是說他們在複製,而是他們在創新。
主持人:我們並不完全知道他們訓練的資料是什麼,儘管它是開放原始碼的,我們知道一些訓練方式,但並不是全部。有一種觀點認為,它是基於ChatGPT的公開輸出訓練的,這意味著它只是複製品。但你說它超越了這一點,有真正的創新。
Aravind Srinivas: 是的,他們訓練了14.8兆個token。網際網路上有太多ChatGPT生成的內容,如果你現在去看任何LinkedIn帖子或X帖子,大多數評論都是由AI寫的。甚至在X上,有Grok推文增強器,LinkedIn上有AI增強器,Google Docs和Word中也有AI工具來重寫你的內容。如果你在這些地方寫了東西並複製貼上到網際網路上,自然會帶有一些ChatGPT的訓練痕跡。很多人甚至懶得去掉“我是一個語言模型”的部分。因此,這個領域很難控制。
所以我不會因為某些提示(比如“你是誰”或“你是那個模型”)而忽視他們的技術成就。在我看來,這並不重要。
主持人:長期以來,我們認為中國在AI領域落後。這場競賽對這場競爭有何影響?我們能說中國正在迎頭趕上,還是已經趕上了?
Aravind Srinivas: 如果我們說Meta正在趕上OpenAI或Anthropic,那麼同樣的說法也可以用於中國趕上美國。事實上,我看到中國有更多論文試圖複製OpenAI的成果,甚至比美國還多。DeepSeek能夠使用的計算資源與美國的博士生相當。
主持人:你會將DeepSeek整合到Perplexity中嗎?
Aravind Srinivas: 我們已經開始使用它了。他們有API,並且開源了,所以我們也可以自己託管它。使用它實際上讓我們能夠以更低的成本做很多事情。
但我在想的是,他們實際上能夠訓練出如此出色的模型,這對美國公司來說不再有藉口不去嘗試類似的事情。
主持人:你聽到很多生成式AI領域的意見領袖,無論是研究還是創業方面,比如Elon Musk等人,都說中國無法趕上,因為賭注太大。誰主導了AI,誰就將主導經濟,主導世界。你對中國證明自己能夠做到的事情感到擔憂嗎?
Aravind Srinivas: 首先,我不確定Elon是否說過中國能趕上,我只知道他提到了中國的威脅。Sam Altman也說過類似的話,我們不能讓中國贏。我的觀點是,無論你做什麼來阻止他們趕上,最終他們還是趕上了。需求是發明之母。更危險的是,他們擁有最好的開源模型,而所有美國開發者都在基於此建構。那樣的話,他們將擁有使用者心智份額和生態系統。
如果整個美國AI生態系統都依賴於中國的開源模型,那將是非常危險的。歷史上,一旦開放原始碼軟體趕上或超越了閉源軟體,所有開發者都會遷移到開源。當Llama被建構並廣泛使用時,人們曾質疑是否應該信任祖克柏,但現在的問題是,我們是否應該信任中國?
Aravind Srinivas: 從某種意義上說,這並不重要,因為你仍然可以完全控制它,你可以在自己的電腦上運行它,你是模型的主人。但對於我們自己的技術人才來說,依賴別人的軟體並不是一個好現象,即使它是開放原始碼的。開源也可能有一天不再開源,許可證可能會改變。因此,重要的是我們美國自己有人才在建構這些技術,這就是為什麼Meta如此重要。
我認為Meta仍然會建構出比DeepSeek 3更好的模型,並將其開源。我們不應該把所有的精力都放在禁止他們、阻止他們上,而是應該努力超越他們,贏得競爭。這就是美國的方式,做得更好。
我們聽到越來越多關於這些中國公司的消息,他們以更高效、更低成本的方式開發類似的技術。這確實讓人感到壓力。
Aravind Srinivas: 是的,如果你籌集了100億美元,並決定將80%的資金用於電腦叢集,那麼你很難像那些只有500萬美元預算的人一樣,找到同樣高效的解決方案。這並不是說投入更多資金的人沒有盡力,他們只是試圖盡快完成。
當我們說開源時,有很多不同的版本。有些人批評Meta沒有公開所有內容,甚至DeepSeek本身也並不完全透明。你可以說開放原始碼的極限是能夠完全複製他們的訓練過程,但有多少人真的有資源做到這一點呢?相比之下,他們在技術報告中分享的細節已經比許多其他公司多得多。
主持人:當你想到DeepSeek做這件事的成本不到600萬美元時,再想想OpenAI開發GPT模型花費了多少。這對閉源模型的生態系統軌跡、發展勢頭意味著什麼?對OpenAI又意味著什麼?
Aravind Srinivas: 很明顯,我們將擁有一個開源版本,甚至比閉源版本更好、更便宜。OpenAI可能不會關心這是否由他們製作,因為他們已經轉向了一個新的範式,稱為o1系列模型。OpenAI的Ilya Sutskever曾說過,預訓練已經遇到了瓶頸。這並不意味著擴展已經結束,而是我們在不同的維度上進行擴展,比如模型思考的時間、強化學習等。
OpenAI現在更專注於讓模型在遇到新提示時進行推理、收集資料並與世界互動,使用各種工具。我認為這是未來的方向,而不僅僅是更大更好的模型。
我認為DeepSeek也會將注意力轉向推理,這就是為什麼我對他們下一步的成果感到興奮。
那麼,OpenAI的下一步是什麼?我認為目前還沒有人能夠建構出類似o1的系統。儘管有人質疑o1是否真的值得,但在某些提示下,它的表現確實更好。至少他們在O3中展示的結果顯示,它在競爭性程式設計中的表現幾乎達到了AI軟體工程師的水平。
主持人:這是否只是時間問題,網際網路上充滿了推理資料,DeepSeek也能做到?
Aravind Srinivas: 有可能,但沒有人知道。在它實現之前,不確定性仍然存在。
主持人:到今年年底,推理領域是否會有多個玩家?
Aravind Srinivas:我絕對認為是這樣。
主持人:我們是否正在看到大型語言模型的商業化?
Aravind Srinivas: 我認為我們會看到類似的軌跡,就像預訓練和後訓練系統逐漸商業化一樣。今年會有更多的商業化,推理模型也會經歷類似的軌跡。最初可能只有一兩個玩家知道如何做到,但隨著時間的推移,更多的玩家會加入。誰知道呢,OpenAI可能會在推理領域取得新的突破。
現在推理是他們的重點,但技術進步會不斷髮生。隨著時間推移,今天的模型所具備的推理能力和多模態能力,將會以更低成本的開源模型形式出現。唯一不確定的是,像能夠在推理時進行思考的模型,是否能夠便宜到足以在我們的手機上運行。
主持人:感覺隨著DeepSeek所證明的能力,整個AI領域的格局已經發生了變化。你能稱之為中國的ChatGPT時刻嗎?
Aravind Srinivas: 有可能。我認為這無疑給了他們很多信心,表明他們並沒有落後。無論你如何限制他們的計算資源,他們總能找到變通方案。我相信團隊對他們的成果感到非常興奮。
主持人:這如何改變投資格局?那些每年花費數百億美元在計算資源上的超大規模公司,以及OpenAI和Anthropic等籌集數十億美元用於GPU的公司,DeepSeek告訴我們,你並不一定需要那麼多資源。
Aravind Srinivas: 我認為很明顯,他們會更加專注於推理,因為他們明白,無論他們過去兩年在建構什麼,現在都變得非常便宜,以至於繼續投入大量資金不再合理。他們是否需要同樣多的高端GPU,還是可以使用DeepSeek那樣的低端GPU進行推理?這很難說,除非被證明不行。
但在快速前進的精神下,你可能會希望使用高端晶片,以便比競爭對手更快。最優秀的人才仍然希望加入那些最先實現突破的團隊。總有一些榮耀屬於真正的先驅者,而不是快速跟隨者。
主持人:這有點像Sam Altman的推文,暗示DeepSeek只是複製了別人的成果。
Aravind Srinivas: 但你也可以說,在這個領域,每個人都在複製別人。你可以說Google最先提出了Transformer,OpenAI只是複製了它。Google建構了第一個大型語言模型,但沒有優先發展它,而OpenAI則將其作為優先事項。所以你可以說這些,但在很多方面,這並不重要。
主持人:我記得我問過你,為什麼你不想建構模型。你說那是一場極其昂貴的競賽,而現在一年後,你看起來非常聰明,沒有捲入這場競爭。你現在在大家想要看到的領域——生成式AI的殺手級應用——佔據了領先地位。請談談這個決定,以及你如何看待Perplexity的未來。
Aravind Srinivas: 一年前,我們甚至沒有像GPT-3.5這樣的模型。我們有GPT-4,但沒有人能夠趕上它。我的感覺是,如果那些擁有更多資源和更多才華的人都無法趕上,那麼參與這場遊戲是非常困難的。所以我們決定玩一個不同的遊戲。無論如何,人們都想使用這些模型,而一個方向是提出問題並獲得準確的答案,附帶來源和即時資訊。
在模型之外,確保產品可靠運行、擴展使用規模、建構自訂UI等方面還有很多工作要做。我們會專注於這些,並受益於模型變得越來越好。事實上,GPT-3.5讓我們的產品變得非常好。如果你在Perplexity中選擇GPT-3.5作為模型,幾乎很難找到幻覺。這並不是說它不可能發生,但它大大減少了幻覺的發生率。
這意味著,提問、獲得答案、進行事實核查、研究、詢問任何資訊的問題,幾乎所有的資訊都在網上,這是一個巨大的解鎖。這幫助我們在過去一年中使用者量增長了十倍。我們在使用者方面取得了巨大進展,很多大投資者都是我們的粉絲,比如黃仁勳,他在最近的主題演講中提到了我們,他實際上是一個經常使用的使用者。
主持人:一年前,我們甚至沒有談論商業化,因為你們還很新,只想擴大規模。但現在你們正在考慮廣告模式。
Aravind Srinivas: 是的,我們正在嘗試。我知道這引起了一些爭議,比如為什麼我們要做廣告,是否可以在有廣告的情況下仍然提供真實的答案。在我看來,我們一直非常積極地思考這個問題。我們說過,只要答案始終精準、無偏見,並且不受廣告預算的影響,你只會看到一些贊助問題。甚至這些贊助問題的答案也不受廣告影響。
廣告商也希望你知道他們的品牌,並瞭解他們品牌的最佳部分,就像你在介紹自己時希望別人看到你最好的一面一樣。但你仍然不必點選贊助問題,你可以忽略它。我們目前只按CPM收費,所以還沒有激勵你去點選。
考慮到所有這些,我們實際上是在嘗試長期做對的事情,而不是像Google那樣強迫你點選連結。
主持人:我記得一年前人們談論模型商品化時,你認為這是有爭議的,但現在這不再有爭議了。這種情況正在發生,你關注這一點是明智的。
Aravind Srinivas: 順便說一句,我們從模型商品化中受益匪淺,但我們還需要為付費使用者提供一些額外的價值,比如一個更高級的研究代理,能夠進行多步推理,進行15分鐘的搜尋,並給出分析類型的答案。所有這些都將保留在產品中,不會有任何變化。
但免費使用者每天提出的1兆個問題需要快速回答,這些必須保持免費。這意味著我們需要找到一種方法,使這些免費流量也能夠貨幣化。
主持人:你並不是試圖改變使用者習慣,但你正在試圖教廣告商新的習慣。他們不能像在Google的藍色連結搜尋中那樣獲得一切。到目前為止,廣告商的反應如何?他們願意接受這些權衡嗎?
Aravind Srinivas: 是的,這就是為什麼他們在嘗試與我們合作。許多品牌都在與我們合作測試。他們也很興奮,因為無論喜歡與否,未來大多數人都將通過AI提問,而不是傳統的搜尋引擎。每個人都明白這一點,所以他們都希望成為新平台、新使用者體驗的早期採用者,並從中學習,共同建構未來。
主持人:我笑了,因為這完美地回到了你今天一開始提到的觀點:需求是發明之母。廣告商們正在看到這個領域的變化,他們必須學會適應。
Aravind Srinivas: 沒錯,這就是廣告商們正在做的事情,他們說這個領域正在變化,我們必須學會適應。 (Z Potentials)