【DeepSeek】吳恩達評DeepSeek:中國AI 崛起,開源模型重塑產業格局

吳恩達老師剛剛發表了對DeepSeek R1 評論,以下是全文,分享給大家,不做任何個人解讀

本周,中國AI 公司DeepSeek 的崛起引發了廣泛關注,許多人從中看到了幾個重要的行業趨勢,這些趨勢其實早已顯現:(一)中國在生成式AI 領域正在趕超美國,這將對AI供應鏈產生深遠影響。 (二)開源權重模型正在將基礎模型層商品化,為應用開發者創造了巨大的機會。 (三)規模化並非AI 進步的唯一道路,儘管算力備受矚目和炒作,但演算法創新正在迅速降低訓練成本。

大約一周前,總部位於中國的DeepSeek 發表了DeepSeek-R1 模型,這款卓越模型的基準測試性能可與OpenAI 的o1 模型相媲美。更重要的是,它以寬鬆的MIT 許可證開源發佈。在上周的達沃斯論壇上,許多非技術出身的商業領袖向我提出了關於DeepSeek 的問題。而在周一,股市出現了「DeepSeek 拋售」現象:輝達和許多其他美國科技公司的股價大幅下跌(截至撰稿時,部分股價已有所回升)。

我認為DeepSeek 讓許多人意識到以下幾點:

中國在生成式AI 領域正趕超美國。 當ChatGPT 在2022 年11 月發佈時,美國在生成式AI 領域明顯領先中國。人們的印象轉變是緩慢的,因此即使在最近,我仍然聽到美國和中國的朋友都認為中國落後。但實際上,過去兩年裡,這種差距正在迅速縮小。憑藉Qwen(我的團隊已經使用了數月)、Kimi、InternVL 和DeepSeek 等來自中國的模型,中國顯然一直在縮小差距,並且在視訊生成等領域,中國似乎已經處於領先地位。

我很高興DeepSeek-R1 以開源權重模型發佈,並附帶技術報告,分享了許多細節。與此形成鮮明對比的是,一些美國公司為了扼殺開源,大肆炒作諸如人類滅絕等假設性的AI 危險,推動監管。現在,開源/開源權重模型顯然是AI 供應鏈的關鍵組成部分:許多公司都將使用它們。如果美國繼續阻礙開源,中國將主導AI 供應鏈的這一環節,許多企業最終將使用更多反映中國價值觀而非美國價值觀的模式。

開源權重模型正在將基礎模型層商品化。 正如我之前寫到的,LLM 的token 價格一直在快速下降,開源權重模型加速了這一趨勢,並為開發者提供了更多選擇。 OpenAI 的o1 模型每百萬輸出token 的成本為60 美元,而DeepSeek R1 的成本僅為2.19 美元。近30 倍的差異讓更多人關注了價格下降的趨勢。

訓練基礎模型並銷售API 訪問的業務是艱難的。該領域的許多公司仍在尋找一條收回巨額模型訓練成本的道路。紅杉資本的文章《AI 的6000 億美元問題》很好地闡述了這一挑戰(但需要明確的是,我認為基礎模型公司正在做偉大的工作,我希望他們能夠成功)。相較之下,在基礎模型之上建構應用則蘊藏著巨大的商業機遇。現在,其他人已經花費數十億美元訓練了這些模型,您只需花費少量資金就可以訪問這些模型,以建構客戶服務聊天機器人、郵件摘要器、AI 醫生、法律檔案助手等等。

規模化並非AI 進步的唯一道路。 圍繞模型規模化的炒作由來已久,似乎規模化是推動進步的唯一途徑。公平地說,我曾經也是模型規模化的早期倡導者。許多公司透過圍繞這樣一個敘事製造熱點,從而籌集了數十億美元:憑藉更多資本,他們可以(i)擴大規模,並且(ii)可預測地推動改進。因此,人們過度關注規模化,而忽略了更細緻的觀點,即我們可以透過多種不同的方式取得進步。部分受到美國AI 晶片禁運的影響,DeepSeek 團隊不得不進行許多最佳化,以便在性能較弱的H800 GPU 而不是H100 GPU 上運行,最終訓練出了一個計算成本(不包括研究成本)低於600 萬美元的模型。

這是否真的會減少對算力的需求還有待觀察。有時,降低商品單價反而會導致更多資金用於購買該商品。我認為從長遠來看,對智能和算力的需求實際上沒有上限,所以我仍然看好人類會使用更多智能,即使它的成本變得更低。

在X上,我看到了許多對DeepSeek 進展的不同解讀,彷彿這是一場羅夏墨跡測驗,每個人都將自己的意義投射到其中。我認為DeepSeek-R1 具有尚未完全顯現的地緣政治影響。同時,這對AI 應用開發者來說也是一件好事。我的團隊已經開始集思廣益,構思只有在我們能夠輕鬆訪問先進的開源推理模型後才成為可能的新想法。現在仍然是建構AI 應用的絕佳時代! (AI寒武紀)