正如大家所知,“東方神秘力量”DeepSeek近期在中國、美國的科技圈受到廣泛關注,甚至被認為是大模型行業最大“黑馬”。
近期,中國 AI 大模型創業公司DeepSeek(深度求索)正式發佈 DeepSeek-R1大模型,稱在數學、程式碼、自然語言推理等任務上,性能比肩OpenAI o1正式版。
這一消息震動了全球 AI 圈,也讓美國 AI 公司研究人員吃驚於中國竟趕超了美國大模型技術。
一位Meta的工程師在美國科技公司員工社區Blind中這樣寫道,“Meta的生成式AI部門正處於恐慌中。這一切始於DeepSeek,它使得 Llama 4 在基準測試中已經落後。雪上加霜的是:那個不知名的中國公司,僅有550萬美元的訓練預算。工程師們正在瘋狂地剖析DeepSeek,並試圖從中複製一切可能的東西。”
鈦媒體AGI瞭解到,截至發稿前,DeepSeek移動端在蘋果 App Store應用程式商店排行第八,超越Google Gemini、Microsoft Copilot等美國生成式 AI 產品,下載熱度僅次於ChatGPT。同時,OpenAI、字節跳動、阿里通義以及智譜、Kimi月之暗面等國內外團隊都在積極研究DeepSeek,OpenAI和字節跳動都在考慮與DeepSeek展開研究合作。
達沃斯世界經濟論壇期間,Scale AI創始人亞歷山大·王(Alexandr Wang)直言,DeepSeekAI大模型性能大致與美國最好的模型相當。他認為,過去十年來,美國可能一直在 AI 競賽中領先於中國,但DeepSeek的AI大模型發佈可能會“改變一切”。
值得細品的是Alexandr Wang說的另一段話:“DeepSeek大約有5萬張H100計算卡,他們顯然不能談論這件事,因為這違反了美國實施的出口管制。我認為這是真的,我認為他們的籌碼比其他人預期的要多,但也會繼續前進。他們將受到晶片控制和出口管制的限制。”
Alexandr Wang暗示DeepSeek將會受到美國管制。
DeepSeek創始人、頭部量化私募幻方量化創始人梁文鋒曾表示,DeepSeek面臨的主要制約因素不是資金,而是高端算力的使用權,這些晶片對於訓練先進AI模型至關重要。
隨著AMD證實DeepSeek正在使用最強 AI 晶片之一的MI300X進行大模型訓練,對於中國 AI 如何突破圍欄實施大模型訓練,將成為關鍵話題。
如果你在 AI 圈,對於DeepSeek和梁文鋒已經有很多文章進行介紹了。總結來說有幾點:
正如圖靈獎得主、Meta AI首席科學家楊立昆(Yann LeCun)所說,“給那些看到 DeepSeek 的表現後,覺得‘中國在 AI 方面正在超越美國’的人,你們的解讀是錯的。正確的解讀應該是,‘開源模型正在超越專有模型’。”
事實上,從購買千張GPU搭建 AI 算力開始,DeepSeek大模型超越OpenAI之路用時4年。
去年 12 月底,DeepSeek發佈的DeepSeek-V3開源基礎模型性能,與GPT-4o和Claude Sonnet 3.5等頂尖模型相近,但訓練成本極低。整個訓練在2048塊輝達H800 GPU叢集上完成,僅花費約557.6萬美元,不到其他頂尖模型訓練成本的十分之一。
GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的計算叢集上訓練,而且使用的是性能更為優越的H100 GPU。例如,同為頂尖大模型,去年發佈的Llama 3.1在訓練過程中使用了16,384塊H100 GPU,消耗了DeepSeek-V3 11倍的計算資源,成本超過6000萬美元。
如今,儘管DeepSeek現在尚未公佈訓練推理模型R1的完整成本,但它公佈了API的定價,每百萬輸入 tokens 1 元-4元人民幣,每百萬輸出 tokens 16 元。這個收費大約是 OpenAI o1運行成本的三十分之一。
成本進一步降低的同時,DeepSeek R1的技術關鍵點在於其創新的訓練方法——DeepSeek-R1-Zero路線,該路線直接將強化學習(RL)應用於基礎模型,無需依賴監督微調(SFT)和已標註資料。通過建立簡單的精準性獎勵和格式要求規則,DeepSeek R1在無監督資料的情況下實現自我進化,獲得強大的推理能力。在AIME 2024基準測試中,DeepSeek R1-Zero展現了高達86.7%的精準率,證明了直接強化學習在訓練高級推理模型中的有效性。
艾倫人工智慧研究所科學家內森·蘭伯特(Nathan Lambert)表示,R1的論文是推理模型研究不確定性中的一個重要轉折點,因為到目前為止,AI 推理模型一直是工業研究的一個重要領域,但缺乏一篇具有開創性的論文。
據知識分子,中山大學積體電路學院助理教授王美琪表示,直接強化學習方法與 DeepSeek 團隊在多版模型迭代中的一系列工程最佳化技術(如簡化獎懲模型設計等)相結合,有效降低了大模型的訓練成本。直接強化學習避免了大量人工標註資料的工作,而獎懲模型的簡化設計等則減少了對計算資源的需求。
“DeepSeek 的運行方式就像DeepMind早期一樣,”一位 AI 投資者表示,它純粹專注於研究和工程,而非商業化。
輝達高級研究科學家Jim Fan直言,“DeepSeek是本年度開源大語言模型領域的最大黑馬。”
對於DeepSeek,英國《自然》雜誌認為,儘管美國對華半導體出口管制進行限制,但中國公司還是成功製造了DeepSeek R1。但西雅圖 AI 研究員 Francois Chollet認為,“高效利用資源比單純的計算規模更重要。”
梁文鋒此前也指出,對於DeepSeek來說,算力更高的先進 AI 晶片對於訓練先進AI模型至關重要。
如今,Alexander Wang直言不諱地表達美國政府需要為了領先優勢對DeepSeek的 AI 晶片進行調查和管制。
Alexandr Wang出生於1997年,他於19歲那年從美國麻省理工學院輟學,創立的AI公司Scale AI估值超百億美元,獲得了包括Y Combinator、輝達、AMD風投、亞馬遜、Meta等巨頭科技公司投資,該公司為OpenAI、Google和 Meta等提供訓練資料。
此前,Alexandr Wang發文表達對中國 AI 追趕美國的擔憂。他認為,DeepSeek-V3的發佈給外界的教訓是,在美國人休息時,中國人在工作,並以更便宜、更快、更強的產品迎頭趕上。
OpenAI 首席財務官 Sarah Friar也認為,中美之間的 AI 競爭不是簡單的口水戰,這是一場真實的競爭,雙方正在大力投資這一領域。“我們已經看到川普政府願意積極參與,無論是從經濟角度,還是從監管和商業競爭的角度。我們很期待開始實質性的合作。”
當前,美國出口管製成為中國 AI 行業發展的關鍵因素之一。
台北時間1月15日晚,美國商務部工業和安全域 (BIS) 修訂了《出口管制條例》(EAR),在實體清單中分兩批,共增加了25個中國實體,包括智譜旗下9個實體等。
這是首個中國AI大模型公司被美國列入“實體清單”。
對此,智譜發聲明回應稱,“美國商務部工業和安全域(BIS)擬將智譜及子公司增列至出口管制實體清單。這一決定缺乏事實依據,我們對此表示強烈反對。鑑於智譜掌握全鏈路大模型核心技術的事實,被列入實體清單不會對公司業務產生實質影響。智譜有能力也將更專注地為我們的使用者和夥伴提供世界一流的大模型技術、產品和服務。同時公司將繼續參與全球人工智慧競爭,堅持最高安全標準和公平、透明、可持續原則,推動人工智慧技術發展。”
在此之前,曠視、依圖、雲從、摩爾執行緒等大量 AI 公司被列入美國“實體清單”,對於一些 AI 軟體公司來說有一定影響——無法再訓練出兆規模大模型。
然而,DeepSeek、字節跳動等中國企業的出現和發力 AI 領域,讓美國意識到管制無法阻止中國對標OpenAI,持續推進 AI 技術領先。
《福布斯》發文指出,DeepSeek讓世界認識到,“中國並未退出這場(人工智慧的)競賽。”
“如果最好的開源技術來自中國,美國開發人員將在這些技術的基礎上建構他們的系統。從長遠來看,這可能會讓中國成為研發 AI 的中心。”《紐約時報》稱。
不過,DeepSeek依然面臨競爭對手囤積大量算力挑戰。本周,川普宣佈,OpenAI與甲骨文、日本軟銀集團共同創立一家5000億美金投資新計畫公司“星際之門”,立即在美國至少投資 1000 億美元用於 AI 基礎設施。同時,馬斯克的 xAI 也正在大規模擴展其超級電腦,以容納超過100萬個 GPU,以幫助訓練其 Grok AI 模型。
這時我就想起了百度創始人、CEO李彥宏的話:“開源模型會越來越落後”。
如今看來,DeepSeek證明開源並未落後,甚至給中國 AI 超越美國的目標帶來更多的希望。但是,DeepSeek能否因此面臨美國政府的針對性限制,最終導致模型訓練和算力層面面臨制約,依然存在巨大不確定性。
“當前,DeepSeek 擁有中國最大的先進計算叢集之一,”梁文鋒的商業合作夥伴對外稱,“他們現在有足夠的資源容量,但不會太久。” (鈦媒體)