【新智元導讀】他們急了!川普的AI沙皇和微軟紛紛指控DeepSeek「偷竊」資料,DeepSeek不斷遭受來自美國IP的不間斷大規模攻擊。Anthropic CEO更是發出檄文:再不加強對中國的晶片管制,就來不及了!
它急了,它急了!
就在昨天,美國各方頻頻發出對DeepSeek「偷竊資料」的指控。
先是川普的AI事務主管David Sacks聲稱,有所謂「確鑿證據」表明DeepSeek利用了OpenAI模型的輸出資料來開發自身技術。
然後微軟的研究人員就跟著站出來表示,與DeepSeek相關的個人,曾在去年秋天使用OpenAI的API大規模提取資料。
剛剛, Anthropic CEO Dario Amodei也發出了長篇檄文:DeepSeek的進展表明,美國應該加強對華晶片出口管制!
不僅如此,美國還針對DeepSeek的線上服務,進行不間斷的大規模攻擊。
直到目前,API和網頁對話服務都還處於異常狀態。
據悉,美國海軍已向相關人員發出郵件示警,提醒「不得以任何形式下載、安裝或使用DeepSeek模型」。
而作為美國忠實「盟友」的義大利,也在第一時間跟進了制裁——直接把蘋果和Google應用程式商店裡的DeepSeek APP,全給下架了。
蘋果App Store向義大利使用者顯示的通知稱,該應用「目前在您所在的國家或地區不可用」。Google應用平台則顯示在義大利「不支援」下載。
微軟和OpenAI:DeepSeek偷我們資料,有證據
彭博社表示,如今微軟和OpenAI已經在展開調查,DeepSeek是否曾以未經授權的方式,獲得了OpenAI的資料輸出。
他們表示,這類活動可能已經違反了OpenAI的服務條款,或者說相關團體正在試圖繞過OpenAI對可獲取資料量的限制。
知情人士透露,微軟作為OpenAI的技術合作夥伴及其最大投資者,已將此事透露給了OpenAI。
彭博社這樣描述DeepSeek-R1模型引起的轟動效應:「這一潛在威脅動搖了美國科技公司的行業領先地位,導致與AI相關的科技股大跌,包括微軟、輝達、甲骨文以及Google母公司Alphabet。本周一,這些公司的市值合計蒸發近1兆美元。」
川普的AI事務專員David Sacks周二表示,已有「證據」表明DeepSeek利用了OpenAI模型的輸出來開發自己的技術。
在接受福克斯新聞採訪時,Sacks表示,DeepSeek利用蒸餾技術獲得了能力,即一個AI模型使用另一個模型的輸出進行訓練。
「有確鑿證據表明DeepSeek通過蒸餾技術提取了OpenAI模型的知識,而我認為OpenAI對此並不高興。」
不過,到底都有那些證據,卻隻字未提。
而針對Sacks的言論,OpenAI也在一份聲明中表示,中國的一些團隊「正在使用包括蒸餾在內的方法,試圖複製美國先進的AI模型。」
我們已經注意到DeepSeek可能不當蒸餾我們模型的跡象,正在對之審查,並將在掌握更多資訊後進行分享。
我們正在採取一系列保護措施來維護智慧財產權,包括謹慎評估在發佈模型時應包含那些前沿技術能力。
我們認為,與美國政府保持密切合作對於保護最先進的模型至關重要,這可以防止競爭對手和其他相關方獲取美國的核心技術。
在業界,蒸餾其實是一種常見做法。
但在OpenAI但服務條款中,有這麼一條規定:使用者不得「複製」其任何服務或「使用輸出來開發與OpenAI存在競爭的模型」。
業內人士透露,中美兩國的AI實驗室,普遍都會用OpenAI模型的輸出內容。畢竟OpenAI斥巨資僱傭了人員訓練模型產生更接近人類的響應,這種人類對齊訓練成本高昂,需要大量人力。
UC伯克利的AI博士生Twik Gupta就表示:「初創公司和學術界普遍會使用ChatGPT等經過人類對齊的商業LLM輸出,來訓練新模型。這相當於免費獲得了人類反饋這個訓練環節。」
對於這些流傳甚廣的說法,LeCun前幾日就轉發了Perplexity CEO Aravind Srinivas的帖子,表示澄清。
Aravind Srinivas寫道,很多人以為中國克隆了OpenAI的成果,他們明顯對模型訓練方式的理解很片面。
DeepSeek已經找到了強化學習微調的方法,他們的「DeepSeek-R1 Zero」論文中,也沒有使用監督微調。
隨後,他們結合了一些SFT,並通過良好的拒絕採樣(即過濾)來增加領域知識。
DeepSeek-R1之所以表現出色,主要原因在於它是從零開始學習推理能力,而不是簡單模仿人類或其他模型。
機器學習大牛Sebastian Raschka也對於這種說法表示駁斥。
他表示,在LLM的背景下,「蒸餾」這個術語的使用已經相當寬泛。
團隊只是為SFT建立並整理了一個資料集,用於訓練基於Qwen和Llama的R1模型。
Anthropic CEO長篇檄文:加大制裁力度,趕緊的
Anthropic CEO Dario Amodei也剛剛發出萬字檄文,對美國政府發出警告——
DeepSeek的崛起,就證明美國對華的晶片管制應該繼續加碼!
有趣的是,針對Amodei的行為,LeCun轉發了以下這個梗圖。
檄文全文如下。
出口管制肩負著一個重要使命:確保我們在AI發展中保持領先地位。為此,美國及其盟友的AI公司就必須開發出比中國更優秀的模型。
幾周前,我曾提出加強美國對華晶片出口管制的理由。緊接著,DeepSeek就以更低的成本,實現了接近美國前沿AI模型的性能。
結合這些情況來看,我認為加緊出口管制,比一周前顯得更重要了!
在闡述政策主張之前,我將描述AI系統的三個基本動態特徵。
1. Scaling Law
AI的一個特性,就是在其他條件相同的情況下,擴大AI系統的訓練規模會導致在各類認知任務上的性能平穩提升。
例如,一個100萬美元的模型可能解決20%的重要程式設計任務,1000萬美元的可能解決40%,1億美元的可能解決60%,以此類推。
這些差異在實踐中往往帶來重大影響——再增加10倍投入,可能意味著從本科生到博士水平的跨越——因此各公司都在大力投資訓練這些模型。
2. 曲線位移
AI領域正不斷湧現大大小小的創新理念,使系統變得更有效或更高效:可能是模型架構的改進,或只是最佳化模型在底層硬體上的運行方式。
新一代硬體同樣具有這種效果。
這通常會導致曲線位移:如果創新帶來2倍的「計算乘數」(Compute Multiplier,CM),那麼只需500萬美元而非1000萬美元就能在程式設計任務上達到40%的成功率;或者用5000萬美元而非1億美元達到60%的成功率。
每家前沿AI公司都經常發現這樣的算力倍增效應:通常是小幅度的(約1.2倍),有時是中等規模的(約2倍),偶爾會有顯著的(約10倍)。
由於更智能系統的價值極高,這種曲線位移往往促使公司增加而非減少模型訓練投入:成本效率的提升將完全用於訓練更智能的模型,僅受限於公司的財務資源。
人們通常會有「先貴後便宜」的思維模式——彷彿AI是一個質量恆定的單一產品,變得更便宜時就能用更少的晶片來訓練。
但關鍵在於規模曲線(scaling curve):當曲線位移時,我們只是更快地達到目標,因為終點的價值無比重要。
2020年,我的團隊就發表論文指出,演算法進步帶來的曲線位移每年約為1.68倍。這個速度現已顯著提升,且尚未考慮效率和硬體因素。
我估計現在這個數字可能達到每年4倍。訓練曲線的位移也會帶動推理曲線位移,因此多年來在保持模型質量不變的情況下,價格持續大幅下降。
例如,比GPT-4晚15個月發佈的Claude 3.5 Sonnet,在幾乎所有基準測試中都超越了GPT-4,而API價格僅為後者的十分之一。
3. 範式轉變
有時,被擴展的基礎要素會發生變化,或訓練過程中會引入新的擴展類型。
2020年至2023年間,擴展主要集中在預訓練模型上:這些模型在海量網際網路文字上訓練,只需少量額外訓練。
到了2024年,使用強化學習(RL)訓練模型生成思維鏈已成為擴展的新焦點。
Anthropic、OpenAI、DeepSeek等公司發現,這種訓練顯著提升了模型在特定、可客觀衡量的任務(如數學、程式設計競賽)及類似推理任務上的表現。
這種新範式始於常規預訓練模型,然後在第二階段使用RL加入推理能力。
值得注意的是,由於這種RL方法較新,我們仍處於擴展曲線(scaling curve)的早期:所有參與者在第二階段RL上的投入都相對較小。從10萬美元增加到100萬美元就能帶來顯著提升。
上述三個動態特徵可以幫助我們理解DeepSeek最近發佈的模型。
大約一個月前,DeepSeek發佈了名為「DeepSeek-V3」的純預訓練模型。隨後在上周,他們又發佈了加入第二階段訓練的「R1」模型。
雖然從外部視角難以完全掌握這些模型的所有細節,但以下是我對這兩次發佈的深入理解。
DeepSeek-V3的發佈堪稱重大創新,這本應在一個月前就引起業界廣泛關注。
作為一個預訓練模型,它在某些重要任務上的表現已經接近美國最先進的模型,同時顯著降低了訓練成本。
DeepSeek團隊通過一系列令人印象深刻的創新實現了這一突破,主要集中在提升工程效率方面。他們在「鍵值快取」(Key-Value cache)管理方面做出了特別創新的改進,並且將MoE方法推進到了前所未有的水平。
然而,我們需要仔細審視:
Claude 3.5 Sonnet是一個中等規模的模型,訓練成本在數千萬美元等級(具體數字不便透露)。此外,3.5 Sonnet的訓練過程完全沒有涉及更大或更昂貴的模型(與某些傳言相反)。
Sonnet的訓練是在9-12個月前進行的,而DeepSeek的模型是在去年11、12月訓練的,但在眾多內部和外部評估中,Sonnet仍然保持明顯領先。
因此,一個客觀的說法是:「DeepSeek以較低的成本(但遠未達到外界猜測的比例)開發出了一個性能接近7-10個月前美國模型水平的產品」。
由於DeepSeek-V3不如這些美國前沿模型——在擴展曲線上大約差了2倍,這個估計對DeepSeek-V3來說已經相當寬容——這表明如果DeepSeek-V3的訓練成本比一年前開發的美國當前模型低約8倍,這完全符合預期。
我不會給出具體數字,但從前面的分析可以清楚看出,即使按照表面價值來看DeepSeek的訓練成本,他們最多隻是符合行業趨勢,甚至可能還達不到這個水平。
例如,這比原始GPT-4到Claude 3.5 Sonnet的推理價格差異(10倍)還要小,而且3.5 Sonnet是比GPT-4更優秀的模型。
這些都表明,DeepSeek-V3並非獨特的突破,也不是從根本上改變LLM經濟學的創新;它只是持續成本降低曲線上的一個預期點。
這次的特殊之處在於,首先展示預期成本降低的是一家中國公司。這種情況前所未有,具有重要的地緣政治意義。
然而,美國公司很快就會跟進——他們不是通過複製DeepSeek,而是因為他們同樣在實現常規的成本降低趨勢。
這些額外的晶片用於研發模型背後的理念,有時也用於訓練尚未成熟的更大模型(或需要多次嘗試才能完善的模型)。
據真實性未經證實的報導,DeepSeek擁有50,000片Hopper晶片,我估計這在規模上與主要美國AI公司相差約2~3倍。
因此,DeepSeek作為一家公司的總投入與美國AI實驗室的差距並不顯著。
正如前文所述,Claude在程式設計能力和人機互動設計方面表現卓越。在這些及其他特定任務上,DeepSeek與之相比仍有較大差距。這些優勢特性並未反映在擴展曲線的資料中。
上周發佈的R1模型引發了公眾的廣泛關注,但從創新或工程的角度來看,它遠不如V3具有研究價值。
R1增加的第二階段訓練(強化學習),是複製了OpenAI在o1上所做的工作。
然而,由於我們仍處於模型「擴展曲線」的早期階段,只要以一個強大的預訓練模型為基礎,多家公司都有可能開發出這類模型。在已有V3的基礎上,開發R1的成本可能相當低。
因此,我們正處於一個關鍵的轉折點,即暫時出現了多家公司都能生產出高品質推理模型的局面。但隨著各公司在這些模型的擴展曲線上繼續向上攀升,這種局面將很快改變。
以上內容都是為我的核心關注點作鋪墊:對中國的晶片出口管制。
我對這種情況的看法如下:
然而,由於訓練更智能模型所帶來的經濟價值極其巨大,任何成本節約幾乎立即就被消耗殆盡——這些節省下來的成本又被投入到使用相同巨額預算開發更智能的模型中。
對於美國實驗室尚未發現的創新,DeepSeek開發的效率創新很快就會被美國和中國的實驗室應用於訓練數十億美元等級的模型。
這些模型的表現會比他們之前計畫訓練的數十億美元模型更優異——但投入仍將保持在數十億美元水平。
這個數字會持續攀升,直到我們實現在幾乎所有領域都超越絕大多數人類智能水平的AI。
DeepSeek的發佈並不會改變這一預期,因為它們基本符合這些計算中一直考慮在內的預期成本下降曲線。
這意味著在2026-2027年,我們可能會面臨兩個截然不同的世界。
在美國,多家公司必定會獲得所需的數百萬片晶片(耗資數百億美元)。關鍵問題在於中國是否也能獲得這樣數量的晶片。
但這種兩極格局不一定能永遠維持平衡。
即使美中兩國在AI系統上實力相當,中國可能會將更多的人才、資金和注意力投入到這項技術當中。
結合其龐大的工業基礎優勢,這可能幫助中國在全球舞台上獲得主導地位,不僅是在AI領域,而是在所有領域。
單極世界的持續時間尚難預測,但存在這樣一種可能:由於AI系統最終可以協助開發更智能的系統,暫時的領先優勢可能會轉化為持久的優勢。
因此,在這種情況下,美國及其盟友可能會在全球舞台上確立主導地位並長期保持這一優勢。
他們所面臨的資源限制並不比美國AI公司明顯更多,出口管制也並非促使他們「創新」的主要因素。他們只是一群極具才華的工程師,這也顯示了為什麼中國是美國的重要競爭對手。
這表明出口管制實際上正在發揮作用並不斷完善:監管漏洞正在被逐步填補;否則,他們所有的晶片可能都是最頂級的H100。
如果我們能夠及時堵住這些漏洞,就可能阻止中國獲得數百萬片晶片,從而增加形成美國領先的單極世界格局的可能性。
鑑於我對出口管制和美國國家安全的關注,我需要明確一點:我並不將DeepSeek視為對手,我們的重點也並非針對他們。
從他們接受的採訪來看,他們是一群聰明且充滿求知慾的研究人員,只是希望開發能造福社會的技術。
然而,為了防止中國在AI領域追平美國,出口管制就是最有效工具之一。
若認為技術日益強大、投資回報率提高就是應當解除出口管制的理由,這種邏輯是完全站不住腳的。 (新智元)