#大模型蒸餾
馬斯克庭審現場"自首":對,我用OpenAI模型練過Grok,大家不都這麼幹嗎?
馬斯克在庭審中親口承認:xAI用OpenAI的模型訓練了Grok。被追問時他的辯解是——"所有AI公司都這麼幹"。諷刺的是,他正以此起訴OpenAI違約,索賠金額高達天文數字。馬斯克到達加州聯邦法院4月30日,加州奧克蘭聯邦法院,馬斯克坐在證人席上,面對OpenAI律師William Savitt的追問。這場面本來應該是馬斯克證明OpenAI"背叛初心"的舞台——他要讓陪審團相信,Sam Altman把一家本該屬於全人類的公益實驗室,變成了一家謀取暴利的商業公司。但Savitt問了一個看似技術性的問題,把馬斯克逼到了牆角。"你知道什麼是distillation(蒸餾)嗎?"馬斯克答:"就是一個AI模型用來訓練另一個AI模型。""xAI有沒有用OpenAI的模型做過這件事?"馬斯克沒有說"沒有"。他說的是:"一般來說,所有AI公司都這麼做。"Savitt追問:"所以這是'是'的意思?""Partly(部分地)。"這就是法庭記錄的原文。這場官司,從何而來?2015年,馬斯克和Altman共同創立OpenAI——一家明確以非營利方式營運的AI實驗室,使命是"確保AGI造福全人類",技術"屬於全世界"。馬斯克是這個項目的主要推動者,捐款約3800萬美元,佔早期資金六成,還親自出謀劃策。但2017年,聯合創始人Greg Brockman和Ilya Sutskever等人開始擔心:馬斯克對OpenAI的控制慾太強——內部郵件顯示他們警告,馬斯克可能最終"獨攬AGI的絕對控制權"。馬斯克隨即退出董事會。內部日記裡寫著:"這是我們唯一的機會,必須擺脫埃隆。"馬斯克離開13個月後,2019年OpenAI宣佈轉型為"利潤上限"公司,接受微軟數十億美元投資,Altman擔任CEO。ChatGPT於2022年一炮而紅,OpenAI躍升為全球估值最高的AI公司。2023年,馬斯克創立了自己的AI公司xAI,對標OpenAI。2024年,他正式起訴OpenAI及其CEO Altman,索賠1340億美元,理由是OpenAI背叛了"技術屬於全人類"的創始承諾。2026年3月,OpenAI估值達8520億美元,宣佈Q4 IPO計畫。4月27日,這場持續數年的訴訟正式開庭。所以4月30日當馬斯克坐在證人席上,被問到自己是否也在用競爭對手的模型"蒸餾"來訓練商業產品時——這場戲的諷刺程度,大概連編劇都不敢這麼寫。"標準做法":行業公開的秘密馬斯克在法庭上的辯解,揭露了一個AI行業心照不宣的潛規則:幾乎所有公司都在用競爭對手的模型來訓練自己的模型。這個過程叫"蒸餾"(distillation)——用一個強大的"教師模型"的輸出,來訓練一個更小的"學生模型"。學生模型用遠低於從頭訓練的成本,就能達到接近教師模型的性能。合法的使用方式,是AI公司蒸餾自己的模型——比如OpenAI把GPT-4蒸餾成GPT-4o mini,Anthropic把Claude Opus蒸餾成Claude Haiku。這讓模型更便宜、更快,但能力保留大部分。但問題是:如果你用競爭對手的模型來蒸餾呢?OpenAI、Anthropic和Google一直在公開指責中國公司這麼做。OpenAI在今年2月寫給國會的信中,點名DeepSeek"非法蒸餾"其模型。Anthropic也在部落格中點名DeepSeek、Moonshot和MiniMax,稱它們"用蒸餾竊取前沿能力"。Google更是直接把這種行為稱為"蒸餾攻擊"——一種侵犯智慧財產權的盜竊行為,違反Google服務條款。諷刺的是,馬斯克在法庭上承認的,正是美國AI公司一直指責中國公司干的事。互搧耳光:Anthropic已經切斷了xAI的訪問行業裡的"蒸餾冷戰"已經公開化了。2025年8月,Anthropic以"違反服務條款"為由,切斷了OpenAI對其Claude模型的API訪問。理由是OpenAI用Claude來"蒸餾"自己的能力。最近,Anthropic又切斷了xAI對其模型的訪問。換言之,馬斯克的AI公司已經被同行"制裁"了。而馬斯克在法庭上的證詞,等於把這件事擺到了檯面上——是的,我們幹了,但大家不都這麼幹嗎?Savitt繼續追問:"OpenAI的技術有沒有以任何方式被用於開發xAI?"馬斯克答:"用其他AI來驗證你的AI,這是標準做法。"這句話的潛台詞是:我不只是用OpenAI的模型來訓練Grok,我還用它們來"驗證"xAI的模型。這是行業標準操作,你OpenAI不也這麼幹嗎?馬斯克vs OpenAI:一場關於"誰擁有AI未來"的戰爭這場庭審的核心,是馬斯克在2024年發起的訴訟——他聲稱OpenAI違背了最初的非營利使命,變成一個以盈利為目的的公司,而Sam Altman是這場"背叛"的主謀。馬斯克要求OpenAI回到"開源、非盈利"的初心,或者至少讓他拿回自己當初投資的那部分權益。但OpenAI的律師在庭審中提出了一個尖銳的矛盾:如果馬斯克真的認為OpenAI的技術應該屬於"全人類",那他為什麼要用OpenAI的模型來訓練自己的商業產品Grok?xAI是馬斯克的商業公司,Grok是它的產品,它們和OpenAI一樣,都在爭取付費使用者和企業客戶。所以這場訴訟的荒謬之處就在於:馬斯克一邊在法庭上說OpenAI"偷了全人類的技術去賺錢",一邊用OpenAI的技術來訓練自己的賺錢工具。馬斯克在法庭上的"Partly",可能是整個AI行業最誠實的一句話。蒸餾到底是"竊密"還是"標準做法",取決於你是誰——如果你是中國公司,那是"竊密";如果你是馬斯克,那是"大家都這麼幹"。這道雙重標準,AI行業自己可能也解釋不清。 (超前觀察)
美國AI三巨頭聯手打壓中國AI模型蒸餾
2026年初,一場圍繞人工智慧核心技術的暗戰浮出水面。Anthropic在今年2月率先發難,指控中國的DeepSeek、MiniMax、月之暗面(Kimi)對其模型發動了“工業等級的蒸餾攻擊”,涉及超過1600萬次互動。隨後,OpenAI向美國國會提交備忘錄,指責DeepSeek試圖“免費搭便車”。OpenAI、Google、Anthropic——這三家平日裡在AI賽道上你追我趕的競爭對手,罕見地站到了同一戰壕裡。他們的目標很明確:聯手遏制中國AI公司正在廣泛使用的“模型蒸餾”技術,識別並打擊所謂的“對抗性蒸餾”行為,矛頭直指中國AI企業。何為“模型蒸餾”呢?這是一項行業通行的知識遷移技術。想像一下:一位資深的大學教授(大模型)將知識精華提煉成通俗易懂的講義,讓一名高中生(小模型)能夠快速掌握核心要點。在這個過程中,小模型不需要閱讀浩如煙海的原始資料,而是通過向大模型“提問”並學習其輸出模式,最終以更低的成本、更快的速度獲得接近大模型的能力。這項技術並非中國公司的獨創,在AI學術界和工業界,蒸餾早已是一種公開、合法、廣泛使用的最佳化手段。幾乎所有主流AI公司,包括OpenAI和Google自身,都在不同程度上使用蒸餾技術來提升模型效率、降低推理成本。它就像物理學中的“槓桿原理”,是一種聰明的工程智慧,而非見不得光的“偷竊”。分析一下圍堵背後的真實動機:美國三巨頭的聯手,表面上是維護智慧財產權和“安全”,實質上暴露了美國AI巨頭更深層的焦慮。1、中國AI公司的進步速度超出了預期以DeepSeek為代表的企業,通過蒸餾等最佳化技術,在算力受限的情況下依然打造出性能逼近頂尖閉源模型的產品,這讓習慣了技術領先優勢的美國巨頭感到不安。2、這是一場赤裸裸的商業利益博弈OpenAI等公司每年投入數十億美元訓練模型,而蒸餾技術的普及意味著後來者可以用極低的成本“站在巨人的肩膀上”,在美國公司看來,這相當於每年損失數十億美元的潛在利潤。於是,他們試圖通過“前沿模型論壇”這種行業聯盟的形式,聯合施壓、資訊共享,形成一道針對中國AI公司的技術封鎖線。美國巨頭面對競爭時的雙重標準:特斯拉CEO埃隆·馬斯克在社交平台上公開嘲諷,稱這是“賊喊捉賊”——因為OpenAI等公司在發展初期,也曾大量利用Google、Meta等機構公開的研究成果和模型資料。所謂“技術追趕者利用先行者成果”,本就是科技發展的常態。對於“模型蒸餾”事件的進一步思考:技術自強是根本,蒸餾雖然是一條捷徑,但終究不能替代基礎模型的原始創新。只有在大模型架構、訓練方法、算力最佳化等底層技術上取得突破,才能真正擺脫對國外先進模型的依賴。總結一下:歷史反覆證明,任何技術封鎖都難以阻擋真正有志者的腳步。從航天到晶片,從作業系統到人工智慧,中國科技產業正是在一次次“圍堵”中實現了突破與超越。這一次,面對AI三巨頭的聯手施壓,我們有理由相信:壓力之下,中國AI的創新之火,反而會燃燒得更加旺盛。 (AI思享坊)
三家中國大模型公司被捲入蒸餾風波,律師解讀:Anthropic的指控從法律上很牽強
既沒有駭客入侵,也沒有竊取OpenAI或Anthropic內部的核心參數、底層程式碼或演算法邏輯。將這種公開獲取資料的行為認定為不正當手段,在法律上非常牽強。近日,美國AI初創公司Anthropic突然向中國大模型企業發難,指控包括DeepSeek等在內的三家中國企業,通過約24000個帳戶與其旗下模型Claude進行了超過1600萬次互動,涉嫌通過蒸餾技術竊取Claude的功能以改進自身模型。這一指控在社交網路上引發軒然大波,甚至引來首富埃隆·馬斯克的辛辣嘲諷“他們竟敢‘偷竊’Anthropic從人類程式設計師那裡偷走的東西?”這一新聞事件極具戲劇性與諷刺性,作為專業人士,我們不妨適當剝離情緒化的爭論,從法律視角探討資料蒸餾的法律風險,審視Anthropic本次指控的法理困境及矛盾,探尋其隱藏在“正當維權”大旗下的真實目的。01大模型蒸餾的法律問題在探討法律適用之前,我們必須先釐清技術事實。所謂蒸餾(Distillation),通俗來講,就是用一個已經訓練好的、能力強大的大模型(又稱“教師模型”,如GPT-5或Gemini 3.1)的輸出結果,作為教材來訓練一個體積更小、但效率更高的小模型(又稱“學生模型”)。這種方法能夠以極低的成本和極短的時間,讓小模型獲得接近大模型的能力。正如網路梗圖所言,“不要問女人的年齡,不要問男人的薪水,不要問AI公司的訓練資料從那裡來。”在當前的人工智慧行業,蒸餾或者說利用他方模型的輸出進行二次微調,幾乎是行業內公開的秘密與常規操作。學術界普遍認為,蒸餾本身並無天然的違法性,大家相互借鑑經驗,對於不公佈程式碼的閉源模型而言,通過指令微調來學習其黑盒經驗是一種正常的技術迭代手段。從智慧財產權角度來看,這種行為不可避免地觸及多項法律權利。首先,在著作權法層面,如果教師模型的輸出內容被視為受保護的作品,那麼學生模型對其進行的大規模抓取和分析,理論上可能會引發關於資料複製或改編的合規性疑問。其次是商業秘密層面的考量。教師模型的演算法邏輯與機率分佈若被視為核心機密,通過API呼叫進行規律推導的行為,將涉嫌對商業秘密的刺探。最後,在反不正當競爭與合同合規方面,利用大量帳戶規避區域限制並提取知識,涉嫌違反平台服務條款,也可能存在有違商業倫理的搭便車嫌疑。這些理論風險,構成了Anthropic等西方科技巨頭向後來者發難的法理外衣。02AI生成內容的維權困境儘管上述理論風險客觀存在,但結合現行的智慧財產權原則與行業實踐來看,將蒸餾行為直接等同於著作權侵權,在邏輯上可能面臨很多挑戰。其一,人工智慧生成內容的權利歸屬通常較為複雜。根據中美兩國的著作權法及近年的司法實踐,構成作品的核心要件是人類的智力創造。美國版權局在此前多起涉及AI生成圖片的註冊申請中,均明確拒絕了對純AI生成內容給予版權保護;中國北京網際網路法院在“AI文生圖第一案”中雖然認定特定情況下AI生成圖片具有可版權性,但其前提是人類使用者在提示詞輸入上付出了極其顯著的智力勞動,最近的其他法院對該等標準也把握較為嚴格。中國大模型企業通過API或網頁呼叫Claude產生的資料,本質上是機器演算法的機率性輸出。Anthropic作為模型的開發者,並沒有對這些具體輸出內容進行直接的人類智力干預。既然這些輸出結果缺乏人類作者身份,它們就無法達到可版權性的標準,大機率屬於公共領域的產物。既然部分模型輸出的內容未必構成法定作品,平台方基於此主張版權受損的阻力便會增大。其二,行業內普遍存在的使用者協議條款也可能限制了平台方的維權空間。許多大模型服務商(包括業內頭部的OpenAI等)在其使用者協議中通常會約定,平台不對使用者的輸入主張所有權,且將模型輸出內容的權益轉移給使用者。目前,Anthropic在消費者服務協議(Consumer Terms of Service)中明確載明,在雙方之間,使用者擁有所有輸入(Prompts)和輸出(Outputs)的內容。Anthropic特此將輸出內容的所有權利、所有權和利益(如果有的話)轉讓使用者。在這種行業規則下,使用者獲得了對輸出內容的支配權,平台若再以智慧財產權為由限制使用者對輸出結果的使用(包括用於訓練新模型),在法理上可能存在爭議。其三,基於思想與表達二分法原則,版權通常只保護對思想的具體表達,而不保護思想、方法或概念本身。在知識蒸餾中,學生模型學習的軟標籤、演算法規律與推理鏈條,更傾向於認知系統的建構原理,屬於不受保護的思想範疇 。蒸餾行為更像是在拜師學習,而非抄襲。同時,為了提取資料特徵而產生的臨時性資料處理,通常旨在挖掘規律,這在很大程度上契合了促進技術發展的轉換性使用原則,或許多國家設立的文字與資料探勘合理使用例外。03商業秘密及不正當競爭侵權分析在商業秘密和不正當競爭的維度上,知識蒸餾的合理性同樣值得探討。商業秘密的保護前提是資訊具有一定的秘密性。但API介面和網頁對話方塊是平台向大眾公開的,第三方通過公開的介面合法輸入提示詞並獲取輸出,既沒有駭客入侵,也沒有竊取OpenAI或Anthropic內部的核心參數、底層程式碼或演算法邏輯。將這種公開獲取資料的行為認定為不正當手段,在法律上非常牽強。搭便車和不正當競爭的指控,是Anthropic最可能發力的法律維度。我們必須認識到,反不正當競爭法的核心價值在於保護公平自由的市場競爭秩序,而非保護某一個特定競爭者的既得利益。在競爭法視野中,搭便車行為並非一律違法,模仿本身是技術創新的必經階段。判斷某項模仿行為是否構成不正當競爭的關鍵,在於模仿者是否通過創造性的勞動帶來了重大的技術增量,並在客觀上拓展了公眾的選擇空間。以被捲入此次風波的DeepSeek為例,其模型的成功絕非對先進模型的簡單同質化復刻或不勞而獲。公開資料顯示,DeepSeek在模型架構與訓練方法上進行了大量獨立且底層的顛覆性創新。例如,其採用了極大規模的混合專家模型(MoE)、獨創的多頭潛在注意力機制(MLA),並在罕見地應用了純強化學習(RL)演算法來動態調整模型參數,這些創新提升了模型的推理能力並降低了訓練成本。這種為人工智慧技術演進貢獻了非線性創新增量與技術路線互補性的行為,顯然超越了單純搭便車的範疇,屬於正當的市場競爭行為。雖然其他平台服務條款中可能包含禁止反向工程等限制性規定,但如果掌握技術優勢的企業借此絕對禁止他人對其公開產品進行規律性分析,可能會不當壓縮技術交流的公共空間,甚至引發關於限制競爭的懷疑,反而應當受到反壟斷法的嚴厲規制。04侵權事實的證明障礙從法律實務的維度剖析,Anthropic在本次指控實踐中面臨著幾乎難以完成的舉證責任。首先,高頻次的系統呼叫記錄並不能直接等同於侵權證據。Anthropic宣稱的1600萬次互動,客觀上描述了資料呼叫量級,但無法直接證明DeepSeek、Moonshot等企業實質性地利用了從這些互動中獲取的特定知識,並將其直接用於了自家大模型的底層訓練之中。在法律意義上,相關呼叫記錄無法形成有效因果關係,高頻次的互動既可能是為了常規的複雜業務應用測試,也可能是為了建構開源資料集,沒有任何直接且有效的技術手段能夠確鑿證明,DeepSeek等企業將這些具體的互動資料實質性地喂給了其基礎模型的訓練引擎並構成了所謂的蒸餾。其次,是當前網際網路普遍存在的資料污染現象。大模型在預訓練階段通常會廣泛抓取公開網頁資料 。而如今的網際網路上已經包含了大量由各種先進AI生成的文字和答案。後來者的模型在吸收這些公開資料時,不可避免地會間接受益於前沿模型的知識。這種並非出於主觀故意的被動吸收,使得區分惡意蒸餾與常規資料訓練變得異常困難。05寫在最後模型蒸餾作為推動人工智慧向高效化、輕量化發展的有效路徑,其本身是具有技術合理性的創新手段,無需也不應受到不合理的法律過度限制。綜合Anthropic的侵權指控,其將面臨權利基礎薄弱、合理使用抗辯、以及嚴苛舉證責任的多重困境,其法理根基是非常脆弱的。剝開法律與技術的層層外衣,我們不難推斷,為了打壓中國的新型競爭對手並維持高昂的資本估值,Anthropic不惜將純粹的技術競爭強行上升到國家安全問題,以迎合美國現政府的政策口徑,以此換取更寬鬆的監管環境以及持續不斷的政府訂單輸血。透視Anthropic此次高調的指控,我們更應警惕其中潛藏的雙重標準:矽谷的科技巨頭們最初賴以起家的基座模型,正是建立在未經授權、大規模抓取網際網路公開資料的基礎之上;而如今,當它們形成了事實上的技術壟斷後,卻試圖通過一紙的使用者協議關上大門,將後來者合法的蒸餾學習污名化為偷竊。正如埃隆·馬斯克所嘲諷的那樣,這種“只許矽谷‘偷資料’,不許中國‘做蒸餾’”的做法,其實質是打著保護智慧財產權的幌子,行技術霸權與數字壟斷之實。 (騰訊科技)