史丹佛抄襲中國大模型始末


一場史丹佛AI團隊抄襲清華系開源大模型的鬧劇在海外社群平台上吵得沸沸揚揚,6月3日,此事最終以作者團隊向後者公開道歉收場。

5月末,一款名為「Llama3-V」的史丹佛團隊多模態大模型在開源社群上火了起來,因為創始團隊聲稱僅用500美元成本,就能基於Llama3訓練出一個SOTA開源多模態模型,不僅尺寸小(比GPT-4v小100倍),在性能上也比肩GPT-4v、Gemini Ultra、Claude Opus。

在這項宣傳基調下,頂級名校背景外加模型本身的效果,很快就將Llama3-V推至聚光燈下,並使其拿下“HuggingFace Trending”(一個開源模型社區的榜單)Top 5的成績。

就在社區還沉浸於這場小小狂歡時,陸續有網友提出質疑,指出Llama3-V的架構和代碼,與一款來自中國團隊的大模型幾乎一模一樣,即清華系和麵壁智能團隊聯合開發的MiniCPM-Llama3-V 2.5。

一開始,Llama-3V團隊表示他們只是使用了MiniCPM-Llama3-V 2.5的tokenizer(分詞器),並且宣稱在後者發布前就開始了這項工作,但這個解釋在時間線上難以成立。同時,作者聲稱“引用了LLaVA-UHD作為架構”,但相較於此,該專案的具體實現與MiniCPM-Llama3-V 2.5更為相似。

隨後,大量網友發布詳細對比,發現兩款模型幾乎「共享」同一套模型結構和程式碼,Llama-3V只是對MiniCPM-Llama3-V 2.5進行了一些重新格式化並把一些變數重新做了命名,例如影像切片、分詞器、重採樣器、資料載入等變數。此外,前者也使用了與後者完全相同的分詞器,包括MiniCPM-Llama3-V 2.5新定義的特殊符號。

還有網友指出,當運行Llama3-V時,作者提供的程式碼無法HuggingFace上的checkpoint(包含模型參數的快照或保存點)配合使用,但如果把Llama3-V模型權重中的變數名稱更改為MiniCPM- Llama3-V 2.5的名稱後,模型就可以成功運行MiniCPM-V的程式碼。

並且,如果在MiniCPM-Llama3-V 2.5的checkpoint上加入一個簡單的高斯噪聲,就會得到一個與Llama3-V極為相似的模型。

更關鍵的是,MiniCPM-Llama3-V 2.5具備一個實驗性功能是辨識清華簡,這是一種特殊且罕見的戰國時期古文字。據悉,相關訓練資料的收集和標註均由清華NLP實驗室和麵壁智慧團隊完成,相關資料尚未對外公開,然而Llama3-V卻具有相同能力。

結合種種網友爆料,以及作者團隊聲稱「僅用500美元成本」等訊息,Llama-3V抄襲MiniCPM-Llama3-V 2.5一事幾乎成為定論。

對此,面壁智慧首席科學家劉知遠在知乎上發聲,表示「已經比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼」。同時,他指出,開源的MiniCPM-Llama3-V 2.5是以最新的Llama3作為語言模型基座,而開源共享的基石是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬,Llama3-V團隊無疑嚴重破壞了這一點。

面壁智慧CEO李大海也在微信朋友圈發文稱,「我們對這件事深表遺憾。一方面感慨這也是一種受到國際團隊認可的方式,另一方面也呼籲大家共建開放、合作、有信任的社區環境。

事實上,在種種證據陸續析出後,Llama3-V作者團隊首先是刪評論和刪庫,予以非正面回應。但在輿情發酵嚴重之後,終於在昨日,其中的兩位作者Aksh Garg和Siddharth Sharma在X平台聯合署名發表正式回應,向MiniCPM原作者道歉,並表示會將Llama3-V模型悉數撤下。

隨後,史丹佛人工智慧實驗室主任Christopher David Manning發文批判了這項抄襲行為,GoogleDeepMind研究員Lucas Beyer則表示,有趣的是,有同樣表現的MiniCPM-Llama3-V 2.5得到了太少的關注,而這似乎僅僅因為這個模型不是來自一所藤校,「我們都顯得太難堪了。」他寫道。(界面新聞)