史丹佛團隊被曝抄襲清華系大模型，已刪庫跑路，創辦人回應：也算國際認可

2024/06/04

•

史丹佛AI團隊，竟然曝光了抄襲事件，而且抄襲的還是中國國產的大模型成果──模型結構和程式碼，幾乎一模一樣！跟任何抄襲事故一樣……AI圈內都驚呆了。

史丹佛的這項研究叫做Llama3-V，是於5月29日新鮮發布，宣稱只需要500美元就能訓出一個SOTA多模態大模型，比GPT-4V、Gemini Ultra、Claude Opus都強。

Llama3-V的3位作者或許是擁有名校頭銜加持，又有特斯拉、SpaceX的大廠相關背景，這個計畫短短幾天就受到了不小的關注。

甚至一度衝上了HuggingFace趨勢榜首頁：

然而，戲劇性的一幕開始上演了。

有位細心的網友發現，咦？這「配方」怎麼如此的熟悉？

然後他定睛一看，好傢伙，這不就是MiniCPM-Llama3-V 2.5（出自清華係明星新創公司面壁智慧）嘛。

於是這位網友便跑到面壁智慧GitHub專案下開始爆料了：

你們家大模型被史丹佛團隊抄襲了！

而他還附上了一堆的證據，最直接的莫過於這張2個模型代碼的比較圖了：

Emmm……用這位網友的話來說就是：

模型結構、程式碼、設定文件，簡直一模一樣，只是變數名稱變了而已。

至於為什麼這位網友要跑到面壁智能GitHub專案下面留言，是因為他之前已經給Llama3-V作者留過言了，但史丹佛團隊的做法竟是刪庫跑路…

沒錯，現在不論是GitHub還是HuggingFace，統統都是404：

而這事現在還在持續發酵的過程中，網路上吃瓜的群眾也越來越多。

那我先來一同回顧一下這件drama事情的始末。

“程式碼和架構一模一樣”

如剛才所述，一個網友爆料Llama3-V抄襲MiniCPM-Llama3-V 2.5，跑到面壁智能的GitHub主頁提醒團隊注意，並把關鍵證據都一一截圖列舉了下來，這才有了整個抄襲門的還原現場。

以下是這位網友的證據。

證據一，Llama3-V的模型架構和程式碼與MiniCPM-Llama3-V 2.5幾乎完全相同：

看下面的例子，設定檔就改了影像切片、分詞器、重採樣器和資料載入等格式化和變數名稱：

Llama3-V作者表示參考了LLaVA-UHD架構，在ViT和LLM等選擇上有一些差異。但實際上，網友發現他們的具體實現在空間模式等很多方面都與LLaVA-UHD不同，卻出奇與MiniCPM-Llama3-V 2.5一致。

甚至，Llama3-V還用了MiniCPM-Llama3-V 2.5的分詞器，連MiniCPM-Llama3-V 2.5定義的特殊符號都能「巧合」實屬離譜。

證據二，網友質疑Llama3-V作者是如何在MinicPM-Llama3-V2.5專案發布之前就使用上MinicPM-Llama3-V2.5分詞器的。

Llama3-V作者給的回覆是這樣嬸兒的，說是用的面壁智能上一代MinicPM-V-2項目的：

但事實是，HuggingFace中，MiniCPM-V2與MiniCPM-Llama3-V 2.5分詞器分別是兩個文件，文件大小也完全不同。

MiniCPM-Llama3-V 2.5的分詞器是用Llama3分詞器加上MiniCPM-V系列模型的特殊token組成，而MiniCPM-V2的發布都在Llama3開源之前，怎麼會有Llama3分詞器。

證據三，Llama3-V作者隨後無故刪除了網友在Llama3-V頁面上提交的質疑他們抄襲的問題。

而且，他們似乎對MiniCPM-Llama3-V 2.5架構或自己的程式碼都不完全了解。

感知器重採樣器（Perceiver resampler）是單層交叉注意力，而不是雙層自註意力。但是下圖所示Llama3-V的技術部落格作者的理解很明顯是錯的。

SigLIP的Sigmoid活化也不用於訓練多模態大語言模型，而僅用於預訓練SigLIP。

視覺特徵提取不需要Sigmoid活化：

基於上述三點事實，這位網友認為足以證據證明Llama3-V計畫竊取了MiniCPM-Llama3-V 2.5計畫的學術成就。

但還沒完，他隨後又補充了兩點證據。

幾天前，當這位網友嘗試運行Llama3-V時，發現他們提供的程式碼無法與HuggingFace的checkpoint一起使用，反饋問題沒有得到作者回應。

於是網友把HuggingFace下載的Llama3-V模型權重中的變數名稱改成了MiniCPM-Llama3-V 2.5的，驚奇發現模型居然可以用MiniCPM-V程式碼成功運作。

此外，如果將高斯雜訊（由單一標量參數化）加入MiniCPM-Llama3-V 2.5的checkpoint，結果就是會得到一個行為與Llama3-V極為相似的模型。

收到網友的提醒後，MiniCPM-Llama3-V 2.5團隊這邊也迅速展開了調查，他們按照網友的在GitHub上的說明，使用Llama3-V的checkpoint和MiniCPM-Llama3-V 2.5的代碼和設定檔正確地獲得了推理結果。

於是，一個更關鍵的證據出現了。

Llama3-V在一些未公開的實驗性特徵上表現出與MiniCPM-Llama3-V 2.5高度相似的行為，而這些特徵是根據MiniCPM-Llama3-V 2.5團隊內部資料訓練的。

例如，識別清華簡！

MiniCPM-Llama3-V 2.5特有的功能之一是識別清華簡，這是一種非常罕見、於戰國時期寫在竹子上的中國古代文字。

訓練影像是從最近出土的文物中掃描出來的，由MiniCPM-Llama3-V 2.5團隊進行了標註，尚未公開發布。

而Llama3-V的辨識情況和MiniCPM-Llama3-V 2.5極為相似。

辨識錯誤的情況竟然出奇一致：

MiniCPM-Llama3-V 2.5團隊也在1000 張竹簡影像上測試了幾種基於Llama3的視覺-語言模型，並比較了每對模型的預測精確匹配。

結果，每兩個模型之間的重疊為零，而Llama3-V和MiniCPM-Llama3-V 2.5之間的&&重疊達到了驚人的87%**。

此外，MiniCPM-Llama3-V 2.5和Llama3-V甚至具有相似的錯誤分佈。 Llama3-V和MiniCPM-Llama3-V 2.5分別做出236和194個錯誤預測，重疊部分為182個。

且依照網友在GitHub上的指令所獲得的MiniCPM-Llama3-V2.5-noisy顯示出與Llama3-V幾乎相同的定量結果，真令人匪夷所思…

在另一個MiniCPM-Llama3-V 2.5內部資料上訓練的未公開功能－WebAgent上，也出現了同樣的情況。

Llama3-V甚至和MiniCPM-Llama3-V 2.5團隊新定義的WebAgent模式中犯的錯誤都一樣。

鑑於這些結果，MiniCPM-Llama3-V 2.5團隊表示很難將這種不尋常的相似性解釋為巧合，希望Llama3-V作者能對這個問題給出正式的解釋。

史丹佛團隊已刪庫跑路

雖然史丹佛的2位本科生已經下架了幾乎所有與之相關的項目，但其實在此之前，他們最初在面對質疑的時候還是做出了些許的解釋。

例如他們強調，Llama3-V這項工作的時間是要早於面壁智慧的MiniCPM，只是使用了他們的tokenizer。

不過作者對Medium上的聲明還是做了保留：

非常感謝那些在評論中指出與先前研究相似之處的人。我們意識到我們的架構非常類似OpenBMB的「MiniCPM-Llama3-V 2.5，他們在實作上比我們搶先一步。我們已經刪除了關於作者的原始模型。

對此，有一部分網友表示，既然選擇刪掉項目，就表示確實存在一定的問題。

不過另一方面，對於抄襲這事也有不一樣的聲音──

MiniCPM-Llama3-V 2.5不也是在Llama3的基礎上做的改良嗎？不過連tokenizer都直接拿來用就應該不算是藉鏡了。

而就在剛剛，另一個戲劇性的事情發生了。

史丹佛的作者在中午時間做出了最新的回應：

而面壁智慧這邊，CEO李大海也做出了正式回應：

參考連結：
[1]https://github.com/OpenBMB/MiniCPM-V/issues/196
[2]https://github.com/mustafaaljadery/Llama3-V
[3]https://www.reddit. com/r/LocalLLaMA/com。 true&one_tap=true [5]
https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

(量子位元)