李開複批“作秀式大模型排名”,中國大模型與全球頂尖大模型僅差6個月

剛在上週開過發布會的零一萬物創始人李開復,時隔一周再一次在線上親自和小部分媒體溝通,並在溝通會的開始就表示“難掩興奮,希望馬上開發布會和大家分享這個消息。

這個讓李開復無比興奮的消息就是,零一萬物提交的「Yi-Large」 千億參數閉源大模型在LMSYS Org發布的Chatbot Arena取得了總榜排名第七的成績。

過去一年的模型能力大戰中,伴隨每次新模型的發布,Benchmark評分就會作為標準動作同時公佈。但是,究竟該如何解讀這些分數呢?哪些才是有公信力的?業界並沒有統一的標準。

在Gpt-4o發布後,我們注意到OpenAI CEO Sam Altman親自轉帖,引用的也是LMSYS arena 盲測擂台的測試結果。

為什麼Sam Altman會引用LMSYS 的結果?為什麼在這個榜單取得成績會讓李開復興奮不已?

LMSYS Org發布的Chatbot Arena,關鍵字是盲測和開放。用通俗的語言來描述就是,它的模式是透過眾包的方式對大模型進行匿名評測,用戶可以在官網輸入問題,然後由一個或多個用戶並不知道品牌的大模型同時返回結果,用戶根據自己的期望對效果進行投票。

在收集真實用戶投票數據之後,LMSYS Chatbot Arena也使用Elo評分系統來量化模型的表現,進一步優化評分機制,力求公平反應參與者的實力。最後用Elo評分系統來得出綜合得分-每位參與者都會獲得基準評分。系統會根據參與者評分來計算其贏得比賽的機率,一旦低分選手擊敗高分選手,那麼低分選手就會獲得較多的分數,反之則較少。


評測介面


在海外大廠高層中,不只Sam Altman,Google DeepMind首席科學家Jeff Dean也曾引用LMSYS Chatbot Arena的排名數據,來佐證Bard產品的效能。 OpenAI、Google等自身的旗艦模型發布後第一時間提交給LMSYS,本身確實顯示了海外頭部大廠對於Chatbot Arena的極大尊重。

美國時間2024年5月20日剛刷新的LMSYS Chatboat Arena 盲測結果,來自至今累積超過1170萬的全球用戶真實投票數:此次Chatbot Arena共有44款模型參賽,既包含了頂尖開源模型Llama3-70B ,也包含了各家大廠的閉源模型。

在這個榜單上,我們也看到了中國大模型的身影,智譜GLM4、阿里Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-34B-chat 此次都有參與盲測,零一萬物提交的「Yi-Large」 千億參數閉源大模型總榜排名第七,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文三種語言評測,開始注重全球大模型的多樣性。 Yi-Large的中文語言分榜上拔得頭籌,與OpenAI 官宣才一周的地表最強GPT4o 並列第一,Qwen-Max 和GLM-4 在中文榜上也都表現不凡。

「中國大模型與OpenAI旗艦模型的差距已經從7-10年縮短到了6個月。」李開復在線上溝通會上興奮地表達。同時,他也呼籲「無論是出於自身模型能力迭代的考慮,還是立足於長期口碑的視角,大模型廠商應當積極參與到像Chatbot Arena這樣的權威評測平台中,透過實際的用戶反饋和專業的評測機制來證明其產品的競爭力。

同時,李開復也十分直接地抨擊了“作秀式的評測方式”,他指出“相反,那些選擇作秀式的評測方式,忽視真實應用效果的廠商,模型能力與市場需求之間的鴻溝會越發明顯,最終將難以在激烈的市場競爭中立足。


在簡短的媒體溝通會上,李開復和零一萬物模型訓練負責人黃文灝也坦誠回答了媒體關於模型評測的客觀性、模型成本下降、全球大模型競爭差距等問題,以下為部分訪談內容實錄:

Q: Yi-Large確實在中國大模型排名第一,但是確實前面還有國外大廠模型,您認為造成這個差距的原因主要是什麼,是人才嗎?如何追趕?

李開復:謝謝,我覺得首先我們也不能確定自己是中國第一,因為中國只有三個模型參加,我們也希望以後可以更確定的驗證這一點。

但我也不是特別認為我們跟全球有差距,當然你要用他們最好的對我們最好的是有一定的差距,但是同時可能要考慮到他們比如說Google團隊是2000人,OpenAI是1000人,在我們這裡把模型加infrastructure加起來也不到100人,而且我們用GPU算力做這個訓練不到他們的1/10,我們的模型尺寸也不到他的1/10。

換一個角度來說,如果只評估千億模型,至少在這個排行榜上是世界第一,這些點我們還是很自豪,在一年前我們落後OpenAI跟Google 開始做大模型研發的時間點有7到10年,現在我們跟著他們差距在6個月左右,這個大大的降低。

這6個月怎麼來?可以回到LMSYS 6個月以前的榜,或是今天比我們排名在前面的幾家,幾乎都是今年發出來的模型,去年的模型還在榜單上,我們已經打敗了。

另外一個角度來看,今天我們發布的這個模型在5月的時候可以打敗去年11月之前的任何模型,所以我覺得也可以科學的推理出我們落後6個月。

6個月的差別我覺得不是很大,我覺得是一個不可思議的超級速度的趕追,這些方面我還是非常自豪。

如果你說美國人才有沒有獨特的地方?肯定是有的,從我寫的《AI·未來》這本書之後,我一直都堅持美國是做突破性科研,創造力特別強的一群科學家,在這方面在全世界是沒有對手的。

但在同一本書裡我也說了,中國人的聰明、勤奮、努力是不容忽視的,我們把這7-10年降低到只有6個月,就驗證了做好一個模型絕對不只是看你多能寫論文,多能發明新的東西,先做或後做,做的最好的才是最強的,Google搜尋比雅虎晚做很多,但是完全沒得比。

所以我覺得後發有後發的優勢,但同時我們特別尊敬美國這些創造性,他們的論文希望他們繼續寫,我們是每一篇都會仔細閱讀,我們跟他們有很多學習的地方。但是比執行力,比做出一個很好的體驗,做比產品,比商業模式,我覺得我們強於美國公司。

Q:現在有很多榜單,像是之前零一萬物引用的史丹佛的Alpaca Eval,現在又有大模型競技場,哪些評測會比較客觀呢?

李開復:我覺得這兩個都是客觀公正的,Alpaca Eval是史丹佛大學用GPT4評測的,今天的LMSYS是真的幾萬個人評估一個模型,嚴格要我挑哪一個更可信的話,雖然我們在Alpaca排名更高,但我覺得LMSYS是更可信的。

黃文灝:很多benchmark,包括我們之前大家會比MMLU、GSM8K這些,之前benchmark的題都是死的,它是有一個確定的評測集,當題目已經完全確定以後,大家可以在上面針對題目做一些合成數據,使模型在某一些方面能力變得更高。

而LMSYS它有幾方面比較好,一方面是它的題目是真實用戶聊天當中給的題,所以這個題是動態變化的,沒有人可以預測題目分佈是什麼樣子的,就沒有辦法針對題目分佈去對模型做單一方面的最佳化,所以它是overall的模型能力的反映。

第二,因為題目是動態隨機,所以它的客觀性可能會更高一些。

第三,它是由使用者來進行評分的結果,使用GPT-4打分,會有些模型的偏好性。用戶的評分和用戶是更接近的,所以這個榜單也會跟實際應用當中用戶的preference更接近,這跟我們做成模因一體的理念是符合的。

Q:有業內專家說過所有的基準測試都是錯的,您怎麼看?現在大模型發佈給的評量比較有哪些價值嗎?第二個問題比較,零一萬物後續會推出更大參數的模型嗎?現在有些企業開始做小模型,您認為現在卷參數還有意義嗎?

黃文灝:先回答第一個問題,之前的benchmark的確有一些題目的動態變化性不夠,所以會發生有人說的,比如說定向優化模型某項能力,我覺得不是刷榜,而是把模型某些能力做提升。這些提昇在單一能力上有價值,但是比較的時候大家不知道這個模型提升了這方面能力,那個模型提升那方面的能力,所以大家在比較的時候不一定會客觀公正,而LMSYS是提供一個最好的比較接近使用者真實場景的一種評測方式,它的方式也是因為題目動態隨機性不適合大家做優化,所以可以看作一個比較好的標準去衡量模型的能力。

第二個問題我先簡單說一下,由開復老師主要講。我覺得做更大的模型是我們會一直追求,因為我們公司使命是追求AGI,同時讓它變得accessible and beneficial to all human beings(有益於人類且普惠)。所以我們覺得我們會繼續去做更大的模型,追求模型的能力同時和應用做更好的銜接。當然我們自己是believe in scaling law(相信規模定律)的,所以我們在模型變得更大,或者我們用更多的計算資源的時候,我們的模型智能會逐步提升。

李開復:我補充一點,問題是有關超大模型和有些公司做小模型。我們的計劃是從最小到最大的模型都希望能夠做到中國最好,所以我們剛才講了在6B、9B、34B,未來可能有更小的模型發布,它們都是同樣尺寸達到業界最佳,不敢說第一,但總體來說是第一梯隊或是最好的一兩名這樣的表現,而且在很多方面,在代碼方面、中文方面、英文方面表現都是非常好。

我們相信就像一週前我講的TC-PMF,永遠是一個蹺蹺板,你要平衡你需要多強的技術,那你付不付得起這個技術所需的成本。業界有各種不同的應用,從最簡單的客服應用,到遊戲,一直到非常難的推理策略、科學發現等等難度,我相信大尺寸的scaling law,最強大地往AGI 走的模型,在在最難的問題上,大家又願意花錢的領域裡,絕對是有落地場景,而且是最有可能達到AGI。

同時我們也坦誠,有各種比較小的簡單應用的機會。我們的打法是一個都不放過,我們在每一個潛在存在尺寸上發布我們能做到性能最高,而且推理成本最低,這個推理成本也會帶來更好的經濟價錢跟定價給開發者使用。

Q:零一萬物的GPU可能是Google、微軟的5%,但算力對模型發展的限制是客觀存在的。當榜上排名靠前的OpenAI、Google的能力已經靠前,資源還靠前的時候,零一萬物怎麼應對?

李開復:這是一個動態的問題,我覺得現在來靜態的看這個榜單說你還落後那幾家,因此它們一定是巨大的算力做出來的。

這個我覺得更精確的應該從歷史數據來看,看在過去的一兩年他們提升了多少,我們提升了多少,我們是不是追得非常非常近了,這是一個客觀事實。

所以我不認為他們的算力更大就表示我們絕對沒有機會,當然他們的算力更大有巨大的優勢,但是我覺得客觀事實是我們能夠把同樣的一張GPU擠出更多的價值來,這是今天我們能夠達到這些成果的一個重要理由。

另外是優化模型的performance表現,它不只是一個純粹科技和演算法的問題,裡面還有數據的配比,還有怎麼去優化,同時優化訓練和influence,還有我們的模型怎麼加入多模態等等各種方面的技術,我覺得我們其實在這方面不輸於美國。

我剛剛說到Google的一個VP,他覺得我們是不可思議的達到這樣一個成果,所以我覺得我不會認為算力遠遠落後。我們算力一直遠遠落後,我們一年前算力也是只有Google、OpenAI的5%,現在還是,我們如果用5%的算力能夠把落後快速拉近,未來我們還是期待有驚人的結果。

能不能達到第一,能不能超過,當然是一個艱難的任務,但是我們是朝著這個目標在努力,我覺得今天的結果對比一周前,對比去年11月,對比我們成立的時候,都是一個不可思議的飛躍,所以看事情要看這個事情是在上漲還是下跌,而不是說你今天還是落後,因此以後就會落後。

Q:開復之前提過大模型產業發展不能走ofo燒錢燒錢打法,但事實是現在國內確實打起大模型價格戰,在這個過程中零一萬物和其他新創公司如何在競爭中跑贏大廠?

李開復:今天我們可以看到的降價我們關注到這個現象,我們的定價還是非常合理,而且我們也在花很大精力希望能夠讓它再降下來,我覺得一定程度整個行業每年降低10倍推理成本是可以期待的,而且必然也應該發生的。今天可能處在一個比較低的點,但是我覺得如果說以後大約以一年降價10倍來看,這是一個好消息,對整個行業都是好消息,因為今天的API模型調用還是一個非常非常低的比例,如果一年降低10倍那眾多的人可以用上,這是一個非常好的消息。

我們也認為今天可以看到的模型表現我們超過其他模型,也歡迎不認同的友商來LMSYS打擂台,證明我是錯的。但是直到那一天發生,我們會繼續說我們是最好的模型。

對要求最高的,需求最高的,需要最好模型的,他們當然用我們。 100萬個token花十幾塊還是花幾塊錢有很大差別嗎? 100萬的token對很大的應用,很難的應用,我覺得我們是必然之選,我們發布之後得到國內外非常高的評價,而且我們是一個可以橫跨中國和外國的API,我們對中國和外國都開放,我們有信心在全球範疇是一個表現很好性價比也很合理的一個模型。

好,這些話說完了,我知道你們的意思是說國內常看到ofo式的瘋狂降價,雙輸的打法。我覺得大模型公司不會這麼不理智,因為技術還是最重要的,如果是技術不行,就純粹靠貼錢賠錢去做生意,我們絕對不會跟這樣的一個定價來做對標,我們對自己的模型表現是非常自豪的。

就像你如果有一輛特斯拉,它不會因為別的牌子的車比它賣的很便宜它就覺得它要降價,我們就是特斯拉,我們的價錢是合適值得的。

Q:對比海外第一梯隊,中國從落後到做小差距,為什麼作為後來者的千億參數模型在scaling law上看起來能夠加速的?決定Yi-Large性能提升加速的核心因素也有哪一些?在算力還是不夠多的前提下讓Yi-X-Large達到GPT4的水平,下一步要解決的最重要的技術問題是什麼?

黃文灝:首先我覺得我們一開始落後沒有7-10年沒有那麼多,可能之前落後一段時間,但現在很接近了。

首先要做的事情是,零一萬物每一步在模型訓練上的決策都是正確的,這個看起來是比較容易的事情,其實做起來是不太容易的。

包括我們一開始花了很長時間去做數據質量提升,我們去做scaling Law,沒有很著急的推出第一款模型,把我們的基礎做的比較好,接下來我們不停地提升數據質量,不停地在做scale up,我們在基礎能力建設完以後,在scale up的中會非常順暢

另一方面是我們很重視infra的建設,就是演算法Infra 其實是一個co-design 的過程,在這種情況下我們才能夠把我們的算力發揮到比較好的水平。

所以我覺得因為我們前面做對了很多事情,follow這個路徑下去我們和世界一流梯隊之間的差距是會越來越小的。而我們在這個過程中建立了一個非常強大的人才團隊,我們有自己培養的,也有被我們的使命和願景吸引過來的人,我們一塊去做這個事情。所有的人都是工程、Infra、演算法三位一體,這些人才將來也會發揮越來越大的作用。

Q:目前AI的訓練是否遇到資料荒的狀況?之前用國內的弱智吧資料訓練開源版本的Yi-34B效果顯著,零一萬物是否會另闢蹊徑的訓練資料來源?目前比較好的資料來源是什麼啊?這個我們可以回答的尺度就可以。

黃文灝:首先我們沒有碰到數據荒的問題,至少我們看到數據還有一兩個數量級的增長,數據還是有很多可以挖掘的一些潛力,這裡有我們很多正在進行的工作,具體不太方便透露怎麼做,但是我們的確看到數據有很大潛力。而且我們最近在多模態上有一些finding,可以更進一步增加一到兩個數量級的資料量。

弱智吧我們可以簡單交流一下,這份工作是我們這邊的intern和一些科研機構合作的。當時是我們的想法,這些數據可以對模型訓練有一些幫助,我們做數據團隊一直有這種奇思妙想去開拓不同的數據場景,提高數據的品質和數據的diversity。

李開復:終於說出來了,弱智吧是我們的點子。

Q: GPT-4o開始做原生多模態模型,統一文字、音訊、影像、視訊的輸入輸出的多模態大模型會是一個確定方向嗎?可否透露一下零一萬物在多模態的進展。

李開復:其實跟我們交流過的媒體朋友和外界朋友會知道,我們在去年一直都認為全模態模型,omni,也就是我們挑了同樣的詞已經在做這個工作,這個工作不是人家出來你再跟風能跟得上的,我們有一定的累積,我們也相信全模態是正確方向。從我們的release schedule 來說,我們只能說在今年你們可以期待一個驚喜,細節請文灝再補充。

黃文灝:對。我們一直在做多模態,原生多模態模型,也有一些進展,但是它裡面會有一些就是dependency,就是說我們需要一個很強的language model ,或者一個language model 訓練的方法。然後接下來我們可能會scale up多模態模型。我們其實在小的size上有一個基本上和GPT-4o功能一樣的,就是端到端的多模態模型,然後剩下的可能是scale up 的一些工作

關於它是不是確定性方向?這是一個開放問題,大家要透過實驗的finding來決定它是不是一個確定性方向。因為我們的目標要提高智能上限,多模態理解和產生這兩個任務是不是都在提高智能的上限。第二個是多模態模型相比文字模型能不能提高智能的上限。

我簡單說一下我們在某些​​方向上看到一些比較promising的初期實驗結果,我們是相信這可以提高智慧上限

Q:零一萬物的API價格會不會下降?

李開復:現在沒有調整的訊息來分享,我們現在收到的回饋還是非常正面的,而且有幾個開發者一看到,馬上就替換別的模型。我認為模型要看它的表現,可能有些領域,比如說一些很難收回錢的領域要看價格,反正有足夠多的在選我們,我們剛上線,有這麼多忠誠的愛好者加入了,我們先服務好他們,價錢再說。

到今天為止,我們剛宣布的性能肯定是國內性價比最高。大家可能有用千token、百萬token,大家可以自己計算一下。

Q:零一萬物在產品化方面未來有沒有一些規劃。

李開復:有,我們上週發布的產品基本上是我們的方向,我覺得一方面我們已經推出了一些非常成功的海外產品,也是可以算是萬知的爸爸,已經在海外得到非常好的成功,今年預期會有大概1個億的收入,而且不是燒錢模式燒出來的。

而我們另外還有幾個其他產品在國內國外在測試中,當然萬知我們也會繼續努力把它越做越好,尤其我們對PPT的功能得到非常正面的反饋,因為這是一個跟國內其他大模型很大的差異點,這是我們面對消費者consumer產品的分享。

我們也有自己在走一個企業級的模型方向,但是現在初步用戶在國外,我們認為國外用戶的付費意願或者付費金額比國內大很多,所以雖然我們在中國也非常期望服務國內用戶但是按照現在TO B卷的情況,幾十萬做POC,幾百萬做一單,我們做一單賠一單的生意,我們早期在AI1.0時代太多了,投多了,我們堅決不做。(騰訊科技)