大模型競技場規則更新,GPT-4o mini排名立刻雪崩,跌出前10。
新榜單對AI回答的長度和風格等特徵做了降權處理,確保分數反映模型真正解決問題的能力。
想用漂亮的格式、增加小標題數量等技巧討好使用者、刷榜,現在統統沒用了。
在新規則下,奧特曼的GPT-4o mini、馬斯克的Grok-2系列排名顯著下降,GoogleGemini-1.5-flash小模型也有所回落。
Claude系列、Llama-3.1-405b大模型分數則紛紛上漲。
只計算困難任務(Hard Prompt)的情況下,大模型在風格控制榜單中的優勢更加明顯。
此前GPT-4o mini小模型一度登頂,與GPT-4o滿血版並列第一,與網友的體感明顯不符。
Lmsys大模型競技場這個一度被Karpathy推薦的評價標準,口碑也跌落到“只能反映使用者喜好而不是模型能力了”。
Lmsys組織痛定思痛,先是公開了GPT-4o mini參與的1000場battle資料,從而分析出模型拒絕回答率、生成內容長度、和格式排版是影響投票結果的幾個因素。
而且奧特曼還在GPT-4o mini發佈之前,暗示了正是按照人類偏好做最佳化的。
現在,Lmsys進一步推出了控制這些因素的新演算法,而且還只是規劃中的第一步。
假設有模型A擅長生成程式碼、事實和無偏見的答案等,但它的輸出非常簡潔。
模型B在實質內容(例如正確性)上不是很好,但它輸出的內容長而詳細、格式排版華麗。
那麼那個更好?
答案不是唯一的,Lmsys嘗試用數學方法找出一個模型的得分有多少是內容或風格貢獻的。
此外,最近也已經有研究表明,人類對排版漂亮和更詳細的AI回答可能存在偏好性。
通過在Bradley-Terry回歸中新增樣式特徵,如響應長度、markdown小標題的數量、列表和加粗文字數量作為自變數。
這是統計學中的一種常用技術,最近被AlpacaEval LC等用於大模型評估。
在回歸中包含任何混雜變數(例如回答長度),可以將分數的增加歸因於混雜變數,而不是模型能力本身。
相關程式碼已在Google Colab上公開。
此外團隊還對“只控制長度”和“只控制格式”做了消融實驗。GPT-4o mini、GoogleGemini系列分數受格式影響更大。
不過這種做法也存在侷限性,比如可能存在未觀察到的混雜因素,例如長度和回答質量之間的正相關,這些因素沒有被考慮在內(例如思維鏈提示)。
有不少網友表示,調整後的困難任務榜單與自己的主觀印象更吻合了。
也有人覺得,正是榜單和沖榜的大模型公司這種來回博弈,才能讓整個領域一起進步。
你還在參考大模型競技場結果選擇模型嗎?或者有什麼更好的評估方法,歡迎在評論區分享。 (量子位)