輝達新研究：上下文長度虛標嚴重，32K性能合格的都不多

2024/06/03

•

無情戳穿「長上下文」大模型的虛標現象——

輝達新研究發現，包括GPT-4在內的10個大模型，產生達到128k甚至1M上下文長度的都有。

但一番考驗下來，在新指標「有效脈絡」上縮水嚴重，能達到32K的都不多。

新基準名為RULER，包含檢索、多跳追蹤、聚合、問答四大類共13項任務。 RULER定義了“有效上下文長度”，即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

這項研究被學者評價為「非常有洞察力」。

不少網友看到這項新研究後，也非常想看到上下文長度王者玩家Claude和Gemini的挑戰結果。（論文中並未覆蓋）

一起來看輝達是如何定義「有效的上下文」指標。

測試任務更多、更難

要評測大模型的長文本理解能力，得先選個好標準，現圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么僅評估了模型檢索能力，要么受限於先驗知識的干擾。

所以輝達剔除的RULER方法，一句話概括就是「確保評估側重於模型處理和理解長上下文的能力，而不是從訓練資料中回憶資訊的能力」。

RULER的評測資料減少了對「參數化知識」的依賴，也就是大模型在訓練過程中已經編碼到自身參數裡的知識。

具體來說，RULER基準擴展了流行的「大海撈針」測試，新增四大類任務。

檢索方面，從大海撈針標準的單針檢索任務出發，又加入如下新類型：

多針檢索（Multi-keys NIAH, MK-NIAH）：上下文中插入多個幹擾針，模型需檢索指定的那一個
多值檢索（Multi-values NIAH, MV-NIAH）：一個鍵（key）對應多個值（values），模型需要檢索所有與特定鍵關聯的值。
多重查詢檢索（Multi-queries NIAH, MQ-NIAH）：模型需根據多個查詢在文中檢索出對應的多個針。

除了升級版檢索，RULER還增加了多跳追蹤（Multi-hop Tracing）挑戰。

具體來說，研究人員提出了變數追蹤（VT），模擬了指代消解（coreference resolution）的最小任務，要求模型追蹤文本中變數的賦值鏈，即使這些賦值在文本中是非連續的。

挑戰第三關是聚合（Aggregation），包括：

常見詞彙提取（Common Words Extraction, CWE）：模型需要從文本中提取出現次數最多的常見詞彙。
頻繁詞彙提取（Frequent Words Extraction, FWE）：與CWE類似，但是詞彙的出現頻率是根據其在詞彙表中的排名和Zeta分佈參數α來確定的。

挑戰第四關是問答任務（QA），在現有閱讀理解資料集（如SQuAD）的基礎上，插入大量幹擾段落，考查長序列QA能力。

各模型上下文實際上有多長？

實驗階段，如開頭所述，研究人員評測了10個聲稱支援長上下文的語言模型，包括GPT-4，以及9個開源模型開源模型Command-R、Yi-34B、Mixtral（8x7B）、Mixtral（7B ）、ChatGLM、LWM、Together、LongChat、LongAlpaca。

這些模型參數規模從6B到採用MoE架構的8x7B不等，最大上下文長度從32K到1M不等。

在RULER基準測試中，每個模型評測了13個不同的任務，涵蓋4個任務類別，難度簡單到複雜的都有。每項任務，產生500個測試範例，輸入長度從4K-128K共6個等級（4K、8K、16K、32K、64K、128K）。

為了防止模型拒絕回答問題，輸入被附加了answer prefix，並基於recall-based準確性來檢查目標輸出的存在。

研究人員也定義了「有效上下文長度」指標，即模型在該長度下能保持與基線Llama-7B在4K長度時的同等性能水準。

為了更細緻的模型比較，使用了加權平均分數（Weighted Average, wAvg）作為綜合指標，對不同長度下的表現進行加權平均。採用了兩種加權方案：

wAvg(inc)：權重隨長度線性增加，模擬以長序列為主的應用場景
wAvg(dec):權重隨長度線性減小，模擬以短序列為主的場景

來看結果。

普通大海撈針和密碼檢索測試看不出差距，幾乎所有模型在其聲稱的上下文長度範圍內均取得滿分。

而使用RULER，儘管許多模型聲稱能夠處理32K token或更長的上下文，但除了Mixtral外，沒有模型在其聲稱的長度上保持超過Llama2-7B基線的性能。

其他結果如下，總的來說，GPT-4在4K長度下表現最佳，並且在上下文擴展到128K時顯示出最小的性能下降（15.4%）。

開源模型中排名前三的是Command-R、Yi-34B和Mixtral，它們都使用了較大的基頻RoPE，並且比其它模型具有更多的參數。

此外，研究人員還對Yi-34B-200K模型在增加輸入長度（高達256K）和更複雜任務上的表現進行了深入分析，以理解任務配置和失敗模式對RULER的影響。

他們也分析了訓練上下文長度、模型大小和架構對模型效能的影響，發現更大的上下文訓練通常會帶來更好的效能，但對長序列的排名可能不一致；模型大小的增加對長上下文建模有顯著好處；非Transformer架構（如RWKV和Mamba）在RULER上的表現顯著落後於基於Transformer的Llama2-7B。(量子位元)

更多細節，有興趣的家銀們可以查看原始論文。

論文連結：https://arxiv.org/abs/2404.06654

參考連結：https://twitter.com/rohanpaul_ai/status/1797231094195962266