#LongRoPE
2024/04/30
•已編輯
LLM上下文視窗突破200萬!無架構變化+複雜微調,輕鬆擴充8倍
LongRoPE方法首次將LLM的視窗擴展到了2048k個token,只是簡單微調的情況下,就能實現與短上下文視窗相近的效能! 大型語言模型(LLM)往往會追求更長的「上下文視窗」,但由於微調成本高、長文本稀缺以及新token位置引入的災難值(catastrophic values)等問題,目前模型的上下文視窗大多不超過128k個token 最近,Microsoft Research的研究人員提出了一個新模型LongRoPE,首次將預訓練LLM 的上下文窗口擴展到了2048k個token,在256k的訓練長度下只需要1000個微調步驟即可,同時還能保持原始短上下文視窗的效能。 論文連結:https://arxiv.org/abs/2402.13753