LongRoPE方法首次將LLM的視窗擴展到了2048k個token,只是簡單微調的情況下,就能實現與短上下文視窗相近的效能!
大型語言模型(LLM)往往會追求更長的「上下文視窗」,但由於微調成本高、長文本稀缺以及新token位置引入的災難值(catastrophic values)等問題,目前模型的上下文視窗大多不超過128k個token
最近,Microsoft Research的研究人員提出了一個新模型LongRoPE,首次將預訓練LLM 的上下文窗口擴展到了2048k個token,在256k的訓練長度下只需要1000個微調步驟即可,同時還能保持原始短上下文視窗的效能。
論文連結:https://arxiv.org/abs/2402.13753