騰訊混元團隊發佈了他們最新的力作——Hunyuan-TurboS,首個混合Transformer-Mamba MoE架構的超大模型
大家都知道,傳統Transformer模型在處理長文字時一直面臨挑戰,O(N²)的複雜度以及KV-Cache問題讓長文字訓練和推理效率大打折扣。 而這次,混元-TurboS巧妙地融合了Mamba和Transformer兩種架構的優勢:
強強聯合,效果自然驚豔!
官方資料顯示,Hunyuan-TurboS在多個關鍵benchmark上表現出色:
Hunyuan-TurboS的推理成本相比之前的Turbo模型降低了整整7倍! 性能提升的同時,成本大幅下降
為了進一步提升模型能力,混元團隊還對TurboS進行了多項後訓練最佳化:
除了模型架構和訓練最佳化,混元團隊還升級了獎勵系統:
Mamba 是一種新型的狀態空間模型 (State Space Model, SSM)。 簡單來說,你可以把它理解為一種更高效處理長序列資料的模型架構,它主要為瞭解決 Transformer 模型在處理長序列時效率低下的問題而提出的
Mamba 是由 Albert Gu (卡耐基梅隆大學)和 Tri Dao(普林斯頓大學) 兩位研究人員主導開發的
Mamba 的創新之處在於它引入了“選擇性狀態空間 (Selective State Spaces)” 的概念。 簡單來說,Mamba 模型中的 SSM 參數不再是固定的,而是會根據輸入的內容動態變化。 這樣一來,模型就能根據當前處理的token,有選擇性地記住或遺忘資訊,從而更好地進行內容相關的推理
此外,Mamba 的設計也考慮了硬體效率,它在保持類似循環神經網路 (RNN) 的結構的同時,還能進行平行計算,這使得 Mamba 在推理速度上比 Transformer 更快(約快 5 倍)。 而且,Mamba 的計算複雜度是線性於序列長度的,這意味著處理更長的序列也不會顯著增加計算負擔 (AI寒武紀)