2 月18 日,Kimi 和DeepSeek 同一天發布新進展,分別是MoBA 和NSA,二者都是「注意力機制」(Attention Mechanism)的改進。
今天,MoBA 的一位主要研發同學Andrew Lu 在知乎發帖,自述研發過程的三次踩坑,他稱為「三入思過崖」。他在知乎的簽名是「新晉LLM 訓練師」。
這條答案下的一個評論是:“從開源論文、開源論文出發,現在已經進化到開源思維鏈了嘛。”
注意力機制之所以重要,是因為它是目前大語言模型(LLM)的核心機制。回到2017 年6 月那篇開啟LLM 革命的Transformer 八子論文,標題就是:Attention Is All You Need(注意力就是你所需要的一切),該論文被引用次數至今已達15.3 萬。