#廣宇
馬斯克點贊!17 歲高中生參與研究!Kimi 讓 AI 學會“翻舊帳”
2026 年 3 月 16 日,Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。該論文獲馬斯克誇讚:“Kimi 的工作令人印象深刻。”論文瞄準的不是訓練資料、參數規模或推理技巧,而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。用通俗的話說,現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面,優點是訓練穩定、網路能堆得很深,但問題是層數一多,前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象,也就是隱藏狀態會隨著深度持續變大,早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。這篇論文的核心思路,是把過去這種“所有層結果默認一股腦往後加”的方式,改成“後面的層按需去前面挑資訊”。作者把這套方法叫做 Attention Residuals,簡稱 AttnRes。簡單理解,它相當於給模型加了一個會翻舊帳的機制,後面的層不再機械接收前面所有層的累計結果,而是像注意力機制那樣,根據當前需要,從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞,現在 AttnRes 想進一步改變層與層之間的資訊傳遞。這件事之所以被業內關注,不只是因為想法新,還因為它動的是大模型最底層、最通用的一塊積木。Transformer 這些年有很多改進,大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方,但很少直接去碰 residual connection 這類默認配置。AttnRes 的價值就在於,它試圖回答一個更底層的問題,模型變深以後,資訊到底該怎麼在不同層之間流動,才不會越傳越亂。當然,理想很豐滿,工程通常很殘酷。因為如果每一層都去“看”所有更早的層,記憶體和通訊成本會迅速上升。為瞭解決這個問題,論文又提出了 Block AttnRes,也就是“塊注意力殘差”。它的做法不是逐層精細回看,而是先把很多層壓成若幹個塊,只在塊之間做這種選擇性檢索。可以把它理解成,不是翻整本書的每一頁,而是先把內容整理成幾個章節目錄,再按章節去查。這樣一來,記憶體和通訊開銷從 O(Ld) 降到 O(Nd),更適合真正的大模型訓練和推理場景。論文還配套設計了跨 stage 快取和兩階段計算策略,報告稱典型推理負載下額外延遲低於 2%,啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。從實驗結果看,這不是那種“只在某個小模型上偶然有效”的工作。論文做了 scaling law 實驗,比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。結果顯示,AttnRes 在不同計算預算下都持續優於基線,而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。按論文給出的擬合結果,在 5.6 PFLOP/s-days 這一點上,Block AttnRes 達到的損失水平,相當於基線多用 1.25 倍計算量才能達到。GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。論文還把這套方法接入了 Kimi Linear 架構中,使用的是一個 48B 總參數、3B 啟動參數的模型,並在 1.4 T tokens 上進行了預訓練。按照上傳論文中的結果,採用 Block AttnRes 後,模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline,很多項目還有明顯提升。比如 MMLU 從 73.5 提升到 74.6,GPQA-Diamond 從 36.9 提升到 44.4,Math 從 53.5 提升到 57.1,HumanEval 從 59.1 提升到 62.2,C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務,提升更明顯。如果把這篇論文再說得更白一點,它不是在教大模型“多背一點知識”,而是在幫大模型“更準確地調出自己已經學到的東西”。傳統殘差更像是把所有舊資料不斷堆進一個大箱子,箱子越堆越滿,找重點越來越難;AttnRes 更像是給這個箱子加了索引系統,後面的層可以按需要去翻前面真正有用的資料。這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧,卻可能對下一代大模型底層結構設計產生實際影響。它最大的意義,在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計,而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置,還要看後續更多模型、更多團隊和更長時間的復現與驗證。該論文更引人注意的是其中作者之一:陳廣宇是一位 17 歲的高中生,參與了技術研究。 (雲頭條)
王興晉陞這2個人
美團核心決策層人事調整了。美團CEO王興發佈組織公告郵件,宣佈軟硬體服務負責人肖飛、Keeta負責人仇廣宇將正式加入公司美團最高管理團隊S-team。此次增補後,美團 S-team 成員增至8人,除核心管理層王興、穆榮均、王莆中等元老外,新業務類股首次佔據兩席。業內人士向《科創板日報》記者分析指出,在核心本地商業增速放緩的背景下,美團亟需新業務打開增長空間。此次 S-team 擴容後,新業務類股在決策層的權重顯著提升,既體現了對過往成績的認可,也為後續資源投入鋪路。據《科創板日報》記者獲悉,此次調整是“領導梯隊培養計畫”的常規落地,不涉及組織架構變動。而王興在郵件中表示,“期待他們(肖飛與仇廣宇)帶來新的視角和輸入,為公司長期成功作出更大貢獻。”公開履歷顯示,肖飛是美團內部成長起來的“老兵”。2014年2月以外賣產品經理身份加入後,他於2016年轉向餐飲生態平台,率先探索商家數位化解決方案,2023年晉陞副總裁,2025年4月全面接管軟硬體服務類股。其帶領的團隊因持續輸出高級管理者,被評為內部 “人才發展標竿”。相較於肖飛的“十年深耕”,仇廣宇的晉陞更具“黑馬”特質。2022年5月加入美團後,他從零搭建國際化團隊,先後在香港鞏固Keeta領先地位,在沙烏地阿拉伯將服務覆蓋至20個城市,並開拓卡達、阿聯、科威特等市場。最新財報顯示,Keeta 二季度訂單量與 GTV(交易總額)均實現強勁增長,成為美團新業務中增速最快的類股之一。這種“一年拓四國”的戰績,使其成為美團國際化戰略的核心操盤手。從業務架構看,美團當前以核心本地商業(外賣、到店、酒旅等)與新業務(食雜零售、軟硬體服務、境外業務等)為兩大支柱。此次兩位新成員均來自新業務類股,與食雜零售負責人郭萬懷形成“新業務鐵三角”,與負責核心本地商業的王莆中形成戰略呼應。“美團此次S-team的擴容,是一次極具針對性的戰略排兵佈陣,反映了管理層對當前競爭格局的認知,也透露出對未來方向的最新戰略抉擇。”出海湃創始人周范才在接受《科創板日報》記者採訪時稱,這不應被理解為一次普通的高管晉陞,背後可以折射出當下美團的業務選擇和未來戰略方向。在他看來,肖飛、仇廣宇這兩位高管的晉陞,清晰地指向了美團當前的兩個最核心戰場,國內守穩基本盤,拓展增長翼;海外打造新增量。“尤其是出海,仇廣宇的晉陞,是美團給整個市場的一個明確訊號:出海不再是試水項目,而是公司的戰略。一年拓四國的成績獲得了最高層認可,接下來,美團勢必會向Keeta以及未來的其他海外業務投入更多資源。”周范才向《科創板日報》記者分析稱,這意味著美團的國際化處理程序將從小心翼翼的策略性試探,轉向更具雄心和系統性的戰略進攻,中東戰局的深化以及向巴西等其他區域的擴展值得期待。 (科創日報)
9/15日(一)大家早!我是陳學進(大師兄)今日看盤重點:雖然激情過後,短線上難免或有震盪,不過,受惠AI需求火熱仍是方興未艾、美聯準會(Fed)降息預期心理、資金熱錢效應持續延燒、以及內外資法人力挺偏多心態不變下,加上指數漲幅達47.6%遠大於融資增幅20.6%,在台股兼具籌碼面的優勢下,預期多頭震盪驚驚漲、個股輪動輪漲的格局仍將可望延續;後市只要融資餘額沒有出現異常過速增加、或是出現「爆量長黑」破線轉弱的情況發生前,基本上,短線若有震盪,倒也無須過於緊張或擔心,重點還是在個股。至於個股方面,如所言:多方聚焦的主軸仍將圍繞在「AI暨相關零組件及軍工概念股」等為主不變,除了對於某些高基期漲高股、或是前景展望不如預期的公司,基於風險考量,並不建議隨意亂追價外,隨著AI產業面擴散輪動效應,包括AI供應鏈的CPO、BBU、水冷散熱、機器人、ASIC、PCB、CCL、AI電源暨連接器、封測暨設備股、記憶體等業績成長股、以及受惠國防部啟動新一波無人機及無人艇採購計畫等相關受惠股,只要守穩10日線及月線不破,逢低仍是值得留意,惟在策略上仍務必謹守「低接不追高」的原則,並隨時做好資金規劃與風險控管,祝大家開心好運氣、時時都如意!※更多第一手訊息及飆股機會,大師兄也都會在飆股鑫天地的群組裡無私與大家分享LINE@連結網址:https://line.me/R/ti/p/%40gold99Telegram連結網址:https://t.me/gold0999諮詢專線☎️02-23219933(24小時專人服務)本公司所推薦分析之個別有價證券無不當之財務利益關係以往之績效不保證未來獲利投資人應獨立判斷審慎評估並自負投資風險
9/12(五)大家好!我是陳學進(大師兄)盤中看盤重點:今日台北股市呈現「開高震盪收紅上漲」的格局,指數仍是穩穩地守在於10日線之上,惟預估成交量急速萎縮至約4800億元左右的水準,顯見經過昨日的震撼教育之後,市場追價買盤轉趨謹慎,這一點從近期的強勢股及昨日表現相對亮眼的個股,譬如AI伺服器華擎、玻纖布德宏、BBU加百裕、AES-KY、散熱健策、電腦周邊精英、工具機東台、設備均華、均豪、亞泰金、軍工雷虎、宏碩系、正極材料美琪瑪、機電工程聖暉*、機器人概念股聰泰、東元…等紛紛下殺拉回來,就可看出目前市場心態有如驚弓之鳥。不過,多頭震盪驚驚漲的格局是否有因此而改變?很明顯〝並沒有〞,不僅指數仍是穩穩地守在於10日線及月線之上,並且在護國神山台積電、IC設計聯發科、AI伺服器龍頭鴻海、銅箔基板台光電、散熱模組奇鋐、雙鴻…等權值股及高價股表現持穩,以及市場資金轉戰拉抬矽晶圓環球晶、中美晶、台勝科、合晶、碳化矽漢磊、嘉晶、台亞、茂矽、大中、功率IC虹冠電、被動元件龍頭國巨、凱美、電源供應器環科、汽車零件劍麟、電腦週邊仁寶、英業達、記憶體封測力成、能率集團能率、佳能…等個股大漲的帶動下,以維繫市場人氣不墜,顯然市場法人正向偏多的心態並未改變;配合AI需求實在是太過於強勁,仍將持續帶動相關供應鏈營運向上起飛,以及截至目前為止,指數最高漲幅達47.6%,遠大於融資增幅20.6%,在台股兼具籌碼面的優勢下,如所言:只要近期融資餘額沒有出現過速增加、或「爆量長黑」破線轉弱前,預期短期仍可望維持在25000±500點區間附近作震盪,「馬照跑、舞照跳」個股輪動輪漲的盛況仍將持續,惟在策略上仍務必謹守「低接不追高」、並隨時做好資金規劃與風險控管的原則,祝大家開心好運氣、時時都如意!※更多第一手訊息及飆股機會,大師兄也都會在飆股鑫天地的群組裡無私與大家分享LINE@連結網址:https://line.me/R/ti/p/%40gold99Telegram連結網址:https://t.me/gold0999諮詢專線☎️02-23219933(24小時專人服務)本公司所推薦分析之個別有價證券無不當之財務利益關係以往之績效不保證未來獲利投資人應獨立判斷審慎評估並自負投資風險
9/12日(五)大家早!我是陳學進(大師兄)今日看盤重點:激情過後,雖然短線上難免或有震盪,不過,受惠AI需求火熱仍是方興未艾、美聯準會(Fed)降息預期心理、以及昨日高檔劇烈震盪的過程中,代表散戶心態的融資餘額,上市櫃合計減少53.26億元,而三大法人方面,除了投信延續減碼力道,昨日調節賣超62.72億元,連13賣;外資延續加碼力道,昨日續買超329.99億元,連八買共1882億元,台指期空單回補1496口,淨空單水位降至16317口;自營商加碼17.73億元,連7買294億元,顯見內外資法人力挺偏多的心態並未改變,因此,只要融資餘額沒有出現過速增加的情況,或是出現「爆量不漲」、甚至「爆量長黑」的情況發生前,基本上,預期短期指數仍可望維持在25000±500點區間附近作震盪,仍是看個別題材股的表現。至於個股方面,「AI暨相關零組件及軍工概念股」仍將是多方聚焦的主軸不變,只不過對於某些高基期漲高股、或是前景展望不如預期的公司,基於風險考量,切莫隨意亂追價,甚至可順勢獲利減碼因應;不過,大家也不必過於緊張或擔心,除了台股擁有護國神山「台積電」及強大的AI基本面當靠山外,我常說:「市場資金永遠自己會去找對的出路」,譬如BBU概念股加百裕、電腦周邊暨電源供應器光寶科、曜越、聯昌、精英、銲錫膏昇貿、視覺系統聰泰、數位雲端創泓科技…等,隨著8月營收繳出一張亮眼成績單,昨日股價的表現則是相對強勢亮眼,因此,對於某些低基期轉機股,特別是受惠於AI加持之伺服器、PCB、CCL、散熱、CPO、AI電源、封測、設備、以及政策力挺之相關軍工概念股,逢低仍是值得留意,惟在策略上仍務必謹守「低接不追高」的原則,並隨時做好資金規劃與風險控管,祝大家開心好運氣、時時都如意!※更多第一手訊息及飆股機會,大師兄也都會在飆股鑫天地的群組裡無私與大家分享LINE@連結網址:https://line.me/R/ti/p/%40gold99Telegram連結網址:https://t.me/gold0999諮詢專線☎️02-23219933(24小時專人服務)本公司所推薦分析之個別有價證券無不當之財務利益關係以往之績效不保證未來獲利投資人應獨立判斷審慎評估並自負投資風險
09/11(四)大家好!我是陳學進(大師兄)⁉️台股站上25K後狂飆、天人交戰該追or出?指數大漲8200多點之後,現階段是否還能夠追買股票嗎?還是說要懂得順勢獲利減碼呢?真的是好猶豫喔!我想這是許多人心中一直無法克服的問題,也是許多專家沒有辦法帶你來掌握的課題,不過,今天你有大師兄我來當你的靠山,各位大可放心跟著作、跟著賺,根本不必想太多!眼見為憑~~像今日盤前我在飆股鑫天地的群組裡就提醒過大家,由於指數已大漲8千多點之後,此時,若一下子衝的太快,想也知道!勢必會引發獲利回吐賣壓的出籠而壓回,故在策略上切勿躁進,可待盤中量縮價穩再伺機而動;果然於11點35分過後,指數逐步震盪壓下來,甚至OTC櫃買指數翻黑下殺下來,一切盡在不言中,完全印證完全掌握!相信你們應該都很清楚,因此,今日我們順勢獲利減碼二檔股票,包括:第一檔軍工概念股龍德造(6753):隨著股價再創214元新高,早盤9點25分建議會員市價獲利全出,恭喜大家!連賺四根漲停板,全數獲利放口袋;但是,同為軍工概念股台船(2208)則持多續抱續賺不變,為何?這跟籌碼面則是有所關係,不過,大師兄還是要再次強調:獲利出並非看壞喔!主要目的除了嚴控檔數及資金成數外,再者,又可降低成本,何樂而不為呢?詳情可見理周TV都有完整分析與分享👇https://youtu.be/PhbzSIWhthg第二檔AI電源神奇寶貝光寶科(2301):7月及8月送給大家的好禮,讓你可以買在別人不敢買的低檔上,受惠AI PSU升級+BBU商機加持,近期股價就是一路漲停漲停漲不停,不過,今日成交量有點衝的太快,漲停板附近順勢獲利減碼,波段價差獲利又+5成,但仍務請保留一成持股續抱續賺不變,恭喜大家!雖然激情過後,短線上將有震盪整理的必要,但是,是否代表多頭行情已結束?非也,俗話說:「吃緊弄破碗」,短線上適度降溫踩煞車,其實是好事並非壞事,就短期而言,預期指數仍可望維持在25000±500點區間附近作震盪,就看個別題材股的表現;但就中長期的角度來說,由於AI需求實在是太強了,加上Fed因政策面因素,長期降息預期心理持續升溫,熱錢效應仍將持續延燒,以及融資增幅<指數漲幅、台股兼具籌碼面上的優勢,你不要以為大漲8千多點,好像很多了,我可以告訴大家:明年資金瘋狗浪的行情將更為恐怖,因此,有些低基期轉機成長股,我們仍然持多續抱續賺不變,譬如:IC設計龍頭聯發科(2454):受惠於天璣9500新晶片9月亮相、以及首度打入蘋果Apple Watch供應鏈,帶動公司第四季營運續看旺,加上拿下Google TPU專案大訂單,將持續帶動公司明年營運爆發大成長,我們從5/29日1260元(息後成本1235元)全力低接鎖定後,縱使今日漲多震盪整理、收在1480元,我仍舊是持多續抱續賺不變。機器人視覺概念股聰泰(5474):坐擁無人載具及機器人二大題材,我們從6/16日165元(息後成本161元)及8/20日181元(息後成本177元)全力鎖定以來,縱使昨日震盪收黑K棒、收在191.5元,但是,為何我們一點都不擔心呢?因為我們看好它的未來長期展望,果然今日立馬亮燈漲停再創新高,真的是太棒了!又一檔價差獲利超過+3成,恭喜大家!數位雲端創泓科技(7714):今日平盤附近帶著家族成員鎖定的一檔股票,為何買它?原因很簡單,公司為台股唯一無人機專用資安公司,隨著無人機、機器人大行其道,如何防止無人機或機器人被挾持、被策反,乃當務之急,顯示無人機專用資安將相當重要;況且,目前本益比約僅20幾倍,相較雷虎200多倍、亞航80幾倍,創泓科技更是物美價廉,恭喜大家!一擊必中立馬亮燈漲停,一切盡在不言中;像這類物超所值的好股票,都還有,就等著大家一起來共襄盛舉!✅操作其實可以不一樣我喜歡買在股價小時候,我堅持操作主流人氣股,我喜歡大波段操作賺大錢,想在股市取得成功、怎麼做?找到對的人、找到對的團隊,很多時候比閉門造車重要;面對大AI 時代的「新飆股」啟動,如果你也想跟我們一樣,把獲利牢牢抓在手裡,給自己一個機會「私訊我」,歡迎預約下一檔漲停板的機會,先登記滿意再辦理👇https://forms.gle/zwHn8UvPqA9pAarB8中秋節前會期全部算大師兄的📣※更多第一手訊息及飆股機會,大師兄也都會在飆股鑫天地的群組裡無私與大家分享LINE@連結網址:https://line.me/R/ti/p/%40gold99Telegram連結網址:https://t.me/gold0999諮詢專線☎️02-23219933(24小時專人服務)❤️保持正向能量、機會就會浮現、謝謝按讚的好友、感恩!