#廣宇
6/03日(三)大家好!我是陳學進(大師兄) 盤中看盤重點: 今日台北股市呈現「開高震盪走高」再創新高的格局,盤中指數大漲近千點、續創46552點歷史新高,預估成交量維持在1.5兆元左右的水準,並不意外!儘管這一波台股已累積不少的漲幅,與季線乖離率持續擴大至22.9%,與年線乖離率持續擴大至57.2%,加上融資餘額不斷地竄升,截至昨日為止,上市公司融資餘額續攀升至5669.7億元歷年高檔水位,因此,伴隨著短線技術面過熱、以及市場居高思危之下,每當指數衝高之際,往往都易引來短線獲利調節賣壓的出籠而或有劇烈震盪,不過,為何市場主力大戶、壽險資金、以及內外資法人敢有恃無恐拼命作價拉抬指數與個股呢?憑藉的是什麼?憑藉著就是對於未來企業營運及獲利成長的展望,尤其是隨著輝達黃仁勳GTC Taipei及台北COMPUTEX展接續登場,黃仁勳正式宣告:AI已從生成式AI邁向「代理式AI」時代,未來十年最龐大的財富機會,將從AI工廠、AI伺服器、AI PC、機器人、實體AI全面展開;配合4日有台積電股東會預期將釋多、9日有蘋果的WWDC世界開發者大會、10日是上市櫃公司公布5月營收重頭戲、11日台積電除息6元等一連串利多題材的加持,以及主計總處大幅上修我國經濟成長預估,今年第一季經濟成長率調升至14.55%,全年經濟成長率預估由7.71%上修至9.64%,高於去年的8.76%,顯示台灣經濟動能依然強勁,因此,在AI長線趨勢不變,以及經濟面、產業面、資金面及技術面等仍是續處在於相對有利的條件下,如所言:只要守穩月線及頸線42250點關卡不破,則在多方控盤不變下,今日順勢挑戰46K關卡後,後市仍將有續戰47K、甚至48K的機會,「馬照跑、舞照跳」個股輪動輪漲的盛況仍將持續,並無須想太多! 至於個股方面:
6/02日(二)大家好!我是陳學進(大師兄) 盤中看盤重點: 今日台北股市呈現「開高震盪個股表現」的格局,盤中指數一度下挫468點、下探至44869點,不過,11點30分過後,隨著低接買盤進場、以及在護國神山台積電、AI伺服器暨AI PC鴻海、廣達、緯創、華碩、宏碁、仁寶、記憶體華邦電、南亞科、與面板轉機股友達…等持續展現強勢上攻企圖心不變的撐盤下,指數逐步回穩翻紅上來,預估成交量維持在1.6兆元左右的水準;惟OTC櫃買指數的表現則略顯疲弱,呈現「開高震盪拉回整理」的格局,預估成交量維持在3800億元左右的水準,並不意外!主要原因除了近期融資增速略顯過快,繼上週五大增213.3億元後,昨日上市公司融資續增94.2億元,融資餘額持續攀升至5657.79億元歷年相對高檔,加上外資台指期部位,昨日空單續增4023口,淨空單部位攀升至64673口,以及昨日台股續創新高的過程中,「台指06」更是大漲720點至46,035點,期現貨正價差高達697點,顯然市場有如熱鍋上的螞蟻,因此,每當指數向上衝高之際,往往都會引來劇烈波動震盪,故今日從早盤45915高點至盤中44869低點,上下震幅又高達逾千點,一點都不意外! 就技術面的角度來看,雖然這一波台股累積不少的漲幅之後,短線上難免或有震盪,不過,在高檔震盪的過程中,指數仍是穩穩地守在於10日線及月線之上,顯見整體格局仍在多方的掌控之中並沒有改變,加上受惠黃仁勳GTC Taipei效應持續發酵、以及在主力大戶、壽險資金、主被動式ETF、八大官股行庫與內外資法人力挺偏多不變下,如所言:只要守穩月線及頸線42250點關卡不破,後市仍是震盪往上看不變,「馬照跑、舞照跳」個股輪動輪漲的盛況仍將持續,並無須想太多!
6/02日(二)大家早!我是陳學進(大師兄) 盤前看盤重點: 隨著台北COMPUTEX電腦展暖身秀登場,輝達執行長黃仁勳GTC Taipei主題演講效應持續發酵,兆元宴與背板概念股齊發威,「皮衣男」旋風席捲市場,在輝達正式宣告個人電腦進入全新時代,AI Agent將成為新一代PC的核心應用型態,激勵AI伺服器暨AI PC鴻海、廣達、緯創、英業達、宏碁、華碩、仁寶等再度成為盤面焦點;另外,黃仁勳演說中表示AI能提高軟體工程師生產力,此說法點出資安的重要性,軟體股華經、驊宏資、邁達特、精誠、零壹等等同時因低基期優勢表現剽悍;包括物理AI正推動機器人邁向下一階段,慧友、聰泰、廣宇、穎漢、健椿、能率網等相關概念股亦大放異彩,連帶動昨日指數續創45,931點歷史新高;展望今日,雖然昨日上市公司融資續增94.19億元,融資餘額攀升至5657.79億元,加上外資台指期部位,昨日空單續增4023口,淨空單部位攀升至64673口,以及技術面進入短線超買區下,因此,隨著指數向上衝高之際,短線上仍應隨時提防行情出現劇烈波動,操作上仍宜保持適度的資金彈性與風險控管,不過,在類股與個股維持良性輪動格局不變下,基本上,只要守穩月線或42250點關卡不破,則「馬照跑、舞照跳」個股輪動輪漲的盛況仍將持續,並無須想太多,重點還是在個股。 至於個股方面:
馬斯克點贊!17 歲高中生參與研究!Kimi 讓 AI 學會“翻舊帳”
2026 年 3 月 16 日,Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。該論文獲馬斯克誇讚:“Kimi 的工作令人印象深刻。”論文瞄準的不是訓練資料、參數規模或推理技巧,而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。用通俗的話說,現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面,優點是訓練穩定、網路能堆得很深,但問題是層數一多,前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象,也就是隱藏狀態會隨著深度持續變大,早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。這篇論文的核心思路,是把過去這種“所有層結果默認一股腦往後加”的方式,改成“後面的層按需去前面挑資訊”。作者把這套方法叫做 Attention Residuals,簡稱 AttnRes。簡單理解,它相當於給模型加了一個會翻舊帳的機制,後面的層不再機械接收前面所有層的累計結果,而是像注意力機制那樣,根據當前需要,從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞,現在 AttnRes 想進一步改變層與層之間的資訊傳遞。這件事之所以被業內關注,不只是因為想法新,還因為它動的是大模型最底層、最通用的一塊積木。Transformer 這些年有很多改進,大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方,但很少直接去碰 residual connection 這類默認配置。AttnRes 的價值就在於,它試圖回答一個更底層的問題,模型變深以後,資訊到底該怎麼在不同層之間流動,才不會越傳越亂。當然,理想很豐滿,工程通常很殘酷。因為如果每一層都去“看”所有更早的層,記憶體和通訊成本會迅速上升。為瞭解決這個問題,論文又提出了 Block AttnRes,也就是“塊注意力殘差”。它的做法不是逐層精細回看,而是先把很多層壓成若幹個塊,只在塊之間做這種選擇性檢索。可以把它理解成,不是翻整本書的每一頁,而是先把內容整理成幾個章節目錄,再按章節去查。這樣一來,記憶體和通訊開銷從 O(Ld) 降到 O(Nd),更適合真正的大模型訓練和推理場景。論文還配套設計了跨 stage 快取和兩階段計算策略,報告稱典型推理負載下額外延遲低於 2%,啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。從實驗結果看,這不是那種“只在某個小模型上偶然有效”的工作。論文做了 scaling law 實驗,比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。結果顯示,AttnRes 在不同計算預算下都持續優於基線,而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。按論文給出的擬合結果,在 5.6 PFLOP/s-days 這一點上,Block AttnRes 達到的損失水平,相當於基線多用 1.25 倍計算量才能達到。GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。論文還把這套方法接入了 Kimi Linear 架構中,使用的是一個 48B 總參數、3B 啟動參數的模型,並在 1.4 T tokens 上進行了預訓練。按照上傳論文中的結果,採用 Block AttnRes 後,模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline,很多項目還有明顯提升。比如 MMLU 從 73.5 提升到 74.6,GPQA-Diamond 從 36.9 提升到 44.4,Math 從 53.5 提升到 57.1,HumanEval 從 59.1 提升到 62.2,C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務,提升更明顯。如果把這篇論文再說得更白一點,它不是在教大模型“多背一點知識”,而是在幫大模型“更準確地調出自己已經學到的東西”。傳統殘差更像是把所有舊資料不斷堆進一個大箱子,箱子越堆越滿,找重點越來越難;AttnRes 更像是給這個箱子加了索引系統,後面的層可以按需要去翻前面真正有用的資料。這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧,卻可能對下一代大模型底層結構設計產生實際影響。它最大的意義,在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計,而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置,還要看後續更多模型、更多團隊和更長時間的復現與驗證。該論文更引人注意的是其中作者之一:陳廣宇是一位 17 歲的高中生,參與了技術研究。 (雲頭條)