#輝達GTC大會
3/18盤後:股王信驊噴到 12,450 元了!台股天花板到底在哪?千金股大亂鬥開始了嗎?📊盤勢分析今日美股經歷震盪後最終小幅收高。早盤時段,受惠於油價短暫回落,市場對通膨的擔憂情緒略微舒緩,帶動主要指數全面開高。然而,隨著美國總統川普強硬表態美軍已重創伊朗軍事力量且無須盟國協助護航,加上布蘭特原油價格再度飆升並重返每桶 100 美元大關,市場避險情緒升溫,導致大盤自盤中高點回落。儘管如此,投資人仍延續了前一交易日的逢低買進動能,穩住了大盤底氣。此外,市場目前高度聚焦本週將登場的聯準會(Fed)利率決策,外界普遍預期,在中東戰火導致能源市場混亂的局勢下,聯準會本週高機率將維持利率政策按兵不動。盤面上資金流動呈現分歧,能源、非必需消費與通訊服務板塊表現最為亮眼,而醫療保健與公用事業等防禦型類股走勢則相對低迷。在關鍵個股方面,科技巨頭互有消長,蘋果上漲 0.56%、Alphabet 與亞馬遜皆上揚超過 1.6%;AI 領頭羊輝達(Nvidia)雖然由執行長黃仁勳親自釋出 AI 晶片至 2027 年商機將高達1 兆美元的重磅利多,但股價反彈未果,終場微跌 0.70%。另外,半導體族群中的記憶體大廠美光(Micron)表現極為強勢,股價大幅飆升 4.50%。即便面臨地緣政治與通膨變數,今日大盤依然順利收紅。道瓊工業指數上漲 0.10%,收在 46,993 點;標普 500 上漲0.25%,收在 6,716 點;那斯達克指數上揚 0.47%,收在 22,480 點;費城半導體指數勁揚 0.52%,收在 7,837 點。今日台股受到美伊地緣政治風險降溫與美股收紅的激勵,加上輝達(NVIDIA)GTC 大會釋出強勁的AI 前景展望,推升大盤上演一波量價齊揚的預期修復行情。加權指數今日呈現開高走高的強勢格局,在電子權值股領軍與市場資金大舉回流下,大盤一路過關斬將,盤中大漲超過 500 點,一舉重返 34,000 點大關之上。盤面結構上,資金出現極度集中的「強者恆強」馬太效應,電子股成交比重狂飆至約 85%,使 AI 與半導體相關供應鏈成為絕對的吸金焦點。其中,記憶體族群在美光(Micron)市值首破 5,000 億美元,以及高層預告供給短缺將一路延長至 2030 年的重磅利多點火下,爆發出強悍動能,威剛、宜鼎、旺宏等多檔個股強勢亮燈漲停。同時,先進封裝測試與設備族群也受惠台積電資本支出上修預期而群起上攻,千金高價股更成為人氣指標,股王信驊盤中狂飆至 12,450 元的新天價。然而,市場資金過度擁擠也引發嚴重的排擠效應,非電族群全面倒地;汽車類股因關稅衝擊重挫逾 2%,金融、航運與傳產等族群亦遭遇不小賣壓,盤勢呈現「電子狂歡、非電靠邊」的兩極化發展。加權指數上漲 1.51%,收在 34,348.58 點;櫃買指數上漲 2.61%,收在 329.4 點。權值股方面,台積電上漲 1.87%、鴻海下跌 0.94%、聯發科則維持平盤。🔮盤勢預估輝達GTC樂觀展望帶動,台積電重返1900元,加權指數續漲500點站回34000大關。台指期拉高結算,中東地緣風險淡化,但8成以上資金集中電子股短線過熱。盤面以高價股與記憶體族群最強勢,顯示內資大戶仍具信心,股王信驊與股后穎崴齊創歷史天價;記憶體受美光市值飆高激勵,旺宏、威剛與宜鼎強勢亮燈。台積電緩漲較有利中小型股行情,留意FED會議後市場熱錢流向。👨‍⚕️我是股科大夫 容逸燊每天三分鐘,幫你的持股把把脈!【YT直播】週二 20:00 盤中直播【訂閱股科大夫YT】https://bit.ly/dr_stockYT【官方LINE @】https://line.me/R/ti/p/@dr.stock【專人服務諮詢】0800-668-568IG: https://www.instagram.com/dr.stock0/Threads: https://www.threads.com/@dr.stock0每天不到一杯咖啡 訂閱專家的腦袋https://www.chifar.com.tw/subscription/drstock/
3/17盤後:記憶體滿江紅!海力士認證缺貨到 2030?旺宏、威剛漲停鎖死,這波是送分題嗎?📊盤勢分析在國際原油價格稍稍回落的提振下,今日美股迎來了久違的全面反彈,主要指數開盤便一路走高,市場逢低買盤意願顯著回溫。近期中東荷姆茲海峽的航運封鎖危機終於透出曙光,隨著美國財政部釋出「不介意」部分油輪通過的消息,加上多國護航聯盟正在籌備中,讓原先緊繃的能源市場暫時鬆了一口氣。油價的跌勢不僅稍微緩解了投資人對通膨升溫與聯準會降息空間受壓的擔憂,也成功帶動資金重新回流股市。在各類股表現上,科技、非必需消費與通訊服務板塊成為領漲先鋒,漲幅均超過 1%。AI 與半導體族群無疑是全場矚目焦點。輝達(Nvidia) 執行長黃仁勳在 GTC 大會上霸氣高呼,旗下新一代 AI 加速晶片架構到 2027 年將創造至少一兆美元的龐大商機,帶動股價上揚逾 1.6%。與此同時,特斯拉(Tesla) 執行長馬斯克預告將在七天內公布打造全球最大晶片廠「Terafab」的計畫,順勢推升股價收紅 1.11%。此外,蘋果穩步上漲 1.08%,而 Meta 則在結盟 AI 供應商與市場盛傳裁員以抵銷 AI 支出的雙重話題激勵下,強漲超過 2.3%。記憶體大廠美光更受惠於在台擴建廠房與 AI 需求爆發的超級循環預期,單日勁揚超過 3.6%。道瓊工業指數上漲 0.83%,收在 46,946 點;標普 500 上漲1.01%,收在 6,699 點;那斯達克指數上揚 1.22%,收在 22,374 點;費城半導體指數勁揚 1.96%,收在 7,796 點。受到國際油價回落與輝達(NVIDIA)GTC 大會利多齊發的激勵,美股四大指數昨夜全面收紅,為台股注入了強心針。今日台股一甩近期陰霾,在護國神山台積電強悍的除息秀帶動下,大盤展現出勢如破竹的開高走高格局,盤中一度狂飆超過 660 點,強勢叩關 34,000 點大關。儘管高檔浮現了部分獲利了結賣壓,導致尾盤漲勢微幅收斂,但整體大盤仍穩穩收復月線。除了科技巨頭釋放的 AI 願景大幅提振市場信心外,三大法人今日聯手回補高達 95.94 億元,也是支撐盤勢翻多、終結連日賣超的重要籌碼推手。盤面資金輪動熱絡,AI 與半導體族群無疑是今日全場最吸睛的焦點。輝達執行長黃仁勳在 GTC 大會上描繪的 AI 新藍圖,猶如「救全村」般再度點燃台灣供應鏈的火種。其中,記憶體族群在 SK 海力士示警 HBM 晶圓短缺恐一路延續至 2030 年的催化下,展現出「滿江紅」的驚人氣勢,威剛、旺宏、晶豪科及宜鼎等指標股紛紛強勢亮燈漲停。與此同時,散熱族群因 AI 高算力需求大爆發,健策受惠入列輝達系統端液冷散熱供應商,股價飆上歷史新天價,帶動台達電與奇鋐等散熱大廠聯袂勁揚。不僅如此,伺服器管理晶片龍頭、股王信驊更是買盤洶湧,單日狂漲逾千元,締造了突破萬一關卡的台股新天價紀錄,帶領多檔千金股同步創高。低軌衛星與特用化學族群亦受惠於題材與漲價效應,湧入強勁買盤;反觀塑膠等傳統傳產類股則相對疲弱,逆勢下挫。加權指數上漲 1.48%,收在 33,836.57 點;櫃買指數上漲 1.21%,收在 321.03 點。權值股方面,台積電上漲 1.63%、鴻海下跌 2.07%、聯發科上漲 1.16%。🔮盤勢預估加權指數續攻400點穩住月線,OTC卻已過新高,市場開始忽略中東風險較為投機,尤其漲停股票已低價股為主,高價千金股則容易遭受獲利了結,波段率下降台股逐漸回歸緩漲急跌格局。記憶體受旺宏及模組廠帶動,以及市場先卡位美光財報,但DDR4等族群仍為跌深反彈,本波最強勁為高殖利率模組漲,GTC演講後CPO也同樣遭受調節,資金短線轉向低軌衛星,指數仍在32500-34500整理,指數已和台積電掛勾,選股重於指數表現。👨‍⚕️我是股科大夫 容逸燊每天三分鐘,幫你的持股把把脈!【YT直播】週二 20:00 盤中直播【訂閱股科大夫YT】https://bit.ly/dr_stockYT【官方LINE @】https://line.me/R/ti/p/@dr.stock【專人服務諮詢】0800-668-568IG: https://www.instagram.com/dr.stock0/Threads: https://www.threads.com/@dr.stock0每天不到一杯咖啡 訂閱專家的腦袋https://www.chifar.com.tw/subscription/drstock/
美股 輝達GTC 大會重磅前瞻!下周資金將瘋狂湧向這三個類股!
下周一,全球AI圈最重要的一場大會,就要開始!3月16日到19日,輝達將在加州聖何塞召開GTC 2026。但這一次,如果你還只是盯著黃仁勳會不會再發佈一張更強的GPU,那你可能看錯了方向。因為對於資本市場來說,留給重新定價的時間窗口,其實已經不多了。華爾街眼裡,這次大會真正的份量,早就不是‘顯示卡參數提升了多少’。真正的博弈點在於,輝達能不能利用這四天,完成一次身份的跨越:從一家‘賣晶片’的硬體公司,正式轉變為一家‘定義 AI 基礎設施規則’的平台公司。從各大投行最新的前瞻報告來看,市場現在盯著的重點是輝達會不會在GTC上強化這幾件更關鍵的事:推理工作負載分解Token的成本和ROI網路互聯的重要性抬升以及下一代專用架構路徑。這意味著什麼?這意味著,從下周一到下周四,市場看的表面上是一場技術大會,實際上在交易的,可能是2026年AI美股下一階段的主線歸屬。如果輝達能把這個新敘事講通,那麼接下來被重估的,將不僅僅是輝達自己的股價。整條 AI 產業鏈的價值分配邏輯,都可能發生結構性的變化。錢會從那裡流出來?又會瘋狂湧入那個被低估的類股?那些公司可能會因為邏輯證偽而被拋棄?如果你想看懂下周資金真正的動向,今天你一定要耐心看到最後。本次GTC 要傳遞的核心資訊輝達這次 GTC 要傳遞的核心資訊是什麼呢?一句話總結:這次 GTC 不是來秀新品的,而是要重新定義整個 AI 基礎設施的遊戲規則。過去幾年,市場對輝達的理解非常簡單:誰的晶片算力最強,誰就是 AI 領域的王者。但瑞銀最新的報告帶來了一個重要訊號:單一處理器主導性能的時代要結束了。從這次 GTC 開始,輝達要做的,是把重點從“單晶片”轉向“系統級最佳化”。簡單來說,過去大家比的是誰的發動機更強,現在輝達要告訴你,真正的競爭力不光是發動機的馬力,而是整輛車的協同配合。黃仁勳的目標,不再是單個 GPU 多快,而是如何通過 “極限協同設計”,把晶片、網路、記憶體、軟體等部分整合成一個高效、標準化的 “AI 工廠”。這背後其實反映了一個本質變化:大家不再只關心算力峰值,而是關注系統能不能大規模落地,能不能算清楚功耗和成本的回報率(ROI)。就好像你不再只是關注車的發動機有多牛,還開始看油耗、保養成本,以及它帶來的經濟效益。輝達正是通過系統級的協同設計,把晶片、網路、記憶體和軟體打包成一個完整的解決方案,讓整個 AI 系統運行得更高效、更可持續。系統級統治力的背後是什麼?那既然我們已經進入了“系統時代”,接下來的問題是:輝達靠什麼支撐它的系統級統治力?在瑞銀的報告中,最大的預期差是:工作負載分解。這幾個字意味著,AI 系統的任務不再依賴一個“全能戰士”悶頭干,而是要根據不同的任務需求進行精細化分工。過去,市場對 AI 硬體的理解非常簡單:模型越大,需要越強的 GPU。但大家忽略了一個關鍵細節:AI 的不同任務有不同的需求。比如,訓練大模型需要“蠻力”,而推理(即我們調取 AI 時的過程)更注重“反應速度”;有些場景需要高吞吐量,而有些場景則要求極低的延遲。如果用最強、最貴的 GPU 去做所有任務,就像是讓一輛超級跑車去城市裡送外賣,雖然車速很快,但效率不高,成本也很大。瑞銀的報告提到,輝達正在從“單晶片性能”,轉向“系統級性價比”。黃仁勳通過“分解”和“極限協同設計”,把計算、網路和記憶體重新安排,給每個任務分配最合適的資源,從而最佳化整個系統。那很多人可能會問:把原本大一統的 GPU 任務拆了,難道不是在削弱自己的護城河?恰恰相反。這其實是在 強化輝達的“絕對控制權”。一旦 AI 系統變得 異構化,任務開始拆分,架構變得複雜,誰來決定任務的分配?誰來管理資料如何流動?誰掌握了這些“任務分配權”,誰就能主導 AI 時代的利潤。輝達現在的動作,實際上是在往 軟體棧和系統層 進行深度佈局,釋放出一個訊號:一旦華爾街接受了“工作負載分解”的邏輯,原本盯著 GPU 出貨量的估值模型將會被推翻。被忽視的王者——網路與互聯既然“工作負載”被拆解了,任務不再由一顆晶片單打獨鬥,那接下來的問題就非常現實:當晶片足夠多、足夠強的時候,最先卡脖子的會是什麼?摩根大通在報告中給出了答案:網路與互聯。邏輯其實很簡單:過去我們盯著 GPU 這台“發動機”猛不猛;但當 AI 進入成千上萬顆晶片協同的“機架時代”,真正決定效率的,已經不是單張卡跑多快,而是資料搬運的速度和延遲。一句話總結:GPU 決定算力上限,而網路和互聯,決定了你能不能觸達到那個上限。這就像你建了座頂級工廠,裝置全是世界一流,但如果傳送帶太慢、大門太窄,你空有頂級裝置,產量照樣上不去。現在的 AI 基礎設施,就面臨這種“工廠大塞車”。其實,這種從“算力”轉向“互聯”的趨勢,我們美股投資網的老朋友一定不陌生。我們早就提醒過:當算力達到飽和時,投資網路基礎設施是最具長期回報的機會。年初至今,我們提前佈局的“光電轉換”賽道已經全面爆發:我們在年初《美股2026年必買10隻股【中集】不為人知的潛力公司 》深度調研並提示的 GLW,當時價格僅 85 美元,本周二已經到了 139.36 美元,漲幅高達 64%。言歸正傳,黃仁勳現在瘋狂強化網路敘事,是因為他看準了一點:控制網路,就是控制整套系統的“調度權”。 一旦你用了輝達的通訊協議,你未來的擴展和遷移成本,就全部鎖死在他的生態裡了。這也解釋了為什麼華爾街現在的目光,已經穿過 GPU,直接盯上了最底層的光互連和矽光技術。花旗報告特別提到一個細節:今年的 GTC 和全球光通訊大會(OFC)幾乎是同期舉行,這絕非巧合!華爾街現在關注的焦點是:1.6T 光模組能否跑通,矽光技術是否成熟。如果說“工作負載分解”是推動 AI 系統重構的原因,那麼網路與互聯則決定了這個重構將會在那些領域首先釋放財富機會。一旦市場接受了這一邏輯,重新定價的將不僅僅是 GPU,更多的關注將集中在那些決定資料流動速度的交換機、光模組和互連技術上。記憶體之戰與代幣經濟學如果說網路解決了資料“怎麼走”的難題,那麼AI基礎設施最後的堡壘,便只剩下資料“存那兒”與“怎麼取”。瑞銀表示:輝達正引入類似Groq的架構,利用片上SRAM(靜態隨機存取儲存器)來實現超低延遲推理。那這是否意味著HBM(高頻寬記憶體)的末日將至?畢竟,在大眾的直覺裡,新技術的出現往往伴隨著舊技術的淘汰。當黃仁勳定為特定任務配備這種“極速工作台”時,投資者本能地擔心:這會不會切走HBM這塊最大的蛋糕?然而,這種“非此即彼”的擔憂,恰恰誤讀了輝達的真正意圖。深入剖析會發現,這並非一場你死我活的替代戰,而是一次精密的“工作負載分解”。SRAM雖快,快到幾乎零延遲,但它受限於晶片面積,容量天花板極低,根本無法承載千億參數模型的訓練與大規模通用推理;這就好比你手邊的辦公桌再順手,也塞不下整個圖書館的藏書。而HBM雖在延遲上略遜一籌,卻是維持AI系統規模的唯一“大動脈”,沒有它,大模型連跑都跑不起來。因此,輝達的策略絕非“二選一”,而是極致的“整合互補”:將最昂貴、最快的SRAM用於對延遲極度敏感的專用推理,打造極致體驗;同時讓耗時耗力的大規模訓練繼續深植於HBM的護城河中。這種架構設計的終極目的,是為瞭解決AI落地的最大痛點——如何在保證性能的前提下,把算力成本打下來。這就自然引出了本次 GTC 市場最關注的一道數學題:代幣經濟學Tokenomics。華爾街對 AI 最大的疑慮,已經不只是資本開支有多大,而是每一輪新增投入最終能不能轉化成更低的單位 token 成本和更高的商業回報。輝達近幾個月的官方表述也在持續轉向這一點:無論是 Blackwell 還是 Rubin,核心賣點都不再只是峰值性能,而是 cost per token、吞吐/每兆瓦,以及整套 AI 基礎設施的經濟可行性。技術上,這背後依賴的正是更複雜的記憶體層級與資料流最佳化——包括片上 SRAM/L1、L2、HBM 以及系統級互連的協同——把不同負載放到最合適的資源上處理,從而降低 token 生成成本、提升整個平台的 ROI。這套邏輯直接指向了一個被市場嚴重低估的財務事實。花旗在報告中給出了一個推演:得益於這種系統級的效率最佳化,預計輝達2028財年的每股收益(EPS)將達到15美元。按目前股價計算,這意味著輝達的遠期市盈率(PE)僅為12倍。試想一下,在一個兆規模的賽道里,核心霸主的市盈率竟然只有12倍?這在財務視角下極具吸引力,但也暴露了一個巨大的預期差:市場還在用傳統的“硬體製造商”眼光給輝達定價,卻尚未完全意識到它作為“系統定義者”的盈利爆發力。當我們將技術架構的互補性與商業模式的升維串聯起來,最終的圖景變得異常清晰:SRAM是製造市場興奮的“情緒點”,負責解決速度焦慮;HBM才是真正源源不斷的“利潤池”,負責鎖定長期規模;而Tokenomics則是連接兩者的橋樑,它用實實在在的ROI資料,打消了華爾街對AI泡沫的顧慮。瑞銀的資料證實了這一點:儘管SRAM概念火熱,但投行對美光等廠商的HBM收入預測卻在2028年飆升至270億美元,且短缺預期延續至數年之後。這說明在主流資本視野中,SRAM並未將HBM踢出盈利模型,反而通過分層架構進一步固化了HBM作為主存核心的地位。歸根結底,這場關於記憶體技術的博弈,實則是輝達重構AI價值鏈的“陽謀”。通過引入SRAM解決延遲痛點,通過Tokenomics說服客戶買單並重塑估值邏輯,再通過HBM鎖定長期利潤,輝達成功地將原本單純的硬體買賣,進化成了AI時代不可或缺的“系統入場稅”。無論未來的推理場景如何千變萬化,只要這套“SRAM提速、HBM擴容、Tokenomics算帳”的混合架構成為行業標準,那麼無論技術風向吹向那一邊,最大的贏家始終只有那個制定規則的莊家。輝達下一代產品路線圖該怎麼看?既然工作負載分解和記憶體分層已成定局,投資者面臨的最後一個問題是:輝達下一代產品路線圖該怎麼看?很多人被Kyber、Rubin Ultra、Feynman這些代號所迷惑,以為它們只是更強的GPU,但如果只盯著晶片,你就錯過了輝達真正的戰略佈局。過去,市場看重單卡算力;但進入下一階段,決勝點在於:一個機架能容納多少計算、頻寬、記憶體,同時如何處理功耗、散熱和互聯。Rubin Ultra最關鍵的地方,不是“Ultra”這個字,而是它代表了輝達推動系統密度到極限,四大維度你同時提升,迫使競爭對手在系統級能力上追趕,形成輝達的深厚護城河。最終,輝達不再單純發佈新品,而是在推動 “基礎設施標準化、系統化、平台化”。對投資者是明白輝達的估值邏輯正在從“賣最好的晶片”轉向“賣唯一的 AI 系統”。產業鏈的投資機會也將外溢到網路架構、光互連、CPO、矽光等領域。 (美股投資網)
中國國內首次!8.9毫秒推理速度破紀錄,1元打穿百萬token
【新智元導讀】當所有人還在為參數內卷時,智能體真正的決勝點已經轉向了速度與成本。浪潮資訊用兩款AI伺服器直接給出了答案:一個將token生成速度幹到10毫秒以內,一個把每百萬token成本打到1元時代。Agentic AI時代,已經到來!輝達GTC大會上,老黃公開表示,當AI具備了感知和推理能力時,智能體AI就誕生了。「它如同數字世界的「機器人」,本質是理解-思考-行動」。當前,AI智能體革命已至臨界點。國內外科技巨頭紛紛加速佈局,全力爭奪這一賽道主導權。據Gartner預測,到2028年,AI智能體將參與人類約15%的日常工作決策。Georgian報告也顯示,如今,91%的企業研究主管正計畫在內部鋪開Agentic AI的落地應用。然而大規模部署之前,「互動速度」與「成本控制」仍是橫亙在許多企業面前的兩大關鍵挑戰。這裡有簡單的一個案例,就足以說明一些問題。國外一支開發團隊基於Azure的OpenAI服務,建構了一個智能體。然而,隨著時間的推移,響應變得越來越慢,一次簡單查詢耗費10秒以上。當他們用OpenAI API測試完全相同的提示詞後發現:OpenAI響應時間為1-2秒,Azure則需要5-10秒。同一款模型,同一個提示詞,卻有五倍差異。要知道,智能體的互動速度,直接決定了使用者體驗的質量。如今,人們對AI響應速度的期待,已從「秒級」進化到「毫秒級」。不僅如此,成本又直接決定了智能體產業化的可行性。多智能體的協作,對低延遲和token消耗又提出了更高的要求。分毫必爭的響應速度,決定了人們是否願意買單;而真金白銀的投入,則決定了企業能否持續推動AI智能體落地。那麼,如何才能既要又要呢?在2025人工智慧計算大會上,浪潮資訊重磅發佈了兩大破局創新系統:元腦SD200超節點AI伺服器,以及元腦HC1000超擴展AI伺服器。在元腦SD200上,DeepSeek R1大模型的Token生成速度飆升至8.9毫秒,創下國內LLM推理的最快紀錄,首次將智能體即時互動帶入「10毫秒」時代。在元腦HC1000上,LLM的推理成本被前所未有地壓縮至「1元/百萬Token」,徹底擊穿規模化部署的成本天花板。Scaling Law下一站:AI智能體爆發2025年,大模型的Scaling並未放緩,而是進入了一個全新的階段。Scaling Law的焦點,早已從「預訓練」轉向了「推理」。從o3、Gemini 2.5,到Grok 4、GPT-5,全球頂尖AI不斷迭代,每一次發佈都刷新了以往SOTA。這一演進的節奏仍在加速。爆料稱,GoogleGemini 3.0、OpenAI Sora 2都將於十月初面世。反觀國內,DeepSeek R1/V3.1-Terminus、Qwen家族等開源模型,月更、周更已成為常態。在能力邊界上,LLM正從純文字,走向了融合視覺、聽覺的多模態模型,並逐步演變為一個底層「作業系統」。可以預見,AI能力將依舊會指數級增長——LLM性能越來越強,所處理的任務長度和複雜度,也在不斷提升。我們看到,Scaling Law推動的模型參數量,從百億千億向兆、甚至百兆邁進。與此同時,在後訓練階段增加算力投入,可顯著提升LLM推理能力。為何這一轉變如此重要?因為「推理」是建構Agentic AI的基礎。眾所周知,2025年,是「智能體元年」。作為LLM的核心應用形態,智能體落地進入了爆發期。在這一賽道上,Google、OpenAI、Anthropic等巨頭競相佈局。比如,OpenAI的「編碼智能體」GPT-5-Codex深受開發者歡迎;另外,還有正在內測的「GPT-Alpha」,具備高級推理、全模態,可以呼叫工具。然而,AI智能體的產業化落地並非易事。能力、速度和成本,成為了當前AI智能體產業化決勝的「鐵三角」。AI不再侷限於技術演示、實驗,而要深入場景,成為創造可衡量價值的核心生產力。這意味著,商業成功的核心已從單純追求模型能力,轉向對能力、速度、成本三者的綜合平衡。互動速度:決定智能體的商業價值在智能體時代,速度不再是錦上添花,而是生存底線。token的吞吐速度,已成為AI應用建構的「隱形計時器」。在人機互動時代,我們對AI延遲感知不強,只要響應速度跟上人類閱讀思維即可。一般來說,只要滿足20 token/s輸出速率,就能實現流暢的閱讀體驗。而現在,AI的遊戲規則徹底改變。互動主體不再是「人-機」對話,而是「智能體-智能體」的高頻博弈。延遲那怕是幾毫秒,也可能導致決策失效。而且,在規模化商業部署中,這種差異會被無限放大,形成「以快殺慢」的絕對碾壓。智能體間互動,多為「小封包」高頻通訊。這好比修了16條車道高速公路,AI只跑兩公里,巨大的頻寬對於小包傳輸如同虛設。而傳統通訊協議「上下高速」的過程,反而成了主要耗時。延遲是會層層累加的。當前智能體僅是初露鋒芒,未來網際網路將由它們主導協作。每一個互動環節的微小延遲,都會在複雜的協同網路中呈指數級放大,最終導致整個應用響應慢到無法接受。如果延遲無法降低,那就失去了商業化的可能性。舉個栗子,在欺詐防控場景中,對智能體響應速率提出了極限要求——約10毫秒。當前,DeepSeek響應速度基本在10-20毫秒左右,其他的普遍高於30毫秒。這遠不足以支援AI的高頻互動。token成本:規模化的生死線此外,token成本,是智能體能否實現規模化擴張,並且盈利的關鍵。即便模型能力卓越,若token成本無法控制在合理範圍內,高頻、並行的實際應用,將難以持續。一方面,LLM存在著「token膨脹」效應:推理前思考過程已產生上千萬token。一個複雜任務,直接讓token成本指數級暴漲。那麼,是什麼原因導致token思考數暴增?首先必須承認的是,模型本身演算法能力差異是影響因素之一。不同LLM在設計和訓練過程中,演算法架構和最佳化策略各有優劣,而最佳化程度更高的LLM可通過更高效推理路徑,在較少token消耗下完成相同的任務。其次,底層計算架構選擇路徑等,也會進而影響token成本。因為LLM運行有依賴於底層的計算架構,包括硬體加速器、分散式運算框架等等。若是計算架構無法高效支撐LLM推理需求,比如在分佈式系統中存在通訊瓶頸或計算資源分配不均,LLM可能需要生成更多token「繞路」完成任務。當前,在做AI Coding的程式設計師,每月消耗token數比一年前平均增長約50倍,達到1000萬-5億token。企業每部署一個智能體,平均token成本大概1000-5000美元。未來五年,token消耗預計增長100萬倍。可見,不論是速度,還是成本,都成為AI智能體商業化落地的最大挑戰。面對這個難題,我們該如何解?兩大核心方案,拿下速度成本難題浪潮資訊,同一時間給出了兩大解決方案——元腦SD200超節點AI伺服器元腦HC1000超擴展AI伺服器元腦SD200若要實現更低延遲token生成能力,就需要在底層基礎設施,比如架構、互聯協議、軟體框架等關鍵點上,實現協同創新。浪潮資訊新的突破,在於元腦SD200超節點AI伺服器。如前所述,DeepSeek R1在元腦SD200上token生成速度實現了8.9毫秒。目前,最接近的競爭對手,最好的資料是15毫秒。這是國內首次將智能體即時互動,帶入到10毫秒時代。為何元腦SD200能夠取得如此大的速度突破?這背後離不開團隊,融合了智能體應用和超節點開發的技術成果。 首創多主機3D Mesh系統架構它可以實現單機64路本土AI晶片縱向擴展(Scale Up),提供4TB視訊記憶體和6TB記憶體,建構超大KV Cache分級儲存空間。而且,單節點即可跑4兆參數LLM,或同時部署多個協作的智能體。此外,在硬體設計上還支援了「開放加速模組」(OAM),相容多款本土AI晶片。 跨主機域全域統一實體位址空間團隊還通過遠端GPU虛擬對應技術,突破了跨主機域統一編址的難題,讓視訊記憶體統一地址空間擴展8倍。它還支援拓撲動態伸縮,可按需擴展128、256、512、1024卡的規模。通過Smart Fabric Manager,元腦SD200實現了單節點64卡全域最優路由,保障了晶片間通訊路徑最短,進一步縮短了通訊延遲。最重要的是,互連協議的設計,是元腦SD200實現極低延遲的關鍵。首先,團隊採用了基建的協議棧,只有物理層、資料鏈路層、事務層三層協議,原生支援Load/Store等「記憶體語義」,GPU可直接訪問遠端節點的視訊記憶體或主存。並且,基礎通訊延遲達到了「百納秒級」。其次,浪潮資訊Open Fabric原生支援由硬體邏輯實現的鏈路層重傳,延遲低至微秒級。不依賴OS、軟體棧,它就能匹配更低延遲、更高吞吐的AI推理場景。元腦SD200還採用了,分佈式、預防式流控機制,無需丟包或ECN來感知擁塞。得益於以上高效、可靠的協議設計,元腦SD200實現了業界最低0.69微秒通訊延遲。當然了,超節點的大規模商業化應用,還必須依靠整機的高可靠的設計。為此,浪潮資訊從系統硬體層、基礎軟體層、業務軟體層,建構了多層次、可靠的保障機制。系統硬體層:全銅纜電互連,短距離緊耦合傳輸,每十億小時故障率低於「光模組互聯」方案100倍基礎軟體層:創新GPU故障資訊轉儲、跨域故障關聯定位等技術,實現全方位可觀測、全端維運自動化業務軟體層:基於Profiling性能資料啟動故障預隔離和任務自動遷移,保證業務故障預測與自癒,實現推理響應不中斷在元腦SD200上,團隊還非常強悍地實現了推理性能超線性擴展。這意味著,性能的提升幅度超過了資源投入的增加幅度。以DeepSeek R1-671B為例,從16卡擴展到64卡,實現了16.3倍超線性的擴展率!具體來看,元腦SD200將這件事做到了極致的完美:通過PD分離策略、動態負載平衡等技術,充分發揮出了超節點的架構優勢,讓系統內部的處理流程變得極其高效,資源競爭和擁堵被降到最低。最終,將通訊耗時控制在了10%以內。可以設想,在實際高並行場景下,當請求量急劇攀升時,系統能夠高效地將負載均勻分佈至各個計算單元,避免了個別節點的「擁堵」拖累整個系統的響應時間。這意味著,無論是第1個請求,還是第100萬個請求,都能獲得同樣穩定且低水平的延遲。既能「跑得快」又能「跑得多」,保證絕對極致的低時延,這就是實現規模化的生命線!基於軟體生態FlagOS,元腦SD200還能繼續相容更大的生態,主流程式碼即可直接編譯運行。當前,元腦SD200已實現對Pytorch算子的全覆蓋,AI4S的典型應用可以一鍵遷移。如下所示,64個AlphaFold 3蛋白質結構預測,即可在一台元腦SD200超節點AI伺服器同時運行。速度挑戰解決之後,token成本又該怎麼打下來?元腦HC1000為此,浪潮資訊給出的答案是——元腦HC1000超擴展AI伺服器。它基於全對稱DirectCom極速架構打造,能夠聚合海量的本土AI晶片,支援極大的推理吞吐。對於一個企業來說,在起步探索、POC階段,平台通用性更加重要,可以快速驗證想法,搶佔市場先機。這對其創新、迭代的速度,至關重要。但當它進入大規模部署階段,即應用被市場驗證,token呼叫數呈指數級增長是時,核心目標又轉變為——高效、低成本營運。而元腦HC1000,就能把推理成本打到最低1元/百萬token。 全對稱DirectCom極速架構DirectCom極速架構,每計算模組配置16顆AIPU,採用了直達通訊的設計,解決了傳統的伺服器架構下,協議轉換和頻寬增強問題,實現了超低延遲。計算通訊1:1均衡配比,實現了全域的無阻塞的通訊。傳統意義上,計算與通訊是互斥關係,計算時不會傳輸,計算完成後再傳。當前,有很多將計算和通訊結合的策略,主要是把原來在傳過程,針對GPU等待時間做最佳化。除此之外,還包含了許多細粒度的任務,比如不同模型架構,不同並行情況,通訊資料區塊大小和通訊策略都要最佳化,才能提升效率。HC1000還採用全對稱的系統拓撲設計,可支援靈活PD分離、AF分離,按需配置算力,最大化資源利用率。它還支援多元算力,讓不同的晶片協同工作。 超大規模無損擴展同時,HC1000支援超大規模無損擴展,實現從1024卡到52萬卡不同規模的系統建構。計算側支援DirectCom和智能保序機制,網路側支援包噴灑動態路由,實現了深度算網協同,相較傳統RoCE方法提升1.75倍。它還支援自適應路由和智能擁塞控制演算法,將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍。總結來看,元腦HC1000是通過「全面最佳化降本」和「軟硬協同增效」,實現了高效token生產力。它不僅創新了16卡計算模組,單卡成本暴降60%+,每卡分攤系統均攤成本降低50%。而且,它採用了大規模工業標準設計,降低了系統複雜度的同時,還提高了系統可靠性,無故障執行階段間大幅延長。系統採用的DirectCom架構保障了計算和通訊的均衡,讓算網協同、全域無損技術,實現了推理性能1.75倍飆升。通過對LLM的計算流程的細分和模型結構的解耦,實現了計算負載的靈活的按需配比。單卡MFU計算效率,最高可以提升5.7倍。元腦SD200+元腦HC1000,成為浪潮資訊兩大「殺手鐧」,分別攻克了AI智能體應用速度和成本難題。那麼,下一步又該走向何方?「專用計算架構」是未來近期,OpenAI在算力佈局上,動作頻頻:先是和甲骨文簽下3000億美元大單,隨後又獲得輝達100億美元的投資。緊接著,他們又官宣了「星際之門」五大超算全新選址計畫。這一系列舉措,無不指向一個核心事實——對於LLM訓練和部署而言,算力需求始終是一個「無底洞」。當前,AI算力的可持續發展正面臨三大關鍵挑戰:工程極限:系統規模的擴展已逼近工程能力的上限。能源壓力:算力的大幅增長給電力基礎設施帶來了巨大負擔。效能失衡:算力投入和產出失衡,商業兌現處理程序緩慢。目前,市面上的「AI晶片」仍以通用晶片為主。GPU,是增加了CUDA核心和矩陣運算Tensor核心的傳統圖形計算晶片;ASIC,則是最佳化了矩陣計算和張量處理的通用矩陣計算晶片。但正如前文所述,這些基於通用計算架構的方案,正逐漸在能效比和成本效益上觸及瓶頸。僅是單純依靠堆疊更多計算單元,或是提升製程工藝的傳統路徑,難以沿著scaling Law在算力規模、能耗、成本之間取得平衡。其原因在於,通用架構雖然適用性強、易於產業化推廣,但效率低下。相比而言,應用面較窄的專用架構,則有著更高的效率。對此,浪潮資訊AI首席戰略官劉軍認為,未來的關鍵便是在於「發展AI專用計算架構」:我們必須推動發展路徑的轉變,要從一味地追求規模擴展,轉向注重提升計算效率。並以此為基礎,重新構思和設計AI計算系統,大力發展真正面向AI應用的「專用計算架構」。具體而言,就是從硬體層面來最佳化算子與演算法,定製出大模型專用晶片,進而實現軟硬體層面的深度協同最佳化,即「演算法硬體化」。只有這樣才能讓性能的Scaling,追上token的高速增長。這不僅是突破算力瓶頸的必經之路,更是推動AI產業邁向下一階段的基石。面對大模型時代,浪潮資訊的前瞻性思考為業界指明了一條方向:通過創新計算架構,讓AI更好地走向落地。 (新智元)