#Tokens
黃仁勳亮出“開”字訣:10兆Tokens炸場,輝達的生態野心藏不住了
四款開源模型與海量資料集構成的組合拳,正在悄然改變全球AI競賽的底層規則。“我們正在建構AI的‘萬有理論’。”在CES 2026的舞台上,黃仁勳一如既往地穿著皮衣。但這次,他沒有僅僅展示最新的晶片算力,而是拋出了一顆“開源炸彈”。1月6日,輝達宣佈大規模擴展其開源模型庫,發佈了涵蓋語言、機器人、自動駕駛及醫療四大領域的全新模型與資料集。其中最震撼的,莫過於那個包含了10兆個語言訓練Tokens的開源多模態資料集。這個數字是什麼概念?它相當於全球最大的開源語言資料集之一,為整個AI研究社區提供了前所未有的燃料。一同開放原始碼的,還有50萬條機器人軌跡、45.5萬個蛋白質結構以及100TB的車輛感測器資料。與此同時,四款開源模型同步亮相:用於智能體AI的Nemotron系列、針對物理AI的Cosmos平台、專為自動駕駛研發的Alpamayo系列以及生物醫療領域的Clara模型。博世、Salesforce、Uber和帕蘭泰爾等公司已經迅速接入,開始利用這些開源技術建構下一代AI系統。輝達的這一舉動,遠不止是技術分享那麼簡單。01 戰略轉向長期以來,輝達留給業界的印象是“硬體王者”。從遊戲GPU到AI加速晶片,其硬體產品幾乎壟斷了高端訓練市場。但黃仁勳的視野顯然不止於此。“生態系統的價值遠大於單一產品。”他在演講中強調,這次大規模開源不是慈善行為,而是精心設計的生態戰略。輝達正從一家晶片供應商,轉型為整個AI時代的“基礎設施建構者”。開源框架和資料集能夠降低行業門檻,讓更多開發者湧入AI賽道,而這些人最終都需要強大的算力支援——這反過來會推動對輝達硬體的需求。這是一種極為聰明的“養魚”策略:先培育池塘,再成為最大的漁具供應商。02 四大武器此次發佈的四款開源模型,瞄準的都是AI應用中最核心、最具商業價值的領域。在智能體AI領域,Nemotron系列表現搶眼。其語音模型在即時字幕與語音應用中,性能比同類模型快10倍。博世已經採用該模型最佳化車載語音互動體驗。對於半導體行業而言,這意味著邊緣裝置需要更強的本地推理能力,直接刺激了專用AI晶片的需求。Nemotron Safety模型則通過增強內容安全檢測,已被CrowdStrike和Fortinet等安全公司採用。安全AI的需求增長,預示著未來晶片設計必須將安全模組作為標配,而不僅僅是性能的附加項。03 物理AI突破物理AI是此次發佈的亮點。Cosmos世界模型平台旨在賦予機器人類似人類的推理與世界生成能力。Cosmos Reason 2顯著提升了機器人對物理環境的感知與互動精度,而Cosmos Transfer 2.5則能生成大規模合成視訊以訓練AI。基於此平台推出的Isaac GR00T N1.6模型,專為人形機器人設計,具備全方位的身體控制與環境推理能力。這對半導體行業意味著什麼?更複雜的感知與決策,需要感測器、處理器和儲存器之間更高效的協同。Franka Robotics等公司正利用這些工具在虛擬環境中驗證機器人行為,然後部署至現實世界。這種“模擬優先”的開發模式,正在改變機器人乃至整個硬體的研發流程。04 自動駕駛開源自動駕駛領域,輝達首次推出了Alpamayo系列開源資源。Alpamayo 1是首個面向自動駕駛的開源大規模推理VLA模型。它不僅能理解周圍環境,還能解釋駕駛決策。配合開源模擬框架AlpaSim,開發者可進行閉環訓練以應對邊緣場景。同時開放原始碼的還有包含1700多小時駕駛資料的物理AI資料集,覆蓋廣泛的地理環境與複雜路況。對於自動駕駛晶片開發者而言,這些資源提供了寶貴的測試基準。更重要的是,它確立了資料標準和質量要求,間接推動了車載計算平台向更高性能演進。05 醫療微觀革命在醫療健康領域,新的Clara AI模型旨在縮短藥物研發周期。La-Proteina模型支援原子級精度的蛋白質設計;ReaSyn v2將製造藍圖融入研發過程。KERMT模型能在研發早期預測藥物與人體的相互作用,從而提升安全性。結合新發佈的45.5萬個合成蛋白質結構資料集,這些工具將有效降低醫療創新的門檻與成本。從半導體角度看,生命科學計算正在成為高性能計算的新增長點。精準到原子等級的模擬,對算力的需求幾乎是無限的。這為專用加速晶片提供了明確的應用場景和市場方向。06 生態深意輝達這次大規模開源,表面上是技術分享,實則是一次精明的生態佈局。通過降低AI開發門檻,他們正在培養未來的算力消費者。開源模型和資料集將成為事實上的行業標準,任何基於這些資源開發的應用,都會天然傾向於在輝達的硬體平台上運行得最好。這種策略在科技史上並不鮮見。Google開源Android系統,最終鞏固了其在移動生態的主導地位;微軟通過開發者工具和平台,建立了Windows的長期統治。輝達正在複製這一模式,但在AI時代玩得更加徹底。07 半導體重塑對於半導體行業而言,輝達的開源動作將產生連鎖反應。首先,AI工作負載將進一步標準化。當大多數研究者都使用相同的資料集和模型框架時,硬體最佳化目標將變得更加明確。其次,邊緣計算需求將大幅增加。無論是機器人的即時決策,還是自動駕駛的本地推理,都需要在終端裝置上部署強大的AI能力。這推動了專用AI晶片、高頻寬儲存器和新型感測器的發展。第三,模擬與數字孿生將成為晶片設計的重要環節。輝達在機器人、自動駕駛領域的模擬工具,展示了虛擬測試環境的強大效能。同樣的方法論,完全可以應用於晶片設計本身的驗證與最佳化。“未來的晶片,可能首先在虛擬環境中經曆數百萬小時的‘壓力測試’,然後才被製造出來。”一位行業觀察者這樣評論。當黃仁勳在CES舞台上展示那些開源模型時,他推銷的不僅僅是程式碼和資料。他正在繪製一幅AI時代的生態藍圖,而半導體,是這幅藍圖中最基礎的底色。輝達從“賣鏟子”到“建礦場”的轉變已經清晰可見。他們不僅提供挖礦工具,還分享地圖、培訓礦工、甚至制定開採標準。這種生態等級的競爭,已經超出了單一產品性能的比拚。它關乎標準、關乎開發者心智、關乎整個產業的價值分配。對於其他半導體廠商而言,這是一個警示訊號:未來的競爭,將是生態與生態的對決。當輝達的開源模型成為越來越多AI應用的起點,整個行業將不得不思考:是加入這個日益壯大的生態系統,還是冒著被邊緣化的風險另起爐灶?在這個問題上,時間可能不會給猶豫者太多機會。輝達的開源策略是否真能建構起不可撼動的AI生態?其他半導體巨頭該如何應對這種“生態級”競爭?晶片設計本身是否會因為AI的介入而發生根本性改變?歡迎在評論區分享你的觀察與思考。 (世界半導體技術論壇)
華為雲再掀算力風暴:CloudMatrix384超節點將升級,Tokens服務性能最大可超H20四倍
華為雲算力再迎重大突破!剛剛落幕的華為全聯接大會2025,一系列新進展發佈——AI算力雲服務升級,基於華為雲剛剛發佈的最新AI伺服器規劃,CloudMatrix的雲上超節點規格將從384卡升級到未來的8192卡。依託MatrixLink高速對等網際網路絡結合多網合一技術,實現百萬卡的超大叢集,為智能時代提供更澎湃的AI算力。首創EMS彈性記憶體儲存服務,大幅降低多輪對話時延。華為雲Tokens服務正式接入CloudMatrix384超節點,打造極致性能的Tokens服務體驗。這距離CloudMatrix384超節點2025年4月正式發佈僅半年,期間其能力持續進化:2025年4月,CloudMatrix384超節點發佈並商用,在蕪湖資料中心規模化上線;2025年6月,基於CloudMatrix384超節點的新一代昇騰AI雲服務全面上線;2025年9月,Tokens服務全面接入CloudMatrix384超節點,有效遮蔽複雜的底層技術實現,直接為使用者提供最終的AI計算結果。現階段,AI行業內依舊被算力焦慮籠罩。矽谷大廠近期在算力、晶片領域動作頻頻:OpenAI一邊和博通自研AI晶片,一邊向甲骨文拋出3000億美元買算力;馬斯克百天建成萬卡超算叢集,還計畫向百萬卡規模衝擊,同時悄悄佈局晶片;Meta、AWS等企業也在積極獲取更多算力資源……但算力的發展並非一蹴而就,它需要在單點技術上極致突破,還涉及晶片、硬體、架構、軟體、網路、能源乃至整個產業生態的協同演進。放眼全球,能夠輸出澎湃算力的供應商,都離不開十數年、數十年的沉澱積累。華為雲作為其中一員,探索路徑因所處產業階段而顯得尤為深刻:不僅需要在技術“無人區”重新定義算力運行規則;還需把握AI發展時機,通過快速迭代響應產業海量需求。一步步成長為今天的“算力黑土地”。黑土地是極其適合農業的土質,天然含有大量腐植質,在此耕種的莊稼產量高,能夠茁壯成長。華為雲“算力黑土地”理念核心是,華為雲向行業提供一塊肥沃且精心開墾的“土壤”,企業、開發者可根據自身需求,在這片“土壤”上開展AI創新實踐。同時,華為雲通過框架創新、軟硬協同等一系列能力積累作為養料,讓這片黑土地越來越肥沃。正因如此,在大模型浪潮爆發的當下,華為雲才能持續向產業輸送澎湃算力,做最堅實的底座。其背後的研發、行動、理念與認知,也成為中國算力產業發展的重要參考。智算+通算,覆蓋全產業算力需求想要快速前進,綱領是第一要務。華為雲的策略是智算(智能計算)+通算(通用計算)協同推進:智算:聚焦AI前沿,提供極致性能與彈性服務,助力AI更快更好落地千行百業。通算:依託鯤鵬雲服務,從核心到邊緣全場景賦能,提供安全可信的雲上通用算力。智算部分的核心服務模式是Tokens服務,同時也可以提供HCS混合雲、華為雲液冷雲資料中心以及昇騰專屬雲服務。開頭提到的CloudMatrix384超節點能力升級和首創EMS彈性記憶體儲存服務,就屬於智算領域成果。△圖片為AI生成通算部分主要是鯤鵬雲業務,基於華為雲自研的鯤鵬處理器(ARM架構),提供一系列面向通用計算場景的雲服務產品,推動產業智能創新。鯤鵬雲實現了軟硬協同的全面創新,從多核高並行的晶片設計、軟硬一體的“擎天”架構,到華為雲智能調度平台與作業系統的深度最佳化,鯤鵬雲服務釋放出“開箱即用”的強勁算力。目前雲上鯤鵬核數從900多萬核增長到1500萬核,增幅達到67%。同時全面相容主流應用軟體,已適配超過25000個應用,為ARM生態繁榮提供堅實支撐。以上就是華為雲“算力黑土地”的大致架構。在這一體系下,大模型時代中的華為雲能夠更清晰、更針對性根據AI落地需求進行升級,為產業提供更高效、易用、可靠的算力。AI時代,用Tokens定義計算針對AI時代需求,華為雲今年正式推出基於CloudMatrix384超節點的Tokens服務。這是一種面向AI大模型推理場景、按實際Token消耗量計費的雲服務模式,與傳統雲端運算計費方式不同,可顯著降低AI推理成本。這種模式調整背後,是對大模型落地的細緻洞察。Token是將文字分割轉換成數字向量,大模型吞吐內容的規模以Tokens計算,它是大模型時代天然的計量單位。隨著AI落地處理程序推進,Tokens消耗量呈爆發式增長。資料顯示,2024年初中國日均Token消耗量為1000億,截至今年6月底,日均Token消耗量已突破30兆,一年半的時間增長300多倍。顯然,Token不再只是技術領域的計算單位,更是大模型消耗的實際體現,是衡量大模型落地情況的關鍵參考,也能直接反映背後GPU算力、記憶體、計算時間的使用量。用Tokens作為計費單位逐漸成為行業共識:一方面,能更精準計算企業使用的資源,讓使用者僅為實際消耗付費,同時通過實際消耗瞭解費用構成,進一步最佳化成本;另一方面,可解決不同場景Tokens消耗量差距大導致的收費不公問題,為雲廠商動態調節計算資源提供參考。比如我們常遇到的線上、近線、離線等場景:長文字生成任務適用於日常辦公等場景,白天呼叫量大、夜間幾乎靜默,按量計費比按時/按卡計費更合理;智能客服、AI助手等場景中,不同細分情況的會話輪次和深度不確定,Tokens服務模式可以更精準計算每次互動成本。另一方面,Token服務可以有效遮蔽複雜的底層技術實現,使用者不必關心晶片的工藝、伺服器的代次等複雜的硬體技術堆疊,也不必關心推理框架、模型部署等複雜的軟體技術堆疊,可以高效地直接獲得“AI的最終結果”。在本次HC2025上,華為雲宣佈CloudMatrix384 AI Token推理服務全面上線。這意味著AI算力進入以“極致性能、極致效率”為特徵的新階段,性能超越輝達H20 3-4倍。其底層技術主要依託CloudMatrix384超節點及xDeepServe分佈式推理框架等。第一,CloudMatrix384超節點使用全對等互聯架構與高速通訊技術,在計算通訊等方面優勢顯著,能釋放更極致算力。CloudMatrix384超節點通過華為雲自研的MatrixLink高速對等網際網路絡,將384顆昇騰NPU和192顆鯤鵬CPU緊密耦合,形成邏輯統一的超級“AI伺服器”。通過Scale Out方式,還可以組成一個超16萬卡的AI叢集,同時支援1300個千億參數大模型訓練或者上萬個模型的推理。未來,基於華為剛剛發佈的最新AI伺服器規劃,CloudMatrix超節點的規格將進一步升級到8192顆,組成百萬卡的AI叢集。第二,基於“一切可池化”理念,華為雲通過首創的EMS彈性記憶體儲存服務將NPU視訊記憶體、CPU記憶體和儲存資源解耦,形成統一資源池。NPU可直接遠端訪問池化記憶體,實現視訊記憶體獨立擴容,多輪對話Token時延大幅降低。同時,計算、儲存和網路資源可根據負載需求動態組合,提升資源利用率。這一技術對多輪次問答場景提升顯著。大模型進行多輪問答時,通常響應會隨輪次增加而變慢,原因是大模型需“記住”之前每一輪產生的資料以保證回答連貫性,當問答輪次增加,計算量成倍增長,導致響應延遲。而EMS服務能有效解決這一問題。第三,PDC分離及動態PD:PDC( Prefill-Decode-Caching)分離是將Prefill、Decode固化在各自叢集、同時利用MatrixLink高速對等網際網路絡可以全域定址的特點而另設立獨立的KV快取叢集,這樣不論是Prefill叢集還是Decode叢集的NPU都能夠直接訪問獨立KV快取叢集的共用記憶體快取,突破資料的物理位置限制,顯著提高負載平衡、NPU利用率以及記憶體利用率,同時提供更大的彈性。同時,系統能夠準確即時地分析或預測推理業務負載。第四,CloudMatrix384超節點專為主流MoE架構設計,支援“一卡一專家”的分佈式推理模式,將MoE模型的專家模組分佈到不同NPU卡上平行處理,如256個專家對應256張卡,減少通訊延遲導致的算力浪費,減少每張卡權重載入的時延,同時減少權重的視訊記憶體佔用,顯著提升單卡平行的路數。當Tokens服務全面接入CloudMatrix384超節點後,企業使用者能以優的性能、好的服務、高的質量,獲得各行各業所需的“最終AI計算結果”,更專注於應用和業務創新。千行百業AI底座:支撐網際網路應用、高精尖科研任務360推出的奈米AI是全球唯一已經進化到L4等級的多智能體蜂群平台。 (量子位)