#AI推理
谷歌TPU產能預期大幅上調67%,AI算力市場格局或將重塑
最新行業研究報告顯示,谷歌自研AI芯片TPU正迎來產能擴張的重要節點。根據供應鏈調研數據,機構將谷歌2027年TPU產量預測上調至500萬塊,較此前預期大幅增長67%,2028年預期更上調至700萬塊。這一調整反映出人工智能算力需求正在經歷爆發式增長。業內分析指出,谷歌TPU產量的激增可能意味着其將開啓對外銷售模式,這將爲谷歌開闢新的收入來源。據測算,每銷售50萬塊TPU芯片,有望爲谷歌帶來約130億美元的營收。與此同時,有消息稱Meta正在內部討論斥資數十億美元採購谷歌TPU,計劃從2027年開始將其整合到數據中心中。谷歌TPU作爲專爲深度學習定製的ASIC芯片,主要圍繞AI推理需求設計。隨着生成式AI從技術研發走向規模化應用,全球AI產業重心正加速從訓練轉向推理。據預測,2028年全球AI推理市場規模將達到1500億美元,年複合增長率超過40%,這一增速顯著高於訓練市場。在產業鏈層面,谷歌TPU的放量銷售將爲上下游企業帶來發展機遇。除了光學電路交換市場外,高帶寬存儲需求也將持續成長。三星電子與SK海力士已成爲谷歌TPU供應鏈的關鍵角色,其中SK海力士有望成爲谷歌第七代TPU的8層HBM3E芯片供應商。值得注意的是,谷歌雲平臺上的AI生態鏈正在顯現協同效應。某知名數據庫軟件開發商最新財報顯示,其雲數據庫產品營收大幅增長30%,主要受益於與谷歌雲平臺的深度集成。這一現象表明,下游AI應用的逐步成熟正在推動整個產業鏈進入良性循環。儘管近期市場出現波動,但長期來看,AI算力需求增長的邏輯並未改變。隨着各大科技企業生產線陸續投產,產業鏈上下游的芯片需求預計將迎來指數級增長。分析認爲,人工智能產業的發展趨勢已然明確,相關領域將持續呈現積極變化。
HBF or HBM?高頻寬快閃記憶體(HBF)更適合AI推理!
這張圖介紹了HBF(高頻寬快閃記憶體)在 AI 推理伺服器中的應用價值:AI工作負載的內存需求可以分為模型參數讀取和KV 快取讀寫兩類:1. 模型參數讀取(Weight Streaming,權重流)訪問模式:大粒度順序讀取。頻寬需求:需支撐GB/s~TB/s 級頻寬,對 “高頻寬” 特性高度依賴。部署優勢:若 HBF 靠近計算核心部署,大容量特性可顯著提升權重讀取效率。2. KV 快取讀寫(KV Cache Read/Write)訪問模式:快取級隨機訪問,對延遲極度敏感。操作特性:生成每個token時都會觸發寫操作;且 KV 快取的大小會隨上下文長度和注意力頭數量線性擴展。HBF 為何不適用訓練場景?訓練場景的記憶體需求與 HBF 的技術侷限存在根本衝突:訪問模式:寫密集型,伴隨持續的梯度更新、最佳化器狀態修改,且存在頻繁細粒度讀寫。介質侷限:HBF 基於快閃記憶體技術,受限於兩個核心短板 ——耐用性:快閃記憶體的擦寫次數有上限,寫密集的訓練會快速耗盡其生命周期;延遲:快閃記憶體的讀寫延遲遠高於 DRAM,無法滿足訓練對低延遲的嚴苛要求。HBF為何適配推理場景?可從三方面理解:特性匹配:HBF 具備大容量、低成本、高密度的優勢,完美適配推理伺服器對 “儲存規模” 和 “成本效率” 的需求。工作負載契合:推理中的 “權重流” 任務是大粒度順序讀取,與 HBF 的頻寬優勢完全匹配。場景區分:訓練是 “寫密集型” 工作負載,會突破 HBF 的耐用性和延遲上限;而推理的讀寫模式更溫和,可充分發揮 HBF 的潛力。HBF取代HBM會發生什麼?假設HBF完全取代了HBM作為GPU的主記憶體。其優勢在於:每GPU多TB記憶體容量使非常大型模型能夠局部安裝在每個加速器上對於頻寬密集型權重流且預取能力強,高效高效但也具有很明顯的侷限性:KV快取作延遲不足隨機訪問性能仍不及 HBM培訓和混合工作量不切實際不支援通用GPU使用場景因此HBF僅適用於具有固定作模式的專用推理加速器,無法作為通用GPU中HBM的替代。HBM + HBF混合GPU記憶體最好!HBM仍然是主要的低延遲記憶體,而HBF則作為高容量讀取最佳化層加入。HBM→KV 快取、熱啟動、中間張量HBF→模型參數、冷啟動通過 HBM 維護低延遲計算流水線,減少對 HBM 的依賴和成本,還相容當前的GPU設計和軟體棧,缺點是包設計複雜度增加,且需要關注功耗與熱量問題。 (銳芯聞)
Google×耶魯聯手發佈抗癌神器!AI推理精準狙擊「隱身」癌細胞
【新智元導讀】近日,Google與耶魯大學聯合發佈的大模型C2S-Scale,首次提出並驗證了一項全新的「抗癌假設」。這一成果表明,大模型不僅能復現已知科學規律,還具備生成可驗新科學假設的能力。剛剛,AI科學應用領域又有一件大事發生!Google與耶魯大學的科學家們聯合發佈了一個大模型Cell2Sentence-Scale 27B(C2S-Scale)。該模型提出了一個關於癌細胞行為的全新假設,並在多次體外實驗中得到驗證。這一發現引發廣泛關注,它展示了人工智慧模型生成原創科學假設的潛力,有望由此打開一條人類抗癌的新途徑。網友prinz在x平台上評價道,「這表明該模型並非簡單重複已知事實,而是生成了新的、可驗證的科學假設。」C2S-Scale基於Google的開源Gemma模型建構,訓練語料涵蓋超過10億個Token的轉錄組資料、生物學文獻與中繼資料,從而使其具備跨維度解析細胞行為的能力。目前,耶魯大學的研究團隊正在推進AI在其他免疫學情境中生成更多科學預測,這一機制的出現有望加速抗癌新療法的研發步伐。研究人員還在bioRxiv上公開了論文的預印本,目前該論文正在經歷「同行評審」階段。AI不是只懂復現還可以提出全新發現C2S-Scale是一款擁有270億參數、旨在理解單個細胞「語言」的基礎模型。它建立在Gemma模型家族之上,將單細胞分析帶入了一個全新的前沿階段。C2S-Scale在科學預測方面的成果證明了研究團隊在生物學模型上的一項假設:生物學模型同樣遵循明確的模型擴展規律——就像自然語言模型一樣,模型越大,在生物學任務上表現越優。這也引出一個更為關鍵的問題:更大的模型只是提升了已有能力,還是能夠獲得全新的推理能力?模型擴展的真正潛力,在於催生新思路、揭示未知規律,而非僅限於性能的線性提升。癌症免疫治療的一大挑戰在於許多腫瘤相對於免疫系統而言幾乎都是「隱身」的。讓腫瘤「現身」的一個關鍵是通過抗原呈遞(antigen presentation)讓它們顯示出能觸發免疫反應的訊號。抗原呈遞,是把病原體(比如病毒、腫瘤)的「可疑分子片段」(抗原)展示在細胞表面,讓免疫細胞看到並識別,從而決定是否發動攻擊。研究人員賦予C2S-Scale這樣的任務:讓它尋找一種「條件性放大劑」,能夠在「免疫環境陽性」(Immune-Context-Positive)情況下增強免疫訊號。這一任務需要模型具備複雜的條件推理能力,而這種能力正是大模型隨著規模擴大所湧現的特性——較小模型無法捕捉這種依賴環境的效應。為了實現這一點,研究人員設計了一個「雙環境虛擬篩選」流程,以識別這種特定的協同效應。該流程包括:免疫環境陽性(Immune-Context-Positive):輸入真實患者樣本,保留腫瘤與免疫系統的互動,並維持低水平干擾素訊號;免疫環境中性(Immune-Context-Neutral):輸入缺乏免疫背景的細胞係數據。研究人員在以上兩種環境中對超過4000種藥物進行模擬,並要求模型預測那些藥物只會在免疫環境陽性條件下增強抗原呈遞,從而更符合臨床實際。結果顯示,約有10%–30%的藥物在文獻中已有報導,這驗證了模型的可信度。而其餘候選則是從未被報導過的新發現,這意味著模型不僅復現了已知生物學現象,還發現了潛在的新型免疫協同藥物。新里程碑AI「抗癌假說」得到驗證C2S-Scale模型發現了激酶CK2抑製劑silmitasertib(CX-4945)具有一種顯著的「環境分化效應」:僅在免疫訊號活躍的環境中顯著增強抗原呈遞,而在免疫中性環境下幾乎無效。這一發現表明模型成功生成了具備實驗可驗證性的全新生物假設。在後續的實驗階段,研究人員在人體神經內分泌細胞模型中測試了這一假設,實驗顯示:單獨使用silmitasertib對抗原呈遞(MHC-I)影響不顯著;低劑量干擾素單獨使用僅產生輕微效果;聯合使用兩者則顯著增強抗原呈遞,使其提升約50%。這一結果證實模型預測的可靠性,並揭示出讓腫瘤對免疫系統更易被識別的潛在新途徑。C2S-Scale模型電腦模擬預測多次在體外實驗中得到驗證。它成功識別出一種新的干擾素依賴性放大劑,揭示出讓「冷腫瘤」變「熱」的潛在新途徑,為免疫治療帶來新的希望。儘管該研究仍處於早期階段,這一成果已為新型聯合療法的開發提供了實證依據,並開啟了以大模型驅動的生物學發現新範式——科學假設的生成、篩選與驗證將日益智能化、系統化。目前,新的C2S-Scale 27B模型及其相關資源已在Hugging Face全面開放。地址:https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B也可以在GitHub上訪問其程式碼。地址:https://github.com/vandijklab/cell2sentence研究人員希望和更多的人共同探索上述工具,進一步拓展該項研究的成果,讓大模型可以解讀更多生命語言的奧秘,從而為醫療科技帶來全新突破。 (新智元)
英特爾公佈新款GPU Crescent Island,明年開始客戶測試
英特爾周二發佈全新GPU“Crescent Island”,主打AI推理高能效和低成本,配備160GB LPDDR5X記憶體,採用新一代Xe3P微架構。該卡將於2026年下半年開始客戶測試,是英特爾打造開放AI系統架構戰略的一部分。英特爾周二公佈了一款搭載160GB記憶體、具備高能效的資料中心GPU,並將其加入該公司的AI加速器組合,旨在推動英特爾以開放系統與軟體架構為核心的新AI戰略。這款GPU代號為“Crescent Island(新月島)”,根據英特爾介紹,它專為運行推理工作負載的風冷企業級伺服器而設計,強調“功耗與成本最佳化”。Crescent Island採用英特爾的Xe3P微架構,該架構主打單位功耗下的高性能表現,配備160GB LPDDR5X記憶體,並支援多種資料類型,為大語言模型(LLM)提供充足的運行空間。英特爾的公告還指出,Crescent Island將支援多種資料類型,並被定位為“非常適合”提供tokens-as-a-service服務的廠商和AI推理使用場景。除了強調能效表現,Crescent Island還將採用風冷散熱設計,並以成本最佳化為目標。英特爾目前正通過現有的Arc Pro B系列GPU推進其開放原始碼軟體棧,為Crescent Island做準備。英特爾表示,計畫於2026年下半年開始向客戶提供樣品。不過英特爾並未公佈正式上市時間——是否會趕在2026年內發佈尚不清楚,更可能的情況是要等到2027年才正式大規模推出。目前也沒有發佈任何產品幻燈片、原型圖或更多技術細節。英特爾此次並未公佈關於“Jaguar Shores”的最新進展。Jaguar Shores是英特爾今年早些時候宣佈的一款面向機架級平台的下一代GPU。在上個月的一次記者簡報會上,英特爾首席AI與技術官Sachin Katti表示,Crescent Island具備“增強的記憶體頻寬”和“大量記憶體容量”,這讓它成為“token雲服務和企業級推理場景的理想選擇”。Crescent Island是在2025年OCP全球峰會上正式亮相的,標誌著英特爾正式開啟了每年發佈新GPU的節奏。此前一周,英特爾剛剛圍繞即將推出的“Panther Lake”和“Clearwater Forest”兩款CPU大力宣傳,這次發佈GPU也屬同一系列動作。媒體表示,在過去兩年中,輝達和AMD已先後轉向每年發佈新產品的節奏,英特爾此舉也意在追趕步伐。過去15年間,英特爾在加速晶片領域經歷了多次失敗,歷經四任CEO,始終未能在這個由輝達主導的AI基礎設施市場中站穩腳跟。Sachin Katti是由英特爾CEO陳立武在今年4月任命,負責領導公司的新AI戰略。他表示,英特爾正在圍繞“開放系統與軟體架構”建構AI硬體市場的新願景,目標是提供“適配合理規模與成本”的算力,以支撐未來的自主型AI工作負載。他說:“我們將建構可擴展的異構系統,為agentic AI(自主型AI)工作負載提供無摩擦的使用體驗,同時借助開放異構架構,實現這些工作負載在每美元性能表現上的最優解。”Katti表示,這種開放策略將為客戶和合作夥伴在系統層和硬體層提供更多選擇,讓多家廠商都能參與進來。他補充說:“隨著我們不斷帶來更多顛覆性的技術,這些新技術都可以被無縫嵌入到這個開放的異構架構中。” (硬AI)
一顆晶片的新戰爭
以往每年9月,都是手機發燒友的狂歡月,因為這時期蘋果、小米、華為等都會發新機。然而,今年的9月,一個更深層次的產業變革正在暗流湧動。當所有人都在對iphone 17的續航、聯網、鋁合金質感等“找茬”時,一場關於AI推理晶片的戰爭,已悄然打響。過去幾年,雲廠商為了訓練大模型投入巨資購買晶片,如今也到了利用推理實現變現的時候了。根據麥肯錫報告,全球AI推理市場規模預計2028年將達1500億美元,年複合增長率超40%,遠高於訓練市場的20%。推理支撐著各類應用的即時推理需求,包括智能推薦、內容生成、虛擬助手等。可以說,推理階段才是實現實際應用和商業化的關鍵。這場推理之戰,隨著華為、輝達和Google三大巨頭相繼發佈了各自的推理晶片之後,已經將正式打響!華為Ascend 950PR:成本最佳化下的推理利器9月18日,在2025年華為全聯接大會上,華為宣佈了昇騰晶片的規劃和進展。未來3年,也就是到2028年,華為在開發和規劃了三個系列,分別是Ascend 950系列、Ascend 960、Ascend 970系列。華為表示,將以幾乎一年一代算力翻倍的速度,同時圍繞更易用,更多資料格式、更高頻寬等方向持續演進,持續滿足AI算力不斷增長的需求焦點落在即將推出的Ascend 950系列,特別是Ascend 950PR和950DT兩顆晶片,它們均採用同一Ascend 950 Die(晶片裸片)。Ascend 950PR專攻推理Prefill階段和推薦業務,採用華為自研的低成本HBM(高頻寬記憶體)——HiBL 1.0。相較於高價位的HBM3e/4e,能夠大大降低推理Prefill階段和推薦業務的投資,這在規模化部署中至關重要。晶片預計2026年一季度面世,首發形態包括標準卡和超節點伺服器。與前代相比,Ascend 950的提升堪稱革命性:低精度支援:新增支援業界標準FP8/MXFP8/MXFP4等低數值精度資料格式,算力分別達到1P和2P,提升訓練效率和推理吞吐。並特別支援華為自研的HiF8,在保持FP8的高效的同時,精度非常接近FP16。向量算力躍升:通過提高向量單元佔比、創新同構設計(支援SIMD/SIMT雙程式設計模型)和細化記憶體訪問顆粒度(從512B降至128B),更好地處理碎片化資料。互聯頻寬翻倍:互聯頻寬相比Ascend 910C提升了2.5倍,達到2TB/s。定製HBM策略:結合結合推理不同階段對於算力、記憶體、訪存頻寬及推薦、訓練的需求不同,華為自研了兩種HBM:HiBL 1.0針對Prefill和推薦,HiZQ 2.0則面向Decode(解碼)和訓練。這種“Die+HBM合封”模式,類似輝達的CoWoS封裝,但更注重成本控制,體現了華為的成本-性能平衡之道。從行業視角看,Ascend 950PR的低成本HBM策略直擊全球痛點:一方面是從一定程度上解決HBM供給緊缺,另一方面降低成本,在AI推理中,記憶體成本佔總支出的40%以上。華為此舉不僅挑戰國外廠商在HBM壟斷,還為中國本土生態注入活力,預計將加速AI在邊緣計算和雲服務的落地。輝達Rubin CPX:長上下文處理的革命先鋒9月9日,輝達重磅推出Rubin CPX,一款專為大規模上下文處理設計的GPU。這標誌著輝達從“訓練霸主”向“推理專家”的蔓延。這款晶片預計於 2026 年底上市。Rubin CPX整合在NVIDIA Vera Rubin NVL144 CPX平台中,單機架算力達8 Exaflops(百億億次浮點運算),較GB300 NVL72提升7.5倍,配備100TB快速記憶體和1.7PB/s頻寬。輝達還提供獨立計算托盤,相容現有系統,便於客戶升級。黃仁勳強調,Rubin CPX開創了“CPX”新處理器類別,類似於RTX對圖形領域的顛覆。它針對百萬Token級上下文,處理速度和效率遠超傳統GPU。例如,在視訊生成中,AI需處理上百萬Token(相當於一小時視訊),傳統系統已達極限。Rubin CPX整合視訊編解碼器和長上下文推理技術於單晶片,支援NVFP4精度,峰值算力30 Petaflops,記憶體128GB GDDR7。此外,Rubin CPX關鍵進步還包括:效能翻倍:系統專注力提升3倍,能無縫處理長序列,而不犧牲速度。經濟配置:單晶片設計降低成本,支援InfiniBand或Spectrum-X網路,擴展性強。輝達宣稱,每1億美元投資可獲50億美元Token收益,ROI(投資回報率)高達5倍。應用轉型:從簡單程式碼生成到最佳化大型軟體項目,Rubin CPX讓AI助理更智能。輝達的洞察在於:長上下文是AI Agent的核心瓶頸。Gartner報告顯示,到2027年,80%的AI應用將涉及多模態長序列處理。Rubin CPX的上市(2026年底),將鞏固輝達的生態霸權。GoogleIronwood TPU 效率與規模的雙重王者在9月份聖克拉拉舉行的人工智慧基礎設施峰會上,Google人工智慧和計算基礎設施總經理 Mark LohmeyerMark Lohmeyer分享的資料顯示,Google內部的推理請求量在過去一年裡呈幾何級增長,如下圖所示,Google應用中的推理令牌(token)使用量在 2024年4月到2025年4月間,增長了驚人的50倍。這種增長趨勢在2025年下半年變得更加陡峭,僅2025年6月到8月,月推理速率就從980兆個飆升至接近1460兆個。這凸顯了高性能推理晶片的迫切需求。紅色是推理率變化今年4月份,Google在Google Cloud Next 25大會上推出了其首款Google TPU推理晶片Ironwood,這也是Google的第七代張量處理單元 (TPU)。一塊搭載四塊Ironwood TPU的系統主機板(圖源:Google)一排七個Ironwood TPU 機架,每排一個CDU和一個網路機架。這是Google首次展示一排 Ironwood 機器。(圖源:Google)Ironwood 根據 AI 工作負載需求提供兩種尺寸:256 晶片配置和 9,216 晶片配置。後者總算力達到42.5 Exaflops,是El Capitan超算的24倍;單晶片峰值4.614 Exaflops,功率效率1.5倍於Trillium,每瓦性能翻倍,較首代TPU提升30倍。Ironwood的深度最佳化還包括:功率效率大幅提升:Ironwood的功率接近10兆瓦,功率效率是Trillium的1.5倍。每瓦性能是第六代 TPU Trillium 的兩倍,比2018年推出的首款雲TPU 高出近30倍。歷代TPU的能效對比記憶體頻寬飛躍:Ironwood單晶片容量高達 192 GB,是 Trillium 的 6 倍;單晶片頻寬達到 7.37 TB/s,是Trillium的 4.5 倍。通過突破性的晶片間互聯 (ICI) 網路連線,雙向頻寬提升至 1.2 TBps,從而實現更快的晶片間通訊,OCS互聯聯科技:一個通過Google獨特的光路交換機(OCS)互連的 Ironwood 叢集,可以利用 9,216 個 Ironwood TPU,在訓練和推理工作負載上提供總計 1.77 PB 的 HBM 記憶體容量,碾壓輝達Blackwell機架的20.7TB。這種 OCS 互連具有動態重構能力,可以在不重啟整個訓練和推理任務的情況下,修復TPU 故障。軟體棧革命:除了支援 JAX AI 框架外,Ironwood TPU現在也支援原生的 PyTorch;此外,Google自己的Pathways堆疊,能夠簡化萬級TPU管理。展示的是一塊帶有四個 Ironwood TPU 的系統板。每個晶片(帶有金色蓋子的方形物體)旁邊都有四個長條狀的記憶體模組,這些是高頻寬記憶體(HBM)。這塊板卡是Google為了將四個TPU晶片封裝在一起,從而提供極高的算力和記憶體頻寬而設計的。Google不僅在硬體上發力,還展示了一整套針對AI推理最佳化的軟體堆疊,旨在顯著提升效率和降低成本。Google推理堆疊的架構軟體堆疊核心元件主要包括:vLLM:是推理堆疊的核心,它負責管理和最佳化推理工作負載。GKE是Google Cloud上託管的Kubernetes容器服務,類似於內部使用的Borg和Omega控製器。GKE Inference Gateway 是一個新的服務,利用AI注入的智能負載平衡,將推理請求分發到計算引擎池,其目標是減少任務排隊,提高利用率;確定不同部分推理硬體和軟體堆疊的配置是一個艱巨的任務,因此Google建立了 GKE Inference Quickstart 工具,這也是一個新工具,現已普遍可用。Anywhere Cache:這是一個新的快閃記憶體快取服務,可大幅減少延遲和網路成本。它能將Google雲區域內的讀取延遲提高 70%,跨區域延遲提高 96%。Managed Lustre服務是一個高性能檔案系統,用於向 GPU和TPU叢集提供資料。Lohmeyer還展示了另一項名為推測解碼的技術,該技術已被用於提高其Gemini模型的性能,並將其能耗降低了約33倍。總的來說,通過這些軟硬體的協同最佳化,最終能幫助Google雲客戶將推理延遲降低高達 96%,吞吐量提高 40%,並將每個令牌的成本降低多達 30%。Groq:估值超69億美元的推理晶片初創公司除了這些晶片巨頭,AI初創公司——Groq最近的融資也為推理晶片的熱度再加一把燃料。Groq由前GoogleTPU工程師於2016年創立,專攻AI推理晶片。2025年 9 月,Groq 宣佈融資7.5 億美元。這也是AI硬體領域最大的私人融資之一。自2024 年 8 月至 2025 年 9 月,Groq的估值已經從28億美元躍升至 69 億美元。而在2021 年,在老虎環球基金領投的一輪融資後,Groq 的估值略高於 10 億美元。此次融資由 Disruptive 領投,三星和思科也加入了這一輪融資。此外之前投資者D1 Capital、Altimeter 和其他之前支援過Groq 的公司也加入了進來。投資者的廣泛性(從金融巨頭到科技公司)凸顯了人們對Groq的技術和市場方向的廣泛信心。Groq表示,新資金將用於加大晶片產量,計畫到2025年第一季度部署超過108,000 個 LPU(14 奈米代),以滿足需求。該公司還一直在投資人才,最近任命Stuart Pann(前英特爾員工)為首席營運官,甚至聘請Yann LeCun(Meta 的首席 AI 科學家)擔任技術顧問。除了風險投資,Groq的資金還因訂單而增加。2025年 2 月,Groq從沙烏地阿拉伯獲得了 15 億美元的承諾,用於在沙烏地阿拉伯資料中心部署Groq的推理晶片;Groq 還成為貝爾加拿大 AI Fabric(一個橫跨六個資料中心(計畫容量為 500 兆瓦)的國家 AI 雲網路)的獨家推理提供商,Groq 晶片將於 2025 年為首批站點提供支援,貝爾選擇Groq作為其主權人工智慧基礎設施的獨家推理合作夥伴,理由是Groq比其他處理器“推理性能更快,而且成本低得多”。Groq 的晶片被稱為語言處理單元 (LPU),採用新穎的“張量流”架構。它們採用單個大核心,配備片上記憶體和確定性、軟體調度的資料流,這與 GPU 的多核、基於快取的設計不同。這使得延遲比領先的 GPU競爭對手低10倍,並且通過將資料保留在片上,記憶體頻寬優勢高達10 倍——非常適合即時AI推理。寫在最後從晶片巨頭的重磅發佈,到初創公司的估值飆升,種種跡象表明,AI的下半場——推理,已經進入了全面競爭的時代。這場競賽的焦點不再僅僅是原始算力的比拚,更是對成本、能效、軟體生態和應用場景的綜合較量。可以說,當大模型從實驗室走向千家萬戶,當AI從概念變為日常應用,誰能提供更高效、更經濟、更靈活的推理解決方案,誰就將最終掌握AI時代的鑰匙。這場沒有硝煙的戰爭才剛剛拉開序幕,未來的AI世界,將由這些推理晶片的角逐結果來定義。 (半導體行業觀察)
黃仁勳最新訪談:AI推理要爆發10億倍,OpenAI將成下個兆巨頭
“我認為OpenAI很可能成為下一家兆美元等級的超大規模公司(multi-trillion dollar hyper scale company)。”黃仁勳Jensen Huang在最新的一期BG2播客中回應了外界對輝達投資OpenAI的質疑。這期長達近兩個小時的訪談,涵蓋了從輝達的護城河、輝達與OpenAI的合作,到H1-B簽證焦點、中美AI競爭格局,從技術發展趨勢到政策制定建議的方方面面。主持人談到距離上次黃仁勳做客BG2播客已經過去一年多時間,Jensen說,“在AI時間裡,這已經大約一百年了”。這一年中,AI行業經歷了從單純預訓練到推理時代的根本性轉變,輝達也從一家晶片公司進化為全球AI基礎設施的核心架構師。(BG2是知名投資人Brand Gerstner和Bill Gurley共同主持的雙周科技投資播客,專注於科技、市場、投資等話題的前沿討論。Key Points1. AI從"記憶答案"進化為"思考答案",推理計算需求將爆發十億倍增長:現在的AI不再是一次性推理,而是在回答前進行思考、研究、驗證,這種根本性轉變將推動算力需求呈指數級增長。2. OpenAI很可能成為下一個兆美元超大規模公司,NVIDIA的投資是歷史性機遇:黃仁勳明確表示OpenAI將發展成類似Meta、Google的超大規模公司,NVIDIA百億投資是基於深度瞭解的戰略佈局。3. 通用計算時代徹底結束,全球數兆美元IT基礎設施必須向AI加速計算轉型: 從CPU到GPU的轉換不可逆轉,這個轉換過程本身就創造了巨大的市場機遇,遠超當前AI新增需求。4. NVIDIA已從晶片公司進化為AI基礎設施公司,年度發佈節奏建構了不可超越的技術護城河: 通過極致協同設計,NVIDIA每年同時革新CPU、GPU、網路晶片等全端技術,實現30倍性能提升,競爭對手難以追趕。5. 美國應通過開放競爭而非保護主義維持AI領導地位,人才流失是國家安全的最大威脅: 黃仁勳警告稱,中國頂尖AI人才來美比例從90%跌至10-15%,這是"未來成功的早期指標"出現危險訊號。1AI三大拓展定律:算力需求的指數級增長如果說過去的AI只是一個擁有超強記憶的學生,那麼現在的AI已經學會了思考。Jensen指出,我們已經從單一的預訓練擴展定律進化到了三大擴展定律時代:- 預訓練擴展定律:傳統的大規模資料訓練- 後訓練擴展定律:AI通過反覆練習直到掌握技能- 推理擴展定律:AI在回答前進行思考,質量與思考時間成正比"現在訓練和推理已經在強化學習中融為一體,AI不再是語言模型,而是語言模型的系統,它們並行運行,設計多模態和多種工具使用,進行研究。"這一轉變意味著算力需求的根本性變化。過去的AI是"一次性推理"——記住答案並回答。現在的AI需要"思考"——在回答前進行研究、檢查事實、學習更多內容。這種變化將推理計算需求推向了十億倍的增長軌道。2OpenAI-Stargate:重新定義AI基礎設施合作在談到與OpenAI的Stargate項目時,Jensen透露了一個重要判斷:"OpenAI很可能成為下一個兆美元級的超大規模公司。"Stargate核心資料投資規模:1000億美元建設容量:10吉瓦潛在收入:4000億美元(如全部採用輝達系統)這個合作項目包含三個層面:- 繼續與微軟Azure的合作建設- 與OCI、軟銀的5-7千兆瓦項目,Core Weave相關項目- 直接幫助OpenAI建設自有AI基礎設施"這是我們首次直接與OpenAI合作,在晶片級、軟體級、系統級、AI工廠級幫助他們成為全面營運的超大規模公司,支援其使用者和計算需求的指數級增長。"Jensen強調這種合作模式的創新性。面對外界對NVIDIA投資OpenAI的質疑,Jensen給出了清晰而有力的回應,認為這是一個千載難逢的投資機會:"如果OpenAI很可能成為下一個兆美元級的超大規模公司,那麼在他們到達那裡之前投資的機會,是我們能想像到的最聰明的投資之一。你必須投資你瞭解的東西,而我們恰好瞭解這個領域。"他還透露了一個有趣的細節:"我唯一的遺憾是他們早期邀請我們投資時,我記得那些對話,我們當時太窮了,投資得不夠,我應該把所有錢都給他們。""我們沒有義務投資,這不是我們投資的必要條件,但他們給了我們投資的機會。這是一件很棒的事情。"顯示了他對OpenAI價值的長期認可,消除了外界對"被迫投資"的猜測。Jensen提到了NVIDIA的投資歷史,投資了XAI,投資了CoreWeave等,甚至Intel,這些成功案例證明了NVIDIA在AI生態投資方面的前瞻性眼光。而OpenAI正經歷兩個指數級增長的疊加:使用者數量指數增長和每次使用的計算量指數增長。前者源於AI能力提升帶來的用例增加,後者源於從一次性推理向思考式推理的轉變。3從晶片公司到AI基礎設施公司的進化面對二十多位華爾街分析師對2027年後增長率的悲觀預測,認為2027年開始持平,增長率為8%,Jensen給出了三個關鍵觀點:1. 通用計算向加速計算的不可逆轉換"通用計算已經結束,未來是加速計算和AI計算。"全球數兆美元的計算基礎設施需要更新換代,這本身就是一個巨大的市場機會。2. 超大規模計算的AI化改造Meta、Google、字節跳動、亞馬遜等公司的傳統業務(搜尋、推薦引擎、購物)正在從CPU驅動轉向GPU驅動的AI系統。"你無法在沒有AI的情況下做TikTok,無法在沒有AI的情況下做YouTube短影片。"3. 人工智慧對全球GDP的增強效應Jensen提出一個資料,人類智能佔世界GDP的65%,AI的新應用不斷湧現,如AI超級電腦和工廠將生成token來增強人類智能,這將對全球經濟產生巨大影響,為全球GDP帶來顯著增長,同時也帶動相關能源等基礎設施行業的發展。Jensen提出了一個經濟學假設:如果僱傭一個10萬美元的員工,再配備1萬美元的AI助手,讓員工效率提升2-3倍,任何公司都會這樣做。將這個邏輯擴展到全球GDP:人類智能代表約50兆美元的全球GDP,如果用10兆美元的AI基礎設施來增強這50兆美元,那麼每年5兆美元的全球資本支出就是合理的。計算時代的變遷通用計算時代:CPU為王加速計算時代:GPU崛起AI計算時代:全端最佳化同時Jensen也強調了NVIDIA作為AI基礎設施公司的靈活商業策略,不強制客戶購買全套解決方案,二十允許客戶根據需求靈活選擇元件。“我們不要求任何人從我們這裡購買所有東西。我們不要求他們購買全端,可以只買我們的GPU,買別人的CPU和網路裝置,我唯一的要求就是從我們這裡買點小東西就行。”4算力短缺還是泡沫?經濟學視角的分析對於市場上關於"算力過剩"和"泡沫"的擔憂,Jensen給出了清晰的反駁:1. 供應鏈響應需求:NVIDIA處於供應鏈末端,根據客戶需求進行生產。"如果客戶給我訂單,我就生產。我們已經完善了整個供應鏈。"據稱,輝達對於供應鏈會向前看三年來進行準備。2. 持續的供需失衡:每年客戶的預測都被證明是保守的,實際需求總是超出預期,導致NVIDIA一直處於"緊急應對模式"。3. 機會成本論證:在電力受限的環境下,性能更高的晶片能帶來更多收入。即使競爭對手免費提供晶片,客戶仍會選擇NVIDIA,因為在有限的電力條件下,性能差距帶來的收入損失遠超晶片價格差異。5年度發佈節奏:極致協同設計的技術護城河NVIDIA從2024年開始實施年度發佈周期,這不僅是產品策略,更是應對指數級需求增長的必然選擇。為什麼必須年度發佈?- Token生成率呈指數增長- 使用者使用量呈指數增長- 摩爾定律失效,電晶體成本基本不變- 必須通過技術創新而非硬體提升來降低Token生成成本什麼是極致協同設計?"你必須同時最佳化模型、演算法、系統和晶片。"NVIDIA每年同時革新CPU、GPU、網路晶片、擴展技術,並最佳化整個軟體棧。從Hopper到Blackwell實現了30倍性能提升,這是摩爾定律無法企及的進步。"我們改變CPU,革新GPU,改進網路晶片、MVLink擴展技術、Spectrum X擴展技術...這是終極的極致協同設計。"6ASIC挑戰:從晶片競爭到系統競爭面對Google TPU、Amazon Tranium等ASIC的競爭,Jensen提出了三層晶片分類理論:架構晶片(如x86 CPU、ARM CPU、NVIDIA GPU)- 擁有完整生態系統- 複雜技術和豐富IP- 由原廠開發和維護ASIC(專用積體電路)- 適合小規模專門用途- 當市場規模變大時,會轉向客戶自有工具客戶自有工具(如Apple的智慧型手機晶片)- 適合超大規模應用- 避免支付50-60%的毛利率給ASIC供應商"ASIC公司現在面臨的挑戰是,他們3-5年前開始設計時,這個行業還很小而簡單,只涉及一個GPU。但現在這個行業變得龐大而複雜,兩年後規模將完全巨大。"7開放生態與規模優勢:輝達的競爭壁壘在供應鏈方面,NVIDIA與供應商緊密合作,由於其對供應鏈的規劃和承諾,供應商願意為其提供支援,例如提前準備大量的晶圓和DRAM等。同時,NVIDIA的客戶規模龐大,其架構經過驗證,客戶願意下單採購,這種大規模的客戶需求和供應鏈的信任是NVIDIA的競爭優勢之一。NVIDIA擁有豐富的軟體生態,不僅在AI領域,在電腦圖形學、數字生物學、自動駕駛車輛等多個領域都有大量軟體產出,這使得其在深度和極端的程式碼設計方面具有優勢,能夠更好地最佳化整個系統,與競爭對手相比,其生態系統更加豐富和複雜,為產品的性能和功能提供了有力支援。NVIDIA推出MV Fusion技術,甚至與競爭對手Intel合作,體現了開放生態系統的戰略思維。這種合作為雙方都創造了價值:NVIDIA成為Intel的大客戶,Intel為NVIDIA開啟了更大的市場機會。這種開放策略的核心邏輯是:未來的AI工廠將是分佈式的,NVIDIA開源了Dynamo(分佈式AI工作負載編排),允許合作夥伴插入其優秀的產品元件。有趣的是,與此同時,Jensen也高度肯定了Elon Musk,認為後者也極有可能第一個實現吉瓦的資料中心,因為Elon Musk個人本身就是一個“大型GPT、超級電腦和終極GPU”。8主權AI:全球AI基礎設施的必然需求Jensen將AI基礎設施與能源、通訊基礎設施等同,認為每個國家都需要發展主權AI能力。為什麼需要主權AI?- AI中需要編碼國家的歷史、文化、價值觀- 不僅需要語言模型,還需要工業模型、製造模型、國家安全模型-"沒有人需要原子彈,但每個人都需要AI"推薦的發展路徑:Jensen建議各國既要使用OpenAI、Gemini、Grok等全球AI服務,也要投入資源學習建構自己的AI能力。這不是零和遊戲,而是互補發展。美國AI戰略:開放競爭vs保護主義在談到中美AI競爭時,Jensen表達了明確的立場:通過開放競爭而非保護主義來維持美國AI領導地位。同時強調,限制美國科技公司在中國競爭,實際上是"單方面繳械",這讓華為等公司在中國市場獲得壟斷利潤,反而加速了它們的全球擴張。對中國技術實力的客觀評估:反駁"中國無法製造AI晶片"、"中國無法製造"、"中國落後我們幾年"等論調。"如果說有一件事他們能做到的話,那就是製造。他們只比我們落後納秒級時間。"Jensen坦率地承認中國AI產業的實力:-人才優勢:人才優勢:擁有世界上最好的STEM學校畢業生-工作文化:996工作制展現的拚搏精神-創業活力:分佈式經濟系統帶來的內部競爭-製造能力:如果說有什麼是中國最擅長的,那就是製造"我們面對的是一個強大的、創新的、飢餓的、快速發展的、監管較少的競爭對手。他們在技術上只比我們落後納秒等級。"9H-1B簽證政策與美國夢作為美國夢的親身實踐者,黃仁勳對人才政策有著深刻的思考。他的個人經歷本身就是一個傳奇:"我的父母沒有錢,把我們送到這裡。我們從零開始,我端過盤子,洗過碗,清潔過廁所,現在我在這裡。這就是美國夢。"對於川普政府將H-1B簽證費用提高到10萬美元的政策,黃仁勳給出了一個平衡的評價:"這是一個很好的開始。我希望這不是終點,但我認為這是一個很好的開始。它至少消除了H-1B的濫用,這是一個好的開始。"但他也表達了深層擔憂:“美國夢”品牌的獨特性正在面臨挑戰。他透露一個資料,三年前90%的中國頂尖AI研究人員希望來美國工作,現在這個比例下降到了10-15%。"這是未來問題的早期指標。聰明人渴望來美國以及聰明學生渴望留下,這些都是我稱之為KPI的東西——未來成功的早期指標。"他辯證的說:“可以跟中國競爭,但不要對中國人強硬。(It's okay to be competitive with China, but not be tough with Chinese.)“102030年代的世界:20000年進步的壓縮引用未來學家Ray Kurzweil的觀點,Jensen認為21世紀我們將經歷相當於20000年的進步。五年內的確定趨勢:- 個人AI伴侶:每個人都將擁有自己的R2-D2,記住關於你的一切並陪伴你、指導你- 個人云端GPU:80億人對應80億個GPU,每個人都有為自己定製的模型- 數字孿生:在醫療保健領域建立個人數字孿生,預測健康狀況和疾病這次訪談揭示了NVIDIA從晶片公司向AI基礎設施公司轉型的深層邏輯。如何應對指數級變化?黃仁勳用了一個生動的比喻:"如果有一列火車越來越快,呈指數級加速,你唯一需要做的就是上車。一旦上車,你會在路上解決其他一切問題。"不要試圖預測火車會到那裡然後在某個路口等待它——這是不可能的。要在火車還開得相對較慢的時候上車,然後一起呈指數級發展。而我們所有人,都在這列指數級加速的火車上。 (JER學家)
阿里,全村人的希望
從雲端運算,到通義大模型,再到晶片,阿里,全村人的希望。阿里巴巴8月29日晚間發佈了其截至6月的第一財季業績,並宣佈正在開發一款新的AI晶片,引發其美股股價暴漲。市值一夜暴漲約 368億美元。阿里財報表現強勁,第二財季淨利潤高達 431億元人民幣,同比增長 78%,遠超市場預期。新AI晶片大消息,阿里巴巴正在開發一款全新的AI推理晶片,功能比舊款“含光800”更強大,適配更廣泛的AI推理任務。新AI晶片相容性強,新晶片與輝達架構相容,便於使用者遷移程序,降低遷移成本。定位國產替代,晶片不再由台積電代工,而是轉由中國大陸企業代工生產,減少對海外供應鏈的依賴。阿里對商業模式進行創新,阿里巴巴不直接銷售晶片,而是通過阿里雲提供算力租賃服務,推動雲端運算業務增長。市場反應強烈,阿里巴巴美股大漲的同時,晶片巨頭輝達、AMD股價則分別下跌約 3.5%,市場擔憂阿里巴巴新晶片將削弱輝達在中國市場的地位。分析師普遍看好阿里巴巴此次AI晶片佈局,認為其將進一步推動中國科技產業自主化處理程序。阿里巴巴計畫未來三年投入 3800億元人民幣(約530億美元)用於AI與雲基礎設施建設。阿里巴巴此次AI晶片的發佈,不僅體現了其在AI領域的技術突破,也顯著提振了投資者信心,推動股價創下近兩年最大單日漲幅。 (壹號講獅)