#華為晶片
一文讀懂DeepSeek V4:1.6兆參數、百萬上下文、華為晶片
4月24日消息,DeepSeek V4預覽版官宣上線。根據DeepSeek的官方介紹,V4系列包含兩個MoE模型:DeepSeek-V4-Pro總參數1.6T、啟動參數49B,DeepSeek-V4-Flash總參數 284B、啟動參數13B,兩者均原生支援100萬token上下文。DeepSeek創始人梁文鋒。圖片經過AI處理在1M上下文設定下,V4-Pro的單token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更極端,分別壓到10%和7%。DeepSeek自己給這代模型的定位是“preview version”,官方在報告中明確表示,V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro,“發展軌跡大約滯後前沿閉源模型3至6個月”。換句話說,V4預覽版是把長上下文成本重構,為下一階段test-time scaling和長程任務鋪路的基礎設施發佈,沒有強調能力上的跨越升級。01. 兩款模型、三檔推理:V4預覽版到底是什麼?根據DeepSeek的官方介紹,V4系列包含兩個MoE模型:DeepSeek-V4-Pro總參數1.6T、啟動參數49B,DeepSeek-V4-Flash總參數284B、啟動參數13B,兩者均原生支援100萬token 上下文。真正值得關注的是成本曲線。在1M token的上下文設定下,V4-Pro的單token推理FLOPs 只有V3.2的27%,KV Cache只有 10%;V4-Flash更極端,分別壓到10%和7%。換句話說,上下文從V3.2的128K擴到V4的1M,理論上放大了近8倍,但單token算力需求反而下降了。API價格沿襲了DeepSeek一貫的“打穿底”思路。V4-Pro每百萬token輸入1元(快取命中)或 12元(快取未命中),輸出24元;V4-Flash分別為0.2元、1元、2元。每款模型都提供三檔推理強度:Non-think(直出)、Think High(常規深度思考)、Think Max(在 system prompt 裡注入強指令、把上下文和輸出長度拉滿)。Max模式是為了榨出模型的能力上限——V4-Pro-Max在HLE測試中從Think High的34.5分升到 37.7分,Apex Shortlist 測試中從85.5升到90.2,代價是輸出token翻倍。根據DeepSeek披露的詳細基準測試資料,在知識與推理類測試中,DeepSeek-V4-Pro-Max 在Apex Shortlist(90.2%)和 Codeforces(Rating 3206)兩項硬核推理 / 程式設計任務中拔得頭籌,展現了極強的邏輯與演算法能力;而 Gemini-3.1-Pro-High在 SimpleQA Verified(75.6%)中領先,Claude 和GPT則在各項目中互有勝負,整體差距不大。在智能體能力相關的測試中,四款模型在SWE Verified任務上打成平手(均達到80.6%),但 DeepSeek在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)兩項任務上同樣表現突出,體現了在複雜指令執行與工具呼叫場景下的優勢。DeepSeek表示,相比前代模型,DeepSeek-V4-Pro的Agent能力顯著增強。“使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與Opus 4.6思考模式存在一定差距。”DeepSeek官方強調,基於豐富的世界知識:V4-Pro在世界知識測評中,大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1——Gemini-3.1-Pro-High在MMLU-Pro(91.0)、SimpleQA-Verified(75.6%)、GPQA Diamond(94.3%)等通用知識問答中領先。另外,在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優異成績,DeepSeek將其稱之為“世界級的推理性能”。定位為經濟性模型的V4 Flash在世界知識儲備方面比DeepSeek-V4-Pro稍遜一籌,但也展現出了接近的推理能力。而由於模型參數和啟動更小,相較之下V4-Flash能夠提供更加快捷、經濟的API服務。在Agent測評中,DeepSeek-V4-Flash在簡單任務上與DeepSeek-V4-Pro旗鼓相當,但在高難度任務上仍有差距。02. 重寫注意力機制:“先壓縮再挑著看”V4最核心的技術改動在注意力層。傳統Transformer的注意力機制,每個token要和前面所有token都算一遍相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,是100倍,這是長上下文一直跑不起來的根本原因。V4的做法是把注意力拆成兩種,交替疊用。一種叫CSA(壓縮稀疏注意力),它先把每4個token的KV快取合併成一條摘要,再讓每個query只在這些摘要裡挑出最相關的top-k條去算注意力。相當於既壓縮了“要看的內容”,又只挑“值得看的”去算。另一種叫HCA(重壓縮注意力),它的壓縮率更激進,把每128個token合併成一條,但對剩下的摘要做稠密注意力,不做稀疏挑選。兩種交替疊起來,再加一個滑動窗口分支處理“離得近的token之間的細節依賴”。這是一套“粗粒度+細粒度、稀疏+稠密”的組合拳。把這套方案和DeepSeek過去兩年的技術脈絡連起來看,變化就清晰了:V2、V3走的是參數稀疏化——總參數很大,但每token只啟動一小部分專家;V4在此之外又開了一條上下文稀疏化的路——KV壓縮、top-k選擇、分層壓縮率。這是DeepSeek第一次把“稀疏化”的刀動到Transformer的核心結構裡。除了注意力層,V4還有兩處此前版本沒動過的改造。一是把傳統殘差連接升級為mHC(流形約束超連接),通過數學約束讓深層網路的前向和反向傳播更穩定;二是用Muon最佳化器替代大部分模組原本用的AdamW,收斂更快、訓練更穩。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。DeepSeek-V4 和 DeepSeek-V3.2 的計算量和視訊記憶體容量隨上下文長度的變化03. 後訓練換範式:把一堆專家“蒸餾”成一個模型?比架構改動更值得注意的是後訓練方法的切換。V3.2用的是“混合RL”,一次性用強化學習最佳化多個目標。V4換成了“分化再統一”的兩步走:第一步,針對數學、程式碼、Agent、指令跟隨等不同領域,每個領域單獨訓練一個專家模型。這些專家先用該領域的高品質資料做監督微調,再用GRPO演算法做強化學習,每個專家都在自己的細分賽道上跑到最優。第二步,用一種叫On-Policy Distillation(OPD,在策略蒸餾)的方法,把十多個領域專家“合成”回一個統一的學生模型。學生自己生成回答,然後對每個回答,去匹配“最懂這個問題”的專家的輸出分佈,通過logit級對齊,把能力吸收進來。你可以講這種做法理解為,把一堆尖子生蒸餾了。這套流程的工程難度在於:同時載入十多個兆參數級的教師模型做線上推理不現實。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存,只快取每個教師最後一層的hidden state,訓練時按教師索引排序樣本,保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。換個說法,V4的能力不再靠一個模型從頭學,而是先讓不同專家在自己的賽道跑到頂,再把它們收編進同一套權重裡。這種思路繞開了傳統“混合 RL”容易導致的能力互相干擾問題。04. Agent能力最佳化DeepSeek-V4針對Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent產品進行了適配和最佳化,在程式碼任務、文件生成任務等方面表現均有提升。DeepSeek自述V4-Pro的Agent能力“優於Sonnet 4.5,交付質量接近Opus 4.5非思考模式,但仍與Opus 4.6思考模式存在一定差距”。值得注意的是,V4在Agent方向做了幾處專項最佳化:後訓練階段把Agent作為與數學、程式碼並列的獨立專家方向單獨訓練;工具呼叫格式從JSON換成帶特殊token的XML結構,用來降低轉義錯誤;跨輪次推理痕跡在工具呼叫場景下完整保留,不再像V3.2那樣每輪清空;此外DeepSeek自建了一套名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,用來支撐Agent強化學習訓練和評測。下圖為V4-Pro在Agent框架下生成的PPT內頁示例:05. 昇騰在等V4,V4也在等昇騰比起技術本身,V4這次發佈更受關注的還有與華為昇騰的協同。V4技術報告第3.1節專門寫了一句:“我們在輝達GPU和華為昇騰NPU兩個平台上均驗證了細粒度EP(專家平行)方案。”這是DeepSeek官方第一次在正式文件中把華為昇騰和輝達並列寫進硬體驗證清單。報告同時披露,V4的MoE專家權重和稀疏注意力索引器都採用FP4精度,FP4(mxFP4)恰好是華為3月發佈的昇騰950PR晶片的原生支援精度。華為官網後續在全聯接大會 2025 的主題演講中確認,昇騰950系列新增支援 MXFP4 等低精度格式,其中950PR面向Prefill和推薦場景,並採用華為自研 HiBL 1.0,容量128GB,頻寬1.6TB/s。另外,面向訓練場景的950DT計畫今年四季度推出。DeepSeek在官宣文章中還表示:“預計下半年昇騰950超節點批次上市並部署之後,Pro版本的價格也會大幅度下調。 (騰訊科技)
聯手華為!DeepSeek V4改寫中國AI底座!
DeepSeek V4發佈即刷屏!成本暴降,百萬上下文,Agent增強,聯手華為、寒武紀適配中國國產算力……它正在告訴市場:大模型競爭已經不再只是榜單競爭,而是開始進入更殘酷的成本效率競爭、算力適配競爭和生態入口競爭。V4真的來了4月24日DeepSeek發佈兩個最新模型版本:DeepSeek-V4-Pro和DeepSeek-V4-Flash。體驗地址:chat.deepseek.com或DeepSeek官方APPAPI文件:https://api-docs.deepseek.com/zh-cn/guides/thinking_mode開源連結https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf根據DeepSeek官方介紹,V4-Pro採用MoE架構,總參數規模為1.6T,啟動參數49B;V4-Flash總參數284B,啟動參數13B。兩個版本都支援100萬token上下文。這個組合很有意思:Pro負責沖高,Flash負責走量。一個承擔能力天花板,一個承擔規模化呼叫入口。這說明DeepSeek並不是簡單地把模型繼續做大,而是在開始拆分不同的商業場景。對複雜推理、程式碼、Agent任務、長文件處理,可以用Pro;對高頻呼叫、低成本接入、日常應用,可以用Flash。這套打法背後有一個很清晰的判斷:未來大模型不會只有一個“最強模型”包打天下,而會形成分層呼叫體系。我們嘗試用pro模式,搭建了一個給使用者抽獎的大轉盤H5,全程就5分鐘直接可用:低成本+高品質,才是未來企業正在需要的。畢竟企業真正需要的,不是每一次請求都呼叫最貴、最強的模型,而是在不同任務之間找到能力、成本和響應速度的平衡點。DeepSeek開始把模型做成一組可調度、可分層、可商業化組合的AI基礎設施。成本暴降73%在100萬token上下文設定下,DeepSeek-V4-Pro相比DeepSeek-V3.2,單token推理FLOPs只需要27%,KV Cache只需要10%。換句話說,也就是長上下文推理中的計算量壓力大幅下降;KV Cache只剩10%,意味著視訊記憶體和快取壓力也被明顯壓縮。過去大家討論長上下文,很容易只看“能不能放進去”,100萬token聽起來很震撼,但真正的問題不是能不能塞進去,而是塞進去之後還能不能高效地算、穩定地跑、便宜地用。上下文越長,推理成本、視訊記憶體佔用、響應延遲都會迅速放大。尤其是在企業場景裡,模型需要讀合同、讀程式碼庫、讀制度檔案、讀會議紀要、讀歷史工單。一次任務不只是問一句話,而是連續讀取、理解、規劃、執行、修正。如果長上下文成本下不來,Agent就只能停留在演示視訊裡。所以V4這次主攻的就是在100萬token場景下繼續壓低計算壓力。畢竟模型能力越強,呼叫越頻繁,成本控制越重要。AI不再只是“能不能用”的問題,而是“能不能每天用、多人用、長期用、低成本用”的問題。誰能把單位推理成本壓得更低,誰就更接近真實的規模化入口。讓Agent更像工作系統100萬上下文真正改變的是Agent的工作邊界。DeepSeek API文件顯示,V4-Flash和V4-Pro均支援1M上下文,最大輸出可達384K,並支援JSON Output、Tool Calls、Chat Prefix Completion等能力。這些功能指向的是一個更明確的方向:DeepSeek不是只想做聊天模型,而是在繼續向任務型模型、工具型模型、Agent底座推進。對企業來說,長上下文意味著什麼?對程式碼場景,它可以一次性理解更大範圍的程式碼庫、需求文件和歷史修改記錄。對金融、法律、諮詢場景,它可以處理更長的研報、合同、紀要、制度檔案和客戶材料;對知識庫場景,它可以減少過度切片、錯誤召回、上下文斷裂帶來的資訊損耗;對於Agent場景,它可以讓模型在更長任務鏈條裡保持連續性,不至於走幾步就忘記前因後果……這才是百萬上下文真正的商業含義,它不是讓AI多背一點東西,而是讓企業流程第一次有機會被更完整地交給模型處理。過去很多AI應用看起來很聰明,但一到真實工作流就掉鏈子。原因很簡單:真實工作不是單點問答,而是一組連續任務。而Agent要變成生產系統,首先得具備連續工作的能力。DeepSeek V4這次把長上下文、工具呼叫、結構化輸出放在同一條線上,說明它要搶的已經不是聊天入口,而是企業流程裡的執行入口。聯手華為,底座開始換代路透社4月24日報導稱,華為表示,基於昇騰950 AI晶片的Ascend supernode將全面支援DeepSeek V4系列模型。這是里程碑式的節點,說明中國的模型公司和算力公司開始進入更深層的協同最佳化。過去,無論訓練、推理、部署、工具鏈,“輝達”都處在產業鏈的核心位置。但到了V4這一輪,情況開始發生變化。當模型開始為國產晶片、國產軟體棧、國產叢集做適配,AI競爭就不再只是演算法團隊之間的比賽,而是模型、晶片、編譯器、推理框架、開發者生態之間的系統協同。這才是屬於中國的“強強聯手”!據華為2025年年報顯示,公司實現全球銷售收入8809億元人民幣,淨利潤680億元人民幣;2025年研發投入達到1923億元,佔全年收入21.8%,近十年累計研發投入超過1.382萬億元。華為押注AI計算,不是一次短期熱點跟進,而是長期研發投入和產業生態建設的結果。DeepSeek V4如果能在昇騰體繫上跑得更穩、更便宜、更可規模化,就不只是DeepSeek自己的勝利,也是在驗證國產AI算力能否承接下一代模型應用。未來國產算力公司比拚的不會只是晶片峰值性能,而是誰能更快適配模型,誰的軟體棧更穩定,誰能支撐企業級推理服務,誰能在開發者生態裡站住位置。晶片只是起點;能用起來,才是門檻;能被反覆呼叫,才是價值。價格戰之後是“生態戰”R1時代,DeepSeek已經讓全球AI行業重新審視中國模型的成本效率,到了V4,DeepSeek並沒有放棄這張牌,而是開始把低價策略做得更分層。根據DeepSeek API文件,V4-Flash每百萬token價格為:快取命中輸入0.028美元,快取未命中輸入0.14美元,輸出0.28美元;V4-Pro對應為:快取命中輸入0.145美元,快取未命中輸入1.74美元,輸出3.48美元。V4-Flash繼續承擔低成本入口,適合大量高頻、通用、響應速度敏感的場景;V4-Pro則承擔複雜任務和高價值呼叫,價格明顯更高,但也提供更強的推理、長上下文和Agent能力。這說明DeepSeek已經不是簡單做“價格屠夫”,它正在從單一低價策略,轉向“能力分層+價格分層+場景分層”。當開發者、企業客戶、雲廠商、晶片廠商、Agent平台都圍繞一個模型系列搭建流程時,競爭就不再只是一次API呼叫的價格,而是誰能成為默認選項。AI行業最終比的不是一次發佈時的熱度,而是誰能嵌入更多應用、更多工具、更多工作流。DeepSeek V4的真正野心,可能不是再造一個“最強聊天機器人”,而是成為中國AI應用生態裡的底層介面之一。V4是否可以封神?雖然模型榜單很重要,但企業真正關心的是另外一組指標:延遲、穩定性、並行能力、SLA、工具呼叫精準率、私有化部署成本、安全合規,以及在複雜業務流程中的可控性。再強的模型,如果頻繁超時、呼叫不穩、工具執行出錯,企業仍然很難大規模使用。華為、寒武紀的適配是關鍵進展,但開發者生態、框架相容、叢集調度、推理效率、故障定位、工程工具鏈,都需要長期驗證。真正的產業替代,不是靠一句口號完成的,而是在一次次模型更新、一次次客戶部署、一次次複雜任務運行中磨出來的。所以,V4真正的考場不在發佈當天,而在接下來的幾個月。它能不能穩定服務開發者?能不能支撐複雜Agent任務?能不能在國產算力上跑出足夠好的效率?能不能讓企業願意長期呼叫?這些問題,比“刷屏”更重要。AI下半場,拼的是穩定交付回頭看DeepSeek這一年,它最重要的作用,不只是做出了強模型,而是不斷改變行業的計分方式。過去,大模型行業喜歡比參數、比榜單、比發佈會震撼程度。DeepSeek出現後,大家開始更認真地討論訓練成本、推理成本、開源效率、模型蒸餾、國產算力適配。這一次V4繼續往前推了一步。它讓行業看到,下一階段AI競爭至少有四個核心變數:1.模型能力還要繼續提升:沒有能力,其他都沒有意義。2.推理成本必須繼續下降:成本降不下來,Agent和企業應用都難以規模化。3.上下文和工具呼叫要走向生產級:模型不能只會聊天,還要能理解流程、呼叫工具、完成任務。4.算力底座要形成可替代路徑:如果模型能力始終被單一硬體生態鎖住,中國AI的自主性就始終不完整。這四個變數合在一起,才是DeepSeek V4真正釋放的訊號,它不是一次孤立的模型升級,而是中國AI開始圍繞成本、算力、工具鏈和生態重新組織競爭。畢竟AI下半場,單點突破可能不夠了。真正的競爭會落到更具體的地方:單位推理成本、算力調度效率、軟體棧成熟度、開發者遷移成本、企業長期呼叫意願。DeepSeek V4在提醒整個行業:AI的勝負,正在從“誰更聰明”,變成“誰能把聰明穩定、便宜、可複製地交付出去”。 (AI科技銳評)
DeepSeek-V4上線:使用華為晶片訓練,性能比Gemini差3-6個月,價格優勢明顯
DeepSeek V4,來了!OpenAI GPT 5.5 前腳剛發佈,DeepSeek就亮出了“真傢伙”。就在剛剛,DeepSeek-V4的預覽版本正式上線並同步開源。據官方介紹,DeepSeek-V4擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。模型按大小分為兩個版本:更具產業里程碑意義的是,DeepSeek-V4 從模型設計之初就深度適配國產算力,在華為昇騰晶片生態實測跑通,成為全球首個在國產算力底座上完成訓練與推理的萬億參數級模型,打破對海外晶片與框架的長期依賴。性能比肩頂級閉源模型 價格比Claude便宜21倍官方實測資料顯示,DeepSeek-V4-Pro性能比肩頂級閉源模型。Agent(智能體)能力方面,相比前代模型,DeepSeek-V4-Pro的能力顯著增強。在 Agentic Coding 評測中,V4-Pro 已達到當前開源模型最佳水平,並在其他 Agent 相關評測中同樣表現優異。DeepSeek介紹,目前 DeepSeek-V4 已成為公司內部員工使用的 Agentic Coding 模型,據評測反饋使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與Opus 4.6 思考模式存在一定差距。DeepSeek給出的結論相對克制。在知識與推理任務上,其性能已經超過主流開源模型,並接近Gemini等閉源系統,但仍存在約3到6個月差距。在 agent和程式碼任務上,其表現接近甚至部分超過Claude Sonnet。此外,在數學、STEM、競賽型程式碼的測評中,DeepSeek-V4-Pro超越當前所有已公開評測的開源模型(包括月之暗面的K2.6 Thinking、智譜GLM-5.1 Thinking等),取得了比肩世界頂級閉源模型的優異成績。相較之下,DeepSeek-V4-Flash主打性價比,能夠提供更加快捷、經濟的 API 服務。在 Agent 測評中,DeepSeek-V4-Flash 在簡單任務上與 DeepSeek-V4-Pro 旗鼓相當,但在高難度任務上仍有差距。據悉,V4-Pro 與 V4-Flash 最大上下文長度為 1M,均同時支援非思考模式與思考模式,其中思考模式支援 reasoning_effort 參數設定思考強度(high/max)。對於複雜的 Agent 場景建議使用思考模式,並設定強度為 max。使用價格如下:DeepSeek表示,“受限於高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批次上市後,Pro的價格會大幅下調。”再看看國際友商價格對比,可見DeepSeek的實惠:混合架構解決工程落地痛點 全面適配國產算力大模型處理超長文字的最大痛點,從來不是 “能不能裝下”,而是跑不動、記不住、算不起。隨著傳統注意力機制呈平方級複雜度攀升,百萬Token場景下視訊記憶體與算力直接 “爆炸”,幾乎無法工程落地。DeepSeek-V4 的發佈,標誌著大模型正式走出 “參數競賽”,進入效率優先下一代賽道。從一口氣審計全量程式碼庫、一次性解析千頁合同,到全程記住長時間會議、串聯多輪複雜智能體任務,V4讓AI 真正具備“完整理解、長期記憶、深度推理”的能力,同時把使用成本大幅下拉。這一切得益於DeepSeek業內首創“CSA (壓縮稀疏注意力) + HCA (重度壓縮注意力)”的混合架構。用一套“分級壓縮 + 分級檢索”思路,把效率拉到極致。這一新方法顯著減少了計算複雜度,提升了長上下文處理的效率。具體來看,CSA像給長文字做重點精讀。先把每 4 個Token壓縮成一個資訊塊,再用稀疏檢索只挑最相關的內容,既保留中段細節,又大幅削減計算量,兼顧精準與效率。HCA像給長文字做大綱速讀,把海量資訊濃縮成框架級塊,專門負責全域邏輯。官方資料顯示:1M Token場景下,V4-Pro 僅需 V3.2 的 27% 推理算力、10% KV 快取;Flash 版更是低至 10% 算力、7% 快取。除了混合注意力,V4 還帶來三項關鍵技術革新,構成完整效率革命:mHC 流形約束超連接:升級傳統殘差連接,把訊號傳播約束在穩定流形上,深層不衰減、訓練不炸數值。Muon 最佳化器:替代傳統 AdamW,收斂更快、訓練更穩,完美適配 MoE 大模型與低精度訓練,解決大批次長上下文訓練的抖動難題。全鏈路工程優化:專家平行細粒度通訊重疊、TileLang 核心開發、FP4 量化感知訓練、異構 KV 快取管理,從計算、通訊、儲存全方位降本提速,推理加速最高近2倍。最受大家關心的,是V4這次是否成功全面適配國產算力?報告指出,DeepSeek-V4在輝達 GPU 與華為昇騰 NPU 兩大硬體平台上,對細粒度 EP 最佳化方案完成了全面驗證。相較於性能優異的非融合基線方案,該方案在通用推理負載場景下可實現1.50~1.73 倍的加速比。有業內觀點指出,這代表已經完成華為昇騰平台的適配和實測落地。但目前對外開放原始碼的只有輝達GPU版本,昇騰適配程式碼未開源,屬於閉源適配最佳化。值得一提的是,寒武紀在軟硬一體生態中,已經完成基於 vLLM 推理框架完成對 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的適配,適配程式碼已開源到 GitHub 社區。剩下的,就等DeepSeek-V4的實用表現了。還有DeepSeek的首輪融資最終花落誰家,也還是個謎題。“不誘於譽,不恐於誹,率道而行,端然正己。”DeepSeek官方在文章最後表示,他們將始終秉持長期主義的原則理念,在嘗試與思考中踏實前行,努力向實現 AGI 的目標不斷靠近。” (搜狐科技)
最新播客2萬字實錄|黃仁勳:逼DeepSeek與華為深度繫結,這對美國太可怕了
輝達CEO黃仁勳最近接受了美國知名科技播客主持人德瓦克什·帕特爾(Dwarkesh Patel)的專訪,全面回應了關於公司護城河、GoogleTPU競爭、對華晶片出口等關鍵議題。他強調輝達的護城河已延伸至供應鏈深處,通過上千億美元的採購承諾與台積電及儲存供應商建立了深度繫結。對於TPU競爭,黃仁勳指出Anthropic只是ASIC增長的獨特個例而非趨勢。輝達的加速計算覆蓋了分子動力學、資料處理、流體力學等遠超越AI的廣闊市場,且CUDA的高可程式設計性使其能每年實現10到50倍的性能飛躍。他同時解釋了為何輝達不親自成為超大規模雲服務商。儘管現金流充沛,輝達仍恪守做必須做的事且儘可能少做的原則,選擇通過投資CoreWeave、OpenAI、Anthropic等支援生態系統,而非親自下場與客戶爭利。他同時承認未能更早大規模投資Anthropic是自己的失誤。此外他強調即使AI革命從未發生,輝達仍會憑藉加速計算在物理、化學、資料處理等領域成為一家非常大的公司。關於對華出口,他批評極端的出口管制政策十分幼稚。黃仁勳指出AI算力是晶片與能源的結合,儘管受到EUV光刻機的限制,中國仍擁有龐大的7nm晶片製造能力。考慮到當前主流大模型主要還是在Hopper這一代架構上訓練,中國完全可以通過充沛的電力能源和擴大晶片叢集規模,來彌補單顆晶片的性能差距。不僅如此,中國龐大的AI研究團隊正通過更高效的電腦科學來提升模型性能。黃仁勳以DeepSeek為例警告稱這絕非無關緊要的進步。如果這類優秀的開源模型被迫專門針對華為等本土硬體進行深度最佳化且運行效果最佳,客觀上將直接削弱美國技術堆疊的全球優勢。他認為主動放棄全球第二大市場將迫使中國建立獨立於美國的底層計算架構。隨著這些基於開源標準的技術逐步向全球南方輸出,美國極有可能在長期的AI生態標準競爭中陷入被動。以下為黃仁勳專訪全文:01 控制供應鏈是輝達最大護城河?帕特爾:很多軟體公司估值在跌,因為大家覺得AI會把軟體變成大宗商品。有種看法是輝達把設計檔案發給台積電,台積電造邏輯晶片和開關,再用SK海力士、美光、三星的HBM封裝,然後送到台灣地區的ODM那裡組裝成機架。本質上輝達做的是軟體,硬體是別人造的。如果軟體被商品化,輝達是否也會被商品化?黃仁勳:最終總得有人把電子轉化成Token。這個轉化過程很難被完全商品化。讓一個Token比另一個更有價值就像讓一個分子比另一個分子更有價值一樣,需要大量的技術、工程、科學和發明。這些工作遠未被完全理解也遠未結束。我不認為這種被商品化的情況會發生。但我們會讓這個過程變得更高效。你問這個問題的方式其實就是我對公司的思考模型,輸入是電子且輸出是Token,中間是輝達。我們的原則是做必要的事但儘量少做。所謂儘量少做就是我自己不需要做的就找夥伴合作,讓它成為我生態系統的一部分。今天的輝達可能是擁有最大合作夥伴生態系統的公司,包括上游下游供應鏈、所有電腦公司、應用開發者、模型廠商。AI就像一個五層蛋糕,我們在每一層都有自己的生態。我們儘量少做但我們必須做的那部分極其困難,我不認為那部分會被商品化。另外我也不覺得企業軟體公司會被商品化。現在大多數軟體公司是工具廠商,比如Excel、PowerPoint、Cadence、Synopsys。我的看法和很多人相反,AI智能體的數量會指數級增長且工具使用者的數量也會指數級增長。這些工具的實例數量很可能會暴增。比如Synopsys的設計編譯器會有大量智能體來用它做佈局、設計規則檢查。今天限制我們的是工程師數量,明天每個工程師身後都會有一群智能體。我們能用前所未有的方式探索設計空間,用的還是今天的工具。工具的高頻使用會讓軟體公司飛速發展。現在之所以還沒發生是因為智能體還不夠會用工具。要麼這些軟體公司自己造智能體,要麼智能體會變得足夠好去熟練使用這些工具,我覺得兩者都會發生。帕特爾:我看你最新的檔案裡對代工廠、記憶體、封裝有近1000億美元的採購承諾。半導體研究機構SemiAnalysis認為這個數字會達到2500億美元。一種解讀是輝達的護城河在於鎖定了未來多年的稀缺元件。別人或許有加速器但拿不到記憶體和邏輯晶片。這是否是你們未來幾年的主要護城河?黃仁勳:這是我們能做到而別人很難做到的事情之一。我們向上游做了巨大承諾,有些是顯性的就是你提到的那些。有些是隱性的,比如上游很多投資是我跟那些CEO說我來告訴你這個行業會有多大、為什麼會有這麼大,我推理給你看並讓你看到我所看到的,然後他們才投的。他們為什麼願意為我投資而不是為別人?因為他們知道我有能力買下他們的供應並通過我的下游賣出去。輝達的下游需求和下游供應鏈太龐大了,所以他們願意在上游投資。你看GTC大會,大家驚嘆於它的規模和人氣。那是整個AI社區聚在一起,因為他們需要互相交流與被看見。我讓他們聚在一起,讓下游看到上游且上游看到下游,所有人看到AI的進步。他們還能見到所有AI原生代、所有初創公司。這樣他們就能親眼驗證我告訴他們的事情。我花大量時間,直接或間接地讓供應鏈、合作夥伴、生態系統理解面前的機會。有人說我的主題演講像是在上課且有點折磨人。其實那就是我的用意。我得讓整個供應鏈、上下游、生態系統理解即將發生什麼、為什麼發生、何時發生、規模多大,並且能像我一樣系統性地思考。關於護城河我們其實是在為未來提前佈局。如果我們未來幾年真的成長到兆美元規模,到那時自然有能力搭建與之匹配的供應鏈。但前提是沒有我們今天的業務體量和影響力也沒有我們業務的高速流轉,就像現金流一樣供應鏈也有自己的流轉和周轉速度。如果業務周轉慢沒有人會願意為一個空架子搭建供應鏈。我們今天能維持這樣的規模,根本原因在於下游需求極其旺盛。當他們親眼看到、聽到、意識到這一切正在真實發生,才讓我們得以在現有規模下做成現在這些事。帕特爾:我想具體瞭解一下上游能否跟得上。你們連續多年收入翻倍,每年向世界提供的算力增長超過兩倍。黃仁勳:在這個規模上還能翻倍確實很驚人。帕特爾:但你看邏輯晶片。你們是台積電N3節點的最大客戶也是N2節點的最大客戶之一。SemiAnalysis發現今年AI會佔N3產能的60%,明年到86%。如果你已經佔了大頭怎麼翻倍?年復一年地翻倍?我們是否已經進入一個階段,即AI算力增速必須因為上游限制而放緩?你看到解決辦法了嗎?歸根到底我們怎麼才能年復一年地把晶圓廠產能也翻一倍?黃仁勳:在任何一個時間點,瞬時需求都可能大於全球上下游的總供應。甚至可能被水管工數量限制,這確實發生過。帕特爾:水管工應該被邀請參加明年的GTC。黃仁勳:好主意。但這其實是個好現象。你希望一個行業的瞬時需求大於總供應,反過來就不太好了。如果某個元件缺口太大,整個行業會蜂擁去解決。你看現在已經沒太多人討論CoWoS了。因為過去兩年我們拚命解決這個問題現在情況已經不錯了。台積電現在知道CoWoS的供應必須跟得上邏輯和記憶體的需求。他們正在以和擴展邏輯同樣的速度擴展CoWoS和未來封裝技術。這非常好,因為CoWoS和HBM記憶體以前是比較小眾的,現在它們成了主流計算技術。我們現在能影響更廣泛的供應鏈了。AI革命剛開始時我說的這些話五年前就說過了。有人相信並投資了,比如美光CEO桑傑·梅赫羅特拉(Sanjay Mehrotra)及其團隊。我清楚記得那次會議,我精準地說明了會發生什麼、為什麼發生以及今天的狀況。他們真的加倍投入了。我們在LPDDR和HBM記憶體上合作,他們大力投資結果取得了巨大的成功。有些人來得晚一些但現在都來了。每個瓶頸都會得到大量關注。我們現在提前幾年就開始預判瓶頸。比如過去幾年我們在Lumentum、Coherent和矽光生態系統上的投資,重塑了供應鏈。我們圍繞台積電建立了整個供應鏈並和他們合作開發矽光整合平台COUPE,發明了很多技術並把專利授權給供應鏈保持開放。我們通過發明新技術、新流程、新測試裝置比如雙面探測、投資公司幫他們擴產來增強供應鏈。我們在努力塑造生態系統,讓供應鏈能夠支撐這個規模。帕特爾:有些瓶頸好像比其他瓶頸容易解決,比如CoWoS擴產。黃仁勳:我們負責克服最難的那個。帕特爾:那個?黃仁勳:水管工和電工。這是我擔心那些末日論者的地方。他們說工作要消失、崗位要完蛋。如果我們阻止人們成為軟體工程師,我們就會耗盡軟體工程師。十年前就有同樣的預言。有些末日論者說無論如何別當放射科醫生,你現在還能在網上看到那些視訊說放射科會是第一個消失的職業,世界再也不需要放射科醫生了。猜猜我們現在缺什麼?放射科醫生。帕特爾:有些東西可以規模化有些則不行,你每年怎麼造出兩倍的邏輯晶片?最終記憶體和邏輯都受限於EUV光刻機。你怎麼年復一年地拿到兩倍的EUV光刻機?黃仁勳:這些產能都是可以快速規模化的,兩三年內就能做到。你只需要向供應鏈發出一個需求訊號。能造一個就能造十個,能造十個就能造一百萬個。這些東西複製起來並不難。帕特爾:你會在供應鏈裡走多遠?會直接去找ASML說三年後輝達要做到年收入兩兆美元,我們需要多得多的EUV光刻機嗎?黃仁勳:有些要直接說,有些間接說。如果能說服台積電,ASML也會被說服。我們要找到關鍵的瓶頸點。但如果台積電被說服了,幾年內你就會有足夠多的EUV。我的觀點是沒有任何瓶頸會持續超過兩三年。與此同時我們還在把計算效率提高10倍、20倍,Hopper到Blackwell是30到50倍。因為CUDA很靈活我們在不斷髮明新演算法、新技術,在增加容量的同時提高效率。這些事情都不讓我擔心。讓我擔心的是我們下游的東西。能源政策阻止能源擴展,而沒有能源你建不了新產業。沒有能源你沒法搞一個新的製造業。我們要讓美國再工業化。我們要把晶片製造、電腦製造、封裝帶回來。我們要造電動汽車、機器人。我們要造AI工廠。沒有能源這些都建不起來,而能源需要很長時間。晶片產能是兩三年能解決的問題。CoWoS產能也是兩三年能解決的問題。02 TPU會打破輝達對AI算力的控制嗎?帕特爾:世界上排名前三的模型裡,有兩個即Claude和Gemini都是在GoogleTPU上訓練的。這對輝達意味著什麼?黃仁勳:我們做的東西很不一樣。輝達做的是加速計算,不只是一個張量處理單元。加速計算可以用在很多地方,涵蓋分子動力學、量子色動力學、資料處理、結構化資料、非結構化資料、流體動力學、粒子物理。除此之外也做AI。加速計算比這廣泛得多。雖然AI是當下的話題且顯然很重要和影響很大,但計算比這寬泛得多。輝達重塑了計算的方式,從通用計算轉向加速計算。我們的市場覆蓋範圍比任何TPU或ASIC都要大得多,我們是唯一一家能加速各種應用的公司。我們有巨大的生態系統,各種框架和演算法都能在輝達上跑。因為我們的電腦設計成讓別人可以操作,所以任何營運商都能買我們的系統。而大部分自建系統你得自己當營運商,因為它們的靈活性不夠導致別人操作不了。因為誰都能搭建並操作我們的系統,所以我們存在於每一個雲裡,包括Google、亞馬遜、Azure以及甲骨文的雲平台。如果你想租給別人用,那你最好有來自很多行業的龐大客戶群做承購方。如果你想自己用,我們當然也能幫你自己營運,就像我們在xAI幫馬斯克那樣。而且我們能讓任何公司、任何行業的營運商都具備能力,你可以給禮來公司建一台用於科學研究和藥物發現的超級電腦,我們可以幫他們營運,用於整個藥物發現和生物科學領域。有一大堆應用是TPU做不了的。輝達的CUDA也是一個很棒的張量處理單元,但它還能處理資料處理的每一個環節、計算、AI等等。我們的市場機會大得多,覆蓋範圍廣得多。因為我們支援現在世界上每一個應用,你可以在任何地方建輝達系統並且知道一定會有客戶。這是一個很不一樣的局面。帕特爾:你們的收入很驚人但不是來自製藥也不是來自量子計算,而是主要來自AI。因為AI這個前所未有的技術正在以史無前例的速度增長。那問題就來了,什麼才是對AI本身最有利的?TPU本質上是一個巨大的脈動陣列,特別擅長做矩陣乘法。GPU則更靈活且適合那些有很多分支判斷或者記憶體訪問不規則的任務。但問題在於AI到底在幹什麼?說白了AI就是一遍又一遍地做那些非常可預測的矩陣乘法。既然如此你為什麼還要在晶片上留出面積給線程束調度器或線程與記憶體體之間的切換這類通用功能呢?這些面積本來可以全部用來做矩陣乘法。而TPU恰恰就是專門針對當下正在爆發的那部分計算需求設計的。你覺得呢?黃仁勳:矩陣乘法是AI的重要部分但不是全部。如果你想出一種新的注意力機制、換一種分解方式、或者發明一個全新的架構即混合狀態空間模型(SSM),你需要一個普遍可程式設計的架構。如果你想做一個融合了擴散模型和自回歸的模型,你需要的也是一個普遍可程式設計的架構。我們能跑你能想到的任何東西。這就是優勢。因為它是可程式設計的,所以發明新演算法要容易得多。發明新演算法的能力才是AI進步這麼快的原因。TPU和其他東西一樣都受摩爾定律影響,每年大概進步25%。要每年實現10倍或100倍的飛躍,唯一的方法是每一年都從根本上改變演算法和計算方式。這就是輝達的根本優勢。Blackwell比Hopper能效高50倍。我第一次說35倍時沒人信。後來有人寫文章說我留了一手實際上是50倍。單靠摩爾定律做不到,我們靠的是新模型比如專家混合模型(MoE),它們被併行化、分解、分佈在整個計算系統裡。如果沒有CUDA也沒有真正深入去寫新核心的能力,這很難做到。這是可程式設計架構和輝達極端協同設計能力的結合。我們甚至可以把一些計算解除安裝到網路結構本身比如NVLink,或者網路裡的Spectrum-X。我們可以同時改變處理器、系統、網路結構、庫和演算法。沒有CUDA我根本不知道從那下手。帕特爾:這引出一個關於輝達客戶的有趣問題。你們60%的收入來自五個超大規模雲廠商。在另一個時代客戶是教授做實驗,他們需要CUDA且用不了別的加速器,他們只需要用CUDA跑PyTorch且一切都最佳化好了。但這些超大規模雲廠商有能力自己寫核心。事實上為了從特定架構裡擠出最後5%的性能,他們必須這麼做。Anthropic和Google主要跑自己的加速器即TPU和Trainium。就連用GPU的OpenAI也有Triton因為他們需要自己的核心。他們不用cuBLAS和NCCL而是有自己的軟體棧也能編譯到其他加速器上。如果你的大部分客戶能且正在做CUDA的替代品,那CUDA在多大程度上還是前沿AI跑在輝達上的關鍵因素?黃仁勳:CUDA是一個豐富的生態系統。如果你想在任何電腦上做開發,首選CUDA是非常明智的。因為生態系統太豐富了,我們支援每一個框架。如果你想寫自訂核心,我們對Triton的貢獻巨大,Triton的後端有大量輝達技術。我們很樂意幫助每一個框架變得更好。框架很多比如Triton、vLLM、SGLang。現在又冒出一堆強化學習框架比如verl和NeMo RL。後訓練和強化學習這塊正在爆炸。所以如果你想基於某個架構做開發選CUDA最有意義,因為你知道它的生態很好。你知道如果出了問題,問題更可能出在你自己的程式碼裡而不是底下那堆積如山的底層系統上。別忘了你面對的是多麼龐大的程式碼規模。當系統不工作時你要問自己是我錯了還是電腦錯了?你當然希望每次都發現是自己錯了,因為只有這樣你才能始終信任電腦。顯然我們自己還有很多bug。但關鍵在於我們的系統已經被無數次檢驗過,你可以放心地在上面建構。這就是我想說的第一點即生態系統的豐富性、可程式設計性和能力。第二點如果你是個開發者,你最想要的是一個裝機基礎。你希望自己的軟體能跑在很多其他電腦上。你不是只為自己寫軟體而是為你所在的叢集或別人的叢集寫,因為你是框架開發者。輝達的CUDA生態系統最終就是它最大的財富。我們現在有數億個GPU在外面,每個雲裡都有。從A10、A100、H100、H200到L系列、P系列以及各種尺寸和各種形狀。如果你是個機器人公司,你希望那個CUDA堆疊能直接在機器人內部運行。我們幾乎無處不在。這個裝機基礎意味著一旦你開發了軟體或模型,它在任何地方都能用。這個價值無可估量。最後我們存在於每一個雲裡,這讓我們真正獨一無二。如果你是個AI公司或開發者,你不確定會和那個雲服務商合作也不知道想把負載跑在那裡。沒關係,我們無處不在包括你自己的機房。生態系統的豐富性、裝機基礎的廣泛性、存在位置的多樣性,這些加在一起讓CUDA價值連城。帕特爾:有道理。但我想問的是這些優勢對你最大的客戶來說到底有多重要?對很多人來說CUDA可能很有價值。但你收入的大頭其實來自那些有能力自己搭建軟體棧的大客戶。特別是如果未來AI進入一些可以用強化學習進行嚴格驗證的領域,那問題就變成了誰能寫出在大型叢集上跑得最快的矩陣乘法和注意力核心?這是一個非常可驗證的最佳化問題。那些超大規模雲廠商完全有能力自己寫這些定製核心。當然輝達的性價比可能還是更好所以他們可能依然會選擇輝達。但這樣一來問題就變成了最後是不是只比誰的硬體規格更好以及每美元能買到的算力和頻寬更多?歷史上輝達靠著CUDA護城河,在AI硬體和軟體上都能保持70%以上的利潤率。但現在的問題是如果你最大的客戶其實有能力繞過這條護城河,你還能維持這麼高的利潤率嗎?黃仁勳:我們分配給這些AI實驗室的工程師數量是驚人的,跟他們一起工作最佳化他們的軟體棧。原因是沒人比我們更懂我們的架構。這些架構不像CPU那麼通用。CPU有點像凱迪拉克且好開和不飆快車,誰都能開得不錯且有巡航控制,一切都很簡單。而輝達的GPU和加速器更像F1賽車。我能想像每個人都能開到160公里時速,但要推到極限需要相當多的專業知識。我們用大量AI來寫核心。我很確定在相當長一段時間內我們仍然會被需要。我們的專業知識常常能讓AI實驗室合作夥伴輕鬆再提升2倍性能。最佳化完一個核心或整個軟體棧後,模型速度提升50%、2倍乃至3倍,這很常見。考慮到他們擁有所有Hopper和Blackwell的叢集規模,這是一個巨大的數字。提升一倍直接等於收入翻倍。輝達的計算堆疊在總擁有成本TCO上是全世界最好的,沒人能比。沒有任何一個平台能向我展示出比我們更好的性能與TCO比。Dylan的InferenceMAX基準測試就擺在那裡,誰都可以用。但TPU不來測且Trainium也不來測。我很鼓勵他們用InferenceMAX來展示自己所謂的超低推理成本。但很難因為沒人願意來。還有MLPerf,我也很想讓Trainium來展示他們一直宣稱的40%優勢。也很想聽他們展示TPU的成本優勢。但在我看來從第一性原理出發他們說的那些優勢完全說不通。所以我認為我們成功的原因很簡單就是我們的TCO太好了。第二你說我們60%的客戶是前五大雲廠商,但這些業務大部分是面向外部的。比如AWS中使用輝達的晶片大部分是給外部客戶而不是內部用。Azure裡的客戶顯然也都是外部的,甲骨文的同樣如此。他們青睞我們是因為我們的影響力大,我們能給他們帶來全世界最優秀的客戶且這些客戶都建在輝達上。而這些公司之所以建在輝達上,是因為我們的影響力和多功能性太強了。所以我認為這個飛輪是裝機基礎、架構的可程式設計性、生態系統的豐富性,再加上世界上有成千上萬家AI公司。如果你是AI初創公司你會選那個架構?你會選最豐富的而我們就是最豐富的,你會選安裝基礎最大的而我們就是最大的,你會選生態最完善的。這就是飛輪。結合以上幾點來看我們的每美元性能最好且客戶的Token成本最低。我們的每瓦性能世界最高,所以如果一個合作夥伴建了一個1吉瓦的資料中心,這個資料中心最好能產出最大量的收入和Token,這直接等於收入。你希望它產出儘可能多的Token來最大化收入,而我們是世界上每瓦Token數最高的架構。另外如果你的目標是出租基礎設施,我們有世界上最多的客戶。這就是飛輪運轉的原因。帕特爾:有意思。我想問題歸根結底是實際的市場結構到底是什麼樣?因為即使有其他公司存在,可能有一個世界裡面成千上萬家AI公司每家都佔大致相等的算力份額。但現實情況是即便通過這五大雲廠商,真正在亞馬遜上用算力的其實是Anthropic、OpenAI以及那些大型基礎實驗室。這些大玩家自己有能力也有資源讓不同的加速器跑起來。如果你說的這些關於性價比和每瓦性能等等都是真的,那為什麼像Anthropic這樣的公司幾天前剛宣佈和博通與Google達成一項涉及多吉瓦的TPU交易,把他們大部分算力放在上面?對Google來說TPU也佔了他們絕大部分算力。所以如果我看這些大型AI公司似乎他們的算力曾經全是輝達現在不是了。我很好奇如果紙面上這些優勢都成立,他們為什麼偏偏選了別的加速器?黃仁勳:Anthropic只是一個特例並不是什麼大趨勢。你可以想一想如果沒有Anthropic這家公司,TPU那來的增長?百分之百是因為Anthropic。同樣如果沒有Anthropic,Trainium又那來的增長?百分之百也是因為Anthropic。這基本上是公開的秘密了。不是什麼ASIC的機會變得很多而是只有一個Anthropic而已。帕特爾:但OpenAI和AMD有交易且他們自己在造Titan加速器。黃仁勳:是的,但我覺得大家都承認他們絕大部分算力還是跑在輝達上。我們仍然會一起做很多工作。我不介意別人用別的東西、嘗試別的東西。如果他們不嘗試怎麼知道我們的有多好?有時候你需要被提醒一下。我們必須不斷贏得我們現在的位置。總有人誇下海口。你看看有多少ASIC項目被取消了。僅僅因為你要造一個ASIC你還得造出比輝達更好的東西這沒那麼容易。實際上這不合理除非輝達一定有什麼缺陷。但我們的規模和速度擺在這裡,我們是世界上唯一一家每年都推出新品的公司且每年都實現巨大飛躍。帕特爾:我猜他們的邏輯是它不需要比輝達更好,只要不比70%差太多就行,因為他們付給你70%的利潤率。黃仁勳:不,別忘了ASIC的利潤率也很高。假設輝達利潤率是70%且ASIC利潤率是65%。你到底省了什麼?帕特爾:你是說像博通那樣的?黃仁勳:對。你得付錢給別人。據我所知ASIC利潤率非常高,他們自己也這麼認為且對他們驚人的ASIC利潤率很自豪。所以你問為什麼。很久以前我們就是沒能力做。當時我沒有深刻意識到做一個像OpenAI、Anthropic這樣的基礎AI實驗室有多難以及他們需要供應商本身的巨額投資。我們當時沒能力投資Anthropic幾十億美元來換取他們用我們的算力。但Google和AWS有能力。他們一開始就投入巨資且作為回報Anthropic用了他們的算力。我們當時就是沒能力。我的失誤是我沒有深刻意識到他們真的別無選擇,沒有風投會投50到100億美元到一個AI實驗室指望它變成Anthropic,這是我的失誤。但即使我當時理解了我也不認為我們有能力那麼做。但我不會再犯同樣的錯誤了。我很樂意投資OpenAI也很樂意幫他們擴展,我相信這是必要的。後來當我有能力時Anthropic來找我們,我很樂意成為投資者且很樂意幫他們擴展。我們當時就是做不到。如果我能讓一切重來,如果當時的輝達有現在這麼大我會非常樂意那麼做。03 輝達為什麼不成為超大規模雲廠商?帕特爾:多年來輝達一直是AI領域賺錢並賺大錢的公司。現在你在投資,比如據報導你們已向OpenAI投了300億美元並向Anthropic投了100億美元。現在他們的估值漲了且我相信還會繼續漲。所以如果這些年來你一直在給他們提供算力且你看到了它的發展方向,而他們一兩年前的價值只有現在的十分之一甚至一年前,而你又有那麼多現金,那要麼輝達自己成為一個基礎實驗室投入巨資去做,要麼在現在這個估值下更早地做你這些交易。而且你有現金。所以為什麼不更早做呢?黃仁勳:我們在力所能及的時候盡快做了且一有能力就盡快做了。如果我能我會更早做。在Anthropic需要我們做的時候我們就是沒能力,那時這不在我們的考慮範圍內。帕特爾:怎麼講?是錢的問題嗎?黃仁勳:是的即投資規模。我們當時從未在公司外部做過投資,更不用說那麼大數額了。我們沒有意識到我們需要這麼做。我一直以為他們可以像所有公司一樣去風投那裡融資。但他們想做的事風投做不到。OpenAI想做的事風投做不到。我現在認識到了但我當時不知道。但這就是他們的天才之處,他們聰明就聰明在這裡。他們當時就意識到必須做那樣的事。我很高興他們做到了。即使這導致Anthropic去找了別人,我仍然很高興它發生了。Anthropic的存在對世界是好事且我為此高興。帕特爾:我想你們仍然在賺很多錢而且每個季度都賺得更多。既然你有這麼多不斷賺來的錢,輝達應該用它做什麼?有一個答案是已經出現了一整套中間商生態系統,把資本支出轉化為這些實驗室的營運支出讓他們可以租算力。因為晶片很貴但它們生命周期裡能賺很多錢,因為AI模型越來越好。它們產生的Token價值在增加但部署成本高。輝達有錢做資本支出。事實上據報導你們正在支援CoreWeave且金額高達63億美元並已經投了20億。輝達為什麼不自己成為一個雲服務商?為什麼不自己成為超大規模雲廠商並自己出租算力?黃仁勳:這是我們公司的理念且我認為是明智的。我們應該做必要的事但儘量少做。意思是說在我們建構計算平台的工作上如果我們不做,我真心相信沒人會做。如果我們不冒我們冒的那些險,如果我們不按我們的方式做NVLink並不建構整個軟體棧,不按我們的方式建立生態系統並不投入20年CUDA並在大部分時間裡虧損,如果我們不做沒人會做。如果我們不建立所有CUDA-X庫使它們面向特定領域,十五年前我們開始做特定領域庫,因為我們意識到如果我們不建立這些特定領域庫,無論是光線追蹤、圖像生成還是早期AI工作、這些模型,或者資料處理、結構化資料處理、向量資料處理,如果我們不建立沒人會做。我完全相信這一點。我們為計算光刻做了一個庫叫cuLitho,如果我們不做沒人會做。所以加速計算之所以能有今天的進步是因為我們做了這些。所以我們應該做那件事且應該全身心投入並全力以赴去做。然而世界上有很多雲,如果我不做總有人會做。所以我們奉行做必要的事但儘量少做的理念,它存在於我們公司的每一天。我做的每一件事都用這個視角來看。就雲而言如果我們不支援CoreWeave存在,這些新雲、這些AI雲就不會存在。如果我們不幫CoreWeave它們就不會存在。如果我們不支援Nscale他們就不會有今天的成就。如果不支援Nebius他們也不會是今天這樣。現在他們做得非常好。這是一種商業模式。我們應該做必要的事且儘量少做。所以我們投資於我們的生態系統因為我希望我的生態系統蓬勃發展。我希望這個架構、AI能夠連接儘可能多的行業、儘可能多的國家,讓整個星球都建立在AI之上並建立在美國技術堆疊之上。這個願景正是我們在追求的。還有一件事,有很多優秀的基礎模型公司且我們儘量投資所有人。這是我們做的另一件事。我們不挑贏家且我們需要支援所有人。這是我們應該做的也是我們的樂趣所在。這對我們的業務至關重要。但我們也不遺餘力地不去挑贏家所以我投了一家就會投所有。帕特爾:你為什麼特意不挑贏家?黃仁勳:首先這不是我們的工作。其次輝達剛起步時有60家3D圖形公司而我們是唯一活下來的。如果你從這60家裡猜誰會成功,輝達會排在最不可能成功名單的首位。這是很久以前的事了。輝達的圖形架構恰恰是錯的且不是有點錯。我們造了一個完全錯的架構,開發者沒法支援它且它永遠不會成功。我們基於良好的第一性原理推理但最終得出了錯誤的解決方案。每個人都會把我們排除在外但我們活下來了。所以我有足夠的謙遜認識到這一點即不要挑贏家。要麼讓他們自己照顧自己,要麼就照顧所有人。帕特爾:有一點我沒明白,你說我們不是因為他們是新雲就優先考慮他們想扶持他們,但你也列舉了一堆新雲說沒有輝達它們就不會存在。這兩件事怎麼相容?黃仁勳:首先他們自己得想存在並且來請求我們幫助。當他們想存在並且有商業計畫、專業知識和熱情時,他們顯然覺得自己有些能力。但如果歸根結底他們需要一些投資來啟動,我們會支援他們。但他們越早啟動飛輪越好。你的問題是我們想不想做融資業務?答案是不想。有人在做融資業務,我們寧願和他們合作而不是自己當融資方。我們的目標是專注於我們做的事且保持商業模式儘可能簡單並支援我們的生態系統。當像OpenAI這樣的組織需要300億美元規模的投資因為他們在IPO之前,而我們深信他們會成為一家不可思議的公司,世界需要他們存在且世界希望他們存在,我希望他們存在並且他們順風順水,讓我們支援他們並讓他們擴展。這些投資我們會做因為他們需要我們。但我們不是想做儘可能多的事而是想做儘可能少的事。帕特爾:這可能是個顯而易見的問題,但我們在GPU短缺的情況下過了好幾年,現在因為模型變好導致短缺還在加劇。黃仁勳:我們確實缺GPU。帕特爾:是的。輝達以分配稀缺配額而聞名,不只看誰出價高而是看我們希望確保這些新雲存在,比如給CoreWeave一些,給Crusoe一些,給Lambda一些。這對輝達有什麼好處?首先你同意這種分化市場的描述嗎?黃仁勳:不同意。你的前提完全錯了。我們對這些事情足夠謹慎且非常謹慎。第一如果你不下採購訂單光說沒用。在收到採購訂單之前我們能做什麼?所以第一件事是我們和每個人努力工作完成預測,因為這些東西要很長時間才能造好且資料中心也要很長時間。我們通過預測等方式來協調供需這是首要任務。第二我們儘量和儘可能多的人做預測但最終你還是得下訂單。也許無論什麼原因你沒下訂單,我能怎麼辦?在某個時間點先到先得。除此之外如果你的資料中心還沒準備好,或者某些元件還沒準備好讓你啟用資料中心,我們可能會先服務別的客戶。這只是為了最大化我們自己工廠的吞吐量且我們可能會做一些調整。除此之外優先順序是先到先得。你得下採購訂單。當然有一些故事。比如這一切始於一篇關於拉里·佩奇和馬斯克跟我吃飯時求取GPU的文章,那從未發生。我們確實吃了飯且是很愉快的一頓飯但他們從未求取GPU。他們只是需要下訂單。一旦下了訂單我們會盡力把產能分配給他們這不複雜。帕特爾:好。所以聽起來有一個佇列,然後根據資料中心是否準備好、何時下採購訂單,你在某個時間拿到貨。但這聽起來仍然不是價高者得。有什麼理由不那樣做?黃仁勳:我們從不那樣做。帕特爾:為什麼不是價高者得?黃仁勳:因為那是不好的商業實踐。你定好價格然後人們決定買不買。我理解晶片行業其他人會在需求高時漲價但我們不那樣做。這從來不是我們的做法。你可以信賴我們。我寧願做個可靠的人並做行業的基石。你不用事後猜測。如果我報了一個價那就是那個價,就這樣。如果需求飆升價格依然穩定。帕特爾:另一方面這就是你們和台積電關係好的原因吧?黃仁勳:是的,輝達和他們做生意快30年了。輝達和台積電沒有簽署法律合同但總有一些粗略的公平。有時我對且有時我錯。有時我拿了好deal且有時我拿了差deal。但總體而言這段關係非常好。我可以完全信任他們並且可以完全依賴他們。你可以信賴輝達的一點是今年的Vera Rubin會不可思議。明年Vera Rubin Ultra會來。後年Feynman會來。再後一年我還沒介紹名字。每一年你都可以信賴我們。你去找世界上任何其他ASIC團隊隨便挑,你能說我可以把全部業務押在你身上且你每年都會為我服務嗎?你能說你的Token成本每年都會下降一個數量級且我可以像相信時鐘一樣相信你嗎?我剛才對台積電說了類似的話。對歷史上任何其他代工廠你都不可能這麼說。但今天你可以對輝達這麼說。你可以每年都信賴我們。如果你想買10億美元的AI工廠沒問題。想買1億美元沒問題。1000萬美元或者只有一個機架都沒問題。或者只有一個顯示卡沒問題。如果你想下1000億美元的訂單也沒問題。我們是當今世界上唯一一家你可以這麼說的公司。我也可以對台積電這麼說。我想買一個或者買十億個都沒問題。我們只需要經過規劃流程以及所有成熟的人會做的事。所以我認為輝達能成為世界AI產業的基石,這個地位我們花了幾十年才達到。這是巨大的承諾和巨大的奉獻。我們公司的穩定性與一致性非常重要。04 是否應該向中國銷售AI晶片?帕特爾:我想問關於中國的問題。我實際上不知道我是否支援向中國賣晶片但我喜歡對嘉賓唱反調。達里歐·阿莫代伊(Dario Amodei)支援出口管制,我問他為什麼美國和中國不能都在資料中心裡擁有一群天才?但既然你站在另一邊我會反過來問你。一種思考方式是Anthropic幾天前發佈了Mythos預覽版。這個模型他們甚至沒有公開發佈,因為他們說它有很強的網路攻擊能力且世界還沒準備好,要等他們把那些零日漏洞修補好。但他們說它發現了所有主流作業系統和每個瀏覽器的成千上萬個高危漏洞。它在OpenBSD裡發現了一個漏洞且那個是專門設計來避免零日漏洞的作業系統,這個漏洞存在了27年。所以如果中國公司、中國實驗室、中國政府能拿到AI晶片,來訓練一個像Claude Mythos這樣有網路攻擊能力的模型並用更多算力跑幾百萬個實例,這是否對美國公司、美國國家安全構成威脅?黃仁勳:首先Mythos是在相當普通的算力上訓練的且算力規模也相當普通,只不過訓練它的是一家非常優秀的公司。它所用的算力類型和數量在中國其實非常充足。你要知道晶片在中國是存在的。他們製造了全球60%以上的主流晶片,這個產業對他們來說非常大。他們擁有世界上最厲害的電腦科學家之一。如你所知幾乎所有AI實驗室裡大部分研究人員都是中國人,佔了全球50%的AI研究人員。所以問題來了,既然他們已經擁有這麼多資產如充足的能源與大量的晶片以及全球近半的AI人才,如果你真的擔心他們,那麼創造一個更安全的世界最好的方式是什麼?去打壓他們把他們變成敵人可能不是最好的答案。他們是競爭對手且我們希望美國贏。但我認為進行對話、進行研究對話可能是最安全的。由於我們目前對中國的態度在這個領域明顯缺失。我們的AI研究人員和他們的AI研究人員交流至關重要。我們雙方都試圖就AI不應該被用來做什麼達成一致,這至關重要。關於在軟體裡找漏洞,當然這正是AI應該做的。它會在很多軟體裡找到漏洞嗎?當然。有很多漏洞。AI軟體裡也有很多漏洞。這正是AI應該做的,我很高興AI達到了一個水平能幫我們提高這麼多生產力。有一件事被低估了,就是圍繞網路安全、AI網路安全、AI安全、AI隱私的生態系統非常豐富。有一整個AI初創公司生態系統在試圖為我們創造那個未來,即一個不可思議的AI智能體周圍有成千上萬個AI智能體在保護它並確保它安全。那個未來一定會到來。認為會有一個AI智能體到處跑而沒人看著這有點瘋狂。我們很清楚這個生態系統需要蓬勃發展。事實證明這個生態系統需要開源且需要開放模型和開放軟體棧,這樣所有AI研究人員與所有厲害的電腦科學家才能去建構同樣強大的AI系統並保證AI的安全。所以我們需要確保的一件事是保持開源生態系統的活力,這不能被忽視。其中很多來自中國且我們不應該扼殺它。關於中國當然我們希望美國擁有儘可能多的算力。我們受限於能源但有很多人在解決這個問題,我們不能讓能源成為國家的瓶頸。但我們也希望世界上所有的AI開發者都在美國技術堆疊上開發,並把AI的進步尤其是開放原始碼的部分貢獻給美國生態系統。建立兩個生態系統將是極其愚蠢的,一個開放原始碼的且只能跑在外國技術堆疊上,一個封閉的且跑在美國技術堆疊上。我認為這對美國將是可怕的後果。帕特爾:資訊量很多,我梳理一下。中國有算力但有些估計說因為他們沒有EUV也就是因為晶片製造出口管制,他們實際能生產的Flops只有美國的十分之一。那麼他們最終能訓練出像Mythos這樣的模型嗎?能。但問題在於因為我們有更多的Flops,美國實驗室能先達到這些能力水平因為Anthropic先達到了。另外就算他們訓練出這樣的模型,大規模部署的能力也很重要。如果你有個網路駭客有一百萬個實例比有一千個危險得多。所以推理算力真的很重要。事實上他們有這麼多優秀的AI研究人員,這恰恰是可怕的地方,因為讓這些工程師研究人員更高效的是什麼?是算力。如果你和美國任何一個AI實驗室聊他們會說限制他們的是算力。DeepSeek創始人、通義千問領導層都說過。他們說他們受限於算力。那麼問題來了,我們讓美國公司因為有更多算力而先達到Mythos等級的能力並讓我們的社會為此做好準備,這不是更好嗎?而中國因為算力少會更晚達到這個水平?黃仁勳:我們的目標當然應該始終是第一個到達也始終擁有更多算力。但要讓你描述的那種結果成立,你必須把情況推到極端也就是他們得完全沒有算力。只要他們還有一些算力,問題就變成了到底需要多少才夠?事實上中國擁有的算力是巨大的。你剛才也說了他們是世界第二大計算市場。如果他們真想集中算力做一件事他們完全有能力做到。帕特爾:但這是真的嗎?有人估計說中芯國際在工藝節點上落後。黃仁勳:他們擁有的能源是驚人的對吧?AI是個平行計算問題不是嗎?為什麼他們不能因為能源幾乎免費就把4倍、10倍的晶片放在一起?他們有這麼多能源。他們有完全空置且完全通電的資料中心。他們的基礎設施容量巨大。如果他們想他們就把更多晶片聚在一起即使是7奈米的。他們製造晶片的能力是世界上最大的之一,半導體行業知道他們壟斷了主流晶片。他們有超額產能且產能過剩。所以認為中國將無法獲得AI晶片的想法完全是胡說八道。當然如果你問我如果全世界根本沒有算力美國會不會遙遙領先?但那不是一個真實場景。他們已經擁有大量算力。你擔心的那個閾值他們已經達到並超過了。所以我認為你誤解了,AI是一個五層蛋糕,最底層就是能源。當你能源充足時它可以彌補晶片的不足。如果你晶片充足它可以彌補能源的不足。例如美國能源稀缺,這就是為什麼輝達必須不斷推進架構並做極端協同設計,以便在晶片運出量少的情況下因為能源太有限而我們的每瓦吞吐量高得離譜。但是如果你的瓦特數完全充足且幾乎是免費的,你會在乎每瓦性能嗎?你會有很多。你可以用舊晶片來做。7奈米晶片基本上就是Hopper。我必須告訴你今天的模型大部分是在Hopper這一代上訓練的。所以7奈米晶片已經足夠好了。能源豐富是他們的優勢。帕特爾:但還有他們能否製造足夠多晶片的問題。黃仁勳:但他們能。證據是什麼?華為剛剛度過了公司歷史上業績最好的一年。帕特爾:他們出貨了多少晶片?黃仁勳:大量。數百萬個,比Anthropic擁有的多得多。帕特爾:問題在於中芯國際能生產多少邏輯晶片以及能生產多少記憶體?黃仁勳:我告訴你實際情況。他們有大量的邏輯晶片也有大量的HBM2記憶體。帕特爾:但如你所知訓練和推理的瓶頸往往是頻寬量。所以如果你用的是HBM2,我不記得具體數字,但和你最新的產品比記憶體頻寬可能差了一個數量級,這非常大。黃仁勳:華為是一家網路公司。帕特爾:但這不能改變你需要EUV來製造最先進HBM的事實。黃仁勳:完全不對。你可以把它們聚在一起就像我們用NVL72聚在一起一樣。他們已經展示了矽光子技術,把所有計算連成一個巨大的超級電腦。你的前提完全錯了。事實是他們的AI發展進展得相當順利。世界上最好的AI研究人員因為他們算力有限,他們也提出極其聰明的演算法。記住我剛才說摩爾定律每年大約進步25%。然而通過優秀的電腦科學我們仍然可以把演算法性能提高10倍。我的意思是優秀的電腦科學才是槓桿。毫無疑問MoE是一個偉大的發明。所有那些令人難以置信的注意力機制減少了計算量。我們必須承認AI的大部分進步來自演算法進步而不僅僅是原始硬體。如果大部分進步來自演算法、電腦科學和程式設計,那告訴我他們的AI研究大軍不是他們的根本優勢?我們看到了。DeepSeek絕不是一個無關緊要的進展。要是那天像DeepSeek這樣的成果先在華為平台上出現,那對我們國家會是非常糟糕的結果。帕特爾:為什麼?因為目前像DeepSeek這樣的模型如果是開放原始碼的,可以在任何加速器上跑。為什麼將來會不是這樣?黃仁勳:假設它針對華為最佳化了且針對他們的架構最佳化了,那就會讓我們的處於劣勢。你描述了一種我認為是好消息的情況。一家公司開發了軟體並開發了一個AI模型且在美國技術堆疊上跑得最好。我認為那是好消息。你把它作為前提說那是壞消息。我來告訴你真正的壞消息即世界上所有的AI模型都是在非美國硬體上開發的並且跑得最好。帕特爾:我想我只是沒看到證據表明存在巨大的差異會阻止你切換加速器。美國的實驗室正在跨所有雲且跨所有加速器跑他們的模型。黃仁勳:我就是證據。你拿一個為輝達最佳化的模型,然後試著在別的東西上跑。帕特爾:但美國的實驗室確實在那麼做。黃仁勳:而且它們跑得並不更好。輝達的成功就是完美的證據。AI模型是在我們的軟體棧上建立的且在我們的軟體棧上跑得最好,這怎麼就不合邏輯了?帕特爾:Anthropic的模型在GPU上跑也在Trainium和TPU上跑。黃仁勳:需要做很多工作才能改過來。但是去全球南方並去中東。開箱即用,如果所有AI模型都在別人的技術堆疊上跑得最好,那你現在就是在提出一個荒謬的主張說這對美國是好事。帕特爾:但我不理解這個論點。假設中國公司先推出了下一個Mythos。他們先在美國軟體裡發現所有安全漏洞,但他們可以在輝達硬體上運行然後擴展到全球南方。這怎麼會是好事?黃仁勳:那不好。所以我們別讓那發生。帕特爾:你為什麼認為這是完全可以替代的,如果你不給他們運算力,它就會被華為完全取代?他們是落後的對吧?他們的晶片比你差。黃仁勳:現在有證據即他們的晶片產業巨大。帕特爾:你可以直接比較一下H200和華為910C的Flops、頻寬或記憶體。華為那款大概只有H200的二分之一到三分之一。黃仁勳:他們用更多的數量來彌補。帕特爾:看來你的論點是他們有所有這些現成的能源對吧?他們需要用晶片來填充。黃仁勳:而且他們擅長製造。帕特爾:我相信最終他們也許能在製造上超過所有人。但眼下這幾年很關鍵。黃仁勳:你說的關鍵幾年具體是那些年?帕特爾:就是接下來的幾年。我們會擁有能發動各種網路攻擊的模型。黃仁勳:在那種情況下如果接下來的幾年是關鍵,那麼我們必須確保世界上所有的AI模型都是在美國技術堆疊上建構的。帕特爾:如果它們是在美國技術堆疊上建構的,那又怎麼防止它們如果它們擁有更先進的能力去發動等同於Mythos的網路攻擊呢?黃仁勳:無論如何都沒有保證。帕特爾:但如果你提早擁有它,我們可以為它做準備。黃仁勳:聽著你為什麼要讓AI產業的一層失去整個市場以便你能讓另一層受益?有五層且每一層都必須成功。最需要成功的那一層是AI應用。你為什麼如此執著於那個AI模型和那一家公司?為了什麼?帕特爾:因為這些模型實現了這些令人難以置信的攻擊能力而且你需要算力來運行它們。黃仁勳:能源、晶片和AI研究人員生態系統使它成為可能。帕特爾:好我們退一步說。中國得自己建出足夠的7奈米產能。別忘了他們現在還卡在7奈米,而你們會往3奈米、2奈米、1.6奈米走比如Feynman那一代。到時候你在用1.6奈米他們還在7奈米。他們只能靠數量來彌補單顆晶片的性能差距。而他們能源充足。你賣給他們越多晶片他們手裡的總算力就越多。黃仁勳:聽著我只是覺得你的說法太絕對了。美國理應領先。美國的算力規模比世界上任何其他地方都高出100倍。美國理應領先。好吧美國現在就領先。輝達打造的是最先進的技術。我們確保美國實驗室最先知道這些技術並最先有機會購買。如果他們錢不夠我們甚至會投資他們。美國理應領先。我們想盡一切辦法確保美國領先。第一點你同意嗎?我們確實正在這麼做。帕特爾:但如果他們的瓶頸是算力,把晶片運到中國怎麼能讓美國保持領先?黃仁勳:不。我們有Vera Rubin給美國。Vera Rubin是給美國的。現在我算不算美國的一部分?你把我算作美國的一部分嗎?帕特爾:算。黃仁勳:那輝達呢?你把輝達算作一家美國公司對吧?第一為什麼我們不能拿出一種更平衡的監管方式讓輝達能在全球取勝,而不是把全球市場拱手讓掉?為什麼要讓美國把世界讓出去?晶片產業是美國生態系統的一部分,是美國技術領導力的一部分,是AI生態系統的一部分也是AI領導力的一部分。為什麼你的政策和你的理念會導向讓美國放棄全球市場中如此巨大的一塊?帕特爾:阿莫代伊曾引用過一句話,他說這就像波音吹噓我們向敵對國家出售核彈但導彈外殼是波音製造的。這在某種程度上支援了美國技術堆疊。從根本上說你在給敵國這種能力。黃仁勳:把AI和你剛才提到的那些東西相提並論是荒唐的。帕特爾:但AI類似於濃縮鈾對吧?它可以有積極用途也可以有消極用途。我們仍然不想把濃縮鈾送到其他國家。黃仁勳:這是一個糟糕的類比且一個不合邏輯的類比。帕特爾:但是如果這些算力可以運行一個能對美國所有軟體進行零日漏洞利用的模型,那它怎麼就不是一種武器呢?黃仁勳:首先解決這個問題的方法是與研究人員、與中國、與所有國家進行對話,確保人們不以那種方式使用技術。這是必鬚髮生的對話。第二點我們還需要確保美國領先,Vera Rubin、Blackwell在美國大量供應並堆積如山。顯然我們的結果會顯示這一點。我們有大量的算力。我們這裡有很棒的AI研究人員。然而我們也必須認識到AI不僅僅是一個模型。AI是一個五層蛋糕。AI產業在每一層都很重要且我們希望美國在每一層都獲勝包括晶片層。放棄整個市場不會讓美國長期在晶片層、在計算堆疊中贏得技術競賽,這就是事實。帕特爾:我想關鍵問題是現在向中國賣晶片怎麼能幫我們在長期獲勝?你看特斯拉向中國賣了很久的電動汽車,iPhone也在中國賣得很好。但這些並沒有把中國鎖定在美國的技術生態裡。他們照樣做出了自己的電動汽車且現在在全球佔主導。智慧型手機也是一樣。黃仁勳:當我們今天開始對話時你承認輝達的地位非常不同。你用了護城河這樣的詞。對我們公司來說最重要的事情是我們生態系統的豐富性,這關乎開發者。50%的AI開發者在中國。美國不應該放棄這一點。帕特爾:但我們美國有很多輝達開發者,這並不能阻止美國實驗室將來也能夠使用其他加速器。事實上現在他們也在使用其他加速器這很好。我不明白為什麼在中國情況不會是這樣,如果你向他們出售輝達晶片就像Google可以使用TPU和輝達一樣。黃仁勳:我們得持續創新。你可能也知道我們的份額在增長而不是在縮小。你剛才隱含了一個前提即就算我們在中國市場競爭也遲早會輸掉。我不是那種一醒來就覺得自己會輸的人。這種輸家心態和輸家前提對我來說毫無意義。我們不是在造汽車。汽車今天買這個品牌明天換另一個很容易。計算不是這樣。x86能活到今天是有原因的且ARM那麼有粘性也是有原因的。這些生態系統很難替代。換掉它們需要花大量時間和精力且大多數人根本不願意這麼做。所以我們的任務就是繼續培育這個生態系統並不斷推進技術,這樣我們才能在市場上競爭。你基於遲早會輸這個前提就說我們應該放棄一個市場。我無法認同這種邏輯。這沒有道理。我不認為美國是輸家。我們這個行業不是輸家。關鍵是你走向了極端。你的論點從極端開始認為如果我們在關鍵時刻給他們任何算力我們就會失去一切這很幼稚。帕特爾:讓我為自己闡述一下我的論點。我的想法不是說存在某個關鍵的計算閾值而是任何邊際算力都是有幫助的。所以如果你有更多的算力你可以訓練一個更好的模型。黃仁勳:我只想讓你承認對美國技術產業的任何邊際銷售都是有益的。帕特爾:如果跑在這些晶片上的AI模型具備網路攻擊能力,或者這些晶片被用來訓練這類模型並運行更多攻擊實例,那它雖然不是核武器但確實啟用了一種武器。黃仁勳:按你這個邏輯你不如把它用到微處理器和DRAM上。你甚至可以用到電上。帕特爾:但事實上我們確實對製造最先進DRAM的相關技術實施了出口管制。我們對中國製造晶片的各種東西都有各種出口管制。黃仁勳:我們向中國銷售大量的DRAM和CPU且我認為這是正確的。帕特爾:我想這回到了根本問題即AI是否不同?如果你擁有那種能在軟體中發現零日漏洞的技術,我們是否希望最大限度地減少中國首先達到並廣泛部署它的能力?黃仁勳:我們希望美國領先且我們可以控制這一點。帕特爾:如果晶片已經在那裡且他們正用它們來訓練那個模型我們如何控制?黃仁勳:我們有大量的算力。我們有大量的AI研究人員。我們在儘可能快地競賽。帕特爾:再說一次我們擁有的核武器比任何人都多但我們不想把濃縮鈾送到任何地方。黃仁勳:我們不是濃縮鈾且它是一個晶片而且是一個他們可以自己製造的晶片。帕特爾:但他們從你這裡購買是有原因的。我們有中國公司創始人的引言說他們受限於算力。黃仁勳:因為我們的晶片更好。總的來說我們的晶片更好。這是毫無疑問的。如果沒有我們的晶片你能承認華為經歷了創紀錄的一年嗎?你能承認一大批晶片公司已經上市了嗎?你能承認嗎?帕特爾:能。黃仁勳:你能否也承認我們曾經在那個市場擁有非常大的份額而我們現在不再擁有大份額?我們也可以承認中國約佔世界技術產業的40%。為美國技術產業放棄這個市場對我們的國家是一種傷害。對我們的國家安全是一種傷害且對我們的技術領先地位是一種傷害,這一切都為了一個公司的利益。這對我來說毫無意義。帕特爾:我想我有點困惑,感覺你在說兩種不同的陳述。一是如果我們被允許競爭我們將贏得與華為的競爭因為我們的晶片會好得多。二是沒有我們他們也會做完全相同的事情。這兩件事怎麼能同時進行呢?黃仁勳:這顯然是真的。在沒有更好選擇的情況下你會接受唯一的選擇。這怎麼不合邏輯了?這太合邏輯了。帕特爾:他們想要輝達晶片是因為它們更好?黃仁勳:是的。帕特爾:晶片更好意味著更多的算力且更多的算力意味著你可以訓練更好的模型。黃仁勳:我們的晶片更好不只是算力更高,還因為它更容易程式設計且我們有更好的生態系統。而且我們向中國賣晶片美國自己也在受益。我們維持了美國的技術領先地位且開發者繼續在美國技術堆疊上工作。當這些AI模型擴散到全球時美國技術堆疊仍然是那個最適合運行它們的平台。這樣我們就能持續推進和擴散美國技術。我認為這是好事也是美國技術領先地位中非常重要的一環。現在你所倡導的政策導致美國電信行業基本上被政策排擠出世界,以至於我們不再控制自己的電信。我不認為那是明智的。這有點狹隘並且導致了我在向你描述的、你似乎很難理解的意外後果。帕特爾:現在問題很清楚就是好處和成本那個更大。我想讓你承認一個潛在的成本。算力是訓練強大模型的輸入而強大模型確實有很強的攻擊能力比如網路攻擊。美國公司先達到Mythos那種能力水平然後暫緩發佈,給美國公司和美國政府時間修補漏洞並加固軟體這是好事。但如果中國因為獲得了更多算力而更早做出類似的模型並大規模部署,那會很糟糕。這件事到現在還沒發生一個關鍵原因就是美國公司包括輝達擁有更多的算力。所以我們把晶片賣給中國就是在幫他們縮小這個差距。這是一個成本。先不談好處你承不承認這確實是一個潛在的成本?黃仁勳:那我也告訴你另一個潛在的成本。如果我們放棄中國市場即世界第二大市場,就等於把AI堆疊中最重要的一層也就是晶片層整個讓了出去。他們會在自己的市場裡發展規模並建立自己的生態系統。未來的AI模型會針對他們的技術堆疊做最佳化而他們的模型又是開放的。隨著AI擴散到全球其他地方他們的標準和技術堆疊反而會變得比我們的更優越。帕特爾:我想我只是足夠相信輝達的核心工程師和CUDA工程師,認為他們可以最佳化。黃仁勳:AI不僅僅是核心最佳化你知道的。帕特爾:當然但你可以做很多事情比如從蒸餾到一個非常適合你晶片的模型。黃仁勳:我們會盡力的。帕特爾:你擁有所有的軟體。很難想像即使他們在一段時間內有一個稍微更好的開源模型,會對中國生態系統產生長期鎖定。黃仁勳:中國現在是全球開放原始碼軟體最大的貢獻者也是開放模型最大的貢獻者。而今天這些開源生態是建立在美國技術堆疊、建立在輝達之上的。AI技術堆疊的五層都很重要且美國應該每一層都贏。當然最重要的是最上面的應用層,誰能把AI擴散到社會裡用得最多誰就從這場工業革命裡受益最大。但每一層都必須成功。如果我們把這個國家嚇住讓所有人都覺得AI是核彈且所有人都討厭AI、害怕AI,我不知道這對美國有什麼好處。你這是在害美國。如果我們嚇唬所有人讓他們別去學軟體工程說AI會消滅所有軟體工程崗位,結果我們真的沒了軟體工程師那才是對美國最大的傷害。如果我們嚇唬所有人讓他們別當放射科醫生,說電腦視覺已經免費了且AI讀片比人強,那我們是混淆了工作和任務。放射科醫生的工作是照護病人而讀片只是其中的一項任務。如果我們連這個都搞錯了且嚇得沒人去讀放射科,我們最後會缺放射科醫生並缺好的醫療服務。所以我說當你從一個極端前提出發把一切看成要麼零要麼無窮,最後就會用一種不真實的方式嚇唬人。真實世界不是這樣的。我們希望美國第一嗎?當然。我們需要AI技術堆疊的每一層都領先嗎?當然。你今天談Mythos因為Mythos確實重要。但幾年後當美國想把我們的技術堆疊、我們的技術推廣到全世界比如到印度、中東、非洲、東南亞,當我們的國家想出口技術且想出口標準的時候,我希望到那時我們倆能再聊一次。到那天我會告訴你你今天設想的這些政策是如何讓美國無緣無故地放棄了世界第二大市場的。我們不應該主動放棄這個市場。如果競爭不過失去也就失去了但為什麼要主動讓出去?現在沒人主張全有或全無,不是說我們要把所有東西都賣給中國。沒人這麼主張。我們應該始終把最好的技術、最多的技術優先留在美國,並且讓美國最先擁有。但與此同時我們也應該去全球各地競爭並贏下市場。這兩件事可以同時做到。只是需要一些分寸、一些成熟而不是非黑即白。這個世界不是非黑即白的。帕特爾:好關鍵在於這一點。他們會針對自己幾年後能造出的最好晶片來最佳化模型。這些模型會被出口到世界各地從而形成標準。由於EUV出口管制正如我們所說你們將邁向1.6奈米。但即使幾年後他們很可能仍然停留在7奈米。在國內他們可能會說我們有這麼多能源且可以大規模量產所以繼續用7奈米也沒問題。但在出口市場上他們的7奈米晶片要直接跟你們的1.6奈米晶片競爭。到那時候他們的模型必須針對7奈米做極其深度的最佳化,以至於在7奈米上跑他們的模型反而比在你們的1.6奈米上跑效果更好。黃仁勳:我們能不能先看看事實?Blackwell在光刻技術上比Hopper先進了50倍嗎?差得遠。我反覆強調過摩爾定律已經死了。從Hopper到Blackwell單看電晶體姑且說提升了75%吧而且中間隔了三年。但Blackwell比Hopper快50倍。我的觀點是架構很重要且電腦科學也很重要。半導體物理學當然重要但電腦科學同樣重要。AI的影響力主要來自整個計算堆疊,這就是為什麼CUDA如此有效且如此受歡迎的原因。它是一個生態系統且一個計算架構並提供了極大的靈活性。你想徹底改變架構且搞出MoE、搞出擴散模型、搞出分解式架構都能做到而且很容易做到。事實是AI對上層堆疊的依賴程度不亞於下層架構。從這個角度說我們的架構和軟體堆疊是針對我們自己的生態系統最佳化的這本身就是優勢。正如我們剛對話時就談到輝達的生態系統有多豐富。為什麼大家總是首選CUDA來程式設計?因為他們確實喜歡且中國的研究人員也一樣。但如果我們被迫離開中國這是一個政策錯誤,顯然會適得其反且對美國不利。它會加速他們的晶片產業並迫使他們所有的AI生態系統專注於自己的內部架構。現在糾正還不算太晚但事情已經在發生了。你將來會看到他們不會停留在7奈米這很明顯。他們擅長製造且會從7奈米繼續往前推進。那5奈米和7奈米之間有10倍的差距嗎?答案是否定的。架構很重要且網路也很重要,這就是輝達收購Mellanox的原因。能源也很重要。所有這些都很重要且事情並不像你說的那麼簡單。05 輝達為什麼不製造多種不同的晶片架構?帕特爾:我們之前討論了台積電和記憶體等環節的瓶頸。如果未來我們處在這樣一個局面即你已經佔了N3節點的大部分產能且接下來會佔N2的大部分,你會不會考慮回頭用N7的閒置產能?比如說AI需求太大且領先節點的擴產跟不上,那你就用舊節點來造Hopper或Ampere但加上我們今天知道的數值格式改進和其他最佳化。你覺得2030年之前會發生這種事嗎?黃仁勳:沒必要。因為每一代架構的提升不光是靠電晶體尺寸。我們在工程、封裝、堆疊、數值格式、系統架構上做了大量工作。產能不夠的時候再回頭去搞一個舊節點,那需要投入的研發成本沒人負擔得起。我們能負擔的是往前走而不是往回走。當然如果有一天全球產能真的徹底到頭了,問我願不願意回頭用7奈米?我當然願意。帕特爾:有人跟我討論過一個問題即輝達為什麼不併行做幾個完全不同架構的晶片項目?比如像Cerebras那樣的晶圓級晶片或者像Dojo那樣的大封裝甚至做一個不帶CUDA的。你們有資源也有人才且可以同時做這些。既然AI和晶片架構的方向不確定為什麼要把所有雞蛋放在一個籃子裡?黃仁勳:我們可以做只是我們沒有發現更好的方向。你說的那些我們都模擬過且結果證明它們不如現在的方案。所以我們不做。我們正在做的就是我們想做的。如果未來的工作負載發生根本性變化我不是指演算法而是指實際的計算任務類型,這取決於市場的需求形態,我們可能會考慮增加其他類型的加速器。比如最近我們納入了Groq且會把它整合到CUDA生態裡。原因在於Token的價值現在已經很高了且可以對Token實行差異化定價。幾年前Token要麼免費要麼很便宜。現在不同客戶有不同的需求且願意為不同的答案付不同的錢。比如我們的軟體工程師如果能給他們響應更快的Token讓他們效率更高,我願意為此多付錢。但這個市場是最近才出現的。所以我們決定擴展帕累托前沿並做一個響應更快但吞吐量更低的推理細分市場。以前吞吐量高就是更好,但現在我們認為可能存在一個高ASP(平均售價)Token的市場即使工廠的總吞吐量下降更高的單價也能彌補。這就是我們做這件事的原因。除此之外如果我有更多的錢我還是會投到輝達現有的架構上。帕特爾:這種高端Token和推理市場細分的想法很有意思。假設深度學習革命沒有發生輝達現在在做什麼?黃仁勳:加速計算且我們一直在做這個。我們公司的基本判斷是通用計算的擴展能力基本到頭了。所以我們把GPU和CUDA跟CPU結合起來,把CPU上的某些工作負載解除安裝到GPU上加速。這樣可以把一個應用提速100倍甚至200倍。這些應用可以是工程、科學、物理、資料處理、電腦圖形、圖像生成等等。即使沒有AI,輝達也會是一家非常大的公司。原因很簡單即通用計算繼續擴展的路基本走完了且出路在於特定領域的加速。我們起步於電腦圖形但還有很多其他領域涵蓋粒子物理、流體、結構化資料處理等等都能從CUDA受益。我們的使命就是把加速計算帶給世界並推進那些通用計算做不了的應用,幫助突破某些科學領域。早期的應用包括分子動力學、能源勘探的地震資料處理、圖像處理等等。如果沒有AI我會很難過。但正因為我們在計算上取得的進步,我們讓深度學習變得普及了。任何研究人員、科學家、學生都能用一台PC或一張GeForce顯示卡做很厲害的科學。這個基本承諾一點都沒變。你看GTC大會開頭那部分跟AI一點關係都沒有,包括計算光刻、量子化學、資料處理。這些工作依然非常重要。我知道AI很讓人興奮但還有很多人做著非常重要且跟AI無關的工作。張量不是唯一的計算方式。我們想幫助所有人。帕特爾:非常感謝。黃仁勳:不客氣。我很享受與你的對話。帕特爾:我也是。 (網易科技)
黃仁勳盛讚華為晶片:實力強大,低估他們是愚蠢的
在日前的韓國採訪中,輝達首席執行官黃仁勳被問及美國部分解除對輝達銷往中國的先進晶片的出口限制一事。這些限制最初是以國家安全為由實施的。對此,黃仁勳表示,他尚未聽取有關討論的簡報,但他對重返中國市場表示希望。“中國市場充滿活力、創新,並且擁有眾多才華橫溢的開發者,”他說。 “美國科技公司參與並融入中國市場至關重要。我希望我們能夠制定出新的政策,讓輝達重返中國,也希望中國歡迎輝達的參與。誠然,美國方面存在國家安全方面的擔憂。但中國顯然並沒有完全拒絕這項技術。機遇依然巨大。”黃仁勳還評論了中國科技巨頭華為在人工智慧晶片領域日益增長的影響力,稱在美國製裁促使北京加強國內替代技術之後,低估華為的能力是“愚蠢的”。他說:“華為在電信和晶片設計方面擁有強大的實力。所以當他們發佈CloudMatrix時,我並不驚訝他們能夠創造出如此驚人的產品。”他認為,華為無法建構系統就是不瞭解情況。輝達非常認真看待競爭,深深尊重中國的能力,「這就是為什麼我們跑得這麼快,致力於發明未來,這樣才能比任何人都先到達那裡。」賣晶片給中國才是雙贏據《CNBC》周五(10月31 日) 報導,輝達CEO黃仁勳在南韓受訪時再次重申,自己不認同美國以國家安全為由限制對中國出售先進晶片,主張合作符合雙方利益。黃仁勳表示,中國是一個獨特、重要、充滿活力的市場,無可取代。他將持續爭取進入中國市場,並「樂觀」看待中國在打造AI 領導地位的同時,會繼續採購美國晶片。「服務中國市場符合美國的最佳利益。讓美國科技公司將技術帶到中國市場也符合中國的最佳利益⋯⋯這符合兩國的最佳利益,我希望政策制定者最終會得出這個結論。」黃仁勳認為,以國家安全為由禁止美國晶片出口是錯誤的。「中國自己就能生產大量AI 晶片,中國肯定能取得充足的國產晶片。而且中國已經封鎖了H20(輝達晶片),這等於是在說『我們自己的AI 技術就夠了』。所以任何國家安全擔憂都必須考慮到這點。」黃仁勳周五對《CNBC》表示。他進一步指出,中國既然不想要H20 或任何美國晶片,這本身就回答了國家安全擔憂的問題。韓國儲存太強了,唯有炸雞能媲美輝達首席執行官黃仁勳周五表示,這家美國晶片製造商計畫繼續與韓國半導體巨頭三星電子和SK海力士保持長期合作關係,並讚揚了韓國在儲存技術領域的領先地位。黃仁勳在亞太經合組織(APEC)首席執行官峰會上發表主旨演講後,在慶州對記者表示:“我百分之百確信,三星和SK海力士將成為我們的長期合作夥伴,共同開發HBM4、HBM5乃至HBM97等技術,我們將繼續保持緊密的合作關係,共同推進儲存技術的未來發展。”他還補充道:“你們(韓國)是世界上製造各種儲存技術的最佳國家。”黃仁勳發表這番言論之前,輝達已與韓國大型企業集團和政府簽署了大規模供貨協議,為其下一代Blackwell處理器提供產品。與此同時,全球人工智慧晶片短缺問題持續存在,而需求卻在激增。“你們唯一能與之媲美的可能只有炸雞了。”黃仁勳打趣道。陷入循環交易擔憂31日,美國公司輝達宣佈了一項合作計畫,將向韓國政府和私營企業供應大量用於人工智慧(AI)的最新圖形處理器(GPU)。分析人士指出,由於美國對中國半導體市場的限制,輝達在中國的市場份額有所萎縮,因此選擇韓國作為突破口。隨著韓國政府和私營企業與輝達簽署大規模GPU合同,一些人認為這解決了此前阻礙人工智慧模型研發的“GPU供應短缺”問題,但也有人認為這可能是一種“循環交易”,即韓國企業利用向輝達出售記憶體半導體和其他產品所獲得的收入回購GPU。輝達當天表示,將把韓國打造為建構“人工智慧主權”的關鍵基地,並計畫向韓國政府、三星電子、SK集團、現代汽車集團、Naver Cloud和LG集團供應26萬塊先進的GPU。業內人士估計,這一規模將遠遠超過10兆韓元。基於此,輝達計畫將韓國的GPU基礎設施從約6.5萬塊擴展到30萬塊以上。韓國政府將支援基礎設施建設,使企業和機構能夠使用自己的語言和資料來訓練人工智慧模型,而各企業也計畫根據自身的人工智慧戰略使用輝達的先進GPU。輝達宣佈與韓國政府和私營企業合作開展一項價值10兆韓元的超大型人工智慧項目後,分析人士認為,該公司選擇韓國是為了彌補中美貿易緊張局勢下萎縮的中國市場。輝達首席執行官黃仁勳(Jensen Huang)於當地時間6日在紐約舉行的Citadel Securities活動上表示:“由於美國對半導體的出口管制,我們無法再向中國大陸的企業銷售先進產品。我們在中國先進半導體市場的份額已從95%跌至0%。”韓國產業經濟貿易研究院(KIET)高級研究員金陽鵬表示:“全球範圍內,只有少數幾個市場能夠獲得國家對人工智慧資料中心的全力支援,因此對於人工智慧半導體供應商輝達來說,這是一個巨大的機遇。”他補充道:“由於中美兩國在半導體領域的緊張局勢並未緩和,韓國對於需要開拓新市場的輝達來說,已成為一個極具吸引力的選擇。”隨著人工智慧半導體中對先進儲存半導體的需求激增,與韓國企業(包括全球第一和第二大儲存半導體廠商三星電子和SK海力士)的合作變得愈發重要。此前,輝達一直是高頻寬記憶體(HBM,一種人工智慧儲存半導體)的“大買家”,但隨著Google、亞馬遜、Meta和OpenAI等公司紛紛投身人工智慧晶片的研發,分析師認為輝達的市場份額將逐漸下降。一位半導體行業官員表示:“如果輝達迄今為止一直主導著引領記憶體半導體市場的HBM業務的成敗,那麼隨著HBM客戶多元化,我們不能排除記憶體半導體公司在談判中佔據上風的可能性。”他還補充道:“輝達也在加強與韓國企業的合作,以確保HBM供需的平穩進行。”隨著這一消息的發佈,一些人認為困擾業界和學術界的“GPU供應危機”已經得到解決。由於人工智慧產業的全球增長,訂單主要集中在人工智慧半導體市場領頭羊輝達身上,但由於代工企業台積電產能有限,供應無法滿足需求。IT行業曾飽受輝達GPU短缺之苦,甚至有人認為,能否獲得輝達GPU直接關係到一個國家的人工智慧產業競爭力。然而,一些人批評三星電子和SK集團大規模採購GPU的行為是一種循環交易。三星電子和SK海力士向輝達供應大量HBM視訊記憶體,批評的焦點在於,他們最終“用出售HBM的收入購買輝達的GPU”。一位IT行業人士表示:“誠然,此次合作將緩解業界和學術界人工智慧研發項目面臨的限制”,但他補充道:“然而,除了輝達向韓國方面出售大量GPU之外,公告中並未提及政府和私營部門可以通過那些方式創收,因此很難避免有人批評公告的部分內容構成循環交易。” (EDA365電子論壇)
華為的算力突圍 :一手大國重器、一手化繁為簡
把簡單留給企業,把複雜留給自己。9月18日,“華為全聯接大會2025”上,華為副董事長、輪值董事長徐直軍,一口氣官宣了未來三年多款晶片、超節點的演進路線。在智算領域,以昇騰950建構的新型超節點,將打造出“全球最強超節點”——不止比輝達2027年推出的NVL576系統更強,甚至在未來很多年內或許都將是全球最強算力的超節點。以昇騰960為基礎的超節點,則將在2027年四季度上市。“昇騰芯”、“超節點”,有望成為AI基礎設施建設的新常態。在通算領域,鯤鵬950、鯤鵬960系列處理器,也將在超節點上大顯身手。華為常務董事、華為雲端運算CEO張平安介紹,依託華為剛剛發佈的最新AI伺服器規劃,CloudMatrix雲上超節點規格將從384卡升級到未來的8192卡,實現50~100萬卡的超大叢集,為智能時代提供更澎湃的AI算力。華為雲CloudMatrix384 AI Token服務也全面上線,可直接為使用者提供最終的AI計算結果。“把簡單留給客戶,把複雜留給自己。”這一輪“上新”,華為雲為什麼這麼猛?關鍵的變數在於“系統級創新”,關鍵的路徑在於,全面走向千行萬業,而這兩個“關鍵”的背後是華為雲的戰略性聚焦。大爭之世,華為雲這一AI的戰略性聚焦,其實也是對行業趨勢的預判。全球AI的競爭,正聚焦為算力的競爭。據華為《智能世界2035》報告預測:到2035年,全社會算力總量將增長10萬倍。而美國,正試圖從AI晶片的源頭,掐斷中國的算力。但中國企業,選擇了主動破局。“華為全聯接大會2025”上,華為雲發佈CloudMatrix超節點的新升級,成為國產AI算力最強有力的答案。半年前,超越輝達NVL72的CloudMatrix384,可以支援384顆昇騰NPU和192顆鯤鵬CPU,組成超16萬卡的叢集,同時支援1300個千億參數大模型訓練或上萬個模型的推理。如今,根據華為雲的最新規劃,CloudMatrix超節點規格將從384卡升級到未來的8192卡。依託MatrixLink高速對等網際網路絡結合多網合一技術,可組成50~100萬卡的超大叢集。這堪比“算力大爆炸”。CloudMatrix384絕非簡單的晶片堆疊,而是架構上的全面創新:將資源全面池化,形成算力池、記憶體池、視訊記憶體池等。這樣就可以把計算型任務、儲存型任務、AI專家系統解耦開來,將序列任務儘可能地變成分佈式平行任務,極大地提升了系統的推理性能。目前華為雲已經為Pangu、DeepSeek、Qwen等業界主流大模型提供了極致的推理Token服務。在線上、近線和離線等不同時延要求的推理場景中,CloudMatrix384平均單卡的推理性能是中國特供版GPU H20的3到4倍。360集團旗下的奈米AI,也毫不猶豫地選擇了華為雲。作為全球唯一的L4級智能體,奈米AI引入的“多智能體蜂群”,可實現多智能體非同步平行。但這也導致其處理複雜任務可多達1000步,消耗Token高達500萬至3000萬。但基於CloudMatrix384超級“AI伺服器”,華為雲為奈米AI提供了高品質穩定的Tokens服務;基於EMS彈性記憶體儲存,足以打破AI記憶體牆,應對“蜂群”毫無壓力。周鴻禕說,華為雲充當了輝達+亞馬遜的角色,華為的Token性價比是非常好的,華為雲算力架構能完美的支撐多個基座大模型的共同工作。如果說算力是“燃料”,那麼大模型就是“引擎”。作為華為雲堅定不移的投入方向,“盤古大模型”的核心價值,就在於跳出了“模型空轉”的陷阱,使AI能力與行業Know-how融合,破解了企業“不會用、用不好”的難題,把 AI真正落到企業生產系統中去。在這方面,雲南交投是另一個典型案例。作為雲南綜合交通建設、經營的主力軍,2024年,雲南交投管養的高速公路高達6300公里。用AI驅動這麼龐大的交通資產,本身就是一個超級難題。為此,華為雲不僅為其打造了“雲、邊、端”混合雲算力基礎設施架構、行業高品質資料集,還建構了一個融合自然語言、視覺、多模態於一體的交通行業大模型“集”。大模型“集”的能力,就在於面對各類場景,無往不利。雲南交投使用DataArts,把自己的6.3萬個文件、620億條業務資料和上百萬的現場圖片打造成了一套高品質的AI資料集。經過盤古大模型的4輪訓練迭代,打造出雲南交投自己的綠美通道·交通大模型。讓問答精準率較開源大模型提升 20%以上,車流預測精度提升約 10%。目前,盤古已在政務、金融、製造等30多個行業落地,覆蓋500多個場景。張平安強調,華為也將繼續加大盤古大模型的投入,持續深耕行業,支援各行各業的客戶做好自己的大模型,加速千行萬業智能化。除了大模型,在“算力黑土地”之上,華為雲還在將智能體(Agent)嵌入企業業務流程,實現從“單點能力輸出”向“場景自主服務”的跨越。不同於個人輕量化Agent,企業級Agent要直面業務流程複雜、幻覺容忍度低、運行要求高的挑戰。為此,華為雲打造Versatile企業級智能體平台,覆蓋Agent開發、營運、維運全生命周期,希望建構易用、好用、開放的Agent開發和運行平台,幫助行業客戶快速開發出各種AI Agent。以華為雲慧通差旅為例。如果僅以常規手段來建構差旅應用的AI Agent,不得不直面資料工程建構難、模型協同管理難、持續最佳化閉環難等一系列難題。僅建構資料,就面臨“兩難”:內部經驗難挖掘,外部資料風險高。這導致理解使用者意圖、生成出行規劃的“第一步”,就舉步維艱。而資料的邊界與質量,決定著Al的能力上限。為此,慧通差旅基於Versatile,打造出智能體“通寶”,涵蓋出差提醒、路徑規劃、智能問答等。利用“通寶”,企業的資料層通過內部積累、迭代,與行業資料集整合,實現了高品質、高智能。通過對酒店推薦Agent、行程規劃Agent、知識問答Agent等Agent多模混編,加上專業的“差旅垂域大模型”,則進一步消減了Al推薦的不確定性。這使得路徑規劃上,目前“通寶”的採用率已超50%,差旅人員2分鐘即可完成預訂。而在Versatile平台上,Agent開發效率提升3倍,資料與演算法迭代由“周”縮短至“天”。這不僅重塑了企業差旅出行的體驗和效率,也加速企業差旅管理由“成本中心”向“價值中心”飛躍。從CloudMatrix384超節點算力底座,到盤古大模型沉澱的行業智慧,再到Versatile智能體打通業務鏈路……所有這一切,都是為了“把簡單留給客戶”,以便讓企業專注於核心業務創新;“把複雜留給自己”,讓企業海量的資料、模型、Agent應用,都平穩、高效、安全地跑在華為雲上。這一連串的“黑土地”上的新碩果,驅動著全行業不斷走向價值高地。華為全聯接大會2025上,國際化的面孔和比例非常高,並且有大量來自海外的案例。華為高級副總裁、華為雲全球Marketing與銷售服務總裁楊友桂,公開了一些資料:在全球,華為雲覆蓋34個地理區域、101個可用區,建構起一張國內時延30ms、海外時延50ms的“全球一張網”。這張“全球存算網”不僅能提供極致彈性的雲基礎設施,還能通過 “資料使能”服務釋放資料價值,並提供了一站式AI開發平台,讓企業能夠建構AI原生應用,實現智能升級。覆蓋47國500余家門店、電商觸達100多國的土耳其TOP快時尚品牌Defacto,曾被兩大難題困擾:一是大促的10倍流量扛不住,二是線上線下兩套CRM系統導致資料割裂,影響收益。華為雲介入後,直接擊中痛點:一是用容器服務,30秒自動擴容4000個Pods,流量潮湧被瞬間化解;依託“全球一張網”,土耳其業務接入時延低於25ms,埃及市場響應時延低於50ms,購物頁面載入時間從1.5秒縮至260毫秒。自 2023 年上線至今,Defacto已實現連續659天穩定0事故運行。二是引入中國夥伴Techsun,打通線上與線下資料。從此,線上、線下拉新促活、行為分析、客戶分群等,都有了巨量資料支撐,實現精準行銷。對此,Defacto CIO Abdurrahman Kılınç直言:“在全球業務擴張過程中,華為雲的強力支援對我們至關重要,其價值無法估量。”如果說“全球一張網”能讓企業“跑更快”,那麼華為雲的資料使能服務,則能讓企業“跑得更智能”。巴西Top資料智能技術公司Neogrid,每天要處理200萬活躍商品資訊、50萬POS機即時交易資料。以前,由於資料分散在多家雲廠商,企業第二天才能拿到資料,決策始終“慢半拍”。華為雲資料倉儲服務DWS介入後,改變了這一狀況:通過多平台分散資料的搬遷與整合,Neogrid資料整合效率提升40%、資料分析效率提升50%,下班前就能拿到當天資料,為決策搶佔先機。而華為雲一站式AI開發平台,更是將算力、模型與工具鏈全端創新融為一體。在萬華化學,基於華為雲盤古預測大模型,2000多台關鍵裝置實現從“事後維修”到“預測性維護”的跨越,模型預測準確率從70%提至90%,異常識別效率提升10%。華為雲還將預測與推理大模型結合,幫助萬華建構了故障診斷系統,並打通萬華故障知識庫,生成包含根因分析和處置建議的精準報告,極大加速了維運閉環過程,人工巡檢時間下降20%。而借助Versatile Agent開發平台,萬華打造出標準作業程序文件SOP稽核Agent,文件智能稽核效率提升50%以上。在長安汽車,華為雲CodeArts軟體開發工具鏈賦能研發模式從“瀑布流”轉向“統一平台”,研發效率提升30%。同時,華為雲聯合中國聯通打造的“一雲一網一平台”,以5G+IoT聯接1.2萬台裝置,打破資料孤島,實現資料驅動的柔性製造,將訂單交付周期從21天縮至15天。這一連串的實踐證明,企業AI應用的核心,不在於演算法、工具是否炫酷,而在於能否紮根行業場景,成為解決實際問題的利器。技術的創新與場景的落地,讓華為雲收穫了市場與行業的雙重認可:在容器、資料庫等領域突破入圍9個Gartner魔力象限,在17個產品和解決方案維度位居領導者象限,斬獲30+細分領域第一。行業領域,華為雲在政務、工業、金融、汽車四大行業市場份額均居第一,躋身醫療、藥物、氣象、汽車四個領導者象限。規模上,華為雲AI算力規模較去年暴增268%,昇騰AI雲客戶從321家增至1805家,且覆蓋央國企、智駕、大模型、網際網路等多個行業。楊友桂表示,“把簡單留給使用者,把複雜留給自己一直是華為的關鍵價值之一。無論是算力基礎設施的突破性建構、盤古大模型對千行萬業的持續賦能,還是資料治理領域的創新實踐——我們通過技術攻堅將複雜性內化於解決方案,最終為客戶呈現極簡體驗。”楊友桂在訪談中坦言:“人工智慧是面向未來 30 年的一個產業,應該說現在剛剛開始。面向未來30年,我們需要全產業鏈所有的客戶,所有的夥伴,所有的雲廠家共同努力,這樣才能打造一個面向未來,造福全人類的人工智慧和跟數位化轉型的時代。華為有這樣的信心,也有這樣的能力,更有這樣的意願跟全球的客戶夥伴和其他的廠家一起合作,然後為人工智慧時代的到來做出我們應有的貢獻。”這種“簡單”與“複雜”的深刻轉換,恰恰構成了華為雲“爭”與“不爭”的關鍵抉擇。“不爭” 的,是對短期利益的追逐和對單一市場的執念;“大爭” 的,則是對未來技術的深度佈局,以及對全球AI產業的責任擔當。而這份佈局未來的“大爭”,不僅為中國的AI產業積蓄力量,更將為全球的數智化貢獻中國智慧和中國方案。 (華商韜略)