#模型參數
前Google CEO 施密特:AI 像電與火,這 10 年決定未來 100 年
2025 年,AI 世界正被無形的張力撕扯:一邊是模型參數的激增,一邊是系統資源的極限。大家都在問:GPT-5、Claude 4、Gemini 2.5 誰更強?但前Google CEO Eric Schmidt (埃裡克·施密特) 在 2025 年 9 月 20 日的公開演講中提出了更深層的洞察:“AI 的到來,在人類歷史上,等同於火、電的發明。而接下來的 10 年,將決定未來 100 年的格局。”他不是在講模型性能,也不是 AGI 的遠近,而是在說:AI 不再是提升工具效率,而是重新定義商業運作方式。與此同時,在矽谷知名投資機構 a16z 的一場對話中,晶片分析師 Dylan Patel 指出:“誇張的說,現在搶 GPU 就像搶‘毒品’一樣,你要托關係、找管道、搶配額。但這不是重點,真正的競爭是誰能建構出支撐 AI 的一個完整體系。”兩人的觀點指向同一個發展趨勢:參數不是邊界,電力是邊界;模型不是護城河,平台才是護城河;AGI 不是目的,落地才是關鍵如果說過去三年,AI 的主線是能力爆發;那接下來十年,主線就是基礎建設。第一節|AI 不再是工具升級,而是系統重構在這場對話裡,Eric Schmidt 開門見山地說:“AI 的到來在人類歷史中,和電、火的發明處於同一等級。”他不是在強調 AI 有多聰明,而是在提醒大家:我們熟悉的工作方式、管理模式、賺錢方法,都可能要徹底改變。不是讓 AI 幫你寫得更快, 而是讓 AI 決定該怎麼寫。Schmidt 說,現在最強的 AI 工具,已經不再是一個助手了,而是正在變成:一種全新的基礎設施,就像電網一樣,成為所有組織的標準配置。這一句話,直接顛覆了過去幾年人們對 AI 的看法。換句話說,這不是個人技能提升或團隊效率最佳化,而是整個組織運轉方式的根本改變:決策方式變了,AI 參與思考;寫作、程式設計、客服、財務都有了 AI 搭檔;資料輸入、結果評估、反饋機制都被 AI 重新設計。這種全面的組織變革讓 Schmidt 意識到,不是預先制定詳細流程,而是在實際應用中讓 AI 逐步適應和最佳化。據他介紹,自己目前參與的幾家創業公司都採用了這種方法,不是先做完整規劃,而是讓 AI 直接參與工作,在實踐中不斷調整和完善。所以他講的,不是模型更強了,而是組織要不要轉向 AI 原生的新形態。AI 正在從工具,變成企業營運的基礎設施。第二節|限制 AI 發展的,是電力過去我們總以為,AI 的能力發展,會被技術卡住:晶片性能不夠,模型算不動;演算法太複雜,推理速度太慢。但 Eric Schmidt 說,真正限制 AI 發展的不是技術參數,而是電力供應。他提到一個具體資料:“到 2030 年,美國需要新增 92GW 電力,才能支撐資料中心的需求。”什麼概念?一個大型核電站,功率也不過 1 到 1.5GW。92GW,相當於幾十座核電站的發電量。現實卻是:美國當前在建核電站,基本是零。這意味著,未來問題不是模型技術不夠先進,而是電力供應跟不上訓練需求。Schmidt 甚至對國會說過一個令人意外的例子:他們可能需要在海外訓練美國自己的模型,比如在中東國家的發電基地。(Sam Altman 剛剛發佈部落格:《智能時代的無限可能》)這種對電力的渴求並非危言聳聽。就在 9 月23 日,OpenAI CEO Sam Altman 剛剛發佈部落格,提出了一個更激進的方向:我們希望建造一種工廠,每周新增 1GW 的 AI 算力設施,用電規模堪比一座城市。他明確指出,這將需要晶片、電力、機器人、建築等多個系統的協同突破。用他的話說:“一切都始於計算。”Altman 的這個目標,不是遠景展示,而是正在佈局的基礎建設。它正是 Schmidt 所說“AI 將成為新電網”的現實化路徑。事實上:模型訓練本身並不貴,真正的成本是電力消耗、執行階段間和裝置維護。隨著推理任務越來越多,生成內容越來越複雜(圖像、視訊、長文字),AI 工廠的電量需求正變成新的算力瓶頸。Dylan Patel 在另一場對話中也提到,搭建 AI 系統時,不僅要考慮晶片有多快,還要考慮散熱、電費、穩定性。他說得更形象:“AI 工廠不是買一堆 GPU 就行,還要考慮電能調度和持續運行能力。”所以這不是晶片問題,而是電力跟不跟得上的問題。而當電力無法滿足時,連鎖反應就來了:模型不能訓練;推理成本升高;AI 工具無法大規模部署;最終失去落地的可能性。Schmidt 認為,基礎設施跟不上是目前 AI 落地面臨的最大現實挑戰。沒有足夠能源支撐,再領先的模型能力也用不起來。因此,AI 的下一個戰場不在實驗室,而在發電廠。第三節|不是誰有晶片,而是誰能把它們用起來而即便電力解決了,問題還沒完。你真的能把這些晶片、模型、任務,全都運行起來嗎?很多人以為,只要拿到 H100、B200 這些最先進的晶片,AI 工廠就建成了。但 Dylan Patel 一上來就潑了冷水:“現在 GPU 非常緊缺,要發簡訊到處問'你有多少貨?什麼價格?”他接著說:“但光有晶片還不夠。核心是要讓它們有效協作。”也就是說,晶片本身只是一個部件,真正決定 AI 工廠能否持續運行的,是你有沒有能力把這些晶片整合起來運行。他將這種整合能力分為四個層面:算力底座:GPU、TPU 等硬體基礎;軟體棧:訓練框架、調度系統、任務分配器;冷卻與電力管理:不只是有電,還要把溫度、負載、電費控制好;工程能力:誰來最佳化模型、調優算力、控製成本。這就是 Dylan 所說的“AI 工廠”的核心:AI 工廠不是一個模型、也不是一張卡,而是一整套連續的工程調度能力。你會發現,AI 工廠不僅需要大量算力,更需要複雜的工程配合:一堆 GPU 是“原材料”;軟體調度是“控制室”;冷卻和電力是“水電工”;工程團隊是“維修組”。簡單來說,重心已經從“造模型”轉向了“建基礎設施”。Dylan 觀察到一個有趣的現象:你看現在的晶片公司,不只是賣卡了,而是開始“包施工”了。Nvidia 開始幫客戶整合伺服器、配置冷卻、搭建平台,自己就成了平台。(圖源:路透社報導)這場訪談發佈的同一天,Nvidia 與 OpenAI 公佈了一項未來合作意向:Nvidia 將為 OpenAI 提供最多 10GW 等級的資料中心資源,投資規模可能達到數 1000 億美元。Sam Altman 在聲明中說了一句話,恰好印證了上面這個邏輯:計算基礎設施將是未來經濟的基礎。Nvidia 不只是賣卡、供晶片,更是和他們一起部署、建設、營運整個 AI 工廠。這說明了一個趨勢:真正有能力形成閉環的,不是最聰明的人,而是最懂如何落地的人。也就是:能造出模型,是一回事;能讓模型每天穩定運行,是另一回事。AI 不再是買來就能用的產品,而是需要持續營運的複雜工程系統。關鍵是你有沒有長期營運這套系統的能力。第四節|AI 能力擴散成趨勢,競爭焦點在那?當大家還在爭奪營運能力時,新的變化已經出現了。AI 模型做得越來越好,越來越聰明,但 Eric Schmidt 提了個警告:“我們無法阻止模型蒸餾。幾乎任何一個能訪問 API 的人,都能複製它的能力。”什麼是蒸餾?簡單說:大模型雖然能力強,但部署成本太高;研究者會用它來訓練一個小模型,讓小模型模仿它的思考方式;成本低、速度快、精度高、難以追蹤。就像你沒辦法複製一個頂級廚師,但可以通過他做出來的菜,教會另一個人做出八成相似的效果。問題就來了:能力越容易被轉移,模型本身越難被限制。(Dylan Patel,知名晶片行業分析師,專注AI基礎設施研究)Dylan Patel 也提到一個行業趨勢:現在蒸餾成本,只佔原始訓練的 1% 左右,卻能復現原模型 80-90% 的能力。即使 OpenAI、Google、Anthropic 把模型保護得再嚴密,也擋不住有人通過蒸餾獲得相似能力。以前大家比的是誰更強;現在開始擔心誰還控制得住?Schmidt 在訪談裡說:最大的模型將永不開放。而小模型的擴散,將不可避免。他不是在鼓吹封閉,而是在提醒一個現實:技術擴散的速度,可能遠快於治理跟上的節奏。舉個例子,現在已有不少團隊用 GPT-4 的 API,去蒸餾出一個 GPT-4-lite:成本低,易部署;基本對外沒有明確標識;使用者用起來感覺幾乎一樣。這就帶來一個難題:模型的能力,可能會像“空氣”一樣擴散;但模型的源頭、責任歸屬、使用邊界,都很難界定清楚。Schmidt 真正擔心不是模型太強,而是:“當越來越多的模型具備強能力,卻不受監管、難以溯源、責任不清,我們該如何確保 AI 的可信度?”這種現像已經不是假設,而是當前的現實。隨著 AI 能力擴散已經成為不可逆轉的趨勢。單純擁有先進模型不再是護城河。競爭的焦點已經轉向了如何更好地運用和服務這些能力。第五節|平台的關鍵,是越用越準所以最終,比能不能造出來更重要的是:你能不能建構出一個越用越好的平台?Eric Schmidt 給出了他的答案:“未來成功的 AI 公司,不只拼模型性能,更要拼持續學習的能力。”通俗說就是:你不是一次性做出一個產品就完事,而是建一個平台,讓它用得越多越聰明、越用越好用、越用越穩定。他進一步解釋:平台的核心不是功能,而是讓別人離不開你。比如:電網不是因為燈泡亮,而是因為能讓所有燈都亮;作業系統不是因為功能多,而是能讓一批應用穩定運行;AI 平台也一樣,不是做出某個智能助手,而是讓別的團隊、使用者、模型都能接入、呼叫、增強。AI 平台不是某個功能,而是一套持續運轉的服務網路。他還建議年輕創始人:不要只問這個產品做得完美不完美。要看它有沒有形成一條“用 → 學 → 最佳化 → 再用”的路徑。因為:能持續學習的平台,才有長期生存的可能。Dylan Patel 補充說,這其實也是 Nvidia 成功的路徑。黃仁勳做了三十年 CEO,靠的不是運氣,而是不斷把晶片和軟體綁成閉環:客戶用得越多,他就越瞭解客戶想要什麼;越瞭解需求,產品就越好用;產品越好用,客戶就越難放棄。這樣就形成了良性循環,越用越值。不是“發佈即巔峰”,而是能夠持續成長的平台。Schmidt 總結得很清晰:你能不能建構出這樣一個增長機制?一開始可能很小,但它能不斷適應、不斷擴展、不斷更新?他對未來 AI 平台成功者的判斷是:不是你寫了什麼程式碼,而是你能不能讓一個平台活下來,而且越活越強。結語|誰先形成閉環,誰贏未來Eric Schmidt 在訪談中說:“AI 就像電與火,這 10 年,將決定未來 100 年。”AI 的能力已經準備好了,但往那走、怎麼搭、怎麼用還沒想清楚。現在的重點不是等下一代模型,而是把現有 AI 用起來、用得好。別總想著 GPT-6/DeepSeek R2 什麼時候出,先把手頭的工具在客服、寫作、資料分析等場景中跑通。讓 AI 能 24 小時穩定工作,而不是只在發佈會上驚豔一下。這不是聰明人的比賽,而是執行力的較量。誰能率先把 AI 從實驗室帶到現實,誰就掌握了未來十年的主動權。而這場“閉環之爭”,從現在就已經開始。 (AI深度研究員)
晶圓級晶片,是未來
今天,大模型參數已經以“億”為單位狂飆。僅僅過了兩年,大模型所需要的計算能力就增加了1000倍,這遠遠超過了硬體迭代的速度。目前支援AI大模型的方案,主流是依靠GPU叢集。但單晶片GPU的瓶頸是很明顯的:第一,單晶片的物理尺寸限制了電晶體數量,即便採用先進製程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多晶片互聯時,資料在晶片間傳輸產生的延遲與頻寬損耗,導致整體性能無法隨晶片數量線性增長。這就是為什麼,面對GPT-4、文心一言這類兆參數模型,即使堆疊數千塊輝達 H100,依然逃不過 “算力不夠、電費爆表” 的尷尬。目前,業內在AI訓練硬體分為了兩大陣營:採用晶圓級整合技術的專用加速器(如Cerebras WSE-3和Tesla Dojo)和基於傳統架構的GPU叢集(如輝達 H100)。晶圓級晶片被認為是未來的突破口。01晶圓級晶片,兩大玩家在常規的晶片生產流程中,一個晶圓會在光刻後被切割成許多小裸片(Die)並且進行單獨封裝,每片裸片在單獨封裝後成為一顆完整的晶片。晶片算力的提升方式,是依靠增加晶片面積,所以晶片廠商都在不斷努力增加晶片面積。目前算力晶片的單Die尺寸大約是26x33=858mm2,也就是接近曝光窗大小,但是晶片的最大尺寸無法突破曝光窗的大小。曝光窗大小多年來一直維持不變,成為了制約晶片算力增長的原因之一。晶圓級晶片則提供了另一種思路。通過製造一塊不進行切割的晶圓級互連基板,再將設計好的常規裸片在晶圓基板上進行整合與封裝,從而獲得一整塊巨大的晶片。未經過切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成頻寬更高、延時更短的互連結構,相當於通過高性能互連與高密度整合建構了更大的算力節點。所以,相同算力下,由晶圓級晶片建構的算力叢集佔地面積對比GPU 叢集能夠縮小 10-20 倍以上,功耗可降低 30% 以上。全球有兩家公司已經開發出了晶圓級晶片的產品。一家是Cerebras。這家企業從2015年成立,自2019年推出了WES-1,之後經過不斷迭代,目前已經推出到第三代晶圓級晶片——WES-3。WES-3採用台積電5nm工藝,電晶體數量達到誇張的4兆個,AI核心數量增加到90萬個,快取容量達到了44GB,可以支援高達 1.2PB 的片外記憶體。WES-3的能力可以訓練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆並聯情況下,一天內即可完成700億參數的調教,支援最多2048路互連,一天便可完成Llama 700億參數的訓練。這些都是整合在一塊215mm×215mm=46,225mm2的晶圓上。如果這個對比還不夠明顯,那可以這麼看:對比輝達H100,WES-3的片上記憶體容量是 H100的880倍、單晶片記憶體頻寬是H100的7000倍、核心數量是H100的52倍,片上互連頻寬速度是H100的3715倍。另一家是特斯拉。特斯拉的晶圓級晶片被命名為Dojo。這是馬斯克在2021年就開始的嘗試。特斯拉Dojo的技術路線和Cerebras不一樣。是通過採用Chiplet路線,在晶圓尺寸的基板上整合了 25 顆專有的 D1 芯粒(裸Die)。D1芯粒在645平方毫米的晶片上放置了500億個電晶體,單個芯粒可以提供362 TFlops BF16/CFP8的計算能力。合起來的單個Dojo擁有9Petaflops的算力,以及每秒36TB的頻寬。特斯拉的Dojo系統專門針對全自動駕駛(FSD)模型的訓練需求而定製。思路是從25個D1芯粒→1個訓練瓦(Training Tile)→6個訓練瓦組成1個托盤→2個托盤組成1個機櫃→10個機櫃組成1套ExaPOD超算系統,能夠提供1.1EFlops的計算性能。02晶圓級晶片與GPU對比既然單晶片GPU和晶圓級晶片走出了兩條岔路,在這裡我們以Cerebras WSE-3、Dojo 和輝達 H100為例,對比一下兩種晶片架構對算力極限的不同探索。一般來說AI 訓練晶片 GPU 硬體的性能通過幾個關鍵指標進行評估:每秒浮點運算次數(FLOPS) ,表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力的強弱。記憶體頻寬,決定了訪問和處理資料的速度,直接影響訓練效率。延遲和吞吐量,能夠評估GPU處理巨量資料負載和模型平行性的效率,從而影響即時性能。算力性能Cerebras WSE-3 憑藉單片架構,在 AI 模型訓練中展現獨特潛力。一般來講,每秒浮點運算次數(FLOPS) 能夠表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力。WSE-3 的 FP16 訓練峰值性能達到 125 PFLOPS,支援訓練高達 24 兆參數的 AI 模型,且無需進行模型分區處理。這個功能就特別適合以精簡高效的方式處理超大模型。與依賴分層記憶體架構(可能造成處理瓶頸)的傳統 GPU 不同,WSE 的設計使850 個核心可獨立運行,並直接訪問本地記憶體,這樣就有效提升了計算吞吐量。在這方面,輝達H100採用的是模組化和分佈式方法。單個 H100 GPU 可為高性能計算提供 60 TFLOPS FP64 計算能力,八個互連的 H100 GPU 組成的系統,可實現超 1 ExaFLOP 的 FP8 AI 性能。但分佈式架構就存在資料傳輸問題,雖然NVLink 和 HBM3 記憶體能降低延遲,但在訓練超大型模型時,GPU 間通訊仍會影響訓練速度。在AI訓練的表現中,Cerebras WSE-3會更加擅長處理超大型模型。2048個WSE-3系統組成的叢集,訓練Meta的700億參數Llama 2 LLM僅需1天,相比Meta原有的AI訓練叢集,速度提升達30倍。延遲與吞吐量從資料傳輸來看,WSE-3 的單片架構避免了多晶片間的資料傳輸,顯著降低延遲,支援大規模平行計算和核心間低延遲通訊。速度快是單片的優勢,與傳統GPU 叢集相比,WSE-3 可將軟體複雜度降低高達 90%,同時將即時 GenAI 推理的延遲降低 10倍以上。特斯拉Dojo Training Tile屬於晶圓級整合,當然也能夠大幅降低通訊開銷。由於是從Die到Die之間傳遞,在跨區塊擴展時仍會產生一定延遲。目前,Dojo 能實現 100 納秒的晶片間延遲,並且針對自動駕駛訓練最佳化了吞吐量,可同時處理 100 萬個每秒 36 幀的視訊流。輝達H100基於 Hopper 架構,是目前最強大的AI訓練GPU之一,配備18,432個CUDA 核心和640個張量核心,並通過NVLink和NVSwitch系統實現GPU間高速通訊。高速通訊。雖然多 GPU 架構具備良好擴展性,但資料傳輸會帶來延遲問題,即便NVLink 4.0 提供每個GPU 900 GB/s的雙向頻寬,延遲仍高於晶圓級系統。儘管能夠憑藉著架構特性實現單晶圓工作負載的低延遲和高吞吐量,但晶圓級系統如WSE-3 和 Dojo面臨著可擴展性有限、製造成本高和通用工作負載靈活性不足的問題。誰更划算?從硬體購置成本來看,不同晶片的價格因架構和應用場景而異。據報導,特斯拉單台Tesla Dojo 超級電腦的具體成本估計在3 億至 5 億美元之間。技術路線上,Dojo採用的是成熟晶圓工藝再加上先進封裝(採用了台積電的Info_SoW技術整合),去實現晶圓級的計算能力,能夠避免挑戰工藝極限。這既能保證較高的良品率,又便於實現系統的規模化生產,芯粒的更新迭代也更為輕鬆。Cerebras WSE 系統則因先進的製造工藝與複雜設計,面臨較高的初期研發和生產成本。據報導,Cerebras WSE-2 的每個系統成本在 200 萬至 300 萬美元之間。相比之下,輝達單GPU的採購成本比較低。以輝達A100來說,40GB PCIe型號價格約 8,000 - 10,000美元,80GB SXM型號價格在18,000 - 20,000美元。這使得許多企業在搭建 AI 計算基礎設施初期,更傾向於選擇輝達GPU。不過,輝達GPU在長期使用中存在能耗高、多晶片協作性能瓶頸等問題,會導致營運成本不斷增加。總體來看,雖然WSE-2能為超大規模AI模型提供超高計算密度,但對於需要在大型資料中心和雲服務中部署多GPU可擴展方案的機構,A100的成本優勢更為明顯。03結語常規形態下,叢集算力節點越多,則叢集規模越大,花費在通訊上的開銷就越大,叢集的效率就越低。這就是為什麼,輝達NVL72 通過提升叢集內的節點整合密度(即提高算力密度)。在一個機架中整合了遠超常規機架的 GPU 數量,使得叢集的尺寸規模得到控制,效率才能實現進一步提升。這是輝達權衡了良率和成本之後給出的解決方案。但是如果輝達繼續按照這種計算形態走下去,想要進一步提升算力密度,就會走到晶圓級晶片的路上。畢竟,晶圓級晶片的形態是目前為止算力節點整合密度最高的一種形態。晶圓級晶片,潛力無限。 (半導體產業縱橫)