#模型訓練
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI沒把它當“生圖”模型訓練
GPT Image 2 憑什麼這麼強?是擴散模型又迭代了一版?是把 DiT 的參數量從 7B 擴到 20B?是訓了更多高品質資料?這些答案都對,但都不夠。以下是我們與多位從業者交流後,提煉出的幾個值得關注的技術方向,並嘗試做出更清晰的解釋。先給結論:OpenAI 很可能已經不在“純擴散模型”這條主賽道上了。他們已經把圖像生成從“美術課”調到了“語文課”——用一個能讀懂指令、能記住上下文、能理解物體關係的 LLM 主導語義規劃,至於最後一步的像素生成,可能由擴散元件或其他解碼器完成。而這個LLM,極大可能是GPT-4o。支撐這個推論的,首先是兩條直接線索。1. 模型自述2. C2PA溯源驗證C2PA 是一種內容溯源標準,相當於給每張 AI 生成的圖打上一個數字身份證。任何人拿到這張圖,都能查到它是由 GPT Image 2 生成的、生成時間是什麼、經過了那些修改。有專業人士在metadata2go.com上對image 2生成的圖片進行中繼資料提取。發現在actions_software_agent_name一欄上記錄著GPT-4o。這也能理解為什麼這次image 2的表現驚人了。圖片源於: 【深入調查:OAI最新圖像模型底層是GPT-4o - 祈星函 | 小紅書 - 你的生活興趣社區】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share單憑這兩條當然不足以拆解全部秘密。但當我們帶著“LLM 主導”的假定回頭審視它的每一項能力躍遷時,這些變化,忽然有了統一的解釋。一、圖像語義,從像素到token1.1過去兩年,AI 生圖領域有一條不成文的鄙視鏈:Midjourney 負責美學,Stable Diffusion 負責可控性,DALL·E 負責……嗯,負責被 OpenAI 發佈。但不管你站那一隊,有一件事是所有人的共識——文字是 AI 的鬼門關。你能讓 AI 畫出逆光下緬因貓毛髮的半透明質感,卻無法讓它寫對招牌上的“Coffee”六個字母。一個能理解頂級光影描述的模型,在文字上給出的結果彷彿楔形文字。這件事的荒誕與根源,就藏在擴散模型的工作原理裡。先說擴散模型為什麼寫不好字?因為它的核心是一個從噪聲中還原圖像的“雕塑家”:訓練時,向清晰照片逐步撒噪聲,直到變成純電視雪花,模型學習逆向去噪。生成時,從一片隨機噪聲開始,每步都靠 U-Net 預測並擦除噪聲,幾十步迭代後“雕”出毛髮、虹膜和光影。這個過程本質上在還原連續的、可以用機率無限逼近的紋理。毛髮可以稍微硬一點或軟一點,顏色可以偏暖 5%,無傷大雅。但文字是離散符號,不存在“像不像”,只有“是不是”。字母 A 就是 A,你不能給它加 15% 的 B 和 8% 的 C 還指望它依然是 A。擴散模型的每一步去噪都是一個微小“估計”,用在紋理上是風格,用在文字上就是 O 變 0,或是拼出 WElcOm e。最終就成了外行眼中的“楔形文字”。不僅如此,擴散模型天然缺乏跨輪編輯的穩定一致性。你讓它改一個局部,它本質上是整張圖重新畫一遍,沒改動的地方也會悄悄漂移。但GPT Image 2現在不僅能“寫對字”,還能保持“有記憶”的一致性例如:你修改一個字之後,周圍的文字會自動調整間距;當你把“咖啡”改成“紅茶”,它不只是替換那個詞,而是連帶把杯子的顏色從深棕調成了琥珀色。這說明文字在它的系統裡不是圖層標註,而是畫面語義的一部分。文字內容的改動會像語言中的主語替換一樣,連鎖驅動畫面其他元素的合理變化。GPT Image 2 與其他模型對比圖1.2它不再把圖像當圖像看,而是把圖像當語言看。這聽起來像玄學,但其實是個很具體的工程選擇。要理解這件事,得先搞明白一個概念:Tokenizer。Tokenizer 的作用是把一種東西“翻譯”成另一種東西。GPT 處理文字前,會先把“你好”這個詞切碎編號,變成一個數字 ID,比如 [11892]。這是文字 token 化。圖像能不能也這麼幹?當然能。你把一張圖切成 16×16 的網格,每個格子編個號,也是一種 token 化。但這種做法太笨重——一張 1024×1024 的圖會變成幾千個 token,LLM 還沒開始畫就先被淹死了。所以過去兩年,各家大模型公司在拼一件事:怎麼把一張圖壓成儘量少的 token,同時還不丟關鍵資訊。這事有多難呢?想像你是一個情報員,要把《蒙娜麗莎》用一封電報發出去。電報局規定你最多隻能發 256 個字。你怎麼辦?你不能說“一個女人在笑”,因為對方畫不出來;你也不能逐個像素描述,因為字數不夠。你必鬚髮明一套只有你和對方懂的密語——“52號微笑、3號背景、17號手勢”——對方收到後能八九不離十地還原出來。這就是 OpenAI 在 tokenizer 上干的 事。從 CLIP 到 DALL·E 再到 GPT-4o,他們逐漸建構了一種能夠在視覺與語言之間進行對應的語義表示體系。這意味著:圖像和文字被投影到了同一個對齊後的語義 embedding 空間。現在在 LLM 眼裡,“一隻逆光的緬因貓”這行字,和一張逆光緬因貓的照片,是同一個語義空間裡的兩套坐標。它能像理解文字一樣理解圖像,也能像生成文字一樣生成圖像。所以當你說“把第三行公司名改成團夥名”,它不是在修圖軟體裡找那個圖層,而是在改寫一段描述這個畫面的密文。改完後,解碼器再把密文翻譯回像素。這就是為什麼文字突然能寫對了。因為對 LLM 來說,寫一個W和寫一個我,沒有任何本質區別——都是它在密語系統裡調整幾個 token 的事。1.3既然 GPT Image 2 很可能把圖像變成了語義密文,那這串密文怎麼變回一張能看的圖?如果直接把 token 對應成像素,畫質必然一塌糊塗,這是自回歸模型的通病:它極度擅長決定畫什麼,卻不太擅長畫得好看——就像建築系教授徒手畫效果圖,空間關係全對,筆觸就是不及美院學生。而擴散模型正好相反,紋理光影以假亂真,卻經常不知道自己在畫啥。因此,一個高度自洽的推測浮現:讓兩款模型打配合。自回歸負責定調:根據你的 prompt 生成那幾百個語義 token,敲定畫面裡有什麼、它們的位置關係、整體構圖邏輯。這一步決定了“聽得懂”,也保證了多輪編輯時對修改對象的記憶與一致性。擴散負責潤色:拿到這串語義 token 後,不再負責理解內容,只負責填充高保真像素,把既定框架變成光影自然的成圖。這一步決定了“畫得好”。這不是理論空想。Google 發過一篇叫 Transfusion 的論文,Meta 搞過 Chameleon,走的都是類似路線。當然,這一切都是基於公開資訊和模型表現的推斷。OpenAI 有沒有在用?2026 年 4 月的媒體會上,OpenAI 拒絕回答任何關於模型架構的問題。拒絕本身就是一個訊號。如果這個假設成立,那就解釋了一切——文字寫對是因為自回歸天然懂離散符號;多輪編輯一致是因為自回歸記住了那一串 token;畫質沒崩是因為擴散在最後一關做了精細渲染。二、資料飛輪,GPT-4o 自己教自己生圖2.1但上文那個能把圖像壓成幾百個 token 的“密語系統”,到底是怎麼訓出來的?為什麼不是別的模型,偏偏是GPT-4o?答案藏在一件看起來最沒有技術含量的事裡:資料標註。在 AI 圈,資料標註長期處於鄙視鏈底端。研究員聊架構可以聊一晚上,聊資料標註三句話就冷場。但 GPT Image 2 這次的表現,甚至表明OpenAI 可能已經不需要人工標註了。而GPT-4o 本身就是全世界最強的圖像理解模型之一。你給它一張圖,它能寫出一段比真人標註師還細膩的描述。所以OpenAI 可以把過去幾年積累的幾十億張圖片,重新“過一遍水”——用 GPT-4o 生成新的、高維度的標註。但到這裡,只解決了“描述”的問題,沒解決“篩選”的問題。一個模型生成一百張圖,並不是每一張都值得拿來當下一輪訓練的教材。這裡需要一套嚴格的“質檢”機制——在機器學習裡,這叫拒絕採樣。具體來說就是,GPT-4o 先根據一段 prompt 生成一批圖像,然後根據美學偏好、指令匹配度、物理合理性等多條標準,逐張打分。批到符合條件的才“收下”,連同它為自己撰寫的詳細解析,一起塞進下一輪訓練集。批到不及格的就直接扔掉。這保證飛輪裡的資料不是在低水平循環,而是在有選擇地自我提純。上一代模型給下一代模型當老師,下一代模型再給下下代當老師。每轉一圈,對世界的理解就深一層。大家的差距也在這個過程中越來越大。這也解釋了為什麼Midjourney在畫質上能和OpenAI掰手腕,但在指令遵循和文字渲染上被拉開代差。當然,聽上去像個永動機騙局——自己教自己,那不得越教越傻?學術界確實有這個擔憂,管它叫模型崩潰:模型反覆吃自己吐出來的東西,會逐漸丟失分佈的尾部資訊,生成結果越來越單一、越來越平庸。但OpenAI在文字側已經證明:只要老師模型足夠強,並且配合拒絕採樣這樣的嚴格篩選機制,這事不但不會崩,還能加速,形成資料飛輪。2.2這個飛輪裡還有一個重要且難搞的角色——RLHF 在圖像側的質檢員。我們在文字側已經習慣了 RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習):給一段文字打分,判斷它有用、有趣、符合人類偏好,這件事 GPT-4o 做得很好。但在圖像側,難度驟升。因為質檢員需要同時盯住三條線:美學偏好;指令遵循;安全過濾。三條線的標準各不相同,甚至互相衝突。一道強光影可能很“好看”,但壓暗了 prompt 裡要求的某個細節,就會被“指令遵循”扣分。一層安全濾鏡可能誤傷正常的醫學解剖圖,又得回頭調閾值。這種多維度權衡,在文字側已經跑通,但在圖像側變得前所未有的複雜。而 OpenAI 之所以能做成,很可能是因為他們把圖像側的問題全部拉回了自己最擅長的戰場:語言理解。美學偏好被轉譯成一段構圖評語,指令遵循被轉譯成一組約束條件的核對清單,安全過濾被轉譯成一套規則判例。所有判斷最終都落到了 LLM 的語義空間裡。可能這才是資料飛輪真正的底牌。不是資料多,而是從標註、篩選到打分,全鏈路都被統一到了一個理解框架裡。拒絕採樣負責海選淘汰,RLHF 負責精修調優,兩者共享一套語義標準,飛輪才轉得起來。三、工程解法,兼顧推理速度和對話整合3.1到這裡,我們聊的都是效果。接下來聊一個經常被刻意繞開的話題:推理速度。先不說審美和一致性上的飛躍,且說一個看似矛盾的現象:生圖質量躍升了一個代際,但速度並沒有明顯變慢。這本身就是一種工程奇蹟——OpenAI 是怎麼做到的?自回歸模型的運作方式是逐 token 生成——每個 token 都依賴上一個 token 的完成。擴散模型則不同,它可以在整張畫布上平行去噪,一次處理所有像素。按理論推算,如果 GPT Image 2 確實用了自回歸架構,它的推理延遲應該比純擴散模型高出一個數量級。但實際體驗是:沒有。第一條線索:Token 壓縮率可能遠超預期。 如果一張 1024×1024 的圖只需要 256 個 token 就能完整描述,對 Transformer 來說就是一次呼吸的事。這意味著 OpenAI 不僅做到了語義對齊,更在壓縮率上做到了極致,把高資訊密度濃縮到幾行字的程度。第二條線索:推理架構的深度最佳化。 混合架構中,自回歸生成的是粗粒度的語義 token,決定“畫什麼”,不負責“畫成什麼樣”。生成步驟大幅縮短,擴散模型只用在最後一小段“按圖施工”,而不是從頭噪到尾。第三條線索:投機解碼(Speculative Decoding)可能被用到了圖像側。 用一個更小的“草稿模型”快速生成候選 token,再由大模型一次性驗證,這套 LLM 推理加速經典技巧如果用在圖像 token 上,速度可以成倍提升。OpenAI 在 GPT-4 時代已把這套玩熟,移植到圖像側沒有原理障礙。所以結論是:GPT Image 2 的快,不是因為擴散模型變快了,而是因為可能它把最慢的語義規劃,從擴散模型手裡搶了過來,交給了擅長快速推理的 LLM。3.2比速度更影響體驗的,是與對話系統的整合。在傳統圖像生成工具中,例如 Midjourney 或基於 Stable Diffusion 的工作流,使用者通常通過編寫 prompt 來控制輸出結果。雖然這些工具已經支援諸如variations、inpainting和歷史記錄等功能,但整體流程仍然以“單次輸入 → 單次輸出”為主,使用者需要通過多次嘗試逐步逼近目標效果。這種過程在實踐中往往表現為反覆試錯:使用者根據結果調整 prompt,但模型對指令的理解程度並不完全透明,因此需要多輪迭代來校正偏差。相比之下,整合在對話系統中的圖像生成引入了連續上下文機制,改變了互動方式。使用者可以在多輪對話中逐步細化需求模型能夠利用對話歷史理解“當前修改”對應的對象或屬性修改請求可以以更自然語言的形式表達,而不需要一次性寫出完整 prompt例如,在多輪互動中,使用者可以先生成一個基礎場景,再逐步提出局部修改(如顏色、位置、風格)。最後,模型基於上下文生成新的結果。對話式互動還帶來另一個優勢:需求澄清能力clarification。將模糊的自然語言意圖,逐步轉化為更具體的生成條件,從而提高生成結果與使用者預期之間的一致性。結語在 GPT Image 2 出現之前,AI 生圖領域的討論框架是這樣的:“擴散模型的縮放定律還能走多遠?”“DiT 架構和 UNet 架構誰更優?”“Flow Matching 會不會取代 DDPM?”“多模態對齊的損失函數怎麼設計?”這些問題都有價值,但它們共享一個隱含前提:圖像生成是一個獨立的、需要專門架構來解決的問題。而GPT Image 2 給出的的回答是:不一定。如果我們把鏡頭再拉遠一點,GPT Image 2 的出現其實指向了一個更大的命題:世界模型。讓我們重新思考什麼是生成,以及世界。 (矽星人)
用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了
上周 Kimi K2 Thinking 發佈,開源模型打敗 OpenAI 和 Anthropic,讓它社交媒體捲起不小的聲浪,網友們都在說它厲害,我們也實測了一波,在智能體、程式碼和寫作能力上確實進步明顯。剛剛 Kimi 團隊,甚至創始人楊植麟也來了,他們在 Reddit 上舉辦了一場資訊量爆炸的 AMA(有問必答)活動。Kimi 團隊三位聯創,楊植麟、周昕宇、吳育昕參與回答面對社區的犀利提問,Kimi 不僅透露了下一代模型 K3 的線索、核心技術 KDA 的細節,還毫不避諱地談論了 460 萬的成本,以及與 OpenAI 在訓練成本、產品哲學上的巨大差異。460 萬美元這個數字不是官方的數字,具體的訓練成本很難量化到多少錢K3 什麼時候來,是看奧特曼的兆美中繼資料中心什麼時候建成K3 的技術將會繼續沿用,當前效果顯著的 KDA 注意力機制視覺模型還需要我們去採集更多的資料,但目前已經在做了……我們為你整理了這場 AMA 中最值得關注的幾個核心焦點,來看看這家現在算是國產開源老大的 AI 實驗室,是如何看待他們的模型,和未來 AI 的發展。叫板 OpenAI,「我們有自己的節奏」在這場 AMA 中,火藥味最足的部分,大概就是 Kimi 團隊對 OpenAI 的隔空回應。最大的噱頭之一:K3 什麼時候來?Kimi 團隊的回答非常巧妙:「在奧特曼的兆美中繼資料中心建成之前。」很明顯這一方面是幽默,因為沒有人知道 OpenAI 到底什麼時候才能建成那個資料中心,另一方面似乎也在回應外界對於 Kimi 能用更少資源追趕 GPT-5 的讚歎。當有網友貼臉開大,直接問 Kimi 怎麼看 OpenAI 要花這麼多錢在訓練上時,Kimi 坦言:「我們也不知道,只有奧特曼自己才知道」,並強硬地補充道,「我們有自己的方式和節奏。」這種自己的節奏,首先體現在產品哲學上。當被問到是否會像 OpenAI 一樣發佈 AI 瀏覽器時,團隊直言 No:我們不需要建立另一個 chromium 包裝器(瀏覽器套殼),來建構更好的模型。他們強調,目前的工作還是專注於模型訓練,能力的體現會通過大模型助手來完成。在訓練成本和硬體上,Kimi 也展現了精打細算的一面。社區好奇 K2 的訓練成本是否真的是傳聞中的 460 萬美元,Kimi 澄清了這個數字並不精準,但表示大部分的錢都是花在研究和實驗上,很難具體量化。至於硬體,Kimi 承認他們使用的是 H800 GPU 和 Infiniband,雖然「不如美國的頂級 GPU 好,而且數量上也不佔優勢」,但他們充分利用了每一張卡。模型的個性與 AI 的垃圾味一個好的模型,不僅要有智商,還要有個性。很多使用者喜歡 Kimi K2 Instruct 的風格,認為它「比較少的諂媚,同時又像散文一樣,有洞察力且獨特」。Kimi 解釋說,這是「預訓練(提供知識)+ 後訓練(增添風味)」共同作用的結果。不同的強化學習配方(即獎勵模型的不同選擇)會得到不同的風格,而他們也會有意的把模型設計為更不諂媚。大語言模型情商評估排名,圖片來源:https://eqbench.com/creative_writing.html但與此同時,也有使用者直言 Kimi K2 Thinking 的寫作風格太「AI Slop 垃圾」,無論寫什麼話題,風格都太過於積極和正面,導致讀起來 AI 味就是很重。他還舉例子說,要 Kimi 寫一些很暴力很對抗的內容時,它還是把整體的風格往積極正面那邊去靠近。Kimi 團隊的回答非常坦誠,他們承認這是大語言模型的常見問題,也提到現階段的強化學習,就是會刻意地放大這種風格。這種使用者體感與測試資料的矛盾,也體現在對 Benchmark(跑分)的質疑上。有網友尖銳地提問,Kimi K2 Thinking 是不是專門針對 HLE 等跑分進行了訓練,才會取得如此高分?畢竟這麼高的分數,好像和他實際使用中的智能不太匹配。對此,Kimi 團隊解釋說,他們在改進自主推理方面取得了一些微小的進展,這剛好讓 K2 Thinking 在 HLE 上得分很高。但他們也坦誠了努力的方向,要進一步提升通用能力,以便在更多實際應用場景中和跑分一樣聰明。網友還說,你看馬斯克的 Grok 因為做了很多 NSFW (非工作安全) 的工作,生成圖片和視訊;Kimi 完全可以利用自己的寫作優勢,讓它完成一些 NSFW 的寫作,一定能為 Kimi 帶來很多的使用者。Kimi 只能笑而不語,說這是一個很好的建議。未來是否會支援 NSFW 內容,可能還需要找到一些年齡驗證的方法,也需要進一步做好模型的對齊工作。很明顯,現階段 Kimi 是不可能支援 NSFW。核心技術揭秘:KDA、長推理與多模態作為一家被稱為「開源先鋒實驗室」的公司,而 Reddit 本身就是也是一個非常龐大和活躍的技術社區,Kimi 也在這次的 AMA 中,分享了大量的技術細節。10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的論文,詳細介紹了一種新型混合線性注意力架構 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。KDA 演算法實現,論文連結:https://arxiv.org/pdf/2510.26692通俗來說,注意力(Attention)就是 AI 在思考時,決定應該重點關注上下文那些詞語的機制。和常見的完全注意力和線性注意力不同,KDA (Kimi Delta Attention),是一種更智能、更高效的注意力機制。在這次 AMA 活動中,Kimi 也多次提到,KDA 在長序列強化學習場景中展現了性能提升,並且 KDA 相關的想法很可能在 K3 中應用。但 Kimi 也坦言,技術是有取捨的。對大多數大模型任務來說,目前混合注意力的主要目的是節省計算成本,並不是為了更好的推理;在長輸入和長輸出任務上,完全注意力的表現依然是更好的。那麼,Kimi K2 Thinking 是如何做到超長推理鏈的呢,最多 300 個工具的思考和呼叫,還有網友認為甚至比 GPT-5 Pro 還要好?Kimi Linear 模型結構Kimi 認為這取決於訓練方式,他們傾向於使用相對更多的思考 token 以獲得最佳結果。此外,K2 Thinking 也原生支援 INT4,這也進一步加速了推理過程。我們在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化訓練技術,這是一種高效的量化技術(INT4 QAT),Kimi 沒有訓練完再壓縮,而是在訓練過程中,就保持了低精度運算模型。這能帶來兩個巨大的優勢,一個是推理速度的提升,一個是長鏈條的推理,不會因為訓練完再進行的壓縮量化,而造成邏輯崩潰。最後,關於外界期待的視覺語言能力,Kimi 明確表示:目前正在完成這項工作。之所以先發佈純文字模型,是因為視覺語言模型的資料獲取,還有訓練,都需要非常多的時間,團隊的資源有限,只能優先選擇一個方向。生態、成本與開放的未來對於開發者和普通使用者關心的問題,Kimi 團隊也一一作答。為什麼之前能處理 1M 上下文的模型消失了?Kimi 的回答言簡意賅:「成本太高了。」而對於 256K 上下文在處理大型程式碼庫時依然不夠用的問題,團隊表示未來會計畫增加上下文長度。在 API 定價上,有開發者質疑為何按「呼叫次數」而非 token 收費。對使用 Claude Code 等其他智能體工具進行程式設計的使用者來說,基於 API 請求次數的計費方式,是最不可控且最不透明的。在傳送提示之前,使用者根本無法明確工具將發起多少次 API 呼叫,或者任務將持續多長時間。Kimi 會員計畫Kimi 解釋說,我們用 API 呼叫,是為了讓使用者更清楚的知道費用是怎麼消耗的,同時符合他們團隊的成本規劃,但他們也鬆口表示會看看是否有更好的計算方法。當有網友提到自己公司不允許使用其他聊天助手時,Kimi 藉機表達了他們的核心理念:我們擁抱開源,因為我們相信通用人工智慧應該是一個帶來團結而不是分裂的追求。而對於那個終極問題——AGI 什麼時候到來?Kimi 認為 AGI 很難定義,但人們已經開始感受到這種 AGI 的氛圍,更強大的模型也即將到來。和去年瘋狂打廣告行銷的 Kimi 不同,在這場 AMA 裡,楊植麟和團隊成員的回答;確實能讓人感受到在國產開源,逐漸佔據全球大語言模型開源市場的背景下,Kimi 也更加有底氣,更明確了自己的節奏。而這個節奏很明顯,就是在這場燒錢、甚至卷太空的 AI 競賽中,繼續走開放原始碼的路,才能推動技術往前走。 (APPSO)
禮來聯手輝達建製藥業最強超算和AI工廠:加速藥物研發,發現人類無法找到的分子
禮來公司攜手輝達打造由逾1000顆Blackwell Ultra GPU組成的超級電腦和AI工廠,預計明年1月上線。該系統將加速藥物研發,支援大規模AI模型訓練。禮來首席資訊和數字官Diogo Rau表示:“我們希望能夠發現僅靠人類永遠無法發現的新分子。”禮來公司與輝達宣佈合作建設製藥行業"最強大"的超級電腦和AI工廠,旨在加速整個行業的藥物開發處理程序。周二兩家公司宣佈,禮來預計於12月完成超級電腦和AI工廠的建設,並於明年1月上線運行。這套系統將由逾1000顆輝達Blackwell Ultra GPU晶片組成,通過統一高速網路連線。超級電腦將為AI工廠提供動力,後者是專門用於大規模開發、訓練和部署藥物研發AI模型的計算基礎設施。不過禮來首席資訊和數字官Diogo Rau表示,這些新工具可能短期不會為禮來及其他藥企帶來顯著回報。Rau說:我們現在討論的這些算力發現成果,真正的效益要到2030年才能看到。AI製藥仍處早期階段製藥行業利用AI加速藥物上市的努力仍處於早期階段。目前尚無使用AI設計的藥物上市,但進展體現在進入臨床試驗的AI發現藥物數量增加,以及藥企近期聚焦AI的投資和合作夥伴關係上。禮來首席AI官Thomas Fuchs表示:這台超級電腦是一種真正新穎的科學儀器,就像生物學家的巨型顯微鏡。Fuchs強調:科學家將能夠在數百萬次實驗中訓練AI模型以測試潛在藥物,大幅擴展藥物發現的範圍和複雜程度。Rau則指出,雖然尋找新藥不是這些新工具的唯一重點,但"這是最大的機會所在"。他說:我們希望能夠發現僅靠人類永遠無法發現的新分子。精準醫療目標需AI基礎設施禮來還計畫利用超級電腦縮短藥物開發周期,幫助治療效果能更快起效。該公司表示,新的科學AI代理可以支援研究人員,先進的醫學影像能讓科學家更清晰地觀察疾病進展,並幫助開發用於精準治療的生物指標。精準醫療是一種根據個體基因、環境和生活方式差異定製疾病預防和治療的方法。輝達醫療保健副總裁Kimberly Powell說:我們希望能兌現精準醫療的承諾,沒有AI基礎設施,我們永遠無法實現這一目標。所以我們正在進行所有必要的建設,我們將看到技術的起飛,禮來就是一個確切的例子。開放平台共享研發資料多個AI模型將在禮來去年9月推出的Lilly TuneLab平台上提供。這是一個AI和機器學習平台,允許生物技術公司訪問禮來基於多年專有研究訓練的藥物發現模型。這些資料價值10億美元。禮來推出該平台旨在擴大整個行業對藥物發現工具的訪問。Kimberly Powell表示:能夠幫助到這些初創公司非常有意義,否則他們可能需要幾年時間消耗資金才能達到那個階段。她還補充說,公司“很高興參與”這項工作。作為交換,生物技術公司需要貢獻部分自身研究和資料以幫助訓練AI模型。 (invest wallstreet)
高盛發佈重磅報告:電力成為AI發展的最大瓶頸,AI基礎設施面臨挑戰
一個 250 兆瓦的 AI 資料中心上線成本高達 120 億美元,而到 2030 年全球資料中心的電力需求將暴增 160%——這組數字背後,是一場正在重塑全球基礎設施格局的資本競賽。近日,高盛集團投資銀行部門發佈報告《驅動人工智慧時代》,在這份 26 頁的報告中,高盛用一系列數字說明:制約當前 AI 發展潛力的最大瓶頸,可能不是資本或其他因素,而是驅動這些龐大算力設施運轉的電力供應。01 從鋼鐵到矽片,一部基礎設施的百年敘事為了說明當前挑戰的艱巨性,高盛追溯了一條長達一個半世紀的基礎設施投資脈絡。19 世紀的美國,鐵路是絕對的經濟引擎,其股票一度佔到股市總市值的 80%。到 1900 年,超過 21.5 萬英里的鐵軌連接起整個國家,不僅催生了郵購零售這樣的新行業,也讓中西部的農產品得以走向世界。為支援如此浩大的工程,最早的投資銀行應運而生,它們的核心任務就是將歐洲的資本引入美國的鐵路建設。進入 20 世紀,電氣化浪潮接踵而至。在 1920 年代的十年間,美國的公用事業公司籌集了巨額資金(相當於今天的 2,950 億美元),為電網增加了 50 吉瓦的容量。電力的普及不僅點亮了生活,更通過福特的流水線等創新,徹底改變了工業生產的效率。為了應對激增的電力需求,公用事業公司創造了控股公司的模式,以便獲得更低成本的融資並擴大規模。離我們更近的則是網際網路時代的基礎設施建設。據高盛估算,在網際網路泡沫前後,全球在光纖、寬頻和伺服器等核心設施上的投資總額超過了 8,000 億美元。到 2001 年,全球鋪設的光纖電纜長達 3,900 萬英里。這些資訊高速公路讓資料傳輸的成本越來越低,速度越來越快,最終孕育了我們今天所熟知的數字經濟。與此相應,資本市場也演化出了風險投資、活躍的併購市場和不斷擴張的信貸工具,為這場資訊革命提供了充足的彈藥。如今輪到人工智慧了。高盛測算,建設一個典型的 250 兆瓦 AI 資料中心,連同內部的計算裝置,平均成本高達 120 億美元。更關鍵的是,到 2030 年,全球資料中心的電力需求預計將飆升 160%,這主要是由那些能耗極高的 GPU 驅動的。而我們現有的電網,顯然沒有為這樣的未來做好準備。02 資料中心的代際革命要理解 AI 對基礎設施的特殊要求,首先需要瞭解資料中心自身正在發生的技術變革。在生成式 AI 興起之前,雲端運算是主流。企業將資料和業務從本地伺服器遷移到大型資料中心的共享伺服器上,亞馬遜、Google等科技巨頭通過“超大規模”營運,有效降低了計算和儲存的成本。那時的雲資料中心主要依靠傳統的 CPU 和空氣冷卻系統。在過去十年裡,儘管雲端運算快速發展,但資料中心的總用電量卻基本保持平穩,這主要得益於能效的持續提升。然而,這部分效率紅利已基本耗盡。運行 AI 所需的基礎設施,無論在複雜度還是資源密度上,都呈指數級增長。根據輝達在 2025 年 GTC 大會上發佈的資料,到 2027 年,一個 AI 伺服器機架的功耗將是五年前同類雲端運算裝置的 50 倍。GPU 的能耗遠超 CPU,其密集的計算叢集產生巨大熱量,必須依賴複雜的液體冷卻系統才能正常工作。報告將資料中心的發展劃分為四個階段:最初的“雲資料中心 1.0”,每個機架的功率只有 5 到 15 千瓦;經過初步改造的 AI 資料中心,功率提升至約 40 千瓦;過渡時期的 AI 資料中心則達到 130 至 200 千瓦,開始混合使用液冷和風冷;而最新的“AI 工廠”,其單機架功率已超過 500 千瓦,完全依賴液冷技術。(來源:Goldman Sachs)這種技術上的飛躍帶來了巨大的投資需求。據 New Street Research 的預測,到 2027 年,超大規模科技公司在 AI 技術上的投資累計將達到 1 兆美元。除了這些傳統巨頭,一批“新雲”公司也正在湧現,它們同樣在 GPU 和資料中心上投入數十億美元。值得注意的是,AI 的計算需求並非在擠佔傳統雲端運算的預算,而是在此基礎上創造了新的、更龐大的增量市場。根據 OpenRouter 的資料,從 2024 年 6 月到 2025 年 5 月,衡量計算量的關鍵指標——每周消耗的總 token 數,增長了超過 42 倍。(來源:Goldman Sachs)03 訓練與推理的不同邏輯AI 模型的訓練過程——即教會模型識別模式並生成內容——是整個環節中能耗最密集的部分,它需要專門的資料中心園區,配備海量的高功率 GPU、穩定的電力供應和先進的冷卻系統。由於模型訓練不直接與終端使用者互動,因此對地理位置的要求不高。開發者們傾向於選擇土地和電力成本低、監管環境友好的地區,比如美國中西部的愛荷華州、內布拉斯加州,或是氣候涼爽的北歐和東南亞部分地區。一個最典型的例子就是由 OpenAI、甲骨文和軟銀聯合發起的“星門”(Stargate)計畫,該計畫投資高達 5,000 億美元用於數字和能源基礎設施建設。其首個資料中心就選址在德克薩斯州的阿比林,一個能源豐富、人口稀少的地區。但當模型訓練完成並投入使用,進入“推理”階段(例如我們使用 ChatGPT 進行對話),情況就有所不同。推理雖然計算強度稍低,但對速度和延遲的要求極高,這意味著資料中心需要儘可能靠近終端使用者。AI 技術的突破往往難以預測,如果推理應用的發展速度超過預期,那麼那些為訓練而建在偏遠地區的資料中心,其價值就可能面臨挑戰。但無論如何,眼下資料中心的市場需求正遠超供應。全球資料中心的空置率已降至 3% 的歷史低點,在熱門市場更是接近於零,而新的大規模電力供應往往要到 2028 年以後才能到位。因此,全球在建資料中心的總面積已超過 5,000 萬平方英呎,是五年前的兩倍。即使不考慮電力限制,滿足這種需求所需的資本規模也是前所未有的。04 電是比錢更稀缺的資源高盛指出,當前制約 AI 發展的最大瓶頸,已經不是資本而是電力。在經歷了十年的平穩期後,全球資料中心的電力需求預計到 2030 年將激增 160%。這是一個驚人的數字,而我們現有的電網系統,其基礎設施的平均“年齡”已高達 40 年,完全沒有為這種爆發式增長做好準備。一邊是日新月異的 AI 技術,另一邊是老化的電網,這種結構性的脫節,正成為整個行業必須解決的關鍵難題。在美國,要擴大電力產能,需要克服繁瑣的監管審批、漫長的許可流程和供應鏈等重重障礙。過去十幾年,得益於廉價的天然氣、成本不斷下降的風能和太陽能,以及較低的利率,美國的電價一直保持在低位。但這也導致了一個意想不到的後果:可再生能源的間歇性發電衝擊了電網的穩定性(即著名的“鴨子曲線”(duck curve)現象),削弱了能夠提供 24/7 穩定電力的燃煤和核電廠的盈利能力,加速了它們的退役。如今,電網缺乏足夠的“基荷電力”來滿足預期的需求高峰。要解決這個問題,不僅需要簡化新項目的審批流程,還需要更智能的電網規劃和更靈活的需求側管理。好消息是,不斷上漲的電價和傳統發電裝置的漫長交付周期,正在倒逼行業加速對碳捕獲、分佈式能源、長時儲能等新技術的研發和應用。05 公用事業公司的艱難抉擇這場能源轉型也讓美國的公用事業公司陷入了兩難境地:一方面是服務公眾的使命和亟待更新的老化設施,另一方面是遠超傳統模式預期的電力需求增長。在過去十年裡,公用事業部門的資本支出已經翻了一番,不僅是為了滿足新增負荷,也是為了加固電網以應對極端天氣,並替換老舊裝置。許多電力公司對於大規模投資新資產心存疑慮,擔心重蹈過去投資過度、資產閒置的覆轍。AI 晶片能效的潛在突破,也讓一些人質疑這種電力需求的暴增是否能夠持續。但 AI 行業的領導者們普遍認為,隨著企業應用和雲服務的深度融合,以及智能體 AI (Agentic AI)的普及,計算需求只會持續增長,效率的提升無法抵消總量的擴張。因此,電力公司開始為資料中心這類用電大戶探索新的電價結構,例如“照付不議”合同(無論用不用都要付錢)、要求客戶預付部分建設資本,或是簽訂長期的容量承諾,以降低自身的投資風險。電力公司與科技巨頭之間的合作也日益緊密,例如 Entergy 與 Meta 的合作,就是為了共同開發發電和輸電項目,確保資料中心獲得長期可靠的電力。當然,這類項目也引發了監管機構的擔憂,即是否會將成本轉嫁給普通居民。從 2019 年到 2024 年,美國平均電費上漲了 23%,如何平衡大型工業使用者和居民使用者的利益,將是一個持續的挑戰。發電只是問題的一半,將電力輸送出去同樣是個瓶頸。在美國,新建一座天然氣發電廠並將其接入電網,通常需要 5 到 7 年時間。AI 帶來的強勁需求已經重新點燃了市場對天然氣的興趣,並催生了大型併購交易。2025 年 1 月,美國最大的清潔能源生產商星座能源宣佈以 291 億美元收購最大的天然氣發電商 Calpine,這筆交易正是在電力需求激增的大背景下發生的。高盛研究估計,到 2030 年,僅美國的電網就需要超過 7,000 億美元的投資。要緩解項目審批的延誤,聯邦層面的政策支援至關重要。隨著電網壓力的不斷增大,相關的改革法案預計將獲得更多關注。06 尋求多元化的能源解決方案面對漫長的審批和供應鏈難題,資料中心營運商和科技巨頭必須同時規劃短期(5 年內)和長期(10-15 年)的電力解決方案。高盛的研究團隊預測,到 2030 年,新增的資料中心電力需求中,約 60% 需要由新建的發電設施來滿足,其構成可能包括 30% 的天然氣聯合循環發電、30% 的天然氣調峰電廠、27.5% 的太陽能和 12.5% 的風能。(來源:Goldman Sachs)儘管新建天然氣電廠耗時漫長,但可再生能源是目前最快、最有效的補充電力的方式。然而,風能和太陽能的間歇性使其無法單獨滿足資料中心所需的全天候穩定電力,而現有的電池技術還無法實現足夠長時間的儲能。因此,儘管可再生能源是能源結構中不可或缺的一部分,但它還無法完全解決問題。不過,隨著鈉離子電池等新技術的進步,這種情況未來可能會改變。核能正重新回到人們的視野中。科技公司在謹慎投資的同時,也在積極探索利用核能的各種方式。它們傾向於通過簽訂長期購電協議來鎖定未來的電力供應,而不是直接承擔核電站的建設風險。例如,Alphabet 已與 Elementl Power 合作,為建設先進核能預留了三個廠址。微軟則通過一份長達 20 年的長期購電協議,支援重啟著名的三里島核電站一號機組。核能的優勢在於能提供可靠、穩定且零碳的基荷電力,這與資料中心的需求完美匹配。不過,核電項目歷史上普遍存在成本超支和工期延誤的問題,這對傳統的融資模式構成了挑戰。例如,2023 年上線的 Vogtle 3 號機組,其最終成本比原預算高出一倍多,工期也晚了七年。不過,該項目的成功也驗證了西屋公司 AP1000 技術的有效性,為後續機組的建設積累了寶貴經驗。要推動核能的復興,需要強有力的政策支援來分擔早期項目的風險,直到行業實現標準化的規模建設。與此同時,小型模組化反應堆(SMR,Small Modular Reactor)作為一種更靈活、更安全的核能選項,也正受到科技巨頭的密切關注。07 “表後供電”:一種創新的應對之策面對公共電網的種種限制,許多科技公司和資料中心開發商開始採取一種更為激進的策略——“表後供電”(behind the meter),即自己成為自己的電力供應商。對於那些急需穩定電力的項目,所有選項都值得考慮,甚至包括繞開公共電網。漫長的並網排隊時間,促使許多營運商開始探索在資料中心園區內直接建設微電網,或者乾脆將資料中心建在發電廠旁邊。在後一種方案中,資料中心直接從發電廠購電,無需經過公共電網的傳輸,從而大大縮短了項目上線的時間。此外,一些能源服務公司也開始提供一站式的分佈式能源解決方案,從太陽能、儲能到微電網和現場發電,幫助大型使用者在需求高峰時段增強供電的可靠性、減少排放並緩解電網壓力。在 2021 年德州大停電期間,PowerSecure 公司的微電網系統就為客戶提供了超過 2.26 吉瓦時的可靠電力。當然,這種“自給自足”的模式也帶來一些爭議。在美國孟菲斯,xAI 的 Project Colossus 就因其發電設施造成的污染而遭到當地社區的投訴。一些將資料中心與核電站建在一起的計畫,也因可能推高當地電價而被聯邦能源監管委員會叫停。(來源:xAI)08 地緣政治棋盤上的新遊戲這場基礎設施競賽的影響已遠遠超出了商業和技術的範疇,正在成為地緣政治博弈的新領域。資料常被稱為數字時代的“新石油”,但與受地理位置限制的石油不同,資料中心的選址具有高度的戰略靈活性。一個國家能否吸引全球領先的 AI 資料中心落地,正成為其在未來數字經濟中影響力的重要體現。目前,美國資料中心的供需缺口正在持續擴大。據華爾街機構預測,到 2028 年,這一缺口將超過 10 吉瓦。這意味著美國需要與全球夥伴合作,將部分計算任務,特別是對延遲不那麼敏感的模型訓練,轉移到海外。通過精心規劃的 AI 基礎設施投資,各國可以加強盟友關係,提升自身的經濟競爭力。創始人、科技巨頭和投資者們早已將目光投向全球。中東和拉丁美洲正迅速崛起為新的資料中心熱點。巴西憑藉其超過 90% 的可再生能源發電比例,吸引了數十億美元的投資。然而,全球擴張也伴隨著風險。在一些電力本就緊張的地區建設耗能巨大的資料中心,可能會加劇當地的資源不平等。同時,資料中心作為承載敏感資訊的關鍵節點,也帶來了資料主權、供應鏈安全和地緣政治風險等多重挑戰。09 資本市場的創新時刻2024 年,全球超大規模科技公司的資本支出平均每天高達 8 億美元。與此同時,美國公用事業部門的年度資本支出也達到了 2,000 億美元。隨著基礎設施和資金需求的持續增長,如何高效地獲取和部署資本,將是成功的關鍵。戰略合作,以及公私資本的創新結合,正在為這個新領域創造機會。合資企業成為一種越來越普遍的模式,它能夠整合來自公共養老基金、主權財富基金和資料中心營運商等不同參與方的專業知識和資本。2024 年,美國房地產投資信託基金 Equinix 與加拿大養老金計畫投資委員會、新加坡政府投資公司 GIC 成立合資企業,計畫籌集 150 億美元用於在美國擴張超大規模資料中心,便是一個很好的例子。手握超過 4 兆美元“干火藥”(即可用投資金)的金融機構(根據 Preqin 2024 年 9 月資料),也迫切希望在 AI 基礎設施領域找到回報可觀的投資機會。目前,AI 生態系統的融資還比較分散,從土地、電力到晶片,每個環節都有不同的解決方案。但隨著資料中心規模的不斷擴大,市場需要更全面、更整合的金融方案,為資本的可用性和價格提供更大的確定性。高盛在報告中提出了幾種長期的資本策略,例如圍繞已經穩定營運的資料中心開發專門的股權基金,或者通過最佳化風險分配來吸引保險公司、養老金等長期資本的加入。其新成立的“資本解決方案集團”,也正是為了應對這種複雜的需求,通過整合諮詢、融資和投資能力,為客戶量身定製解決方案。10 一個仍在書寫的故事高盛的這份報告並未給所有問題提供答案,它坦言“無法精確預測未來十年會如何演變”。但它清晰地勾勒出了一個框架:AI 是一種將滲透到每個行業和地理位置的經濟力量。計算與電力的這種交匯正在創造新的緊迫性。從 19 世紀的鐵路到 21 世紀的 AI 資料中心,每一次技術革命都需要三要素:願景、基礎設施和資本。AI 的願景已經無比清晰,基礎設施的藍圖也日漸明確,而資本,正在以前所未有的規模和創新的形式湧入這個領域。AI 時代的基礎設施競賽才剛剛開始。電力瓶頸、審批延誤、技術不確定性和地緣政治風險,每一個都是巨大的挑戰。但正如歷史所揭示的,每一次偉大的基礎設施建設浪潮都伴隨著懷疑和困難。最終的勝利者,將屬於那些能在不確定性中看到機遇,在複雜性中建構解決方案的人。這不僅是一個價值數兆美元的投資故事,更是一個關乎下一代技術革命能否成功的關鍵所在。 (DeepTech深科技)
輝達祭出NVFP4核彈:大模型訓練根本性轉變,GB300效率狂飆7倍
最近這幾天因為DeepSeek這句話徹底了引爆了國產晶片和股市:DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數精度,UE8M0 FP8是針對即將發佈的下一代國產晶片設計沒想到輝達今天直接放出王炸,推出了一種新的格式NVFP4,這個NVFP4能以 4-Bit 的速度與效率,實現 16-Bit 的生產件級訓練精度,毫不誇張的說使用 NVFP4 進行模型預訓練,標誌著 LLM 開發的重大飛躍,這是對如何大規模訓練大型模型的一次根本性轉變NVFP4 訓練目前仍處於研究階段,正在探索和驗證 4-bit 精度在大型模型預訓練中的潛力。NVIDIA 正在與亞馬遜雲科技(AWS)、Cohere、Google雲、Kimi AI、微軟 AI、Mistral、OpenAI、Perplexity、Reflection 和 Runway 等領先組織積極合作,持續圍繞 NVFP4 進行協同攻關什麼是 4-bit 量化?4-bit 量化是指將模型權重和啟動值的精度降低到僅 4 位元的過程——這與典型的 16-bit 或 32-bit 浮點格式相比是顯著的下降使用 4-bit 進行預訓練極具挑戰性,因為必須非常小心地處理梯度和更新,以在提高整體訓練速度的同時保持精準性。這需要專門的技術和方法,在將高精度張量對應到更小的一組量化值的同時保持其有效性更少的位元如何為 AI 工廠解鎖更強能力訓練後量化(PTQ)已證明 NVFP4 在提升推理吞吐量方面是一個力量倍增器,同時保持了準確性。但一個挑戰仍然存在於上游的預訓練階段——在這裡,基礎模型仍然依賴 BF16 或 FP8 來保證穩定性和收斂性。訓練是 AI 工廠消耗大部分計算、電力和時間的地方。電力預算是固定的,GPU 周期是稀缺資源,因此開發者必須充分利用每一個位元、每一個令牌和每一個訓練周期(epoch)。在這裡,吞吐量不是一個抽象的指標——它直接決定了可以建構的模型規模、可以運行的實驗數量以及取得突破的速度。這正是 4-bit 精度變得具有變革性的地方。通過削減記憶體需求、提升算術吞吐量和最佳化通訊,4-bit 預訓練使 AI 工廠能夠用相同的硬體處理更多的令牌。通過正確的量化方法,它可以提供與 FP8/BF16 相媲美的精準性,同時顯著提高吞吐量——從而解鎖更快的收斂周期、單位算力下更多的實驗次數,以及擴展到前所未有的前沿模型。換句話說,更少的位元不僅節省了成本——它們還擴展了 AI 所能達到的前沿核心方法解讀:用於預訓練的 NVFP4 量化方法為了實現 4-bit 精度的預訓練,輝達開發了一套專用的 NVFP4 預訓練方法,旨在解決大規模訓練中的核心挑戰:動態範圍、梯度波動性和數值穩定性Blackwell 是 輝達 首款原生支援 FP4 格式的架構。GB200 和 GB300 提供的海量 FP4 FLOPs 吞吐量通過加速低精度矩陣運算,同時保持大型模型收斂所需的規模和平行性,實現了高效的 4-bit 訓練下圖展示了 Blackwell Ultra 的實測 GEMM(通用矩陣乘法)性能,其速度比 Hopper 架構提升了 7 倍。現代 LLM 從根本上依賴矩陣乘法作為其核心計算元素,尤其是在其全連接層或線性層中。這使得這些運算的效率至關重要。由於 FP4 精度能夠實現更快、更高效的運算執行,所觀察到的 GEMM 加速意味著整個預訓練過程——從前向傳播到梯度更新——都運行得更快,從而縮短了訓練時間,同時支援了更大規模模型的快速開發為了實現高效的低精度訓練,輝達的 NVFP4 預訓練方法利用了若干基於其性能和精準性而挑選的關鍵技術。這些技術包括:通過 NVFP4 的微塊縮放增強數值表示: Blackwell 引入了對 NVFP4 的原生 Tensor Core 支援。NVFP4 是一種用於權重和啟動值的 4-bit 數字格式,它使用微塊縮放技術——即每組 16 個 4-bit 元素共享一個共同的縮放因子。與 MXFP4 相比,NVFP4 將塊大小從 32 個元素減少到 16 個,從而最大限度地減少了異常值的影響,並實現了更精確的縮放。這種更精細的粒度降低了量化誤差,並提高了整體模型精準性使用 E4M3 縮放因子進行 NVFP4 高精度塊編碼: 縮放因子的精度對量化質量和精準性起著至關重要的作用。與 MXFP4 不同,MXFP4 僅限於 2 的冪次方的縮放因子(E8M0),容易產生較高的舍入誤差。而 NVFP4 使用更高精度的 E4M3 縮放因子,並帶有額外的尾數位。這允許更細粒度的縮放、更好地利用有限的量化區間,以及更準確地表示塊內的數值重塑張量分佈以適應低精度格式: LLM 預訓練期間的梯度和啟動值往往帶有較大的異常值,這會影響低精度量化。對 GEMM 的輸入應用哈達瑪變換(Hadamard transforms)有助於將其分佈重塑為更接近高斯分佈的形態,從而平滑異常值,使張量更容易被精準表示。這些變換對模型架構是透明的,可以應用於前向和後向傳播中的線性層。通過量化技術保持保真度: 為了確保穩定高效的訓練,輝達採用的量化方法能夠保持前向傳播和後向傳播之間的一致性。諸如選擇性二維塊式量化等技術有助於在整個訓練周期中維持張量表示的對齊。這種一致性對於最大限度地減少訊號失真、改善收斂行為和增強整體魯棒性至關重要——尤其是在使用像 NVFP4 這樣的低精度格式時。通過隨機舍入減少偏差: 與傳統的(確定性)舍入總是將梯度舍入到最接近的可表示數值不同,隨機舍入確保梯度是隨機向上或向下舍入的,其機率與一個數離兩個可表示值之間的距離成正比。這一步驟對於減少舍入偏差、在訓練期間維持梯度流,並最終提高模型精準性至關重要實驗驗證:兆級令牌規模下的精準性與穩定性為了進行模型訓練,輝達在一個基於 Mamba-Transformer 混合架構的 120 億參數模型(12B Hybrid Mamba-Transformer model)上,使用 FP8 和 NVFP4 進行了實驗——該模型類似於 NVIDIA Nemotron Nano 2。這個模型在一個包含 10 兆令牌的大規模資料集上進行訓練,採用了分階段資料混合方法,在訓練的 70% 切換到不同的資料集組合,在 90% 時再次切換。該 12B 混合 Mamba-Transformer 模型的一個版本最初使用 8-bit 精度(FP8)進行訓練,此前的研究已證明 FP8 能與 16-bit 精度高度匹配,因此輝達將其作為比較的基準。隨後,研究人員成功地使用 NVFP4 從頭開始訓練了同一個 12B 模型,證明了這種新的低精度格式能夠支援兆級令牌規模的完整預訓練。NVFP4 的運行展現了穩定的收斂性,沒有出現通常困擾超低精度訓練的訓練不穩定或發散問題下圖顯示,在整個訓練期間,NVFP4 的驗證損失曲線與更高精度的基準(即 FP8)的損失曲線高度吻合。上文概述的量化技術確保了即使在激進的位寬縮減下,4-bit 預訓練的動態過程也與高精度運行非常相似接著,輝達將使用 NVFP4 預訓練的 12B 混合 Mamba-Transformer 模型與更高精度的 FP8 基準模型在一系列下游任務和智能領域進行了比較。下圖表明,在所有領域中,NVFP4 的性能都與 FP8 相當,突顯了其有效性。這一發現強化了最初的假設:NVFP4 是一個強大的選擇,即使在兆級令牌規模下預訓練 LLM 也能勝任——突顯了其在高效大規模前沿模型訓練中的潛力寫在最後很明顯國內以DeepSeek為代表正在推動國產晶片推理和訓練,UE8M0 FP8還僅僅是國產晶片推理側的設計,訓練側任重道遠,國際上輝達作為壟斷性的存在也沒躺在王座上啥都不干,這個NVFP4作為一個標準估計很快就會顯示出強大威力 (AI寒武紀)