#AI模型
僅用38分鐘!深圳一初創企業跑通DeepSeek新模型國產晶片適配
1月27日,DeepSeek團隊發佈了DeepSeek-OCR-2模型。來自深圳的智子芯元公司運用自主研發的KernelCAT工具,僅用38分鐘就完成了這款模型在華為昇騰平台的自動化部署和推理驗證。什麼是AI模型適配?AI模型就像一套複雜的指令,不同的晶片能聽懂的語言不一樣。而AI模型適配國產晶片,就是讓模型能在國產晶片上正常運行,還能發揮晶片性能。過去,適配工作主要依靠工程師進行,不僅耗時久,還相當依賴個人經驗,複雜模型往往需要好幾天才能實現適配。而KernelCAT採用“AI+數學運籌最佳化”雙驅動的算子開發範式,將DeepSeek-OCR-2模型自動遷移至昇騰CANN平台僅用約38分鐘,遷移過程中開發者無需進行反覆試錯或深度干預,相關問題由KernelCAT在執行過程中自動處理,直至完成既定的模型遷移任務。昇騰平台(Ascend)是華為面向全場景AI打造的端邊雲協同全端軟硬體與生態體系,核心是“硬體開放、軟體開源”,為AI訓練/推理提供自主可控的國產算力底座 。據微信公眾號“昇騰CANN”發佈消息,在前序模型DeepSeek-OCR部署任務中,KernelCAT給出的方案較原生Transformers方案的加速效果可達139倍。這一結果表明,在KernelCAT支援下,複雜OCR模型可以在國產算力平台上實現可用、穩定、可復現的工程落地。深圳現有人工智慧企業2600余家智子芯元(深圳)科技有限公司由深圳市巨量資料研究院孵化,成立僅5個月。公司專注於以“數學+AI”最佳化AI計算,通過自動化方式生成高性能算子,持續推動算力底層創新。公司聯合創始人丁添此前在接受媒體採訪時表示,“我們不僅在做一家公司,更在探索數學與AI最本質的結合如何轉化為產業生產力,為這座城市的‘硬’產業,修好最關鍵的那條‘軟’路。”作為國家新一代人工智慧創新發展試驗區和創新應用先導區,深圳擁有良好產業基礎、廣闊市場空間和強勁創新活力,近年來,像智子芯元這樣聚焦晶片、大模型等關鍵賽道攻堅的企業不斷湧現,已成為深圳人工智慧產業的核心競爭力。同時,《深圳市加快打造人工智慧先鋒城市行動計畫(2025—2026年)》《深圳市加快推進人工智慧終端產業發展行動計畫(2025—2026年)》等多項政策接連出台,從政策支援、場景開放、創新賦能、要素保障等維度為人工智慧產業發展提供有力支撐。目前,深圳市人工智慧產業規模位居全國前列,連續兩年實現兩位數增長。現有人工智慧企業2600余家,產業鏈覆蓋晶片、模型、硬體及應用等全環節。 (深視新聞)
蘋果,低頭了
2026 年 1 月,蘋果與Google確認達成合作,Gemini 將成為 Apple Intelligence 體系的重要技術支撐之一,並用於包括新版個性化 Siri 在內的多項系統級 AI 功能。這並不是一次簡單的 API 接入,而是涉及模型能力、雲端計算以及系統層級整合的深度合作。對外界來說,這個消息的衝擊力,甚至超過了很多具體功能本身:過去三年裡,蘋果在 AI 領域畫過的餅太多,但真正落地的成果太少。WWDC 上展示過的「更懂上下文的 Siri」「能跨應用執行複雜操作的 Siri」更是一次次延期,直到 2026 年,這些能力依然沒有完整交付。圖片來源:Apple而這一次,蘋果沒有繼續強調「完全自研」,而是選擇直接引入 Gemini 作為核心能力來源。更有消息稱,這個全新的 Siri 不久後就會在 iOS 27 的測試版中亮相。考慮到 Siri 和 Apple Intelligence 的畫餅歷史,雷科技對更智能的 Siri 始終持懷疑態度。而這次蘋果與Google的合作,至少說明了一件事——蘋果已經不再堅持「凡事都要自己來」了。Siri 也曾是先進技術的代表不過話又說回來,儘管國內使用者對 Siri 評價非常一般,但作為手機智能助手裡的「老資歷」,Siri 的誕生其實一點都不保守:2011 年,Siri 隨 iPhone 4S 正式發佈,是業內第一批被大規模推向消費級市場的語音助手。要知道在當時,語音互動還停留在指令式輸入的階段,Siri 已經開始嘗試提供語言理解、上下文關聯和服務整合。至少在那個階段,Siri 的出現是具備明顯前瞻性的。但問題在於,作為蘋果的技術產品,Siri 的發展路徑從一開始就被框在了一個保守的技術邊界內。蘋果很早就為 Siri 定下了幾個不容妥協的前提:優先保護隱私、儘可能在端側完成計算、系統行為高度可控。在傳統功能型語音助手時代,這套邏輯是成立的。因為當時的 Siri,本質上只是一個「語音入口」,負責把使用者指令轉譯成系統操作;但當 AI 進入大模型時代,更複雜的 AI 指令帶來了更大的算力缺口,Siri 也開始變得力不從心起來。與 AI 時代脫節不是「一日之寒」在雷科技看來,這種頂層路線的不合時宜,才是 Siri 在 AI 時代體驗「遙遙落後」的根本原因。首先,Siri 的模型規模與能力註定了它不可能好用。在大模型時代,聰明本身就是一種資源密集型能力。更強的理解力、更自然的對話、更複雜的任務拆解,本質上都依賴大規模模型和持續的雲端算力支援。圖片來源:Apple而蘋果在這件事上,一直保持克制:一方面,蘋果希望把 AI 能力儘量壓到端側,減少資料外流;另一方面,蘋果在自建雲端算力上的節奏,也明顯慢於Google、微軟這樣的雲服務原生廠商。這導致 Siri 背後的模型規模長期受限,能力提升緩慢,而使用者對 AI 的期待,卻在 ChatGPT、Gemini 等產品的推動下迅速被拉高。其次,是組織和人才的問題。過去幾年裡,蘋果 AI 團隊的人員流動並不小。從公開資訊來看,不少原本參與核心模型研發的工程師和管理層,陸續被 OpenAI、Google、Meta 等公司吸納。這種流失並不罕見,但在一個高度依賴長期積累的領域,會直接影響研發節奏。更不用說蘋果內部的保密文化對 AI 人才的限制了。在 AI 時代,任何一個技術突破都能在短時間內形成論文、成為研究人員的光鮮履歷和跳槽時的底氣。但在蘋果的保密文化下,除了極少數頭部負責人有在公眾面前露面的機會,大多數研究員都無法將技術與自己掛鉤。在這樣的文化背景下,蘋果 AI 團隊成員接連出走已成必然。而蘋果與 Google、Meta、OpenAI 等巨頭之間的能力差距,也逐漸消耗了外界對 Apple Intelligence 的耐心。能滿足蘋果條件的 AI 模型並不多當然了,蘋果也嘗試過自救,比如講 Apple Intelligence 接入 ChatGPT。但在雷科技看來,對蘋果來說,與Google合作確實是一個更合適當前局面的選擇。首先,OpenAI 的模型能力很大程度上依賴微軟 Azure 的算力。如果蘋果選擇深度繫結 OpenAI,實際上等於在核心 AI 能力上間接受制於微軟,這顯然不符合蘋果一貫強調的獨立性。而Google不僅擁有 Gemini 這樣的自研模型體系,同時也具備成熟的全球雲基礎設施,以及長期服務 Android 與 Pixel 裝置的經驗。在「如何把大模型穩定地嵌入移動系統」這件事上,Google是少數有實戰經驗的公司之一。圖片來源:Google其次,是多模態能力的契合度。Siri 的下一步顯然不是「更會聊天」,而是要理解螢幕、理解應用狀態、理解使用者正在做什麼。這種高度依賴多模態理解的能力,恰好是 Gemini 的強項之一。從這個角度看,Gemini 並不是來「替代 Siri」,而是成為 Siri 背後的理解層和推理層。當然了,既然是雙方合作,那Google的合作態度也非常重要。根據已披露的資訊,Siri 背後的 Gemini 並非直接運行在Google公有雲上,而是被部署在蘋果自建的私有雲端運算體系中。這意味著蘋果依然可以控制資料路徑,維持其隱私敘事。而像 Gemini 這樣同時滿足「模型能力」「雲算力」「隱私控制」這三點的合作方,確實不多。Gemini 能讓蘋果回到 AI 一線嗎?從能力上看,Gemini 的引入,確實有機會補上 Siri 在理解力和執行力上的短板。更複雜的指令拆解、更自然的上下文延續、更穩定的跨應用操作,都是現階段 Siri 明顯欠缺的能力。但這能否把 Siri 重新帶回 AI 助手的第一梯隊,雷科技認為 Gemini 的「藥效」還沒有這麼強。我們知道,AI 能力並不只取決於模型本身,「感知權限」同樣重要。如果蘋果想讓 Siri 重回一線,必然需要在系統層級,真正放權給 Siri。過去 Siri 的很多問題,並不是「不聰明」,而是「不能做」:權限受限、介面不開放、應用不配合,都會直接限制 AI 助手的實際價值。而對國內使用者來說,蘋果與Google的合作也讓 Apple Intelligence 國內落地的情況變得更複雜:Gemini 的引入,必然能為 Siri 帶來質變的提升;但海外模型國內落地的合規性依舊是一道無法繞過的門檻。在這個時間點切換模型,很可能會讓 Apple Intelligence 的入華工作清零。幸運的是,這種不確定性也為國內 AI 廠商創造了機會。圖片來源:豆包如果蘋果證明了一件事——系統級 AI 助手,必須依託頂級模型能力,那麼Android陣營的硬體廠商,也勢必會加快與頭部模型廠商的深度合作。無論是字節、阿里,還是其他大模型團隊,都會迎來新的談判空間。說到底,Siri 和 Gemini 的合作,其實也是蘋果在 AI 時代的一次路線修正。蘋果用直白的技術代差,證明了「有些事情自己真不一定能做」。說到底,iOS 27 能否真正補上那塊畫了三年的 AI 大餅,這個問題沒人說得準。但至少在 2026 年,蘋果終於站到了正確的道路上了。 (雷科技)
特斯拉、輝達集體盯上的物理AI,中國玩家已亮出“王炸”
特斯拉的“世界模型”對手來了?這家中國公司用AI造了個無限試煉場。“物理AI的‘ChatGPT時刻’已經到來。”在2026年CES展上,輝達CEO黃仁勳斷言,那些能理解並規劃物理世界的AI模型將重塑千行百業,而“自動駕駛將是其首個大規模主流落地場景”。然而,在自動駕駛時代全面到來之前,那些1%的長尾場景成為了核心障礙。特斯拉CEO埃隆·馬斯克感同身受,就像他說的,“讓自動駕駛達到99%容易,解決剩下的‘長尾問題’卻非常困難。”但科技巨頭們已經達到了共識,必須建構一個無限逼近現實、甚至能主動創造未知的高保真的“數字宇宙”。這個虛擬世界不僅要能精準復現已知的各種極端路況,更要能主動合成未知的、甚至超出人類想像的複雜互動場景,讓自動駕駛系統得以持續進行“飽和式”的訓練與迭代。為此,特斯拉研發了世界模型,輝達通過高精模擬建構虛擬試驗場Cosmos,中國自動駕駛明星企業文遠知行則發佈了通用模擬模型WeRide GENESIS,它們都在教AI理解物理世界。不難看出,模擬模型正在成為推動自動駕駛跨越長尾鴻溝、駛向規模化落地的關鍵。01.模擬模型破局自動駕駛“最後一公里”自動駕駛汽車需要經歷多少測試才算足夠安全?業界的一份測算指出:至少110億英里(約177億公里)的測試里程,才能獲得高置信度的安全驗證。而傳統的實地路測因成本高昂、周期漫長、法規限制、極端危險場景難以復現以及安全風險高等問題,已成為自動駕駛商業化的主要障礙。在這一背景下,自動駕駛模擬憑藉其安全、可控、可無限重複的核心優勢,成為推動自動駕駛跨越商業化臨界點的關鍵“試金石”。國際調研機構Fortune Business Insights預示了模擬的廣闊前景:到2032年,全球模擬測試市場規模預計將達341.4億美元(約合人民幣2374億元),維持高速增長。全球科技巨頭已在此領域展開激烈角逐。Waymo推出了自動駕駛模擬軟體Simulation City,用以高效生成極端場景、訓練自動駕駛系統。特斯拉官宣了“世界模擬器”,旨在用AI直接模擬物理世界,擴充演算法應對邊緣場景的能力。然而,建構真正有效的“數字試金石”遠非易事,當前技術仍面臨幾大核心挑戰:1、保真度鴻溝:虛擬環境往往在關鍵細節上與真實世界存在差距。例如精確模擬暴雨對雷射雷達的干擾、夜間複雜的光影反射等場景,仍是技術難點。2、互動真實性不足:許多模擬系統中的交通參與者(車輛、行人)行為模型過於呆板,難以復現人類駕駛員的複雜決策,導致互動場景失真。3、閉環迭代難打通:打造能夠自動發現問題、精準診斷根因、持續最佳化演算法並即時驗證效果的自我進化體系,對許多企業來說仍是挑戰。這些侷限性共同導致了模擬在應對極端場景時的乏力,成為自動駕駛突破商業化落地的“最後一公里”阻礙。模擬模型必須進行一場從“場景復現”到“智能進化”的範式升級。換句話說,它不應是回放已知困難場景的“錄影機”,而需進化成為能夠主動發現系統未知弱點、生成高價值對抗性場景的“陪練”。02.WeRide GENESIS刷“副本”自己訓練自己面對“百億公里”的驗證鴻溝與長尾場景的現實挑戰,行業討論重心已從“是否需要模擬”轉向“需要多強的模擬”。有觀點認為,必須通過高保真、高效率的模擬技術,建構一個能無限逼近現實、甚至能主動創造未知的“數字宇宙”。文遠知行發佈的自研通用模擬模型WeRide GENESIS,正是朝這一方向進行的關鍵探索。▲文遠知行發佈WeRide GENESIS文遠知行的WeRide GENESIS模擬模型具備那些能力?WeRide GENESIS基於生成式AI技術,可在幾分鐘內生成高度真實的模擬城市環境,還原現實道路中罕見的極端長尾場景,高保真復刻任意現實路況。該模擬平台還允許自由編寫與組合任意場景,例如移除或增加特定的交通參與者,或模擬車輛變道博弈。在感測器層面,WeRide GENESIS可合成任意不同位置和視角的感測器資料,並適配從L2++到L4不同自動駕駛等級的任意感測器套件,確保了模擬與真實車輛配置的一致性。最終,這些能力可以擴展至模擬任意大範圍的數字街區,使自動駕駛系統在虛擬環境中完成充分訓練與測試,從而大幅提升演算法應對複雜場景的能力與迭代效率。這套能力是如何打造的?WeRide GENESIS將其核心能力拆解並內化為四個相互協同的AI模組,即AI場景、AI主體、AI指標、AI診斷。▲WeRide GENESIS的四大AI模組AI場景模組負責建構各類關鍵情境,通過生成式AI技術,它可以組合衍生出近乎無限的複雜情境,如臨車加塞、行人“鬼探頭”、火災地震、極端天氣以及其他稀有事件等,確保自動駕駛系統具備應對各種複雜邊界場景的能力。這相當於將測試從“在路上等待Bug出現”轉變為“在模擬中主動進行飽和式壓力測試”,系統性地觸探演算法的邊界。AI主體模組其實就是讓系統告別“呆板NPC”,擁抱複雜人性。傳統模擬中的交通參與者(車輛、行人等)行為往往簡單、平均,且可預測,這與現實世界中充滿不確定性和主觀意圖的複雜互動相去甚遠。GENESIS的AI主體模組則致力於為每一位交通參與者建構智能行為模型,使其能夠模擬從日常駕駛到高風險行為的全譜系反應。例如,它可以模擬在路口猶豫不決最終又突然加速搶行的駕駛員,或者在車縫中穿梭的外賣騎手。這種對客體不確定性互動的模擬,對自動駕駛系統提升在實際複雜交通流中的應變能力極為重要。▲自車駕駛表現對比如對比視訊所示,在左側“原始演算法+無AI主體”的組合下,自車表現猶豫,直至對向車輛完全通過後才開始通行,無法滿足效率要求;在中間“新演算法+無AI主體”的模擬中,自車僅按預設軌跡行駛,缺乏對周邊車輛行為的預測,最後發生碰撞,無法滿足安全要求;在最右側“新演算法+AI主體”的加持下,自車能夠即時判斷周邊車輛的行駛意圖,在確保安全的前提下流暢通過,實現了效率和安全雙重保障。當系統出現問題時,如何客觀評估其影響?AI指標模組建立了一套覆蓋安全、合規、舒適、效率的多維度量化評估體系。例如,一次急剎車帶來的乘客不適感,可以被轉化為舒適度評分;一次變道的流暢與否,可以通過軌跡平滑度、加速度變化等多個指標客觀衡量。▲舒適度曲線畫面中的舒適度曲線(Comfort Score)是“AI指標”模組的核心指標之一,動態量化了行駛過程中的乘客舒適度,為演算法評估和迭代提供了即時判斷依據。畫面均由WeRide GENESIS生成。這使得演算法迭代的效果變得一目瞭然,演算法最佳化有了精準的資料導航,而非依賴工程師的主觀經驗。當演算法在某個場景下表現不佳時,“AI診斷”模組會自動介入,像一位資深專家一樣進行問題溯源,更能進一步分析根本原因,並提供可執行的修復建議。隨後,修復後的演算法可被立即重新投入該場景進行驗證,形成“測試-診斷-修復-驗證”的快速閉環。值得注意的是,這四大AI模組並非孤立運作,而是構成了一個完整的自動駕駛研發閉環迭代體系。AI場景源源不斷製造高難度考題;AI主體在其中扮演狡黠的“考官”;AI指標進行毫秒級、全方位的“閱卷”;AI診斷則對錯題進行深度復盤並給出“解題思路”。原本需要耗時數年、耗費巨資的真實道路測試與演算法調優過程,可以在虛擬世界中以天為單位的高效迭代中完成。▲WeRide GENESIS為自動駕駛技術迭代提供“加速飛輪”03.加速全球商業化部署進度條對文遠知行而言,WeRide GENESIS已超越單一研發工具,成為實現規模商業化的戰略基石,它將從四個維度建構關鍵支撐:首先,破解泛化難題,為跨區域落地鋪平道路。面對全球不同城市路網、交通習慣、法規等差異,傳統一地一測的模式效率低下,WeRide GENESIS大幅提升了自動駕駛系統的泛化能力。通過虛擬模擬,WeRide GENESIS突破了真實路測在場景覆蓋、成本與效率上的侷限,為多城市、多場景的規模化商業落地提供了可靠支撐。其次,閉環迭代體系,提升研發效率與安全性。通過四大AI模組的協同,WeRide GENESIS實現了“生成場景-量化評估-診斷最佳化”的完整閉環。該系統能持續生成高價值場景、找到性能瓶頸並提供最佳化方向,將數百萬公里測試壓縮至數天的虛擬模擬,提升演算法迭代效率與行車安全性。此外,降低測試成本,加速技術落地。WeRide GENESIS在虛擬環境中進行自動駕駛測試,節省了車隊營運、人力等巨額邊際成本,為解決Robotaxi規模化盈利難題提供了技術前提。最終,建構可擴展的“數字宇宙”,支撐全球化部署。文遠知行CTO李岩將WeRide GENESIS視為可隨時生成、擴展的“數字宇宙”。它能為任何目標城市建構“數字副本”,讓自動駕駛系統可以進行超大規模的營運推演和演算法調優,為全球商業部署打下基礎。在這一能力底座的驅動下,文遠知行取得了一系列行業矚目的營運成果。其L4級Robotaxi服務已在北京、廣州、阿布扎比等全球超10座城市落地。截至2026年1月12日,文遠知行全球Robotaxi車隊規模達到1023輛,正式邁入“千輛時代”。▲文遠知行Robotaxi已進入全球超10座城市作為全球唯一在8個國家獲得自動駕駛牌照的公司,文遠知行已經在全球11個國家超40個城市開展自動駕駛研發、測試及營運,營運天數超2300天,持續驅動其商業版圖高效、快速地向全球新市場複製與落地。04.結語:全球自動駕駛商業化提速隨著WeRide GENESIS的不斷完善與應用,文遠知行自動駕駛技術正持續良性循環:更完備的模擬平台催生更強大的自動駕駛演算法,更強大的演算法加快了商業部署,而規模化營運產生的海量資料,又推動模擬平台迭代最佳化……在一個可以無限生成、無限測試的“數字宇宙”中,未來自動駕駛的成熟速度將遠超我們想像。文遠知行通過WeRide GENESIS,已經在全球自動駕駛競爭中佔據了有利位置,而全球自動駕駛商業化也正加速駛來。 (車東西)
Anthropic傳今年營收看增近三倍 但現金流轉正時程延至2028年
The Information 報導,人工智慧 (AI) 新創 Anthropic 已將 2026 年營收預測上修 20%,但同時也把現金流轉正的時間表延後。Anthropic傳今年營收看增近三倍 但現金流轉正時程延至2028年 (圖:Shutterstock)根據報導,Anthropic 如今預期全年營收將增加將近三倍,最高達到 180 億美元,比原本的內部預測提高許多。該公司也預估,2027 年營收將進一步擴增至約 550 億美元。然而,由於訓練和經營 AI 模型的成本超越營收成長步調,導致 Anthropic 把現金流轉正的時間表推遲到 2028 年,約比之前預估慢了一年。新增的成本,來自擴增模型訓練和運算基礎建設。Anthropic 已成為領先的 AI 系統開發商之一,與 Google(GOOGL-US) 和 OpenAI 等公司競爭,致力於打造最先進的 AI 模式。Anthropic 過去一年來估值大幅飆升,如今已是全球最具價值的未上市公司之一。根據外媒周二稍早報導,該公司正以 3500 億美元估值募集資金,目前合計募集到約 200 億美元,比最初約 100 億美元的目標翻倍。Anthropic 執行長 Dario Amodei 曾是 OpenAI 的早期員工,但在 2020 年因對公司發展方向及 AI 安全防護問題上,與 OpenAI 執行長奧特曼 (Sam Altman) 產生分歧而離職,隨後與人共同創辦 Anthropic。Amodei 於周一發表一篇 2 萬字長文,警告人類「需要覺醒」,並正視未來幾年強大 AI 系統可能帶來的災難性風險。他寫道:「人類即將被賦予幾乎難以想像的力量,但我們的社會、政治和技術體係是否具備駕馭這種力量的成熟度,仍然極不清楚。」在此同時,Anthropic 也傳出正在籌備今年辦理首次公開發行 (IPO),但這也意味著有在快速擴張和長期財務穩健之間取得平衡的壓力。
全球頂尖大模型,通關不了“寶可夢”:這些遊戲都是AI的噩夢
世界頂尖的AI模型可以通過醫學執照考試,可以編寫複雜程式碼,甚至能在數學競賽中擊敗人類專家,但是卻在一款兒童遊戲中《寶可夢》屢屢受挫。這場引人矚目的嘗試始於2025年2月,當時Anthropic的一名研究人員推出了“Claude玩《寶可夢紅》”的Twitch直播,以此配合Claude Sonnet 3.7的發佈。2000名觀眾湧入直播間。在公共聊天區,觀眾們為Claude出謀劃策、加油打氣,使這場直播逐漸演變為一場圍繞AI能力展開的公開觀察。Sonet3.7隻能說是“會玩”《寶可夢》了,但“會玩”不等於“能贏”。它會在關鍵節點卡住數十小時,還會做出連兒童玩家都不會犯的低級錯誤。這不是Claude第一次嘗試。早期版本的表現更加災難:有的在地圖中毫無目標地遊蕩,有的陷入無限循環,更多的甚至無法走出新手村。即便是能力顯著提升的Claude Opus 4.5,仍會出現令人費解的失誤。有一次,它在“道館外“繞圈整整四天,卻始終未能進入,原因僅僅是沒意識到需要砍倒擋在路口的一棵樹。一款兒童遊戲,為何成了AI的滑鐵盧?因為《寶可夢》要求的,恰恰是當今AI最缺乏的能力:在沒有明確指令的開放世界中持續推理、記憶數小時前的決策、理解隱含的因果關係、在數百個可能的行動中做出長期規劃。這些事情對8歲孩子來說輕而易舉的事,對標榜"超越人類"的AI模型卻是不可踰越的鴻溝。01工具集差距決定成敗?相比之下,Google的Gemini 2.5 Pro在2025年5月成功通關了一款難度相當的《寶可夢》遊戲。Google首席執行長桑達爾·皮查伊(Sundar Pichai)甚至在公開場合半開玩笑地表示,公司在打造“人工寶可夢智能”方面邁出了一步。然而,這一結果並不能簡單歸因於Gemini模型本身更“聰明”。關鍵差異在於模型所使用的工具集。負責營運Gemini《寶可夢》直播的獨立開發者喬爾·張(Joel Zhang)將工具集比喻為一套“鋼鐵人裝甲”:AI並非赤手空拳進入遊戲,而是被置於一個可呼叫多種外部能力的系統中。Gemini的工具集提供了更多支援,例如將遊戲畫面轉寫為文字,從而彌補模型在視覺理解上的弱點,並提供定製化的解謎與路徑規劃工具。相比之下,Claude所使用的工具集更為簡約,它的嘗試也更直接地反映出模型自身在感知、推理與執行上的真實能力。在日常任務中,這類差異並不明顯。當使用者向聊天機器人提出需聯網查詢的請求時,模型同樣會自動呼叫搜尋工具。但在《寶可夢》這類長期任務中,工具集的差異被放大至足以決定成敗的程度。02回合制暴露AI的“長期記憶”短板由於《寶可夢》採用嚴格的回合制且無需即時反應,它成為了測試 AI 的絕佳“練兵場“。AI 在每一步操作中,只需結合當前畫面、目標提示與可選操作進行推理,即可輸出‘按A鍵’這類明確的指令。這似乎正是大語言模型最擅長的互動形式。癥結恰恰在於時間維度的“斷層”。 儘管 Claude Opus 4.5 已累計運行超 500 小時、執行約 17 萬步,但受限於每一步操作後的重新初始化,模型只能在極窄的上下文窗口中尋找線索。這種機制讓它更像是一個靠便利貼維持認知的失憶者,在碎片化的資訊中循環往復,始終無法像真正的人類玩家那樣,實現從量變到質變的經驗跨越。在國際象棋和圍棋等領域,AI系統早已超越人類,但這些系統是為特定任務高度定製的。相比之下,Gemini、Claude和GPT作為通用模型,在考試、程式設計競賽中頻頻擊敗人類,卻在一款兒童向遊戲中屢屢受挫。這種反差本身便極具啟示性。在喬爾·張看來,AI面臨的核心挑戰在於無法在長時間跨度內持續執行單一明確目標。“如果你希望智能體完成真正的工作,它不能忘記五分鐘前自己做了什麼,”他指出。而這種能力,正是實現認知勞動自動化不可或缺的前提。獨立研究者彼得·惠登(Peter Whidden)給出了更直觀的描述。他曾開源一個基於傳統AI的《寶可夢》演算法。“AI對《寶可夢》幾乎無所不知,”他表示,“它在海量人類資料上訓練,清楚知道正確答案。但一到執行階段,就顯得笨拙不堪。”遊戲中,這種“知道卻做不到”的斷層被不斷放大:模型可能知道需尋找某道具,卻無法在二維地圖中穩定定位;知道應與NPC對話,卻在像素級移動中反覆失敗。03能力演進背後:未跨越的“本能”鴻溝儘管如此,AI的進步仍清晰可見。Claude Opus 4.5在自我記錄和視覺理解上明顯優於前代,得以在遊戲中推進更遠。Gemini 3 Pro在通關《寶可夢藍》後,又完成了難度更高的《寶可夢水晶》,且全程未輸一場戰鬥。這是Gemini 2.5 Pro從未實現的。與此同時,Anthropic推出的Claude Code工具集允許模型編寫並運行自有程式碼,已被用於《過山車大亨》等復古遊戲,據稱能成功管理虛擬主題公園。這些案例揭示了一個不直觀的現實:配備合適工具集的AI,可能在軟體開發、會計、法律分析等知識工作中展現極高效率,即便它們仍難以應對需要即時反應的任務。《寶可夢》實驗還揭示另一耐人尋味的現象:在人類資料上訓練的模型,會表現出近似人類的行為特徵。在Gemini 2.5 Pro的技術報告中,Google指出,當系統模擬“恐慌狀態”,如寶可夢即將昏厥時,模型的推理質量會顯著下降。而當Gemini 3 Pro最終通關《寶可夢藍》時,它為自己留下了一段非任務必需的備註:“為了詩意地結束,我要回到最初的家,與母親進行最後一次對話,讓角色退休。”在喬爾·張看來,這一行為出乎意料,還帶有某種人類式的情感投射。04AI難以踰越的“數字長征”,遠不止《寶可夢》《寶可夢》並非孤例。在追求通用人工智慧(AGI)的道路上,開發者發現,即便AI能在司法考試中名列前茅,在面對以下幾類複雜遊戲時,依然面臨著難以踰越的“滑鐵盧”。《NetHack》:規則的深淵這款80年代的地牢遊戲是AI研究界的“噩夢”。它的隨機性極強且有“永久死亡”機制。Facebook AI Research發現,即便模型能寫程式碼,但在需要常識邏輯和長期規劃的《NetHack》面前,表現甚至遠遜於人類初學者。《我的世界》:消失的目標感雖然AI已能製作木鎬甚至挖掘鑽石,但獨立“擊敗末影龍”仍是幻想。在開放世界裡,AI經常會在長達數十小時的資源收集過程中“忘記”初衷,或在複雜的導航中徹底迷路。《星海爭霸 II》:通用性與專業的斷層儘管定製化模型曾擊敗職業選手,但若讓Claude或Gemini直接通過視覺指令接管,它們便會瞬間崩盤。在處理“戰爭迷霧”的不確定性,以及平衡微操與宏觀建設方面,通用模型依然力不從心。《過山車大亨》:微觀與宏觀的失衡管理樂園需要追蹤數千名遊客的狀態。即便具備初步管理能力的Claude Code,在處理大規模財務崩潰或突發事故時也極易疲態。任何一次推理斷層,都會導致樂園破產。《艾爾登法環》與《隻狼》:物理反饋的鴻溝這類強動作反饋遊戲對AI極不友好。目前的視覺解析延遲意味著,當AI還在“思考”Boss動作時,角色往往已經陣亡。毫秒級的反應要求,構成了模型互動邏輯的天然上限。05為何《寶可夢》成為AI試金石?如今,《寶可夢》正逐漸成為AI評估領域中一種非正式卻極具說服力的測試基準。Anthropic、OpenAI和Google的模型在Twitch上的相關直播累計吸引數十萬條評論。Google在技術報告中詳細記錄Gemini的遊戲進展,皮查伊在I/O開發者大會上公開提及此項成果。Anthropic甚至在行業會議中設立“Claude玩寶可夢”展示區。“我們是一群超級技術愛好者,”Anthropic應用AI負責人大衛·赫爾希(David Hershey)坦言。但他強調,這不僅是娛樂。與一次性問答式的傳統基準不同,《寶可夢》能在極長時間內持續追蹤模型的推理、決策與目標推進過程,這更接近現實世界中人類希望AI執行的複雜任務。截至目前,AI在《寶可夢》中的挑戰仍在繼續。但正是這些反覆出現的困境,清晰勾勒出通用人工智慧尚未跨越的能力邊界。 (騰訊科技)
BBC:中國是否正在悄然贏得人工智慧競賽?
Is China quietly winning the AI race?每個月,數億使用者湧入 Pinterest,尋找最新潮流。一個名為“最荒謬的事物”的頁面充滿了各種奇思妙想,可以激發創意人士的靈感。比如,用洞洞鞋改造的花盆、芝士漢堡形狀的眼影、用蔬菜做成的薑餅屋等等。但潛在買家可能不知道,這項技術背後的技術未必是美國製造的。Pinterest 正在試驗中國產的人工智慧模型,以改進其推薦引擎。“我們實際上已經把 Pinterest 打造成了一個人工智慧驅動的購物助手,”該公司老闆比爾·雷迪告訴我。當然,這位總部位於舊金山的潮流引領者可以利用美國眾多人工智慧實驗室在幕後提供支援。但自中國 DeepSeek R-1 型號於 2025 年 1 月推出以來,中國的人工智慧技術已越來越多地融入 Pinterest。Ready 將所謂的“DeepSeek 時刻”稱為一項突破。他說:“他們選擇開源,這引發了一波開源模型的浪潮。”中國競爭對手包括阿里巴巴旗下的Qwen和Moonshot旗下的Kimi,而TikTok的母公司字節跳動也在研發類似技術。Pinterest 首席技術官 Matt Madrigal 表示,這些模型的優勢在於,像他這樣的公司可以免費下載和定製這些模型——而美國競爭對手 OpenAI(ChatGPT 的製造商)提供的絕大多數模型並非如此。Madrigal表示:“我們用於訓練我們自己內部模型的開源技術比領先的現成模型精準率高出30%。”他表示,這些改進後的建議成本要低得多,有時比使用美國人工智慧開發人員偏愛的專有模型的成本低 90%。“快速且便宜”Pinterest絕非唯一一家依賴中國人工智慧技術的美國企業。這些模式正在眾多財富 500 強公司中獲得認可。Airbnb 老闆 Brian Chesky 在 10 月份告訴彭博社,他的公司“非常”依賴阿里巴巴的 Qwen 來為其 AI 客服代理提供支援。他給出了三個簡單的理由——“非常好”、“速度快”、“價格便宜”。在 Hugging Face 上可以找到更多證據,人們可以在那裡下載現成的 AI 模型——包括來自主要開發商 Meta 和阿里巴巴的模型。在該平台負責產品開發的傑夫·布迪爾表示,成本因素促使年輕的創業公司考慮採用中國模式而不是美國模式。“如果你看看 Hugging Face 上最熱門的模型——也就是社區下載量和點贊量最高的模型——你會發現,前十名中通常有很多都是來自中國工作室的中國模型,”他告訴我。“在某些周裡,Hugging Face 排名前五的訓練模型中有四個來自中國實驗室。”9 月份,Qwen 超越 Meta 的 Llama,成為 Hugging Face 平台上下載量最高的大型語言模型系列。Meta於 2023 年發佈了其開源 Llama AI 模型。在 DeepSeek 和阿里巴巴的模型發佈之前,它們被認為是開發定製應用程式的開發人員的首選。但去年發佈的 Llama 4 讓開發者們感到失望,據報導,Meta 一直在與阿里巴巴、Google和 OpenAI 合作,利用開源模型訓練一套新的模型,計畫於今年春天發佈。Airbnb 也使用多種模型,包括一些美國本土的模型,並將它們安全地託管在公司自身的基礎設施中。據該公司稱,這些資料絕不會提供給他們所使用的 AI 模型的開發者。中國的成功展望 2025 年,人們普遍認為,儘管美國科技公司投入了數十億美元,但中國公司正威脅著要超越它們。“情況已經不同了,”布迪耶說。“現在,最好的模式是開源模式。”史丹佛大學上個月發佈的一份報告發現,中國的人工智慧模型“似乎已經趕上甚至超越”了全球同類產品——無論是在功能方面,還是在使用人數方面。英國前副首相尼克·克萊格爵士在最近接受BBC採訪時表示,他認為美國公司過於專注於人工智慧的研發,而人工智慧或許有一天會超越人類智能。去年,尼克爵士卸任了Llama開發商Meta的全球事務主管一職。其老闆馬克·祖克柏已投入數十億美元,致力於實現他所謂的“超級智能”。一些專家現在稱這些目標模糊不清,沒有明確定義,這給了中國主導開源人工智慧領域的機會。“諷刺的是,”尼克爵士說。 “在中國和美國——之間的競爭中,中國正在‘努力使它們競爭的技術民主化’”。在世界的另一端,像 OpenAI 這樣的美國公司正面臨著增加收入和實現盈利的巨大壓力——現在它們正轉向廣告來幫助實現這一目標。該公司去年夏天發佈了兩款開源模型——這是多年來的首次。但它仍將大部分資源投入到專有模型的開發中,以幫助其盈利。OpenAI 的老闆 Sam Altman 在 10 月份告訴我,該公司已積極投資,以確保與合作夥伴達成更多的計算能力和基礎設施協議。“收入將會飛速增長,但你們應該預料到我們會投入大量資金用於培訓,用於下一代、再下一代、再下一代、再下一代,”他說。 (invest wallstreet)
黃仁勳談過去一年AI模型的三大突破
當地時間1月21日,輝達CEO黃仁勳在達沃斯論壇上談到過去一年AI模型的三大突破。“去年AI模型層發生了三件大事。第一,模型剛開始出現時還有很多幻覺,但在去年,這些模型可以應用在研究領域了,能在沒有受過相關領域訓練的情況下進行推理、計畫並回答問題,出現了Agentic(代理式AI)。”黃仁勳表示,第二個重大突破來自開源模型,首個開源推理模型DeepSeek的推出對大多數行業和公司而言都是一個重大事件,自那時起,開源推理模型生態開始繁榮,很多公司、研究機構、教育從業者都能利用開源模型做一些事情。黃仁勳表示,第三個取得巨大進展的領域是物理AI,物理AI不僅能理解語言,還能理解物理世界,例如理解生物蛋白質、化學、物理。在物理領域,AI能理解流體動力學、粒子物理、量子物理。“去年是不可思議的一年,因為AI模型取得如此大的進步。在應用層面,AI已經可以在金融服務、醫療保健、製造業等場景使用,由此產生經濟利益。風險投資的資金去向是一個重要指標。2025年是風險投資的投資規模最大的年份之一,大部分資金流向了AI原生公司,其中一些是醫療保健公司、機器人公司、製造業公司、金融服務公司。”黃仁勳表示。與此同時,黃仁勳談到,人類歷史上最大規模的AI基礎設施建設已在進行,業內現已投入了幾千億美元,還有價值數兆美元的基礎設施需要建設。黃仁勳稱,這種規模的AI基礎設施建設是合理的,因為AI需要處理很多上下文資訊以便產生足夠的智能,來驅動上層的應用程式。這種AI基礎設施建設熱潮也帶動相關產業建設。黃仁勳表示,晶片領域,台積電剛宣佈建設20座新的晶片工廠,此外,與輝達合作的富士康、緯創、廣達將建設30座新的電腦工廠,美光等記憶體廠商也在進行相應投資。“可以看到,現在AI產業在晶片層面的增長令人難以置信。”他表示。黃仁勳也談到AI給人類工作帶來的改變。他表示,AI基礎設施建設過程中將創造大量就業機會,例如需要水管工、電工、建築工人、網路技術人員。針對人們對AI取代人類工作的擔憂,黃仁勳則舉了一個例子:10年前,人們認為放射學相關職業將被淘汰,原因是AI計算視覺可以替代這部分工作,但10年過去,AI已滲透到放射學的各個方面,放射科的醫生反而增加了,因為醫生可以利用AI更高效工作,醫院能接待的病人數量也增加了。黃仁勳表示,類似的過程也發生在護士群體中,當AI提高了工作效率,美國護士人數短缺導致的問題得到瞭解決。黃仁勳還呼籲,人們應該積極使用AI。“每個國家都應該參與到AI基礎設施的建設中。AI的易用性可能會縮小各個地方的技術鴻溝。現在AI不再那麼難訓練,將開源模型結合各地的專有知識就能建立有用的模型。”黃仁勳稱,使用AI非常容易,現在沒有電腦學位的人也能成為程式設計師,開發中國家的人們、學生群體也應該學習使用AI、指導AI、評估AI。黃仁勳還談到AI泡沫爭議。他表示,評估AI泡沫是否存在可以看GPU的使用情況。實際情況是,輝達有數以百萬計的GPU在支撐雲端運算,現在要租用一塊輝達GPU並非易事。在需求帶動下,GPU租賃價格正在上漲,價格上漲的不僅是最新版本的GPU。計算需求增加的原因是AI公司的數量正在增加,且一些公司有很多經費投入AI。 (第一財經)
Google剛掀了模型記憶的桌子,輝達又革了注意力的命
近期,Google的 Nested Learning 引發了一場模型界的記憶地震。很多人重新意識到,大模型不必永遠是「訓練完就封存」的唯讀權重,它也可以在推理過程中繼續變化。在 Nested Learning 裡,當模型讀到新的上下文時,它不只是把文字塞進注意力的快取裡臨時翻找,而是允許自己在推理過程中更改參數,讓新資訊變成它內部記憶的一部分。但就在人們還在消化這個想法時,輝達在2025年12月28日給出了一個更激進的答案,一篇名為《End-to-End Test-Time Training for Long Context》的論文。Google的記憶增強路線,還在努力解決記憶問題,把過去重要的東西保存得更完整。但輝達的研究人員則認為,記憶其實就是學習,「記住」就是「繼續訓練」。就像人不會記得小學時的課文字句,但像《豐碑》這種文章當時給我們的感受,會深深塑造我們之後的價值觀。輝達和史丹佛的研究者們相信,AI也應該這樣工作。01. 用學習,替代注意力式的記憶如果沿著時間線往回翻,你會發現 TTT(test-time training)並不是憑空出現的發明。早在2013年,Mikolov 等人就在語言模型裡嘗試過 dynamic evaluation。當時放的是讓模型解除凍結,在測試文字上繼續用下一詞預測的交叉熵損失 CE(也就是我們最經常理解的大語言模型的參數學習損失目標)做小步梯度更新,讓參數對當前文體、主題、局部統計規律發生適應。Krause 等人在 2018 年把它完善得更系統,更可行。也就是說,在大語言模型的早期,大家已經發現了模型在推理時動參數,即不違背語言建模的基本邏輯,甚至能帶來收益。在分析Nested Learning時候,大家都在討論記憶力的革新。但很少人會注意到它在上下文這個語境下,對注意力層的替代。但TTT-E2E 的出現,更明確的提出這個可能性。過去十年,Transformer 的輝煌建立在很大程度建立在注意力機制上。它把讀過的每一句話都做成索引(KV Cache),每次回答問題都要回過頭去精準翻閱舊書 。這種機制精確,但非常耗費記憶體。因此也有了各種群組注意力、線性注意力的改良方針,試圖壓縮其記憶體佔用,提升模型的上下文長度。而TTT的方案,則是直接放棄通過「內化」(權重更新)知識,來解決上下文處理的問題。無論上下文多長,它的推理狀態大小和計算量都是永遠不變的。因此在TTT家族中,不論上下文如何增長,其Latency(生成延遲)都不會有任何變化。這是TTT帶來的,足以在推理階段替代的注意力的核心能力:無延遲的記住近乎無限的上下文。但dynamic evaluation 那條線一直沒真正變成主流部署範式。這是因為它當時在工程上還很稚嫩,很難被有效地使用。這裡的主要Gap存在於訓練階段和推理階段無法對齊。訓練階段最佳化的是「凍結參數時開箱即用的表現」,卻沒有把「推理時將進行若干步更新」這件事當作模型行為的一部分寫進目標函數。這就導致工程現實中充滿了不穩定性,模型在沒有約束的情況下持續更新,災難性遺忘(學新的忘了舊的)、參數漂移(模型參數分佈變得很怪)、對異常片段的過擬合(會重複說奇怪話)就會變成默認風險。早期方法能緩解的手段主要是「小學習率、少步數、勤重設」,它們能讓系統勉強可用,但也幾乎把 TTT 鎖死在“短暫適應”的尺度上,很難發展成真正的長期記憶。而Nested Learning / Titans所做的,正是把這套邏輯從架構層面上變得可行。通過分開不同更新頻率的層級,讓各層獨自更新這種方式,穩定了參數更新。這也讓TTT從短微調發展成長期內部記憶的方式。因此,我們可以說它帶來了穩定的長程記憶更新方式。不過這是有代價的。輝達在論文裡把Nested Learning、Titans 這一支,歸到 TTT‑KVB 上。因為它們的更新目標其實和傳統TTT有些不同。它們更像是在教模型「怎麼存」,而不是直接教它「怎麼預測」。我們都知道,大語言模型的最終目標是「預測下一個token」,這是原初的學習目的。而Nested Learning的更新目標通常是讓模型從某種壓縮表示(如 key)重構出對應的 value,或者讓隱狀態在層內自洽地演化,這些都是為了建構可快速索引的內部記憶結構。這樣做確實可以間接幫助語言模型完成任務,因為更好的內部關聯記憶可能帶來更好的預測。但它與最終目標之間始終隔著一層距離。而輝達提出的TTT‑E2E 則更像最原初的dynamic evaluation,它的測試時更新目標就是整個網路末端的下一詞預測交叉熵 CE。為了做到只有一個目標,這個方法端到端的,不分層,從頭到尾只更新這一個CE。當損失函數就是最終任務本身時,模型在上下文裡學到的任何東西,都更直接地最佳化了後續預測。與模型的最終目標完全對齊。為了把這個差別說明白,他們在論文裡設計了一個「玩具模型」,在Transformer中移除了所有的自注意力層,只留下多層感知機(MLP)。這基本上把模型降級成了一個只能記住前一個詞的「二元語法模型」(bigram),在這種設定下,任何長程記憶能力都不可能來自注意力或快取,只能來自「你在測試時更新權重,把上下文壓進參數」這件事本身。然後在測試時,他們讓模型在讀到 x1 ,x2 ,x3 ,… 時不斷做練習:用 xt−1 預測 xt ,計算 CE,並對這個損失做一次小步梯度下降。這像是一個只能看清腳下一米的探險者,只能憑剛邁出的那一步來猜下一步。而你需要穿越一個10公里的洞穴(歷遍所有上下文及更改)。每走一步,你會先預測"根據我的方向感,下一步我應該看到岩石還是水坑?"然後走一步,看預測對不對。如果錯了,你就調整身體的姿態和步伐(梯度更新)。在「預測—糾正—調整」的循環裡改變了你的「肌肉記憶」(權重)走到第1000步時,你雖然看不到第1步那裡的巨石,但那塊巨石的資訊已經編碼在你此刻的步態、重心和方向感裡了。它通過999次的「預測-糾正-調整」傳遞下來,融入了你的身體。結果,這個沒有任何注意力快取的模型,靠著「訓練對一下詞的預測」這個目標Loss 曲線(藍色)隨著閱讀長度的增加迅速下降 。它幾乎緊貼著全注意力 Transformer 的曲線(橙色線)。這意味著,它單純靠修改自己的神經網路參數(MLP權重),就完美編碼了上下文資訊,達到了和把所有字都存下來(Full Attention)幾乎一樣的效果。相比之下,TTT‑KVB 的設計初衷是作為一個自注意力層的直接替代品。它的核心思想仍然是「鍵值繫結」(Key-Value Binding)。也就是說,它雖然不用傳統的注意力機制去 儲存 KV Cache,但它試圖用神經網路去學習 Key 和 Value 之間的對應關係。這就像希望把洞穴每塊石頭都畫在地圖上,去隨時呼叫。甚至巨石的紋理這種和走出洞穴無關的資訊也會畫進去。它的訓練效率相對就比較慢。論文在過渡實驗結果中證明了這一點。研究人員把 TTT‑KVB 的層內鍵值繫結這個目標取代為預測端到端的 next-token 目標後,語言建模的評估 loss 明顯下降。從實驗資料看,這個改變確實帶來了實質性的提升。在760M參數的模型上,TTT-KVB在8K上下文的loss為2.818,而將其簡化版本改用next-token prediction損失後(TTT-E2E all layers MH),loss降至2.806。這提升的0.012,在語言模型評估中其實是顯著的差距。這說明了,經過端到端的改造,模型對於預測下一個token這件事確實更確信,更擅長了。而且長上下文能力真的可以純靠測試時學習獲得,而不必依賴注意力快取。在這個邏輯下,記憶不再被設計成一套儲存結構,而被重新定義為一次持續發生的學習過程。記憶的價值不在於把過去保存得多完整,而在於它能否改變你下一步的判斷。但是,過去的dynamic evaluation的問題就在於沒有穩定的工程模式,既然要用一樣的思路,TTT‑E2E怎麼克服這些問題呢?這正是輝達接下來要做的第二件事:用元學習與一整套工程護欄把這種端到端的測試時學習做成穩定、可擴展的上下文記憶系統。02. 元學習的迴響,和工程的穩定元學習,這個概念和實踐實際上也出現的很早。其中有一支顯性元學習的想法一直到去年發佈的Deepmind DiscoRL 都被繼承著。這就是2017 年Finn 的 MAML體系。它是由內外兩個循環巢狀而成,內循環負責適應學習(梯度下降),外循環負責把適應學習變得更有效(學習梯度的梯度)。這樣,外面那層循環更像是對內循環步驟的反思,通過它,就可以學會如何高效的學習。TTT‑E2E所做的,正是利用這一套元學習的體系,幫助它去穩定端到端的資料。輝達的研究人員認為,過去dynamic evaluation的問題,主要在「訓練-測試不匹配」上。如果只用傳統方式訓練一個凍結的語言模型,然後在測試時突然要求它邊讀邊更新參數,那整體肯定穩定不了,災難性的漂移、遺忘都是常事。因此,訓練階段就要把測試階段的學習流程包含進去,讓模型在出廠時就習慣在推理時繼續學。這就是元學習入場的時候。它要在訓練時幫助模型學會怎樣更新自己,才能更會回答接下來的問題。具體的操作,就是利用元學習,讓模型自己找到最適合推理時更新的初始參數W0。把它寫成更直觀的過程,就是兩段循環套在一起。內循環:就是模型讀到一段上下文時,給出下一個詞的猜測。然後立刻對照實際上出現的下一個詞,去更新自己的參數。這和傳統的下一個token 預測模型的訓練一致。外循環:是在訓練階段給內循環反覆模擬「上崗狀態」。它給內循環的模型很多段文字,讓它按同樣的復盤方式做幾次小校正,然後檢查校正之後,內循環後面的預測是不是確實更準、更穩。只有當內循環的參數更新真的帶來收益時,外循環才獎勵它,如果這種更新方式會造成漂移或遺忘,外循環就懲罰它。久而久之,模型學到了一種更合適的出廠狀態。帶著這些初始參數去上崗,內循環的小校正(梯度更新)就不容易把自己改壞。外循環的教師,在這裡學到的是在測試時更新中,那些方向的梯度更新是穩定的(防止梯度爆炸),那些更新能在不破壞通用能力的前提下快速吸收上下文規律(防止災難性遺忘),那些初始化讓同樣的學習率、同樣的步數能產生更可靠的收益(提升訓練效率)。再把這些都融合到模型初始的參數里。一個元學習,直接讓模型自己解決核心的工程困境,使得端到端的模式變為了可能。但這僅僅是可能,並不是達到了穩定。為了進一步確保工程上的可能性,TTT‑E2E還是在工程中做了多重折中的安全閥。第一個安全閥是 mini‑batch 化和滑動窗口注意力。理論上講,在測試時每讀一個 token 就更新一次參數,是最細粒度、最完美的線上學習,但它可成本太高了。但每次給他的的token batch太大,模型又根本沒有短期記憶,那麼它在更新之前對一個batch裡吼main的 token 就根本記不住,梯度也會越來越錯。所以,TTT‑E2E一方面把batch的大小做到相對較小。而且還保留滑動窗口注意力作為短期記憶的方法。窗口注意力像手電筒,保證你在一個更新塊內至少還看得見最近的上下文,從而讓 block 內的預測不至於崩壞。論文明確提出了一個窗口大小和batch大小的規範,即窗口大小 k 最好不小於測試時更新的塊大小 b,否則你會在塊內變回「局部失憶」的模型。第二個安全閥,目標是防止。他們沒有非常激進的把所有層都改成TTT層。而是凍結了 embedding、歸一化和注意力層,只更新 MLP。並且每次不更新整個神經網路,只更新最後 1/4 的 blocks。這樣底層的通用語言能力、注意力的讀寫通道保持不動,TTT只在上層做一種可控的學習模組。為了進一步防止線上更新把預訓練知識沖掉,他們還在可更新的 blocks 裡加了一套靜態的第二 MLP。有一套MLP 負責寫入當下上下文,另一套負責保住出廠能力。這是在結構上給災難性遺忘劃了一片隔離區。參數可以漂移抹去過去的記憶,但只能在一塊被圈起來的可寫區裡漂移。當這些部件拼好時,TTT-E2E終於實現了最早版本TTT未竟的目標,為它帶來了完整的工程化軀體。那麼它的結果如何呢?03. 用Loss證明自己我們看模型訓練效果,最主要的是看模型的loss變化。loss 指的是語言模型在下一詞預測任務上的平均損失,一般就是上面說的交叉熵CE的大小。它越小,說明模型預測越準。而在記憶中,則是看loss在上下文中的變化。如果 loss 在更長上下文裡持續下降,說明模型確實把更早的資訊用起來了,預測的更好了。反之,如果上下文變長但 loss 不降反升,說明資訊雖然記住了,但沒用,屬於學而不思則惘了。在這一項上,TTT‑E2E的優勢非常明顯。當上下文一路加到 64K、128K時,其他類型的架構,比如Mamba 2、Gated DeltaNet 這些線性時間模型就開始掉隊了,甚至連 TTT‑KVB,在更長上下文裡也沒能把曲線拉回來。只有 TTT‑E2E 的線幾乎像釘住了一樣,從 8K 到 128K 沒有出現優勢稀釋的跡象。這說明別人是上下文越長越難學到,而TTT‑E2E 則是越跑越會用上下文。而且,它也延續了學習參數最大的優勢,就是成本壓縮。如果用全注意力,上下文越長,prefill 的延遲就會一路飆升,因為它每生成一步都要掃描更長的歷史。相反,SWA、RNN/SSM、TTT‑KVB、TTT‑E2E 的延遲幾乎是平的。它是靠學進去,而不是一直看著舊上下文去處理新的上下文的。在 H100 上,128K prefill 時,TTT‑E2E 大約比 full attention 快 2.7×。另一項,則是看Loss的收斂速度,Loss收斂的越快,說明模型越高效的在學習。在 32K 和 128K 兩種長度下,TTT‑E2E 是唯一一種在整個上下文範圍裡都能壓過 full attention 的方法,而且它的總體優勢有很大一部分來自序列更早的位置。這正是「學習而非儲存」發揮特長的地方。模型不是等到最後才靠記憶取回某個細節,而是從一開始就讓每一段上下文都在把模型推向更適合下一段預測的參數區域。它是在背書,更是在邊讀邊形成更適合這本書的閱讀習慣。當然,這種方法並非面面俱到。TTT‑E2E 在海底尋針這種需要精確檢索的測試上仍然被full attention碾壓,包括 TTT‑E2E在內的線性路線一直在長上下文檢索上表現並不好。這並不矛盾,當記憶被定義為「學習帶來的預測收益」時,它就更像壓縮和概括,而不是逐字存檔。對寫作連貫性、長文理解、風格約束這種任務,這種壓縮很划算。用學習壓縮換取長上下文的可擴展性,讓模型在 128K 這樣的尺度上既跑得動,跑得省,又確實變得更會預測。這就是TTT的核心意義之一。另外一個可能制約這種架構落地的因素,是訓練成本。即使有了各種最佳化,TTT-E2E的訓練延遲仍然比標準Transformer高出50-100%。這在學術研究的規模上可以接受,但當擴展到工業級的數兆token訓練時,這個額外成本就有點略高了。04. 回歸原初的學習,可能才更符合持續學習的期待Nested Learning 這場革命的意義,是再一次把「推理時更新」從過去的沉寂中帶入了當下的討論的範疇,讓持續學習找到了新發力點。TTT-E2E 的意義,不只是又一個長上下文方案,而是重新定義了記憶這件事。記憶不是把過去搬進現在,而是讓過去改變未來。在注意力機制因二次方成本而逼近物理極限的今天,這種'把資訊學進參數'的路線,可能是唯一能讓模型真正從百萬 token 上下文裡持續成長的工程答案。在一個上下文窗口越來越長、資訊越來越多、但人們越來越不願意為傳統注意力二次方成本買單的時代,這種把記憶當作學習、把學習當作壓縮的路線,可能會在相當長一段時間裡成為持續學習最現實的工程答案之一。它不一定無所不能,但它比當下的任何記憶方案都更接近我們對智能的本質期待:「不是記住一切,而是能從一切中學會變聰明」。 (騰訊科技)