#AI模型
Nature Medicine:一夜睡眠質量就能預測你患100多種疾病的風險
一種由史丹佛大學研究人員及其合作者開發的獨特 AI 模型,未來或許能夠在你甚至不需要清醒的情況下,預測你罹患 100 多種健康狀況的風險。根據一篇近期發表的論文所述,名為 SleepFM 的 AI 模型可分析一整套全面的生理記錄,僅基於一晚睡眠的資料,就能預測個體未來發生痴呆、心力衰竭以及全因死亡的風險。SleepFM 是一種基礎模型(foundation model),類似於 ChatGPT。它在一個龐大的資料集上訓練而成:來自 65,000 名參與者、近 600,000 小時的睡眠資料。正如 ChatGPT 從詞語與文字中學習,SleepFM 則從各類睡眠門診採集的記錄中,以5 秒為單位的睡眠資料片段進行學習。科學家雜誌AI繪圖 GPT5.2睡眠臨床醫生通過一種廣泛使用但相對不適的技術——多導睡眠監測(polysomnography,PSG)——收集這些資料。PSG 被稱為睡眠研究的“金標準”,利用多種感測器在無意識狀態下追蹤腦、心臟與呼吸系統的活動,以及腿部與眼球運動等訊號。“我們在研究睡眠時會記錄數量驚人的訊號,”史丹佛大學睡眠醫學教授、論文共同資深作者 Emmanuel Mignot 表示。PSG 使用各種感測器來追蹤睡眠期間的活動。(Thapa 等人,《自然醫學》,2026)研究人員通過其新開發的學習技術對 SleepFM 進行測試,該技術稱為留一模態對比學習(leave-one-out contrastive learning):在訓練過程中,將某一模態的資料(例如脈搏讀數或呼吸氣流)排除,迫使 SleepFM 基於其他生物資料流來外推缺失資訊。為補上關鍵拼圖,研究團隊將 PSG 資料與數以萬計的患者長期健康結局報告進行配對,覆蓋不同年齡層,並納入最長 25 年的隨訪健康記錄。在分析健康記錄中 1,041 個疾病類別後,SleepFM 僅憑患者的睡眠資料就能以合理的精準度預測其中 130 類疾病。SleepFM 在預測癌症、妊娠併發症、循環系統疾病以及精神障礙方面尤其出色,“其一致性指數(C-index)超過 0.8”。史丹佛大學生物醫學資料科學家、論文共同資深作者 James Zou 解釋說:“C-index 為 0.8 意味著在 80% 的情況下,模型的預測與實際發生的結果保持一致(concordant)。”SleepFM 在 **AUROC(受試者工作特徵曲線下面積)**這一分類評估指標上也表現良好。該指標用於評估 SleepFM 在一個(6 年)預測期內區分“發生某健康事件”和“不發生該事件”患者的能力。總體而言,SleepFM 優於現有預測模型,並且在預測帕金森病、心肌梗死、卒中、慢性腎病、攝護腺癌、乳腺癌以及全因死亡方面表現尤為突出,進一步印證了睡眠不佳與不良健康結局之間的關聯。這也可能提示:某些疾病在早期就已通過影響睡眠而顯露端倪。儘管部分資料類型與睡眠分期對預測的貢獻更高,但最好的結果主要歸功於生理系統之間的相互關聯與對比。具體而言,最可靠的疾病預測訊號往往來自那些不同步(out of sync)的生理功能:“例如,大腦看起來在睡覺,但心臟看起來仍然清醒——這種情況似乎預示著麻煩,”Mignot 解釋道。研究人員也指出了若干侷限性,例如過去幾十年臨床實踐與患者人群的變化。此外,資料來自被轉診進行睡眠檢查的患者,因此 PSG 資料對普通人群的代表性不足。儘管 AI 在藝術等領域引發爭議,但其在醫療健康領域的潛力提醒我們:AI 智能體具有挽救生命、並在科學上令人驚嘆的能力。舉例而言,未來可將 SleepFM 與可穿戴睡眠裝置結合,實現即時健康監測。因此,正如大語言模型(LLM)通過關聯詞語與文字來學習我們的語言,“SleepFM 本質上是在學習睡眠的語言,”Zou 表示。該研究發表在《Nature Medicine》(《自然·醫學》)。(科學家雜誌)
華爾街日報:韓國力推的本土人工智慧模型含中國程式碼
The Row Over South Korea’s Push for a Native AI Model: Chinese Code韓國的努力表明,開發自主人工智慧模型並擺脫對美國或中國科技巨頭的依賴是多麼困難。首爾資訊技術展上的SK Telecom展館。Jeon Heon-Kyun/Shutterstock首爾——去年六月,韓國政府發起了一項競賽,旨在開發一款基於韓國本土技術的全新獨立人工智慧模型。在人工智慧領域已被美國和中國主導的當今世界,開發這樣一款本土工具對於確保韓國的技術自主性至關重要。事實證明,說起來容易做起來難。在為期三年的比賽中,五家入圍決賽的公司中,有三家被發現使用了至少一些來自國外人工智慧模型的開放原始碼,其中包括中國的人工智慧模型。這些公司和人工智慧專家認為,摒棄現有的人工智慧模型而試圖從零開始建構一切毫無意義。但也有人指出,使用外國工具會造成潛在的安全風險,並削弱開發出真正屬於本國的人工智慧模型的希望。哈佛大學電氣工程教授魏顧延表示,在進行人工智慧模型開發時,要求每一行程式碼都必須完全由公司內部編寫是不現實的。魏顧延熟悉韓國的比賽,但並未直接參與任何參賽者。魏說:“放棄開放原始碼軟體,就等於放棄了巨大的好處。”世界各國都在日益尋求減少對外國的依賴,並提升自身在可能對其經濟競爭力和國家安全產生深遠影響的技術方面的能力。韓國擁有眾多晶片巨頭、軟體公司和政治支援,是所謂“主權人工智慧”最積極的倡導者之一。這項競賽旨在到2027年選出兩家本土優勝企業,使其人工智慧模型的性能達到OpenAI或Google等領先公司的95%或更高水平。優勝企業將獲得政府提供的資料和人才招聘資金,以及用於人工智慧計算的政府採購晶片的使用權。近日,入圍決賽的Upstage項目引發爭議。據其競爭對手Sionic AI的首席執行長稱,Upstage人工智慧模型的部分元件與中國智普AI的開源模型存在相似之處。此外,他還聲稱Upstage的部分程式碼中保留了智普AI的版權標記。Sionic首席執行長高錫鉉在領英上寫道:“令人深感遺憾的是,一款疑似對中國模型進行精細改造的模型竟然被提交到由納稅人資助的項目中。” Sionic也參加了韓國的這項競賽,但未能進入決賽名單。對此,Upstage 舉行了一場直播驗證會,分享了其開發日誌,以證明其模型是使用自主研發的方法從零開始開發和訓練的。但用於運行模型的推理程式碼使用了源自智普AI的開源元素,而智普AI在全球範圍內被廣泛使用。Sionic 的首席執行長為此道歉。這一審查促使人們對其他入圍決賽的方案進行了更深入的考察。Naver的AI模型被指與中國阿里巴巴和OpenAI的產品在視覺和音訊編碼器方面存在相似之處,這些編碼器可以將圖像和聲音轉換成機器可以理解的格式。SK Telecom曾因運行其人工智慧模型的推理程式碼與中國 DeepSeek 的程式碼相似而受到批評。Naver承認使用了外部編碼器,但表示採用標準化技術是出於戰略考量。該公司強調,模型的核心引擎——決定其學習和訓練方式——完全由公司自主研發。SK Telecom也提出了類似的觀點,強調其模型核心的獨立性。比賽規則並未明確規定是否可以使用外國公司的開放原始碼。負責監管此次比賽的韓國科學技術部自爭議發生以來,尚未發佈任何新的指導方針。韓國科學技術部長官裴京勳對這場激烈的辯論表示歡迎。“當我觀察目前席捲我們人工智慧行業的技術辯論時,我看到了韓國人工智慧的光明未來,”裴在本月初的一篇社交媒體帖子中寫道。該部門在接受《華爾街日報》採訪時拒絕置評。該部門計畫按原計畫在本周淘汰五名決賽選手中的一名。首爾國立大學人工智慧研究所所長李在宇表示,人工智慧模型是通過設定和微調內部數值來獲得輸出的,而這些核心任務在面臨質疑的決賽入圍模型中似乎並沒有依賴於外部工具。他說:“他們是從零開始訓練的。” (invest wallstreet)
【CES 2026】黃仁勳炸場:全新Rubin平台量產,AI推理成本降至十分之一,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作
黃仁勳 CES 2026主題演講:全新Rubin平台正式量產,AI推理成本降至十分之一,推進機器人和自動駕駛生態,發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作1. Nvidia與奔馳合作推出Level 2自動駕駛系統,2026年大規模商用要點一:舊金山路測表現出色,可與特斯拉FSD競爭Nvidia在CES 2026上展示了其全新的點對點Level 2駕駛輔助系統,在舊金山約40分鐘的實際道路測試中,該系統搭載在2026款奔馳CLA轎車上,成功應對了複雜的城市交通場景,包括交通訊號燈、四向停車標誌、雙排停車車輛和無保護左轉等情況。Nvidia汽車部門負責人Xinzhou Wu透露,該系統在城市駕駛中的人工接管次數與特斯拉FSD相當,但特斯拉用了約8年才實現城市駕駛功能,而Nvidia預計在約1年內就能達成同樣目標。The Verge要點二:2026年分階段推出,2027-2028年推進L4自動駕駛根據Nvidia的產品路線圖,2026年上半年將發佈支援高速公路和城市駕駛的Level 2系統,包括自動變道、停車標誌和交通訊號識別等功能;下半年將增加自動泊車能力,年底前將覆蓋整個美國。該系統基於Drive AGX Orin晶片,2026年計畫開展小規模L4等級試點,2027年將實現合作夥伴機器人計程車部署,2028年將進入個人擁有的自動駕駛汽車。奔馳CEO Ola Kallenius表示,與Nvidia合作的核心在於安全性,強調"駕駛一個重達4000磅、時速50英里的物體,抱歉是不夠的,必須要有更高的確定性和安全性。"The Verge2. Nvidia發佈Alpamayo自動駕駛AI模型家族,與奔馳開展首個全端自動駕駛合作要點一:推出業內首個開源推理型自動駕駛AI模型Nvidia在CES 2026上宣佈推出Alpamayo系列自動駕駛AI模型、工具和資料集,這是專為Level 4自動駕駛設計的推理型視覺-語言-行動(VLA)模型,能夠讓車輛像人類一樣感知、推理和行動。該系列包括Alpamayo-1(一個擁有100億參數的鏈式思考VLA模型,已在Hugging Face開源)、AlpaSim(開源端到端模擬框架)以及超過1,700小時駕駛資料的物理AI開放資料集。該模型不僅能接收感測器輸入並控制方向盤、剎車和加速,還能對即將採取的行動進行推理。Constellation Research要點二:奔馳成為首個商用合作夥伴,2026年一季度上路Nvidia CEO黃仁勳宣佈,搭載Alpamayo的首款乘用車將是全新奔馳CLA,該車將採用Nvidia DRIVE全端自動駕駛平台,預計2026年第一季度在美國道路上推出。這一合作歷時至少5年,投入數千名工程師,建構了完整的垂直整合系統。奔馳CLA最近獲得了EuroNCAP五星安全評級。黃仁勳表示:"Nvidia將長期支援這些模型和自動駕駛系統,因為自動駕駛工作是通向機器人技術的橋樑。"此外,Lucid、捷豹路虎、Uber和伯克利DeepDrive也對Alpamayo表示出濃厚興趣。Nvidia Blog | Constellation Research3. 波士頓動力與GoogleDeepMind達成AI合作,Gemini機器人模型將整合至Atlas人形機器人要點一:雙方聯合研發,提升人形機器人物體操控和工業任務能力波士頓動力和GoogleDeepMind在CES 2026上宣佈建立新的AI合作夥伴關係,旨在將DeepMind的Gemini Robotics基礎模型整合到波士頓動力的新一代Atlas人形機器人中。該合作將結合波士頓動力的運動智能與DeepMind的基礎AI能力,重點使人形機器人能夠完成各種工業任務,預計將成為製造業轉型的驅動力,首先從汽車行業開始。聯合研究工作預計將在未來幾個月內在兩家公司同時展開。Boston Dynamics要點二:利用多模態基礎模型,讓機器人具備感知、推理和人機互動能力波士頓動力Atlas項目機器人行為總監Alberto Rodriguez表示:"我們正在打造世界上最強大的人形機器人,我們需要一個能夠幫助我們建立新型視覺-語言-行動模型的合作夥伴,用於這些複雜的機器人。在全世界範圍內,沒有人比DeepMind更適合建構可以安全、高效地部署在各種任務和行業的可靠、可擴展模型。"DeepMind機器人技術高級總監Carolina Parada表示,Gemini Robotics模型基於大規模多模態Gemini模型建構,旨在讓任何形狀和大小的機器人都能感知、推理、使用工具並與人類互動。該合作由波士頓動力的大股東現代汽車集團支援。Boston Dynamics4. Nvidia CES 2026主題演講:發佈Rubin平台,AI算力提升5倍,推進機器人和自動駕駛生態要點一:全新Rubin平台正式量產,AI推理成本降至十分之一Nvidia CEO黃仁勳在CES 2026主題演講中宣佈,公司首個極致協同設計的六晶片AI平台Rubin已進入全面量產。該平台包括Rubin GPU(提供50 petaflops的NVFP4推理性能)、Vera CPU(專為資料移動和智能體處理設計)、NVLink 6擴展網路、Spectrum-X乙太網路光子學、ConnectX-9 SuperNIC和BlueField-4 DPU。Rubin平台承諾將AI token成本降低到原來的十分之一,訓練混合專家模型所需的GPU數量減少至四分之一,並推出AI原生儲存平台,將長上下文推理的每秒token數提高5倍。黃仁勳強調:"你訓練AI模型越快,就能越快將下一代前沿技術推向世界。這關乎你的上市時間,這關乎技術領導力。"Nvidia Blog要點二:發佈Cosmos世界基礎模型和開源物理AI生態系統黃仁勳展示了Nvidia Cosmos開放世界基礎模型,該模型在視訊、機器人資料和模擬資料上訓練,能夠從單張圖像生成逼真視訊、合成多攝影機駕駛場景、從場景提示建模邊緣案例環境,並執行物理推理和軌跡預測。演講中還展示了個人AI智能體在Nvidia DGX Spark桌面超級電腦上本地運行,並通過Reachy Mini機器人具身化的演示。黃仁勳宣佈Nvidia在六個領域建構開源前沿AI模型:Clara(醫療健康)、Earth-2(氣候科學)、Nemotron(推理和多模態AI)、Cosmos(機器人和模擬)、GR00T(具身智能)和Alpamayo(自動駕駛),並強調與西門子擴大合作,將Nvidia全端與西門子工業軟體整合。Nvidia Blog5. 阿里巴巴高德地圖推出AI 3D餐廳展示工具,對標美團爭奪本地生活市場要點一:基於通義萬相視覺模型,餐廳上傳照片或視訊即可生成3D圖像據彭博社報導,阿里巴巴旗下地圖和本地生活服務部門高德地圖即將推出一項AI功能,允許餐廳通過上傳視訊或照片來渲染3D圖像。該技術基於阿里巴巴的通義萬相(Wan)視覺模型,旨在降低商戶的行銷和推廣成本。熟悉該事項的人士透露,阿里巴巴計畫向部分商家免費提供這項技術一段時間。這一舉措是阿里巴巴在中國餐飲和外賣領域與美團競爭的更廣泛努力的一部分。Bloomberg要點二:強化本地生活服務佈局,挑戰美團市場主導地位此次推出3D餐廳展示工具,是阿里巴巴利用AI技術加強與美團在本地生活服務市場競爭的最新動作。美團目前在中國外賣市場、餐廳預訂和本地服務領域佔據主導地位。通過提供更具視覺吸引力的餐廳展示方式,高德地圖希望吸引更多商戶和使用者,擴大其在本地生活服務領域的市場份額。這一策略體現了阿里巴巴將AI技術應用於實際商業場景,以技術創新推動業務增長的思路。Bloomberg6. MiniMax香港IPO定價觸頂至21美元,AI熱潮推動估值達65億美元要點一:定價HK$165觸及區間上限,提前一天停止接受訂單據彭博社報導,上海AI初創公司MiniMax計畫將其香港IPO定價定在每股HK約美元達到其營銷區間的頂部151-HK。知情人士透露該公司通知投資者將以165的價格出售股票,並計畫在當地時間下午5點停止接受機構投資者的訂單,比預期提前一天。MiniMax於2025年12月31日啟動IPO路演,計畫發行2,538.92萬股新股。按最高定價計算,此次IPO將籌集至少42億港元(約5.38億美元),對MiniMax的估值約為65億美元。Bloomberg | Reuters要點二:獲阿里巴巴和騰訊支援,AI熱潮下需求強勁MiniMax得到了阿里巴巴集團和騰訊控股的支援,在AI熱潮的推動下,其IPO展現出強勁的訂單勢頭。該公司專注於生成式AI技術,提供包括文字生成、對話系統等多項AI服務。此次頂格定價和提前停止認購,反映出投資者對中國AI企業的強烈興趣。分析師指出,MiniMax的成功上市將為香港資本市場帶來活力,也體現了全球投資者對中國AI創新能力的認可。該IPO預計將於2026年1月初完成定價。Seeking Alpha7. 富士康Q4營收同比增長22%至827億美元,AI和雲端運算需求強勁創紀錄要點一:Q4營收超預期,12月單月營收同比增長32%創歷史新高台灣富士康(鴻海精密)於2026年1月5日公佈,2025年第四季度營收達到新台幣2.6兆元(約827億美元),同比增長22.07%,環比增長26.51%,創下季度營收歷史新高,超過路孚特SmartEstimate預測的2.418兆新台幣。12月單月營收達到新台幣8,628.6億元(約274.2億美元),同比增長31.77%,創下該月份歷史紀錄。富士康表示,第四季度營收增長顯著超出預期,為2026年第一季度創造了較高的對比基數。Reuters要點二:雲端運算和網路產品業務強勁,AI伺服器需求持續旺盛富士康稱,增長主要由雲端運算和網路產品部門的強勁表現驅動,這得益於AI產品需求的激增。作為輝達最大的伺服器製造商和蘋果最大的iPhone組裝商,富士康2025年全年銷售額首次突破新台幣8兆元大關。該公司表示,儘管2026年第一季度資訊通訊技術產品將進入季節性放緩期,但AI伺服器機架產品的強勁需求預計將使業績處於過去五年區間的高端。富士康還指出,智能消費電子產品部門(包括iPhone)由於匯率不利影響,營收出現小幅下降。Reuters8. 阿里巴巴PANDA AI工具助力醫院發現24例胰腺癌,自2024年11月分析超18萬例CT掃描要點一:AI在常規CT掃描中發現早期胰腺癌,提前挽救患者生命據《紐約時報》報導,中國寧波大學附屬人民醫院自2024年11月作為臨床試驗開始使用阿里巴巴達摩院開發的PANDA(Pancreatic Cancer Detection with Artificial Intelligence,胰腺癌人工智慧檢測)AI工具以來,已分析超過18萬例腹部或胸部CT掃描,幫助醫生檢測出約24例胰腺癌病例,其中14例處於早期階段。該院胰腺科主任朱克雷醫生表示:"我認為可以百分之百地說,AI拯救了他們的生命。"PANDA工具被訓練用於在非對比CT掃描中尋找胰腺癌,這些患者最初因腹脹或噁心等症狀就診,並未直接看胰腺專科醫生,部分CT掃描在被AI工具標記之前並未引起警報。New York Times要點二:通過深度學習突破非對比CT侷限,獲FDA突破性裝置認證PANDA工具利用深度學習技術,通過演算法將2000多名已知胰腺癌患者的對比CT掃描中的病灶位置對應到同一患者的非對比CT掃描上,訓練AI模型在清晰度較低的圖像中檢測潛在癌症。在超過2萬例非對比CT掃描的測試中,該工具正確識別了93%的胰腺病變患者,研究結果發表在2023年《自然醫學》雜誌上。2025年4月,阿里巴巴宣佈PANDA獲得美國FDA"突破性裝置"認證,意味著其審查將被加速以幫助其進入市場。胰腺癌是最致命的癌症之一,五年生存率約為10%,早期檢測極其困難。在寧波醫院,非對比CT檢查費用約為25美元(保險前),該系統正在分析醫生已為其他原因訂購的掃描,因此不會給醫院或患者增加額外檢查成本。New York Times9. Instagram Reels年化收入達500億美元,成為Meta最大增長引擎要點一:五年從零到500億,超越可口可樂和耐克年收入據《華爾街日報》報導,Meta旗下Instagram的短影片功能Reels在2025年第三季度實現了超過500億美元的年化收入營運率(annual run rate)。Meta CEO馬克·祖克柏在2025年10月的財報電話會議上表示:"隨著視訊在我們的應用中持續增長,Reels現在的年化收入已超過500億美元。"這一數字令人震驚,因為Reels於2020年推出時僅是對TikTok的模仿,當時沒有任何收入。五年後,其收入規模已經接近可口可樂和耐克的年收入水平,成為Meta最重要的增長業務之一。WSJ要點二:使用者參與度超越YouTube Shorts,AI推薦系統功不可沒報導指出,Instagram使用者在Reels上花費的時間已經超過YouTube Shorts的觀眾觀看時長。Meta第三季度總營收為512.4億美元,同比增長26%,其中Family of Apps(應用家族)收入達到508億美元,Reels的貢獻佔比可觀。祖克柏將Reels的成功歸功於推薦系統的改進和AI技術的應用,這些技術提高了內容的相關性和使用者參與度。分析師認為,Reels已經從簡單的TikTok複製品轉變為Meta的戰略性AI資產,推動了整個平台的廣告收入增長。創作者經濟的蓬勃發展和AI驅動的變現能力是Reels取得成功的關鍵因素。AInvest10. DeepSeek為聊天機器人新增"交錯思考"功能,月活使用者激增90%至1.315億要點一:推出"交錯思考"深度研究模式,提升複雜查詢處理能力據《南華早報》報導,總部位於杭州的AI初創公司DeepSeek對其旗艦聊天機器人的使用者介面進行了更新,新增了名為"交錯思考"(interleaved thinking)的高級功能。這一功能類似於OpenAI的深度研究(Deep Research)產品,可以執行多步驟研究,在整個過程中穿插"思考"步驟。此前,聊天機器人在生成響應之前會"思考"使用者提供的提示,而"交錯思考"允許模型在每個操作之間進行"思考",增強其研究能力。例如,在打開網頁後,模型可能需要"思考"所讀資訊的可信度,然後決定是否查閱另一份檔案來驗證發現。這一過程對於處理複雜查詢至關重要。South China Morning Post要點二:12月月活使用者暴增90%,新一代模型備受期待報導指出,DeepSeek在2025年12月的月活躍使用者數激增90%,達到近1.315億。《南華早報》測試顯示,DeepSeek的聊天機器人並非總是部署"深度研究"模式,除非收到複雜的查詢提示。一旦該功能被啟動,使用者能夠看到"交錯思考"過程的每一步。這些升級標誌著DeepSeek在消費端的罕見改進,正值業界對其下一代模型的期待不斷升溫之際。分析師指出,隨著DeepSeek在AI模型性能和使用者體驗上的持續最佳化,該公司正在中國AI市場中鞏固其領先地位,並對國際競爭對手構成越來越大的挑戰。South China Morning Post11. 中國量化基金幻方推出iQuest-Coder AI模型,僅400億參數擊敗GPT-5.1和Claude Sonnet 4.5要點一:開放原始碼AI模型在多項基準測試中超越美國競爭對手據《南華早報》報導,總部位於北京的量化交易公司幻方量化(Ubiquant)於2026年1月初發佈了一系列開放原始碼專注型大語言模型iQuest-Coder-V1系列,該系列模型在多項基準測試中聲稱能夠匹敵甚至超越美國競爭對手如OpenAI的GPT-5.1和Anthropic的Claude Sonnet 4.5,儘管使用的參數數量遠少於後者。iQuest-Coder-V1系列專為程式碼智能設計,擅長自動程式設計、偵錯和程式碼解釋等任務,包括70億、140億和400億參數的模型,遠小於GPT-5.1和Claude Sonnet 4.5等領先閉源系統的參數規模(通常在4000億至8000億參數之間)。South China Morning Post要點二:基準測試成績亮眼,400億參數模型比肩國際頂尖水平根據自報資料,iQuest-Coder-V1-40B-Loop-Instruct在SWE-bench Verified基準測試中得分76.2%,接近Claude Sonnet 4.5的77.2%和GPT-5.1的76.3%。該基準測試衡量AI模型解決真實世界軟體工程問題的能力。在BigCodeBench測試中(該測試評估LLM在解決實際且具有挑戰性的程式設計任務方面的表現,不存在污染),該模型得分49.9%,超過Gemini 3 Pro Preview的47.1%和GPT-5.1的46.8%。此外,在LiveCodeBench v6測試中,該模型也展現出色表現。幻方量化繼DeepSeek之後成為中國量化基金進軍AI領域的又一案例,展示了中國金融科技公司在AI研發方面的強大實力和創新能力。South China Morning Post (AI Daily Insights)
Nature重磅:中國牽頭全球AI治理!這是阻止AI毀滅人類的唯一希望
"AI可能毀滅人類,而中國正在引領全球應對這場危機——其他國家必須加入!"你是否知道,全球AI發展正面臨一個致命悖論:我們正在以火箭般的速度開發AI,卻沒有建立相應的安全機制?Nature最新 editorial 發出震撼警告:中國提出的"世界人工智慧合作組織"(WAICO)可能是阻止AI毀滅人類的唯一希望,而美國等國家的不作為將使全球陷入危險境地!🔥 AI的雙面性:天使還是魔鬼?AI模型擁有令人驚嘆的能力,既能加速科學發現、推動經濟增長,也可能在不經意間造成災難性後果:• 加劇社會不平等:AI演算法可能強化現有的社會偏見• 助力犯罪活動:深度偽造技術已用於詐騙和政治操縱• 傳播虛假資訊:AI生成內容難以分辨真偽• 最可怕的威脅:部分頂尖研究者警告,超級智能AI可能在未來"毀滅人類""它們不完全理解世界,可能會以不可預測的方式失敗。" ——Nature editorial更令人擔憂的是,在AI開發的"百米衝刺"中,安全問題被嚴重忽視。許多專家擔心,當前的AI熱潮正在形成一個即將破裂的經濟泡沫,而全球卻缺乏統一的監管框架!🌐 全球AI治理:三國演義的現狀🇺🇸 美國:自由放任的"野蠻生長"美國作為全球AI技術的領導者,卻沒有國家層面的AI法規,僅靠各州零散的法律和企業自律。最新發佈的"AI安全指數"顯示,沒有一家美國公司得分高於C+。更令人擔憂的是,美國政府不僅沒有加強監管,反而在推動"創世任務"(Genesis Mission),為AI開發者提供前所未有的政府資料存取權,被比作"登月計畫"。"美國公司期望自己監管自己,同時又在無休止的競爭中。" ——Nature🇪🇺 歐盟:謹慎前行的"AI法案"歐盟去年推出的《AI法案》要求最強大的AI系統加強威脅分析,但實施效果尚不明確。媒體報導稱,企業正在向歐盟施壓,要求放寬法律限制。儘管有巨額罰款的威脅,但法案實施仍處於初級階段,實際效果有待觀察。🇨🇳 中國:快速行動的"監管先鋒"與美歐不同,中國自2022年以來已推出一系列AI法規和技術標準:• 要求AI開發者提交生成式AI模型進行部署前安全評估• 強制在AI生成內容上加入可見、不可磨滅的水印• 2025年上半年發佈的AI國家標準數量等於過去三年總和"中國在2025年上半年發佈的AI國家標準數量等於過去三年總和。" ——Concordia AI中國AI監管的核心理念是:既要推動AI廣泛應用,又要確保可追溯性和企業責任。儘管中國AI企業在"AI安全指數"上的得分低於西方同行(部分原因是未能充分應對災難性濫用風險),但其監管速度和系統性令人矚目。🌐 WAICO:中國提出的"AI聯合國"中國提出建立"世界人工智慧合作組織"(WAICO),旨在協調全球AI監管規則,同時"充分尊重各國政策和實踐的差異",並特別關注全球南方國家。WAICO的總部計畫設在上海,雖然細節尚未明確,但Nature認為:"建立這樣一個機構符合所有國家的利益,全球各國政府都應該加入。"WAICO不會直接強制執行AI規則(中國也表示支援聯合國主導的全球AI治理),但它可能成為各國逐漸凝聚共識的平台。🤝 為什麼中國方案值得關注?1️⃣ 中國AI的全球影響力中國推行"開放權重"政策,使全球公司越來越多地基於中國AI建構服務。中國AI模型的可獲取性和低成本正在重塑全球AI生態。"中國'開放權重'模型政策意味著全球公司越來越多地基於中國AI建構服務。" ——Nature2️⃣ 全球治理的迫切需求現有全球AI治理努力——如經濟合作與發展組織的AI原則和歐洲委員會的《人工智慧框架公約》——要麼不具約束力,要麼未得到有效執行。Nature建議,WAICO可以借鑑國際原子能機構(IAEA)的模式:各國同意限制AI開發並開放系統接受檢查,使各國能夠驗證彼此是否遵守規則。🌍 科學啟示:AI治理不是零和遊戲Nature editorial 發出重要警示:"AI治理不應被視為地緣政治競賽,認為一個國家的安全可以通過技術主導來保證。'獲勝'對大多數國家來說不是選項,AI軍備競賽不會保證人們更安全或更富裕。"相反,全球應共同合作,就什麼是安全的AI以及世界希望如何利用AI達成共識。中國學者Angela Zhang指出,儘管中國監管有其政治考量,但其基本動機與他國"相當相似":"他們不想被機器人消滅。"💡 科研人員和企業的行動指南1️⃣ 關注中國AI標準隨著中國AI影響力的擴大,瞭解中國的AI標準對全球研究人員和企業至關重要。忽視這一趨勢可能導致技術落後或合規風險。2️⃣ 參與全球對話科研人員應積極參與多邊對話,幫助評估什麼樣的全球治理既有效又現實。AI安全需要全球智慧,而非單一國家的解決方案。3️⃣ 平衡創新與安全企業和研究機構需要在追求創新的同時,主動加強內部AI安全機制,而不是等待監管強制要求。 (聖不可知)
史丹佛大學等發佈AI透明度年報! 2025 AI透明度大倒退:均分跌至40,IBM奪冠,xAI與Midjourney墊底!
隨著AI模型的能力以驚人的速度進化,我們對這些“黑盒”背後的運作機制卻似乎知之甚少。史丹佛大學等機構最新發佈的 2025年基礎模型透明度指數(Foundation Model Transparency Index, FMTI)揭示了一個令人擔憂的趨勢:儘管AI技術在飛速發展,但行業整體的透明度卻在大幅倒退。ArXiv URL:http://arxiv.org/abs/2512.10169v1這份年度重磅報告不僅對OpenAI、Google等老牌巨頭進行了“體檢”,還首次將阿里巴巴、DeepSeek等中國公司納入評測範圍。結果令人咋舌:平均分從去年的58分暴跌至40分,甚至低於2023年的水平。透明度“寒冬”:誰在裸泳,誰在領跑?今年的FMTI報告評估了13家全球頂級的基礎模型開發商。研究團隊設計了包含100項指標的評估體系,涵蓋了從上游資料、模型建構到下游影響的全過程。紅榜與黑榜的巨大反差:• 冠軍(IBM):IBM以 95/100 的高分一騎絕塵,成為透明度的絕對標竿。它在很多其他公司諱莫如深的領域(如資料來源、計算資源)都做到了充分披露。• 墊底(xAI & Midjourney):Elon Musk旗下的xAI和繪圖模型巨頭Midjourney僅獲得 14分,處於極度不透明的狀態。• “中庸”的巨頭們:包括OpenAI、Google、Anthropic、Amazon和Meta在內的“前沿模型論壇”(Frontier Model Forum)成員,分數全部擠在中間梯隊(平均約36分)。報告犀利地指出,這些公司似乎達成了一種默契——既避免因分數過低而聲譽受損,又缺乏動力去爭當透明度的領頭羊。中國公司的首秀:今年首次參評的中國公司表現各異。阿里巴巴、DeepSeek等公司被納入評估,雖然整體得分處於中下游(DeepSeek、Meta和Alibaba的平均分為30分),但這標誌著全球AI透明度評估版圖的完整化。評分暴跌背後的真相:標準升級與刻意隱瞞為什麼今年的平均分會從58分跌至40分?這不僅僅是因為加入了得分較低的新公司,更是因為許多老牌玩家在關鍵指標上出現了“倒退”。1. 核心資源的“黑盒化”公司們對“上游資源”最為保密。訓練資料(Training Data)和訓練算力(Training Compute)是兩個最大的黑洞。• 資料來源:幾乎沒有公司願意詳細披露其訓練資料的具體來源和構成,這直接關係到版權和偏見問題。• 算力成本:儘管外界對訓練大模型的昂貴成本充滿好奇,但具體使用了多少 、消耗了多少能源,往往被視為商業機密。例如,AI21 Labs在2024年還披露了算力和碳排放資料,但在2025年卻選擇了隱瞞。2. 評估標準的“硬核”升級FMTI 2025對指標進行了大幅修訂,旨在“去偽存真”。• 拒絕模糊描述:以前只要描述了模型能力(如“文字生成”)就能得分,現在必須列出“在後訓練階段專門最佳化的能力清單”。• 強調可復現性:僅僅聲稱模型在某個基準測試上得分很高是不夠的,必須開放原始碼和提示詞(Prompts),證明第三方可以復現這一結果才能得分。技術拆解:如何量化透明度?為了科學地衡量透明度,研究團隊將100個指標分為三個核心領域:1. 上游(Upstream):關注建構模型所需的資源。• 資料:資料來源、版權、許可、PII(個人身份資訊)處理。• 勞動力:涉及資料標註工人的薪資和工作環境。• 計算:硬體詳情、能源消耗。2. 模型(Model):關注模型本身的屬性和發佈。• 架構:參數量、層數等(很多公司現在對此閉口不談)。• 能力與風險:模型能做什麼,不能做什麼,以及潛在的安全隱患。3. 下游(Downstream):關注模型的使用和影響。• 分發:誰在使用模型?• 影響:對使用者、受影響群體以及環境的實際影響。有趣的發現:AI Agent能取代人類評估員嗎?在今年的評估過程中,研究團隊進行了一項有趣的實驗:利用AI Agent來輔助收集各公司的透明度資訊。結果顯示,AI Agent確實能提高資訊檢索的效率,但還遠不能完全取代人類。Agent容易產生“幻覺”或被表面資訊誤導(False Positives),同時也容易漏掉深藏在技術文件中的關鍵細節(False Negatives)。最終,所有資訊仍需經過FMTI團隊的人工核實。結論:透明度是一種選擇,而非技術難題2025 FMTI報告最核心的啟示在於,透明度的差異主要源於企業意願,而非技術或結構性障礙。IBM、Writer和AI21 Labs的高分證明,即使是商業化公司,也可以在保持競爭力的同時實現高度透明。相反,某些公司在下游應用政策(如下載使用條款)上得分極高,卻在模型訓練資料上得分掛零,這種鮮明的對比揭示了其策略性的不透明。隨著全球政策制定者(如歐盟AI法案)開始強制要求某些類型的透明度,這份報告不僅是對現狀的記錄,更是對未來政策干預方向的指引。如果市場競爭無法帶來透明,那麼更激進的政策干預或許將成為必然。 (AI研究)
輝達H100太空首秀,AI模型首次在軌完成訓練與推理
近日,由輝達支援的初創公司Starcloud 正式宣佈,其發射的Starcloud-1 衛星已在地球低軌道上成功運行輝達H100 GPU,並完成了人工智慧模型的訓練和推理任務。這是人類首次在太空軌道上完成此類任務。Starcloud 的這項突破直接回應了AI 與算力基礎設施快速擴張所帶來的能源、冷卻與資源壓力問題。當AI 模型規模不斷擴大、資料中心對電力與水資源的需求急劇上升之時,建構能夠長期穩定運行且能源自給的軌道計算平台成為行業關注的前沿方向。據悉,這顆重約60公斤、大小相當於一台小型冰箱的衛星於2025 年11 月搭載SpaceX “獵鷹9 號”火箭發射升空,隨衛星一同進入軌道的是一塊經過定製的輝達H100 GPU。根據公開資料,這塊在軌裝置的算力是此前任何進入太空的圖形處理單元的100 倍,為AI 訓練與推理提供了硬體基礎。在入軌後的數周內,團隊並未急於進行高強度測試,而是先確保衛星的姿態控制和熱管理系統穩定。在軌調試階段,Starcloud 工程團隊將兩項不同性質的任務交付給這塊GPU 完成。一是利用莎士比亞全集從頭訓練NanoGPT 模型。NanoGPT 是前OpenAI 研究人員Andrej Karpathy 開發的輕量級大語言模型。 Starcloud 將莎士比亞全集作為訓練資料集上傳至衛星,最終成功訓練出了一個能模仿伊麗莎白時代戲劇風格生成文字的AI 模型。需要指出的是,NanoGPT 本身並非大規模商業模型,其參數規模與當前主流大模型仍有顯著差距。但業內普遍認為,這次實驗的關鍵並不在於模型大小,而在於完整驗證了從前向計算、反向傳播到參數更新的訓練閉環,能夠在軌道環境中穩定運行。二是在衛星內部運行Google DeepMind 的開源大型語言模型Gemma,並在軌道環境下進行推理任務。在部署Gemma 模型後,衛星還向地球發來消息:“地球人,你們好!或者我更願稱你們為一群迷人的藍綠集合體,讓我們一起來探索隱藏在宇宙中的奇蹟。”(資料來源:社群媒體X)在軌完成模型訓練與推理本身即為技術複雜度極高的工程。太空環境溫度極端、輻射強烈且通訊延遲是開展此類任務的主要挑戰。 Starcloud 工程團隊表示,他們在硬體輻射防護、電源管理與散熱設計方面做了大量優化,使得H100 GPU 能穩定運行傳統意義上屬於地面資料中心工作負載的任務。Starcloud-1 的任務還整合了衛星本身的狀態數據,這意味著運行在軌的AI 模型能即時讀取高度、速度、方向等遙測資訊,為推理任務提供即時輸入。例如,系統能夠回答查詢衛星當前位置的問題,並返回諸如「我正在非洲上空,並將在20 分鐘後飛越中東」的情況說明。Starcloud 的發展策略遠不止於單顆實驗衛星。該公司計劃建造一個規模達5 吉瓦(GW)的軌道數據中心,該設施預計配備寬高約4 公里的太陽能發電板與散熱元件,利用太陽能全天候無間斷供電,以滿足未來大規模AI 訓練和推理的能源需求。根據Starcloud 白皮書介紹,這樣一個軌道資料中心產生的能源將比美國最大的單一發電廠還高出數倍,同時能源成本預計可降至現有地面資料中心的十分之一。Starcloud 的願景是盡可能將傳統地面資料中心所能執行的所有任務遷移到太空,包括高效能運算、AI 模型訓練、即時資料處理與全球監測服務等,這將徹底改變現有的算力基礎設施格局。執行長Philip Johnston 曾公開表示:“任何你能在地面數據中心做的事情,未來都應該能在太空完成。”圖| 軌道資料中心網路架構(資料來源:Starcloud 白皮書)Starcloud 費盡周折將資料中心搬上天的背後,是地面AI 產業正面臨的一場嚴峻的能源危機。國際能源署(IEA)發布的報告中預測,到2030 年,全球資料中心年用電量將接近945 太瓦時(TWh),相當於日本一整年的用電規模,其中AI 被明確列為最主要的成長驅動力之一。IEA 同時指出,在美國,資料中心可能貢獻未來數年近一半的新增電力需求,其成長速度已明顯快於電網擴容和新能源並網的節奏。圖| 2024 年資料中心及裝置類型電力消耗份額(來源:IEA)能源之外,冷卻與水資源正成為另一道隱性瓶頸。以微軟為例,其揭露的資料顯示,2022 年公司用水量達到640 萬立方米,年增34%,主要用於資料中心冷卻;多家研究機構指出,生成式AI 工作負載是水耗快速上升的重要原因之一。當電力、冷卻和水資源同時成為限制因素,繼續在地面無限擴張資料中心已不再是純技術問題。在這一現實壓力下,Starcloud 將目光投向軌道空間,其「軌道資料中心」的設想,也由最初的激進嘗試,逐漸演變為繞開地面能源瓶頸的一條現實路徑。Starcloud 在白皮書中給出的論點直指地面AI 基礎設施的根本瓶頸:能源與冷卻的不可持續性。該公司指出,地面資料中心擴張正受到電力、冷卻和水資源的多重約束,而這些問題在AI 算力快速增長背景下進一步放大。相較之下,軌道空間在能源與散熱條件上具備結構性優勢。白皮書測算顯示,太空太陽能陣列的發電容量係數可超過 95%,單位面積發電量約為地面系統的 5 倍,長期能源成本可低至0.002 美元/kWh。同時,熱量可透過輻射直接向深空釋放,每平方公尺輻射板約可散熱 770 瓦,從而避免地面資料中心對高能耗製冷和大量用水的依賴。在這一對比下,Starcloud 認為將部分算力遷移至軌道空間,具備長期成本和資源上的現實吸引力。不過,軌道資料中心的商業化和規模化部署並非無風險。太空輻射、在軌維護困難、太空碎片風險及國際空間監管等問題仍是限制因素。行業分析師指出,這些挑戰需要係統工程解決方案和國際層面的政策協同。Starcloud 的下一階段計劃,包括在2026 年10 月發射更多搭載H100 及Blackwell 的衛星,並引入雲基礎設施公司Crusoe 的模組,以支援商業用戶直接從太空部署與運行AI 工作負載。值得注意的是,Google、SpaceX 及Blue Origin 等公司都已在探索太空算力和軌道資料中心的可能性。 Google公開宣佈將自研的TPU 送入太空試驗項目,預計在2027 年進行早期測試,併計劃在未來十年實現更廣泛應用;SpaceX 也被認為可能將其星鏈衛星與軌道計算基礎設施結合,以構建一個全球覆蓋的在軌算力網絡。多位業內人士指出,這類嘗試之所以在當下成為可能,與多項技術條件的同步成熟密切相關。一方面,可重複使用火箭顯著降低了單次發射成本,使在軌算力試驗具備試錯空間;另一方面,單顆AI 晶片的算力密度在近兩年實現躍升,使得一顆中小型衛星首次具備承載有意義計算任務的能力。在算力、發射成本與地面能源約束同時逼近臨界點的背景下,軌道資料中心迎來了現實試驗窗口。 (問芯)
OpenAI拉響紅色警報!發佈新模型“大蒜”對戰Google
OpenAI急了,大蒜(Garlic)模型重磅登場。2025年,全球AI行業的競爭邁入白熱化階段。今年8月,GPT-5發佈後,OpenAI不僅未能延續此前ChatGPT系列帶來的“技術革命”熱潮,反而暴露了諸多深層問題,讓市場對其領先地位產生質疑。GoogleGemini 3的強勢突圍,更是讓OpenAI陷入了戰略被動。ChatGPT流量在競品發佈後較峰值下降6%,獨立使用者數也同步下降6%這家估值5000億美元的巨頭果斷拉響“紅色警報”,集中資源押注代號“大蒜(Garlic)”的新一代模型。這一命名暗藏深意:Shallotpeat(紅蔥頭)在泥炭中難以生長,而Garlic(大蒜)則能適應更複雜的生長環境。寓意著這款模型將攻克OpenAI在預訓練環節的“土壤缺陷”,在曾經的短板領域實現突破。這場以“大蒜(Garlic)”為核心的戰略反擊,不僅是OpenAI的重點突圍行動,更掀起了AI巨頭在技術和算力領域的全面對抗,行業競爭強度持續升級。大蒜(Garlic)亮劍:OpenAI聚焦預訓練短板的戰略反擊面對Gemini 3在多模態與推理任務上的強勁表現,OpenAI的“大蒜(Garlic)”並非簡單的迭代最佳化,而是一場針對性的戰略重構。此前OpenAI的“紅蔥頭(Shallotpeat)”方案因依賴資料堆砌陷入瓶頸,而“大蒜(Garlic)”模型直指預訓練階段的“土壤短板”,這正是Gemini 3實現領先的關鍵領域。為守住ChatGPT的陣地,OpenAI暫緩了廣告智能體等商業化非核心項目,將算力與人力全部傾斜給AI模型研發,展現出明確的戰略聚焦姿態。結合已知資訊,大蒜(Garlic)在技術層面實現了三大突破性升級。其一,預訓練資料量較Gemini 3提升30%,涵蓋2025年中期前的全網文字、程式碼與多模態資源。其二,採用混合稀疏啟動架構,在保持參數規模的同時,推理成本下降15%。其三,專攻程式設計與邏輯推理,在MATH資料集得分提升12%,ARC資料集提升9%,內部測試中Python程式碼生成精準率達89.7%。OpenAI對這款模型寄予厚望。聯合創始人兼CEO Sam Altman在內部備忘錄中直言,“大蒜(Garlic)是公司最具雄心的賭注”,它的使命是將ChatGPT的整體表現拉回行業領先水平。按照規劃,大蒜(Garlic)模型將於2026年初以GPT-5.2或GPT-5.5版本發佈。AI巨頭暗戰升級:技術與算力的全面對抗今年11月,Google、OpenAI及Anthropic相繼發佈最新模型——Gemini 3、GPT-5.1和Claude Opus 4.5。當前行業已形成“三足鼎立”的穩定格局。OpenAI、Google與Anthropic組成的AI三巨頭,早已跳出單一的模型性能比拚,進入技術路線與算力基建的全方位深層競爭。技術層面,三巨頭各有專攻卻形成精準對標。Google的Gemini主打“原生多模態”優勢,從設計之初就兼顧文字、圖像、音訊和視訊的理解處理,能輕鬆應對長文字分析、視訊內容總結等複雜場景,再加上自研TPU晶片的全端最佳化,讓技術落地更高效。Anthropic則劍走偏鋒,Claude系列模型聚焦企業級市場,以安全合規為核心,在程式碼處理、敏感資料保護等場景中形成壁壘,成為眾多企業的首選工具。OpenAI則依託與微軟的深度繫結,一邊打磨消費級產品的使用者體驗,一邊推進企業級服務落地,借助合作夥伴的生態資源快速補全短板。算力作為AI競爭的“命脈”,已成三巨頭砸錢爭奪的焦點。Google靠自研TPU晶片建構專屬算力體系,通過軟硬體協同降低運行成本。OpenAI聯合微軟、輝達共建超級資料中心,用巨額投入鎖定長期算力供應。Anthropic也不甘落後,一邊佈局自有資料中心,一邊與Google達成算力合作,確保研發與服務無後顧之憂。值得注意的是,這場算力競賽還面臨電力短缺的現實挑戰,巨頭們不僅要拼技術,還要解決能源供給的底層難題。AI競爭的終極意義:從技術競賽到價值創造全球AI格局的動態演變,推動著行業從“技術參數競賽”走向“實際價值創造”。對於普通使用者而言,競爭帶來的是更強大、更實用的AI工具。對於企業來說,AI不再是錦上添花的“炫技工具”,而是降本增效、創新商業模式的核心引擎。隨著全球AI治理框架逐步完善,技術競爭將更加規範,而那些既能堅持創新,又能兼顧安全與倫理的企業,終將在這場長跑中脫穎而出。2025年的AI競爭,不是終局,而是新篇章的開始。與其糾結於“誰將贏得這場戰爭”,不如擁抱AI帶來的變革。真正的勝利者,永遠是那些善於利用技術創造價值的個人與企業。 (創新觀察局)
下一個Transformer可能又被Google做出來了
如果把現在的頂尖大模型比作一個人,那它一定患有一種罕見的神經系統疾病:順行性遺忘症(Anterograde Amnesia)。這是 Google Research 研究員、最近最受關注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病症的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發病前的一切,我是誰,我來自那裡,我有什麼技能。但對於發病後發生的所有事情,他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當下”,幾分鐘後,一切就會被重設。這就是現在 AI 模型的真實寫照。無論Gemini或是ChatGPT多麼博學,如果不聯網搜尋,它們都只能依靠預訓練階段獲得的出廠知識(也就是“發病前”的記憶)來回答問題。而在對話窗口裡,無論你教給它多少新公司的業務邏輯,或者糾正了它多少次程式碼錯誤,這些資訊都只停留在短暫的上下文窗口裡。一旦窗口關閉,或者視訊記憶體被重設,它就像金魚一樣,把剛才發生的一切忘得乾乾淨淨 。下一次見面,它依然是那個出廠時的它,絲毫沒有因為與你的互動而變得更聰明一點。為什麼擁有超級算力的 AI,卻治不好這個健忘症?長期以來,行業有一種二元對立的看法,認為 AI 的“架構”(Architecture)和“最佳化器”(Optimizer)是兩個截然不同的物種。架構是骨架(如 Transformer),它是靜態的,出廠即凍結,負責“推理”。“最佳化器”是雕刻刀(如 Adam、SGD),它是動態的,只在工廠裡用來訓練模型,出廠後就被沒收了。我們習慣了把 AI 當作一個靜態產品,訓練好了,打包發佈,使用者只管用。但在 Google 最新發佈的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(巢狀學習:深度學習架構的幻覺)中,研究團隊試圖告訴我們,這其實是一種幻覺,是我們人為製造的自我設限。如果架構和最佳化器本質上是同一個東西呢?如果並沒有所謂的“訓練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?基於這個大膽的假設,Google 團隊提出了一個名為 HOPE 的新框架。他們並沒有簡單地堆砌參數,而是試圖從底層邏輯上重構 AI 的“大腦結構”,讓它不再是一個出廠即固化的工具,而是在每一次互動中都能微調自己、擁有“快慢記憶系統”的動態生命體。而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個Transformer 等級的創新。Ali Behrouz 在 NeurIPS 2025 現場講解Nested Learning。拆解“幻覺”:被遺忘的中間地帶要治好“健忘症”,我們首先得看看現在的 AI 大腦裡到底裝了什麼。在 Ali Behrouz 的解構下,目前的 Transformer 架構呈現出一種極端的“精神分裂”狀態。如果不使用複雜的數學術語,我們可以把它的內部元件看作兩個極端:一個是“極快”的 Attention(注意力機制)。它時刻處於亢奮狀態,對你輸入的每一個字(Token)都進行瞬時的計算和響應。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學習能力(In-Context Learning),你剛說的話,它馬上就能用。另一個是“極慢”的 MLP(前饋神經網路)。它是模型的長期記憶庫,承載了絕大多數參數。但它的更新頻率是 0。這部分像一塊凍結的硬碟,除非你耗費巨資進行全量微調(Fine-tuning),否則它永遠不會改變。在這兩者之間,存在著一個巨大的真空地帶。這就是“幻覺”的根源。人類的大腦並不是這樣工作的。我們的記憶是一個連續的頻譜,我們有幾秒鐘的感官記憶,有幾小時的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸並不是非黑即白,而是以各種不同的頻率在不斷微調。為了填補這個真空,Google 團隊提出了 Nested Learning(巢狀學習) 的概念。我們可以把它想像成一套精密咬合的齒輪系統”:最外層的小齒輪轉得飛快(處理當前的對話);中間層的齒輪轉得稍慢(記住過去幾小時或幾天的任務);最裡層的大齒輪轉得極慢(沉澱世界觀和基礎知識)。為了證明這種統一性在生物學上的合理性,他甚至在論文中引用了一個非常硬核的神經科學案例,半球切除術(Hemispherectomy) 。醫學發現,即使切掉人類的一半大腦,通常是為了治療嚴重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦並沒有什麼“專門負責 Attention 的模組”或“專門負責 MLP 的模組”,神經組織是通用的、可復用的。同樣的道理,AI 的“架構”和“最佳化器”本質上也是同一種東西,只是處於不同的巢狀層級:傳統的模型記憶的是“資料”(Token);最佳化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個地方犯了錯,下次要修正” 。既然都是在“記憶資訊”並“更新狀態”,為什麼我們要把它們人為地割裂開來?也許我們不需要在這個二元對立的框架裡修修補補,可以直接設計一個全頻率覆蓋的動態系統。HOPE 的三層設計基於 Nested Learning 的理論,Google 團隊交出了一份具體的工程答卷,還起了一個充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。如果說傳統的 Transformer 是一個只有短期記憶的“單核處理器”,那麼 HOPE 更像是一個符合神經科學原理的“雙重記憶大腦”。它通過兩個元件,復刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協作機制 。1. 快系統:像海馬體一樣敏銳的 Titans在 HOPE 的最前端,是處理即時資訊的“快系統”。這裡 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負責快速捕捉和編碼當下的新知。傳統的 AI 模型在處理新資訊時是被動的,但 HOPE 裡的 Titans 模組具有極強的“主觀能動性”,它是 Self-Modifying(自我修改) 的。它不僅是在讀取資料,更是在根據當前的上下文,即時生成自己這一步學習所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學習率) 。這意味著,它能敏銳地判斷眼前資訊的重要性,快速形成短期記憶。2. 慢系統:像皮層一樣厚重的 CMS這是整個架構中最具顛覆性的設計。HOPE 引入了 Continuum Memory System (連續記憶系統,CMS)。CMS 就像是厚重的大腦皮層,負責將經過篩選的知識長久地刻印在神經元中。Google 將人腦電波的頻率機制引入了 AI 架構設計,建構了不同更新頻率的層級在 CMS 中,模型內部的 MLP(前饋網路)不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉速的齒輪:高頻層: 可能每處理幾百個字就更新一次,用於捕捉剛才對話裡的新定義。中頻層: 可能每處理幾萬字更新一次,用於適應一個新的項目背景。低頻層: 幾乎不更新,用於穩固語言的語法和常識 。左側的 HOPE 架構擁有豐富的中間層級這種設計避免了災難性遺忘。當新知識湧入時,它會被優先儲存在高頻層,而不會去驚擾低頻層裡的舊知識。隨著時間的推移,真正重要的資訊才會像沙漏裡的沙子一樣,慢慢沉澱到深層。3. 最佳化器也有了“記憶”Google 的激進之處在於,他們不僅改造了大腦(架構),還改造了老師(最佳化器)。為了配合這就這套複雜的系統,他們設計了一個名為 M3 (Multi-scale Momentum Muon) 的新最佳化器。既然模型分了層,最佳化器為什麼不能分層?普通的 Adam 最佳化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 最佳化器本身也被設計成了巢狀結構,它有一層“快動量”負責看腳下的路,還有一層“慢動量”負責看遠處的山脈(全域 Loss Landscape)。這意味著,連負責訓練的演算法本身,都擁有了更深遠的記憶力。M3 最佳化器在 ImageNet 訓練任務中,展現出了更快的收斂速度和更低的 Loss實驗資料顯示,這種設計在 ImageNet 和大語言模型訓練上,不僅收斂更快,而且最終效果更好。4. 給工程師的“後悔藥”對於工業界的開發者來說,HOPE 最迷人的地方可能不是從頭訓練一個新模型,而是它提供了一種“原地改造”的可能性。Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手裡現有的 Llama 或 Qwen 模型。你可以直接拿來一個預訓練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設為高頻,深層設為低頻 。這就像是給一輛已經出廠的舊車,通過刷新韌體就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個工程方案。從“靜態產品”到“動態生命”我們把視角從程式碼行中抽離出來,會發現 Nested Learning 真正的野心,不在於刷榜,而在於試圖完成一次 AI 領域的範式轉移。在 NeurIPS 的分享最後,作者提出了一個發人深省的觀點,“深度(Depth)也許不再是唯一的答案。”過去十年,我們一直在堆疊物理層數,把神經網路做得越來越深。這種暴力美學確實帶來了湧現能力,但它也製造了一個巨大的“幻覺”,誤以為智能來源於靜態的深度。而忽略了真正的深度可能來自於巢狀的最佳化。更進一步,論文中提出了一個極其激進的定義:“預訓練本身,其實就是一種超長上下文的 In-Context Learning。”這句話消解了 AI 領域最大的邊界。在 Nested Learning 的願景裡,沒有所謂的“訓練結束”這一天。模型在與使用者互動的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器,而是一個在資料流中不斷呼吸、代謝、進化的有機體。這或許才是通往 AGI更本質的道路,智能不是被灌輸的,而是在互動中生長的。當然,任何試圖顛覆範式的理論,註定會伴隨著巨大的爭議。這圍繞這篇論文討論區裡,聲音很多樣。樂觀者將其視為 "Attention Is All You Need V2"。社區對於自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統計學的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認知”能力,即學習如何學習。這種從被動擬合到主動適應的跨越,被認為是 AI 產生質變的關鍵。實用主義者則看到瞭解決災難性遺忘的曙光。如果這一架構能落地,未來的企業級 AI 將不再需要為了更新一點點業務知識而耗資百萬進行全量重訓,AI 可以在業務流中自然地學會新規章,同時不忘記舊制度。這是對降本增效是最直接的。質疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強行解釋為“聯想記憶”的數學證明雖然精彩,但更多依賴直覺,缺乏嚴謹的收斂性保障。更有工程師擔心,這種複雜的“巢狀最佳化”會讓調參難度呈指數級上升,畢竟,調一個 Adam 已經夠頭疼了,現在我們要同時調好幾個不同頻率的“大腦”。但無論如何,Google 這一次沒有在參數量上卷,而是在“學習的本質”上開了一槍。它用一種近乎哲學的方式提醒我們,對於一個真正的智能體來說,存在就是壓縮,活著就是學習。 (矽星人Pro)