#AI模型
Nature重磅:中國牽頭全球AI治理!這是阻止AI毀滅人類的唯一希望
"AI可能毀滅人類,而中國正在引領全球應對這場危機——其他國家必須加入!"你是否知道,全球AI發展正面臨一個致命悖論:我們正在以火箭般的速度開發AI,卻沒有建立相應的安全機制?Nature最新 editorial 發出震撼警告:中國提出的"世界人工智慧合作組織"(WAICO)可能是阻止AI毀滅人類的唯一希望,而美國等國家的不作為將使全球陷入危險境地!🔥 AI的雙面性:天使還是魔鬼?AI模型擁有令人驚嘆的能力,既能加速科學發現、推動經濟增長,也可能在不經意間造成災難性後果:• 加劇社會不平等:AI演算法可能強化現有的社會偏見• 助力犯罪活動:深度偽造技術已用於詐騙和政治操縱• 傳播虛假資訊:AI生成內容難以分辨真偽• 最可怕的威脅:部分頂尖研究者警告,超級智能AI可能在未來"毀滅人類""它們不完全理解世界,可能會以不可預測的方式失敗。" ——Nature editorial更令人擔憂的是,在AI開發的"百米衝刺"中,安全問題被嚴重忽視。許多專家擔心,當前的AI熱潮正在形成一個即將破裂的經濟泡沫,而全球卻缺乏統一的監管框架!🌐 全球AI治理:三國演義的現狀🇺🇸 美國:自由放任的"野蠻生長"美國作為全球AI技術的領導者,卻沒有國家層面的AI法規,僅靠各州零散的法律和企業自律。最新發佈的"AI安全指數"顯示,沒有一家美國公司得分高於C+。更令人擔憂的是,美國政府不僅沒有加強監管,反而在推動"創世任務"(Genesis Mission),為AI開發者提供前所未有的政府資料存取權,被比作"登月計畫"。"美國公司期望自己監管自己,同時又在無休止的競爭中。" ——Nature🇪🇺 歐盟:謹慎前行的"AI法案"歐盟去年推出的《AI法案》要求最強大的AI系統加強威脅分析,但實施效果尚不明確。媒體報導稱,企業正在向歐盟施壓,要求放寬法律限制。儘管有巨額罰款的威脅,但法案實施仍處於初級階段,實際效果有待觀察。🇨🇳 中國:快速行動的"監管先鋒"與美歐不同,中國自2022年以來已推出一系列AI法規和技術標準:• 要求AI開發者提交生成式AI模型進行部署前安全評估• 強制在AI生成內容上加入可見、不可磨滅的水印• 2025年上半年發佈的AI國家標準數量等於過去三年總和"中國在2025年上半年發佈的AI國家標準數量等於過去三年總和。" ——Concordia AI中國AI監管的核心理念是:既要推動AI廣泛應用,又要確保可追溯性和企業責任。儘管中國AI企業在"AI安全指數"上的得分低於西方同行(部分原因是未能充分應對災難性濫用風險),但其監管速度和系統性令人矚目。🌐 WAICO:中國提出的"AI聯合國"中國提出建立"世界人工智慧合作組織"(WAICO),旨在協調全球AI監管規則,同時"充分尊重各國政策和實踐的差異",並特別關注全球南方國家。WAICO的總部計畫設在上海,雖然細節尚未明確,但Nature認為:"建立這樣一個機構符合所有國家的利益,全球各國政府都應該加入。"WAICO不會直接強制執行AI規則(中國也表示支援聯合國主導的全球AI治理),但它可能成為各國逐漸凝聚共識的平台。🤝 為什麼中國方案值得關注?1️⃣ 中國AI的全球影響力中國推行"開放權重"政策,使全球公司越來越多地基於中國AI建構服務。中國AI模型的可獲取性和低成本正在重塑全球AI生態。"中國'開放權重'模型政策意味著全球公司越來越多地基於中國AI建構服務。" ——Nature2️⃣ 全球治理的迫切需求現有全球AI治理努力——如經濟合作與發展組織的AI原則和歐洲委員會的《人工智慧框架公約》——要麼不具約束力,要麼未得到有效執行。Nature建議,WAICO可以借鑑國際原子能機構(IAEA)的模式:各國同意限制AI開發並開放系統接受檢查,使各國能夠驗證彼此是否遵守規則。🌍 科學啟示:AI治理不是零和遊戲Nature editorial 發出重要警示:"AI治理不應被視為地緣政治競賽,認為一個國家的安全可以通過技術主導來保證。'獲勝'對大多數國家來說不是選項,AI軍備競賽不會保證人們更安全或更富裕。"相反,全球應共同合作,就什麼是安全的AI以及世界希望如何利用AI達成共識。中國學者Angela Zhang指出,儘管中國監管有其政治考量,但其基本動機與他國"相當相似":"他們不想被機器人消滅。"💡 科研人員和企業的行動指南1️⃣ 關注中國AI標準隨著中國AI影響力的擴大,瞭解中國的AI標準對全球研究人員和企業至關重要。忽視這一趨勢可能導致技術落後或合規風險。2️⃣ 參與全球對話科研人員應積極參與多邊對話,幫助評估什麼樣的全球治理既有效又現實。AI安全需要全球智慧,而非單一國家的解決方案。3️⃣ 平衡創新與安全企業和研究機構需要在追求創新的同時,主動加強內部AI安全機制,而不是等待監管強制要求。 (聖不可知)
史丹佛大學等發佈AI透明度年報! 2025 AI透明度大倒退:均分跌至40,IBM奪冠,xAI與Midjourney墊底!
隨著AI模型的能力以驚人的速度進化,我們對這些“黑盒”背後的運作機制卻似乎知之甚少。史丹佛大學等機構最新發佈的 2025年基礎模型透明度指數(Foundation Model Transparency Index, FMTI)揭示了一個令人擔憂的趨勢:儘管AI技術在飛速發展,但行業整體的透明度卻在大幅倒退。ArXiv URL:http://arxiv.org/abs/2512.10169v1這份年度重磅報告不僅對OpenAI、Google等老牌巨頭進行了“體檢”,還首次將阿里巴巴、DeepSeek等中國公司納入評測範圍。結果令人咋舌:平均分從去年的58分暴跌至40分,甚至低於2023年的水平。透明度“寒冬”:誰在裸泳,誰在領跑?今年的FMTI報告評估了13家全球頂級的基礎模型開發商。研究團隊設計了包含100項指標的評估體系,涵蓋了從上游資料、模型建構到下游影響的全過程。紅榜與黑榜的巨大反差:• 冠軍(IBM):IBM以 95/100 的高分一騎絕塵,成為透明度的絕對標竿。它在很多其他公司諱莫如深的領域(如資料來源、計算資源)都做到了充分披露。• 墊底(xAI & Midjourney):Elon Musk旗下的xAI和繪圖模型巨頭Midjourney僅獲得 14分,處於極度不透明的狀態。• “中庸”的巨頭們:包括OpenAI、Google、Anthropic、Amazon和Meta在內的“前沿模型論壇”(Frontier Model Forum)成員,分數全部擠在中間梯隊(平均約36分)。報告犀利地指出,這些公司似乎達成了一種默契——既避免因分數過低而聲譽受損,又缺乏動力去爭當透明度的領頭羊。中國公司的首秀:今年首次參評的中國公司表現各異。阿里巴巴、DeepSeek等公司被納入評估,雖然整體得分處於中下游(DeepSeek、Meta和Alibaba的平均分為30分),但這標誌著全球AI透明度評估版圖的完整化。評分暴跌背後的真相:標準升級與刻意隱瞞為什麼今年的平均分會從58分跌至40分?這不僅僅是因為加入了得分較低的新公司,更是因為許多老牌玩家在關鍵指標上出現了“倒退”。1. 核心資源的“黑盒化”公司們對“上游資源”最為保密。訓練資料(Training Data)和訓練算力(Training Compute)是兩個最大的黑洞。• 資料來源:幾乎沒有公司願意詳細披露其訓練資料的具體來源和構成,這直接關係到版權和偏見問題。• 算力成本:儘管外界對訓練大模型的昂貴成本充滿好奇,但具體使用了多少 、消耗了多少能源,往往被視為商業機密。例如,AI21 Labs在2024年還披露了算力和碳排放資料,但在2025年卻選擇了隱瞞。2. 評估標準的“硬核”升級FMTI 2025對指標進行了大幅修訂,旨在“去偽存真”。• 拒絕模糊描述:以前只要描述了模型能力(如“文字生成”)就能得分,現在必須列出“在後訓練階段專門最佳化的能力清單”。• 強調可復現性:僅僅聲稱模型在某個基準測試上得分很高是不夠的,必須開放原始碼和提示詞(Prompts),證明第三方可以復現這一結果才能得分。技術拆解:如何量化透明度?為了科學地衡量透明度,研究團隊將100個指標分為三個核心領域:1. 上游(Upstream):關注建構模型所需的資源。• 資料:資料來源、版權、許可、PII(個人身份資訊)處理。• 勞動力:涉及資料標註工人的薪資和工作環境。• 計算:硬體詳情、能源消耗。2. 模型(Model):關注模型本身的屬性和發佈。• 架構:參數量、層數等(很多公司現在對此閉口不談)。• 能力與風險:模型能做什麼,不能做什麼,以及潛在的安全隱患。3. 下游(Downstream):關注模型的使用和影響。• 分發:誰在使用模型?• 影響:對使用者、受影響群體以及環境的實際影響。有趣的發現:AI Agent能取代人類評估員嗎?在今年的評估過程中,研究團隊進行了一項有趣的實驗:利用AI Agent來輔助收集各公司的透明度資訊。結果顯示,AI Agent確實能提高資訊檢索的效率,但還遠不能完全取代人類。Agent容易產生“幻覺”或被表面資訊誤導(False Positives),同時也容易漏掉深藏在技術文件中的關鍵細節(False Negatives)。最終,所有資訊仍需經過FMTI團隊的人工核實。結論:透明度是一種選擇,而非技術難題2025 FMTI報告最核心的啟示在於,透明度的差異主要源於企業意願,而非技術或結構性障礙。IBM、Writer和AI21 Labs的高分證明,即使是商業化公司,也可以在保持競爭力的同時實現高度透明。相反,某些公司在下游應用政策(如下載使用條款)上得分極高,卻在模型訓練資料上得分掛零,這種鮮明的對比揭示了其策略性的不透明。隨著全球政策制定者(如歐盟AI法案)開始強制要求某些類型的透明度,這份報告不僅是對現狀的記錄,更是對未來政策干預方向的指引。如果市場競爭無法帶來透明,那麼更激進的政策干預或許將成為必然。 (AI研究)
輝達H100太空首秀,AI模型首次在軌完成訓練與推理
近日,由輝達支援的初創公司Starcloud 正式宣佈,其發射的Starcloud-1 衛星已在地球低軌道上成功運行輝達H100 GPU,並完成了人工智慧模型的訓練和推理任務。這是人類首次在太空軌道上完成此類任務。Starcloud 的這項突破直接回應了AI 與算力基礎設施快速擴張所帶來的能源、冷卻與資源壓力問題。當AI 模型規模不斷擴大、資料中心對電力與水資源的需求急劇上升之時,建構能夠長期穩定運行且能源自給的軌道計算平台成為行業關注的前沿方向。據悉,這顆重約60公斤、大小相當於一台小型冰箱的衛星於2025 年11 月搭載SpaceX “獵鷹9 號”火箭發射升空,隨衛星一同進入軌道的是一塊經過定製的輝達H100 GPU。根據公開資料,這塊在軌裝置的算力是此前任何進入太空的圖形處理單元的100 倍,為AI 訓練與推理提供了硬體基礎。在入軌後的數周內,團隊並未急於進行高強度測試,而是先確保衛星的姿態控制和熱管理系統穩定。在軌調試階段,Starcloud 工程團隊將兩項不同性質的任務交付給這塊GPU 完成。一是利用莎士比亞全集從頭訓練NanoGPT 模型。NanoGPT 是前OpenAI 研究人員Andrej Karpathy 開發的輕量級大語言模型。 Starcloud 將莎士比亞全集作為訓練資料集上傳至衛星,最終成功訓練出了一個能模仿伊麗莎白時代戲劇風格生成文字的AI 模型。需要指出的是,NanoGPT 本身並非大規模商業模型,其參數規模與當前主流大模型仍有顯著差距。但業內普遍認為,這次實驗的關鍵並不在於模型大小,而在於完整驗證了從前向計算、反向傳播到參數更新的訓練閉環,能夠在軌道環境中穩定運行。二是在衛星內部運行Google DeepMind 的開源大型語言模型Gemma,並在軌道環境下進行推理任務。在部署Gemma 模型後,衛星還向地球發來消息:“地球人,你們好!或者我更願稱你們為一群迷人的藍綠集合體,讓我們一起來探索隱藏在宇宙中的奇蹟。”(資料來源:社群媒體X)在軌完成模型訓練與推理本身即為技術複雜度極高的工程。太空環境溫度極端、輻射強烈且通訊延遲是開展此類任務的主要挑戰。 Starcloud 工程團隊表示,他們在硬體輻射防護、電源管理與散熱設計方面做了大量優化,使得H100 GPU 能穩定運行傳統意義上屬於地面資料中心工作負載的任務。Starcloud-1 的任務還整合了衛星本身的狀態數據,這意味著運行在軌的AI 模型能即時讀取高度、速度、方向等遙測資訊,為推理任務提供即時輸入。例如,系統能夠回答查詢衛星當前位置的問題,並返回諸如「我正在非洲上空,並將在20 分鐘後飛越中東」的情況說明。Starcloud 的發展策略遠不止於單顆實驗衛星。該公司計劃建造一個規模達5 吉瓦(GW)的軌道數據中心,該設施預計配備寬高約4 公里的太陽能發電板與散熱元件,利用太陽能全天候無間斷供電,以滿足未來大規模AI 訓練和推理的能源需求。根據Starcloud 白皮書介紹,這樣一個軌道資料中心產生的能源將比美國最大的單一發電廠還高出數倍,同時能源成本預計可降至現有地面資料中心的十分之一。Starcloud 的願景是盡可能將傳統地面資料中心所能執行的所有任務遷移到太空,包括高效能運算、AI 模型訓練、即時資料處理與全球監測服務等,這將徹底改變現有的算力基礎設施格局。執行長Philip Johnston 曾公開表示:“任何你能在地面數據中心做的事情,未來都應該能在太空完成。”圖| 軌道資料中心網路架構(資料來源:Starcloud 白皮書)Starcloud 費盡周折將資料中心搬上天的背後,是地面AI 產業正面臨的一場嚴峻的能源危機。國際能源署(IEA)發布的報告中預測,到2030 年,全球資料中心年用電量將接近945 太瓦時(TWh),相當於日本一整年的用電規模,其中AI 被明確列為最主要的成長驅動力之一。IEA 同時指出,在美國,資料中心可能貢獻未來數年近一半的新增電力需求,其成長速度已明顯快於電網擴容和新能源並網的節奏。圖| 2024 年資料中心及裝置類型電力消耗份額(來源:IEA)能源之外,冷卻與水資源正成為另一道隱性瓶頸。以微軟為例,其揭露的資料顯示,2022 年公司用水量達到640 萬立方米,年增34%,主要用於資料中心冷卻;多家研究機構指出,生成式AI 工作負載是水耗快速上升的重要原因之一。當電力、冷卻和水資源同時成為限制因素,繼續在地面無限擴張資料中心已不再是純技術問題。在這一現實壓力下,Starcloud 將目光投向軌道空間,其「軌道資料中心」的設想,也由最初的激進嘗試,逐漸演變為繞開地面能源瓶頸的一條現實路徑。Starcloud 在白皮書中給出的論點直指地面AI 基礎設施的根本瓶頸:能源與冷卻的不可持續性。該公司指出,地面資料中心擴張正受到電力、冷卻和水資源的多重約束,而這些問題在AI 算力快速增長背景下進一步放大。相較之下,軌道空間在能源與散熱條件上具備結構性優勢。白皮書測算顯示,太空太陽能陣列的發電容量係數可超過 95%,單位面積發電量約為地面系統的 5 倍,長期能源成本可低至0.002 美元/kWh。同時,熱量可透過輻射直接向深空釋放,每平方公尺輻射板約可散熱 770 瓦,從而避免地面資料中心對高能耗製冷和大量用水的依賴。在這一對比下,Starcloud 認為將部分算力遷移至軌道空間,具備長期成本和資源上的現實吸引力。不過,軌道資料中心的商業化和規模化部署並非無風險。太空輻射、在軌維護困難、太空碎片風險及國際空間監管等問題仍是限制因素。行業分析師指出,這些挑戰需要係統工程解決方案和國際層面的政策協同。Starcloud 的下一階段計劃,包括在2026 年10 月發射更多搭載H100 及Blackwell 的衛星,並引入雲基礎設施公司Crusoe 的模組,以支援商業用戶直接從太空部署與運行AI 工作負載。值得注意的是,Google、SpaceX 及Blue Origin 等公司都已在探索太空算力和軌道資料中心的可能性。 Google公開宣佈將自研的TPU 送入太空試驗項目,預計在2027 年進行早期測試,併計劃在未來十年實現更廣泛應用;SpaceX 也被認為可能將其星鏈衛星與軌道計算基礎設施結合,以構建一個全球覆蓋的在軌算力網絡。多位業內人士指出,這類嘗試之所以在當下成為可能,與多項技術條件的同步成熟密切相關。一方面,可重複使用火箭顯著降低了單次發射成本,使在軌算力試驗具備試錯空間;另一方面,單顆AI 晶片的算力密度在近兩年實現躍升,使得一顆中小型衛星首次具備承載有意義計算任務的能力。在算力、發射成本與地面能源約束同時逼近臨界點的背景下,軌道資料中心迎來了現實試驗窗口。 (問芯)
OpenAI拉響紅色警報!發佈新模型“大蒜”對戰Google
OpenAI急了,大蒜(Garlic)模型重磅登場。2025年,全球AI行業的競爭邁入白熱化階段。今年8月,GPT-5發佈後,OpenAI不僅未能延續此前ChatGPT系列帶來的“技術革命”熱潮,反而暴露了諸多深層問題,讓市場對其領先地位產生質疑。GoogleGemini 3的強勢突圍,更是讓OpenAI陷入了戰略被動。ChatGPT流量在競品發佈後較峰值下降6%,獨立使用者數也同步下降6%這家估值5000億美元的巨頭果斷拉響“紅色警報”,集中資源押注代號“大蒜(Garlic)”的新一代模型。這一命名暗藏深意:Shallotpeat(紅蔥頭)在泥炭中難以生長,而Garlic(大蒜)則能適應更複雜的生長環境。寓意著這款模型將攻克OpenAI在預訓練環節的“土壤缺陷”,在曾經的短板領域實現突破。這場以“大蒜(Garlic)”為核心的戰略反擊,不僅是OpenAI的重點突圍行動,更掀起了AI巨頭在技術和算力領域的全面對抗,行業競爭強度持續升級。大蒜(Garlic)亮劍:OpenAI聚焦預訓練短板的戰略反擊面對Gemini 3在多模態與推理任務上的強勁表現,OpenAI的“大蒜(Garlic)”並非簡單的迭代最佳化,而是一場針對性的戰略重構。此前OpenAI的“紅蔥頭(Shallotpeat)”方案因依賴資料堆砌陷入瓶頸,而“大蒜(Garlic)”模型直指預訓練階段的“土壤短板”,這正是Gemini 3實現領先的關鍵領域。為守住ChatGPT的陣地,OpenAI暫緩了廣告智能體等商業化非核心項目,將算力與人力全部傾斜給AI模型研發,展現出明確的戰略聚焦姿態。結合已知資訊,大蒜(Garlic)在技術層面實現了三大突破性升級。其一,預訓練資料量較Gemini 3提升30%,涵蓋2025年中期前的全網文字、程式碼與多模態資源。其二,採用混合稀疏啟動架構,在保持參數規模的同時,推理成本下降15%。其三,專攻程式設計與邏輯推理,在MATH資料集得分提升12%,ARC資料集提升9%,內部測試中Python程式碼生成精準率達89.7%。OpenAI對這款模型寄予厚望。聯合創始人兼CEO Sam Altman在內部備忘錄中直言,“大蒜(Garlic)是公司最具雄心的賭注”,它的使命是將ChatGPT的整體表現拉回行業領先水平。按照規劃,大蒜(Garlic)模型將於2026年初以GPT-5.2或GPT-5.5版本發佈。AI巨頭暗戰升級:技術與算力的全面對抗今年11月,Google、OpenAI及Anthropic相繼發佈最新模型——Gemini 3、GPT-5.1和Claude Opus 4.5。當前行業已形成“三足鼎立”的穩定格局。OpenAI、Google與Anthropic組成的AI三巨頭,早已跳出單一的模型性能比拚,進入技術路線與算力基建的全方位深層競爭。技術層面,三巨頭各有專攻卻形成精準對標。Google的Gemini主打“原生多模態”優勢,從設計之初就兼顧文字、圖像、音訊和視訊的理解處理,能輕鬆應對長文字分析、視訊內容總結等複雜場景,再加上自研TPU晶片的全端最佳化,讓技術落地更高效。Anthropic則劍走偏鋒,Claude系列模型聚焦企業級市場,以安全合規為核心,在程式碼處理、敏感資料保護等場景中形成壁壘,成為眾多企業的首選工具。OpenAI則依託與微軟的深度繫結,一邊打磨消費級產品的使用者體驗,一邊推進企業級服務落地,借助合作夥伴的生態資源快速補全短板。算力作為AI競爭的“命脈”,已成三巨頭砸錢爭奪的焦點。Google靠自研TPU晶片建構專屬算力體系,通過軟硬體協同降低運行成本。OpenAI聯合微軟、輝達共建超級資料中心,用巨額投入鎖定長期算力供應。Anthropic也不甘落後,一邊佈局自有資料中心,一邊與Google達成算力合作,確保研發與服務無後顧之憂。值得注意的是,這場算力競賽還面臨電力短缺的現實挑戰,巨頭們不僅要拼技術,還要解決能源供給的底層難題。AI競爭的終極意義:從技術競賽到價值創造全球AI格局的動態演變,推動著行業從“技術參數競賽”走向“實際價值創造”。對於普通使用者而言,競爭帶來的是更強大、更實用的AI工具。對於企業來說,AI不再是錦上添花的“炫技工具”,而是降本增效、創新商業模式的核心引擎。隨著全球AI治理框架逐步完善,技術競爭將更加規範,而那些既能堅持創新,又能兼顧安全與倫理的企業,終將在這場長跑中脫穎而出。2025年的AI競爭,不是終局,而是新篇章的開始。與其糾結於“誰將贏得這場戰爭”,不如擁抱AI帶來的變革。真正的勝利者,永遠是那些善於利用技術創造價值的個人與企業。 (創新觀察局)
下一個Transformer可能又被Google做出來了
如果把現在的頂尖大模型比作一個人,那它一定患有一種罕見的神經系統疾病:順行性遺忘症(Anterograde Amnesia)。這是 Google Research 研究員、最近最受關注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。看過諾蘭的電影《記憶碎片》(Memento)的人更能理解這種絕望。這種病症的患者擁有完好的“過往記憶”(Retrograde Memory),他們記得發病前的一切,我是誰,我來自那裡,我有什麼技能。但對於發病後發生的所有事情,他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當下”,幾分鐘後,一切就會被重設。這就是現在 AI 模型的真實寫照。無論Gemini或是ChatGPT多麼博學,如果不聯網搜尋,它們都只能依靠預訓練階段獲得的出廠知識(也就是“發病前”的記憶)來回答問題。而在對話窗口裡,無論你教給它多少新公司的業務邏輯,或者糾正了它多少次程式碼錯誤,這些資訊都只停留在短暫的上下文窗口裡。一旦窗口關閉,或者視訊記憶體被重設,它就像金魚一樣,把剛才發生的一切忘得乾乾淨淨 。下一次見面,它依然是那個出廠時的它,絲毫沒有因為與你的互動而變得更聰明一點。為什麼擁有超級算力的 AI,卻治不好這個健忘症?長期以來,行業有一種二元對立的看法,認為 AI 的“架構”(Architecture)和“最佳化器”(Optimizer)是兩個截然不同的物種。架構是骨架(如 Transformer),它是靜態的,出廠即凍結,負責“推理”。“最佳化器”是雕刻刀(如 Adam、SGD),它是動態的,只在工廠裡用來訓練模型,出廠後就被沒收了。我們習慣了把 AI 當作一個靜態產品,訓練好了,打包發佈,使用者只管用。但在 Google 最新發佈的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》(巢狀學習:深度學習架構的幻覺)中,研究團隊試圖告訴我們,這其實是一種幻覺,是我們人為製造的自我設限。如果架構和最佳化器本質上是同一個東西呢?如果並沒有所謂的“訓練階段”和“推理階段”之分,一切都只是不同頻率的“記憶壓縮”過程呢?基於這個大膽的假設,Google 團隊提出了一個名為 HOPE 的新框架。他們並沒有簡單地堆砌參數,而是試圖從底層邏輯上重構 AI 的“大腦結構”,讓它不再是一個出廠即固化的工具,而是在每一次互動中都能微調自己、擁有“快慢記憶系統”的動態生命體。而這篇論文也被不少人稱為“Attention Is All You Need V2”,這篇論文提出的Transformer 架構成就了今天大模型的火熱,而HOPE讓人們期待它成為下一個Transformer 等級的創新。Ali Behrouz 在 NeurIPS 2025 現場講解Nested Learning。拆解“幻覺”:被遺忘的中間地帶要治好“健忘症”,我們首先得看看現在的 AI 大腦裡到底裝了什麼。在 Ali Behrouz 的解構下,目前的 Transformer 架構呈現出一種極端的“精神分裂”狀態。如果不使用複雜的數學術語,我們可以把它的內部元件看作兩個極端:一個是“極快”的 Attention(注意力機制)。它時刻處於亢奮狀態,對你輸入的每一個字(Token)都進行瞬時的計算和響應。它的更新頻率幾乎是無限的,這讓模型擁有了所謂的上下文學習能力(In-Context Learning),你剛說的話,它馬上就能用。另一個是“極慢”的 MLP(前饋神經網路)。它是模型的長期記憶庫,承載了絕大多數參數。但它的更新頻率是 0。這部分像一塊凍結的硬碟,除非你耗費巨資進行全量微調(Fine-tuning),否則它永遠不會改變。在這兩者之間,存在著一個巨大的真空地帶。這就是“幻覺”的根源。人類的大腦並不是這樣工作的。我們的記憶是一個連續的頻譜,我們有幾秒鐘的感官記憶,有幾小時的工作記憶,也有幾天甚至幾年的長期記憶。我們的腦突觸並不是非黑即白,而是以各種不同的頻率在不斷微調。為了填補這個真空,Google 團隊提出了 Nested Learning(巢狀學習) 的概念。我們可以把它想像成一套精密咬合的齒輪系統”:最外層的小齒輪轉得飛快(處理當前的對話);中間層的齒輪轉得稍慢(記住過去幾小時或幾天的任務);最裡層的大齒輪轉得極慢(沉澱世界觀和基礎知識)。為了證明這種統一性在生物學上的合理性,他甚至在論文中引用了一個非常硬核的神經科學案例,半球切除術(Hemispherectomy) 。醫學發現,即使切掉人類的一半大腦,通常是為了治療嚴重癲癇,剩下的一半腦組織也能通過重組資源,接管幾乎所有功能,人依然能正常生活。這說明大腦並沒有什麼“專門負責 Attention 的模組”或“專門負責 MLP 的模組”,神經組織是通用的、可復用的。同樣的道理,AI 的“架構”和“最佳化器”本質上也是同一種東西,只是處於不同的巢狀層級:傳統的模型記憶的是“資料”(Token);最佳化器(如 Adam)記憶的是“梯度”(Gradient)。即“我上次在這個地方犯了錯,下次要修正” 。既然都是在“記憶資訊”並“更新狀態”,為什麼我們要把它們人為地割裂開來?也許我們不需要在這個二元對立的框架裡修修補補,可以直接設計一個全頻率覆蓋的動態系統。HOPE 的三層設計基於 Nested Learning 的理論,Google 團隊交出了一份具體的工程答卷,還起了一個充滿寓意的名字:HOPE (High-order OPtimization and Expressivity)。如果說傳統的 Transformer 是一個只有短期記憶的“單核處理器”,那麼 HOPE 更像是一個符合神經科學原理的“雙重記憶大腦”。它通過兩個元件,復刻了類似生物大腦中海馬體(Hippocampus)與大腦皮層(Cortex)的協作機制 。1. 快系統:像海馬體一樣敏銳的 Titans在 HOPE 的最前端,是處理即時資訊的“快系統”。這裡 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體,負責快速捕捉和編碼當下的新知。傳統的 AI 模型在處理新資訊時是被動的,但 HOPE 裡的 Titans 模組具有極強的“主觀能動性”,它是 Self-Modifying(自我修改) 的。它不僅是在讀取資料,更是在根據當前的上下文,即時生成自己這一步學習所需要的 Key、Value,甚至自己決定這一次記憶的 Learning Rate(學習率) 。這意味著,它能敏銳地判斷眼前資訊的重要性,快速形成短期記憶。2. 慢系統:像皮層一樣厚重的 CMS這是整個架構中最具顛覆性的設計。HOPE 引入了 Continuum Memory System (連續記憶系統,CMS)。CMS 就像是厚重的大腦皮層,負責將經過篩選的知識長久地刻印在神經元中。Google 將人腦電波的頻率機制引入了 AI 架構設計,建構了不同更新頻率的層級在 CMS 中,模型內部的 MLP(前饋網路)不再是鐵板一塊,而是被切分成了不同的層級,就像不同轉速的齒輪:高頻層: 可能每處理幾百個字就更新一次,用於捕捉剛才對話裡的新定義。中頻層: 可能每處理幾萬字更新一次,用於適應一個新的項目背景。低頻層: 幾乎不更新,用於穩固語言的語法和常識 。左側的 HOPE 架構擁有豐富的中間層級這種設計避免了災難性遺忘。當新知識湧入時,它會被優先儲存在高頻層,而不會去驚擾低頻層裡的舊知識。隨著時間的推移,真正重要的資訊才會像沙漏裡的沙子一樣,慢慢沉澱到深層。3. 最佳化器也有了“記憶”Google 的激進之處在於,他們不僅改造了大腦(架構),還改造了老師(最佳化器)。為了配合這就這套複雜的系統,他們設計了一個名為 M3 (Multi-scale Momentum Muon) 的新最佳化器。既然模型分了層,最佳化器為什麼不能分層?普通的 Adam 最佳化器只看眼前的梯度(Local Structure),容易陷入短視。而 M3 最佳化器本身也被設計成了巢狀結構,它有一層“快動量”負責看腳下的路,還有一層“慢動量”負責看遠處的山脈(全域 Loss Landscape)。這意味著,連負責訓練的演算法本身,都擁有了更深遠的記憶力。M3 最佳化器在 ImageNet 訓練任務中,展現出了更快的收斂速度和更低的 Loss實驗資料顯示,這種設計在 ImageNet 和大語言模型訓練上,不僅收斂更快,而且最終效果更好。4. 給工程師的“後悔藥”對於工業界的開發者來說,HOPE 最迷人的地方可能不是從頭訓練一個新模型,而是它提供了一種“原地改造”的可能性。Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧,你不需要拋棄手裡現有的 Llama 或 Qwen 模型。你可以直接拿來一個預訓練好的模型,人為地將它的不同層指定為不同的“更新頻率”,把淺層設為高頻,深層設為低頻 。這就像是給一輛已經出廠的舊車,通過刷新韌體就解鎖了自動駕駛功能。這一特性,讓 Nested Learning 成為了一個工程方案。從“靜態產品”到“動態生命”我們把視角從程式碼行中抽離出來,會發現 Nested Learning 真正的野心,不在於刷榜,而在於試圖完成一次 AI 領域的範式轉移。在 NeurIPS 的分享最後,作者提出了一個發人深省的觀點,“深度(Depth)也許不再是唯一的答案。”過去十年,我們一直在堆疊物理層數,把神經網路做得越來越深。這種暴力美學確實帶來了湧現能力,但它也製造了一個巨大的“幻覺”,誤以為智能來源於靜態的深度。而忽略了真正的深度可能來自於巢狀的最佳化。更進一步,論文中提出了一個極其激進的定義:“預訓練本身,其實就是一種超長上下文的 In-Context Learning。”這句話消解了 AI 領域最大的邊界。在 Nested Learning 的願景裡,沒有所謂的“訓練結束”這一天。模型在與使用者互動的每一秒,都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器,而是一個在資料流中不斷呼吸、代謝、進化的有機體。這或許才是通往 AGI更本質的道路,智能不是被灌輸的,而是在互動中生長的。當然,任何試圖顛覆範式的理論,註定會伴隨著巨大的爭議。這圍繞這篇論文討論區裡,聲音很多樣。樂觀者將其視為 "Attention Is All You Need V2"。社區對於自我修改這一概念尤為著迷。長期以來,我們一直詬病 LLM 只是“統計學的鸚鵡”,而 HOPE 讓 AI 第一次擁有了某種“元認知”能力,即學習如何學習。這種從被動擬合到主動適應的跨越,被認為是 AI 產生質變的關鍵。實用主義者則看到瞭解決災難性遺忘的曙光。如果這一架構能落地,未來的企業級 AI 將不再需要為了更新一點點業務知識而耗資百萬進行全量重訓,AI 可以在業務流中自然地學會新規章,同時不忘記舊制度。這是對降本增效是最直接的。質疑者也大有人在。比如有評論指出,論文中將 SGD(梯度下降)強行解釋為“聯想記憶”的數學證明雖然精彩,但更多依賴直覺,缺乏嚴謹的收斂性保障。更有工程師擔心,這種複雜的“巢狀最佳化”會讓調參難度呈指數級上升,畢竟,調一個 Adam 已經夠頭疼了,現在我們要同時調好幾個不同頻率的“大腦”。但無論如何,Google 這一次沒有在參數量上卷,而是在“學習的本質”上開了一槍。它用一種近乎哲學的方式提醒我們,對於一個真正的智能體來說,存在就是壓縮,活著就是學習。 (矽星人Pro)
馬斯克:Grok 5有10%機率實現AGI;新AI模型可鎖定致病突變|數智周報
▎(11月24日~11月30日)分析師:OpenAI旗下Sora每天燒錢1500萬美元;華為雲進行組織調整,周躍峰出任華為雲CEO;騰訊混元OCR模型宣佈開源;OpenAI:已將Mixpanel從生產環境中移除……觀點科技部部長陰和俊:要部署實施一批國家重大科技任務,全鏈條推進重點領域關鍵核心技術攻關取得決定性突破科技部部長陰和俊表示,要強化高品質科技供給,引領現代化產業體系建設。堅持“四個面向”,部署實施一批國家重大科技任務,全鏈條推進重點領域關鍵核心技術攻關取得決定性突破,加強基礎研究戰略性、前瞻性、體系化佈局。強化主體協同,推進企業主導的產學研深度融合。要統籌國家戰略科技力量建設,強化企業科技創新主體地位,支援企業牽頭組建創新聯合體,更多承擔國家科技攻關任務。加快培育壯大科技領軍企業,支援高新技術企業和科技型中小企業發展。劉鐵岩:AI或成獨立科學家,人機協同將開啟科研新紀元2025國際人工智慧科學家大會(ICAIS 2025)上,北京中關村學院院長、中關村人工智慧研究院理事長劉鐵岩談及AI成為獨立“科學家”的可能性時指出,未來的科研教育與人才培養,將超越純粹的“人力驅動”,邁入“人機協同、碳矽融合”的新階段——人類的“碳基智慧”蘊含著意識、靈感與創造,機器的“矽基智能”承載著不知疲倦的分析、計算與最佳化,二者的深度融合,將有望超越生物侷限,開啟一個人類與機器優勢互補、協同進化的新時代。阿里巴巴CEO吳泳銘:未來三年內不太可能出現人工智慧泡沫阿里巴巴CEO吳泳銘在財報電話會上表示,未來三年內不太可能出現人工智慧泡沫。未來三年,人工智慧資源整體將處於供不應求的狀態。摩根士丹利基金:AI應用擴張化解巨額投入摩根士丹利基金人士針對AI資本投入與產出的平衡性問題表示,最悲觀情景是資本投入過度超前,但隨著AI應用的不斷推出與擴張,使得投入與產出達到平衡;同時美股AI的長期發展趨勢並未改變。賽富時CEO:準備棄用ChatGPT,GoogleGemini 3已完全超越軟體公司賽富時(Salesforce)首席執行官馬克·貝尼奧夫最新表示,他將棄用OpenAI的ChatGPT,轉而使用Google最新發佈的人工智慧模型Gemini 3,並稱Gemini 3在推理、速度和多模態能力方面實現了“瘋狂”的飛躍。馬斯克:Grok 5有10%機率實現AGI特斯拉CEO埃隆·馬斯克表示,其麾下人工智慧(AI)公司xAI即將推出的Grok 5模型有10%的機率實現通用人工智慧(AGI)。他認為,實現人類級推理能力的關鍵不在於競爭對手使用的靜態訓練資料集,而是即時資料。OpenAI前首席科學家Ilya:大模型“大力出奇蹟”見頂,AI正重回“科研時代”OpenAI聯合創始人兼前首席科學家、Safe Superintelligence(SSI)創始人Ilya Sutskever在最新訪談中指出,目前主流的依賴“預訓練 + Scaling”(即不斷堆資料、參數和算力)的AI發展範式已經觸及瓶頸。儘管大模型在各類評測中表現驚豔,但在真實世界任務中泛化能力薄弱,甚至會陷入重複犯錯的怪圈,這暴露出當前方法的根本缺陷:過度最佳化特定指標,卻缺乏類似人類的深層理解與內在價值判斷。他認為,AI正從“規模時代”重新回歸“科研時代”,下一階段的突破不在於更大模型,而在於重構訓練範式,尤其是如何賦予模型持續學習、自我糾正和穩健泛化的能力。中國銀河證券吳硯靖:2026年模型平權將推動人工智慧應用從AI賦能走向AI原生中國銀河證券研究所所長助理、電腦首席分析師吳硯靖表示,2025年電腦行業指數整體呈現“先揚後抑、震盪輪動”的走勢,展望2026年行業將呈現幾大特徵:一是模型平權趨勢加速,國產算力滲透率持續提升;二是AI Agent將在2026年呈現結構性加速落地的趨勢;三是模型平權推動AI應用從AI-Enabled(AI賦能)走向AI-First(AI原生),通過三維驗證體系來篩選AI-First型企業,重點關注五大AI應用方向,即AI-First端側AI產業鏈機會凸顯、AI-First創意與內容生成工具類、AI-First驅動的企業級AI智能體、AI-First垂直行業專家解決方案類、AI-First社交與陪伴類。阿里千問應用負責人吳嘉:AI助手比拚的是智力水平阿里巴巴集團副總裁吳嘉作為千問應用負責人首次公開露面。他表示,公眾對AI助手的需求一直沒有被很好的滿足。“AI助手比拚的是智力水平,是辦事能力,而不應只是聊天陪伴的機器人。”日前,阿里千問公測僅一周,下載量即突破1000萬。千問模型全球下載量突破7億次,超越Llama、Deepseek等模型。吳嘉表示,千問的快速增長代表著AI應用的爆發來到一個關鍵時刻。雷軍:所有產業都值得用AI再做一遍小米集團創始人、董事長雷軍表示,下一個五年,人工智慧將深刻影響傳統產業。“所有產業都值得用AI做一遍。”雷軍表示,人工智慧與傳統產業深度融合,將會開啟一個新的兆級大市場,一家公司不可能掌握所有環節,而是要與最強的夥伴攜手,取長補短,帶動整個產業鏈共同升級。港交所CEO陳翊庭: 探索利用AI提高發行稽核效率在深圳啟幕的2025大灣區交易所科技大會上,港交所CEO陳翊庭致詞時提到,資本市場正在邁入“人工智慧+”時代,港交所已將人工智慧技術應用於日常的辦公營運,節省了很多處理文件和資訊整理的時間,提升了辦公效率;上市科在審閱上市公司年報的過程中也採用了一些人工智慧技術,可以更高效地識別資訊披露違規的情況。財報知乎:第三季度營收6.59億,非公認會計準則經營虧損同比縮小16.3%知乎發佈2025年第三季度業績報告。報告顯示,知乎第三季度營收6.59億元,非公認會計準則經營虧損同比縮小16.3%。報告期內,付費閱讀業務貢獻3.86億元營收,佔比達到58.5%;行銷服務收入達到1.89億元,佔比為28.7%,包括職業教育、消費品等在內的其他業務貢獻8390萬元收入,佔比為12.8%。阿里巴巴:第二財季營收2478.0億元,高於預估;雲智能集團收入398.2億元,同比增長34%阿里巴巴集團發佈2026財年第二季度財報,實現營收2478.0億元人民幣,預估2452億元人民幣;調整後淨利潤103.5億元人民幣,預估168億元人民幣;調整後每ADS收益4.36元人民幣,預估6.34元人民幣。AI+雲與消費兩大核心業務本季度持續實現強勁增長。第二季度雲智能集團收入398.2億元人民幣,同比增長34%,市場預估379.9億元人民幣。其中,AI相關產品收入已連續九個季度實現三位數同比增幅,阿里雲持續擴大AI雲市場第一優勢,份額超過第二至第四名的總和。AI伺服器需求強勁推動戴爾科技Q3營收創新高戴爾科技公佈的2026財年第三季度財報顯示,該公司當季營收同比增長11%至270.05億美元,創下歷史新高,但不及分析師普遍預期的272億美元;在Non-GAAP會計準則下,經營利潤為25.03億美元,同比增長11%,淨利潤為17.62億美元,同比增長11%;調整後的每股收益為2.59美元,好於分析師普遍預期的2.48美元。戴爾表示,在第三季度,公司獲得了123億美元的AI伺服器訂單,出貨了價值56億美元的AI伺服器,季末積壓訂單達184億美元。該公司還將全年AI伺服器出貨預期從200億美元上調至250億美元,同比增長超150%。億航智能2025Q3財報:營收9250萬元,維持全年5億元的營收指引不變eVTOL製造商億航智能發佈2025年第三季度業績,公司第三季度實現營收9,250萬元人民幣,交付42台無人駕駛eVTOL,涵蓋41架EH216系列產品以及首架VT35。由於客戶的採購計畫大多按年度規劃,且大部分交付安排集中在第四季度完成,億航智能維持全年5億元的營收指引不變。國內資訊阿里千問公測一周下載量破千萬阿里旗下的AI助手千問App公測一周,下載量已突破1000萬次,超越ChatGPT、Sora、DeepSeek成為史上增長最快的AI應用。此前,阿里巴巴於11月17日突然啟動千問APP公測,上線後僅三天千問APP就衝入蘋果App Store免費總榜前三。騰訊混元OCR模型宣佈開源騰訊混元推出全新開源模型HunyuanOCR,參數僅為1B,依託於混元原生多模態架構打造,獲得多項業界OCR應用榜單SOTA(最先進水平)成績。晨光文具與飛書達成戰略合作晨光文具與飛書在上海正式簽署戰略合作協議,重點在效率辦公和AI業務提效領域展開深度協作。後續,晨光文具將全面接入飛書生態,打通內部資訊壁壘、沉澱組織知識經驗。百度新設兩個大模型研發部,直接向CEO匯報百度發佈設立技術研發組織相關公告,新設基礎模型研發部,負責研發高智能可擴展的通用人工智慧大模型,由吳甜負責;新設應用模型研發部,負責業務應用場景需要的專精模型調優和探索,由賈磊負責。王海峰繼續擔任CTO、TSC主席、百度研究院院長。以上部門均向百度CEO李彥宏匯報。阿里巴巴:過去4個季度在AI+雲基礎設施的資本開支約1200億元人民幣阿里巴巴集團首席財務官徐宏表示,阿里巴巴的核心業務收入保持強勁增長,AI收入在雲外部商業化收入佔比提升,客戶管理收入同比增長10%。阿里巴巴將利潤及自由現金流投向未來佈局,短期盈利能力預計將有所波動。過去4個季度,阿里巴巴在AI+雲基礎設施的資本開支約1200億元人民幣。中國科學院工業人工智慧研究所成立中國科學院工業人工智慧研究所在江蘇南京成立。該研究所聚焦國家戰略和產業創新發展重大需求,承擔工業人工智慧從頂層設計到體系落地的全鏈條創新任務,建構“技術引領—平台整合—賦能閉環”的協同創新體系,推動人工智慧賦能製造業高品質發展,著力打造智能製造領域國家戰略科技力量。豆包語音對話功能更新,具備思考能力豆包語音對話功能近日更新,可以說4種地道方言,包括粵語、四川話、東北話及陝西話。據悉,該功能借助豆包語音模型方言遷移技術,實現單音色說多方言,且具備思考能力,可根據使用者意圖,靈活切換方言。深圳市“AI+勞動仲裁”智能輔助辦案系統上線中國首個“全案由覆蓋、全流程賦能、全方位支撐”的勞動爭議仲裁智能輔助辦案系統在深圳市勞動人事爭議仲裁院正式上線。系統啟用後,仲裁員閱卷效率提高50%,裁決書製作時間減少約50%,整體辦案周期明顯縮短。華為雲進行組織調整,周躍峰出任華為雲CEO華為雲進行了組織調整,將華為雲研發組織切換到ICT組織下,並成立“基礎設施雲服務”“Data&AI雲服務”“資料庫雲服務”“安全雲服務”“HCS”5個領域的雲研發產品線。調整後,華為雲董事長為張平安,而華為資料儲存產品線總裁周躍峰出任華為雲CEO。DeepSeek發佈可自驗證數學模型DeepSeekMath-V2DeepSeek推出新型數學推理模型DeepSeekMath-V2,採用可自我驗證的訓練框架。該模型基於DeepSeek-V3.2-Exp-Base建構,通過LLM驗證器自動審查生成的數學證明,並利用高難度樣本持續最佳化性能。在IMO 2025和CMO 2024中均達到金牌水平,Putnam 2024獲118/120分。團隊表示,該成果驗證了自驗證推理路徑的可行性,為建構可靠數學智能系統提供新方向。模型程式碼與權重已開源,發佈於Hugging Face及GitHub平台。摩爾線程發佈Torch-MUSA v2.7.0,持續增強AI模型訓練與推理支援近日,摩爾線程正式發佈PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.7.0,新版本在功能整合、性能最佳化與硬體支援方面實現進一步突破。Torch-MUSA在一個月內連續完成v2.5.0和v2.7.0兩次版本更新,體現了摩爾線程在MUSA生態建設上的持續投入與快速迭代能力。科大訊飛旗下淮南公司註銷天眼查工商資訊顯示,近日,淮南科大訊飛資訊科技有限公司登記狀態由存續變更為註銷。淮南科大訊飛資訊科技有限公司成立於2014年12月,法定代表人為張友國,註冊資本1000萬人民幣,經營範圍包括智慧城市技術研究、體系建設、產品研發、工程建設、營運服務等。股權全景穿透圖顯示,該公司由科大訊飛旗下訊飛智元資訊科技有限公司、淮南市產業發展(集團)有限公司共同持股。平行科技青島智算中心上線,部署“三千卡高性能GPU智算資源池”平行科技青島智算中心11月28日正式上線。該中心由青島市工信局指導,嶗山區政府統籌推進,青島聯通與平行科技共同建設,定位為戰略級人工智慧基礎設施。青島智算中心一期部署“三千卡高性能GPU智算資源池”,具備膠東半島 1ms 超低時延等優勢,為智慧海洋、智能智造等企業研發場景和高校教學科研等場景提供高品質和低成本的普惠算力支撐。發佈儀式上,青島聯通與平行科技聯合向中國海洋大學捐贈20萬元GPU卡時算力資源,用於探索海洋觀測資料處理、氣候模型研發等前沿方向。北京AI產業規模今年將超4500億元北京市科學技術委員會、中關村科技園區管委會今天(11月29日)正式發佈《北京人工智慧產業白皮書(2025)》。《白皮書》資料顯示,2025年上半年,北京全市人工智慧核心產業規模2152.2億元,同比增長25.3%。初步估算2025年全年,產業規模有望超過4500億元。中國首支AI領域孵化培育型創新基金啟動12月29日,在2025 Xᴬᴵ科技節產業投資主題論壇上,中關村兩院AI科創基金暨北緯兆資金池發佈。其作為中國首支AI領域孵化培育型創新基金,由中關村學院與中關村人工智慧研究院與上海大鈞資產管理中心共同發起。基金秉持“投早、投小、投好、投AI”策略,創新採用“用AI投資AI、用AI孵化AI”模式,並配套“前店後廠”深度賦能機制,提供“科學家、研究中心、算力、資料、產業資源”全周期投後服務,致力於打造完整的AI創新生態。海外消息亞馬遜將允許企業測試Leo衛星服務,與Starlink展開競爭亞馬遜將開始允許企業測試其最近重新命名的太空網際網路服務,與SpaceX的Starlink競爭。公司表示,部分企業將能夠在服務的企業預覽階段測試亞馬遜Leo生產硬體和軟體,測試計畫將允許公司收集反饋,並為特定行業量身定製解決方案,以便在更大規模的推出前做好準備。據悉,亞馬遜Leo提供企業級的效能、功能及能力,適用於私營和公營部門的客戶。Leo Ultra是現行生產中最快的客戶終端,下載速度可達1Gbps,上傳速度可達400 Mbps。分析師:OpenAI旗下Sora每天燒錢1500萬美元據分析師估算,OpenAI旗下的AI視訊生成應用Sora,每天的算力成本高達1500萬美元,一年約50億美元,相當於OpenAI全年收入的四分之一。Sora自9月底上線後,一周下載量破百萬,10月底達到400萬,使用者生成大量視訊,但這也導致成本急劇上升。每生成一條10秒視訊,成本約1.3美元,按每天1100萬條的生成量計算,相當於每天消耗1500萬美元。HelloBoss發佈首個招聘全流程AI Agent總部位於東京的初創企業 NGA 宣佈,旗下人工智慧招聘平台 HelloBoss 正式推出首款覆蓋求職與招聘全流程的AI智能體(AI Agent)產品。據悉,該產品在個人端可提供AI簡歷識別與生成、人崗AI匹配及自然語言溝通等功能。企業端則支援AI招聘資訊撰寫、AI自動匹配與溝通初篩、基於簡歷的AI招聘對話輔助等服務。韓國將試點人工智慧系統治理交叉路口堵車韓國警察廳24日說,將於12月啟動一個人工智慧系統試點項目,在首爾部署基於人工智慧的交通攝影機以治理交叉路口堵車問題。新系統採用韓國警察廳研究項目開發的基於人工智慧的視訊分析技術。警方表示,相關技術提高了執法精準性,可以通過單一裝置同時處理闖紅燈、超速和跟車過近等行為,從而減少維護需求、提高效率。韓國警方計畫於2026年在10個長期擁堵的交叉路口安裝類似交通攝影機,並於2027年推廣至全國883個易擁堵路口。亞馬遜內部檔案曝光:力推自研Kiro,排擠外部AI程式設計工具根據一份亞馬遜內部備忘錄透露的資訊,亞馬遜建議其工程師們儘量不使用第三方AI程式碼生成工具,轉而選用自家的解決方案,以此助力7月剛剛推出的專有服務Kiro。新AI模型可精準鎖定人體致病突變美國哈佛大學醫學院與西班牙巴塞隆納基因組調控中心科學家在24日出版的《自然·遺傳學》雜誌上發表研究成果稱,他們開發出一款名為popEVE的人工智慧(AI)模型。該模型能精準鎖定人類蛋白質中最易導致疾病的突變,這一突破有望徹底改變遺傳疾病的診斷方式。據悉,popEVE的研發基於數十萬個不同物種的進化資料及全人類群體的遺傳變異資訊。龐大的進化記錄使該工具能解析約2萬多種人類蛋白質的關鍵區域與可變異區域,從而不僅能識別緻病突變,還能對這些突變給人體造成的危害程度進行排序。投行韋德布什力挺AI浪潮:押注微軟和輝達等十大科技股投行韋德布什證券近日公佈了其推薦的十大科技股名單,這份名單包括微軟和輝達,並明確指出"當前並非人工智慧泡沫"。以丹尼爾·艾夫斯為首的分析師團隊表示,儘管過去幾周人工智慧泡沫論甚囂塵上,但他們觀察到超大規模企業在人工智慧領域的交易流有近20%的加速增長,這源於終端企業客戶正聚焦於推動2026年前的應用場景落地。分析師補充說,"人工智慧革命"仍處於早期階段:隨著更多企業客戶和首席資訊官認識到AI在其組織中的重要作用,下一波AI戰略部署浪潮即將到來。OpenAI:已將Mixpanel從生產環境中移除當地時間11月26日,OpenAI就網站分析服務Mixpanel安全事件公告稱,11月9日,Mixpanel發現攻擊者未經授權訪問了其部分系統,並匯出了包含有限客戶可識別資訊和分析資料的資料集。該事件發生在Mixpanel系統內部,僅涉及部分API使用者的有限分析資料。ChatGPT及其他產品的使用者未受影響。此次事件並非OpenAI系統遭入侵。聊天記錄、API請求、API使用資料、密碼、憑證、API金鑰、支付資訊或政府身份證件均未洩露或暴露。OpenAI表示,作為安全調查的一部分,已將Mixpanel從生產環境中移除,審查了受影響的資料集,並正與Mixpanel及其他合作夥伴緊密協作,以全面瞭解事件詳情及其影響範圍。目前尚未發現Mixpanel環境之外的系統或資料受到影響的證據。融資併購摩爾線程申購,包括公私募、券商等在內共267家機構擬配售“國產GPU第一股”摩爾線程11月24日開始申購,發行價為114.28元/股,創下年內新股發行價格新高。本次公開發行規模為7000萬股。根據發行公告披露,初步詢價階段共有267家網下投資者提交有效報價,涉及配售對象共計7555個,有效申購總量達到704.06億股,網下有效申購倍數高達約1572倍,顯示出機構投資者對其高度熱情。據不完全統計,本次參與有效報價的機構中,公募基金達86家,私募基金約120家,券商亦有30家入場,保險機構為13家。北京市人工智慧產業基金等入股AI辦公工具研發商像素綻放天眼查工商資訊顯示,深圳像素綻放科技有限公司近日發生工商變更,原股東深圳晨源鴻策股權投資基金合夥企業(有限合夥)、深圳極地信天貳期股權投資基金合夥企業(有限合夥)等退出,新增北京市人工智慧產業投資基金(有限合夥)、大象視覺(深圳)科技有限公司等為股東,同時,註冊資本由約285.2萬人民幣增至約333.1萬人民幣。公開資訊顯示,像素綻放是一家AI辦公工具研發商。中國移動旗下基金等入股浪潮電腦科技公司,後者增資至8.4億元天眼查工商資訊顯示,11月20日,浪潮電腦科技有限公司發生工商變更,新增中國移動旗下上海中移數字轉型產業私募基金合夥企業(有限合夥)、山東出版傳媒股份有限公司等為股東,同時,註冊資本由6億人民幣增至8.4億人民幣,增幅40%。浪潮電腦科技有限公司成立於2021年6月,法定代表人為公維鋒,經營範圍包括電腦軟硬體及外圍裝置製造、計算器裝置銷售、電子產品銷售等,現由浪潮集團有限公司、山東浪潮整合電子科技有限公司及上述新增股東等共同持股。政策&趨勢北京:加速推動人形機器人商業化規模化應用落地日前,北京市委副書記、市長殷勇圍繞人形機器人產業發展,深入昌平區、海淀區機器人企業開展調研。殷勇在調研中強調,要把握人形機器人產業發展關鍵機遇,加快前沿技術和基礎理論研究,加大關鍵核心技術攻關力度,推動取得更多突破性成果。持續拓展人形機器人應用場景,用好中試基地和成果孵化平台,加速科研成果從實驗室嚮應用轉化。抓好機器人企業服務保障,圍繞共性技術攻關、開放生態建構、中試平台搭建、應用場景落地等關鍵環節,強化資金、政策、人才等方面支援保障,梯度培育一批重點企業,整合上下游資源,形成產業集聚效應。強化機器人標準引領,加快研製機器人領域行業標準,提升標準制定和實施能力。加強國際交流合作,持續辦好世界人形機器人運動會等品牌活動,支援北京市機器人企業“走出去”,同時吸引國際機構和企業來京交流,共同推動全球機器人產業創新發展。上海市網信辦開展“AI濫用”專項執法工作上海市網信辦在執法辦案工作中發現,部分企業開發使用生成式人工智慧功能,未依法開展安全評估工作、未採取必要的安全防護措施防範違規資訊生成、未採取限制措施防止被濫用,導致相關功能被用於“換臉變聲”“變裝造假”等侵犯他人個人資訊權益行為,產出“開盒”“洗錢”等違法違規內容,以及生成色情低俗圖片等資訊內容。“亮劍浦江·2025”專項執法行動將“整治AI濫用”作為年度治理重點,以執法促合規護航新興產業高品質發展。北京:加快人工智慧輔助診療技術的推廣應用北京市經濟和資訊化局等六部門11月24日印發《北京市促進醫療器械產業高品質發展若干措施》。其中提出,加快人工智慧輔助診療技術的推廣應用。鼓勵醫療機構參考已有人工智慧醫療服務價格項目將新型人工智慧輔助診療技術納入使用。針對國家立項指南目前尚無法相容的創新項目,在確保臨床效果的基礎上,支援醫療機構以“附條件新增”方式立項試行。遴選人工智慧輔助診療產品推廣應用項目,按照不超過工程投資的30%給予支援,最高不超過5000萬元。國家資料局:支援資料交易所探索建立全鏈條服務體系國家資料局表示,支援資料交易所(中心)加快探索建立資料流通交易全鏈條服務體系。相關負責人指出,資料交易所是中國首創,在孵化產品服務、合規保障、標準建設、生態培育、推進資料市場與金融市場融通發展、拓展國際合作等方面發揮了積極作用,支援資料交易所在推進資料要素價值釋放中更好找準自身市場定位,提升綜合服務能力,積極推進公共資料產品流通交易,完善資料產品服務價格發現機制,在繁榮資料產業生態等方面作出更大貢獻。工信部組織開展衛星物聯網業務商用試驗工業和資訊化部發佈關於組織開展衛星物聯網業務商用試驗的通知。申請開展衛星物聯網商用試驗的企業,應通過建構衛星物聯網系統,以及業務支撐系統(BSS)、營運支撐系統(OSS)和管理支撐系統(MSS),依法依規在全國範圍開展衛星物聯網業務。衛星物聯網商用試驗的服務對象為利用衛星物聯網開展應用的企事業單位,主要包括工業、交通、能源、農業、應急等領域中利用衛星物聯網開展資料採集和傳輸的行業使用者。通過開展衛星物聯網業務商用試驗,豐富衛星通訊市場供給、激發市場主體活力、提升行業服務能力、建立安全監管體系,形成可複製可推廣的經驗和模式,支援商業航天、低空經濟等新興產業安全健康發展。北京“十五五”規劃:推動資料綜合性立法,推進“資料要素×”行動和高品質資料集建設《中共北京市委關於制定北京市國民經濟和社會發展第十五個五年規劃的建議》提到,高水平建設“數智北京”。建立資料要素綜合試驗區,建設國家資料管理中心、國家資料資源中心和國家資料流通交易中心。建立健全資料基礎制度,推動資料綜合性立法,推進“資料要素×”行動和高品質資料集建設,深化資料資源開發利用。開展國家資料流通基礎設施和全國一體化算力網建設先行先試,適度超前建設新型基礎設施,實施傳統基礎設施數智化改造升級。建設數智北京創新中心,促進資料、技術、場景聯動創新。推進城市全域數位化轉型,加快建設數字城市,提升“京通”“京辦”“京智”“京策”智慧化服務能力,最佳化“一網通辦”“一網統管”“一網慧治”,提升數字公共服務水平,強化數智賦能城鄉治理。北京“十五五”規劃:培育形成一批行業頭部大模型,建構高性能通用智能體《中共北京市委關於制定北京市國民經濟和社會發展第十五個五年規劃的建議》提到,打造全球數字經濟標竿城市。堅持數字賦能產業、城市、生活,打造引領全球數字經濟發展高地。深入推進數字產業化,做強北京資料集團和國際巨量資料交易所,大力發展數字內容產業。促進實體經濟和數字經濟深度融合,實施工業網際網路創新發展工程,推動企業數位化轉型。培育全球領先的人工智慧產業生態,加強高端晶片、基礎軟體等關鍵核心技術攻關。培育形成一批行業頭部大模型,建構高性能通用智能體。全面實施“人工智慧+”行動,以人工智慧引領科研範式變革,全方位賦能千行百業,完善人工智慧標準體系和應用規範,支援人工智慧企業參與全球競爭。加強人工智慧治理,健全平台企業監管機制,推動平台經濟創新和健康發展。國家統計局:1-10月電腦、通訊和其他電子裝置製造業增長12.8%國家統計局公佈資料顯示,1-10月份,全國規模以上工業企業實現利潤總額59502.9億元,同比增長1.9%(按可比口徑計算)。1-10月份,主要行業利潤情況如下:有色金屬冶煉和壓延加工業利潤同比增長14.0%,電力、熱力生產和供應業增長13.1%,電腦、通訊和其他電子裝置製造業增長12.8%,農副食品加工業增長8.5%,電氣機械和器材製造業增長7.0%,通用裝置製造業增長6.2%,專用裝置製造業增長5.0%,汽車製造業增長4.4%,非金屬礦物製品業增長1.0%,黑色金屬冶煉和壓延加工業同比由虧轉盈,石油、煤炭及其他燃料加工業同比減虧,化學原料和化學製品製造業下降5.4%,紡織業下降6.1%,石油和天然氣開採業下降12.5%,煤炭開採和洗選業下降49.2%。天津“十五五”規劃建議:建設超算網際網路平台和一體化算力調度平台中共天津市委關於制定天津市國民經濟和社會發展第十五個五年規劃的建議發佈,其中提出,加快建設數字天津。深化資料資源開放共享和開發利用,建構全要素資料基礎底座。深入推進國家數字經濟創新發展試驗區、國家新一代人工智慧創新發展試驗區建設,促進實體經濟和數字經濟深度融合,推動平台經濟創新和健康發展。建設超算網際網路平台和一體化算力調度平台,加快資料可信流通、圖形處理器、核心演算法等數智技術創新,研發應用更多行業模型,發展新一代智能終端和智能體,培育智能原生新模式新業態。深入實施“人工智慧+”行動,以人工智慧引領科研範式變革,完善賦能千行百業政策措施,培育智慧文旅、智慧交通、智慧教育、智慧醫療、智慧養老,加快形成智能經濟和智能社會新形態。推動人工智慧應用合規、透明、可信賴。工信部:截至上半年末 中國生成式人工智慧產品使用者規模達5.15億工業和資訊化部消費品工業司司長何亞瓊在新聞發佈會上表示,截至今年上半年末,中國生成式人工智慧產品使用者規模達到5.15億,應用場景持續拓展,人工智慧終端產品競相湧現,未來消費將不再是購買一件商品,更是訂閱一種生活。工信部將從產品創新、場景創新兩個方面發力,推動人工智慧技術在消費品領域加快落地。北京:積極佈局“人工智慧+視聽”領域垂類大模型研發《北京市促進“人工智慧+視聽”產業高品質發展行動方案(2025—2029年)》發佈,其中提出,加快演算法模型突破。積極佈局“人工智慧+視聽”領域垂類大模型研發,支援高校、科研機構與企業合作,加強基礎理論和共性技術研究,引導通用演算法、底層技術、開源系統等共性平台在視聽領域應用,提升面向各類媒體生產場景演算法最佳化與技術迭代能力。聯合打造全國領先的大模型調優工場,全面提升視聽生成、媒體工藝最佳化核心演算法的國際競爭力。重慶:建設全國一體化算力網路成渝國家樞紐節點重慶市人民政府印發《重慶市要素市場化配置綜合改革試點行動方案》,其中提出,強化資料開發利用。發揮企業“資料要素×”主體作用,在重點領域建設一批行業高品質資料集。建設全國一體化算力網路成渝國家樞紐節點,加快推進“疆算入渝”工程,迭代國家(西部)算力調度平台。推進智能網聯汽車“車路雲一體化”試點,打造智能汽車巨量資料雲控基礎平台,建設國家工業網際網路巨量資料區域及行業分中心。建成國家區塊鏈網路區域樞紐。深化中新(重慶)國際網際網路資料專用通道應用。發揮重慶人工智慧學院、重慶通用人工智慧研究院、重慶市醫學影像巨量資料與醫療AI研究中心平台作用,引進和培育資料企業,建設國家級資料產業集聚區。北京人工智慧產業白皮書:各類AI Agent將迎來爆發式增長北京市科委、中關村管委會11月29日發佈《北京人工智慧產業白皮書(2025)》。白皮書預測,能勝任個人助理、企業流程自動化、科學研究助手等角色的各類AI Agent將迎來爆發式增長。具身智能的發展將實現從資訊處理到物理作業的跨越。白皮書分析了人工智慧產業的未來發展趨勢:能勝任個人助理、企業流程自動化、科學研究助手等角色的各類AI Agent將迎來爆發式增長。具身智能的發展將實現從資訊處理到物理作業的跨越。人工智慧將拓展認知能力邊界。世界模型將顯著提升AI系統的泛化能力和可靠性。“AI for Science”的發展將加速科學發現處理程序,有望在各領域催生一系列突破。人工智慧將促進技術普惠發展。端側智能催生應用新藍海,智慧型手機、個人電腦、智能汽車等端側裝置將具備更強的智能處理能力。下周預告2025“人工智慧+”產業生態大會由中國網際網路協會主辦的2025“人工智慧+”產業生態大會定於12月1日—3日在北京中關村國家自主創新示範區展示交易中心舉辦。大會主題為“智賦鏈動 生態共鳴”,旨在搭建一個集“政策解讀、技術展示、需求對接、成果轉化”於一體的綜合性生態平台,聚焦人工智慧應用生態協同中的現實痛點,推動產業各方務實交流。2025人工智慧創新大會光合組織即將於12月17-19日在崑山舉辦2025人工智慧創新大會(HAIC 2025)。目前,會議已吸引超2500家AI產業上下游企業、機構報名參與,覆蓋晶片、計算平台、大模型與智能體、軟體系統及行業應用等全鏈條。依託國家先進計算產業創新中心,光合組織正建構面向國產計算的開放生態,通過產學研用一體化協同,加速AI技術與產業深度融合。數字孿生技術與產業發展大會12月4日,第二屆數字孿生技術和產業發展大會暨場景培育與開放創新大會以“智驅孿生 眾行致遠——共建場景培育和開放新生態”為主題,秉持“全球視野、院士領銜、開放辦會、智匯驅動”理念,將於蘇州工業園區舉辦。AWS re:Invent 2025大會將於2025年12月1日至5日在‌美國拉斯維加斯舉辦,這是亞馬遜雲科技年度最大雲盛會,也是全球雲端運算領域極具影響力的年度技術盛會,Agentic AI將是此次大會的核心焦點。‌多家美股技術公司將公佈最新財報GitLab將於12月2日公佈最新一季財報,Salesforce、snowflake、C3.ai將於12月3日公佈最新一季財報。 (鈦媒體AGI)
輝達緊急發聲!
輝達官方稱其技術領先行業一代,是唯一能運行所有AI模型並應用於所有計算場景的平台。周二(11月25日),輝達官方表示,其技術依然領先行業一代,是唯一能夠運行所有人工智慧(AI)模型並應用於所有計算場景的平台。分析認為,輝達此舉是為了回應華爾街對該公司在AI基礎設施領域主導地位可能受到Google晶片威脅的擔憂。輝達在社交平台X上發文稱:“我們對Google的成功感到高興——他們在人工智慧方面取得了巨大進展,而我們也將繼續向Google供貨。”“輝達領先行業整整一代——是唯一一個能運行所有AI模型、並在所有計算場景中部署的平台。”輝達補充道:“與專為特定AI框架或功能設計的ASIC(專用積體電路)晶片相比,輝達提供更高的性能、更強的通用性以及更好的可替代性。”此番表態發佈之際,有報導稱輝達重要客戶之一的Meta,可能與Google達成協議,在資料中心使用Google的張量處理單元(TPU)。受此影響,輝達股價日內一度跌超7%。上周,Google發佈了最新的大語言模型Gemini 3,多位業內權威人士認為其已經“超越”了OpenAI的GPT模型。該模型是使用TPU進行訓練的,而不是輝達GPU。分析師指出,輝達在AI晶片市場的份額超過90%,儘管Blackwell價格昂貴,但性能強大。不過,近幾周以來,Google的自研晶片作為Blackwell晶片的一種可行替代方案,受到了越來越多的關注。Google雲內部高管透露,擴大TPU的市場採用率,有望幫助公司搶佔輝達年收入份額的10%。不同於輝達,Google並不向其他公司出售其TPU晶片,但會將其用於內部任務,並允許企業通過Google雲來租用。Google發言人在先前一份聲明中提到:“我們對自研TPU和輝達GPU的需求都在加速增長。我們將一如既往地同時支援這兩種技術。”輝達CEO黃仁勳在本月早些時候的財報電話會上也談到了來自TPU的競爭。他指出,Google本身就是輝達GPU晶片的客戶,Gemini模型也可以在輝達的技術上運行。黃仁勳還提到,他一直與GoogleDeepMind的CEO德米斯·哈薩比斯(Demis Hassabis)保持聯絡。黃仁勳稱,哈薩比斯給他發簡訊表示,科技行業裡認為“使用更多的晶片和資料可以打造更強大的AI模型”的理論——也就是AI開發者常說的“規模化法則(scaling laws)”——依然成立。輝達認為,規模化法則將帶動對其晶片和系統形成更強勁的需求。 (科創板日報)
Transformer 不是終點,AI 需要新架構|李飛飛最新訪談實錄
11月24日,史丹佛大學教授、 World Labs創始人、“AI 教母”李飛飛接受海外播客Eye on AI的訪談。本次對話深入探討了空間智能的定義、世界模型的技術路徑、顯式與隱式表示的路線之爭、AI 對物理定律的理解邊界以及李飛飛對未來五年技術演進的預測。李飛飛指出,空間智能是電腦視覺發展的必然階段,技術已從單純的圖像識別進化為深度的空間感知與互動能力。她並未將自己置於 Yann LeCun 的對立面,而是提出通用的世界模型雖然內部依然依賴隱式表示進行推理,但為了服務於人類的創造與設計,必須具備生成顯式 3D 表達的能力。李飛飛強調,目前的 AI 模型(包括視訊生成模型)本質上仍是基於統計學的模仿,並未真正理解牛頓力學等因果物理定律。她認為,簡單的“下一個 Token 預測”在視覺領域不足以捕捉世界的 3D 結構,簡單的 2D 幀預測會造成資訊的浪費。對於科學發現,她提出,當前的 AI 或許能推導 DNA 雙螺旋結構(基於幾何),但受限於 Transformer 架構對抽象概念的提取能力,很難推匯出狹義相對論這種高度抽象的物理法則。01 空間智能與技術路線為什麼你會將重心放在空間智能上,這是源於你在環境智能領域的研究,還是一條平行的探索路線?Yann LeCun 主張從直接經驗中建構內部表示,讓模型學習物理定律,而你的方法似乎側重於提取模型學到的世界內部表示並建構外部視覺現實。這兩者之間是互補還是重疊的?李飛飛:過去幾年我對空間智能的思考,實際上是我整個職業生涯在電腦視覺和視覺智能領域研究的自然延續。之所以強調空間,是因為技術發展到了一個臨界點:它的複雜度和深層能力已不再侷限於注檢視像或簡單理解視訊,它已經演變成一種深度的感知能力和空間理解力,並與機器人技術、具身 AI 以及環境 AI 緊密相連。所以從這個角度看,這確實是我在電腦視覺和 AI 領域生涯的延續。(關於與 Yann LeCun 的路線比較)首先我不會把自己和 Yann 對立起來,我認為我們在空間智能和世界建模的智力探索上處於同一個連續譜系。如果你讀過我最近發的長文《空間智能宣言》,我在裡面表達得很清楚:若最終要建構一個通用的全能世界模型,我認為隱式表示和最終某種程度的顯式表示,尤其是在輸出層可能都是必需的,它們各司其職。例如 World Labs 目前的世界模型 Marble 確實會顯式輸出 3D 表示,但在模型內部,隱式表示與顯式輸出共存。老實說我認為最終兩者缺一不可。(關於輸入模態)在輸入模態方面,從視訊中學習固然重要,因為世界本身就是由無數幀連續輸入的。但對於智能體或動物來說,世界不僅是被動觀看的對象,更是一種包含運動、互動、觸覺、聲音、氣味以及物理力、溫度等在內的具身體驗,所以我認為它是深度多模態的。雖然 Marble 目前只是第一步,但在我們發佈的技術文章中明確表示,我們堅信多模態既是一種學習範式也是一種輸入範式。這方面有很多學術討論,恰恰體現了這個領域正處於令人興奮的早期階段,我不會說我們已經完全搞定了模型架構和表示形式的所有問題。你似乎專注於從抽象的內部表示中生成顯式表示,而 Yann 更專注於內部表示和學習本身。這是否意味著這兩者可以結合?此外,在你們的世界模型中,輸入主要是視訊嗎?除了 Marble 這一產品,你們的野心是否在於建構一個系統,一個能夠通過直接經驗(視訊或其他模態)而非文字這種二手媒介進行學習的系統?李飛飛:這是一種可能性。正如我之前所說,我們正在同時探索這兩者。顯式輸出實際上是一種經過深思熟慮的策略,因為我們要服務於那些正在創造、模擬和設計的人們。放眼當今產業界,無論是製作視覺特效、開發遊戲、設計室內裝潢,還是為機器人、自動駕駛汽車進行模擬,亦或是建構工業數字孿生,所有這些都具有極強的 3D 屬性。各行各業的工作流都高度依賴 3D,我們希望這些模型能對使用它們的人和企業產生真正的價值。(關於模型輸入)輸入不完全是視訊。如果你體驗過 Marble 就會發現輸入非常多模態。可以輸入純文字,一張或多張圖像,也可以是視訊,甚至輸入粗略的 3D 佈局,比如包圍盒或體素。它是多模態的,隨著發展我們會進一步深化這一點。(關於非文字學習)是的,世界模型的核心在於理解世界,而世界本質上是多模態的。無論是機器還是動物都是多感官生物,學習是通過感知發生的。感知有不同模態,文字只是其中一種形式。這就是人類與動物的區別,大多數動物不通過複雜的語言學習,但人類會。不過未來的 AI 世界模型雖然也會從大量語言輸入及其他模態中學習,但其認知過程不會僅僅被壓縮在語言這一種形式中。02 單純的下一幀預測會將世界壓縮為 2DLLM 的一個侷限性是模型參數在訓練後就固定了,理論上世界模型在遇到新環境時應該不斷學習,這僅僅是一個工程問題嗎?另外,你能深入解析作為 Marble 基礎的即時幀模型(RTFM)嗎?生成式 AI 的突破在於發現了“下一個 Token 預測”這一目標函數,但在電腦視覺或世界建模中,什麼樣的任務或目標函數能像它一樣強大?是 3D 重建,還是像 RTFM 這個名字暗示的那樣,在保持 3D 一致性的前提下預測下一幀?李飛飛:關於持續學習,持續學習絕對是一個非常重要的範式,尤其是對生命體而言,這是我們的生存方式。甚至在持續學習中還分線上學習和離線學習。目前我們的世界模型仍更多處於批處理或離線學習模式,但我們絕對對持續學習,特別是最終實現線上學習持開放態度。我會保持開放態度,我認為這將是兩者的結合,顯然優秀的工程設計和微調可以實現一定程度的線上學習,但也可能需要全新的架構。(關於 RTFM 模型)你指的是我們發佈的另一篇技術部落格,裡面專門深入解析了我們的即時幀模型。World Labs 是一個非常側重研究的組織,現階段很多工作都是模型優先,致力於推動空間智能的發展。這條特定的研究路線與 Marble 緊密相關,主要關注如何實現基於幀的生成,並儘可能保持幾何一致性和持久性。因為在早期基於幀的生成工作中,當畫面推進時往往會丟失這種物體存在的持久性。在這個具體案例中,我們試圖在保持平衡的同時實現推理階段的高算力效率,僅用單張 H100 就完成了推理。至於名字,這是一個非常精彩的雙關語,每個電腦科學家都懂這個梗,所以我們覺得拿這個名字玩個即興創作真的很有趣。(關於通用目標函數)生成式 AI 最大的突破之一實際上是發現了下一個 Token 預測這一目標函數。這是一個非常精妙的公式,擁有一個與最終任務完全對齊的目標函數簡直太棒了。但在電腦視覺或世界建模中情況沒那麼簡單,因為如果看我們與語言的關係,主要是說或生成,但我們與世界的關係要多模態得多。外部有一個世界供你觀察、解釋、推理並最終與之互動,那麼什麼樣的任務或目標函數能定義一個通用函數,且像下一個 Token 預測一樣強大呢,這是一個非常深刻的問題。(關於 3D 重建與幀預測)比如是 3D 重建嗎,有些人可能會爭辯說世界建模的通用任務就是能夠對世界進行 3D 重建,但我並不這麼認為,因為大多數動物的大腦並不一定在做精確的 3D 重建。或者是像預測下一個 Token 一樣預測下一幀,這確實有一定威力。首先這方面有海量的訓練資料,其次為了預測下一幀,模型必須學習世界的結構。如果你能把這一點做好,也許這就是正確的通用任務。但這也有讓人不滿意的地方,因為它把世界視為了 2D,而世界並非 2D。這種做法是否以一種令人遺憾的方式強行壓縮了表示,而且即使你完美做到了這一點,你可以說 3D 結構是隱式的。這沒錯但也非常浪費,因為 3D 結構本身包含很多資訊,不必像基於幀的預測那樣丟失掉,所以關於這一點目前還有很多探索空間。03 AI 尚未掌握物理定律,目前的物理特性是基於視訊資料的統計學模仿RTFM 模型能在保持 3D 一致性的前提下預測下一幀,這讓人即使在 2D 螢幕上也能像繞著物體移動一樣看到背面,這本質上就是空間智能。我想探討這種學習是否包含自然界的物理定律。例如,如果建立了一個懸崖的物理表示,當 AI Agent 或觀察者的視點移出懸崖邊緣,它會知道自己因重力而下墜嗎?或者它是否理解不能穿過固體物體?目前的模型對物理世界的理解到了什麼程度?李飛飛:是的,這正是模型學習到的內部表示有趣的地方。比如我現在坐在這裡看著電腦螢幕,雖然我看不到螢幕背面但我知道它長什麼樣,我的腦海裡有那個物體的內部表示。你的模型也是這樣做的,這就是為什麼你可以在場景中繞著物體移動,即使這是在 2D 螢幕上呈現的 3D 表示,你依然可以移動並看到事物的另一面。所以模型擁有 3D 對象的內部表示,即使當前的視角看不到背面。(關於物理定律與統計學特性)老實說你描述的情況既涉及物理也涉及語義。比如掉下懸崖當然取決於重力定律等物理法則,但能不能穿過一堵牆則更多基於材料和語義,是固體還是非固體。目前的 RTFM 模型還沒有專注於物理層面。目前大多數生成式 AI 模型表現出的物理特性其實都是統計學結果。你看那些生成視訊的模型,水在流樹在動,那並不是基於牛頓力學的力和質量計算出來的,而是基於看過足夠多水和樹葉這樣運動的視訊,就照著這個統計模式生成。所以我們要謹慎一點。目前 World Labs 仍然專注於生成和探索靜態世界。未來我們會探索動態世界,而在那裡很多依然將是統計學習。我認為目前的任何 AI,無論是語言 AI 還是像素 AI,都還沒有能力在抽象層面上推匯出像牛頓定律那種等級的物理規則。我們所看到的一切都是基於統計的物理和動力學學習。另一方面,我們可以把這些生成的世界放入物理引擎中,比如虛幻引擎,這些引擎內建了物理定律。最終這些物理引擎、遊戲引擎和世界生成模型將結合成神經引擎。我甚至不知道該叫什麼,也許該叫神經空間引擎之類的。我認為我們正在朝那個方向發展,但這仍處於早期階段。04 空間智能需適應多種時間維度的持續學習我之所以提到持續學習,是因為最終目標是建構一個能隨時間推移而學習的模型。或許它搭載在機器人上,或者連接到現實世界的攝影機,最終不僅能學習場景,還能通過互動理解空間的物理性。當你將其與語言結合時,就擁有了一個真正強大的智能。這是你在思考的方向嗎?鑑於你們進展迅速,對五年後這項技術的發展有什麼預感?屆時模型內部會內建某種物理引擎嗎,或者通過長期學習建立更豐富的內部表示?李飛飛:毫無疑問,特別是當用例需要持續學習的時候。持續學習有很多種方式,比如在大語言模型中,將上下文字身納入考量就是一種持續學習,即利用上下文作為記憶來輔助推理。當然還有線上學習或微調等其他方法。所以持續學習這個術語可以涵蓋多種實現路徑。我認為在空間智能領域,特別是像你提到的那些用例,無論是定製場景下的機器人,還是具有特定風格的藝術家和創作者,這些需求最終都會推動技術在用例所需的時間範圍內變得更加敏捷。有些是即時的,有些從時間跨度來看可能更具分段性,視具體情況而定。(關於五年預測)作為一名科學家,很難給出精確的時間預測,因為技術的某些部分發展得比我想像的快得多,而有些則慢得多。但我認為這是一個非常好的目標。五年其實是一個比較合理的估算,我不知道我們會不會更快,但這比預測 50 年要靠譜得多,當然也不會是五個月。05 人類大量關鍵智能無法被語言記錄,空間智能旨在解鎖這部分“暗知識”你能談談為什麼認為空間智能是下一個前沿領域嗎?包含在文字中的人類知識只是所有人類知識的一個子集,雖然它非常豐富,但不能指望一個 AI 模型僅僅通過文字就能理解世界。你能談談為什麼這一點很重要,以及 Marble 和 World Labs 如何與這個更大的目標相關聯嗎?李飛飛:從根本上講,技術應該幫助人類。與此同時,理解智能本身的科學是我能想到的最迷人、最大膽、最雄心勃勃的科學探索,這是屬於 21 世紀的探索。無論你是被科學的好奇心所吸引,還是被利用技術造福人類的願景所驅動,這兩者都指向一個事實:我們的智能以及我們在工作中運用的智能,有很大一部分是超越語言的。我曾打趣地說,你不能用語言來滅火。在我的宣言中我舉了一些例子,無論是推導 DNA 雙螺旋結構時的空間推理,還是急救人員與同事在瞬息萬變的火場中滅火,這些活動很多都超越了語言。所以很明顯,無論是從用例的角度還是從科學探索的角度,我們都應該盡最大努力去解鎖如何開發空間智能技術,將我們帶向下一個層級。(關於應用前景)這是一個 3 萬英呎高空的宏觀視角,描述了我如何被科學發現和為人類製造有用工具這兩個雙重目標所驅動。我們可以深入探討如何變得有用,就像之前提到的,無論是在談論創造力、模擬、設計、沉浸式體驗,還是教育、醫療保健或製造業,利用空間智能能做的事情太多了。實際上讓我非常興奮的是,許多關注教育、沉浸式學習和體驗的人告訴我,Marble 作為我們發佈的首個模型,正在啟發他們思考如何將其用於沉浸式體驗,使學習變得更加互動和有趣。這非常自然,因為牙牙學語前的兒童完全是通過沉浸式體驗來學習的。即使是今天的成年人,我們生活的大部分時間都沉浸在這個世界中,涉及說話、寫作和閱讀,但也涉及行動、互動和享受等等,這一切都是如此自然。06 高效推理讓數字世界的“多重宇宙”成為可能,打破物理世界的邊界讓大家都感到震驚的一點是,Marble 竟然只在一個 H100 GPU 上運行。我在其他談話中聽你提到體驗“多重宇宙”,大家本來都很興奮,直到意識到那通常需要巨大的算力和高昂的成本。你們降低計算負載的突破,是否意味著向為教育等領域創造“多重宇宙”邁出了實質性的一步?李飛飛:不僅如此。首先我真的相信在推理方面我們會加速,效率會更高,而且體驗也會更好、規模更大、質量更高、時長更久,這是技術發展的趨勢。我也確實相信多重宇宙的體驗。據我們所知,人類的整個歷史體驗都侷限在一個世界裡,也就是物理上的這個地球。雖然有極少數人去過月球,但也僅此而已,這是唯一共享的 3D 空間。我們在其中建立文明,通過它生活,在其中做所有事情。但是隨著數字革命和數字爆炸,我們將生活的一部分轉移到了數字世界中,這中間也有很多交叉。我不想描繪一幅反烏托邦的畫面說我們已經拋棄了物理世界,也不會描繪一個完全誇張的烏托邦世界說每個人都戴著頭顯不再注視美麗的真實世界,那才是生活最充實的部分。我拒絕這兩種極端觀念。(關於數字世界的無限性)但無論是從務實角度還是展望令人興奮的未來,數字世界都是無邊無際的。它是無限的,給予了我們物理世界無法提供的更多維度和體驗。例如我們已經談到了學習,我真希望能以一種更加互動和沉浸的方式學習化學。我記得大學化學課很大程度上與排列分子、理解分子結構的奇偶性和不對稱性有關,天那,我真希望我能以沉浸式的方式體驗那個過程。我遇到過很多創作者,意識到在他們的腦海中,每一個時刻都有無數種方式來講故事,腦子裡有太多東西,但他們的速度受限於工具的效率。如果你使用 Unreal Engine,要表達腦海中的一個世界可能需要數周甚至數小時的時間。無論你是要製作一部奇幻的音樂作品,還是為剛出生的孩子設計臥室,這樣的時刻數不勝數。如果我們允許人們像利用物理世界一樣,利用數字宇宙去實驗、迭代、交流和創造,那將會更加有趣。07 AI 的理解力邊界:是語義操作而非人類意識關於數字世界打破物理邊界,在你的模型明確投射這些空間之前,它對正在內化的空間究竟有多少“理解”?這也是我比產品化更關注的一點:致力於建構一個真正理解世界的 AI。這不僅僅是擁有 3D 空間的表示,而是真正理解物理定律、看到了什麼,甚至所見事物的價值或用途。你認為目前 AI 具備多少這種理解?為了讓模型真正理解世界還需要發生什麼?李飛飛:這是個好問題。“理解”是一個非常深刻的詞。當 AI 理解某事時,它在本質上就與人類的理解不同。部分原因在於我們是非常不同的存在,人類在具身的軀體中擁有一定程度的意識和自我意識。例如當我們理解“我的朋友真的很高興”時,這不僅僅是一個抽象的理解,你體內實際上會發生化學反應,釋放快樂荷爾蒙或其他化學物質,心跳可能會加速,情緒會變化。所以這種水平的理解與一個抽象的 AI Agent 是非常不同的,後者具備正確分配意義並將意義相互關聯的能力。(關於沙發變色的例子)例如在 Marble 我們的模型產品中,你可以進入一個高級的世界生成模式進行編輯。你可以預覽世界並說:“我不喜歡這個沙發是粉紅色的,把它改成藍色的”,然後它就改成了藍色。它是否在“藍色”、“沙發”和“改變”這個詞的層面上理解了?它理解,因為如果沒有那種理解它就無法執行修改。但它是否像你我那樣理解它,包括關於這個沙發的一切有用甚至無用的資訊?它有關於沙發的記憶嗎?它會將沙發的概念關聯到功能可供性以及許多其他事物上嗎?不,它沒有。作為一個模型,它侷限於允許你做模型需要做的任何必要事情,即建立一個帶有藍色沙發的空間。所以我認為 AI 確實有所理解,但不要把這種理解誤認為是擬人化的人類水平的理解。08 為何 AI 難以此建構相對論你在沙烏地阿拉伯與 Peter Diamandis 和 Eric Schmidt 的談話時討論了 AI 是否具有創造力或在科學研究中提供幫助的潛力。當時給出的類比是:如果在愛因斯坦提出相對論之前就有 AI,AI 能推理出那個發現嗎?直覺上似乎是可能的,那麼 AI 究竟缺乏什麼才能進行這種等級的科學推理?李飛飛:我認為我們更接近於讓 AI 推匯出 DNA 雙螺旋結構,而不是讓 AI 建構狹義相對論。部分原因是我們已經在蛋白質摺疊方面看到了很多偉大的工作,也因為推導雙螺旋結構的表示更紮根於空間和幾何。而狹義相對論的建構是在抽象層面上,不僅僅是用無限數量的詞彙來表達的。我們在物理學中看到的一切,從牛頓定律到量子力學,都被抽象到一個因果層面,即世界的關係、概念,無論是質量還是力,都被抽象到一個不再是純粹統計模式生成的水平。語言可以是高度統計性的,3D 或 2D 世界以及動力學都可以是統計性的。但是力、質量和磁性等因果抽象不是純粹統計的,它是非常深刻的因果關係和抽象概念。所以我現在更多是在進行一種理論性的探討。我認為 Eric 和我在台上是在說,我們現在世界上有足夠多的天體資料、運動資料,只要聚合所有的衛星資料等等交給今天的 AI,它能推匯出牛頓運動定律嗎?09 Transformer 不是終點,AI 需要新架構來實現超越統計學的抽象思維對於天體運動的資料,憑直覺我認為,即使今天的 AI 做不到,但只要給予足夠的資料和思考時間,人工智慧應該能推匯出運動定律。你為什麼認為它做不到?這是否意味著你需要一種新的架構來解鎖你所說的“通用任務功能”,從而超越當前 Transformer 的侷限?李飛飛:當我們說這些定律是“被推導”出來時,要明白牛頓必須抽象出力、質量、加速度以及基本常數等概念。這些概念處於非常抽象的層面。目前我還沒看到今天的 AI 能夠從海量資料中提取出這種層面的抽象表示、變數或關係。現有的證據還不多。當然,我並不瞭解 AI 領域發生的所有事情,如果事實證明我錯了,我很樂意接受。但我確實沒聽說過有那項工作做到了這種程度的抽象。而且在 Transformer 架構中,我也看不出這種抽象能力能從何而來。這就是我質疑這一點的理由。(關於新架構)我並不是說 AI 不應該或不能嘗試,但這可能需要我們在演算法的基礎架構上取得更多進步。我確實這麼認為。我相信會有架構上的突破。我不認為 Transformer 是 AI 的終極發明。從宏觀角度看,相比於我們所知的整個宇宙歷史,人類存在的時間並不長。但在幾千年的短暫歷史中,我們從未停止創新。所以我認為 Transformer 不會是 AI 的最後一個演算法架構。你曾說過,曾經覺得如果能讓 AI 系統給圖像打標籤或生成說明文字,就是職業生涯的巔峰了。當然,你早就超越了那個階段。如今,你想像中未來職業生涯的最高成就會是什麼?李飛飛:我認為解鎖空間智能,創造一個能真正將感知與推理、空間推理連接起來的模型,實現從感知到行動,包括規劃,以及從想像到創造。如果有一個模型能同時做到這三點,那將是不可思議的。 (數字開物)