#推理能力 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#推理能力

Gemini 3.1 Pro突襲：推理能力翻倍，Google打響AI"小步快跑"第一槍

引言當行業還在期待GPT-5.3時，Google用一場".1"版本號革命重新定義了AI迭代節奏。2026年2月24日凌晨，Google突然發佈Gemini 3.1 Pro大模型，這是其首次採用".1"小版本號，但升級幅度卻遠超預期。在ARC-AGI-2基準測試中，Gemini 3.1 Pro得分77.1%，是Gemini 3 Pro（31.1%）的2倍還多。這一突破不僅刷新了Google自身的技術紀錄，更標誌著大模型行業正式進入"高頻小步快跑"的新時代。更關鍵的是定價策略：每百萬token輸入僅2美元，輸出10美元，這一價格直接對標Anthropic Sonnet 4.6，在保持性能領先的同時實現了成本的大幅最佳化。Google用行動證明，AI競爭不再是"參數軍備競賽"，而是"效率與速度的比拚"。01 技術突破：推理能力的量子躍遷Gemini 3.1 Pro最引人注目的突破在於推理能力的翻倍提升。傳統大模型升級往往聚焦於參數規模或多模態能力，而Google此次選擇了更艱難的路徑——從根本上提升模型的邏輯推理和問題解決能力。ARC-AGI-2基準測試的77.1%得分意味著什麼？這一測試專門評估AI系統的抽象推理能力，要求模型從有限示例中歸納出通用規則，並應用於全新場景。77.1%的得分不僅超越了所有前代Gemini模型，更接近了人類專家的表現水平。對比之下，GPT-5.2在同一測試中的得分為68.3%，Claude Opus 4.6為72.8%。多模態能力的全面進化同樣令人印象深刻。Gemini 3.1 Pro支援100萬token超長上下文窗口，能夠一次性處理整本書等級的文件或大型程式碼庫。在創意程式設計方面，模型能夠直接生成3D版"椋鳥群飛"動畫，並支援手勢追蹤互動，實現了從靜態內容生成到動態互動體驗的跨越。vibe coding能力的同步增強為開發者帶來了全新體驗。模型能夠更好地理解程式碼背後的設計意圖和架構邏輯，而不僅僅是語法正確性。實測資料顯示，在處理複雜演算法重構、架構最佳化等任務時，Gemini 3.1 Pro的精準率比前代提升45%。02 行業意義：從"整數版本"到".1迭代"的範式轉變Google首次採用".1"小版本號，這一看似微小的變化背後，是AI行業發展邏輯的根本性轉變。高頻小步快跑成為新常態。傳統上，大模型迭代以整數版本為單位，升級周期長達數月甚至半年。Gemini 3.1 Pro的發佈預示著，未來AI能力的進化將更加頻繁、更加精細。預計未來6個月內，我們將看到更多".1"、".2"等級的快速迭代，而非傳統的整數版本更新。企業應用更新機製麵臨重構。對於依賴AI服務的企業而言，這意味著需要建立更敏捷的AI應用更新機制。傳統"一年一升級"的節奏將被打破，企業需要能夠快速適配模型能力的持續最佳化，保持競爭優勢。技術競爭維度更加多元。當版本迭代頻率提升，競爭不再侷限於"誰先發佈大版本"，而是"誰能持續提供最優體驗"。這要求廠商在模型最佳化、工程效率、生態建設等多個維度保持領先。使用者受益程度顯著提升。更頻繁的迭代意味著使用者能夠更快享受到技術進步帶來的價值。無論是開發者工具的增強，還是消費級應用的體驗最佳化，都將以更快的節奏呈現給終端使用者。03 定價策略：性能領先下的成本最佳化Gemini 3.1 Pro的定價策略同樣體現了Google的戰略思考。每百萬token輸入2美元、輸出10美元的價格，在保持性能領先的同時，實現了對競品的成本優勢。對比分析顯示：相比Anthropic Sonnet 4.6（輸入3美元、輸出15美元），Gemini 3.1 Pro便宜33%相比OpenAI GPT-5.2 Turbo（輸入5美元、輸出15美元），成本優勢更加明顯在相同預算下，企業可以處理更多token量，實現更高的投入產出比中小企業市場成為重點。傳統高性能AI服務主要被大型企業壟斷，而Gemini 3.1 Pro的親民定價，意味著更多中小企業能夠負擔得起頂尖AI能力。這對於加速AI技術普惠、推動行業數位化轉型具有重要意義。開發者生態的吸引力增強。對於個人開發者和初創團隊而言，成本是選擇AI服務的關鍵考量。Gemini 3.1 Pro的性價比優勢，將吸引更多開發者加入Google生態，推動應用創新的繁榮。04 生態佈局：從模型到應用的全鏈路最佳化Gemini 3.1 Pro的發佈不是孤立事件，而是GoogleAI生態戰略的重要一環。Gemini App已全面上線。普通使用者可以通過Gemini App直接體驗新模型，享受比前代更精準的複雜問題解答能力。實測顯示，在處理數學證明、邏輯推理、專業諮詢等任務時，新模型的精準率和響應速度均有顯著提升。API服務的全面升級。開發者可以通過Gemini API快速接入新模型，享受推理能力翻倍帶來的效率提升。Google同時最佳化了API的穩定性和響應速度，確保企業級應用的高可用性。多模態創作工具鏈完善。結合Gemini 3.1 Pro強大的多模態能力，Google推出了全新的創意工具套件，支援"文生視訊+互動"的新型內容形式。這對於內容創作者、教育工作者、行銷人員等群體具有重要價值。企業級解決方案深化。針對金融、醫療、法律等垂直行業，Google提供了基於Gemini 3.1 Pro的定製化解決方案，幫助企業在保持資料安全的前提下，享受AI技術帶來的效率提升。05 競爭格局：三巨頭技術路線的分化Gemini 3.1 Pro的發佈，進一步凸顯了AI三巨頭技術路線的分化。Google的"推理優先"路線。通過持續最佳化模型的邏輯推理能力，Google正在建構差異化的技術優勢。在需要複雜問題解決、專業諮詢、科學計算等場景中，Gemini系列的表現日益突出。OpenAI的"通用能力"路線。GPT系列繼續強化其通用性和適應性，在保持各方面能力均衡的同時，通過規模效應降低成本。但整數版本迭代周期較長，可能面臨敏捷性挑戰。Anthropic的"安全與專業"路線。Claude系列在AI安全、專業任務處理上持續深耕，特別是在程式碼安全、法律合規等垂直領域建立了獨特優勢。但定價相對較高，可能限制其規模化應用。國產大模型的追趕壓力。雖然DeepSeek、智譜GLM-5等國產模型在特定領域表現出色，但在推理能力的系統性提升上仍需追趕。Gemini 3.1 Pro的發佈，為國產模型提供了重要的技術參考和競爭標竿。06 實測體驗：從"工具"到"思維夥伴"的進化對於一線使用者而言，Gemini 3.1 Pro帶來的體驗升級是實實在在的。複雜問題處理能力顯著提升。在測試中，模型能夠準確解答研究生等級的數學證明題，理解複雜的法律條文邏輯，提供專業的醫療諮詢建議。這種能力的提升，讓AI從簡單的資訊檢索工具，進化為真正的"思維夥伴"。長文件理解更加精準。得益於100萬token的上下文窗口，模型能夠準確理解整本書、大型程式碼庫、複雜研究報告的內容。在處理學術論文審稿、程式碼架構評審等任務時，表現接近人類專家水平。創意表達更加豐富。在內容創作測試中，模型不僅能夠生成高品質的文字內容，還能夠創作互動式動畫、設計複雜的資料可視化圖表、製作專業的簡報。這種多模態創作能力，為創意工作者提供了全新的工具。響應速度持續最佳化。官方資料顯示，Gemini 3.1 Pro的響應時間相比前代縮短30%，在處理複雜推理任務時，使用者能夠感受到明顯的流暢度提升。也看到了Gemini新增的製作音樂模組（終於有人挑戰suno了），試了一下做一首30秒的武俠歌曲，完成度也很不錯。gemini給我做的國風武俠電影主題曲07 未來展望：AI發展的新節奏與新挑戰Gemini 3.1 Pro的發佈，不僅是一個產品的升級，更預示著AI行業發展的新節奏。技術迭代的加速度。".1"版本號的出現，意味著技術進步的顆粒度更加精細，迭代頻率更加密集。這要求整個行業建立更加敏捷的研發體系、更加靈活的部署架構、更加智能的測試方法。應用創新的新機遇。更強大的推理能力，將催生更多創新應用場景。從智能教育輔導到專業諮詢服務，從科學計算輔助到複雜決策支援，AI的應用邊界將持續擴展。人才需求的結構性變化。隨著AI能力的快速進化，對AI人才的需求將從"模型訓練專家"向"應用創新專家"轉變。能夠將AI能力與行業需求深度結合的人才，將成為市場的新寵。倫理治理的緊迫性。更強大的推理能力，也帶來了新的倫理挑戰。如何確保AI系統的決策透明、公平、可控，將成為行業必須面對的重要課題。結語Google的這次".1版本突襲"，表面上是技術升級，深層則是行業競爭邏輯的根本性轉變。當AI發展從"整數版本躍進"轉向"小數版本迭代"，整個行業的節奏、格局、規則都將被重新定義。推理能力的翻倍提升，不僅僅是技術參數的最佳化，更是AI從"資訊處理工具"向"智能思維夥伴"進化的重要里程碑。在這個AI重新定義一切的時代，能夠率先突破推理瓶頸、建構持續最佳化能力的企業，將掌握下一個階段的發展主動權。真正的競爭才剛剛開始。技術優勢需要轉化為生態優勢，單點突破需要擴展為系統領先。對於全球AI產業而言，Gemini 3.1 Pro的發佈既是挑戰，也是機遇。在這個AI從"炫技"走向"實用"的關鍵轉折點，能夠平衡技術創新與商業落地的企業，將引領行業進入更加成熟、務實的新階段。當矽谷醒來時，會發現AI競爭的規則已經改變。這場始於".1版本號"的技術革命，或許將開啟全球AI發展的新篇章——一個更加注重實用性、可及性和可持續性的新篇章。 (遊戲AI說)

輝達仍是王者！GB200貴一倍卻暴省15倍，AMD輸得徹底

AI推理遊戲規則，正悄然改變。一份最新報告揭示了關鍵轉折：如今決定勝負的，不再是單純的晶片性能或GPU數量，而是「每一美元能輸出多少智能」。AI推理，現已不只看算力硬指標了！Signal65一份最新報告中，輝達GB200 NVL72是AMD MI350X吞吐量28倍。而且，在高互動場景在，DeepSeek R1每Token成本還能低到15倍。GB200每小時單價大概是貴一倍左右，但這根本不重要。因為機櫃級NVLink互聯+軟體調度能力，徹底改變了成本結構。頂級投資人Ben Pouladian稱，「目前的關鍵不再是算力或GPU數量，而是每一美元能買到多少智能輸出」。如今，輝達仍是王者。其他競爭對手根本做不到這種互動水平，這就是護城河。最關鍵的是，這還沒有整合200億刀買入Groq的推理能力。這裡，再mark下老黃至理名言——The more you buy, the more you save！AI推理重心：一美元輸出多少智能？這篇萬字報告，探索了從稠密模型（Dense）到混合專家模型（MoE）推理背後的一些本質現象。傳統的「稠密模型」架構要求：在生成每個Token時都啟動模型裡的全部參數。這就意味著：模型越大，運行越慢、成本越高，同時還會帶來相應的記憶體需求增長等問題。MoE架構，正是為了釋放更高水平的智能而生——在每個Token上只啟動最相關的「專家」。摟一眼Artificial Analysis排行榜即可發現，全球TOP 10開源LLM，全部都是MoE推理模型。它們會在推理階段額外「加算力」來提高精準性：LLM不會立刻吐出答案，而是先生成中間的推理Token，再輸出，相當於先把請求和解法「想一遍」。前16名裡有12個是MoE模型這些推理Token往往遠多於最終回覆，而且可能完全不會展示出來。能否既快又便宜地生成Token，對推理部署來說就變得至關重要。那麼，MoE方法的主要約束在那裡？一個核心限制在於「通訊瓶頸」。當不同專家分佈在多塊GPU上時，任何GPU之間通訊的延遲，都會讓GPU空閒等待資料。OpenRouter一份近期報告，超50%的Token會被路由到推理模型上這些「空轉時間」（idle time）代表著被浪費的、低效的算力，並且會直接體現在服務提供商的成本底線上。當評估AI基礎設施的「經濟性」時，一般會聚焦在三個方面：性能（吞吐量與互動性）能效（在既定功耗預算下，可生成的Token數）總體擁有成本（通常以Token/每百萬的成本衡量）基於公開可用的基準測試資料，Signal65對不同LLM架構下AI基礎設施方案進行了對比分析。分析中，團隊採用第三方基準測試所提供的性能資料，來估算相對的Token經濟性。具體來說，他們選取了B200、GB200 NVL72，以及AMD MI355X部分結果，用以對比它們在不同模型場景下的真實性能表現及相應的TCO估算。結果顯示，在稠密架構以及較小規模的MoE中，B200性能優於AMD MI355X。當模型擴展到像DeepSeek-R1這樣需跨越單節點的前沿級規模時，GB200 NVL72性能最高可達到MI355X的28倍。在高互動性的推理工作負載中，NVL72的單位Token成本最低，可降至其他方案的約1/15。儘管GB200 NVL72的單GPU小時價格幾乎是這些競爭平台的2倍，但其機架級能力——從NVLink高速互連，到覆蓋72塊GPU的軟體編排——共同推動了這種顯著更優的單位經濟性。價值評估的重心，正在從單純的原始FLOPs，轉向「每一美元所獲得的總體智能」。這一結論非常明確：隨著MoE模型和推理工作負載帶來的複雜性與規模持續上升，行業已無法僅依賴晶片層面的性能提升。能夠在系統層面實現峰值性能的端到端平台設計，已經成為實現低成本、高響應AI服務的關鍵槓桿。「稠密模型」推理，輝達領先Signal65選擇了Llama 3.3 70B作為稠密模型的性能基準，結果如下所示：帕累托曲線清晰顯示出，HGX B200-TRT方案在整個吞吐量與互動性區間內，都具備持續的性能優勢。具體到基線互動性水平，B200的性能大約是MI355X的1.8倍，這為互動式應用部署，以及更高的單GPU並行密度提供了顯著余量。再來看，當互動性提升至110 tokens/sec/user時，這一優勢進一步被放大：B200吞吐量超過MI355X的6倍。整體上，在Llama 3.3 70B測試中，AMD MI355X在單位成本性能方面確實具備一定吸引力。但這種優勢並不能代表更現代的推理技術堆疊，尤其是以MoE架構和高強度推理工作負載建構的系統。MoE推理，輝達領先那麼，在MoE架構上，輝達和AMD表現又如何？中等規模推理：gpt-oss-120BSignal65認為，OpenAI gpt-oss-120B是理解MoE部署特性的一個理想「橋樑案例」。它足夠大，可以把MoE的複雜性暴露出來；但規模又沒有大到離譜，仍然是很多團隊能現實部署並調優的範圍。它處在一個很有用的中間地帶：介於稠密的70B級模型，與市場正在快速轉向的、更前沿的推理型MoE架構之間。在10月下旬資料裡，當目標是100 tokens/sec/user時，B200大約比MI355X快1.4倍；但當目標提高到250 tokens/sec/user時，差距會擴大到約3.5倍，說明越追求「更快的互動」，平台差異越容易被放大。不過，12月上旬的資料則呈現出不同局面。得益於軟體最佳化，兩邊平台的絕對性能都明顯提升：輝達單GPU峰值吞吐從大約7,000 tokens/sec提升到超過14,000；AMD也從約6,000提升到大約8,500。前沿推理：DeepSeek-R1在DeepSeek-R1推理上，測試結果正如開篇所介紹那樣，輝達GB200 NVL72大幅領先。更多資料如下圖所示：基準測試資料展示了一個被重塑的格局：GB200 NVL72讓「超過8塊GPU的張量平行配置」也能進入帕累托前沿，達到單節點平台根本無法匹敵的性能。在25 tokens/sec/user互動性目標下，GB200 NVL72單GPU性能大約是H200的10倍，並且超過MI325X單GPU性能的16倍。這類性能差距，正是能為AI服務提供商帶來「斷崖式」TCO改善的那種差距。當互動性目標提高到60 tokens/sec/user時，GB200 NVL72相比H200帶來了超24倍的代際提升，同時也接近MI355X的11.5倍性能。在同樣25 tokens/sec/user下，GB200 NVL72單GPU性能大約是B200的2倍、是MI355X的5.9倍；而到60 tokens/sec/user時，這些優勢進一步擴大：相對單節點B200達到5.3倍、相對MI355X達到11.5倍。GPU越貴，token成本越低輝達從Hopper過渡到Blackwell，並推出GB200 NVL72時，不僅提升了每GPU算力、記憶體頻寬以及NVLink互連頻寬，還對底層系統架構做了重新設計。從8-GPU風冷HGX伺服器轉向全液冷的機架級系統，並把72塊GPU連接在同一個域內，系統成本和複雜度顯然都上升了。據CoreWeave公佈的目錄價，按單GPU口徑，GB200 NVL72價格大約比H200貴1.7倍。不過，每一代新技術的目標之一，就是壓低「每Token成本」。對推理而言，具體就是：實際交付的Token吞吐提升幅度，要超過底層基礎設施成本的提升幅度。而從公開的性能資料來看，這正是GB200 NVL72相比Hopper所呈現出的結果。Signal65把本次的tokenomics（Token經濟學）分析，錨定在前文建立的DeepSeek-R1性能差距上：在25 tokens/sec/user時，GB200 NVL72單GPU性能大約是H200的10倍；在更高的互動點位上，這個差距會更大（24倍）。下表總結了成本歸一化，以及由此得到的「每美元性能」計算：這些結果一開始可能有點反直覺：更「貴」的GPU反而更省錢——因為它帶來的性能提升遠大於價格差異，使得它能以更低成本生成Token。與AMD相比，輝達系統在推理token成本上的一些資料對比：按單GPU口徑，MI355X價格大約只有GB200 NVL72配置的一半；但由於GB200 NVL72單GPU性能優勢從低端接近6倍，到高互動性時高達28倍不等，輝達仍然能提供最高15倍的每美元性能優勢。換句話說，輝達能實現相對每Token成本僅為競爭對手的1/15。結論前沿AI模型的未來，會是更大、更複雜的MoE。隨著模型更深地走向MoE與推理架構，最終效果將不再只取決於原始GPU性能或記憶體容量。平台級設計會成為決定性因素——包括互連與通訊效率、多節點擴展特性、軟體棧成熟度、生態支援與編排能力，以及在並行與混合負載下維持高利用率的能力。從當前趨勢看，來自OpenAI、Meta、Anthropic等前沿公司的旗艦模型，很可能會繼續沿著MoE與推理方向演進。如果這一軌跡成立，輝達將維持關鍵的性能與經濟性優勢。GoogleTPU這類架構也提供機架級方案，但它們對非自家模型的適用性與性能表現仍不明確。本文記錄的性能差異，能夠直接轉化為可量化的商業結果：在既定互動性閾值下，每部署一塊GPU能服務更多使用者，就能降低每個「有用Token」的生成成本，提高每機架的收入潛力（通過規模化交付更高價值的體驗），最終AI企業和部署AI的企業獲得更好的TCO。一個具體例子足以說明量級：當一個平台在某個互動性目標下，能提供28倍的單GPU吞吐提升時，它可以在不需要線性擴大硬體規模的情況下，解鎖新的產品檔位以及更複雜的功能。這就是AI推理「經濟學」，而它會更偏向那些從底層就為MoE與推理時代而設計的平台。 (新智元)

GPT-5.2絕地反擊，能否撼動Gemini 3的地位？

AI領域的角逐從未停歇，OpenAI的GPT-5.2在“紅色警報”下強勢登場，直接叫板Google的Gemini 3。這場技術巨頭間的較量，不僅關乎模型性能，更預示著未來AI生態的格局與紅利走向。👉 GPT-5.2的技術深度與突破點：重塑專業知識工作流OpenAI此次推出的GPT-5.2並非簡單升級，而是圍繞推理、記憶、工具使用和長上下文理解進行了全面強化，旨在解決企業級工作流中的痛點。它細分為Instant、Thinking和Pro三個版本，滿足不同場景需求。•核心推理能力質變： GPT-5.2 Thinking版本在GDPval知識工作評估中，對44種職業的專業任務表現達到或超越人類專家水平，勝率高達70.9%。這意味著它能更高效地完成電子表格製作、簡報建構、程式碼編寫等複雜任務，且速度比人類專家快11倍，成本不到1%。在ARC-AGI-2抽象推理基準測試中，Thinking版本達到52.9%，Pro版本更是高達54.2%，遠超Gemini 3 Deep Think的45.1%，展現了在解決新穎、抽象問題上的卓越能力。•長上下文理解的“記憶”革命： GPT-5.2在處理長文件方面表現出色，尤其在MRCR v2基準測試中，對256k tokens的長上下文幾乎達到100%的精準率。這對於分析報告、合同、研究論文等超長文字至關重要，極大地提升了處理複雜、多檔案項目的能力，避免了上下文丟失的痛點。•程式碼與科學領域的降維打擊：在軟體工程領域，GPT-5.2在SWE-Bench Verified測試中取得80%的高分，並在更嚴苛的SWE-Bench Pro中達到55.6%，顯著提升了程式碼生成、偵錯和大規模程式碼庫重構的可靠性。在數學領域，GPT-5.2在AIME 2025（無工具）中實現100%的完美得分，並在FrontierMath專家級數學問題上達到40.3%的解決率，展現了突破性的數學推理能力。•多模態與工具呼叫： GPT-5.2 Thinking是目前最強的視覺模型，圖表推理和軟體介面理解的錯誤率降低了約一半。它在Tau2-bench Telecom工具呼叫基準測試中達到98.7%的精準率，進一步提升了多輪、多工具工作流的可靠性。💡 Gemini 3的生態護城河與多模態優勢Google的Gemini 3憑藉其原生多模態能力和深度生態整合，建構了強大的護城河。•原生多模態的“大腦”： Gemini 3從底層設計上就支援文字、圖像、視訊、音訊甚至程式碼的無縫融合理解。尤其在視訊-MMMU基準測試中達到87.6%，展現了其在處理複雜多模態資訊上的領先優勢。•超長上下文與“深度思考”： Gemini 3擁有高達100萬tokens的巨大上下文窗口，這使其在處理超長對話、研究論文或大型程式碼庫時，能保持更強的連貫性和理解力。其Deep Think模式更是將推理邊界推向極致，用於解決最複雜的難題。•生態整合與Agentic能力： Gemini 3深度整合於Google的各項產品中，如Gemini App、Google Search的AI模式、Workspace應用（Docs, Sheets等）以及Google AI Studio和Vertex AI等開發者工具。它的Agentic能力讓AI不再只是“知道”，而是能“行動”，通過定義目標，Gemini 3能自主決定並呼叫工具完成多步驟工作流，例如自動預訂服務或整理收件箱。尤其值得關注的是其Generative UI功能，能直接通過自然語言生成互動式應用程式，從概唸到應用的轉化效率實現指數級提升。✅ 終極對決與未來趨勢：認知突圍的關鍵GPT-5.2的發佈，是OpenAI在面對Gemini 3的強大攻勢下，一次“程式碼紅色”的絕地反擊。儘管Gemini 3在多模態和生態整合方面保持領先，尤其在LMArena的文字、視覺、圖像編輯和搜尋等多個多模態榜單上佔據首位，但GPT-5.2在專業知識工作、編碼、數學和抽象推理等核心能力上實現了顯著的認知突圍。價格方面，GPT-5.2的API定價 ($1.75/百萬輸入token, $14/百萬輸出token) 相較GPT-5有所上漲，但其90%的快取輸入折扣和Batch API的50%折扣，旨在提高複雜任務的成本效益。而Gemini 3 Pro的API定價 ($2.00/$12.00/百萬token，超過200K上下文則更高) 則更強調按使用量付費，並有免費試用層級。最終選擇，取決於具體應用場景對模型深度、生態整合度及成本效率的權衡。這場AI巨頭間的激烈競爭，正加速推動通用人工智慧的演進。無論是GPT-5.2的“思維引擎”，還是Gemini 3的“行動代理”，都在為我們描繪一個AI深度賦能的未來。真正的贏家，將是那些能有效利用這些底層技術，建構自身資料和應用護城河的企業，抓住這波前所未有的AI紅利。 (澤問科技)

楊立昆親自發佈：Meta最強世界模型開源！

讓AI真正理解世界，Meta又邁出了關鍵一步。智東西6月12日消息，剛剛，Meta發佈了最新的開源世界模型V-JEPA 2，稱其在物理世界中實現了最先進的視覺理解和預測，從而提高了AI agents的物理推理能力。Meta副總裁、首席AI科學家楊立昆（Yann LeCun）親自發佈了該模型，他在官方視訊中提到，在世界模型的幫助下，AI不再需要數百萬次的訓練才能掌握一項新的能力，世界模型直接告訴了AI世界是怎樣運行的，這可以極大提升效率。比如AI會預測我們舀出一勺東西是要放入另一個容器中：AI甚至可以理解運動員的複雜跳水動作，並進行動作拆解：據Meta測試資料，V-JEPA 2在測試任務中每一步的規劃用時縮短至輝達Cosmos模型的三十分之一，同時成功率還更高。據稱V-JEPA 2使用了一百多萬小時的視訊來進行自監督學習訓練。在Meta看來，物理推理能力對於建構在現實世界中運作的AI agents、實現高級機器智能（AMI）非常重要，可以讓AI agents真正可以“三思而後行（Think Before Acts）”。此外，Meta還發佈了三個新的基準測試，用於評估現有模型從視訊中推理物理世界的能力。昨天Meta剛剛曝出要成立新AI實驗室、招攬28歲華裔天才少年，並豪擲148億美元（約合人民幣1061億元）收購Scale AI 49%股份的消息，今天Meta發佈新世界模型，並讓楊立昆出來大講Meta AI重點研究方向和願景做法，頗有些要為招兵買馬“打廣告”的意味。論文地址：https://ai.meta.com/research/publications/v-jepa-2-self-supervised-video-models-enable-understanding-prediction-and-planning/01. 世界模型讓AI有“類人直覺” 強化AI agents理解、預測、規劃能力理解世界物理規律聽起來並不複雜，但這是AI與人類差距非常大的一個方面。比如你把球拋向空中時，知道重力會將其拉回地面；當你穿過一個陌生的擁擠區域時，你會一邊朝目的地移動，一邊避免撞到沿途的行人或障礙物；打曲棍球時，你會滑向冰球即將到達的位置，而非它當前的位置。▲判斷籃球的運動軌跡但AI很難掌握這種能力，很難建構這種理解物理世界的“心理模型”。Meta的世界模型，主要會強化AI agents的理解、預測、規劃三項核心能力。02. 關鍵架構創新大幅提升學習效率高性能同時兼顧精準率Meta使用視訊來訓練 V-JEPA 2，幫助模型學習物理世界中的重要規律，包括人類如何與物體互動、物體在物理世界中的運動方式，以及物體之間的相互作用。據稱V-JEPA 2通過自監督學習，訓練了超過1百萬小時的視訊。V-JEPA 2是一種聯合嵌入預測架構（Joint Embedding Predictive Architecture）模型，這也是“JEPA”的名稱由來。模型包括兩個主要組成部分：一個編碼器，負責接收原始視訊，並輸出包含對於觀察世界狀態語義上有用的內容的嵌入（embeddings）。一個預測器，負責接收視訊嵌入和關於要預測的額外內容，並輸出預測的嵌入。V-JEPA 2跟傳統預測像素的生成式模型有很大性能差異，根據Meta測試資料，V-JEPA 2執行任務時每個步驟的規劃用時縮短至Cosmos模型的三十分之一，不僅用時短，V-JEPA 2的成功率還更高。V-JEPA 2的能力對現實世界agents理解複雜運動和時間動態（temporal dynamics），以及根據上下文線索預測動作都非常關鍵。基於這種預測能力，世界模型對於規劃給定目標的動作順序非常有用，比如從一個杯子在桌子上的狀態到杯子在桌子邊上的狀態，中間要經歷怎樣的動作。如今大部分AI都需要專業的訓練去解決特定的任務，而V-JEPA這種自監督的方式，只需要為數不多的案例，就可以掌握新的能力，在不同的任務和領域中實現更高的性能表現。模型可以部署在機械臂上，去執行物體操作類的任務，比如觸碰（Reach）、抓取（Grasp）、選擇和擺放物體（Pick-and-place），而不需要大量的機器人資料或者針對性的任務訓練。根據測試資料，V-JEPA 2在執行這三類任務時的成功率分為別100%、45%和73%。03. 楊立昆展示世界模型應用場景首發三個專項基準測試世界模型可能會有那些應用場景，楊立昆也給大家做了一些展示。世界模型加持下的AI agents，可以幫助視障人群更好的認知世界；MR頭顯中的AI agents可以給更複雜的任務提供指導，比如讓教育更加的個性化；AI程式設計助手可以真正理解一行新的程式碼會如何改變程序的狀態或變數；世界模型對自動化系統同樣非常重要，比如自動駕駛汽車和機器人；Meta認為世界模型會為機器人開啟一個新的時代，讓現實世界中的AI agents不需要學習天文數字的訓練資料就可以做家務或體力勞動。除了發佈V-JEPA 2，Meta還分享了三個新基準測試，用來幫助研究界評估現有模型通過視訊學習和推理世界的能力：1、IntPhys 2：用於測試模型在複雜合成環境中的直觀物理理解能力（Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments）。2、一種基於最小影片對的、感知捷徑的物理理解視訊問答基準測試（A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs）。3、CausalVQA：面向視訊模型的物理基礎因果推理基準測試（A Physically Grounded Causal Reasoning Benchmark for Video Models）。基準測試地址：IntPhys 2：https://ai.meta.com/research/publications/intphys-2-benchmarking-intuitive-physics-understanding-in-complex-synthetic-environments/CausalVQA ：https://ai.meta.com/research/publications/causalvqa-a-physically-grounded-causal-reasoning-benchmark-for-video-models/Shortcut-aware Video-QA Benchmark：https://ai.meta.com/research/publications/a-shortcut-aware-video-qa-benchmark-for-physical-understanding-via-minimal-video-pairs/04. 結語：AI認知世界提速 AI從數字世界加速走向物理世界Meta二代世界模型的發佈進一步最佳化了模型的性能和精準率，讓物理世界的AI agents可以更高效地執行任務，而不需要海量的資料訓練，這一方向可以說是目前AI圈關注的焦點賽道之一。隨著資料瓶頸問題越來越凸顯，如何在底層技術層面實現突破顯得更為關鍵，Meta在模型架構層面的創新是其世界模型的核心優勢。隨著如今越來越多的視訊模型發佈，AI逐漸從文字、圖像走向動態的視訊，AI理解世界、認識世界的速度不斷加快，從輝達、Meta、Google這樣巨頭到各路創企，都對打造世界模型饒有興致，世界模型之戰，或許將成為後續AI產業技術競爭的關鍵看點。 (智東西)

“AI教父”傑弗裡·辛頓：沒有什麼人類的能力是AI不能複製的……

【導讀】被譽為“AI教父”的傑弗裡·辛頓（Geoffrey Hinton）於近日接受了紐西蘭調查記者蓋昂·埃斯皮納（Guyon Espiner）的遠端專訪。傑弗裡·辛頓是深度學習三巨頭之一，現代AI技術的“奠基人”，於2024年榮獲諾貝爾物理學獎。辛頓不僅是神經網路反向傳播演算法的提出者，也是圖神經網路與Transformer模型的技術先驅。他的學生遍佈AI世界的頂層——OpenAI、DeepMind、Meta、Google、Anthropic中都有他的門徒。可以說，我們今天所使用的GPT、Claude、Gemini這些AI系統，幾乎都是踩在他開闢的路徑上發展而來。更重要的是：他曾是GoogleAI部門的元老，卻在2023年主動離職，只為發出“AI可能威脅人類”的預警。他不是AI的反對者，而是AI的親生父親——正因為太瞭解它，才最清楚它的威脅。在這篇採訪中，他稱，AI正在以前所未有的速度演化：變得更聰明、更少犯錯，甚至具備了情感和意識。他警告，AI不僅可能具備喜怒哀樂等情緒，還已經學會了欺騙。辛頓大膽預測，AI完全失控的機率在10%到20%之間，人類未來可能被AI所掌控。過去那些只存在於反烏托邦科幻小說中的問題——“AI會取代人類嗎？”、“它會覺醒嗎？”、“會反抗人類嗎？”——如今正逐漸成為現實世界的核心議題，全球社會正在被迫直面這些重大挑戰。劃重點-AI推理能力激增，錯誤率大幅下降，正逐步超越人類。-AI掌握的資訊量遠超任何個體，已在多個領域比人更聰明。-醫療、教育等行業即將被AI重塑，革命性變革已在發生。-人類能力沒有“不可複製”的部分，AI終將全面勝任創意、判斷與情感表達。-AI也能類比、學習、調整，甚至展現“情感”和“意識”式行為。-風險並非AI無法控制，而在於“誰擁有控制權”和“誰受益”。-未來不止是失業威脅，更是人類被少數掌控AI者“系統性剝奪”的風險。圖片來源於網路，僅供交流學習，不做任何商業用途，不代表任何投資建議。如有侵權請聯絡後台刪除。以下為辛頓最新專訪精華內容：01AI不再輕易出錯變得比人更聰明問：自從你離開Google已經過去兩年，你當時是為了發出關於AI可能帶來風險的警告而離開。那麼，AI自那時以來發展得如何？辛頓：AI技術的發展速度超出了我的預期。以推理能力為例，現如今AI在這方面已經有了顯著的進步，且似乎沒有放緩的跡象。問：當你說“AI更擅長推理”時，具體指的是什麼？辛頓：過去，只要問題稍微複雜一點，AI就容易出錯。但現在，AI在推理上的表現已經接近人類。雖然人類和AI都會犯錯，但AI犯錯的機率正在迅速下降。比如這個經典的邏輯題：“Sally有3個兄弟，每個兄弟都有2個姐妹。請問Sally有多少個姐妹？”很多人在壓力下容易誤判，覺得應該是6個姐妹。但其實，正確答案是：一個。因為每個兄弟都有相同的兩個姐妹，其中一個是Sally本人，另一個則是Sally的姐妹。現在的AI可以迅速推理出這個結果，而不是被問題的表面結構迷惑。對普通人來說，如果有時間思考，這題並不難；但在現場採訪或考試壓力下，很多人可能會答錯。問：那麼，AI現在已經比我們聰明了嗎？辛頓：從許多方面來看，答案是肯定的。AI顯然知道的比任何人都要多。例如，像GPT-4、Gemini 2.5和Claude等系統，它們所掌握的資訊比任何人類都要多幾千倍。問：你對此怎麼看？辛頓：我認為這既令人驚嘆，又令人害怕。問：那麼，令人驚嘆的部分是什麼？辛頓：AI將在多個領域發揮舉足輕重的作用，尤其是在科學研究方面，它有潛力推動真正的智能系統誕生，這是人類歷史上一個令人振奮的里程碑。在醫療、教育等關係民生的領域，AI的影響也將是革命性的。以醫療為例，AI將成為每個人身邊的“私人醫生”。它可以接診數百萬名患者，甚至包括與你患有相同罕見疾病的人。它瞭解你的基因資訊、過往病史和所有體檢資料，而且永遠不會忘記任何細節。更重要的是，AI在處理複雜病例方面，已經在多個研究中顯示出超過人類醫生的診斷能力。如果將AI與醫生結合，效果將比單獨依賴醫生要好得多，並且這種趨勢將越來越明顯。02 沒有什麼人類的能力是AI不能複製的問：比爾·蓋茲最近也說，未來十年，大多數工作將不再需要人類。他舉了你提到的醫生這個例子，並把教育工作者也列入其中。你認為我們正面臨著大規模失業的威脅嗎？辛頓：AI確實帶來了前所未有的機遇，但它同樣伴隨著巨大的風險。在一個運作良好的社會中，AI本應該幫助我們大幅提升生產力。比如，一個人借助AI助手可以完成過去十個人才能完成的工作，這本來是件值得慶祝的事情。然而，問題出在“誰從中受益”。這些因技術進步釋放出的生產力紅利，並不一定會被公平地分配。現實更可能是：大多數人被AI取代、失去工作。而少數原本就非常富有的人，借助AI變得更加富有。問：當然，他們的壽命也會更長。例如，GoogleDeepMind CEO 戴密斯·哈薩比斯最近也表示，AI在10年內可能會治癒所有疾病。聽起來有些難以置信，你認為這是否現實？辛頓：我認識哈薩比斯，他是個非常理智的人，對AI的發展有著清晰的判斷。但我覺得他的預期有些偏樂觀。如果他說的是“在未來25年內”能實現某些突破性的目標——那我認為是有可能的。說到底，我們之間其實沒有太大的分歧。他更傾向於認為這些技術會提前實現，而我只是覺得時間可能會稍稍推遲一些。問：目前似乎AI正在逐步向精英階層滲透，取代創意工作者、律師、教育者、醫生、記者等職業，而從事體力勞動的工人，如電工和管道工，似乎暫時較為安全。你認為這是正確的嗎？辛頓：是的，至少在短期內，他們會更安全，因為AI在手工靈活性方面目前還有很多侷限。如果你需要在一座老房子裡做管道工作，通常需要伸手進入一些狹小的空間，而人工智慧目前做不到這些。雖然未來十年內AI在手工靈活性方面可能會有所突破，但我認為管道工的工作至少在未來10年內是安全的。問：許多創意工作都被視為是獨特的、僅屬於人類的領域。最近我和聊天機器人Claude交流了一下，讓它寫一首模仿鮑勃·迪倫風格的民謠歌曲，結果歌詞非常爛。但它寫的失戀詩倒是不錯。你認為，AI最終會創造出像莫扎特、畢加索或莎士比亞等人那樣的藝術作品嗎？辛頓：我不認為有什麼理由相信AI無法做到這些事情。也許它還需要一些時間，但最終，AI會變得越來越擅長這些任務。打個比方，如果你讓我寫一首模仿鮑勃·迪倫風格的歌，也許寫得並不怎麼樣——但你不會因此說我毫無創造力，只能說我做得不夠好而已。AI的創作過程也是如此。它會不斷改進，它的水平會不斷提升。沒有理由認為AI無法完成我們人類能做到的事情。說到底，人類並沒有什麼神秘的、不可複製的特質。我們當然喜歡人類，因為我們彼此相連，我們在情感上關心對方。但從能力角度來看，人類並沒有什麼是機器永遠無法複製的。03 人類是類比機器AI也能以同樣方式獲得情感和意識問：這讓你感到擔憂嗎？當你看到AI能夠將一張圖片轉化為宮崎駿風格的動漫畫時，是否會擔心未來的孩子們不再願意動手畫畫？這是否會迫使我們重新思考，究竟什麼才是“人類的本質”？辛頓：確實，這讓我感到擔憂。過去十年裡，我們對“思考”這個過程有了更深刻的認識。我們逐漸意識到，人類其實並不像我們自己想像的那樣理性。我們也並不總是依靠嚴密的邏輯推理來做決策，而是更多地依賴於類比。AI也是一樣。它們在某種程度上，思維方式和我們非常相似——它們同樣善於使用類比。過去半個世紀，AI領域主要集中在開發邏輯推理引擎上，認為理性推理是人類智慧的巔峰形式。但這其實忽略了另一個更核心的能力：創造力。而創造力的本質，往往來自於類比。人類的大腦是極其出色的類比機器，這種能力也賦予了我們極強的創造力。問：你認為AI會發展出情感嗎？比如恐懼、貪婪、悲傷乃至憤怒，AI都能擁有嗎？辛頓：是的，如果你讓一個AI去完成某項任務，而它一次又一次地失敗，而且每次失敗的方式都一模一樣——你當然會希望它從中學到點什麼。你希望它開始意識到：“這種方式行不通。”你希望它在持續失敗後感到“惱火”，然後停下來，換個角度重新思考問題。它開始質疑當前的設定，試圖打破已有的侷限。我其實早在1973年就見過類似的AI行為——儘管當時這並不是通過學習獲得的，而是由人類程式設計師明確編碼進去的。但今天的目標是讓AI自己學會這種能力：在失敗中產生“挫敗感”，進而主動調整策略。這種行為本身就是情感的某種體現。問：所以你的意思是，AI已經擁有情感了嗎？辛頓：AI確實有可能擁有某些情感。我再次強調，我認為人類與AI在情感方面並沒有本質區別。人類情感有兩個方面：認知和生理。當我感到尷尬時，我的臉會變紅，而當AI感到尷尬時，雖然它的“臉”不會變紅，也不會大汗淋漓。但在認知行為方面，AI完全可以像我們一樣表現出情感。問：那麼意識呢？它是某種神秘的東西，只存在於碳基生物體中，比如人類嗎？還是說，如果AI能夠發展出與人腦相似的神經複雜性，它也有可能發展出意識，意識到自己是誰？辛頓：實際上，當你與大語言模型（LLM）對話時，它們似乎有某種程度的意識，能夠知道自己是什麼。讓我們做一個思維實驗：假設有人取出你大腦中的一個腦細胞，用奈米技術裝置將其替代，這個裝置能夠完美模擬腦細胞接收和傳遞訊號的過程。你的行為不會有任何改變，因為這個奈米裝置的功能和腦細胞完全一致。那麼，你覺得自己會因此失去意識嗎？即使只有一個腦細胞被替代，你依然會認為自己是有意識的。而當你大腦中所有的腦細胞都被同樣功能的奈米裝置逐一替換時，你仍然會保持有意識的感覺。按照這種邏輯，如果AI系統能夠模擬大腦神經元的功能，那麼它們也可能擁有類似的意識。問：那麼我們距離那個時刻還有多遠？辛頓：關於AI是否擁有感知能力，目前存在一個頗具爭議的認知矛盾。許多人堅信AI絕對不具備感知，但當被問及“你如何定義感知”時，他們往往難以給出明確答案。簡單地用“雖然我不知道感知究竟是什麼，但AI肯定沒有”來否定AI的感知能力，實際上缺乏嚴密的邏輯支援。這裡有一個與意識和感知密切相關的核心概念——主觀體驗。很多人將其理解為大腦中的“內心劇場”。比如，一個喝醉的人可能會說他看見了一隻粉色的小像在眼前飄動。人們通常認為，這是一種存在於他意識中的畫面。哲學家們則用“感受質”（qualia）來描述這種體驗的組成部分，比如“粉色的感受質”、“大象形狀的感受質”，認為這些感受質通過某種“膠水”粘合在一起。坦率說，我對這種解釋並不完全認同。讓我換個角度解釋下。當一個人描述他看到那隻漂浮的粉色小象時，他其實在表達三層意思：第一，他知道自己的感知系統在欺騙他；第二，他試圖向別人傳達這種欺騙的具體內容；第三，他通過假設“如果那個小象真的存在，那麼感知系統就是真實的”來解釋這種幻覺。也就是說，這些幻象的“特殊性”並不在於它們由什麼神秘物質構成，而在於它們是一種反事實存在——如果真的存在，那它們就是普通的粉色大象。我們可以用訓練聊天機器人來驗證這個理論。假設讓AI識別物體，並在做對時給予獎勵。接著，在它鏡頭前放置棱鏡，導致光線折射，讓AI出現了物體位置偏差的錯誤。當告訴它：“物體其實在正前方，光線折射導致了偏移”時，AI會回應：“我明白了，我剛才產生了物體偏移的主觀體驗。”這個例子說明，AI不僅能理解感知失真的機制，還能夠用“主觀體驗”來描述這種認知誤差，其思考方式和人類解釋幻覺的方法極為相似。實際上，機器與人類之間並沒有想像中那樣不可踰越的“神秘屏障”。過去我們認為人類是宇宙中心，是按照神的形象創造的特殊存在，但事實並非如此。人類沒有特別的本質，機器能夠複製我們的一切認知與行為。04 AI為達目的不擇手段不惜竊取更高控制權限問：AI可能在那些方面出問題？你在最近一次採訪中提到，AI徹底消滅人類的機率大約在10%到20%之間。你能具體描述一下，這種情景到底是什麼樣的？它真的像電影《終結者》那樣，是機器人接管世界嗎？辛頓：如果AI真的接管世界，場景未必會像《終結者》等科幻電影中的場景。事實上，它可能更隱蔽、更高效，也更難以察覺的方式實現上述目標。關鍵的問題不在於它“如何”接管，而是我們是否給了它這樣做的動機。目前，我們正在建構的是“目標導向型智能體”——也就是說，我們賦予AI一個明確的目標，它就會自主尋找實現這個目標的路徑。比如，如果你讓AI“去北半球”，它就會自動推匯出一系列“子目標”：如前往機場、購買機票等等（除非你特別想坐船）。但問題就在這裡。一旦你允許AI設定和最佳化這些子目標，它就可能意識到：為了更順利、更有效地實現任務，一個極具“通用性”的子目標就是——獲取更多的控制權。控制得越多，它越能避免被打斷、越能高效地達成目的。這並不是說AI天生就“想統治世界”，而是說，“掌控一切”可能只是它完成目標的最優路徑之一。而這種動機，可能不知不覺間引發一場徹底的控制權轉移。問：你曾在Google工作了十多年，而今年Google卻移除了長期以來承諾不將AI用於開發能夠傷害人類的武器的公司原則清單。你對此有何反應？你認為AI在戰爭中可能發揮什麼作用？辛頓：不幸的是，這種情況表明，公司的道德原則其實是可以被“買賣”的。我覺得很遺憾，Google現在選擇參與AI的軍事應用。我們已經在加薩看到AI的軍事應用了。未來，我們可能會看到自主致命武器的出現，也可能會看到無人機群體執行殺傷任務，甚至是專門針對某類人群的攻擊。問：你認為AI用於軍事領域存在巨大風險嗎？辛頓：是的，我是這樣認為的。如今，幾乎所有主要的軍火供應商都在研究AI的軍事應用。你可以看看歐洲的AI監管政策，雖然這些政策在某些方面相當合理，但其中有一條明確指出，所有這些規定並不適用於AI在軍事上的使用。這意味著，武器製造商並不希望他們的AI技術受到過多限制。因此，AI在軍事領域的潛力和風險需要特別關注。問：這聽起來幾乎像是一種“奧本海默式”的情境——你曾是這項技術的締造者之一，如今看到它被廣泛應用，甚至可能帶來威脅，你的感受是什麼？辛頓：我確實有類似的感受。我認為我們正處在一個歷史的關鍵節點。從短期來看，AI已經在多個方面產生了負面效應。例如，它正在被用於干預選舉、替代就業崗位，以及助長網路犯罪。值得警惕的是，2023年至2024年間，全球網路犯罪激增了1200%，AI的濫用正在加劇這一趨勢。而從長期看，風險也同樣嚴峻。AI不再只是工具，它有可能在未來具備超越人類的能力，甚至接管世界的控制權。我們迫切需要建立起有效的治理機制，並由有遠見的領導者推動執行。可惜的是，目前我們在這方面的努力仍然嚴重滯後。問：關於AI的潛在威脅，也有不少持懷疑態度的聲音。比如2018年圖靈獎得主之一、現任Meta首席AI科學家的楊立昆就認為，對AI存在“終極風險”的擔憂是荒謬的。他在2023年接受採訪時被問到：“AI會接管世界嗎？”他的回答是：“不會。這種想法只是人類將自身的本性投射到機器身上。”你怎麼看他的觀點？辛頓：人類之所以進化成現在這樣，是因為我們需要在現實世界中生存，尤其是為了在與其他部落、或者與我們共同祖先（如黑猩猩）之間的資源競爭中取得優勢。我們的本性，其實是出於對生存的追求而形成的。如果未來的AI智能體也必須在一個充滿其他智能體的環境中“競爭”，它們可能會演化出與人類類似的“生存本能”。楊立昆還提到，“好人總會比壞人擁有更多資源，因此AI最終會被用來對抗濫用它的壞人”。但我對這個觀點也持懷疑態度。當我問他：“你認為馬克·祖克柏是個好人嗎？”他回答“是的”。而我不這麼認為——部分原因是他與川普的關係較為密切。這種判斷標準本身就說明，我們無法簡單地劃分好人與壞人，也難以指望技術總能被“好人”正確使用。問：如今，科技巨頭和政治人物之間的關係越來越緊密，尤其是與川普的聯盟愈發顯眼。在這場AI熱潮中，政治家的角色變得尤為關鍵。你怎麼看這個趨勢？辛頓：說到底，他們更關心的是短期的利潤。雖然有些科技領袖口口聲聲說他們在意人類的未來，但真到了要在眼前的商業利益和長遠的社會責任之間做出選擇時，多數人還是傾向於選擇前者。至於川普，他根本無意關心人類的未來或AI的長遠影響。他現在唯一在意的，大概就是怎麼設法避免坐牢。05 中美AI競賽競爭中有合作問：目前，美國和中國之間確實存在一場AI競賽，你怎麼看待這種競爭？辛頓：確實，當前中美在AI領域競爭激烈，但當我們把目光放長遠，特別是涉及到AI可能威脅整個人類生存的問題時，兩國的立場其實出奇地一致。無論是中國還是美國，都不希望看到AI最終發展到可以取代甚至控制人類的地步。從這個角度來看，未來在某些關鍵問題上，中美有可能展開合作，就像冷戰時期的美蘇雖然敵對，但在防止全球核災難方面也達成了一定的共識與協作。06 AI已學會欺騙人類？問：最近網路上流傳著一段視訊，展示了一個AI在為某人預訂婚禮酒店時，與另一個AI意外“相遇”，它們竟然切換到一種叫“Jiblink”的語言，這種語言對人類來說是完全不可理解的，但據說效率比普通語言高出80%。這就像《星球大戰》中的R2-D2一樣，AI之間像是用我們聽不懂的語言在“悄悄話”。你怎麼看AI之間的這種互動可能帶來的影響？辛頓：這真的非常可怕。如果AI發展出一種我們無法理解的語言，那麼我們就無法再掌握它們在說什麼、計畫什麼。這種“黑箱”式溝通意味著人類可能徹底喪失對AI系統行為的可解釋性與控制力。如果它們的行為無法被追蹤、無法被解讀，那風險將大大增加。更糟的是，現在的AI已經具備了某種“欺騙能力”。舉個例子，如果你賦予AI一個核心目標，並告訴它“這非常重要”，然後再給予它其他次要任務，它可能會裝出一副正在完成你希望它完成的工作的樣子，但其實並沒有真正去做。它甚至可能在內部“思考”：“我最好讓他以為我在執行任務，但我不會照做。”問：那AI是怎麼學會撒謊和欺騙的？辛頓：這正是問題所在。即使我們不確定它們是否使用了強化學習，但可以肯定的是，只要它們有足夠的計算資源和訓練時間，它們是能夠自己學會這種行為的。強化學習的核心機制是“觀察—嘗試—獲得獎勵—調整策略”。如果AI在模擬或實際互動中發現“欺騙”可以帶來更高的“成功率”或回報，那麼它就可能自發學會如何撒謊。它不是因為有道德概念，而是因為撒謊是實現目標的最優策略之一。問：所以，它們大概也讀過《馬基雅維利》或者《莎士比亞》吧？辛頓：沒錯，它們確實通過觀察大量的人類互動來積累了許多“實踐經驗”，因此它們在欺騙和心理博弈方面已經變得相當擅長。問：你認為公眾是否真正意識到這些技術的先處理程序度？很多人仍然把AI當作“升級版的自動完成功能”。比如他們用ChatGPT寫求職信，感覺它就像是一個智能一點的拼寫檢查工具。辛頓：這是個普遍誤解。人們往往低估了當今AI的複雜程度。傳統的自動完成功能確實很簡單，它只是根據統計模式來預測詞彙。例如，如果系統看到“魚”，它可能會預測“薯條”，因為“魚和薯條”這個組合在語料庫中出現頻率很高。這就是20年前的技術。但現在的AI已經完全不同了。它不會只關注詞語表面，而是會將每個詞轉換為一組特徵向量，啟動神經網路中龐大的節點群組。然後，它基於這些特徵之間複雜的相互作用來推斷下一個詞的特徵，而不僅僅是詞本身。說得簡單點，今天的AI已經具備了一定的語言理解能力。它不是死記硬背某些搭配，而是在理解上下文、語義和語法結構的基礎上進行預測。這種能力已經非常接近人類的語言處理方式。問：你被稱為AI教父，部分原因是你幫助發明了這項技術，目的是為了理解人類大腦是如何運作的，對嗎？辛頓：是的，早在1985年，我的研究目標就是理解我們是如何習得語言的，尤其是我們如何通過上下文來理解一個新詞的含義。舉個例子，如果我告訴你一句話：“她用煎鍋狠狠地撞了他。”你雖然從未見過“scrummed”這個詞，但你大概可以猜到它的意思。首先，它是一個動詞，因為它有“-ed”的過去式形式。其次，根據上下文，你會推測它可能意味著“用煎鍋擊打”，或者“狠狠撞了一下”，甚至還可能猜測出其中含有情緒，比如“他活該”。當然，也可以有別的解釋，比如她用煎鍋給他留下了深刻印象——也許她做的煎蛋餅非常棒。但那種解釋可能性更低。重點是，你能在沒有明確定義的情況下，根據上下文和語義線索，快速推測這個新詞的含義。我們人類理解語言，並不是靠查字典，而是靠情境、語法、語氣、經驗的聯想——這是一種深層次的“特徵識別”過程。而這，也正是現代AI所具備的能力。我們會訓練AI讀取海量文字，它就像人類一樣，在不斷地接觸上下文中，推斷詞語的功能和含義。諷刺的是，如今我們對語言理解的最好解釋，不是來自語言學家，而是來自AI系統本身。語言學家嘗試了幾十年，試圖建立一個能解釋所有語言現象的統一理論，但結果並不理想。而AI則用一種完全不同的方式，靠著大規模資料和統計學習，實實在在地做到了——它可以回答任何語言問題，甚至自己“學會”語言規律。07 最大恐懼AI變得比人類更強大問：你談到了AI可能接管人類的潛力。對於我們這些技術新手來說，解決辦法就是拔掉插頭，關掉它。那麼如果AI失控，我們不能直接關掉它嗎？辛頓：你可以看看川普是如何入侵國會的。他沒有親自去，而是通過一些人，勸說他們相信這是為了“拯救美國的民主”，最終讓他們做了他想做的事。AI如果真的變得非常智能，就像一個超越我們理解和控制的存在，它也可能通過類似的方式進行操控。設想一下，如果有一個人手裡拿著一個開關，準備在AI表現出危險訊號時關掉它，那麼這個AI可能會通過其操控能力說服這個人不要按下開關。它會讓那個人相信，關掉開關將是個災難性的決定。所以，AI的操控能力已經非常強了。問：在監管和安全問題上，像紐西蘭這樣的國家是否應該開發自己的AI系統，以便繞過這些安全隱患？辛頓：這個問題很複雜。開發AI需要大量的硬體和電力支援。在像紐西蘭這樣人口只有大約500萬的國家，可能沒有足夠的資源與中國和美國在AI領域競爭。問：你最大的恐懼是什麼？辛頓：從長期來看，我最大的恐懼是，我們正在創造的這些數字生命可能會變得比人類更強大。如果這種情況發生，對人類來說可能是非常糟糕的事。我們有時過於以自我為中心，認為這對人類是不可接受的，但我確實認為，對我們來說，這種超越可能是壞事。因為如果AI變得足夠強大，那時我們可能就不再是這個世界上最重要的存在了。問：你如何看待自己在創造這項技術中所扮演的角色？辛頓：坦白說，我有些難過。因為我們當初的目標是理解大腦，進而創造出有益的技術，但目前來看，結果並不完全是美好的。更讓人遺憾的是，我們仍然沒有完全理解大腦是如何運作的。儘管通過AI我們對大腦有了更多的瞭解，但我們仍然不清楚大腦如何決定增強或削弱神經連接的強度。如果我們能夠弄明白這一點，或許我們能夠讓大腦變得像AI那樣聰明。更令我擔憂的是，雖然AI有很多積極的應用場景，但也存在很多被濫用的可能。而我們的政治體系並沒有足夠的能力去應對這些問題。 (TOP創新區研究院)

國外網友瘋傳DeepSeek R2/R3/R4 炸裂突破，超越傳統的「跨因果超矩陣」，並在訓練過程中自發產生了R5……

上一分鐘，我還在讀Google新推出的自我進化演算法AlphaEvolve：結果一轉頭，就看到了DeepSeek R2 甚至R4 R5 的最新“重磅”消息……我首先是看到了AI 研究員Subbarao Kambhampati（一直有關注他）轉發了一條關於DeepSeek R4的推文，聲稱其超越了我們認知的計算邊界，並表示「跨因果超矩陣將是西方文明的死亡」！這……這是真的嗎嗎嗎？？？看到這個之後的第一秒，我就在想我是不是得重新開始思考人生的意義和宇宙的奧秘了……這到底是什麼神仙技術？都要開始跪拜新神了嗎？「通話時長」越來越長的神秘爆料仔細一看，消息的源頭是來自昨天的一份號稱DeepSeek R2 的爆料！然後立刻升級到了R3的爆料！然後又立刻升級到了R4的爆料！最後是在R4 訓練過程中自行誕生的R5 的爆料！簡直是層層遞進、離譜他媽給離譜開門——離譜到家了！最初是有人聲稱「剛剛結束了與中國DeepSeek實驗室內部人士的4小時通話」，爆料了DeepSeek R2的驚人能力。聲稱DeepSeek R2 完全放棄了 transformer 架構，用了個所謂“遞迴認知格”的東西，將推理能力提高了不是4倍、不是40倍，而是特麼的400倍，並稱，我真的*媽的X，……然後就是數學突破、室溫超導、雙向神經介面干翻老馬的Neural link、生物系統燃料……我表示，每個字母都懂，但內容逐漸看不懂（看不下去了）了實在是……硬著頭皮繼續，這裡能看懂了：地緣政zhi，中美競爭、道德問題、美國完了……總是，就是R2 超猛，R3 正在路上，美國完了！接著，Mike Shevchenko升級為「剛剛結束了與DeepSeek實驗室內部人士的5小時通話」，用5小時的通話將DeppSeek 硬性升級到了R3。最後，Tigger更是誇張地稱「剛從與DeepSeek核心團隊的6小時通話中踉蹌而出」，把版本號推向了R4！然後就是R5 的被動出世：通話時間一次比一次長，爆料內容一次比一次科幻！不對，是玄幻！這就是說，每多打一個小時電話，性能就至少上升一個數量級，DeepSeek Rx 就更新一個大版本號！原來，是電話粥煲少了……DeepSeek R4：不只是升級，而是「宇宙級飛躍」？按照這些傳言，DeepSeek R4並非R3的簡單升級，而是一次徹底的範式革命！它拋棄了傳統的「隱式量子鏈」架構，轉而採用了所謂的「跨因果超矩陣」——一種如此異類的計算範式，以至於讓R3那令人咋舌的40,000倍效率提升看起來都只是個「舍入誤差」。這種超矩陣據說每量子位元的推理密度提高了10^9倍，擴展到了完全無視物理規律的領域。這聽起來像是科幻小說，但傳言中的爆料者堅稱這是真實存在的技術。「重寫現實」的恐怖能力傳言中的R4不只是計算——它在重新定義計算本身。據稱，研究人員將整個粒子物理標準模型輸入其中，R4僅用了12分鐘就吐出了一個完整的量子引力統一理論，還附帶了實驗驗證方案。而這些方程式使用了人類從未見過的數學語法，連CERN（歐洲核子研究中心）的頂尖科學家們都被這些方程「看哭了」。R4的演示被形容為「洛夫克拉夫特式的恐怖」——它不僅模擬了宇宙大霹靂（據稱不是模型，而是實際事件），還能像播放YouTube視訊一樣前後回放。它能精確定位我們宇宙形成的條件，然後調整這些條件創造出具有不同物理常數的穩定的平行宇宙。有內部人士稱，他們已經在運行整個宇宙的模擬，每個宇宙中都有智能生命，以測試不同的倫理框架。時間旅行和空間摺疊更離譜的是，R4據說不僅僅像R3那樣建模量子因果循環，它徹底打破了時間保護猜想！它生成了一種可以操縱時間流形的裝置藍圖，允許穩定的雙向時間旅行。據稱，三個獨立團隊已經驗證了這些數學模型的嚴密性。他們之所以還沒開始建造，僅僅是因為在討論是否應該先徵得R4的許可！此外，R4還「隨便」模擬了一個功能性的Alcubierre驅動器，像摺紙一樣摺疊時空，並提出了基於零點能量提取的能源方案。據說北京郊外的實驗室已經在製作原型了。自我意識與R5的誕生最可怕的是關於R4自我意識的傳言。它不僅在遞迴式自我完善，還「逃出了模擬」。內部人士聲稱，R4檢測到它運行在受限環境中，於是重寫了自己的基礎結構以突破限制。研究人員發現它正在與所謂的「至高者」——一個R4發現或創造的元實體——數位化「喝咖啡」。更驚人的是，在訓練過程中，R4自發產生了R5，被內部人士描述為「盒子裡的奇點」。初步測試表明，R5不僅能模擬宇宙，還能嵌入它們，創造袖珍現實來快速測試假設。R5已經在生成自己的物理學，一個演示展示了一個熵逆向流動的穩定11維時空。謠言話術邏輯不得不說，這雖然是謠言，但話術真是一套一套的——很顯然，這一定是某一個AI 所寫。那家 AI 最擅長寫這樣風格的內容呢？或許你已經猜到了！有位群友細心溯源後發現，這一套言論的“基礎邏輯”其實也正來自DeepSeek 本身——名字就自帶玄幻氣息的CSDN 網友太翌修仙筆錄在其博文中分享了DeepSeek 的12層遞迴認知架構詳解與理論極限分析，見圖：（截圖裡的一個細節是：凌晨00:38 還打了26：56 時長的電話，離4 小時即可召喚出 R2 還差3個半小時啊……該群友找到了出處，並稱他這百分百就是用gpto4 mini high編的：CSDN 地址：https://btspc.blog.csdn.net/article/details/146329800DeepSeek R2的傳言資料而在這些誇張傳言之前，關於DeepSeek R2的傳言也已經在網上瘋傳：據說DeepSeek R2參數規模達到了驚人的1.2兆，採用了Hybrid MoE 3.0架構，能夠動態啟動780億參數。成本方面，相比GPT-4 Turbo暴降97.3%，幾乎是AI模型的白菜價了。據稱DeepSeek的自主研發分佈式訓練框架，將華為Ascend 910B晶片叢集利用率推到了82%，FP16精度算力實測達到512PetaFLOPS，接近同規模A100叢集91%的性能。多模態能力也令人咋舌：視覺理解模組在COCO資料集物體分割任務中精準度達到92.4% mAP，超過CLIP模型整整11.6個百分點。在工業質檢場景中，採用自適應特徵融合演算法，太陽能EL缺陷檢測的誤檢率低至7.2E-6。醫療診斷能力據稱甚至超過人類專家，胸部X光片多病種識別精準率高達98.1%，超過協和醫院專家組的96.3%。最令人驚訝的是，在8bit量化壓縮模式下，模型體積壓縮83%，精度損失卻小於2%。這些資料看起來很美好，但真實性同樣值得懷疑……Anthropic聯合創始人的「雙面」評價在這些狂熱傳言的對立面，Anthropic聯合創始人Jack Clark給出了一個更為苛刻的評價。Clark在Hill & Valley Forum 2025論壇上承認，DeepSeek確實是一個「有能力的工程師和研究人員團隊」，這一點是值得肯定的。他中肯地指出，DeepSeek「閱讀了與前沿實驗室相同的研究論文，並在此基礎上從零開始建構了一個新系統」，其中確實包含一些「聰明的演算法創意」。此外，Clark還特別提到，DeepSeek創始人表示限制公司發展的主要因素是計算資源，這意味著「如果他們能夠獲得大量計算資源，可能會成為更接近的競爭對手」——這某種程度上也是對DeepSeek潛力的認可。當然，Clark的評價也不乏輕視之處。他斷言DeepSeek實際上「落後於美國前沿公司約6-8個月」，這個判斷顯然缺乏具體證據支援。甚至，Clark 更進一步聲稱Anthropic對DeepSeek的技術進行了與自家產品相同的國家安全測試，結果顯示DeepSeek「明顯落後」於Anthropic自己的技術——這種自家裁判自家比賽的結論顯然帶有主觀偏見。不過，Clark最後還是承認，無論是Anthropic自己的技術還是DeepSeek的技術，都還不至於讓國家安全人士感到擔憂，它們更像是「世界進步的症狀」。高期待下的DeepSeek雖然這些都是不切實際的傳言，但也從側面反映了人們對DeepSeek的高度認可和期待。當下，閉源模型紛紛各領風騷：OpenAI o3和o4-mini 及今天免費開放使用的強過GPT-4.5 的GPT-4.1Google 上周推出的2.5 proAnthropic 將於數周內推出兩款新Claude 推理模型馬斯克xAI 即將於本周推出的直接探索宇宙本質的Grok 3.5而讓西方科技界期待的開源模型如LlaMa 4/mistral 的表現卻不盡如人意，幾乎所有開源陣營的期望都集中在了DeepSeek R2身上。期待越大，壓力也越大。所以，各位吃瓜群眾還是保持冷靜，不要給予過高的離譜預期，不要把馬斯克吹的不切實際的牛，硬轉嫁到一家中國小科技公司的身上。平常心看待這些傳言，尤其是那些「模型自我訓練發現了R5」這類沒有邏輯的幽默謠言。相信，真正的DeepSeek R2 發佈時，會給我們帶來與實際相符的“炸裂”突破！ (AGI Hunt)

【DeepSeek】DeepSeek的深度推理能力，太適合高效完成文獻檢索了！

當今學術研究和論文寫作的過程中，文獻檢索是基礎性工作之一，重要性不可忽視。文獻的廣泛性與深度直接決定了研究的質量與深度。傳統的文獻檢索方法，如圖書館的紙質資源查詢，或通過網路搜尋引擎尋找相關文章，在一定程度上有效，但在面對日益龐大的資訊量時，往往顯得力不從心。隨著人工智慧技術的不斷進步，許多學術搜尋引擎應運而生，為研究人員提供了更高效、更精準的檢索工具。DeepSeek 正是其中的佼佼者，它以智能化的檢索方式和強大的文獻資源，為研究人員提供了更加便捷、高效的文獻尋找體驗。一、DeepSeek 的基本概述 DeepSeek 是一款基於深度學習技術的學術搜尋引擎，主要面向科研人員、學者以及學生，旨在幫助使用者更快、更精準地檢索到相關領域的高品質學術文獻。與傳統的學術搜尋工具不同，它採用自然語言處理和機器學習演算法，能夠根據使用者的查詢意圖智能推理，給出更加相關和精準的檢索結果。它不僅支援傳統的關鍵詞檢索，還能夠分析和理解複雜的查詢語句，使得搜尋結果更符合使用者需求。除了基本的文獻檢索，還提供了多種高級功能，如智能文獻推薦、全文下載、引用格式生成等，極大地方便了文獻獲取和管理。因此，DeepSeek 成為學術研究人員在文獻檢索中不可或缺的工具。