#多模態
DeepSeek多模態上線開源:給AI裝上"數字手指",視覺推理碾壓GPT-5.4
DeepSeek正式發佈多模態大模型及技術報告《Thinking with Visual Primitives》。同日,GitHub開源上線,網頁端與App端"識圖模式"灰度發佈。5月1日,核心技術免費商用。這意味著什麼?DeepSeek首次在多模態領域拿出主戰場級成果,提出了一個被長期忽視的根本問題:"看見"和"指准"是兩件事。01. 從"看不見"到"指不准":多模態的真正瓶頸給GPT-5.4一張密集人群的照片,問"圖裡有多少人",它很可能數錯。給Claude Sonnet 4.6一張複雜迷宮圖,問"從起點到終點有沒有路",正確率接近50%——和擲硬幣差不多。圖:傳統多模態模型在複雜視覺任務中容易"指錯對象"這不是模型"看不清"的問題。它們能識別出圖片裡的每個元素,但一旦開始用語言"思考",邏輯就崩了。你說"左邊那個紅色的",在擁擠的場景裡,這個"紅色的"到底指那一個?模型的注意力在推理過程中像沒拴住的船,慢慢漂移,最後得出錯誤結論。DeepSeek將這個問題命名為"指代鴻溝"(Reference Gap):看見和能說清楚在說那個,是兩件完全不同的事。業界此前的思路,是讓模型"看得更清":提高圖片解析度、動態切割分塊。這解決的是"感知鴻溝"(Perception Gap)——確保模型能看見細節。但論文指出:感知能力再好,也無法解決"指不准"的問題。02. 視覺原語思考:給AI裝上"數字手指"DeepSeek的解法簡單粗暴:讓模型"邊想邊指"。它不再只用文字思考,而是把點坐標和邊界框變成了思維鏈的基本單位。圖:AI在推理過程中同步輸出坐標,像人"用手指著思考"舉個例子,它的思考過程會這樣呈現:找到一隻熊[452,23,804,411],正在爬樹,排除。再往左下看,找到另一隻[50,447,647,771],站在岩石邊緣,符合條件。這裡的坐標不再是事後標註的答案,而是推理過程中消除歧義的空間錨點。每提到一個對象,就用一個"圖釘"把它釘死在圖像的物理位置上。這套機制有兩種"視覺原語"(Visual Primitives):邊界框(Bounding Box):用於錨定對象,定位物體範圍。適合計數、屬性對比、多物體空間推理。點坐標(Point):用於追蹤軌跡,描畫路徑。適合迷宮導航、曲線追蹤等連續空間描述任務。03. 7056倍壓縮:極致的效率藝術讓模型每一步思考都帶坐標,聽起來計算量會爆炸。但DeepSeek通過壓縮稀疏注意力(Compressed Sparse Attention,CSA)機制,實現了極致的效率。圖:7056倍壓縮流程示意架構基於DeepSeek V4-Flash:284B總參數,13B啟動參數(MoE架構)。視覺壓縮流程:① 圖片經ViT處理,生成2916個圖像塊token② 3×3空間壓縮,合併為324個token③ CSA機制壓縮4倍,最終只剩81個視覺KV條目端到端壓縮比:7056倍。論文的核心論點:不需要"看更多",而需要"指更準"。04. 跑分屠榜:在"最難"的題上碾壓對手在11個benchmark橫評中,DeepSeek展現了強大實力。圖:11個基準測試性能對比最具代表性的差距出現在拓撲推理上:迷宮導航任務中,GPT-5.4、Claude、Gemini的正確率在48.9%至50.6%之間——幾乎就是在隨機猜。DeepSeek達到66.9%,提升約17個百分點。模型解迷宮時會一邊走一邊把當前位置point出來,遇到死路就回溯,一步步走出來的。這種"邊推理邊落點"的形態,是純語言CoT做不到的。05. 訓練哲學:先專家化,後統一DeepSeek的訓練策略可以用一句話概括:先讓專家各司其職,再合併成全科醫生。圖:從專家模型到統一模型的訓練流程預訓練階段:團隊從近10萬個目標檢測資料集中篩選,經過語義稽核和幾何質量稽核,最終保留約3.17萬個高品質資料來源。生成超過4000萬條訓練樣本,覆蓋計數、空間推理、迷宮導航、路徑追蹤四類任務。冷啟動資料設計:團隊故意構造了一批"看似可解實則不可解"的迷宮。破壞點放在中段而非起終點附近,逼模型完整搜尋而不是憑直覺判斷。專門化訓練:先分別訓練邊界框專家和點坐標專家兩個"專科醫生"。經強化學習最佳化後,通過線上策略蒸餾合併為統一模型。RL階段還有一個細緻設計:訓練資料按N次rollout的正確數分Easy/Normal/Hard三檔,只用Normal檔訓練。06. 開源與時間線:48小時完整動作閉環這次發佈的節奏乾淨利落,48小時內完成全域覆蓋。圖:DeepSeek多模態GitHub開源倉庫4月29日:DeepSeek多模態組負責人陳小康在X平台發佈"Now, we see you"預告,暗示識圖功能即將上線。4月30日:GitHub正式發佈模型權重+技術報告《Thinking with Visual Primitives》,網頁端/App端灰度上線"識圖模式"。5月1日:核心技術開源,免費商用,引發全球開發者熱議。開源策略:無隱藏後門、無強制雲端繫結、無商用額度鎖。開發者僅需基礎適配硬體,即可完成本地離線完整部署。值得注意的是,論文曾短暫被刪除後恢復。有分析認為可能因技術細節曝光度較高,團隊進行了內容稽核調整。此外,模型同步完成輝達通用算力、華為昇騰國產算力雙生態深度適配最佳化,兼顧效率與安全合規。07. 侷限與展望:多模態競賽的新起點論文坦誠列出了當前的三條侷限:圖:多模態AI的未來發展方向第一:坐標精度有限。極細粒度場景(如數手指)下,視覺原語的輸出可能不夠精確。第二:需要觸發詞啟動。"用視覺原語思考"的能力依賴於顯式的觸發詞才能啟用。第三:泛化能力待提升。跨場景的通用性仍在探索中。但從更宏觀的視角看,這篇論文標誌著多模態競賽從"廣度"轉向"深度"。別人卷"看更多像素",DeepSeek這次卷的是"看更少像素,但思考時手指點得更準"。競爭焦點正在從"看更多像素"轉向"指更準坐標"。DeepSeek產品矩陣趨於完整:快速模式+專家模式+視覺模式。低價策略極可能延伸至多模態,掀起新一輪價格戰。從純文字強者到多模態全能選手,DeepSeek用硬核技術打破行業痛點,補上國產AI關鍵短板。這不僅是DeepSeek的里程碑,更是國產AI從單點突破到全面開花的新起點。 (熱火AI)
DeepSeek連夜刪掉的新論文,到底說了什麼
昨晚 DeepSeek 多模態研究員陳小康在 X 上發了一條推,並公佈了DeepSeek 關於多模態技術的新論文《Thinking with Visual Primitives》,表示「Excited to release」。今天一早,推文刪了,GitHub 上的論文也撤了。但 APPSO 在它消失之前把全文讀完了。讀完之後覺得,這篇論文被撤可能不是因為內容有問題。恰恰相反,它可能透露了太多了。前天我們剛實測完 DeepSeek 的識圖模式,讓它數手指,它思考了一通,自己吐槽「我真的是數暈了」,然後答錯了。當時以為是灰測階段的小問題。這篇論文告訴我們,數手指數暈這件事,背後藏著一個 GPT、Claude、Gemini 集體沒解好的技術瓶頸。而 DeepSeek 給出的解法,說出來幾乎有點可笑的樸素:給 AI 裝一根手指。陳小康在那條推文裡寫道:「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」「傳統的思維鏈停留在語言空間裡,但視覺推理需要更多。通過使用點和框作為認知錨點,我們的模型彌合了「引用鴻溝」,模擬了人類「邊指邊想」的協同機制。」看得清和指得準,是兩回事目前所有多模態大模型做圖像推理,本質都是把看到的畫面轉化成文字,然後在文字空間裡做思維鏈推理。GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash,全是這個路子。過去兩年,OpenAI、Google、Anthropic 的改進方向集中在一個問題:怎麼讓模型看得更清楚。高解析度裁切、動態分塊、把圖片放大再塞進去。DeepSeek 管這個叫 Perception Gap,感知鴻溝。但這篇論文指出了另一個瓶頸:Reference Gap,引用鴻溝。模型看清了,但在推理過程中沒法精確指向圖中的某個東西。你可以這樣理解:一張圖裡 25 個人密密麻麻站在一起,你用語言去描述「左邊第三排穿藍色球衣那個人旁邊的那個」,描述本身就是模糊的。模型數著數著就丟了上下文,忘了剛才數到誰。人類怎麼解決這個問題?夠原始的:伸出手指,指一個數一個。284B 參數的模型,裝上了一根手指DeepSeek 的方案:讓模型在思考過程中直接輸出圖片上的坐標。想像一下,模型看到一張圖裡有很多人,它的思維鏈不再是「我看到左邊有個穿藍衣服的人」,而是「我看到這個人」然後附上一個框的坐標,把人圈出來。每數一個人就圈一個框,圈完之後數框的數量就行了。兩種坐標格式:一種是框(bounding box),畫個矩形把物體圈住,適合標定物體位置;一種是點(point),在圖上戳一個位置,適合追蹤路徑和走迷宮。DeepSeek 管這兩種東西叫「視覺原語」,最小的思維單元。關鍵變化在這裡:以前模型輸出坐標是作為最終答案(「目標在這裡」),現在坐標嵌入了思考過程本身。坐標是草稿紙上的標記,不是答捲上的答案。把一張圖壓縮 7056 倍,然後還能數清楚裡面有幾個人模型底座是 DeepSeek-V4-Flash,一個 284B 參數的 MoE 模型。MoE 的意思是:模型腦子很大,但每次回答問題只呼叫一小部分神經元來幹活,推理時只啟動 13B 參數。類似於一個百人團隊,每個任務只派 5 個人上場。視覺編碼器這邊,做了三級壓縮。打個比方:你有一張照片要發給朋友,網速很慢。第一步,你把照片切成小方格備用;第二步,每 9 個小方格合併成 1 個(3×3 壓縮);第三步,再在傳輸時進一步精簡掉冗餘資訊(KV Cache 壓縮 4 倍)。實際數字:一張 756×756 的圖,57 萬像素,一路壓下去變成 81 個資訊單元。壓縮比 7,056 倍。我看到這個數字的第一反應是:這還能看清東西?但論文裡的結果說明,確實能。不光能看清,還能精確數出圖裡有 25 個人。對比一下:同樣 800×800 的圖,Gemini-3-Flash 消耗約 1100 個 token 來表示這張圖,Claude-Sonnet-4.6 約 870 個,GPT-5.4 約 740 個。DeepSeek 在最終計算時只用 90 個資訊單元。別人用一千多個格子來記住一張圖,DeepSeek 用 90 個格子就夠了,然後騰出來的算力全拿去「指」。4000 萬條訓練資料怎麼攢出來的DeepSeek 從 Huggingface 等平台把所有帶「目標檢測」標籤的資料集都爬了下來,初篩得到 97,984 個資料來源。然後做了兩輪篩選。第一輪查標籤質量。用 AI 自動稽核三類問題:標籤是無意義的數字編號(類別名叫「0」「1」的那種)、標籤是私人實體(「MyRoommate」)、標籤是模糊縮寫(工業檢測裡的「OK」「NG」,一個蘋果「OK」和一個電路板「OK」長得完全不一樣,AI 學不了)。這輪砍掉 56%,剩 43,141 個。第二輪查框的質量。三個標準:漏標太多的(標了一半就不標了)、框畫歪了切掉物體一半的、框大到把整張圖都框住的(說明原始資料是圖片分類硬轉成的檢測資料,沒有定位資訊)。再砍 27%,剩 31,701 個。最後按類別採樣、去重,產出超過 4000 萬高品質樣本。DeepSeek 選擇先把框的資料做大,點的資料後面再補。原因也簡單:你讓 AI 標一個框,答案基本唯一(把物體剛好圈住);但讓 AI 標一個點,物體上那個位置都算對,沒有唯一正確答案,訓練訊號太模糊。而且框本身就包含了兩個點(左上角和右下角),學會畫框之後標點就是降維操作。怎麼把「指」這個能力教給模型後訓練的策略是「先分頭練,再合併」。DeepSeek 先拿框的資料訓練一個專門畫框的專家模型,再拿點的資料訓練一個專門標點的專家模型。分開訓練是因為資料量還不夠大,兩種能力混在一起容易互相干擾。然後對兩個專家分別做強化學習。怎麼判斷模型「畫對了框」或「走對了路」?DeepSeek 設計了一套多維度的打分系統:格式對不對(坐標語法正確嗎)、邏輯通不通(思考過程有沒有自相矛盾)、答案准不准(最終結果和標準答案差多少)。強化學習的資料篩選也有講究:先讓模型做 N 遍同一道題,全做對的題太簡單沒訓練價值,全做錯的題太難學不到東西,只留「有對有錯」的題來練。最後一步是把兩個專家的能力合到一個模型裡。具體做法:讓統一模型照著兩個專家的輸出去學,類似於一個學生同時跟兩個老師學不同科目。給了它手指之後,它是怎麼數數的數 25 個人給模型一張足球隊合照,問「圖裡有多少人?」思考過程:先判斷「這是團隊合照,要數所有人,包括球員和教練」。然後一次性輸出 25 個框坐標,每個人身上圈一個框。接著按排數統計:前排坐著 4 個 + 中排 9 個 + 後排 8 個 + 左側 2 個教練 + 右側 2 個教練 = 25。「地上的熊有幾隻?」圖中有三隻熊。模型逐一給每隻畫框並判斷位置:第一隻,在樹幹上垂直攀爬,排除;第二隻,在岩石邊緣走動,算;第三隻,在碎木和泥土間,算。答案:2 隻。不是先數出三隻再減一隻,而是對每隻都做了「是不是在地面上」的判斷,每個判斷背後都有一個具體坐標錨定。它真的在逐個檢查,不是在猜。多跳空間推理一個 3D 渲染場景裡有一堆彩色幾何體。問題:「存不存在一個紫色橡膠物體跟灰色金屬物體一樣大?」模型先框出灰色金屬球體,確認是個小號物體。然後逐一框出場景裡其他小號物體:棕色金屬圓柱、藍色金屬方塊、藍色橡膠方塊、黃色橡膠圓柱……六個物體逐個查,顏色、材質、大小三個屬性一一核對。結論:不存在紫色橡膠的。六次定位,六次判斷。每一步都有坐標錨著,不會出現「等等剛才查到那了」的情況。論文中更多案例參考:迷宮導航:別人擲硬幣,DeepSeek 真的在搜尋論文測了四種任務,迷宮是差距拉得最開的一個。任務很直接:給一張迷宮圖,問從起點到終點有沒有路,有的話畫出來。迷宮有三種形狀,方格的、圓環的、蜂巢的。模型走迷宮的方式跟你小時候用鉛筆在紙上畫一樣:選一條岔路走到頭,走不通就退回來試另一條。區別是它每走一步都在圖上標一個坐標點,留下記錄。論文裡展示了一個圓形迷宮的完整過程:模型先標出起點和終點的位置,然後開始探索。走了 18 步,中間兩次鑽進死胡同又退出來,最後繞出了一條通路,把整條路徑的坐標點串起來輸出。DeepSeek 還設計了一批陷阱迷宮:乍一看有路,但中間某段被偷偷堵住了。這種迷宮考的是耐心,模型不能只看起點附近的走勢就下結論,得老老實實把能走的路都試一遍才能確認走不通。精準率對比:- DeepSeek:66.9%- GPT-5.4:50.6%- Claude-Sonnet-4.6:48.9%- Gemini-3-Flash:49.4%- Qwen3-VL:49.6%迷宮只有兩種答案:有路,或者沒路。隨機猜正好 50%。GPT、Claude、Gemini、Qwen 全在 50% 附近晃,跟擲硬幣沒什麼區別。DeepSeek 的 66.9% 不算高,但它確實是在一步步走的,不是在蒙。路徑追蹤:大家來找茬的終極版本這個任務更直觀:一堆線纏在一起,每條線從一個標記通向另一個標記。你的耳機線從口袋裡掏出來是什麼樣,畫面就是什麼樣。題目問你:C 這條線通向那個終點?模型的做法是沿著線一路輸出坐標點,像手指劃過紙面。線彎得厲害的地方點標得密,直線段標得疏。人用眼睛追一根線的時候也是這樣,彎道處慢下來,直線處一掃而過。論文還加了一個加難版測試:所有線顏色粗細都一樣。不能靠顏色區分是那根線了,只能靠曲線本身的走勢連續性來判斷交叉口該跟著那條走。- DeepSeek:56.7%- GPT-5.4:46.5%- Claude-Sonnet-4.6:30.6%- Gemini-3-Flash:41.4%Claude 的 30.6% 有點出乎意料。終點一般有四五個選項,隨機猜也該有 20% 出頭,30.6% 只比瞎猜強一點點。可能它在這類純空間追蹤任務上,語言推理的慣性反而幫了倒忙。怎麼教 AI 走迷宮不作弊迷宮的訓練有一個現實問題:如果只看最終答對沒答對來給分,模型很快就學精了,與其費勁搜尋還可能答錯,不如直接猜一個,反正認真走了答錯跟沒走答錯,分數一樣是零。DeepSeek 的解決辦法是把過程也算進分數。每一步合法的探索都給分,穿牆扣分,走得越遠越好。那怕最後沒到終點,只要認真搜尋了大部分區域,也能拿到不錯的成績。這樣一來,模型就沒有偷懶的動力了。不可解迷宮的要求更高:不能光說一句「走不通」,還得證明你確實把能到的地方都走遍了。搜尋覆蓋率也算分。一個彩蛋,三個侷限後訓練資料裡沒有中文。但模型能用中文做視覺原語推理。給它一張咖啡機的照片,用中文問「怎麼做拿鐵」,它用中文標註了蒸汽棒、奶壺、咖啡豆、拿鐵按鈕的位置坐標,然後給出操作步驟。多語言能力是從基座模型那裡繼承的,視覺原語的訓練沒有把它破壞掉。它還能把看圖和世界知識結合起來:給一張金門大橋的照片問「這附近有 NBA 球隊嗎?」它先框出金門大橋,推理出這是舊金山,然後回答金州勇士隊。能理解幽默:一塊水果切面上的天然斑點恰好組成了一張憂鬱貓臉的模樣,模型能指出相似點在那裡並解釋為什麼好笑。能做密室逃脫指導:框出高處的鑰匙、地板上的椅子、帶鎖的門,建議「把椅子搬到鑰匙下方 → 踩上去拿鑰匙 → 去開門」。論文很坦誠地寫了目前做不到的事。輸入解析度有限制。ViT 輸出被卡在 81 到 384 個視覺資訊單元之間,遇到很精細的場景(比如數手指這種),坐標精度還不夠。這可能就是前天實測時數手指翻車的直接原因。目前需要特定觸發詞才能啟動視覺原語模式。模型還不能自己判斷「這道題我該伸手指來做」,得有人提醒它。拓撲推理的泛化能力有限。在訓練過的迷宮類型上效果好,換一種新的空間結構就可能掉鏈子。陳小康在那條已刪推文裡也說了:「We're still in the early stages; generalization in complex topological reasoning tasks isn't perfect yet, but we're committed to solving it.」「我們還在早期階段,複雜拓撲推理任務的泛化還不完善,但我們會持續解決。」前天實測時,DeepSeek 識圖模式展現的那些能力(追問發佈者身份、聯想鯨魚 logo 含義、自我糾正、給自己開「小型答辯會」),和這篇論文描述的思維方式一脈相承。它在腦中建立視覺錨點,圍繞錨點做推理,碰到矛盾就回溯修正。而數手指數暈了,就是 Reference Gap 的活體演示。手指交叉重疊的畫面裡,純靠語言描述去區分「從左數第三根」和「從右數第二根」,跟你自己不伸手指去數一群擠在一起的人一個道理,註定混亂。這篇論文指向的方向是:多模態推理的下一步進化在錨定機制上。DeepSeek 用 90 個資訊單元就打平了別人用上千 token 的效果,省下來的算力全拿去讓模型「一邊想一邊指」。解析度軍備競賽可以緩一緩了,教會模型伸出手指,比給它配一副更貴的眼鏡管用。這只鯨魚開了眼之後,還長出了手指。66.9% 的迷宮精準率離完美還遠,但至少它在認真走,不像隔壁那幾位在擲硬幣。 (APPSO)
DeepSeek“開眼”背後的技術,公開了!
讓大模型學會邊指邊想。智東西4月30日報導,今天,DeepSeek發佈多模態技術報告《用視覺原語思考(Thinking with Visaul Primitives)》,詳細闡釋了昨日灰度上線的DeepSeek識圖模式背後的技術細節。DeepSeek識圖模式所使用的是一個284B參數、13B啟動多模態推理模型,其正式名稱尚未對外發佈,基座模型是DeepSeek-V4-Flash。DeepSeek稱,這一模型的權重將整合進DeepSeek的基礎模型,並在未來發佈。當前,傳統的思維鏈仍然停留在語言領域,但視覺推理所需要的資訊更多。DeepSeek的新一代多模態推理模型的核心升級就在於,它把純粹的語言推理鏈條,升級成了一種“語言邏輯+空間坐標”交織的雙軌思維。當模型對著一張圖進行推理時,它是會像人一樣,直接輸出一個具體的框或者點,在圖中精準地“指”出它當下正在想的那個東西。DeepSeek多模態團隊負責人陳小康分享了一張動圖,形象地闡釋了這一運作機制。圖中,DeepSeek多模態模型可以在思維鏈中使用框進行定位,並在後續的推理步驟中持續引用這些被框定的視覺錨點,基於空間坐標進行下一步判斷,極大提升了視覺推理的精準性。▲DeepSeek多模態模型推理過程在一系列高難度視覺QA任務中,這一模型的表現超過了GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等模型。較高的token效率也是這一模型的亮點。與當前主流的多模態大模型將一張圖片轉化為成百上千個視覺token不同,DeepSeek這套架構通過視覺壓縮策略,將高解析度圖像從原始像素開始,經過ViT特徵提取、空間壓縮以及稀疏注意力機制的多級處理,最終在KV快取中僅保留約90個視覺條目,實現超7000倍的壓縮。這意味著模型在進行複雜空間推理時,無需在海量視覺資訊中反覆檢索,思考過程的每一步都較為“輕量”。項目地址:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives技術報告:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf01. 自然語言存在“指代鴻溝”視覺標記介入有望破解這篇論文中,DeepSeek多模態團隊提出了對現有多模態大模型缺陷的洞察。過去,當業界談論提升視覺模型的推理能力時,幾乎所有的努力都集中在“感知鴻溝”上,也就是讓模型“看得更清楚”:通過更高解析度的圖像切分、更精細的動態分塊,確保模型不會遺漏圖中的細節。但DeepSeek多模態團隊認為,即便把這一切做到極致,模型依然會在複雜的視覺推理任務中崩潰。自然語言在描述連續視覺空間時,天然存在一種“指代鴻溝”:當你說“左邊那個東西”時,在擁擠的場景中,這個“東西”到底指那一個,模型無法精確鎖定。於是,模型的思維鏈條看似環環相扣,實則每一步都存在偏離的風險,一旦涉及到密集計數、多步空間推理或者拓撲導航這種需要逐步推理的任務,邏輯就會因為指代不清而逐漸崩塌。基於這個判斷,DeepSeek多模態團隊嘗試讓模型在思考時“邊想邊指”,也就是讓模型用點坐標和邊界框來“指”,把這些人類的視覺原語,變成模型思維鏈條上的最小認知單元。架構層面,這一多模態模型通過DeepSeek-ViT負責將圖像轉換為視覺特徵,下圖右下方的文字分詞器負責處理使用者的語言指令,兩者輸入至基座模型DeepSeek-V4-Flash進行推理融合,最後由去分詞器輸出包含自然語言與視覺原語(如坐標框、區域標記)的聯合響應。這種設計使模型兼顧文字理解能力和原生視覺定位能力。02. 篩選超4000萬個高品質樣本對四類任務針對性最佳化要把點和框變成模型思維的一部分,首先要解決的問題,就是如何讓模型真正“學會指”。模型需要把“指”這個動作內化成一種思維習慣。為此,DeepSeek多模態團隊建構了一條貫穿預訓練、冷啟動和強化學習的訓練流水線。在預訓練階段,他們從網際網路上爬取了97984個與目標檢測相關的資料來源,設計了自動化的語義和幾何質量審查機制,過濾掉亂碼標籤、不可泛化的私人實體、嚴重截斷的框以及覆蓋全圖90%面積的“巨型框”等低品質標註,最終篩選出31701個高品質資料來源,總計超過4000萬個的精準樣本,先讓模型掌握基本定位能力。接下來是冷啟動資料建構。DeepSeek多模態團隊針對計數、空間推理、迷宮導航和路徑追蹤這四類最能體現視覺原語價值的任務,合成了一套帶有精確思考軌跡監督的資料。以計數任務為例,模型被明確教導,在思考時要先批次框選所有候選對象,然後再對這些錨定好的框進行逐一總和檢查碼累加。▲計數任務的一條冷啟動資料在迷宮任務中,模型的每一步探索都必須輸出一個點坐標來標記當前所在,一旦失誤撞牆,整個後續探索在因果上就自動失效,模型必須學會回溯。這種把視覺原語操作直接整合進思維鏈的做法,讓模型在冷啟動階段就建立起“指向-推理”的強耦合。03. 採用稠密獎勵機制視覺編碼壓縮比超7000倍有了冷啟動模型之後,DeepSeek多模態團隊通過一套“訓練專家再融合”的後訓練策略,將模型的能力進一步精細化。其中的創新點在於強化學習階段的獎勵模型。以迷宮任務為例,獎勵分解為探索進度、撞牆懲罰、路徑有效性和探索完整性等多個維度。模型每正確探索一個儲存格、沒有非法穿越牆壁,都會獲得正向訊號,而一旦發生撞牆,即便最終的答案為“可解”,也會被嚴格扣分。這種稠密的獎勵機制,讓模型必須認真對待每一個視覺原語操作,無法靠猜答案實現獎勵破解。為了同時掌握框定位和點指向這兩種視覺原語,該團隊還分別訓練了兩個專家模型,最後通過線上策略蒸餾將它們融合成一個統一模型,讓學生模型在自己生成的思維軌跡上,學習兩位專家老師的輸出分佈。這種設計有效避免了兩種異構原語在訓練中的相互干擾。值得一提的是,這項工作的技術路線建立在一個高效的視覺編碼架構之上。首先,Vision Transformer以14×14的塊大小將圖像切分成視覺token;然後,在ViT輸出端進行3×3的空間壓縮,將每9個相鄰token沿通道維度合併為1個;最後,利用模型底座DeepSeek-V4-Flash自帶的壓縮稀疏注意力機制,將KV快取中的視覺條目再壓縮4倍。以一張756×756解析度的圖像為例,它原本會產生2916個patch token,經過三級壓縮後最終僅保留81個視覺KV條目,整體壓縮比高達7056倍。這種token效率意味著,模型在展開複雜的空間推理時擁有了一份“提煉好的索引”,可以拿著索引直接進行思考,從工程上就減弱了無關像素對推理鏈路的干擾。04. 結語:多模態智能的“系統二”進化DeepSeek多模態團隊也在報告中提到了當前技術的邊界。模型在複雜拓撲推理任務上的跨場景泛化能力尚未完善,且思考中視覺基元的啟動目前仍依賴顯式的觸發詞,尚未實現完全的自發呼叫。但他們也認為,這套框架為多模態社區展示了通往系統二等級的多模態智能的路徑。這一路徑沒有一味地堆高圖像解析度,而在建構了更精準從參照指標。用空間坐標錨定抽象思維,讓模型像人類一樣“邊指邊想”,這本身就是一個值得繼續深挖的方向。 (智東西)
2026 AI 商業中場:從原生多模態到超級入口
AI 的競爭成為模型公司全端能力和創新的博弈。2000 年,美國網際網路泡沫破滅時,Google 面臨巨大的商業化壓力。當時他們搜尋引擎的流量暴漲,但離盈利還有一段距離。Google 曾嘗試把自己的技術授權給友商,以賺取微薄的 “經費”。但還是無法支撐公司的長遠發展。公司作為商業組織本質是逐利的。但有技術信仰的企業,往往會在短期利益與長期投入之間,選擇那條更難、更慢、也更燒錢的路徑。Google 沒有放棄技術。2002 年,Google 的工程師們發現,使用者在搜尋框中輸入關鍵詞,不只是為了搜尋資訊,也是在表達購買意圖。Google 將 “使用者搜尋意圖” 與 “商業廣告” 通過競價排名結合,在行業中找到了一個獨特的身位,將技術和商業化真正連接了起來。偉大的技術突破往往能帶企業打開新的市場。蘋果未止步於個人電腦,而締造出了劃時代的 iPhone;字節跳動抓住推薦演算法,才完成對資訊流的重構;OpenAI 固執地進行大模型訓練,讓演算法湧現出了智能。但過去兩年,AI 技術受困於找不到落地場景,商業化受阻。2025 年,DeepSeek 在保持成本優勢的同時,展現出接近人類的思考能力,讓 C 端使用者對 AI 的價值有了新的認知。不久後,OpenAI 的原生多模態模型 GPT-4o,展現了其對圖片內容的理解能力,讓 AI 生成 “吉卜力” 畫風的圖片引爆社交網路。AI 技術的進展帶來瞭解決以下兩大難題的可能性,讓市場重新評估 AI 的商業潛力。物理: AI 對真實世界的理解和執行能力不足。商業: 推理成本過高,限制了 AI 的大規模應用。2025 年底,百度發佈文心大模型 5.0,Google 發佈 Gemini 3,模型實現在統一原生架構下能理解圖片、看懂視訊,大模型統一原生多模態的潛力被逐步看到。技術進步也帶來商業化的可能。目前,大模型有望通過演算法層、架構層、系統層,乃至晶片側的全端最佳化,降低推理成本,提高模型效能,如 Anthropic 的 Claude 系列、Google 的 Gemini 系列、百度文心繫列。AI 行業的競爭不止在於算力、資料,也成為一個公司全端工程能力和基礎創新的綜合博弈。AI 能力正從文字生成走向原生多模態大模型還無法做到完全理解使用者的意圖,但語言模型正在進入 “收益平台期”——儘管算力、資料投入指數級增加,但大模型在預測下一個 Token 的任務上,所表現出的泛化性曲線已明顯放緩。單一文字維度的縮放路徑,無法滿足大模型智能繼續進化的目標。業界一個廣泛流傳的觀點是,大模型要理解世界。“現在的大模型達不到 AGI”,大模型理解世界,需要視覺、聽覺、語言等多種感官資訊的融合。兩點陣圖靈獎得主,楊立昆、Geoffrey Hinton 都曾提出類似的觀點。目前,多數多模態模型就像 “傳話筒”,圖像、語音等訊號需經過獨立模型解碼後再轉譯給語言模型,最終實現理解、生成。建構原生多模態大模型,可以讓模型從訓練階段起,就具備理解圖片、語音等各種模態資訊的能力。原生多模態模型就是能像人一樣,“端到端” 理解各種模態的資訊——前者訓練時只需專注處理單一模態資訊,難在保持 “傳話” 過程中不出現資訊失真的現象;後者則是在訓練時就要讓模型理解圖片、視訊、語音等資訊,但難在讓各種類型資料的意義互通。但原生多模態模型在訓推中需要處理大量多模態的資料,給架構設計、訓練過程和推理等多個層面都帶來了指數級的壓力。Google 從開始訓練 Gemini 系列,便確定原生多模態的技術路徑。但訓練資料較難統一,剛開始 Google 的模型在應用側的效果並算不突出。直到 2025 年末,Gemini 3.0 展現的多模態理解能力,讓業界重新相信了 “原生多模態”。2025 年,國內企業發佈的模型開始呈現原生多模態轉向,發佈的模型有各自的特點。階躍星辰的 Step-3 針對國產晶片頻寬進行了最佳化,降低了企業的商用成本;智譜的 GLM-4.6V 和字節的豆包大模型 1.8,都是將工具呼叫能力原生融入大模型,讓 AI 可以行動;阿里發佈的 Qwen 3-Omni 主要通過最佳化使用者互動與開源,擴大生態。百度文心大模型 5.0 則專注於模型本身,發佈了參數量達 2.4 兆的原生全模態大模型。在國內為數不多的全模態模型中,參數量最大,並在底層架構實現了文字、圖像、音訊、視訊多模態的統一。真實世界本質是跨模態的訊號流,大模型要理解世界,原生多模態是技術上的趨勢。以百度文心大模型 5.0 為例,其文字與視覺理解能力體現出的泛化性,均在 LMArena 大模型競技場相應領域的全球排行榜中,佔據前列。通過原生多模態架構,模型能捕捉到更多非語言資訊,AI 能夠像人類一樣感知現實,並通過 Agent 建立與世界更深層的連接。這也讓大模型切入具身智能、智能座艙、消費硬體等兆美金級賽道的商業場景成為可能。推理成本定義 AI 商業化拐點2024 年底,行業從 “快思考” 轉向 “慢思考”。慢思考是讓模型在回答問題之前,先模仿人類思考路徑,在後台列出完整思維鏈條,自我修正後再生成回答。慢思考模式下使用者每提一個問題,單次消耗的 token 數量都激增。OpenRouter 發佈的年度報告指出,2025 年推理任務消耗 token 的佔比不斷升高,模型專用於推理類任務的呼叫量,佔 token 消耗總額的超 50% 。使用者規模擴大後,模型廠商需為使用者消耗的 token 支付高額的成本。能否降低推理成本,成為 AI 走向商業化的關鍵。2025 年初,DeepSeek 憑藉 MLA 架構和精細化的 MoE 設計,顯著降低大模型計算消耗的同時,提高了模型的性能,被行業視為 “效率標竿”。但 DeepSeek 只是語言模型。語言模型的降本經驗並不能直接平移到多模態領域。GPT-5、Gemini 3、豆包 1.8、文心 5.0 等原生多模態模型,需要處理視覺和音訊流,其對訓練算力的需求是純文字模型的 5 到 10 倍,推理過程也更加複雜。GPT-4o 訓練投入超 1000 PFlop/s-day,大約相當於數千台頂級 GPU 滿負荷運行數周。原生多模態模型若要實現 DeepSeek 式的降本,僅靠模型層面的演算法創新是不夠的。以文心 5.0 為例,依託飛槳深度學習框架進行大規模 MoE 模型訓練,模型預訓練性能較基線提速 230%,啟動參數比低至 3%。在國產晶片替代的大背景下,大模型降本需要同時掌握晶片、框架、模型和應用四個層面的自主權,對企業全端系統工程能力提出了更高的要求。目前國內具備這種閉環能力的只有百度和華為。當推理成本降低,模型可以在後台持續完成自我博弈、工具呼叫和邏輯反思,以 Manus 為代表的通用 Agent 就能實現在網頁間穿梭,完成報表分析。這不光重塑了軟體,也驅動模型能力從 “雲端” 向 “端側” 下沉。原本昂貴的 AI 被嘗試融合進 AI 眼鏡、智能座艙和手機 OS 中。顯然,AI 的下半場不再只是比拚模型規模,而是比 “誰能以更低的成本提供更深的智能”。在這場效率革命中,降本不是目的,而是手段。誰是 AI 時代下一個 “超級入口”?2000 年,百度也憑藉自身技術,為搜狐、新浪、網易等入口網站提供搜尋方面的支援。彼時,這些入口網站雖然擁有龐大的搜尋流量,但 “搜尋” 卻僅被其視為一個附屬的功能模組,沒進行深度最佳化。2001 年,李彥宏力排眾議要推出自己的入口網站,以搜尋引擎為核心的入口 “百度”(Baidu.com)應運而生。百度憑藉超鏈分析技術和精準的中文分詞,從入口網站的索引中脫穎而出。那時,百度的成功在於解決了 “搜得準” 的問題。百度成為了最初的 “平台級入口”。時間回到 2025 年,AI 技術讓 “超級入口” 的邏輯發生了質變,下一代超級入口正從 “匯聚流量的 app” 轉向 “多模態的智能助手”。在 “超級入口” 之爭上,國內能與大廠競爭的創業公司屈指可數。大廠不會放棄任何一種擴張的可能。字節跳動、阿里、騰訊與百度正依託各自的生態,搶佔 “平台級入口” 這一高地。12 月 1 日,字節發佈和中興努比亞合作開發的豆包手機助手,試圖重塑人機互動的底層邏輯。使用者僅通過語音互動,就可以讓豆包手機助手直接接管使用者螢幕。同期,阿里調動整個集團資源,打造 AI 時代的超級助手。阿里成立千問 C 端事業群,將之前阿里雲事業部下通義千問 APP 改名 “千問 APP” 發佈,以 “一周一更新” 的速度迭代。近日,千問 APP 已接入高德地圖,未來阿里或把夸克、UC、天貓精靈等功能也整合進千問 APP。百度基於搜尋,也上線了百度文心助手,對標 Gemini 3,競爭超級入口。百度搜尋全面升級文心助手 AIGC 創作能力,支援 AI 圖片、AI 視訊、AI 音樂、AI 播客等多種模態創作。從硬體佈局的演進趨勢來看,百度可以依託文心 5.0 大模型的技術底座,通過蘿蔔快跑接管物理空間,用小度佔據家庭互動入口,讓資訊實現從虛擬空間向真實空間的滲透。幾周前,Google 將 Gemini 3 嵌入核心搜尋業務,通過跨應用的資料調取,即時生成能與使用者互動的 UI 頁面,向使用者直接交付搜尋結果。Google 通過自研 AI 晶片和 Google Cloud 支援大模型訓練、推理,訓練出的先進的模型又能與自身搜尋、雲盤、Android 生態等入口融合,繼續產生相應領域的高品質資料,持續推動智能升級。有行業人士認為,Google 已形成 “算力-模型-資料-應用” 的系統級飛輪,而百度是中國為數不多能與 Google 對標的 “AI 六邊形戰士”。因為下個時代的 AI 競爭的不止是模型能力,而是演進為全端式的系統競爭,比拚的是誰能完成 “算力—系統—模型—入口—資源—行動能力” 六個層面的閉環。他們認為,百度依託崑崙芯、智能雲作為算力與系統底座,以文心大模型作為能力中樞,連結搜尋、網盤、小度等流量入口,並通過搜尋、地圖與自動駕駛等業務將能力落地到現實世界,形成了六大要素閉環,是國內最接近 “AI 六邊形戰士” 形態的公司之一,具備長期演進的系統飛輪能力。圖源網路水面之下,騰訊同樣暗流湧動。12 月下旬,騰訊新成立 AI Infra 部、AI Data 部、資料計算平台部,27 歲的前 OpenAI 研究員姚順雨出任 “CEO / 總裁辦公室” 首席 AI 科學家。過去數月裡,騰訊也以加倍薪資挖角 AI 人才,強化研發體系。在生成式人工智慧的第一波流量交鋒中,有的公司水漲船高,有的公司陷入沉靜。但在喧囂之下,堅守 “技術信仰” 的企業,正在等待那個規則被重新定義的時刻。 (晚點LatePost)
阿里AI戰局再落一子:頂尖科學家許主洪轉崗,執掌多模態互動模型
在吳泳銘“AI驅動”的核心戰略下,阿里正進一步將頂尖人才向AI基礎模型研發的核心戰場集結,而多模態互動則被視為下一階段AI突破的關鍵隘口。正值全球科技巨頭在人工智慧領域展開激烈軍備競賽之際,阿里巴巴內部的排兵佈陣再次出現關鍵變動。硬AI獲悉,近期備受矚目的AI頂尖科學家、阿里集團副總裁許主洪(Steven Hoi)已從智能資訊事業群首席科學家的職位上,轉崗至阿里集團的核心AI研發機構——通義實驗室。阿里方面向硬AI證實了這一消息,並表示許主洪將負責多模態互動模型方向的研究,後續向通義實驗室負責人、阿里雲CTO周靖人匯報。這一內部調動釋放出重要訊號:在吳泳銘“AI驅動”的核心戰略下,阿里正進一步將頂尖人才向AI基礎模型研發的核心戰場集結,而多模態互動則被視為下一階段AI突破的關鍵隘口。對於許主洪而言,這次轉崗意味著他將從更貼近C端應用的“前線陣地”轉向更為核心和底層的“研發心臟”。時間拉回至今年2月,這位在學術界和工業界均享有盛譽的AI大牛(IEEE Fellow、史丹佛大學評選的“全球前1%的AI科學家”)正式加盟阿里,在當時引發了業內不小的轟動。他最初的落腳點是智能資訊事業群,一個囊括了夸克、UC瀏覽器、書旗小說等億級使用者產品的業務叢集,直接向“85後”總裁吳嘉匯報。彼時,業界的普遍解讀是,阿里意圖明顯——借助許主洪在多模態基礎模型及Agents領域的深厚積累,快速提升C端產品與AI結合的應用能力,打造出能與使用者直接對話的“超級應用”。這也符合阿里在AI C端應用上“軟硬一體”的生態構想,即整合“通義”APP、夸克、天貓精靈等核心業務,搶佔AI應用賽道先機。然而,僅僅半年多後,許主洪便調離了這個被視為阿里AI應用重要出口的事業群,轉而投身於更為基礎和前沿的通義實驗室。這一變化背後,是阿里對AI戰略優先順序的再聚焦。一位接近阿里的人士向硬AI分析稱:“這可以看作是阿里集中優勢兵力,全力攻堅核心基礎模型能力的體現。應用創新固然重要,但基礎模型的持續領先才是決定未來戰局的關鍵。讓最頂尖的科學家回到最核心的研發崗位,是確保技術引擎持續強大的必然選擇。”01. 阿里“亮劍”多模態互動許主洪的新戰場——通義實驗室,是阿里“通義”系列大模型的“孵化器”,由阿里雲CTO周靖人親自掛帥。周靖人同樣是AI領域的重量級人物,擁有哥倫比亞大學電腦博士學位,曾任微軟研發合夥人,是阿里雲巨量資料平台和人工智慧研究的靈魂人物。在周靖人的帶領下,通義實驗室已經建構了包括語言、視覺、語音等在內的“全尺寸”和“全模態”模型矩陣,其開源模型在全球範圍內獲得了巨大的影響力。而許主洪此次負責的“多模態互動模型”,正是當前全球大模型研發的前沿陣地。所謂多模態,即讓AI能夠像人一樣,同時理解和處理文字、圖像、音訊、視訊等多種資訊形式,並以更自然、更智能的方式與人類進行互動。這被認為是AI從“能聽會說”邁向“能看會想”的關鍵一步,也是通往通用人工智慧(AGI)的必經之路。無論是Google的Gemini、OpenAI的GPT-4o,還是阿里自身發佈的Qwen-VL、Qwen-Audio等模型,都已展現出強大的多模態能力。而許主洪在加入阿里之前,其研究便長期聚焦於此,尤其以“多模態預訓練”領域的突破性研究聞名。他提出的低成本預訓練策略,曾深刻影響全球大模型的研發處理程序。此次履新,意味著阿里將整合許主洪在多模態領域的學術遠見和工業界經驗,與通義實驗室現有的工程和研發能力相結合,意圖在多模態這一核心賽道上建立起更強的技術壁壘。其未來的研究成果,不僅將為夸克、淘寶等前端應用提供更強大的AI能力支援,更有可能催生出全新的互動範式和產品形態,例如更智能的個人助理、更沉浸的AI硬體等。02. “巨頭”的邏輯:人才、資源與戰略定力許主洪的轉崗,是阿里AI戰略在“聚光燈”下的又一次微調,也折射出當前AI巨頭競爭的普遍邏輯。首先,頂尖人才的流向即是戰略方向的指針。從吳泳銘親自兼任阿里雲CEO,到此次將許主洪這樣的戰略級科學家部署到基礎模型研發的一線,都顯示出阿里最高層對底層技術掌控力的極度重視。其次,資源正以前所未有的力度向核心模型集中。知情人士透露,此次調整是“正常的集團內部轉崗”,其背後邏輯是“集中資源投入基礎模型能力建設”。這意味著,相較於在應用層面的多點開花,阿里當前更傾向於將寶貴的研發資源和人才投入到底層模型的“深井”中,以求獲得更具顛覆性的技術突破。最後,這體現了巨頭在喧囂的AI浪潮中尋求戰略定力。AI應用的商業化路徑仍在探索之中,但基礎模型的代際競爭卻已白熱化。在這樣的背景下,是否選擇長期投入、夯實技術根基,考驗著每一家公司的戰略遠見與決心。 (硬AI)
李飛飛團隊重磅綜述:Agent AI—— 通往多模態互動 AGI 的關鍵方向
大家好~今天要和大家拆解一篇由李飛飛團隊牽頭、聯合微軟研究院等機構發佈的Agent AI綜述論文。這篇文章堪稱“Agent AI全景圖”,從定義、技術原理到實際應用,把這個可能改變未來人機互動的方向講得明明白白。如果你好奇“能像人一樣感知、思考、行動的AI”到底是什麼樣,這篇總結會用最通俗的語言,帶你看懂Agent AI的核心邏輯~一、先搞懂:Agent AI到底是什麼?和傳統AI有啥不一樣?首先,咱們得先給Agent AI下個“親民”的定義:它不是傳統那種“只會處理單一任務”的AI(比如只會識別圖片、只會聊天的AI),而是能“感知環境+理解資訊+做出行動”的全能型互動系統。舉個例子:傳統AI可能只能告訴你“這張圖裡有個蘋果”,但Agent AI能做到——看到蘋果(視覺感知)、聽懂你說“幫我拿過來”(語言理解)、然後控制機械臂把蘋果遞到你手上(物理行動)。它的核心目標很明確:朝著通用人工智慧(AGI)邁進,讓AI既能在物理世界(比如機器人)幹活,也能在虛擬世界(比如遊戲、元宇宙)互動,還能處理文字、圖片、聲音等多模態資訊。二、Agent AI的“核心燃料”:大模型(LLM/VLM)是關鍵Agent AI之所以能“全能”,離不開大語言模型(LLM,比如GPT系列)和視覺語言模型(VLM,比如GPT-4V)的支撐。但光有大模型還不夠,論文裡重點講了怎麼“馴服”大模型,解決它們的短板:1. 解決大模型的“幻覺”問題你可能遇到過AI聊天時說“瞎話”——比如編造不存在的知識,這就是“幻覺”。Agent AI怎麼治?給AI“找外援”:通過“檢索增強生成”(比如聯網查資料、呼叫知識庫),讓AI說的每句話都有依據;讓AI“落地”:把AI放到具體環境裡(比如機器人在房間裡行動),用環境反饋校正錯誤(比如拿不到蘋果就調整動作,而不是亂編“蘋果已經拿到了”)。2. 避免AI的“偏見”,做到更包容大模型訓練資料裡可能藏著人類社會的偏見(比如性別、種族刻板印象),Agent AI通過這幾點改進:擴大訓練資料範圍:不再只依賴英文網際網路資料,加入更多不同文化、語言的內容;即時監控+人工反饋:比如發現AI對某類使用者回應有偏見,就及時調整模型;設計“包容性規則”:比如生成圖片時,避免把某類職業和特定性別繫結。3. 保護使用者隱私,這是底線Agent AI會收集使用者互動資料(比如聊天記錄、操作行為),論文特別強調:資料要“透明”:使用者得知道AI在收集什麼、用在那(比如是用來最佳化回答,還是用來訓練新功能);儲存要“安全”:用加密、 secure伺服器保護資料,不能隨便分享給第三方;使用者有“控制權”:比如可以要求刪除自己的資料,符合GDPR、CCPA等隱私法規。三、Agent AI的“大腦結構”:一個能感知、思考、行動的閉環系統論文提出了Agent AI的核心範式——不是單一模組,而是一個“感知-學習-記憶-思考-行動”的閉環。咱們拆成5個關鍵部分看:1. 環境感知:AI的“眼睛和耳朵”負責收集外界資訊,比如通過攝影機看畫面、麥克風聽聲音、感測器感知物理環境(比如機器人的觸覺感測器)。比如遊戲裡的Agent AI,能通過畫面識別“玩家在《我的世界》裡收集了木頭”,也能聽懂玩家說“我要做工作台”。2. 學習模組:AI怎麼“學會幹活”論文裡提到了3種核心學習方法,都很有代表性:強化學習(試錯學習):像小孩學走路一樣,AI通過“做對了給獎勵、做錯了受懲罰”慢慢最佳化動作。比如機器人學抓杯子,抓掉了就調整力度,抓穩了就“記下來”;模仿學習(跟著專家學):直接“抄作業”——比如讓AI看人類操作機械臂的視訊,模仿著學動作;上下文學習(舉一反三):給AI幾個例子,它就能應對新任務。比如教AI“怎麼在《我的世界》裡砍樹”,它就能自己推匯出“怎麼挖石頭”。3. 記憶模組:AI的“知識庫”Agent AI需要“記住東西”才能持續行動:短期記憶:比如記住玩家剛才說的“拿蘋果”,不會轉頭就忘;長期記憶:比如記住“機械臂抓玻璃要輕一點”“使用者對堅果過敏”這類長期有用的資訊。4. 認知模組:AI的“思考中樞”這是Agent AI的“靈魂”,負責“想清楚再做”:邏輯推理:比如“要做工作台,得先把木頭變成木板,再用木板拼工作台”;任務規劃:把複雜任務拆成小步驟,比如機器人“幫我做早餐”,會拆成“拿牛奶→熱面包→煎雞蛋”。5. 行動模組:AI的“手腳”把思考的結果變成實際動作——可能是物理動作(機器人動機械臂),也可能是虛擬動作(遊戲裡NPC說話、元宇宙裡Avatar走路)。四、Agent AI有那些“分身”?6大分類帶你看懂論文裡把Agent AI按“能力和場景”分成了6類,每類都有具體例子,一看就懂:1. 通用智能體(Generalist Agent):“什麼活都能搭把手”不是只幹一件事,而是能應對多場景。比如微軟的“MindAgent”,既能在遊戲裡幫玩家規劃策略,也能在機器人任務裡做步驟拆解。2. 具身智能體(Embodied Agent):“有實體,能在物理世界幹活”這類Agent有“身體”,比如機器人、自動駕駛汽車:行動型:比如工廠裡搬貨物的機器人、家裡的服務機器人;互動型:比如能和你對話的導購機器人,既能回答產品問題,又能帶你找貨架。3. 模擬環境智能體(Simulation Agents):“在虛擬世界練手”因為在物理世界訓練AI(比如機器人)成本高、風險大,所以先在模擬器裡“綵排”:比如用“VirtualHome”模擬器訓練AI“做家務”,學會後再放到真實家庭裡;遊戲裡的“Overcooked-AI”,用來練AI和人類的協作能力(比如一起做飯)。4. 生成式智能體(Generative Agents):“能創造內容,讓虛擬世界更生動”這類Agent擅長“造東西”,比如:元宇宙裡的AI:你畫個草圖,它能生成3D場景;遊戲裡的NPC:不再是“按劇本說話”,而是能自己安排作息、和玩家自然聊天(比如《星露穀物語》裡能記住你喜好的NPC)。5. 知識推理智能體(Knowledge & Logical Inference Agents):“會查資料、會邏輯思考”知識型:比如醫療AI,能呼叫醫學資料庫,給患者解釋“為什麼會咳嗽”;邏輯型:比如法律AI,能根據法條推導“這個案例該怎麼判”;情感型:比如心理陪伴AI,能聽懂你語氣裡的難過,給出共情回應。6. LLM/VLM Agent:“大模型直接當‘大腦’”把LLM/VLM直接改造成Agent,比如用GPT-4V做遊戲助手——給它看《我的世界》畫面,它能一步步教你“怎麼造工作台”;用ChatGPT做機器人任務規劃,它能把“幫我整理桌子”拆成“移開杯子→擦桌子→把書放好”。五、Agent AI已經能用在那?3大落地場景超實用論文裡用大量實驗證明,Agent AI不是“紙上談兵”,已經在遊戲、機器人、醫療這3個領域跑通了不少案例:1. 遊戲領域:讓遊戲更“活”,玩家體驗升級NPC不再“機械”:用LLM讓NPC有自己的“性格”,比如《艾爾登法環》裡的NPC,能根據玩家的選擇改變對話內容,而不是重複固定台詞;幫玩家規劃策略:比如GPT-4V能看《我的世界》畫面,告訴你“現在有木頭,下一步該開背包、做木板、拼工作台”(論文裡還放了實際對話截圖,超真實);自動生成遊戲場景:比如輸入“一個有瀑布的森林”,Agent AI能生成對應的3D地圖,幫遊戲開發者省時間。2. 機器人領域:讓機器人更“聰明”,能聽懂、會幹活語言控制機器人:你說“把果汁放到架子上”,機器人能聽懂,還能通過視覺確認“果汁在那、架子在那”;複雜任務拆解:比如“用烤箱熱餡餅”,機器人會拆成“拿餡餅→開烤箱→放進去→關烤箱”,還會通過攝影機確認每一步有沒有做錯;從“模擬”到“現實”:先在模擬器裡練會“抓杯子”,再調整參數適配真實世界(論文裡叫“Sim to Real遷移”),避免機器人在現實裡摔碎杯子。3. 醫療領域:輔助診療,但要“穩”字當頭診斷輔助:比如用VLM看心電圖、皮膚病變圖片,結合醫學知識庫給出初步判斷(但論文強調:最終診斷必須由醫生做,AI不能替代);遠端醫療助手:比如幫醫生篩選患者消息,把“緊急症狀”標出來,避免醫生錯過關鍵資訊;知識檢索:患者問“糖尿病怎麼控糖”,AI能呼叫最新醫學指南,用通俗語言解釋,還會提醒“具體方案要遵醫囑”。六、Agent AI要面對的“挑戰”:從技術到倫理論文沒有迴避問題,反而重點提了幾個必須解決的難題:1. 跨模態/跨領域的“鴻溝”比如AI在《我的世界》裡學會了“拿東西”,到《賽博朋克2077》裡可能就不會了——因為兩個遊戲的畫面風格、動作邏輯完全不同。論文提出的解決思路是:讓AI學“通用規律”(比如“拿東西要先對準目標”),而不是只學某個場景的細節。2. 持續自我改進:不能“一訓練完就過時”現在的大模型訓練完就“固定”了,沒法即時學新東西。Agent AI需要“邊用邊學”:比如通過使用者反饋調整回答(你糾正AI“這個資訊錯了”,它下次就不會再犯),或者用大模型生成新資料來最佳化自己。3. 倫理紅線:AI再厲害,也不能“亂來”這部分是論文的重點,也是所有AI發展的底線:醫療AI:絕對不能“瞎診斷”,因為誤診可能危及生命;避免偏見:比如招聘場景的Agent AI,不能因為性別、年齡拒絕候選人;隱私保護:醫療AI收集的患者資料、遊戲AI收集的玩家行為,必須嚴格保密,不能濫用。七、總結:Agent AI的未來——人機互動的下一個“革命”這篇綜述最後強調:Agent AI不是“單一技術”,而是一個“整合多模態、跨現實、能持續進化”的系統。它的終極目標,是讓AI從“工具”變成“夥伴”——既能在工廠幫人幹活,也能在元宇宙陪人互動,還能在醫療場景幫醫生減負。當然,它還有很長的路要走:比如怎麼讓AI更“懂人心”(情感共情)、怎麼在複雜環境裡更“靠譜”(比如極端天氣下的機器人)。但不可否認的是,Agent AI已經打開了通往AGI的一扇關鍵大門,未來值得期待~如果這篇總結幫你看懂了Agent AI,歡迎分享給同樣對AI感興趣的朋友~咱們一起關注這個充滿可能的方向! (米小傑DIY)
對標Databricks,AI原生多模態資料智能平台 MOI發佈
Matrix Origin MOI對標Databricks與Snowflake,AI原生多模態資料智能平台正式發佈。2025年9月13日,Matrix Origin正式推出AI原生多模態資料智能平台MatrixOneIntelligence(MOI)以及超融合異構雲原生資料庫MatrixOne(MO)。此次發佈標誌著資料智能領域邁出關鍵一步,特別是在人工智慧與資料基礎設施的深度融合方面。MOI的推出旨在通過技術創新加速AI在企業中的落地,為行業帶來更高效、智能的資料處理與分析解決方案。超融合架構 + Data Git:MO的核心優勢MatrixOne的核心在於其超融合架構,旨在解決企業長期存在的資料孤島問題。通過整合不同類型的資料來源,MO可提供統一的資料訪問與管理平台,從而簡化資料處理流程、降低營運成本。MO創新性地引入了“Data Git”概念,該功能顯著縮短AI項目的開發周期,尤其在處理複雜資料場景時,大幅提升項目敏捷性。這一版本控制機制使團隊能夠更高效協作、追蹤資料變更,並快速回滾至歷史狀態,對AI模型迭代與資料治理至關重要。MOI:下一代資料基礎設施的戰略佈局MOI被定位為下一代Data Infrastructure,其核心目標是為企業提供一站式AI資料智能平台。該平台支援自然語言驅動的工作流,意味著使用者可通過自然語言指令運算元據、進行分析與決策,極大降低使用門檻。技術上,MOI對標Databricks與Snowflake,後兩者在資料智能領域已取得顯著成就。Matrix Origin此次戰略舉措旨在通過技術創新縮小與行業領先者的差距,為企業提供更具競爭力的解決方案。Matrix Origin深耕資料智能多年,客戶涵蓋網際網路、金融、能源、製造、醫療等多個行業,表明MOI具備廣闊的應用前景,能夠滿足不同領域對資料智能的多樣化需求。Matrix Origin在資本市場亦展現出強勁的增長勢頭。公司已於2024年5月完成數百萬美元Pre-A輪融資,並於2025年8月獲得超過2億元人民幣的資金,目前正在進行新一輪融資。這表明資本市場對Matrix Origin的發展前景持樂觀態度,為MOI的持續研發與市場拓展提供了充足的資金支援。隨著人工智慧技術的不斷發展,對資料智能平台的需求將持續增長。Matrix Origin有望憑藉其技術優勢與市場經驗,在這一領域取得更大突破。MOI的發佈不僅展現了Matrix Origin的技術實力,也預示著資料智能行業將迎來新一輪變革。未來,資料智能平台領域的技術創新將圍繞以下幾個主流方向展開:1. 生成式AI與增強分析:通過自然語言互動、自動生成洞察與決策建議,降低分析門檻,實現“人人可用”的 analytics。2.多模態資料融合與即時處理:支援文字、圖像、語音、時序等多模態資料的統一儲存、索引與即時計算,滿足AI應用對多樣化資料的需求。3.Data as Code(資料即程式碼):借鑑DevOps理念,實現資料版本控制、CI/CD、可觀測性,提升資料開發效率與治理水平,類似MO的“Data Git”。4. 邊緣智能與雲邊協同:將AI能力下沉至邊緣節點,實現低延遲、高隱私的資料處理,同時與雲端協同,最佳化資源利用。5.智能體(Agent)編排與自動化決策:通過多智能體協作、任務規劃與執行,實現從資料到行動的閉環自動化,推動企業營運智能化。6. 資料安全與隱私計算:在資料共享與分析過程中,融合差分隱私、聯邦學習、同態加密等技術,保障資料合規使用。7. 量子計算與AI融合:探索量子計算在複雜最佳化、特徵提取等AI任務中的應用潛力,提升計算效率。這些趨勢將共同推動資料智能平台向“AI原生、多模態、自動化、可信任”方向演進,成為企業數位化轉型的核心基礎設施。 (壹號講獅)
字節大模型關鍵人物被曝離職!
字節跳動已至少流失7名AI大佬。字節跳動被曝又損失一員大將!智東西8月25日消息,今日下午,據微信公眾號大廠日爆消息,字節跳動豆包大模型視覺基礎研究團隊負責人馮佳時已經於近期離職,並且推算他為字節跳動職級4-1、4-2大佬。今年6月,就有媒體爆料馮佳時將離職,但當時被字節闢謠為不實資訊。▲字節跳動豆包大模型視覺基礎研究團隊負責人馮佳時2024年,字節跳動啟動Top Seed人才計畫,為豆包大模型團隊招人,在招聘海報中公佈的頂尖導師團隊共有8人,馮佳時就是其中之一。▲Top Seed人才計畫的頂尖導師團隊馮佳時2007年本科畢業於中國科學技術大學,碩士畢業於中國科學院自動化研究所,2014年獲得新加坡國立大學博士學位,2014-2015年在加州大學伯克利分校從事博士後研究,2016年-2021年在新加坡國立大學擔任助理教授,他曾在新加坡國立大學師從AI領域全球頂尖學者顏水成,2009年顏水成回國後,馮佳時接任其在機器學習與視覺實驗室的主持工作。2021年馮佳時回國加入字節跳動,專注於電腦視覺、機器學習領域的相關研究及其在多媒體中的應用。字節跳動的公開資訊顯示,馮佳時已發表400多篇關於深度學習、物體識別、生成模型、機器學習理論方面的論文,曾獲得ACM MM 2012最佳技術演示獎、TASK-CVICCV 2015最佳論文獎、ACM MM 2018最佳學生論文獎。他也是2018年麻省理工學院技術評論亞洲35歲以下創新者獎獲得者,曾擔任CVPR、NeurIPS、ICML、ICLR的領域主席以及ICMR 2017的程序主席。值得一提的是,他的論文在Google學術引用量已經超過6.9萬次。馮佳時的Hugging Face首頁顯示,字節跳動的視訊多模態大模型Sa2VA、自回歸視訊生成模型VideoWorld等研究論文,他均在作者之列。▲馮佳時Hugging Face首頁2023年底,新加坡國立大學Show Lab與字節聯合開源視訊生成模型MagicAnimate,允許使用者從單個圖像和動態視訊生成動畫視訊,這項研究就是馮佳時作為核心研究員推動的。▲MagicAnimate研究論文去年12月以來,字節跳動的大模型團隊已經損失多員大將,包含馮佳時在內已有7人離職。去年12月,字節跳動剪映產品負責人張逍然被曝離職,新動向未知;去年12月,TikTok演算法負責人陳志傑被曝從字節跳動離開,今年3月成立了AI程式設計方向公司言創萬物;今年3月,火山引擎AI應用產品線一號位駱怡航被曝離職,同月入職生數科技擔任CEO。今年6月,字節跳動豆包大模型大語言模型團隊負責人喬木被辭退;今年7月,字節跳動豆包大模型視覺多模態生成負責人楊建朝因家庭因素與長期高強度工作,宣佈暫時休息;今年6月,字節跳動AI Lab負責人李航被曝正式卸任,轉為勞務/顧問身份。另一邊,字節跳動也在大力從全球招兵買馬。去年9月,字節跳動被曝數千萬年薪挖走原阿里通義大模型技術團隊的關鍵成員,包括技術負責人周暢及其手下的十多名團隊成員;今年1月,經緯創投合夥人、前班牛科技高管熊飛被曝加入字節跳動飛書團隊負責南區銷售團隊管理;今年2月,Google Fellow、GoogleDeepMind研究副總裁吳永輝被曝離開Google加入字節跳動,擔任大模型團隊Seed基礎研究負責人。 (智東西)