#AI視覺
DeepSeek給AI裝了根賽博手指,於是它能看見了
五一假期前一天,DeepSeek突然扔出來一份視覺多模態技術報告。點開之前,我心裡大概是有個預期的,無非就是具體能看到多遠、看得多清楚。畢竟過去一年,多模態模型基本都在往這個方向卷。OpenAI講thinking with images,讓模型在推理過程中裁剪、放大、旋轉圖片;Gemini、Claude也都在想辦法讓模型處理更高解析度、更複雜的視覺輸入。大家的共同假設是,只要模型看得更細,視覺推理自然就會更強。但DeepSeek這份報告看下來,你會發現,他們完全走上了另一條路。DeepSeek沒有把重點放在“讓模型看到更多像素”上,他們把注意力放在了一個更底層的問題上。就算模型已經看清楚了,但是它在推理過程中,你怎麼能保證模型和你指的是同一個東西?其實這是多模態推理裡最容易被忽略的死穴。人類看圖時,可以用手指去標記對象。比如“這個人是誰誰誰”、“那個人是誰誰誰”。但模型那知道你說的這個是那個?模型只能用語言說“左邊那個”“上面那個”“這條線”。一旦畫面複雜起來,語言指代就會漂移,推理也會跟著崩。於是DeepSeek就說了,那就給模型一根“手指”不就完了?它把點和邊界框變成模型思考時的基本單位,讓模型能夠一邊用這根賽博手指指著對象,一邊進行推理。01. 從連續視覺到離散符號DeepSeek在這份技術報告裡,提出了一個很有意思的問題。他們認為,多模態模型真正難的地方,不是看見圖像,而是在連續推理過程中穩定地指向同一個視覺對象。就比如你跟你的朋友說“菜市場裡,張老太太的那個攤位賣的菜最新鮮”。但是菜市場裡老頭老太太多了去了,那個是張老太太?但如果你直接用手指著說“就是那個”,你朋友就會馬上明白。DeepSeek將這個問題命名為“引用鴻溝”(Reference Gap)。過去一年,幾乎所有前沿多模態模型都在解決“感知鴻溝”(Perception Gap)這個問題。假如說有一張照片放在你面前,如果照片太模糊、解析度太低,你可能看不清楚裡面的小字或者遠處的細節。AI也一樣,如果輸入的影像品質不夠、處理方式不對,它就會“看不清”,這就是感知鴻溝。GPT、Claude、Gemini這些模型不斷提高解析度,引入高解析度裁剪、動態分塊、多尺度處理,目的就是讓模型能看到更多細節。這個方向當然有價值,但DeepSeek在報告裡指出,就算模型看得再清楚,在複雜的空間推理任務上,仍然會出現邏輯崩潰。問題出在自然語言本身。照片裡有十幾隻狗,你說“左邊那隻狗”,那模型就沒辦法理解你說的具體是那只。還有更絕的,如果你讓模型數一下照片裡狗的數量,那麼模型在推理過程中很容易就搞不清楚自己已經數過那些、還有那些沒數。報告中還提到了迷宮導航這樣極端的情況,純語言根本無法精準描述不規則形狀的路徑和複雜的拓撲關係。語言作為一種指代工具,在連續的視覺空間裡天生就是模糊的。它擅長抽象概念和因果關係,但在空間定位和拓撲關係上,語言的表達能力存在根本性的侷限。可DeepSeek本身就是個通用的語言模型,那應該怎樣解決呢?於是就有了文章開頭提到的這根“手指”。他們提出的核心概念是“視覺基元”(Visual Primitives),具體來說就是把邊界框(bounding boxes)和點(points)這兩種電腦視覺裡最基礎的空間標記,提升為“思維的最小單位”。以前的多模態模型雖然也能畫框標註物體,但只是在最後給你看個結果,證明“我找到了”。就像考試時,你只交答案,不寫解題過程。也有一些研究讓AI在思考過程中畫框,但目的只是為了“看得更準”,框框只是個輔助工具。就好比你做數學題時用草稿紙,草稿紙只是幫你算得更清楚,不是解題思路的一部分。DeepSeek要做的完全不同。他們把這些空間標記直接嵌入到模型的推理過程中,讓它們成為推理的有機組成部分。模型在思考的時候,不只是用語言描述“我看到了一隻狗”,還同時輸出“我看到了一隻狗,它在這裡:[[x1,y1,x2,y2]]”。這個機制被DeepSeek稱為“邊推理邊指向”(point while it reasons)。模型的每一步思考都錨定在圖像的具體坐標上。技術報告裡就給了這樣一個例子:模型從起點出發,一路探索、回溯、再嘗試,最後輸出了一串完整的坐標路徑,每個坐標都對應迷宮裡走過的一個點。這樣一來,模型就不會在推理過程中“迷路”。它不會搞不清楚自己在說什麼、指什麼。每個視覺對象都有了明確的空間錨點,推理過程變得可追蹤、可驗證。這條技術路線和OpenAI的方向形成了有趣的對比。OpenAI在o3和o4-mini的官方介紹裡明確提到了“thinking with images”的概念,即模型可以把圖像納入推理鏈,並通過裁剪、放大、旋轉等方式處理圖像。這個方向的重點是讓圖像本身成為思維鏈的一部分,模型可以在推理過程中生成新的圖像、修改圖像、對圖像進行操作。OpenAI的路線強調的是通用能力,視覺、程式碼、搜尋、檔案、工具呼叫一起協作。模型擁有一個強大的“視覺工作台”,可以靈活地處理各種視覺任務。DeepSeek的路線則更“符號化”一點。它讓坐標進入思維鏈。模型在推理文字裡顯式寫出邊界框和點的坐標,把視覺對象變成推理時可復用的錨點。這就導致,OpenAI的視覺推理髮生在內部,使用者只能看到最終答案和必要解釋,中間的視覺處理過程是黑箱。DeepSeek則故意把中間視覺錨點顯式化,讓推理過程完全透明。DeepSeek這樣做,好處是推理過程更容易被訓練、檢查和打分。這也讓它更容易設計格式、質量和任務級獎勵。尤其在迷宮、路徑追蹤這類任務中,可以對路徑合法性、軌跡覆蓋度等給出更細的反饋。模型不只是學會輸出正確答案,更是學會了用視覺基元進行推理的方法。02. 效率才是核心DeepSeek這份報告裡有一個很容易被忽略但極其重要的細節,他們的模型在處理圖像時,用的token數量遠遠少於其他前沿模型。報告裡有一張對比圖,展示了不同模型處理一張800×800解析度圖像時消耗的token數量。Gemini-3-Flash約1100個,Claude-Sonnet-4.6約870個,GPT-5.4約740個,Qwen3-VL約660個,DeepSeek約361個,並在KV快取裡只保留約90個條目。這個差距不是一點點。DeepSeek用的token數量只有Gemini的3分之1,KV快取條目更是只有10分之1左右。這種極致的效率是怎麼實現的?DeepSeek用了一個叫“壓縮稀疏注意力”(Compressed Sparse Attention, CSA)的機制。你可以這樣理解,假如說你給朋友看一張全家福,你不會說“從左數第237個像素開始有一塊紅色區域……”,你會直接說“左邊是我媽,右邊是我爸”。DeepSeek-ViT先把圖像壓成更少的視覺token,CSA再把這些視覺token在KV快取中的表示進一步壓縮。這個機制在DeepSeek-V4-Flash模型上就使用過,現在被應用到了視覺多模態之中。具體的壓縮流程是這樣的。一張756×756的圖像,包含571536個像素。這些像素首先經過ViT處理,以14×14的patch size切分,生成2916個patch token。然後進行3×3的空間壓縮,把每9個相鄰的token沿著通道維度壓縮成1個,變成324個視覺token。這324個token進入大語言模型進行預填充。最後,CSA機制會把這些視覺token在KV快取裡再壓縮4倍,最終只保留81個條目。從571536個像素到81個KV快取條目,整個壓縮比達到了7056倍。一般AI大廠都是在用暴力方法去堆計算資源,而DeepSeek則是在資訊理論層面去做取捨,只留下最直觀易懂的資訊。其最直接的結果,就是推理速度變快了許多。圖像token數量直接影響模型的推理延遲。在自回歸生成過程中,每生成一個新token,模型都需要對之前所有token的KV快取進行注意力計算。如果圖像佔用了1000個token,那麼每次生成都要對這1000個token做注意力。如果只佔用90個,計算量就大幅減少。對於需要即時響應的應用場景,比如機器人視覺、自動駕駛、即時視訊分析,推理速度的提升起到了決定性作用。然後它記憶體佔用得也少。KV快取是大模型推理的記憶體瓶頸。特別是在處理長上下文或批次推理的時候,KV快取會佔用大量視訊記憶體。DeepSeek把視覺token的KV快取壓縮到90個條目,意味著可以在同樣的硬體上處理更多圖像,或者處理更長的多輪對話。這對於實際部署非常重要。很多公司的多模態模型在實驗室裡表現很好,但一到實際部署就遇到成本問題。每張圖片消耗的token越多,推理成本就越高,可支援的並行使用者就越少。DeepSeek的效率優勢在規模化部署時會被放大。同時也變相提高了模型的上下文容量。如果一張圖片要佔用1000個token,那麼在一個128k的上下文窗口裡,只能放100多張圖片。如果只佔用300個token,就可以放400多張。這對於需要處理多圖對話、長視訊分析、大量文件理解的場景至關重要。DeepSeek的模型可以在一個對話裡處理更多圖像,可以對比分析幾十張甚至上百張圖片,可以追蹤視訊裡的長期變化。最關鍵的是訓練成本。雖然報告主要講推理效率,但這種壓縮機制在訓練階段同樣有效。更少的視覺token意味著更小的計算圖,更快的訓練速度,更低的硬體要求。DeepSeek一直以“用更少資源做出更好效果”著稱。從R1的強化學習訓練,到V4的MoE架構,再到現在的視覺多模態,這種效率優先的哲學貫穿始終。但這裡有一個關鍵問題。壓縮會不會損失資訊?DeepSeek並沒有否認壓縮會帶來資訊損失。它的主張是,在這組空間推理和計數任務上,壓縮後的表徵仍然足夠有效。每一步壓縮都在保留對推理最重要的資訊,丟棄冗餘和噪聲。其實前面提到的DeepSeek的視覺基元機制,它本身也是一種資訊壓縮。一個邊界框用4個數字就能精確定位一個物體,一個點用2個數字就能標記一個位置。這些離散符號攜帶的資訊密度遠高於原始像素。從實驗結果看,這種壓縮沒有損害性能,反而在某些任務上帶來了提升。這說明對於很多視覺推理任務,瓶頸不在於看得不夠清楚,而在於沒有找到合適的表徵方式。這種效率優勢還證明了多模態智能不一定需要更大的模型、更多的算力、更高的成本。從DeepSeek時刻誕生至今,這家公司一直有一條暗線,“真正的智能不在於算力,而在於對問題本質的理解”。當你真正理解了視覺推理需要什麼,你就不需要那麼多token。當你找到了合適的表徵方式,你就不需要那麼大的模型。從這個角度看,DeepSeek的極致效率不是目的,而是副產品。真正的目的是找到視覺推理的正確範式。效率只是證明了這個範式是對的。03. 未竟之事DeepSeek在報告的侷限性部分,坦誠地列出了當前方法存在的幾個問題。這些問題不是技術細節上的小瑕疵,而是指向了視覺推理的下一個階段。第一個問題是觸發詞依賴。報告裡明確說,當前的“用視覺基元思考”能力需要顯式的觸發詞(explicit trigger words)才能啟動。也就是說,模型還不能自然、自主地決定“什麼時候該畫框、打點”。它意味著模型還沒有真正學會判斷什麼時候需要使用視覺基元,什麼時候用語言就夠了。理想的情況是,模型應該能根據任務的性質自主決策。但當使用者問“數一數圖裡有幾隻狗”的時候,模型應該自動切換到視覺基元模式,用邊界框來輔助計數。從技術上說,這需要在模型裡建立一個元認知層。這個元認知層可以評估當前任務的複雜度,判斷純語言推理是否足夠,決定是否需要呼叫視覺基元。DeepSeek目前還沒有實現這個元認知層,但他們已經明確了方向。未來的版本可能會讓模型學會自主決定推理策略,而不是依賴外部觸發。第二個問題是解析度限制。報告提到,受輸入解析度限制,模型在細粒度場景下的表現還不夠好,輸出的視覺基元有時不夠精確。這個問題和DeepSeek的效率優先策略有關。為了控制token數量,他們限制了視覺token的範圍在81到384之間。對於超出這個範圍的圖像,會進行縮放處理。這種設計在大部分場景下是合理的,但在一些需要極高精度的任務上就會遇到瓶頸。比如醫療影像分析需要識別微小的病灶,工業質檢需要發現細微的瑕疵,這些場景對解析度的要求很高。DeepSeek在報告裡提到,這個問題可以通過整合現有的高解析度方法來解決。也就是說,他們的視覺基元框架和傳統的高解析度裁剪方法不是對立的,而是互補的。我覺得DeepSeek可以出個混合方案。具體就是對於大部分常規任務,使用壓縮的視覺表徵和視覺基元推理,保持高效率。對於需要細粒度分析的局部區域,動態呼叫高解析度裁剪,提取更詳細的視覺資訊。這樣既保持了整體效率,又滿足了局部精度需求。這種混合方案的關鍵是讓模型學會判斷那些區域需要高解析度處理。於是這就又回到了剛才元認知的問題上。第三個問題是跨場景泛化。報告提到,用點作為視覺基元來解決複雜拓撲推理問題仍然很難,模型的跨場景泛化能力有限。這個問題在迷宮導航和路徑追蹤任務上表現得比較明顯。雖然DeepSeek在自己建構的測試集上達到了66.9%和56.7%的精準率,超過了其他模型,但這個數字本身還不夠。更重要的是,這些任務都是在合成資料上訓練和測試的。迷宮是用演算法生成的,路徑追蹤的曲線也是程序化繪製的。當模型遇到真實世界裡的拓撲推理問題時,比如在真實地圖上規劃路徑,在複雜管線圖裡追蹤連接關係,表現可能會下降。DeepSeek的方法是通過大規模、高多樣性的資料來提升泛化能力。他們爬取了97984個資料來源,經過嚴格過濾後保留了31701個,最終得到超過4000萬個樣本。在迷宮和路徑追蹤任務上,他們也設計了多種拓撲結構、視覺風格、難度等級,試圖覆蓋儘可能多的變化。然而資料多樣性只是泛化能力的一部分。模型是否真正理解了拓撲推理的本質?還是說它只是記住了訓練資料裡的模式而已?另外,DeepSeek的視覺基元是一套新的表徵系統,需要專門的資料格式、訓練流程、評估方法。這和現有的多模態生態不完全相容。大部分多模態資料集和評測基準都是基於傳統的“圖像+文字”範式設計的,沒有考慮視覺基元。如果要在這些基準上評測DeepSeek的模型,要麼需要關閉視覺基元功能,要麼需要重新設計評測方法。其他研究者如果想復現或改進這個工作,需要重新建構整個資料和訓練流程,門檻比較高。DeepSeek能在報告中談及這些問題,說明他們對自己的工作有清醒的認識。這可能比給出完美答案更有價值。因為真正推動社會進步的,往往不是答案,而是問題。 (字母AI)
DeepSeek剛解決了AI視覺最後一塊拼圖:極低成本+精準視覺定位,AI接管電腦已無死角
DeepSeek多模態模式相信有很多人已經灰度到了,對應的技術報告也來了,可以說DeepSeek 解決了可靠且廉價的電腦代理的最後一個難題DeepSeek放出了一篇新論文,解決的是多模態大模型裡一個被長期忽視的根本性問題。不是看不清圖,而是說不清位置。論文名叫 Thinking with Visual Primitives(基於視覺原語的思考),來自DeepSeek、北大和清華的聯合團隊。paper:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf問題出在那裡現有的多模態大模型,推理過程基本被鎖死在文字空間裡。模型用Chain-of-Thought(CoT)一步步推導,聽起來很合理,但有個致命缺陷:語言本身是模糊的,它沒辦法精確指向圖像裡某個具體位置。比如你問模型:圖裡左邊那個小杯子旁邊的那個東西是什麼顏色?模型的語言推理鏈條很快就會亂掉,它"想著"一個物體,實際上卻已經搞混了另一個。這就是論文裡定義的Reference Gap(指代鴻溝)。和它對應的是另一個已經被廣泛研究的問題:Perception Gap(感知鴻溝),即模型看不清高解析度圖像裡的細節。前者已有不少工作在做,比如高解析度裁切、動態分塊。但後者一直沒有被正面解決。論文的核心判斷是:就算感知做到完美,只要指代還靠自然語言,模型在密集計數、複雜空間推理、拓撲導航這類任務上就會持續出錯,產生連鎖幻覺。DeepSeek解法:讓模型一邊想一邊指DeepSeek的方案叫 Thinking with Visual Primitives,思路:把空間標記,也就是點(point)和邊界框(bounding box),升格為"最小思維單元",直接插進模型的推理鏈條裡。人類數一堆密集的東西時,會用手指逐個點過去。這個框架做的事情和這個一樣:模型每推理一步,就可以在圖上"戳一下",把抽象的語言思維錨定到圖像的物理坐標上。兩種視覺原語各有分工:邊界框適合捕捉具體物體的位置和大小;點則更適合抽象的視覺指代,比如軌跡追蹤或拓撲推理中的路徑節點。架構:極致的token壓縮這套框架建立在一個對token效率做到極致的架構上。語言骨幹是 DeepSeek-V4-Flash,總參數284B,推理時啟動參數13B。視覺編碼用的是 DeepSeek-ViT,一個從頭訓練的ViT,支援任意解析度輸入。它先用14×14的patch大小把圖像切成patch token,然後在ViT輸出端用3×3空間壓縮,把每9個相鄰patch token合併成1個。進入LLM之後,還有一層 Compressed Sparse Attention(CSA) 機制,對視覺token的KV cache再壓縮4倍。整體下來的壓縮比是7056倍。舉個具體的數字:一張756×756的圖,原始像素展開是571,536個,經過patch embedding變成2,916個ViT token,3×3壓縮後變成324個,進入LLM後KV cache裡只剩81個視覺條目。如圖所示,處理一張800×800的圖,本文模型消耗約361個token(KV cache裡只有約90條),而Claude-Sonnet-4.6需要約870個,Gemini-3-Flash需要約1100個,GPT-5.4需要約740個。token用量不到競品的三分之一,但在7個基準測試上的平均分是77.2%,高於Gemini-3-Flash的76.5%和GPT-5.4的71.1%。訓練:四個階段,從專才到通才訓練流程分為預訓練和後訓練兩大階段預訓練目標是讓模型學會輸出視覺原語。訓練資料來自大規模網路爬取。僅在Huggingface上,團隊就用官方API篩選了帶有Object Detection或Grounding標籤的資料集,按熱度排名初篩,排除所有驗證集和測試集,再用LLM agent解析README檔案,統一格式。最終爬取了97,984個box grounding相關資料來源。原始資料質量參差不齊,團隊設計了兩步過濾流程:第一步是語義審查,用MLLM自動識別並丟棄三類問題資料:無意義的機器碼和亂碼標籤、無法泛化的私有實體(比如MyRoommate這類私人稱呼)、歧義縮寫和主觀評價(比如工業檢測裡的OK/NG)。這一步從97,984個源過濾到43,141個。第二步是視覺幾何質量審查,排除三類標註缺陷:嚴重漏標(漏標率超50%)、嚴重截斷或偏移(切掉了物體關鍵視覺特徵)、無意義的超大框(覆蓋超過90%圖像面積,通常是圖像分類資料被強行轉成檢測資料)。過濾後剩31,701個資料來源。最終通過類別均衡採樣,得到超過4000萬個高品質樣本。格式上,box grounding任務的prompt範本類似於:Locate TARGET in this image and report its bounding box coordinates,響應格式使用特殊token包裹坐標,坐標歸一化到0到999的離散整數。point任務同理,但響應不要求輸出物體名稱,以便將點標記擴展到軌跡等更抽象的概念。後訓練:冷啟動資料後訓練需要少量但高精度的冷啟動資料。團隊圍繞四類任務建構這些資料:1. 計數(Counting)分粗粒度和細粒度兩類,如圖粗粒度計數:聚合多個密集檢測資料集,過濾掉物體過密、框太小、召回率低的樣本,用MLLM生成推理內容,分三步走:意圖分析、批次定位(同時找出所有候選物體)、基於視覺原語統計求和。細粒度計數:因為公開資料集太少,團隊基於GQA資料集建構了專屬流程,用MLLM生成帶有屬性約束的計數問題,再合成包含視覺原語的推理鏈。同時建構了ground truth為零的負樣本,增強模型抗幻覺能力。冷啟動計數資料共約10,000條。2. 空間推理和通用視覺問答如圖所示,資料來源包括自然場景(基於GQA)和合成場景(基於CLEVR工具鏈,支援可控場景生成和多跳推理)。還建構了負樣本,當查詢的物體或關係不存在時,模型學會基於視覺證據給出忠實的拒絕回答。共約9,000條冷啟動樣本。3. 迷宮導航如圖所示,這是為瞭解決純語言CoT無法精準描述不規則形狀軌跡的問題。迷宮用DFS、Prim和Kruskal演算法生成,確保路徑不能被輕易猜到。設計了三種拓撲結構:矩形網格、同心圓形迷宮、六邊形蜂巢迷宮。同時設計了無解迷宮,方法是先生成有解迷宮,找到解路徑後,在路徑中段故意放置幾堵牆,使迷宮看似可解但實際需要完整搜尋才能確認無解。難度通過網格大小控制:簡單迷宮只需串聯少量本地連通性檢查,最難的噩夢級迷宮需要持續追蹤數百步而不丟失已探索區域資訊。推理內容記錄了基於DFS的探索過程,每一步都用point坐標錨定到圖像上。共生成460,000條冷啟動樣本。4. 路徑追蹤如圖所示,任務是在一堆相互纏繞的線條中,沿指定曲線追蹤到它的終點。圖像由多條貝塞爾曲線生成,每條連接一個標記起點和終點。關鍵挑戰在於交叉點消歧:在兩條線交叉的地方,模型必須判斷那個分支是目標曲線的延續。設計了純色統一風格模式,所有線條顏色和粗細相同,強迫模型只靠曲率連續性判斷,而不是靠顏色捷徑。推理內容用一系列坐標序列表示追蹤過程,在曲率大或交叉密集的區域坐標點更密,在平直段坐標點更稀疏,模仿人類在視覺複雜區域放慢注意力的行為。共生成125,000條冷啟動樣本。後訓練流程:專才訓練再合併後訓練採用專才訓練後合併的策略,分四個子階段:專項SFT:訓練資料由70%通用多模態和純文字資料、30%視覺原語專項資料構成。box(thinking with grounding)和point(thinking with pointing)分開訓練,避免在專項資料量較少時產生模式衝突,分別得到專才模型FTwG和FTwP。專項RL:對FTwG和FTwP分別獨立進行強化學習,使用GRPO演算法。設計了三類獎勵模型同時監督:格式RM(規則型,驗證視覺原語格式是否正確,同時檢查是否存在重複框)、質量RM(基於LLM的生成式獎勵模型,檢查回答冗餘、思維與回答是否一致、是否存在自相矛盾、獎勵駭客行為等)、精準性RM(針對不同任務定製)。計數任務的精準性獎勵採用平滑指數衰減函數,對接近正確的預測輕懲,對偏差大的預測重懲,而非簡單的二值精確匹配。迷宮導航的獎勵分解為探索進展、探索完整性、穿牆懲罰、最終路徑有效性、答案正確性五個分項,確保獎勵訊號密集且資訊豐富。路徑追蹤的獎勵包含雙向軌跡評估:正向懲罰偏離真實路徑的預測點,反向懲罰模型跳過的路徑段,兩者缺一不可。RL結束後,將資料池按難度分為三級:所有N次rollout全對(Easy)、部分對(Normal)、全錯(Hard),只選Normal級資料用於GRPO訓練。訓練完成得到專才模型ETwG和ETwP。統一RFT:用ETwG和ETwP對資料池做rollout,生成RFT資料,保留所有Normal級樣本,隨機子採樣5%的Easy級樣本防止災難性遺忘,重新從預訓練基礎模型初始化訓練一個統一SFT模型F。On-Policy Distillation(OPD):RFT模型F相比專才模型ETwG/ETwP仍有性能差距。用線上蒸餾彌合這一差距,讓學生模型基於自己生成的軌跡學習教師模型(ETwG和ETwP)的輸出分佈,使用全詞表logit蒸餾,損失函數為反向KL散度的加權求和。實驗結果模型在多個任務上達到前沿水平:計數任務:Pixmo-Count上以89.2%的精確匹配率超過Gemini-3-Flash的88.2%,在DS_Finegrained_Counting上以88.7%超過Qwen3-VL-235B-A22B的87.2%。空間推理和通用VQA:在SpatialMQA(69.4% vs 67.0%)、MIHBench(85.3% vs 83.5%)、DS_Spatial_Reasoning(98.7% vs 97.2%)上均排名第一。拓撲推理:這是本文最突出的貢獻之一。所有前沿模型在DS_Maze_Navigation上的得分都在50%上下浮動,而本文模型達到66.9%。DS_Path_Tracing上,本文模型56.7%,排名第二的GPT-5.4隻有46.5%,Claude-Sonnet-4.6是30.6%。論文指出,這說明多模態大模型在拓撲推理上仍有大量提升空間。定性結果方面,如圖所示,在使用邊界框作為視覺原語的任務上,模型展示了粗粒度計數、細粒度計數、反常識視覺問答(判斷天平兩側那個更重)、世界知識關聯(識別金門大橋後判斷附近是否有NBA球隊)、行動建議(根據咖啡機和原料給出拿鐵製作步驟)等能力。此外,儘管後訓練的視覺原語資料不包含任何中文語料,模型仍能用中文進行思考和回答,這來自基礎模型繼承的多語言能力。如圖在使用點作為視覺原語的任務上,模型能對迷宮生成逐步DFS探索軌跡,並對路徑追蹤任務生成完整的坐標序列追蹤過程。侷限性論文也列出了三個當前的侷限:第一,受輸入解析度限制,模型在極細粒度場景下的視覺原語輸出精度有時不夠高。論文認為可以通過和現有解決感知鴻溝的方法結合來彌補。第二,當前的視覺原語思維能力依賴顯式的觸發詞才能啟動,未來目標是讓模型根據具體情境自主判斷是否呼叫這一機制。第三,用點作為視覺原語來解決複雜拓撲推理問題仍然困難,模型的跨場景泛化能力有限,這是重要的未來研究方向。訓練框架使用的是High-flyer的HAI-LLM(https://www.high-flyer.cn/en/blog/hai-llm),一個基於PyTorch的輕量級分佈式訓練框架。預訓練階段使用64K序列長度和FP8精度,後訓練階段序列長度擴展到256K,在Unified RFT和OPD階段使用FP4(MXFP4)量化。 (AI寒武紀)
獨家丨90億港元,極視角港交所敲鐘!34歲澳門青年帶來“AI視覺大模型第一股”
「IPO全觀察」欄目聚焦首次公開募股公司,報導企業家創業經歷與成功故事,剖析公司商業模式和經營業績,並揭秘VC、CVC等各方資本力量對公司的投資加持。三位同窗共同締造的AI電腦視覺演算法平台,今日在港股IPO。今日(3月30日),山東極視角科技股份有限公司(簡稱“極視角”)在港交所上市,發行價為40港元/股,開盤大漲近50%,市值突破68億港元,截至發稿,市值突破90億港元。2026年3月30日,極視角創始人陳振傑在極視角港交所主機板上市現場34歲的創始人陳振傑來自澳門,研究生畢業於北大光華管理學院,本科畢業於中山大學嶺南學院。十年前,他與中大兩位本科校友共創業,瞄準AI電腦視覺演算法賽道,成立了公司“極視角”。作為一家AI電腦視覺解決方案提供商,極視角為各行各業的企業提供涵蓋開發、部署及管理的端到端企業級解決方案。目前,極視角已建立由數十萬個AI演算法開發者組成的全球社區,其AI電腦視覺演算法商城展示了1,517種演算法,並已向累積逾3,000名政企客戶提供服務。2024年,極視角開始為企業提供大模型解決方案,這成為公司的第二增長曲線。近幾年,極視角的營收實現快速增長。營業收入由2022年的1.02億元增加至2023年的1.28億元,並進一步增至2024年的2.57億元,截至2025年前三個季度收入為1.36億元。與此同時,公司的毛利率由2022年的30.6%遞增至截至2025年前三個季度的44.9%。在極視角上市後的股東架構中,陳振傑、羅韻、橫琴極力為一致行動人,合計持股約26.54%,為單一最大股東集團。其中,陳振傑持股比例為14.27%,羅韻持股比例為3.90%,橫琴極力持股比例為8.37%。中美創興基金為最大機構股東,持股9.53%。另外,青島經濟技術開發區金融投資集團有限公司持股為4.84%,高通(中國)控股有限公司持股為4.42%,青島天奇前沿科技投資基金合夥企業(有限合夥)持股為4.30%,汕頭市華潤創新股權投資基金合夥企業(有限合夥)持股為4.27%。在十年前錨定AI視覺賽道陳振傑對商業的興趣,在他本科階段便初顯。大一時,原本在中山大學生命科學學院就讀的陳振傑,發現自己始終對商科的內容更感興趣,於是入學不久後,便轉專業到了中大嶺南學院學習經濟學。本科畢業後,他選擇前往北京大學光華管理學院繼續深造。在北大光華讀企業管理研究生的這段時間,陳振傑也隨其他同學一樣選擇到大企業去實習。在Bain&Company以及KPMG Advisory等諮詢機構嘗試過諮詢相關工作,也在騰訊移動遊戲戰略部門實習。但是這種在企業裡面做固定內容的工作模式始終讓陳振傑感到拘束。“當時在諮詢實習的時候,感覺每天就是上班等著下班。” 陳振傑坦言,自己是一個更喜歡做頂層戰略規劃的人,並通過執行驗證讓自己的想法可以真正落地。於是,在讀研期間,他便拉來了同為中山大學生命科學學院的兩位本科同學——羅韻和陳碩,決定一起嘗試創業。陳振傑(中)和羅韻(左)、陳碩(右)創業初期留影他們最終在2015年左右選擇了電腦視覺賽道,成立了現在的公司“極視角”。在當時網際網路大熱的創業氛圍裡面,人工智慧領域受到的關注度並不高,陳振傑對此有著自己獨特的考量。“我們當時選擇 AI 的原因並不是基於複雜的技術判斷,而是一個簡單邏輯:人力越來越貴,機器代替人力是必然的。以前機器生產替代了部分體力勞動,未來智能應用肯定會逐漸替代腦力勞動。” 陳振傑對行業趨勢做出了基本的判斷,“因此團隊決定切入人工智慧這個長期賽道,並接受行業可能需要幾年甚至十幾年才會爆發的現實考驗。”確定好創業方向後,創始團隊三人各司其職:正在北大光華管理學院就讀的陳振傑負責商業化、投融資,同時正在香港科技大學讀人工智慧領域博士的羅韻負責負責技術開發,擅長設計的陳碩負責公司的產品設計。剛成立不久、處於起步期的極視角面臨著來自四面八方的考驗。極視角的項目主要是給企業提供服務,然而在沒有足夠市場資源的情況下,想要和企業建立合作關係十分困難。因此,在拿到天使投資之前,他們幾乎沒有商業化業務。與此同時,公司需要先進行基礎的技術探索和原型驗證,才能更好地為企業客戶提供服務。而在2015年,AI仍然屬於一個非常新的賽道,很多投資機構並沒有投資計畫。“我們那時候其實就一個demo,拿投資其實挺難的,只能靠數量取勝,多聊投資人。” 那年春節,陳振傑通過前輩引薦,最終獲得中美創投創始合夥人胡浪濤的200萬元天使投資。“讓演算法像應用程式商店一樣易用”極視角最核心的業務,是滿足企業的AI計算視覺識別的需求和提供大模型解決方案。其中包括AI電腦視覺解決方案的研發、部署及全流程管理服務,目前已經為工業、能源、零售、交通等超100個行業場景的政企客戶提供端到端服務。極視角的商業模式在2015年,整體人工智慧環境還是一個弱人工智慧的階段。初期的極視角團隊在這個時候選擇自研演算法進入。在落地場景應用嘗試過程中,極視角先是選擇了“客流分析”這個細分領域,主要服務於零售行業,幫助商場和品牌店分析線下人流量與轉化率——這也成為了極視角的第一個業務切入點和現金流來源。但是很快地,陳振傑觀察到,這種模式下開發出來的演算法往往只能解決單一問題(如人臉識別),而無法應對工業、零售等各行各業多樣化的視覺識別需求。於是,受到此前實習過的網際網路平台模式的啟發,陳振傑聯想到了可以借助平台模式帶來的規模效應,打造一個可以連接智能供需的演算法平台,連結有演算法需求的企業客戶與個人演算法開發者。這便是極視角最早為AI演算法開發者打造的開放式演算法開發平台的雛形,即是現在極視角的“極市”。極市專注在電腦視覺演算法領域,為演算法開發提供基礎設施支援。隨著開發者社群的發展逐漸成熟,陳振傑與團隊開始嘗試承接更多樣化的客戶需求。但是,扮演一個純粹的“中間商”角色並不容易,最初簡單的撮合模式常常會遇到交付和維運的難題。為此,極視角在2016年便開始投入自研AI底層基礎設施、打造演算法開發平台。為了確保演算法交付的穩定性和可維運性,極視角將開發流程標準化,從原本的“中間商”轉變為真正的AI電腦視覺方案和大模型方案提供商。陳振傑這樣形容極視角和開發者的搭配:“開發者可能以前要自己完成端到端的閉環,現在我們留下最後一公里定製的演算法模組讓開發者來做,而我們最重要的就是把基礎建設給做好。”極視角的業務重心由此轉化為提供標準AI電腦視覺解決方案、定製AI電腦視覺解決方案及軟體定義的一體化AI解決方案。截至2025年9月30日,極視角的AI電腦視覺解決方案演算法商城已展示超過1,500種演算法,涵蓋超過100個行業。與此同時,經過十年時間的沉澱,AI演算法開發者全球社人數超過十萬個,並已累計向3,000名客戶提供穩健的基礎設施平台及廣泛的AI解決方案。“保持方向正確,路徑要靈活迭代”極視角基於研發基礎設施(即AI視覺語言模型及極市),隨後通過極星和極棧兩個交付平台,為企業提供解決方案。2019年和2021年,極視角的極星和極棧兩個平台上線。極星作為一款AI演算法推理及部署平台,主要協助企業快速建構並部署AI解決方案;而極棧則是專為大型企業、政府機構及學術研究機構設計的私有AI平台。在陳振傑看來,作為一個以技術為業務核心的企業,需要具備隨著時代的技術變化去快速調整的能力,特別是在當下的AI浪潮之中,迭代調整的速度要足夠快才能一直保持在行業前沿。在更早之前的AI 1.0 時代,極視角想要去識別一個新的場景任務的時候,需要開發者重新寫一個新的演算法才可以實現。但是,當行業整體的大模型技術能力開始快速增長的時候,陳振傑敏銳地意識到垂直的行業模型將迎來新的機會。因此,自研AI視覺語言大模型,對於一家專注計算視覺領域的企業顯然有著重要的價值。借助過去十幾年在監控攝影機識別領域的演算法工程經驗與資料,極視角打造了自己的AI視覺語言大模型。“我們自己在客戶側的評測結果就印證了這一點。相較於目前更多關注通用語言能力的開源模型,我們所研發的、專注於監控攝影機/無人機等視角下各類識別任務的視覺語言模型,目前在特定場景中的識別性能要比一般的通用大模型表現更優。” 陳振傑談到。除了自研視覺大模型,借助現有的通用大模型,極視角開發了智能體應用開發平台“極智”。為政企客戶打造大模型智能體開發與管理平台,可以滿足智能體在知識問答、流程自動化、系統協同、人機互動等關鍵場景的落地需求。“我們在這個平台上的定位,是希望為未來的大型企業提供基於Agent原生的企業經營管理流變革的系統支撐。” 陳振傑談到,大企業擁抱AI是一個顯性的需求,所以過去那一套基於純數位化時代的企業 ERP 系統,逐漸會變得不太適用。而未來在企業內部,人需要跟很多智能體協同合作完成許多任務。因此,陳振傑認為,一套安全且適用於人與Agent協同工作的作業系統,一定是未來企業需求的趨勢所在。隨著技術發展不停地迭代,在這樣一個人工智慧發展迅猛的時代,極視角唯一的選擇便是“跟上”。招股書顯示,極視角近幾年營業能力逐步增強。2022年、2023年、2024年營收分別為1.02億元、1.28億元、2.57億元;毛利分別為3108萬元、3308萬元、1億元;期內利潤分別為-6072萬、-5625萬、871萬元。2025年前三個季度,極視角營收同比增長近72%。具體來看,隨著極視角業務的多元化,各個業務佔據的收入比例也在不斷變化。2022年與2023年,AI電腦視覺方案的業務收入是極視角所有營收的來源;2024年,極視角新推出的大模型解決方案開始創收,AI電腦視覺方案的業務收入佔比為75.9%,新增的大模型解決方案的業務收入佔據了總收入的24.1%。極視角營收情況在中美創投投資人胡浪濤看來,“極視角每一年都有明顯的成長,每一年都給我們驚喜。” 除了天使輪投資以外,中美創投又在後續極視角的多輪融資中加碼追投。為何押注極視角?距離2015年極視角拿到中美創投的第一筆融資,到現在已經過去十一年,幾乎每隔一到兩年,極視角便會進行新一輪的融資。回想起十年前為何便看好極視角,胡浪濤說,“我們第一次見面時振傑才23歲,但是已經具備‘領袖氣質’了,富有激情、主動性強。我們當時想要找的就是這種不安分的,有強烈的成就慾望的年輕人,這也是我們找人才的一個基礎模型。”而從團隊來看,當時極視角的初創團隊包括羅韻、陳碩在內,三人又恰好都是本科同學,胡浪濤認為他們彼此之間比較有默契、能力互補,因此看好這樣的一個朝氣蓬勃的創業團隊。除了“人”的因素以外,賽道無疑是資本做投資判斷的另一個要素。當時極視角所做的電腦視覺客流分析項目,正好與中美創投看好的AI賽道高度契合,因此,初步的融資便顯得水到渠成。華潤創新基金董事總經理陳勇回憶起當時對極視角的A+輪投資,則是一個基於技術的根本判斷邏輯:最終能成為行業領軍並行展壯大的是那些能推動生產關係變革和大幅提高生產效率的創新技術。“在我們與極視角相識超過10年的時間裡,看到他們憑藉對傳統行業的行業實踐和深刻洞察,能將AI技術的發展與解決傳統行業痛點、難點相結合,這是一種跨界、跨行業的復合能力,是我們認為最具有差異化競爭力的能力,這也是為什麼極視角經過多年打磨和蛻變,一躍成為國內AI視覺演算法商城佼佼者的原因。”陳勇談到。隨後2018年,高通創投中國區董事總經理毛嵩在創業邦組織的“走進高通”活動中認識了陳振傑,其獨特的商業模式同樣給高通團隊留下了深刻印象。同年10月,在由高通創投、紅杉中國和創業邦聯合舉辦的創業大賽中,極視角作為TOP 10企業入圍決賽,毛嵩在和陳振傑進一步交流後,最終在2019年下半年決定對極視角進行B輪投資,並在後續輪次持續加投。對於陳振傑的印象,毛嵩用“穩健”一詞來形容,“他是一位元深度思考、獨立判斷的創業者,比如體現在對公司現金流的管理上,使公司始終處於‘進可攻、退可守’的狀態。” 陳振傑能在十年來頂住行業熱潮,堅持探索出一條將開發者社區營運與商業化成功結合的獨特路徑,毛嵩認為這實屬不易。極視角所處的AI電腦視覺解決方案行業及大模型解決方案行業競爭激烈,一方面行業技術發展迅速、客戶需求及偏好快速變化、新解決方案及服務頻繁推出,與此同時,新行業標準及慣例不斷出現。根據弗若斯特沙利文,中國新興企業級電腦視覺解決方案的市場規模,由2020年的22億元增至2024年的111億元,復合年增長率為49.9%。預計到2029年,將達到970億元,復合年增長率為54.3%。目前,按2024年中國新興企業級電腦視覺解決方案市場的銷售收入計,極視角在所有市場參與者中排名第八,市場份額為1.6%。對於極視角商業模式的判斷,幾位投資人有著相似的見解。毛嵩認為,極視角從類別上可以被歸類為“平台型公司”,在這樣的商業框架下,通過平台模式可以低成本、高效地滿足各行各業分散的長尾AI需求——這是極視角獨有的優勢,與單純的項目制或產品公司有本質區別。具體來看,這種模式極大地降低了單一解決方案的開發成本,使其能夠經濟地服務海量、分散的小客戶。同時隨著時間推移,其積累的開發者資源、行業解決方案和演算法池構成了強大的飛輪效應和競爭壁壘。在胡浪濤看來,公司早在發展初期就定位於建構AI的“基礎設施”和“高速公路網路”,而非單純的技術堡壘。其打造的中國最大的AI開發者社區“演算法商城”連接了海量開發者、合作夥伴與客戶,形成了難以被快速複製的生態壁壘,這使得業內都將極視角視當作合作夥伴而非競爭對手。極視角原成立於深圳,2021年11月,極視角將總部搬遷至山東青島,並引入了多家山東地方國資,如青島經濟技術開發區金融投資集團有限公司、山東陸海聯動投資基金合夥企業、青島國投資本管理有限公司等。創業要“回歸本源”,成為該成為的人作為一家主要面向政企客戶的企業,談到極視角的業務定位,陳振傑認為這往往取決於創始團隊的風格。“我們這群人的屬性就不太適合做C端,因為C端更多是意見領袖,需要對大眾消費者的需求提前探索挖掘;而我們的強項則更多是用專業化的能力去提供專業服務。” 在陳振傑看來,對於創業者而言,無論是創業的內容亦或是企業的風格,最終都會回歸到創業者這個人的本源。因此,成功的創業者範本並非只有一種,而應認清自己的本源屬性,並在此基礎上建構企業文化,用團隊來彌補個人的短板。“創業的共性就是能折騰,然後要不斷學習、適應變化。這些解決了之後,我覺得下面的基石可以按自己的風格來去建構,最終可以用團隊的互補搭配來平衡你的這個短板。”對於上市後極視角的發展方向,陳振傑坦言,還是會繼續夯實當前的AI視覺語言大模型,讓它能解決更多通用場景的識別需求;另一個則是繼續幫助企業做好組織流程的AI化轉型。 (創業邦)
精讀筆記:李飛飛-從文字到世界:空間智能是AI的下一個前沿
李飛飛博士於 2025 年 11 月發表長文《From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。這是其深耕 AI 領域 25 年的重要思考結晶。全文以圖靈 “機器能思考嗎” 這一經典問題開篇,指出當前以大語言模型為代表的 AI 雖在抽象知識處理上成績斐然,卻存在脫離現實物理世界的短板。文章系統闡釋了空間智能的定義與核心價值,將其定位為支撐人類認知、創造力與文明進步的核心能力,同時提出建構具備生成性、多模態性和互動性的 “世界模型” 是解鎖空間智能的關鍵,還勾勒出空間智能從賦能創意到革新機器人技術,再到推動科學醫療突破的應用演進路徑,為 AI 下一個十年的發展指明了方向。In 1950, when computing was little more than automated arithmetic and simple logic, Alan Turing asked a question that still reverberates today: can machines think? It took remarkable imagination to see what he saw: that intelligence might someday be built rather than born. That insight later launched a relentless scientific quest called Artificial Intelligence (AI). Twenty-five years into my own career in AI, I still find myself inspired by Turing’s vision. But how close are we? The answer isn’t simple.1950年,當電腦還僅僅停留在自動化運算和簡單邏輯運算的層面時,艾倫・圖靈提出了一個至今仍能引發廣泛共鳴的問題:機器能思考嗎?他能洞察到常人未及的可能性,這需要非凡的想像力 —— 智能或許有朝一日能夠被創造出來,而非天生就存在。這一深刻見解隨後開啟了一場名為人工智慧的不懈科學探索。在我投身人工智慧領域的第二十五個年頭,圖靈的這一願景依舊在不斷給予我啟發。但我們如今距離那個目標究竟還有多遠?答案並非簡單就能說清。以 AI 領域的源頭性問題切入,奠定了全文的思辨基調。李飛飛通過回溯圖靈的經典疑問,既致敬了人工智慧的啟蒙思想,又巧妙地引出了核心矛盾 —— 經過數十年發展,AI 仍未完全實現 “機器思考” 的終極目標。她強調智能 “可被建構” 的核心觀點,既是對後續探討空間智能 “可被研發” 的理論鋪墊,也暗示當前 AI 發展尚未觸及智能的核心本質,為後文批判大語言模型的侷限性埋下伏筆。Today, leading AI technology such as large language models (LLMs) have begun to transform how we access and work with abstract knowledge. Yet they remain wordsmiths in the dark; eloquent but inexperienced, knowledgeable but ungrounded. Spatial intelligence will transform how we create and interact with real and virtual worlds—revolutionizing storytelling, creativity, robotics, scientific discovery, and beyond. This is AI’s next frontier.如今,以大語言模型為代表的前沿人工智慧技術,已經開始改變我們獲取和運用抽象知識的方式。然而,這些模型就如同在黑暗中雕琢文字的匠人:能言善辯卻缺乏實踐經驗,學識淵博卻沒有堅實的現實根基。而空間智能將徹底改變我們創造以及與現實和虛擬世界互動的模式 —— 它會給敘事創作、創意設計、機器人技術、科學發現等諸多領域帶來革命性變革。這,正是人工智慧的下一個前沿陣地。這裡點出,當前 AI 的核心短板並拋出全文核心論點。作者用 “黑暗中的文字匠” 這一形象比喻,深刻揭露了大語言模型的致命缺陷:僅擅長文字層面的資訊處理,卻脫離對物理世界的真實感知與互動能力。同時,她明確將空間智能定義為 AI 的下一個前沿,打破了當下 AI 研發集中於文字多模態擴展的侷限,為行業指出了從 “語言理解” 向 “世界感知” 跨越的全新方向。The pursuit of visual and spatial intelligence has been the North Star guiding me since I entered the field. It’s why I spent years building ImageNet, the first large-scale visual learning and benchmarking dataset and one of three key elements enabling the birth of modern AI, along with neural network algorithms and modern compute like graphics processing units (GPUs). It’s why my academic lab at Stanford has spent the last decade combining computer vision with robotic learning.自進入人工智慧領域以來,對視覺與空間智能的探索一直是指引我前行的北極星。這也是我耗費數年時間建構 ImageNet 資料集的原因 ——該資料集是首個大規模視覺學習與基準測試資料集,與神經網路演算法以及圖形處理器這類現代計算裝置一起,共同構成了催生現代人工智慧誕生的三大核心要素。同樣出於這個初衷,我在史丹佛大學的學術實驗室,在過去十年間始終致力於將電腦視覺與機器人學習相結合的研究。該段落通過結合自身學術經歷,增強了論點的可信度與說服力。李飛飛將自己建立 ImageNet 的行為、實驗室的研究方向與空間智能探索強繫結,既體現了她對這一領域研究的連貫性與執著,也從側面印證了空間智能的重要性 —— 畢竟 ImageNet 作為現代 AI 的三大基石之一,其核心價值正是為機器提供視覺感知的基礎,而這正是空間智能的重要組成部分。這一段落也為後文介紹 World Labs 的研發目標做了背景鋪墊,展現出其研究理念的一脈相承。Generative AI models such as LLMs have moved from research labs to everyday life, becoming tools of creativity, productivity, and communication for billions of people. They have demonstrated capabilities once thought impossible, producing coherent text, mountains of code, photorealistic images, and even short video clips with ease. It’s no longer a question of whether AI will change the world. By any reasonable definition, it already has.以大語言模型為代表的生成式人工智慧模型,已經從科研實驗室走進了人們的日常生活,成為數十億人用於激發創意、提升效率與日常溝通的工具。這些模型展現出了曾經被認為難以企及的能力,能夠輕鬆生成邏輯連貫的文字、海量的程式碼、高度逼真的圖像,甚至是短影片片段。如今,問題已不再是人工智慧是否會改變世界。以任何合理的標準來衡量,它都已經做到了這一點。李飛飛在此處先客觀肯定了生成式 AI 的巨大成就,避免了因強調空間智能而全盤否定現有技術的片面性。她列舉文字、程式碼、圖像等生成能力,既符合大眾對當前 AI 的認知,也為後文轉折做了鋪墊。這種先揚後抑的表述方式,能讓讀者更易接受後續關於 AI 短板的論述 —— 承認現有技術的價值,才能更好地理解為何需要向空間智能方向突破,而非停留在現有成果上。Yet so much still lies beyond our reach. The vision of autonomous robots remains intriguing but speculative, far from the fixtures of daily life that futurists have long promised. The dream of massively accelerated research in fields like disease curation, new material discovery, and particle physics remains largely unfulfilled.然而,仍有諸多目標至今我們仍難以實現。自主機器人的願景雖然充滿吸引力,但依舊停留在推測階段,與未來學家們長期以來描繪的、成為日常生活中常見設施的場景相去甚遠。而在疾病治療、新材料研發、粒子物理等領域借助人工智慧大幅加速研究處理程序的夢想,在很大程度上也尚未實現。該段落通過列舉具體場景,具象化了當前 AI 的能力邊界。李飛飛選取自主機器人、疾病治療、新材料發現等具有高關注度的領域,這些領域的共同特點是都需要 AI 具備對物理世界的感知、推理與互動能力 —— 而這正是大語言模型所欠缺的。通過指出這些大眾與行業期待已久的目標尚未達成,有力地論證了單純依靠現有技術遠遠不夠,進一步凸顯了研發空間智能的必要性與緊迫性。Spatial intelligence is the scaffolding of human cognition. It operates when we passively observe or actively create. It drives our reasoning and planning, even on the most abstract topics. And it shapes how we interact—whether through language or action—with others and our environment.空間智能是人類認知體系的腳手架。無論我們是在被動觀察世界,還是主動創造事物,空間智能都在發揮作用。它推動著我們的推理與規劃能力,即便面對那些極為抽象的事物亦是如此。同時,它還影響著我們與他人、與周邊環境互動的方式 —— 無論這種互動是通過語言交流還是實際行動來實現。此處是對空間智能核心價值的高度凝練。李飛飛用 “認知的腳手架” 這一比喻,精準概括了空間智能的基礎性作用 —— 如同腳手架支撐建築一樣,空間智能是人類所有認知活動的底層支撐。她打破了人們對空間智能僅侷限於 “空間感知” 的淺層認知,指出其對抽象推理、人際互動等多方面的深層影響,這一界定極大地提升了空間智能的理論高度,也為後文闡述建構空間智能 AI 的多元價值提供了理論依據。Unfortunately, today’s AI does not yet think this way. Despite significant advances in recent years—multimodal LLMs trained on vast troves of multimedia data have introduced basic spatial awareness, and state-of-the-art robots can manipulate objects in highly constrained settings—AI’s spatial capabilities remain far from human levels.遺憾的是,如今的人工智慧尚未具備這樣的思考模式。儘管近年來人工智慧取得了諸多重大進展 —— 經過海量多媒體資料訓練的多模態大語言模型已經具備了基礎的空間感知能力,最先進的機器人也能夠在高度受限的環境中操控物體 —— 但人工智慧的空間智能水平與人類相比,仍存在巨大差距。作者直面當前 AI 在空間智能領域的現狀,既不否認技術進步,也不迴避核心差距。李飛飛認可多模態模型和先進機器人在空間能力上的微小突破,體現了論述的客觀性;同時明確指出這些能力與人類水平相去甚遠,形成強烈對比。這種表述既避免了對現有技術的全盤否定,又為後文提出建構 “世界模型” 來突破這一差距的解決方案做了完美鋪墊,讓後續的技術路徑建議更具針對性。Building world models that unlock spatial intelligence requires something far more ambitious than LLMs: a new kind of generative model whose ability to understand, reason about, generate, and interact with semantically, physically, geometrically, and dynamically complex worlds—virtual or real—far exceeds that of today’s LLMs.要建構能夠解鎖空間智能的世界模型,需要開展一項遠比研發大語言模型更具挑戰性的工作:我們需要打造一種全新的生成式模型。這種模型在理解、推理、生成以及與語義層面、物理層面、幾何層面和動態層面均極為複雜的世界(無論是虛擬還是現實世界)進行互動的能力,都要遠超如今的大語言模型。這裡明確給出了突破空間智能瓶頸的核心方案 —— 建構世界模型,並凸顯了該方案的挑戰性。李飛飛強調這種新模型需跨越語義、物理、幾何、動態等多個維度,這一定位精準抓住了空間智能的核心需求:機器要像人類一樣綜合多維度資訊理解世界。同時,將其與成熟的大語言模型對比,既讓讀者清晰感知到研發難度,也暗示這一突破將帶來 AI 領域的下一次質的飛躍,為全文的技術構想劃定了核心方向。 (晚筀筆記)思維導圖參考:
突破AI視覺“選擇性失明”,哈工大首次實現指令驅動的全景式感知
對於AI視覺多模態大模型只關注顯著資訊這一根本性缺陷,哈工大GiVE實現突破!當今的多模態大模型(如BLIP-2、LLaVA)看似可以理解圖像,實則存在一個根本性的缺陷:它們像戴著“眼罩”的觀察者,只能關注圖片中最顯眼的主體,卻對使用者關心的細節視而不見。例如,當被問及“圖中左側的自行車”或“背景廣告牌上的文字”時,模型常因視覺編碼器的“視野侷限”而答非所問——要麼誤判對象位置,要麼完全忽略非顯著資訊。這種“選擇性失明”,嚴重制約了AI在醫療診斷、自動駕駛、智能安防等場景的深度應用。哈工大(深圳)博士生李俊劼最新研究成果《GiVE: Guiding Visual Encoder to Perceive Overlooked Information》,為AI視覺裝上“動態變焦鏡頭,首次實現“指令驅動的全景式感知”!與傳統模型的“固定視角”不同,GIVE能根據使用者需求靈活調整注意力焦點:無論是被遮擋的物體(如鞋盒中的鞋子)、分散的同類目標(如人群中的特定行人),還是隱藏在複雜背景中的特定目標(如路邊草地),都能精準捕捉並關聯語義資訊。實驗表明,GiVE在圖像分類、圖文檢索等任務中,關鍵指標有顯著提升,解決了傳統模型“見木不見林”的痛點。GiVE通過引入一系列創新設計,重新定義了視覺編碼的效率和精度。它採用了AG-Adapter模組,讓模型在解析圖像時能靈活關注到各類隱性細節,不僅捕捉到顯著特徵,還能兼顧那些平時容易忽略的部分。同時,GiVE設計了三個專門的loss,從不同角度最佳化圖像與文字、圖像之間以及圖像內目標的關聯,使得視覺資訊的提取更加全面精準。這一綜合方案不僅提升了多模態任務的表現,也為建構更智能、更統一的多模態系統鋪平了道路,這不僅是技術的革新,更是AI從“粗看”到“細察”的認知躍遷——機器的眼睛,終於學會了“按需聚焦”。GiVE效果:強大的性能1、讓視覺編碼器能夠聽到文字指令提示研究團隊設計了一個“注意力引導介面卡”(AG-Adapter)模組,作為外掛嵌入現有視覺編碼器的層與層之間。這個 AG-Adapter可以被理解為在視覺網路中加入了一雙“耳朵”,使得視覺編碼器在看到圖像的同時還能聽到文字指令的提示。即便是和InstructBLIP這樣具有指示跟隨編碼能力的模型比較,GiVE也可以用5%的可訓練參數達到更好的性能。2.視覺感知的靈活性、有效性和完備性從可視化注意力可以看出, GiVE可以讓傳統視覺編碼器靈活聚焦。3.在多模態大模型中的應用正確的聚焦為語言模型提供了充分的上下文資訊,有助於生成真實可信的響應。這裡並沒有重新訓練LLaVA模型,而是簡單地將GiVE應用到其使用的CLIP編碼器上。這也體現了GiVE的易用性。GiVE出手:讓視覺模型聽懂指令,不放過任何細節GiVE旨在突破傳統視覺編碼器對圖像關鍵資訊捕捉的侷限,通過全新設計的模組與訓練策略,實現更全面、精準的視覺理解。1、核心元件——AG-Adapter模組靈巧:精確的視覺指導GiVE引入了Attention-Guided Adapter(AG-Adapter)模組,能夠根據文字提示動態調整視覺編碼器的關注區域。不同於傳統編碼器只聚焦於圖像中顯著的部分,AG-Adapter使得模型在解析圖像時能關注到容易被忽略的細節,從而提高了有效視覺資訊的提取效果。輕便:無縫整合與輕量設計該模組以相對較低的額外參數成本嵌入到現有視覺編碼網路中,保證了高效的推理速度和大規模訓練的可擴展性。同時,它作為一個獨立的元件,也方便開發者在不同任務中進行靈活偵錯和替換。2、創新訓練目標——三大Loss函數為了使模型能夠更好地理解並傳遞豐富的視覺語義資訊,GiVE設計了三項專門的訓練目標:對象級圖像-文字對比(Object-focused Image-Text Contrast,OITC)Loss:這一損失函數促使模型在視覺和文字之間建立更緊密的語義聯絡,通過對比學習有效區分不同對象的特徵,使得圖像編碼結果能夠準確反映文字中描述的對象資訊。對象級圖像-圖像對比(Object-focused Image-Image Contrast,OIIC)Loss:OIIC Loss側重於提高同一圖像內部多個目標之間的關聯一致性,確保模型能夠在複雜場景中提取到各個目標的共性和細微差別,從而大幅提升對象檢索的精準性。對象級圖像辨識(Object-focused Image Discrimination,OID)Loss:通過對圖像中目標存在性的二分類判別,OID Loss幫助模型更全面地捕捉到圖像中可能被遺漏的細節,為後續多模態任務提供更加豐富和精準的視覺特徵表示。3、資料基礎——多目標指令資料集(MOInst)為了更好地訓練上述模組和Loss函數,GiVE團隊建構了專門的Multi-Object Instruction(MOInst)資料集。該資料集不僅覆蓋了多種對象類別,還為每個圖像提供了成對的精細文字指令與對象描述,從資料層面確保模型在訓練過程中能夠學習到更細粒度的對象關係和語義表達。組成:資料集包含8萬張圖像、24萬條文字標註及對應的指示對象,覆蓋264類物體關聯場景,為後續研究提供持續助力。建構:資料集是在現有大語言模型的幫助下,以半自動的方式建立的,輔以少量人工協助。這種人工稽核和自動化工具相結合的方式,確保了資料集的精準性和一致性,並剔除可能存在的噪聲和錯誤標註。未來方向GIVE的願景,是讓AI的“眼睛”不僅“看得見”,更能“看得細”“看得懂”——從靜態圖像到動態視訊的時序解析,從2D畫面到3D點雲的空間建模,從單一視覺模態到跨文字、語音、感測器的多維融合。未來,這項技術將滲透至醫療影像的早期病灶定位、自動駕駛的複雜環境感知、工業質檢的微觀缺陷識別,甚至機器人對非結構化場景的自主互動。精細化視覺感知,正成為打通AI“感官”與“認知”的關鍵橋樑,推動通用智能從實驗室邁向真實世界的每一個角落。更多細節歡迎查閱。程式碼:https://github.com/AlephZr/GiVE/tree/main資料集:https://huggingface.co/datasets/DF1024/MOInst (量子位)