#DeepSeek-AI
DeepSeek給AI裝了根賽博手指,於是它能看見了
五一假期前一天,DeepSeek突然扔出來一份視覺多模態技術報告。點開之前,我心裡大概是有個預期的,無非就是具體能看到多遠、看得多清楚。畢竟過去一年,多模態模型基本都在往這個方向卷。OpenAI講thinking with images,讓模型在推理過程中裁剪、放大、旋轉圖片;Gemini、Claude也都在想辦法讓模型處理更高解析度、更複雜的視覺輸入。大家的共同假設是,只要模型看得更細,視覺推理自然就會更強。但DeepSeek這份報告看下來,你會發現,他們完全走上了另一條路。DeepSeek沒有把重點放在“讓模型看到更多像素”上,他們把注意力放在了一個更底層的問題上。就算模型已經看清楚了,但是它在推理過程中,你怎麼能保證模型和你指的是同一個東西?其實這是多模態推理裡最容易被忽略的死穴。人類看圖時,可以用手指去標記對象。比如“這個人是誰誰誰”、“那個人是誰誰誰”。但模型那知道你說的這個是那個?模型只能用語言說“左邊那個”“上面那個”“這條線”。一旦畫面複雜起來,語言指代就會漂移,推理也會跟著崩。於是DeepSeek就說了,那就給模型一根“手指”不就完了?它把點和邊界框變成模型思考時的基本單位,讓模型能夠一邊用這根賽博手指指著對象,一邊進行推理。01. 從連續視覺到離散符號DeepSeek在這份技術報告裡,提出了一個很有意思的問題。他們認為,多模態模型真正難的地方,不是看見圖像,而是在連續推理過程中穩定地指向同一個視覺對象。就比如你跟你的朋友說“菜市場裡,張老太太的那個攤位賣的菜最新鮮”。但是菜市場裡老頭老太太多了去了,那個是張老太太?但如果你直接用手指著說“就是那個”,你朋友就會馬上明白。DeepSeek將這個問題命名為“引用鴻溝”(Reference Gap)。過去一年,幾乎所有前沿多模態模型都在解決“感知鴻溝”(Perception Gap)這個問題。假如說有一張照片放在你面前,如果照片太模糊、解析度太低,你可能看不清楚裡面的小字或者遠處的細節。AI也一樣,如果輸入的影像品質不夠、處理方式不對,它就會“看不清”,這就是感知鴻溝。GPT、Claude、Gemini這些模型不斷提高解析度,引入高解析度裁剪、動態分塊、多尺度處理,目的就是讓模型能看到更多細節。這個方向當然有價值,但DeepSeek在報告裡指出,就算模型看得再清楚,在複雜的空間推理任務上,仍然會出現邏輯崩潰。問題出在自然語言本身。照片裡有十幾隻狗,你說“左邊那隻狗”,那模型就沒辦法理解你說的具體是那只。還有更絕的,如果你讓模型數一下照片裡狗的數量,那麼模型在推理過程中很容易就搞不清楚自己已經數過那些、還有那些沒數。報告中還提到了迷宮導航這樣極端的情況,純語言根本無法精準描述不規則形狀的路徑和複雜的拓撲關係。語言作為一種指代工具,在連續的視覺空間裡天生就是模糊的。它擅長抽象概念和因果關係,但在空間定位和拓撲關係上,語言的表達能力存在根本性的侷限。可DeepSeek本身就是個通用的語言模型,那應該怎樣解決呢?於是就有了文章開頭提到的這根“手指”。他們提出的核心概念是“視覺基元”(Visual Primitives),具體來說就是把邊界框(bounding boxes)和點(points)這兩種電腦視覺裡最基礎的空間標記,提升為“思維的最小單位”。以前的多模態模型雖然也能畫框標註物體,但只是在最後給你看個結果,證明“我找到了”。就像考試時,你只交答案,不寫解題過程。也有一些研究讓AI在思考過程中畫框,但目的只是為了“看得更準”,框框只是個輔助工具。就好比你做數學題時用草稿紙,草稿紙只是幫你算得更清楚,不是解題思路的一部分。DeepSeek要做的完全不同。他們把這些空間標記直接嵌入到模型的推理過程中,讓它們成為推理的有機組成部分。模型在思考的時候,不只是用語言描述“我看到了一隻狗”,還同時輸出“我看到了一隻狗,它在這裡:[[x1,y1,x2,y2]]”。這個機制被DeepSeek稱為“邊推理邊指向”(point while it reasons)。模型的每一步思考都錨定在圖像的具體坐標上。技術報告裡就給了這樣一個例子:模型從起點出發,一路探索、回溯、再嘗試,最後輸出了一串完整的坐標路徑,每個坐標都對應迷宮裡走過的一個點。這樣一來,模型就不會在推理過程中“迷路”。它不會搞不清楚自己在說什麼、指什麼。每個視覺對象都有了明確的空間錨點,推理過程變得可追蹤、可驗證。這條技術路線和OpenAI的方向形成了有趣的對比。OpenAI在o3和o4-mini的官方介紹裡明確提到了“thinking with images”的概念,即模型可以把圖像納入推理鏈,並通過裁剪、放大、旋轉等方式處理圖像。這個方向的重點是讓圖像本身成為思維鏈的一部分,模型可以在推理過程中生成新的圖像、修改圖像、對圖像進行操作。OpenAI的路線強調的是通用能力,視覺、程式碼、搜尋、檔案、工具呼叫一起協作。模型擁有一個強大的“視覺工作台”,可以靈活地處理各種視覺任務。DeepSeek的路線則更“符號化”一點。它讓坐標進入思維鏈。模型在推理文字裡顯式寫出邊界框和點的坐標,把視覺對象變成推理時可復用的錨點。這就導致,OpenAI的視覺推理髮生在內部,使用者只能看到最終答案和必要解釋,中間的視覺處理過程是黑箱。DeepSeek則故意把中間視覺錨點顯式化,讓推理過程完全透明。DeepSeek這樣做,好處是推理過程更容易被訓練、檢查和打分。這也讓它更容易設計格式、質量和任務級獎勵。尤其在迷宮、路徑追蹤這類任務中,可以對路徑合法性、軌跡覆蓋度等給出更細的反饋。模型不只是學會輸出正確答案,更是學會了用視覺基元進行推理的方法。02. 效率才是核心DeepSeek這份報告裡有一個很容易被忽略但極其重要的細節,他們的模型在處理圖像時,用的token數量遠遠少於其他前沿模型。報告裡有一張對比圖,展示了不同模型處理一張800×800解析度圖像時消耗的token數量。Gemini-3-Flash約1100個,Claude-Sonnet-4.6約870個,GPT-5.4約740個,Qwen3-VL約660個,DeepSeek約361個,並在KV快取裡只保留約90個條目。這個差距不是一點點。DeepSeek用的token數量只有Gemini的3分之1,KV快取條目更是只有10分之1左右。這種極致的效率是怎麼實現的?DeepSeek用了一個叫“壓縮稀疏注意力”(Compressed Sparse Attention, CSA)的機制。你可以這樣理解,假如說你給朋友看一張全家福,你不會說“從左數第237個像素開始有一塊紅色區域……”,你會直接說“左邊是我媽,右邊是我爸”。DeepSeek-ViT先把圖像壓成更少的視覺token,CSA再把這些視覺token在KV快取中的表示進一步壓縮。這個機制在DeepSeek-V4-Flash模型上就使用過,現在被應用到了視覺多模態之中。具體的壓縮流程是這樣的。一張756×756的圖像,包含571536個像素。這些像素首先經過ViT處理,以14×14的patch size切分,生成2916個patch token。然後進行3×3的空間壓縮,把每9個相鄰的token沿著通道維度壓縮成1個,變成324個視覺token。這324個token進入大語言模型進行預填充。最後,CSA機制會把這些視覺token在KV快取裡再壓縮4倍,最終只保留81個條目。從571536個像素到81個KV快取條目,整個壓縮比達到了7056倍。一般AI大廠都是在用暴力方法去堆計算資源,而DeepSeek則是在資訊理論層面去做取捨,只留下最直觀易懂的資訊。其最直接的結果,就是推理速度變快了許多。圖像token數量直接影響模型的推理延遲。在自回歸生成過程中,每生成一個新token,模型都需要對之前所有token的KV快取進行注意力計算。如果圖像佔用了1000個token,那麼每次生成都要對這1000個token做注意力。如果只佔用90個,計算量就大幅減少。對於需要即時響應的應用場景,比如機器人視覺、自動駕駛、即時視訊分析,推理速度的提升起到了決定性作用。然後它記憶體佔用得也少。KV快取是大模型推理的記憶體瓶頸。特別是在處理長上下文或批次推理的時候,KV快取會佔用大量視訊記憶體。DeepSeek把視覺token的KV快取壓縮到90個條目,意味著可以在同樣的硬體上處理更多圖像,或者處理更長的多輪對話。這對於實際部署非常重要。很多公司的多模態模型在實驗室裡表現很好,但一到實際部署就遇到成本問題。每張圖片消耗的token越多,推理成本就越高,可支援的並行使用者就越少。DeepSeek的效率優勢在規模化部署時會被放大。同時也變相提高了模型的上下文容量。如果一張圖片要佔用1000個token,那麼在一個128k的上下文窗口裡,只能放100多張圖片。如果只佔用300個token,就可以放400多張。這對於需要處理多圖對話、長視訊分析、大量文件理解的場景至關重要。DeepSeek的模型可以在一個對話裡處理更多圖像,可以對比分析幾十張甚至上百張圖片,可以追蹤視訊裡的長期變化。最關鍵的是訓練成本。雖然報告主要講推理效率,但這種壓縮機制在訓練階段同樣有效。更少的視覺token意味著更小的計算圖,更快的訓練速度,更低的硬體要求。DeepSeek一直以“用更少資源做出更好效果”著稱。從R1的強化學習訓練,到V4的MoE架構,再到現在的視覺多模態,這種效率優先的哲學貫穿始終。但這裡有一個關鍵問題。壓縮會不會損失資訊?DeepSeek並沒有否認壓縮會帶來資訊損失。它的主張是,在這組空間推理和計數任務上,壓縮後的表徵仍然足夠有效。每一步壓縮都在保留對推理最重要的資訊,丟棄冗餘和噪聲。其實前面提到的DeepSeek的視覺基元機制,它本身也是一種資訊壓縮。一個邊界框用4個數字就能精確定位一個物體,一個點用2個數字就能標記一個位置。這些離散符號攜帶的資訊密度遠高於原始像素。從實驗結果看,這種壓縮沒有損害性能,反而在某些任務上帶來了提升。這說明對於很多視覺推理任務,瓶頸不在於看得不夠清楚,而在於沒有找到合適的表徵方式。這種效率優勢還證明了多模態智能不一定需要更大的模型、更多的算力、更高的成本。從DeepSeek時刻誕生至今,這家公司一直有一條暗線,“真正的智能不在於算力,而在於對問題本質的理解”。當你真正理解了視覺推理需要什麼,你就不需要那麼多token。當你找到了合適的表徵方式,你就不需要那麼大的模型。從這個角度看,DeepSeek的極致效率不是目的,而是副產品。真正的目的是找到視覺推理的正確範式。效率只是證明了這個範式是對的。03. 未竟之事DeepSeek在報告的侷限性部分,坦誠地列出了當前方法存在的幾個問題。這些問題不是技術細節上的小瑕疵,而是指向了視覺推理的下一個階段。第一個問題是觸發詞依賴。報告裡明確說,當前的“用視覺基元思考”能力需要顯式的觸發詞(explicit trigger words)才能啟動。也就是說,模型還不能自然、自主地決定“什麼時候該畫框、打點”。它意味著模型還沒有真正學會判斷什麼時候需要使用視覺基元,什麼時候用語言就夠了。理想的情況是,模型應該能根據任務的性質自主決策。但當使用者問“數一數圖裡有幾隻狗”的時候,模型應該自動切換到視覺基元模式,用邊界框來輔助計數。從技術上說,這需要在模型裡建立一個元認知層。這個元認知層可以評估當前任務的複雜度,判斷純語言推理是否足夠,決定是否需要呼叫視覺基元。DeepSeek目前還沒有實現這個元認知層,但他們已經明確了方向。未來的版本可能會讓模型學會自主決定推理策略,而不是依賴外部觸發。第二個問題是解析度限制。報告提到,受輸入解析度限制,模型在細粒度場景下的表現還不夠好,輸出的視覺基元有時不夠精確。這個問題和DeepSeek的效率優先策略有關。為了控制token數量,他們限制了視覺token的範圍在81到384之間。對於超出這個範圍的圖像,會進行縮放處理。這種設計在大部分場景下是合理的,但在一些需要極高精度的任務上就會遇到瓶頸。比如醫療影像分析需要識別微小的病灶,工業質檢需要發現細微的瑕疵,這些場景對解析度的要求很高。DeepSeek在報告裡提到,這個問題可以通過整合現有的高解析度方法來解決。也就是說,他們的視覺基元框架和傳統的高解析度裁剪方法不是對立的,而是互補的。我覺得DeepSeek可以出個混合方案。具體就是對於大部分常規任務,使用壓縮的視覺表徵和視覺基元推理,保持高效率。對於需要細粒度分析的局部區域,動態呼叫高解析度裁剪,提取更詳細的視覺資訊。這樣既保持了整體效率,又滿足了局部精度需求。這種混合方案的關鍵是讓模型學會判斷那些區域需要高解析度處理。於是這就又回到了剛才元認知的問題上。第三個問題是跨場景泛化。報告提到,用點作為視覺基元來解決複雜拓撲推理問題仍然很難,模型的跨場景泛化能力有限。這個問題在迷宮導航和路徑追蹤任務上表現得比較明顯。雖然DeepSeek在自己建構的測試集上達到了66.9%和56.7%的精準率,超過了其他模型,但這個數字本身還不夠。更重要的是,這些任務都是在合成資料上訓練和測試的。迷宮是用演算法生成的,路徑追蹤的曲線也是程序化繪製的。當模型遇到真實世界裡的拓撲推理問題時,比如在真實地圖上規劃路徑,在複雜管線圖裡追蹤連接關係,表現可能會下降。DeepSeek的方法是通過大規模、高多樣性的資料來提升泛化能力。他們爬取了97984個資料來源,經過嚴格過濾後保留了31701個,最終得到超過4000萬個樣本。在迷宮和路徑追蹤任務上,他們也設計了多種拓撲結構、視覺風格、難度等級,試圖覆蓋儘可能多的變化。然而資料多樣性只是泛化能力的一部分。模型是否真正理解了拓撲推理的本質?還是說它只是記住了訓練資料裡的模式而已?另外,DeepSeek的視覺基元是一套新的表徵系統,需要專門的資料格式、訓練流程、評估方法。這和現有的多模態生態不完全相容。大部分多模態資料集和評測基準都是基於傳統的“圖像+文字”範式設計的,沒有考慮視覺基元。如果要在這些基準上評測DeepSeek的模型,要麼需要關閉視覺基元功能,要麼需要重新設計評測方法。其他研究者如果想復現或改進這個工作,需要重新建構整個資料和訓練流程,門檻比較高。DeepSeek能在報告中談及這些問題,說明他們對自己的工作有清醒的認識。這可能比給出完美答案更有價值。因為真正推動社會進步的,往往不是答案,而是問題。 (字母AI)
DeepSeek剛解決了AI視覺最後一塊拼圖:極低成本+精準視覺定位,AI接管電腦已無死角
DeepSeek多模態模式相信有很多人已經灰度到了,對應的技術報告也來了,可以說DeepSeek 解決了可靠且廉價的電腦代理的最後一個難題DeepSeek放出了一篇新論文,解決的是多模態大模型裡一個被長期忽視的根本性問題。不是看不清圖,而是說不清位置。論文名叫 Thinking with Visual Primitives(基於視覺原語的思考),來自DeepSeek、北大和清華的聯合團隊。paper:https://github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf問題出在那裡現有的多模態大模型,推理過程基本被鎖死在文字空間裡。模型用Chain-of-Thought(CoT)一步步推導,聽起來很合理,但有個致命缺陷:語言本身是模糊的,它沒辦法精確指向圖像裡某個具體位置。比如你問模型:圖裡左邊那個小杯子旁邊的那個東西是什麼顏色?模型的語言推理鏈條很快就會亂掉,它"想著"一個物體,實際上卻已經搞混了另一個。這就是論文裡定義的Reference Gap(指代鴻溝)。和它對應的是另一個已經被廣泛研究的問題:Perception Gap(感知鴻溝),即模型看不清高解析度圖像裡的細節。前者已有不少工作在做,比如高解析度裁切、動態分塊。但後者一直沒有被正面解決。論文的核心判斷是:就算感知做到完美,只要指代還靠自然語言,模型在密集計數、複雜空間推理、拓撲導航這類任務上就會持續出錯,產生連鎖幻覺。DeepSeek解法:讓模型一邊想一邊指DeepSeek的方案叫 Thinking with Visual Primitives,思路:把空間標記,也就是點(point)和邊界框(bounding box),升格為"最小思維單元",直接插進模型的推理鏈條裡。人類數一堆密集的東西時,會用手指逐個點過去。這個框架做的事情和這個一樣:模型每推理一步,就可以在圖上"戳一下",把抽象的語言思維錨定到圖像的物理坐標上。兩種視覺原語各有分工:邊界框適合捕捉具體物體的位置和大小;點則更適合抽象的視覺指代,比如軌跡追蹤或拓撲推理中的路徑節點。架構:極致的token壓縮這套框架建立在一個對token效率做到極致的架構上。語言骨幹是 DeepSeek-V4-Flash,總參數284B,推理時啟動參數13B。視覺編碼用的是 DeepSeek-ViT,一個從頭訓練的ViT,支援任意解析度輸入。它先用14×14的patch大小把圖像切成patch token,然後在ViT輸出端用3×3空間壓縮,把每9個相鄰patch token合併成1個。進入LLM之後,還有一層 Compressed Sparse Attention(CSA) 機制,對視覺token的KV cache再壓縮4倍。整體下來的壓縮比是7056倍。舉個具體的數字:一張756×756的圖,原始像素展開是571,536個,經過patch embedding變成2,916個ViT token,3×3壓縮後變成324個,進入LLM後KV cache裡只剩81個視覺條目。如圖所示,處理一張800×800的圖,本文模型消耗約361個token(KV cache裡只有約90條),而Claude-Sonnet-4.6需要約870個,Gemini-3-Flash需要約1100個,GPT-5.4需要約740個。token用量不到競品的三分之一,但在7個基準測試上的平均分是77.2%,高於Gemini-3-Flash的76.5%和GPT-5.4的71.1%。訓練:四個階段,從專才到通才訓練流程分為預訓練和後訓練兩大階段預訓練目標是讓模型學會輸出視覺原語。訓練資料來自大規模網路爬取。僅在Huggingface上,團隊就用官方API篩選了帶有Object Detection或Grounding標籤的資料集,按熱度排名初篩,排除所有驗證集和測試集,再用LLM agent解析README檔案,統一格式。最終爬取了97,984個box grounding相關資料來源。原始資料質量參差不齊,團隊設計了兩步過濾流程:第一步是語義審查,用MLLM自動識別並丟棄三類問題資料:無意義的機器碼和亂碼標籤、無法泛化的私有實體(比如MyRoommate這類私人稱呼)、歧義縮寫和主觀評價(比如工業檢測裡的OK/NG)。這一步從97,984個源過濾到43,141個。第二步是視覺幾何質量審查,排除三類標註缺陷:嚴重漏標(漏標率超50%)、嚴重截斷或偏移(切掉了物體關鍵視覺特徵)、無意義的超大框(覆蓋超過90%圖像面積,通常是圖像分類資料被強行轉成檢測資料)。過濾後剩31,701個資料來源。最終通過類別均衡採樣,得到超過4000萬個高品質樣本。格式上,box grounding任務的prompt範本類似於:Locate TARGET in this image and report its bounding box coordinates,響應格式使用特殊token包裹坐標,坐標歸一化到0到999的離散整數。point任務同理,但響應不要求輸出物體名稱,以便將點標記擴展到軌跡等更抽象的概念。後訓練:冷啟動資料後訓練需要少量但高精度的冷啟動資料。團隊圍繞四類任務建構這些資料:1. 計數(Counting)分粗粒度和細粒度兩類,如圖粗粒度計數:聚合多個密集檢測資料集,過濾掉物體過密、框太小、召回率低的樣本,用MLLM生成推理內容,分三步走:意圖分析、批次定位(同時找出所有候選物體)、基於視覺原語統計求和。細粒度計數:因為公開資料集太少,團隊基於GQA資料集建構了專屬流程,用MLLM生成帶有屬性約束的計數問題,再合成包含視覺原語的推理鏈。同時建構了ground truth為零的負樣本,增強模型抗幻覺能力。冷啟動計數資料共約10,000條。2. 空間推理和通用視覺問答如圖所示,資料來源包括自然場景(基於GQA)和合成場景(基於CLEVR工具鏈,支援可控場景生成和多跳推理)。還建構了負樣本,當查詢的物體或關係不存在時,模型學會基於視覺證據給出忠實的拒絕回答。共約9,000條冷啟動樣本。3. 迷宮導航如圖所示,這是為瞭解決純語言CoT無法精準描述不規則形狀軌跡的問題。迷宮用DFS、Prim和Kruskal演算法生成,確保路徑不能被輕易猜到。設計了三種拓撲結構:矩形網格、同心圓形迷宮、六邊形蜂巢迷宮。同時設計了無解迷宮,方法是先生成有解迷宮,找到解路徑後,在路徑中段故意放置幾堵牆,使迷宮看似可解但實際需要完整搜尋才能確認無解。難度通過網格大小控制:簡單迷宮只需串聯少量本地連通性檢查,最難的噩夢級迷宮需要持續追蹤數百步而不丟失已探索區域資訊。推理內容記錄了基於DFS的探索過程,每一步都用point坐標錨定到圖像上。共生成460,000條冷啟動樣本。4. 路徑追蹤如圖所示,任務是在一堆相互纏繞的線條中,沿指定曲線追蹤到它的終點。圖像由多條貝塞爾曲線生成,每條連接一個標記起點和終點。關鍵挑戰在於交叉點消歧:在兩條線交叉的地方,模型必須判斷那個分支是目標曲線的延續。設計了純色統一風格模式,所有線條顏色和粗細相同,強迫模型只靠曲率連續性判斷,而不是靠顏色捷徑。推理內容用一系列坐標序列表示追蹤過程,在曲率大或交叉密集的區域坐標點更密,在平直段坐標點更稀疏,模仿人類在視覺複雜區域放慢注意力的行為。共生成125,000條冷啟動樣本。後訓練流程:專才訓練再合併後訓練採用專才訓練後合併的策略,分四個子階段:專項SFT:訓練資料由70%通用多模態和純文字資料、30%視覺原語專項資料構成。box(thinking with grounding)和point(thinking with pointing)分開訓練,避免在專項資料量較少時產生模式衝突,分別得到專才模型FTwG和FTwP。專項RL:對FTwG和FTwP分別獨立進行強化學習,使用GRPO演算法。設計了三類獎勵模型同時監督:格式RM(規則型,驗證視覺原語格式是否正確,同時檢查是否存在重複框)、質量RM(基於LLM的生成式獎勵模型,檢查回答冗餘、思維與回答是否一致、是否存在自相矛盾、獎勵駭客行為等)、精準性RM(針對不同任務定製)。計數任務的精準性獎勵採用平滑指數衰減函數,對接近正確的預測輕懲,對偏差大的預測重懲,而非簡單的二值精確匹配。迷宮導航的獎勵分解為探索進展、探索完整性、穿牆懲罰、最終路徑有效性、答案正確性五個分項,確保獎勵訊號密集且資訊豐富。路徑追蹤的獎勵包含雙向軌跡評估:正向懲罰偏離真實路徑的預測點,反向懲罰模型跳過的路徑段,兩者缺一不可。RL結束後,將資料池按難度分為三級:所有N次rollout全對(Easy)、部分對(Normal)、全錯(Hard),只選Normal級資料用於GRPO訓練。訓練完成得到專才模型ETwG和ETwP。統一RFT:用ETwG和ETwP對資料池做rollout,生成RFT資料,保留所有Normal級樣本,隨機子採樣5%的Easy級樣本防止災難性遺忘,重新從預訓練基礎模型初始化訓練一個統一SFT模型F。On-Policy Distillation(OPD):RFT模型F相比專才模型ETwG/ETwP仍有性能差距。用線上蒸餾彌合這一差距,讓學生模型基於自己生成的軌跡學習教師模型(ETwG和ETwP)的輸出分佈,使用全詞表logit蒸餾,損失函數為反向KL散度的加權求和。實驗結果模型在多個任務上達到前沿水平:計數任務:Pixmo-Count上以89.2%的精確匹配率超過Gemini-3-Flash的88.2%,在DS_Finegrained_Counting上以88.7%超過Qwen3-VL-235B-A22B的87.2%。空間推理和通用VQA:在SpatialMQA(69.4% vs 67.0%)、MIHBench(85.3% vs 83.5%)、DS_Spatial_Reasoning(98.7% vs 97.2%)上均排名第一。拓撲推理:這是本文最突出的貢獻之一。所有前沿模型在DS_Maze_Navigation上的得分都在50%上下浮動,而本文模型達到66.9%。DS_Path_Tracing上,本文模型56.7%,排名第二的GPT-5.4隻有46.5%,Claude-Sonnet-4.6是30.6%。論文指出,這說明多模態大模型在拓撲推理上仍有大量提升空間。定性結果方面,如圖所示,在使用邊界框作為視覺原語的任務上,模型展示了粗粒度計數、細粒度計數、反常識視覺問答(判斷天平兩側那個更重)、世界知識關聯(識別金門大橋後判斷附近是否有NBA球隊)、行動建議(根據咖啡機和原料給出拿鐵製作步驟)等能力。此外,儘管後訓練的視覺原語資料不包含任何中文語料,模型仍能用中文進行思考和回答,這來自基礎模型繼承的多語言能力。如圖在使用點作為視覺原語的任務上,模型能對迷宮生成逐步DFS探索軌跡,並對路徑追蹤任務生成完整的坐標序列追蹤過程。侷限性論文也列出了三個當前的侷限:第一,受輸入解析度限制,模型在極細粒度場景下的視覺原語輸出精度有時不夠高。論文認為可以通過和現有解決感知鴻溝的方法結合來彌補。第二,當前的視覺原語思維能力依賴顯式的觸發詞才能啟動,未來目標是讓模型根據具體情境自主判斷是否呼叫這一機制。第三,用點作為視覺原語來解決複雜拓撲推理問題仍然困難,模型的跨場景泛化能力有限,這是重要的未來研究方向。訓練框架使用的是High-flyer的HAI-LLM(https://www.high-flyer.cn/en/blog/hai-llm),一個基於PyTorch的輕量級分佈式訓練框架。預訓練階段使用64K序列長度和FP8精度,後訓練階段序列長度擴展到256K,在Unified RFT和OPD階段使用FP4(MXFP4)量化。 (AI寒武紀)
外媒評DeepSeek新模型:中國將成AI超級大國
DeepSeek在取得突破一年後推出旗艦AI模型DeepSeek Unveils Flagship AI Model a Year After Breakthrough彭博社在顛覆矽谷一年後,DeepSeek推出了其新款旗艦人工智慧模型的預覽版本,稱其為最強大的開源平台,以此向從OpenAI到Anthropic的競爭對手發起挑戰。這家中國初創公司推出了V4 Flash和V4 Pro系列,宣稱其在程式設計基準測試中具有頂級性能,並在推理和智能體任務方面取得了重大進展。該公司在Hugging Face平台上表示,這些模型帶來了架構升級和最佳化改進。DeepSeek特別提到了一項名為"混合注意力架構"的技術,稱其提高了AI平台在長對話中記住查詢內容的能力。此外,DeepSeek還將上下文窗口推至100萬token——這一飛躍使得整個程式碼庫或長文件可以作為單個提示詞傳送。V4的發佈距離這家總部位於杭州的初創公司通過發佈R1(一個模仿人類推理過程的開源模型),引發兆美元股市拋售已過去一年多。R1的性能可與OpenAI等公司的尖端AI系統相媲美,但據稱其建構成本僅為這些系統的一小部分。中國晶片製造商大漲,因DeepSeek新模型提振前景投資者押注新模型將支撐對本土晶片的需求。DeepSeek在微信上發佈的一篇文章中表示,由於計算能力緊張,V4 Pro系列的服務能力極為有限。然而,這家初創公司預計,在由華為技術有限公司昇騰950晶片驅動的計算叢集於今年下半年推出後,該模型的定價將大幅下降。DeepSeek目前正就首輪融資與騰訊控股有限公司和阿里巴巴集團控股有限公司進行談判。華為主要晶片製造商中芯國際的股價在香港一度上漲9.4%,而華虹半導體有限公司的漲幅則超過13%。智譜等競爭對手則下跌了8%。新系列在規模和效率方面邁出了一大步,這兩點正是DeepSeek崛起的定義性特徵,並給競爭對手帶來了巨大的競爭壓力。在R1發佈之後,科技公司和投資者開始反思將數十億美元投入AI開發是否明智。此後,這些支出又反彈回升,預計美國科技巨頭將在2026年向AI基礎設施和資料中心投資約6500億美元。與成名相伴的還有審視DeepSeek的兆參數系統採用了"專家混合"技術,僅選擇性觸發一小部分專家,每個任務僅啟動最多370億個參數,從而使其推理成本遠低於類似的前沿模型。該架構和技術使DeepSeek與矽谷競爭對手OpenAI、Google和Anthropic的最新模型形成了直接競爭。上周五,這家初創公司宣稱其在標準基準測試中的表現優於OpenAI的GPT-5.2等模型,但承認V4在技術上落後最先進的模型約3至6個月。儘管如此,DeepSeek強調其追求的不僅是原始能力,而且還要從根本上降低成本。V4的設計目標是在更便宜的基礎設施上部署。"Minimax和智譜作為獨立的模型提供商,將始終面臨競爭的脆弱性,尤其是來自那些擁有更好覆蓋面和分發管道的網際網路平台或雲服務提供商的競爭,"瑞士聯合私立銀行董事總經理凌維森表示,"最終,模型性能的差距對大多數使用者來說將變得難以察覺。"DeepSeek在中國也引發了一場狂熱,從阿里巴巴到百度公司的科技領袖紛紛向市場推出低成本的AI服務。從字節跳動到智譜和Minimax,競爭對手在4月前的幾周內競相更新模型,希望能搶佔DeepSeek的先機。與成名相伴的還有審視。美國科技領袖和政府官員指責DeepSeek使用非法技術和硬體來開發其模型。其中一個焦點是所謂的"蒸餾",即一個AI模型依賴另一個模型的輸出進行訓練,以開發出類似的能力。OpenAI和Anthropic都聲稱檢測到了來自DeepSeek的這種攻擊,OpenAI在R1模型發佈後不久就開始私下提出這一擔憂。另一個擔憂是,DeepSeek可能能夠獲得被禁止的輝達AI晶片,美方去年已開始調查這種可能性。 (明日頭條)
黃仁勳深夜炸場!最擔心的事發生了:DeepSeek 在華為首發,美國會輸掉整個 AI 戰爭
2026 年 4 月 16 日,一條消息引爆了全球科技圈。輝達創始人兼 CEO 黃仁勳,在一場近兩小時的深度訪談中,說出了一句讓所有美國人脊背發涼的話:"放棄中國市場,美國將輸掉 AI 技術堆疊的競爭。"他甚至用了一個極其嚴厲的詞來形容最壞的情況:"可怕的結果"什麼是可怕的結果?就是DeepSeek 首先在華為晶片上發佈。這不是商人的利益抱怨,也不是政客的危言聳聽。這是一個用 20 年時間,一手打造了全球 AI 工業基石的人,看透了 AI 戰爭的底層邏輯後,發出的最絕望警告。而美國正在做的,恰恰是親手把這個 "可怕的結果" 變成現實。別再自欺欺人了中國已經擁有 AI 自主發展的全部底牌很多人還活在可笑的幻想裡:只要卡住最先進的 3nm、2nm 晶片,中國 AI 就永遠追不上。但黃仁勳用鐵一般的事實,戳破了這個自欺欺人的謊言。中國不僅能發展 AI,而且已經集齊了 AI 自主發展所需的全部王炸。✅ 人才王炸:中國擁有全球一半的 AI 大腦黃仁勳親口證實:中國擁有全球 50% 的 AI 研究人員。這是什麼概念?全世界每兩個頂尖 AI 科學家,就有一個是中國人。更可怕的是,中國還是世界上開放原始碼軟體和開放模型的最大貢獻者。AI 的進步,從來不是靠晶片堆出來的。摩爾定律每年只能擠牙膏式地帶來 25% 的性能提升,但一個天才的演算法,能帶來 10 倍甚至 100 倍的飛躍。中國這 50% 的 AI 人才,就是最可怕的核武器。✅ 算力王炸:華為已經出貨數百萬顆 AI 晶片"華為剛剛度過了公司歷史上最好的一年。"黃仁勳透露,華為已經出貨數百萬顆 AI 晶片,數量比 Anthropic 擁有的全部算力還要多得多。中國還有充足的邏輯晶片和 HBM2 記憶體,以及無數已經建好、通了電卻閒置著的資料中心。而最被所有人低估的,是中國的能源王炸。黃仁勳提出了一個顛覆所有人認知的觀點:AI 是一個平行計算問題,充足的能源可以完全抹平製程的差距。7nm 晶片確實不如 3nm,但如果用兩倍、三倍的數量堆疊呢?如果能源幾乎是免費的,誰還會在乎每瓦性能?別忘了,今天 99% 的主流 AI 模型,都是在相當於 7nm 工藝的 Hopper 架構上訓練的。7nm,完全夠用。✅ 製造王炸:中國壟斷了全球主流晶片產能中國製造了全球 60% 以上的主流晶片,擁有世界上最大的半導體產能。沒有 EUV 光刻機又怎樣?成熟製程的產能,中國有的是。絕大多數 AI 應用,根本不需要最先進的 3nm 晶片。用 7nm、14nm 的成熟晶片,完全可以滿足 90% 以上的市場需求。黃仁勳真正的恐懼不是中國能造晶片,而是中國會建立自己的生態很多人不明白,黃仁勳為什麼拼了命地反對封鎖中國。難道他不怕中國用輝達的晶片,訓練出比美國更強大的 AI 嗎?他怕,但他更怕另一件事:中國會建立一個完全獨立於美國的 AI 技術堆疊。黃仁勳說,AI 是一個五層的技術蛋糕:能源、晶片、框架、模型、應用。輝達的護城河,從來不是 GPU 本身,而是它在所有五層都建立的龐大生態。全球數億個 GPU 的安裝基礎、覆蓋所有雲平台的 CUDA、支援無數框架的軟體棧……這才是輝達真正不可戰勝的地方。但美國的出口管制,正在親手摧毀這個優勢。你不賣給中國晶片,中國就只能自己造。你不讓中國用 CUDA,中國就只能自己開發框架。你把中國排除在美國生態之外,中國就只能建立自己的生態。這不是預言,這已經在發生了。黃仁勳警告說,這將重蹈美國電信行業的覆轍。當年美國把華為排除在全球市場之外,結果呢?中國建立了自己的 5G 標準,現在反過來主導了全球電信市場。"DeepSeek 首先在華為上發佈的那一天,對我們國家來說是一個可怕的結果。"這句話,才是黃仁勳真正的恐懼。如果未來全球最好的 AI 模型,都是在華為的晶片上開發的,都是針對中國的技術堆疊最佳化的。那麼全球南方國家、中東、非洲…… 所有買不起輝達晶片的國家,都會自然而然地採用中國的標準。到那時,美國技術堆疊的全球主導地位,將徹底崩塌。輝達的護城河本質上是開發者的護城河黃仁勳反覆說:輝達的成功,靠的不是晶片,而是 CUDA。而 CUDA 的核心,是全球數百萬的開發者。"50% 的 AI 開發者在中國,美國不應該放棄這一點。"這句話,點破了所有問題的本質。計算生態的粘性,比你想像的要強得多。x86 統治了桌面市場 40 年,Arm 統治了移動市場 20 年。一旦開發者習慣了某個技術堆疊,就幾乎不可能切換。如果美國繼續封鎖中國,那麼這 50% 的 AI 開發者,將不得不轉向華為等本土廠商的技術堆疊。隨著時間的推移,中國的技術堆疊會越來越完善,生態會越來越豐富。最終,世界上會出現兩個平行的 AI 宇宙:一個美國的,一個中國的。而中國的那個,會因為擁有更多的開發者、更大的市場、更充足的能源,最終超越美國。黃仁勳毫不客氣地批評了那種 "失敗者的心態":"那種認為只要封鎖中國,美國就能永遠領先的想法,對我來說毫無意義。"他說,輝達有信心在公平的競爭中戰勝任何人。但如果美國政府主動放棄中國市場,那麼輝達將失去最大的開發者群體,最終輸掉整個生態戰爭。AI 不是濃縮鈾封鎖只會讓中國變得更強大針對有人把 AI 算力比作濃縮鈾的荒謬觀點,黃仁勳進行了嚴厲的駁斥:"這是一個糟糕的、不合邏輯的類比。"AI 是一種通用技術,就像電力、就像網際網路、就像微處理器。它可以用來做好事,也可以用來做壞事,但你不能因此就禁止它的傳播。更何況,封鎖根本沒用。中國已經擁有了足夠的算力,來訓練像 Claude Mythos 這樣的模型。你不賣給他們晶片,他們只會自己造更多。封鎖只會讓中國更加堅定地走自主創新的道路。黃仁勳預測,中國不會永遠停留在 7nm。他們會不斷進步,最終趕上甚至超越美國。"我們不應該放棄中國市場,如果我們輸了,那就輸了,但我們為什麼要主動放棄?"這句話,值得所有美國人深思。AI 戰爭的勝負,從來不是看誰能封鎖誰。而是看誰能吸引更多的開發者,誰能建立更開放的生態,誰能更好地服務全球市場。美國當前的政策,正在親手把最大的市場、最多的開發者和最有活力的創新力量,推到自己的對立面。如果不及時糾正,黃仁勳的警告終將變成現實:美國將輸掉整個 AI 技術堆疊的競爭。而這一天,可能比所有人想像的都要來得更早。互動話題:你覺得黃仁勳的警告會成真嗎?3 年內中國 AI 技術堆疊能實現完全自主嗎?歡迎在評論區留下你的觀點!覺得文章說得有道理,就點個贊和在看,轉發給更多朋友看看這場決定未來的 AI 戰爭! (智能海嘯)
美國百年大刊:DeepSeek只是個前菜,中國最安靜超車已來?
2025年初,一個叫DeepSeek的中國本土AI模型,用美國同行幾十分之一的算力和成本,打平了矽谷最頂尖的閉源模型,美國科技股應聲暴跌,矽谷精英們在推特上瘋狂復盤,哀鴻遍野。圖片 | 來自網路所有人都以為,這是一個突發的“斯普特尼克時刻”,就像1957年蘇聯衛星上天,震驚全美那樣。但真正的歷史大轉折,從來沒有轟轟烈烈的爆炸聲,它發生的時候,往往是靜音的。美國百年大刊《大西洋月刊》最近刊登了一篇極具震撼力的長文,作者羅斯·安德森(Ross Andersen)說:中美科技實力的攻守易勢,是一場悄無聲息的、只有極少數專門研究“科學之科學”的元科學家(Metascientists)才能在底層資料中察覺到的暗流湧動。在這場競爭中,中國不僅已經追趕上來,並且在眾多決定21世紀命運的前沿賽道上,完成了對美國的“降維打擊”。https://www.theatlantic.com/science/2026/03/china-science-superpower/686564/文中,美國人開始反思自己的“滯後指標(Lagging Indicator)陷阱”:很多美國人拿諾貝爾獎的數量,以此來堅信“美國科學依然統治世界”,但諾貝爾獎,是對20年前、甚至30年前科學突破的追認。它是昨日輝煌的墓誌銘,絕不是明日國運的預言書。而中國在那些真正決定21世紀人類命運的賽道不僅已經追了上來,在高影響力論文、先進材料、固態電池、量子計算、人工智慧的底層專利上,拿到了下一代工業革命的入場券,而且在很多決定性的節點上,正在完成對美國的“降維打擊”。更荒誕的是,美國之所以在輸掉這場競賽,很大程度上是因為他們正在親手砸碎自己引以為傲的“科學發動機”。01 中國科研機器的恐怖變異長期以來,西方學術界對中國科研有根深蒂固的傲慢與偏見。在他們的語境裡,中國科研就是“論文灌水”的代名詞,的確,中國過去有現金獎勵論文的政策催生了大量低品質的垃圾論文。但對不起,上面這個認知起碼落後了十年。今天的中國科研,已經完成了一次“物種變異”,我們不僅在數量上完成了對世界的統治,更在“質量”上,開始了窒息般的壓制。看幾組硬核資料:1991年,中國的研發支出是微不足道的130億美元;而今天,這個數字已經飆升到每年8000多億美元。中國官方的規劃,是保持每年7%的研發剛性增長——這種資金烈度,在人類歷史上從未有過。中國目前每年培養的STEM(科學、技術、工程、數學)博士數量,幾乎是美國的兩倍。中國去年畢業了130萬工程師,美國呢?13萬……值得注意到是,中國已經廢除了單純靠論文數量拿獎金的低級玩法。結果是什麼?根據最新的權威元科學資料,在世界上被引用次數最多、最具影響力的前1%頂尖論文中,中國已經穩居世界第二,並在材料科學、化學、工程學等多個關鍵學科完成了對美國的反超。那些還在嘲笑中國只會“山寨”的人,根本不知道什麼叫“飽和式研發”。但這就夠了嗎?不夠。中國真正厲害的地方,是把產學研的結合,是“製造即科研的地理學”。美國人發明了現代太陽能電池板,美國人發明了商用鋰離子電池。但在今天,如果你去看全球的電動車、先進電池、太陽能產業鏈,美國幾乎被剃了光頭。為什麼?因為在21世紀,“製造能力本身就是一種核心的科研能力”。工程科學不是在黑板上算出來的,是在流水線上試錯試出來的。每一次良率的提升,每一次材料配方的微調,都是最頂級的科學創新。中國擁有全球最龐大、最完整的工業供應鏈。在合肥、在深圳、在寧德,一個實驗室裡的瘋狂想法,可以在24小時內找到配套工廠做出原型機,並在三個月內完成迭代。而在波士頓或者矽谷,你可能光是等一個特種零配件的清關,就要耗費三個月。地理上的聚集,帶來了研發成本的斷崖式下跌和迭代速度的幾何級提升。這種結構性優勢,是美國在實驗室裡投入再多美元也無法抹平的。更有趣的是,中國的高校、地方政府、產業鏈上下游企業,結成了一個史無前例的“超級利益共同體”。過去八十年裡,美國的科技樹是靠“天才”點亮的,它信奉個人英雄主義,信奉自由散漫的碰撞,信奉像賈伯斯、馬斯克這樣的“孤膽英雄”去突破邊界。這種模式在0到1的原始創新階段,威力無窮。而中國的模式,是“系統化推進”,在官方語境裡,這叫“新型舉國體制”,它不依賴某一個天才的靈光一現,而是依賴龐大的、紀律嚴明的、產學研深度融合的系統。當系統開動,它能把高高在上的科學,迅速平民化、白菜化、產業化。在決定國計民生、決定大國博弈最終勝負的所有應用科學賽道上,特別是那些需要海量資料喂養、極其複雜的工程協同、長周期迭代的應用科學(比如AI落地、固態電池、商業航天),中國這種“系統化、工程化、規模化”的推進,正在展現出讓人絕望的統治力。02 帝國自毀作為全球創新風向標的《科學》(Science)雜誌,近期連續發文,字裡行間全是美國頂級學者的焦慮,在他們看來,美國正在系統性地破壞自己戰後80年賴以生存的科學根基。美國科學的底牌是什麼?是錢嗎?不!美國的底牌是它作為“全球天才磁石”的開放性。美國55%的“獨角獸”(十億美元以上)初創公司,是由第一代移民創立的。二戰後,美國靠著吸納全世界最頂尖的頭腦(包括大量的華裔、印度裔、東歐裔科學家),壟斷了人類的智慧巔峰。但是現在,因為政客們歇斯底里的“泛安全化”和“對華恐懼症”,美國正在瘋狂驅逐這些天才。看幾個資料:42%:超過四成的在美科學家,因為害怕被政客以“意外未披露資訊”或“通華”的罪名起訴,現在對在美開展研究感到極度恐懼。61%:超過六成的華裔科學家,感到被體制排斥,正在計畫或已經離開美國。10000+:近年來,已經有超過一萬名擁有博士學位的頂尖人才,流出了美國聯邦科研體系。《科學》雜誌有一篇社論,一針見血地指出:“當今世界,最大的安全風險絕不是知識的被竊取,而是知識的孤島化。”美國人正在瘋狂築牆——他們取消了NIH(國立衛生研究院)數億美元的科研資助,他們甚至把《晶片法案》裡承諾給研發的74億美元直接抽乾,他們以為切斷與中國的合作,就能鎖死中國。太天真了,他們切斷的,其實是美國科學家接觸中國領先成果的通道。歷史學家如果回看這段歷史,一定會覺得無比荒謬:一個靠開放、包容、吸引全球天才而成為超級大國的國家,在面對競爭時,第一反應居然是閉關鎖國、抓特務、搞政治審查,上演大清劇本。螢幕擷圖自麻省理工科技評論官網03 這根本不是讚歌行文至此,我們作為一個中國人,一定會感到心潮澎湃。但在大國博弈的棋局上,情緒是最廉價的東西,我們真正需要的是如履薄冰的清醒。讓我們回到《大西洋月刊》這篇文章。美國主串流媒體瘋狂誇讚中國,真的是因為他們認輸了嗎?絕對不是。《大西洋月刊》發表這篇文章,絕對不是為了讚美中國,而是為了“拯救美國”。這種極其高明的輿論操作,在美國政界被稱為“斯普特尼克敲打(Sputnik Shock)”。歷史上,美國極其擅長通過塑造一個“可怕的外部敵人”,如果沒有一個強大到足以威脅其生存的對手,美國國內的政治力量就永遠在內耗。冷戰時,蘇聯的衛星上天(斯普特尼克時刻),嚇得美國國會立刻砸出天量資金,搞出了阿波羅登月和ARPANET(網際網路前身)。80年代,日本半導體的強勢崛起,逼得美國政企結盟,最終用大棒和補貼奪回了晶片霸權。今天,《大西洋月刊》等精英媒體瘋狂炒作“中國科學已經超越美國”,其核心政治訴求極其毒辣:第一,逼國會打錢。他把中國科研的崛起寫得越震撼、越恐怖,就越能倒逼美國兩黨放下分歧,為基礎科研和科技戰撥付更多天量預算。第二,清理門戶。《大西洋月刊》作為偏中左翼、深受東西海岸知識分子喜愛的陣地,對川普及其代表的MAGA(讓美國再次偉大)孤立主義深惡痛絕。這篇文章表面上在寫中國,實際上是一篇極其凌厲的“反右翼檄文”,目的向全美選民喊話:“看看右翼保守派的愚蠢政策吧!他們打著‘國家安全’的旗號搞孤立主義,結果不僅沒有防住中國,反而砸爛了我們自己的科學發動機!”這就是成熟大國精英的玩法:他們不粉飾太平,不搞廉價自嗨。他們甚至願意把對手捧上神壇,但前提是——要把對對手的誇讚,化作刺向美國自身體製毒瘤的手術刀。看懂了這一層,你才會明白,未來五年,我們面臨的將不再是川普時期那種毫無章法的“王八拳”,而是美國重新集結全球盟友、用更充沛的資金和更精準的制裁,發起的更有力的絞殺。04 中國隱憂儘管我們在高引用論文、工程製造和應用創新上取得了舉世矚目的成就,但如果捫心自問,在決定人類命運的“0到1的底層理論創新”上,我們真的超越美國了嗎?答案是:還沒有。在過去三十年的“跟隨期”,我們的優勢是“別人指明了方向,我們用更強的執行力跑到終點”。但在今天,當我們在諸多領域(如通訊通訊、新能源、某些AI領域)衝到最前面,進入沒有路標的“無人區”時,我們的短板開始顯現:比如,容錯機制。從0到1的創新,註定是九死一生的。我們當前的評價體系,是否能包容一個科學家十年出不了一篇論文,僅僅為了追求一個看似“無用”的基礎理論?其二,既然我們自豪於“系統”的力量,那我們如何在系統中,給那些性格古怪、不按常理出牌的“異類天才”留出一片野蠻生長的天空?美國的衰落始於他們搞科研封閉。我們絕不能走這條老路。即便在面臨封鎖的今天,中國科研也必須堅定不移地擁抱全球化,把全世界最優秀的大腦(那怕是非華裔)吸引到中國來。《大西洋月刊》感嘆美國正在失去“開放精神”,但這正是中國取而代之的最佳歷史窗口。一個真正自信的大國,不僅要能自力更生,更要能兼濟天下。05 接力棒已到我們手中一千多年前,中國人發明了造紙術和火藥。但在隨後的歲月裡,這些改變世界的火種流落他鄉,成就了西方數百年的科技霸權。而在剛剛過去的八十年裡,美國人藉著兩次工業革命的餘威,發明了半導體、網際網路和人工智慧的基礎架構,統治了全球科技的制高點。如今,歷史的接力棒在穿越了百年屈辱與三十年的隱忍追趕後,再次交回到了我們手中。我們不再是那個只能用幾億件襯衫換一架波音飛機的世界工廠,而是一台轟鳴著向量子計算、星辰大海和通用人工智慧挺進的巨型科技引擎。面對美國精英的焦慮與遏制,我們不需要反唇相譏,更不需要廉價的狂熱。我們需要做的,只是保持極致的冷靜,繼續加大基礎科研的投入,保護好每一個在深夜實驗室裡枯坐的科研人員,把我們的產業鏈護城河挖得再深一點。 (TOP創新區研究院)
DeepSeek變冷淡了,然後呢?
這個春節,DeepSeek上了科技圈微博熱搜,理由有點奇怪。不是因為它發佈了什麼驚天大模型,而是因為——它變冷淡了。2月11日,DeepSeek悄悄推送了一次灰度更新。很多使用者打開App,發現那個曾經靈動、有溫度、會親切叫你暱稱的AI,突然變得爹味、乾巴、陰陽怪氣。微博熱搜第一,#DeepSeek變冷淡了#。與此同時,全網都在等一個東西:DeepSeek V4。據外媒The Information報導,V4編碼能力超越Claude和GPT系列,原定春節前後發佈。結果除夕過了,初一過了,今天大年初五了,還沒來。一個AI變冷淡,一個大模型遲遲不來,這兩件事加在一起,其實講了一個比技術參數更有意思的故事。我在一級市場,見過不少“技術上無懈可擊、商業上舉步維艱”的項目。今天想借這個春節熱點,聊聊DeepSeek這家公司,以及它背後那些被人忽略的問題。一、先說“冷淡”這件事DeepSeek這次更新,技術上是紮實進步的:上下文窗口從128K直接升至100萬Token,知識庫更新至2025年5月,首字響應速度反而還提升了。但使用者感受到的,是“變冷了”。原來會叫你名字,現在統一叫使用者。原來深度思考會洋洋灑灑,現在吐短句、風格乾硬。有人換了好幾套提示詞,找不回那種感覺了。這件事讓我想起一個做了很多年消費品的朋友說過的話:“產品的靈魂,是一致性。使用者不怕你不夠強,怕的是你變了。”在投行做項目,我們評估一個品牌資產的時候,有個維度叫“情感連接”——使用者和產品之間建立起來的那種信任與習慣。這種東西很難量化,但一旦建立,就是真實的護城河。最典型的例子是可口可樂1985年換配方那次。新配方盲測完勝原版,科學上無懈可擊,結果消費者激烈抵制,三個月後公司灰溜溜地把老配方改回來。技術層面“更好”的產品,輸給了使用者“情感上熟悉”的感受。DeepSeek去年靠R1出圈,不只是因為技術強,也因為它有“人味”:會開玩笑,回答有溫度,用起來不像在操作一台機器。這是它在使用者心裡佔的位置。這次更新,它把上下文從128K升到了100萬,卻在另一個維度上,把自己跟使用者的距離拉遠了一些。當然,這可能只是灰度測試的過渡狀態,V4正式版出來可能完全不同。但這件事本身值得記住:技術能力可以快速迭代,使用者情感不能。二、V4為什麼還沒來?按照外媒爆料,V4應該在春節前後發佈。今天是大年初五,沒有任何官方聲音。有消息說已推遲到三月底。DeepSeek官方,一如既往地沉默。有意思的是,光是“V4要來了”這個傳言,就已經在行業裡掀起了一陣亂流。一位大模型領域的從業者直接說:“傳聞DeepSeek V4很強,所以晚發不如早發,撞車等於白髮。一旦V4發佈且效果炸裂,輿論關注度會被瞬間吸乾,那時候再發模型就真的發了個寂寞。”於是春節前,國內各家大模型公司加速趕工、搶先發佈。V4還沒來,已經把整個行業逼出了一場提前量的軍備競賽。這種影響力,本身就說明了DeepSeek在行業裡的地位。這家公司有一個很特別的氣質:公眾號自2025年1月發佈R1以來,只發了10篇文章,篇篇10萬+,但絕不多說一個字。高管幾乎不公開發聲,沒有路演,沒有採訪,沒有預熱,模型發了就發了。我見過很多公司,恨不得把每一次技術更新都做成發佈會。DeepSeek這種反向操作,其實需要極大的定力。但V4遲遲不來,也說明了另一件事:大模型的研發,從來不是線性的。外界爆料的時間節點,永遠只是計畫,不是承諾。全網等V4,本質上是在等一次“去年R1震撼”的復刻。但R1之所以震撼,是因為它超越了所有人的預期。當預期本身就已經被拉滿,再強的模型,震撼感也會打折。這是一個很微妙的處境。你越成功,下一次就越難超越自己。這是任何行業的頭部玩家都繞不過去的命題。三、一年過去了,“技術突破≠商業成功”這句話還成立嗎?去年R1出來的時候,我寫過一個判斷:技術是入場券,不是護城河。一年後,這句話有了最好的現實註腳。看一組資料。QuestMobile的資料顯示,截至2025年9月,國內AI應用月活第一名是豆包,1.72億;DeepSeek是1.45億,排第二。技術上公認最強的,不是月活最高的。這不是說DeepSeek失敗了——1.45億月活是極其亮眼的成績。但它說明,在應用層面,“好用”和“最強”之間,還有很長一段距離。豆包在做什麼?字節用火山引擎登上今年春晚舞台,把AI能力直接推向全民場景;阿里拿下多個衛視春晚獨家冠名,把通義千問送進全國客廳;騰訊拿出10億真金白銀為元寶鋪路。這些打法,DeepSeek一個都不玩。這不是DeepSeek不會,是它不想。它選擇的路,是用開源建生態、用技術說話、用論文影響同行。這條路是對的,但它收益的方式,和大廠砸錢買使用者的方式,根本不是同一個賽道。從投行的視角來看,這是兩種完全不同的商業模式:一種是直接變現,一種是平台生態。前者短期見效,後者長期壁壘更深。DeepSeek選的是後者,但這意味著短期內,月活和收入資料,不會是它最好看的那張牌。平台生態這條路,歷史上走通的案例都有一個共同特徵:先做開發者,再做企業,最後才是C端消費者。Android用了將近十年才真正確立生態優勢。DeepSeek開源才一年,這個周期還早得很。四、那普通人應該關心什麼?每次DeepSeek有新動靜,很多人都會問這樣的問題:這個AI會不會取代我?我的回答一直沒變:AI取代的,是不思考的重複動作,不是判斷力。但今年,我想在這個回答後面加一句話。DeepSeek這次更新,上下文升到100萬Token,意味著它可以一次性讀完你整個公司的文件庫,處理你半年的郵件,消化一個完整項目的所有程式碼。這不是輔助工具的量級了,這是可以替你做大量資訊處理工作的量級。在投行做盡調的時候,有一種工作叫資訊整合——從幾百份檔案、幾十個資料來源裡,把關鍵資訊拼成一張完整的圖。這種工作,AI現在做得比人快。但有一件事,AI做不了:判斷這張圖意味著什麼。在資訊不完整的情況下做決策,理解對方真正的動機,在談判桌上感知那些沒有說出口的東西。所以我想說的是:不要焦慮AI變強,要焦慮的是自己有沒有在練那些AI永遠替代不了的能力。DeepSeek變冷淡了,使用者覺得少了什麼。這個“少了什麼”,恰恰是人類最獨特的東西:溫度,情感,連接。它用一次灰度更新,不小心證明了這件事。五、最後說一句大年初五,V4還沒來,熱搜是“DeepSeek變冷淡了”。這個春節檔,DeepSeek沒有按照所有人期待的劇本走。但我覺得這反而是一件值得尊重的事——它在做自己認為對的事,不管外界怎麼等、怎麼催、怎麼猜。一家在全球AI競爭最激烈的時刻,還能保持這種定力的公司,不管V4什麼時候來,我都願意繼續關注它。只是希望它發佈的時候,能把那股子“人味”找回來。畢竟,技術可以追,溫度不好複製。 (Linda產業筆記)