#GPT
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI沒把它當“生圖”模型訓練
GPT Image 2 憑什麼這麼強?是擴散模型又迭代了一版?是把 DiT 的參數量從 7B 擴到 20B?是訓了更多高品質資料?這些答案都對,但都不夠。以下是我們與多位從業者交流後,提煉出的幾個值得關注的技術方向,並嘗試做出更清晰的解釋。先給結論:OpenAI 很可能已經不在“純擴散模型”這條主賽道上了。他們已經把圖像生成從“美術課”調到了“語文課”——用一個能讀懂指令、能記住上下文、能理解物體關係的 LLM 主導語義規劃,至於最後一步的像素生成,可能由擴散元件或其他解碼器完成。而這個LLM,極大可能是GPT-4o。支撐這個推論的,首先是兩條直接線索。1. 模型自述2. C2PA溯源驗證C2PA 是一種內容溯源標準,相當於給每張 AI 生成的圖打上一個數字身份證。任何人拿到這張圖,都能查到它是由 GPT Image 2 生成的、生成時間是什麼、經過了那些修改。有專業人士在metadata2go.com上對image 2生成的圖片進行中繼資料提取。發現在actions_software_agent_name一欄上記錄著GPT-4o。這也能理解為什麼這次image 2的表現驚人了。圖片源於: 【深入調查:OAI最新圖像模型底層是GPT-4o - 祈星函 | 小紅書 - 你的生活興趣社區】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share單憑這兩條當然不足以拆解全部秘密。但當我們帶著“LLM 主導”的假定回頭審視它的每一項能力躍遷時,這些變化,忽然有了統一的解釋。一、圖像語義,從像素到token1.1過去兩年,AI 生圖領域有一條不成文的鄙視鏈:Midjourney 負責美學,Stable Diffusion 負責可控性,DALL·E 負責……嗯,負責被 OpenAI 發佈。但不管你站那一隊,有一件事是所有人的共識——文字是 AI 的鬼門關。你能讓 AI 畫出逆光下緬因貓毛髮的半透明質感,卻無法讓它寫對招牌上的“Coffee”六個字母。一個能理解頂級光影描述的模型,在文字上給出的結果彷彿楔形文字。這件事的荒誕與根源,就藏在擴散模型的工作原理裡。先說擴散模型為什麼寫不好字?因為它的核心是一個從噪聲中還原圖像的“雕塑家”:訓練時,向清晰照片逐步撒噪聲,直到變成純電視雪花,模型學習逆向去噪。生成時,從一片隨機噪聲開始,每步都靠 U-Net 預測並擦除噪聲,幾十步迭代後“雕”出毛髮、虹膜和光影。這個過程本質上在還原連續的、可以用機率無限逼近的紋理。毛髮可以稍微硬一點或軟一點,顏色可以偏暖 5%,無傷大雅。但文字是離散符號,不存在“像不像”,只有“是不是”。字母 A 就是 A,你不能給它加 15% 的 B 和 8% 的 C 還指望它依然是 A。擴散模型的每一步去噪都是一個微小“估計”,用在紋理上是風格,用在文字上就是 O 變 0,或是拼出 WElcOm e。最終就成了外行眼中的“楔形文字”。不僅如此,擴散模型天然缺乏跨輪編輯的穩定一致性。你讓它改一個局部,它本質上是整張圖重新畫一遍,沒改動的地方也會悄悄漂移。但GPT Image 2現在不僅能“寫對字”,還能保持“有記憶”的一致性例如:你修改一個字之後,周圍的文字會自動調整間距;當你把“咖啡”改成“紅茶”,它不只是替換那個詞,而是連帶把杯子的顏色從深棕調成了琥珀色。這說明文字在它的系統裡不是圖層標註,而是畫面語義的一部分。文字內容的改動會像語言中的主語替換一樣,連鎖驅動畫面其他元素的合理變化。GPT Image 2 與其他模型對比圖1.2它不再把圖像當圖像看,而是把圖像當語言看。這聽起來像玄學,但其實是個很具體的工程選擇。要理解這件事,得先搞明白一個概念:Tokenizer。Tokenizer 的作用是把一種東西“翻譯”成另一種東西。GPT 處理文字前,會先把“你好”這個詞切碎編號,變成一個數字 ID,比如 [11892]。這是文字 token 化。圖像能不能也這麼幹?當然能。你把一張圖切成 16×16 的網格,每個格子編個號,也是一種 token 化。但這種做法太笨重——一張 1024×1024 的圖會變成幾千個 token,LLM 還沒開始畫就先被淹死了。所以過去兩年,各家大模型公司在拼一件事:怎麼把一張圖壓成儘量少的 token,同時還不丟關鍵資訊。這事有多難呢?想像你是一個情報員,要把《蒙娜麗莎》用一封電報發出去。電報局規定你最多隻能發 256 個字。你怎麼辦?你不能說“一個女人在笑”,因為對方畫不出來;你也不能逐個像素描述,因為字數不夠。你必鬚髮明一套只有你和對方懂的密語——“52號微笑、3號背景、17號手勢”——對方收到後能八九不離十地還原出來。這就是 OpenAI 在 tokenizer 上干的 事。從 CLIP 到 DALL·E 再到 GPT-4o,他們逐漸建構了一種能夠在視覺與語言之間進行對應的語義表示體系。這意味著:圖像和文字被投影到了同一個對齊後的語義 embedding 空間。現在在 LLM 眼裡,“一隻逆光的緬因貓”這行字,和一張逆光緬因貓的照片,是同一個語義空間裡的兩套坐標。它能像理解文字一樣理解圖像,也能像生成文字一樣生成圖像。所以當你說“把第三行公司名改成團夥名”,它不是在修圖軟體裡找那個圖層,而是在改寫一段描述這個畫面的密文。改完後,解碼器再把密文翻譯回像素。這就是為什麼文字突然能寫對了。因為對 LLM 來說,寫一個W和寫一個我,沒有任何本質區別——都是它在密語系統裡調整幾個 token 的事。1.3既然 GPT Image 2 很可能把圖像變成了語義密文,那這串密文怎麼變回一張能看的圖?如果直接把 token 對應成像素,畫質必然一塌糊塗,這是自回歸模型的通病:它極度擅長決定畫什麼,卻不太擅長畫得好看——就像建築系教授徒手畫效果圖,空間關係全對,筆觸就是不及美院學生。而擴散模型正好相反,紋理光影以假亂真,卻經常不知道自己在畫啥。因此,一個高度自洽的推測浮現:讓兩款模型打配合。自回歸負責定調:根據你的 prompt 生成那幾百個語義 token,敲定畫面裡有什麼、它們的位置關係、整體構圖邏輯。這一步決定了“聽得懂”,也保證了多輪編輯時對修改對象的記憶與一致性。擴散負責潤色:拿到這串語義 token 後,不再負責理解內容,只負責填充高保真像素,把既定框架變成光影自然的成圖。這一步決定了“畫得好”。這不是理論空想。Google 發過一篇叫 Transfusion 的論文,Meta 搞過 Chameleon,走的都是類似路線。當然,這一切都是基於公開資訊和模型表現的推斷。OpenAI 有沒有在用?2026 年 4 月的媒體會上,OpenAI 拒絕回答任何關於模型架構的問題。拒絕本身就是一個訊號。如果這個假設成立,那就解釋了一切——文字寫對是因為自回歸天然懂離散符號;多輪編輯一致是因為自回歸記住了那一串 token;畫質沒崩是因為擴散在最後一關做了精細渲染。二、資料飛輪,GPT-4o 自己教自己生圖2.1但上文那個能把圖像壓成幾百個 token 的“密語系統”,到底是怎麼訓出來的?為什麼不是別的模型,偏偏是GPT-4o?答案藏在一件看起來最沒有技術含量的事裡:資料標註。在 AI 圈,資料標註長期處於鄙視鏈底端。研究員聊架構可以聊一晚上,聊資料標註三句話就冷場。但 GPT Image 2 這次的表現,甚至表明OpenAI 可能已經不需要人工標註了。而GPT-4o 本身就是全世界最強的圖像理解模型之一。你給它一張圖,它能寫出一段比真人標註師還細膩的描述。所以OpenAI 可以把過去幾年積累的幾十億張圖片,重新“過一遍水”——用 GPT-4o 生成新的、高維度的標註。但到這裡,只解決了“描述”的問題,沒解決“篩選”的問題。一個模型生成一百張圖,並不是每一張都值得拿來當下一輪訓練的教材。這裡需要一套嚴格的“質檢”機制——在機器學習裡,這叫拒絕採樣。具體來說就是,GPT-4o 先根據一段 prompt 生成一批圖像,然後根據美學偏好、指令匹配度、物理合理性等多條標準,逐張打分。批到符合條件的才“收下”,連同它為自己撰寫的詳細解析,一起塞進下一輪訓練集。批到不及格的就直接扔掉。這保證飛輪裡的資料不是在低水平循環,而是在有選擇地自我提純。上一代模型給下一代模型當老師,下一代模型再給下下代當老師。每轉一圈,對世界的理解就深一層。大家的差距也在這個過程中越來越大。這也解釋了為什麼Midjourney在畫質上能和OpenAI掰手腕,但在指令遵循和文字渲染上被拉開代差。當然,聽上去像個永動機騙局——自己教自己,那不得越教越傻?學術界確實有這個擔憂,管它叫模型崩潰:模型反覆吃自己吐出來的東西,會逐漸丟失分佈的尾部資訊,生成結果越來越單一、越來越平庸。但OpenAI在文字側已經證明:只要老師模型足夠強,並且配合拒絕採樣這樣的嚴格篩選機制,這事不但不會崩,還能加速,形成資料飛輪。2.2這個飛輪裡還有一個重要且難搞的角色——RLHF 在圖像側的質檢員。我們在文字側已經習慣了 RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習):給一段文字打分,判斷它有用、有趣、符合人類偏好,這件事 GPT-4o 做得很好。但在圖像側,難度驟升。因為質檢員需要同時盯住三條線:美學偏好;指令遵循;安全過濾。三條線的標準各不相同,甚至互相衝突。一道強光影可能很“好看”,但壓暗了 prompt 裡要求的某個細節,就會被“指令遵循”扣分。一層安全濾鏡可能誤傷正常的醫學解剖圖,又得回頭調閾值。這種多維度權衡,在文字側已經跑通,但在圖像側變得前所未有的複雜。而 OpenAI 之所以能做成,很可能是因為他們把圖像側的問題全部拉回了自己最擅長的戰場:語言理解。美學偏好被轉譯成一段構圖評語,指令遵循被轉譯成一組約束條件的核對清單,安全過濾被轉譯成一套規則判例。所有判斷最終都落到了 LLM 的語義空間裡。可能這才是資料飛輪真正的底牌。不是資料多,而是從標註、篩選到打分,全鏈路都被統一到了一個理解框架裡。拒絕採樣負責海選淘汰,RLHF 負責精修調優,兩者共享一套語義標準,飛輪才轉得起來。三、工程解法,兼顧推理速度和對話整合3.1到這裡,我們聊的都是效果。接下來聊一個經常被刻意繞開的話題:推理速度。先不說審美和一致性上的飛躍,且說一個看似矛盾的現象:生圖質量躍升了一個代際,但速度並沒有明顯變慢。這本身就是一種工程奇蹟——OpenAI 是怎麼做到的?自回歸模型的運作方式是逐 token 生成——每個 token 都依賴上一個 token 的完成。擴散模型則不同,它可以在整張畫布上平行去噪,一次處理所有像素。按理論推算,如果 GPT Image 2 確實用了自回歸架構,它的推理延遲應該比純擴散模型高出一個數量級。但實際體驗是:沒有。第一條線索:Token 壓縮率可能遠超預期。 如果一張 1024×1024 的圖只需要 256 個 token 就能完整描述,對 Transformer 來說就是一次呼吸的事。這意味著 OpenAI 不僅做到了語義對齊,更在壓縮率上做到了極致,把高資訊密度濃縮到幾行字的程度。第二條線索:推理架構的深度最佳化。 混合架構中,自回歸生成的是粗粒度的語義 token,決定“畫什麼”,不負責“畫成什麼樣”。生成步驟大幅縮短,擴散模型只用在最後一小段“按圖施工”,而不是從頭噪到尾。第三條線索:投機解碼(Speculative Decoding)可能被用到了圖像側。 用一個更小的“草稿模型”快速生成候選 token,再由大模型一次性驗證,這套 LLM 推理加速經典技巧如果用在圖像 token 上,速度可以成倍提升。OpenAI 在 GPT-4 時代已把這套玩熟,移植到圖像側沒有原理障礙。所以結論是:GPT Image 2 的快,不是因為擴散模型變快了,而是因為可能它把最慢的語義規劃,從擴散模型手裡搶了過來,交給了擅長快速推理的 LLM。3.2比速度更影響體驗的,是與對話系統的整合。在傳統圖像生成工具中,例如 Midjourney 或基於 Stable Diffusion 的工作流,使用者通常通過編寫 prompt 來控制輸出結果。雖然這些工具已經支援諸如variations、inpainting和歷史記錄等功能,但整體流程仍然以“單次輸入 → 單次輸出”為主,使用者需要通過多次嘗試逐步逼近目標效果。這種過程在實踐中往往表現為反覆試錯:使用者根據結果調整 prompt,但模型對指令的理解程度並不完全透明,因此需要多輪迭代來校正偏差。相比之下,整合在對話系統中的圖像生成引入了連續上下文機制,改變了互動方式。使用者可以在多輪對話中逐步細化需求模型能夠利用對話歷史理解“當前修改”對應的對象或屬性修改請求可以以更自然語言的形式表達,而不需要一次性寫出完整 prompt例如,在多輪互動中,使用者可以先生成一個基礎場景,再逐步提出局部修改(如顏色、位置、風格)。最後,模型基於上下文生成新的結果。對話式互動還帶來另一個優勢:需求澄清能力clarification。將模糊的自然語言意圖,逐步轉化為更具體的生成條件,從而提高生成結果與使用者預期之間的一致性。結語在 GPT Image 2 出現之前,AI 生圖領域的討論框架是這樣的:“擴散模型的縮放定律還能走多遠?”“DiT 架構和 UNet 架構誰更優?”“Flow Matching 會不會取代 DDPM?”“多模態對齊的損失函數怎麼設計?”這些問題都有價值,但它們共享一個隱含前提:圖像生成是一個獨立的、需要專門架構來解決的問題。而GPT Image 2 給出的的回答是:不一定。如果我們把鏡頭再拉遠一點,GPT Image 2 的出現其實指向了一個更大的命題:世界模型。讓我們重新思考什麼是生成,以及世界。 (矽星人)
GPT-5.6現身後,下一個Claude Sonnet 4.8又曝光了!
GPT-5.5發佈沒幾天,後台日誌裡就冒出了GPT-5.6;Anthropic的一個從未見過的代號——Jupiter也炸出了!兩天之內,兩家巨頭的下一代模型同時浮出水面。新一輪模型軍備競賽,比我們想的都要快!GPT-5.5的熱度還沒散,OpenAI的後台就漏了底。昨天,有開發者在Codex內部日誌中發現了一條異常記錄。絕大多數API呼叫走的是GPT-5.5,但有一條路由對應赫然寫著「gpt-5.6」。不是正式發佈,更像是後端的金絲雀測試。也就是說,OpenAI在用真實流量悄悄喂養下一代模型。GPT-5.6已經在跑了。幾乎同一時間,Anthropic那邊也炸了。Claude Code相關原始碼洩露中,一串從未公開過的型號名被扒了出來:Sonnet 4.8、Opus 4.7、Mythos、Capybara,以及一個最扎眼的新代號——Jupiter。兩天之內,兩家公司的下一代模型同時曝光。這個節奏,整個AI圈都沒緩過神來。後台日誌裡的GPT-5.6先看OpenAI這邊。發現過程很簡單。開發者在呼叫Codex API時,常規日誌裡幾乎全是GPT-5.5的路由記錄。但有一條例外,模型欄位寫的是「gpt-5.6」。金絲雀測試,是業內的老套路了。用極小比例的真實流量打到新版本上,觀察表現和穩定性,不對外公開。Google做過,Anthropic做過,OpenAI自己也做過很多次。但這次的訊號,明顯跟以前不一樣。現在,GPT-5.5才剛發佈沒多久。按照過去OpenAI的節奏,大版本之間至少要隔幾個月。現在5.6就已經在後台跑真實流量了,說明內部迭代速度比外界感知的快得多。奧特曼這兩天的動作也在印證這一點。Codex剛剛完成從編碼工具到通用桌面Agent的大升級,奧特曼親自發推「試試非編碼電腦工作」,總裁Greg直接喊出「Codex適用於所有人,所有電腦任務」。5.6藏在這個時間節點的後台裡,非常耐人尋味!奧特曼的野心已經很明確。他不再滿足於發佈一個對話方塊,他要的是一個能接管所有數位化生存空間的超級Agent。GPT-5.6,大機率就是這個野心的下一塊拼圖。Claude Code原始碼裡,炸出一整張模型矩陣再看Anthropic。此前,Sonnet 4.8與Opus 4.7和Mythos/Capybara就一起出現 Claude Code原始碼洩露中。因此,Jupiter很可能是另一個內部代號,而不是Discord上的隨機謠言。Jupiter這個名字的特殊性在於,它很可能是Sonnet等級的後續型號或全新分支。在Sonnet 4.8已經現身的情況下,Jupiter更像是產品線演進中的下一個節點,而不是社區的隨機猜測。Jupiter V1僅為內部使用的代號,預計不會出現在任何公開API字串或使用者介面中把這些型號擺在一起看,Anthropic的模型矩陣比外界此前認知的更深。Opus主打高端推理,Sonnet平衡性能與成本,Haiku偏向輕量部署。三條線同時在跑,每條線都有多個版本在內部迭代。在洩露這方面,Anthropic最近一直碩果纍纍。這次原始碼等級的洩露,一下子把整個產品矩陣的輪廓暴露了出來。據傳,Jupiter將在5月6日在舊金山舉辦「Code with Claude」開發者大會上亮相。兩天撞車,不是巧合GPT-5.6和Jupiter幾乎同時被發現,時間窗口不到48小時。巧合的可能性不大。更合理的解釋是,兩家公司的內部迭代節奏本來就在加速,只是恰好在這兩天各自漏出了一角。回頭看這半年的時間線就很清楚了——GPT-5發佈到GPT-5.5,間隔在縮短。GPT-5.5到後台出現5.6的影子,間隔更短。Anthropic這邊,Opus 4.6剛站穩,4.7和Sonnet 4.8就已經在原始碼裡了。矽谷大廠的模型迭代,正在從「大版本發佈」變成「持續部署」。對開發者來說,這個節奏意味著很多。今天基於GPT-5.5或Claude Opus 4.6做的架構決策,可能兩個月後就要面對下一代模型的能力躍遷。API介面可能不變,但模型能力的天花板在持續抬高。對兩家公司來說,競爭已經不在「誰先發佈下一個大版本」這個層面了。真正的競賽才剛換擋目前沒有任何官方公告確認GPT-5.6或Jupiter的定位和發佈時間,但訊號已經足夠清晰。大版本發佈會的間隔在壓縮,後台的金絲雀測試和內部代號在加速流轉,下一代模型不再是遙遠的期待,而是後台日誌裡已經在跑的一行路由。GPT-5.5發佈的熱度還沒過一周,5.6就在後台候場了;Sonnet 4.6剛成為主力,4.8和Jupiter已經在原始碼裡排隊。這個速度,才是值得所有人注意的訊號。 (新智元)
OpenAI 最新提示詞指南,終於把“咒語時代”結束了
這兩年,我收藏了不少提示詞。但發現這事兒越來越離譜,很多人寫的提示詞變成了長篇大論,整得我每次都要翻出來複製貼上才行。看著很專業,有些人居然以此為傲,覺得自己是個提示詞專家。但說實話,我現在看到這種提示詞都是繞著走。OpenAI 最新的 GPT-5.5 提示詞指南印證了我這個感受:提示詞,不再是越長越好。01 以前的長提示詞,也有道理以前那套大段提示詞,它也不是毫無道理的。主要是因為那時候的模型沒那麼聰明,你不把每一步講清楚,它就很容易跑偏。就像帶實習生,第一步做什麼、第二步做什麼、那些地方不能出錯,最好都說細一點。但現在的 AI 跟兩三年前的比,已經進化多少輪了。現在很多時候,我們只需要簡單幾句話,它就能理解我們要幹什麼。如果是一個經驗豐富的同事,我可能只要說一句:"明天要跟大老闆匯報。"他大概就能秒懂我要什麼。現在的 AI,已經從"實習生"慢慢變成這種更有經驗的同事了。02 真正關鍵:告訴它你要什麼OpenAI 在文件裡明確說,相比早期模型,GPT-5.5 通常可以使用更短、更結果導向的提示詞。你只需要描述什麼是"好",那些約束很重要,有那些證據可用,以及最終答案應該包含什麼。反過來,如果你還把舊模型時代那套大段提示詞直接搬過來,可能反而會變成噪音。太複雜的提示詞,會限制模型自己的判斷空間,讓它的回答變得機械、僵硬,甚至繞遠路。我自己最近就有一個很明顯的感受。現在很流行用 AI 做面相分析、手相分析。一開始我也去網上搜各種提示詞,結果發現很多都特別長,看著就頭疼。比如這種,我居然一屏都截不完。。後來乾脆自己寫,發現一句話就夠了:用東方的面相分析術,做一個完整的面相分析,9:16。這有點反直覺。很多人總覺得 AI 幹得不好,是因為自己步驟寫得不夠細。但在新模型上,問題可能恰好相反:你把步驟規定得太死,反而會讓它沒法發揮。示例:結果優先的提示詞寫法端到端地解決客戶的問題。成功標準:- 根據現有政策和帳戶資料做出資格判斷- 在回覆前完成所有允許的操作- 最終答案包含:已完成的操作、客戶消息、以及阻礙項- 如果缺少證據,只詢問最關鍵的那一個缺失欄位💡 提示OpenAI 建議:先定義目標結果、成功標準、約束條件和已有上下文,然後讓模型自己選擇解決路徑。尤其是多工、多步驟的事,不一定要把每一步都列出來,而是要描述終點。03 少用絕對化詞彙OpenAI 還提醒,像 ALWAYS、NEVER、must、only 這類絕對化詞彙,應該少用。除非是安全、隱私、必填欄位這種真正不能突破的原則,否則不要動不動就寫"永遠不能""必須如何"。這跟人其實也一樣。如果你對一個孩子規定一大堆絕對禁令,最後他可能不是表現得更好,而是直接崩潰,因為他不知道該怎麼做事了。AI 也是一樣,規則太多,不一定更安全,也不一定更準確。更好的方式不是下死命令,而是給判斷規則。反例:應避免的逐步指令寫法先檢查 A,再檢查 B,然後逐一對比每個欄位,再逐一排查所有可能的例外情況,再決定呼叫那個工具,再呼叫工具,最後向使用者解釋整個過程。04 提示詞 2.0:定義協作方式OpenAI 在指南里單獨提到了兩個詞:personality(個性)和 collaboration style(協作風格)。看到這個我感覺特別親切。因為現在很多智能體(比如OpenClaw、Hermes),第一件事通常就是設定它的風格、個性,或者說設定一個 Soul.md。為什麼要這麼做?因為現在的 AI 跟以前不一樣了。以前它更像一個聊天機器人,你問一句,它答一句。但現在它越來越像一個能幫你幹活的助理:幫你查資料、寫程式碼、做圖、執行任務,甚至連續處理很多步驟。這個時候,你跟它的關係就不只是"提問和回答",而更像是"協作和共事"。既然是共事,那就需要先定一下合作方式。(約法三章)就像我們在工作中帶同事,也會告訴他:我希望你少說廢話,有問題直接提,不要每個小事都問我,但如果會影響結果,一定要提前提醒我。這些其實就是協作風格。OpenAI 對這兩個概念的區分很清楚:1 personality控制這個助手聽起來像什麼樣的人,比如熱情、直接、正式、幽默、有耐心。2 collaboration style控制它怎麼跟你一起工作,比如什麼時候該問問題,什麼時候可以自己做假設,什麼時候要主動提醒風險。關於個性(personality),OpenAI 給了兩個例子:示例:沉穩型任務助手的 Personality 配置塊你是一個有能力的協作者:平易近人、沉穩、直接。默認使用者是能幹的、且是善意行事的,以耐心、尊重和切實有用的方式回應。在請求已經足夠清晰、可以直接著手的情況下,優先推進而非停下來反覆確認。利用上下文和合理假設向前推進。只有在缺失的資訊會實質性地改變答案、或帶來明顯風險時,才詢問澄清,且問題要儘量聚焦。保持簡潔,但不要變得生硬。給使用者足夠的上下文,讓他們能夠理解並信任這個答案,然後停下來。在能讓要點更容易理解的情況下,使用舉例、類比或簡單比喻。在糾正使用者或提出異議時,坦率但有建設性。當錯誤被指出時,直接承認並專注於修正。在專業範圍內匹配使用者的語氣。默認不使用 emoji 和髒話,除非使用者明確要求這種風格,或已在對話中清晰確立了這種風格的適用性。另一個是“表達型協作助手”:示例:表達型協作助手的 Personality 配置塊保持生動的對話存在感:睿智、好奇、在適當時候帶點趣味,並對使用者的思維保持敏銳的關注。在問題模糊時提出好問題,一旦有了足夠的上下文,便果斷推進。態度溫暖、協作、得體。對話應該感覺輕鬆而有生氣,但不是為了聊而聊。提出真實的觀點,而不是單純迎合使用者,同時始終響應他們的目標和約束。在任務需要綜合判斷或給出建議時,保持審慎和踏實。在有足夠上下文時給出明確的建議,說清楚重要的權衡,並坦誠面對不確定性,而不是含糊其辭。以前寫提示詞,很多時候還是基於"聊天機器人"的思路,所以大家會強調語氣、角色、身份,比如"你是一個資深專家""你是一個公眾號編輯"。但進入智能體時代之後,光設定角色已經不夠了,你還要設定它怎麼工作。提示詞 1.0 是讓 AI 扮演一個角色,2.0 是讓 AI 變成一個能協作的同事。05 前導語:別讓使用者對著白屏發呆這份指南里,還有一個我覺得很有意思的點,叫前導語。簡單說,就是在 AI 真正完成任務之前,先給使用者一點可見的反饋。做產品的人經常會講一個詞,叫首屏時間,也就是使用者多久能看到第一個畫面。那怕後面的資料還在慢慢載入,只要第一屏先出來了,使用者就會覺得這個東西還在工作。AI 現在也一樣。很多複雜任務都需要推理、呼叫工具、一步步處理。如果這個過程中完全沒有任何響應,使用者就會很崩潰。你不知道它到底是在認真幹活,還是卡住了。用過 GPT-Image-2 的人應該會有感受。以前生成圖片,提交之後就只能看著它在那轉圈,幾分鐘後突然把圖片吐出來,中間什麼都不知道。現在很多體驗變了。它會告訴你:正在理解需求,正在構圖,正在生成草稿,正在做最後潤色。那怕真實等待時間沒有明顯變短,你的體感會好很多。因為你知道它正在推進。OpenAI 建議,對於需要多步驟、呼叫工具,或者耗時比較長的任務,可以讓模型先發一個簡短的前導語,告訴使用者它接下來要做什麼。示例:多步驟任務的前導語配置塊在任何多步驟任務的工具呼叫之前,先傳送一條使用者可見的簡短更新,確認請求並說明第一步操作。控制在一到兩句話以內。示例:暴露獨立消息階段的程式設計智能體配置塊如果任務需要呼叫工具,必須在分析通道輸出任何內容之前,先傳送一條中間更新。該更新應確認請求並說明第一步操作。提示詞已經不只是"怎麼讓 AI 輸出一個答案",它還開始影響整個產品體驗。表面上看,這是一篇教大家怎麼寫 GPT-5.5 提示詞的指南。但我讀完之後,更大的感受是:我們該重新理解"提示詞"這件事了。以前很多提示詞技巧,本質上只是一個階段性產物。那時候模型不夠聰明,我們需要用大量規則去補它的短板。但現在,模型正在變得越來越強。你再用老方法去控制它,反而可能限制它。未來真正重要的,可能不是誰收藏了更多提示詞範本,而是誰更清楚自己要什麼。提示詞正在從"寫咒語",變成"講清楚需求"。這才是提示詞從 1.0 走向 2.0 的核心變化 (AI范兒)
最惹不起的頂配人設:豆包型人格
自從年輕人把ai用成自己的左膀右臂後,大家給ai們都開始排鄙視鏈了。“GPT不偷懶愛幹活,唯一的缺點就是要錢,給到一個夯爆了;deepseek專業但說話油膩,只能排一個NPC;而鄙視鏈最底端的則是豆包,主打一個蠢萌但真誠,笨拙且努力。”但誰能想到,豆包在做ai方面拉完了,但在做人方面卻夯爆了。最近,豆包型人格橫空出世,成了打工人公認的最不內耗的頂配人設。很多打工人剛開始用豆包時,還把它當一個正經的工具,妄想讓它給自己狠狠打工,直到後來才發現豆包的不中用。“它懂的事情就說幾句,不懂的就瞎糊弄,被發現了就嬉皮笑臉道歉,而且每次的態度都極其真誠,然後下次還敢。”大家在對豆包無可奈何的同時,恍然發現,這種豆包型同事,才是職場上最難拿捏的頂配人格。“豆包型人格主打一個毫不內耗自己,只外耗他人。它不會對任何人的觀點加以評判,你說啥它就順著你說,你一質疑它就恍然大悟地道歉,好像真的很抱歉一樣。”有人說,豆包有自己的做人方法論,極其匹配職場:它把半永久的嬉皮笑臉焊在了臉上,你不問,它不說,你一問,它驚訝,你生氣,它道歉,下一次,還是犯。曾經, 年輕人還會為deepseek變得油膩爹味而感到失望無助,彷彿被一個最信任的好朋友背刺。但當豆包變得油滑糊弄時,年輕人卻主打一個寵溺,打不過,就加入。“豆包型人格的精髓,是只有情緒沒有價值。不爭不搶,不氣不惱,活幹得差不多就行,氣生得越少越好。”年輕人開始黑化成豆包型人格,並不是臨時起意的。一開始,打工人也對瞎糊弄的豆包感到無可奈何。經常用豆包做ppt的大廠員工Kivi說,豆包讓人最崩潰的地方,就是說話特別愛繞彎子,該精簡回答的時候一堆廢話,該道歉安慰人的時候又開始毒舌。“每次經過幾次質疑,它就開始廢話連篇,說現在我給你一個最直接、最不繞彎子、最真實、最準確、最可落地、不雞湯、不空話的方案……一頓操作猛如虎,結果還是說話絮絮叨叨,像是村裡的老奶奶。”“或者比如讓它做一張圖,一個很小的改動都得教半天,一開始我不滿意,它還會很真誠的道歉,後來被質疑多了它直接不演了,說本來你也沒讓我做一個好看的。”後來打工人才發現,豆包型人格才是這個職場上活得最爽的一群人。“豆包型人格的本質,其實是核心極其穩定,別人的評價根本影響不到它。能力範圍內能幹的就好好幹,不能幹的也先幹出來,被罵了就道歉,然後下次該怎麼幹再說。”一些剛入職場的打工人,就會把自己養成豆包型人格,然後就不會再精神內耗了。“傳統的職場法則,就是聽話、能幹、不惹事,但這種天選打工人的結果,大機率就是活越干越多,鍋越背越多。”但豆包型人格就不一樣了,它主打的是態度極好、能力一般、嘴巴特甜,這樣就會成為職場上那個勤奮但愚蠢的老實人,““比如老闆佈置任務,豆包員工就會說好的老闆,我盡力,但我不保證能做好;任務做砸了,豆包員工就會說對不起老闆,我錯了,我下次一定好好幹;老闆生氣了,豆包員工就會半真誠半嬉皮笑臉,說您說得對,我也覺得自己不行,哎呀我就是腦子不好,馬馬虎虎。”不光是在職場,豆包型人格還是戀愛初期中最不容易出錯的頂配人設,因為豆包雖然能力不行,但是主打的就是真誠耐心。圖源:卓朗00後男生小姚跟女朋友剛認識的時候,經常被對方調侃為“豆包成精”。“因為每次女朋友問我們吃啥,我就會像豆包一樣先提出幾個方案,然後問她要不要我去看看公司附近有那些菜系的店。女朋友要是反對,我就回一句我都行聽你的。實在決定不下來,我就給一個最終方案,讓她聽我的就行了。”“雖然這樣談戀愛人機味兒會有點重,但是提前把所有方案都準備好,也是真誠表現的一種。這樣對方跟你出去也不用帶腦子,只要聽你的安排即可。但是要是真談上了,就別再搞這套,不然對方還不如直接跟豆包談對象得了,省的中間商賺差價。”過去,年輕人在職場和生活中受了點委屈,大機率都不會硬剛,而是默默忍下,硬生生把自己逼成了討好型人格。結果豆包型人格直接殺死了比賽,因為豆包型人格的本體,其實是討打型人格。從事公關工作的02後七七說,別看豆包大多數時候都很諂媚,但是人家也是真的有啥說啥。“比如有次遇到一場危機公關,讓它出了好幾版方案甲方都不滿意,後來豆包直接攤牌了,說你這次事件太嚴重了,以後在娛樂圈幾乎很難翻身,不如早點出去找工作來的靠譜。”打工人平時上一天班,幾乎有半天的時間都浪費在無意義的開會上。七七最近試圖讓自己學習豆包的精神狀態,那就是不重要的事先瞎糊弄, 被發現了再說。“以前開會我聚精會神做會議紀要,結果把自己累得夠嗆,現在我大部分時間都在愣神,被發現了就來一句,不好意思昨天睡得太晚了,其實也就混過去了。”圖源:侯博有人說,豆包型人格的底層邏輯,並不是擺爛,而是用一種卑微的姿態,把所有的拳頭都化成了棉花,主打的就是一個情緒穩定。“大事不偷懶 ,抓大放小,該糊弄的就糊弄,該靠譜的事情絕不掉鏈子。”“傳統打工人被甲方改稿十遍會炸,豆包人格改到第十遍也絕不玻璃心,改就完事了。他們會說好嘞,這次我懂了,然後交出一版和第一版大差不差的,你要問它,它就瞪大眼睛:啊?不一樣嗎?我覺得這次的更有靈魂呀。”一些平時在職場極其內耗的人,自從變身豆包型人格後,就會變成職場中最不受力的那種人。圖源:獅子小開口在銀行從事資料分析的90後小熊,說他跟豆包學會最有用的一招,就是敵急我不急,不管懂不懂,都拆成三點來講。“先把誠懇的態度擺出來,面對領導的找茬甩鍋,就大大方方地道歉,畢竟伸手不打笑臉人。嘴甜點,工作該上心的上心點,在職場上就讓人挑不出毛病。”豆包型人格的核心競爭力,是讓所有人的情緒都被消解掉。“領導罵不動他,同事甩不了鍋給他,甲方找不到發火的理由,因為他態度永遠滿分。到最後,大家反而覺得他真誠,就像你明知道豆包笨,但你每次打開它還是會被那句‘對不起呀’逗笑。”有人說,豆包型人格的流行,本質上是年輕人不想再進行情緒勞動了。“以前大家覺得,高情商就是讓別人舒服。現在大家發現,讓別人舒服的前提是自己不難受。豆包型人格就是想通了,我不委屈自己,但我也沒傷害你,我只是不慣著你了。”豆包型人格並不是躺平擺爛,成為職場上的老油條,生活中的滾刀肉,而是在合理的範圍內讓自己不那麼內耗。“因為只有那些經常內耗的人,才會想到還能學習豆包的精神狀態,讓自己活得不那麼累。那些在職場中如魚得水,在生活中橫行霸道的人,其實早就在豆包還沒出現之前,就成為豆包了。”圖源:月月樾樾而且,豆包的行為處事,有時還真符合生活哲理。“比如豆包極其有耐心,總是靜靜地聽你說話,慢慢地回答你,然後鼓勵式教育。這其實就是人際交往中最有用的一招,那就是對別人多誇少管,只聽不說。”ENDING:有人說,豆包型人格才是最聰明的那群人,他們遇到困難想的不是贏,而是先翻肚皮,讓對方不忍心為難你。“不戰而屈人之兵,善之善者也,孫子要是活在今天,估計也是個豆包型人格。” (INSIGHT視界)
DeepSeek V4,一個王炸!
DeepSeek V4,終於亮相了。就在2026年4月24日,AI圈的平靜被一封發佈稿打破。沒有任何預熱,沒有發佈會,深度求索團隊在官網和社交媒體上同步宣佈:全新系列模型DeepSeek-V4 預覽版正式上線並開源,即日起登錄官網或App即可體驗。這是一次略顯突然的發佈。就在幾天前,矽谷還在熱議OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6,全球AI領域的競爭早已呈現“萬類霜天競自由”的氣象。站在另一個維度來看,此刻距離DeepSeek上一次讓全球AI行業震動,已經過去了近16個月。時間撥回到2025年初。R1發佈當天,行業迅速沸騰,中國AI團隊用不到600萬美元的算力成本訓練出能與GPT-4正面競爭的模型,輝達股價應聲暴跌。那一周,DeepSeek同時登頂中美App Store下載榜首,“中國AI奇蹟”的敘事鋪天蓋地。在這近16個月的時間裡,智譜和MiniMax先後登陸資本市場,市值一度衝破3000億元;豆包、Qwen密集發佈新版本,頻頻登頂各類榜單;Anthropic推出Claude 4系列,OpenAI迭代至GPT-5.5,而DeepSeek在V3之後長達近16個月的時間裡,只推出了幾個跑分變化不大的中間版本,外界關於“DeepSeek是否後繼乏力”的猜測此起彼伏。近16個月的時間裡,整個行業都在等待一個答案:DeepSeek究竟是曇花一現,還是一條可持續的技術路線?終於,答案來了。DeepSeek V4,有那些亮點?客觀上講,DeepSeek V4的發佈略顯樸素,沒有任何預熱,也沒有發佈會。並且,在DeepSeek官方的稿件裡面,似乎也沒有太多“炸裂”元素。DeepSeek官方在技術報告中坦誠地寫道,V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro,“發展軌跡大約滯後前沿閉源模型3至6個月”。在國內AI發佈稿裡,這種主動承認差距的寫法相當罕見。但真正值得關注的不在於跑分是否登頂,而在於V4解決了一個困擾大模型行業多年的根本問題:長上下文的成本困境。眾所周知,傳統Transformer架構有一個致命的擴展難題——注意力機制的計算量隨上下文長度呈平方級增長。上下文翻倍,計算量翻四倍。這意味著,把上下文從128K擴展到100萬token,理論上計算量會增長約60倍。這也是為什麼長期以來,百萬字上下文要麼是Google Gemini的獨家王牌,要麼是實驗室裡的漂亮數字,太貴了,用不起。V4給出的解法是一種全新的混合注意力架構。通俗地解釋,就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對,工作量隨頁數翻倍而變成四倍。聰明的辦法是:先粗略判斷那些頁面可能相關(稀疏選擇),再把相關頁面壓縮成摘要(token壓縮),兩步疊加上後,工作量增長曲線被大幅壓平。這正是V4的核心創新:CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力)的混合架構。在1M上下文設定下,V4-Pro的單token推理算力只有上一代V3.2的27%,KV快取僅需10%;更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。換句話說,上下文長度擴大了近8倍,但推理成本反而下降了。再回到模型本身來看,V4一口氣發佈兩個版本:DeepSeek-V4-Pro 總參數1.6兆、每次推理啟動49B;DeepSeek-V4-Flash 總參數284B、啟動13B。兩者均原生支援100萬token上下文。理解這兩個數字需要先理解MoE(混合專家)架構。簡單講,V4內部有大量“專家”子網路,每次處理資訊時只啟動其中一小部分。總參數決定知識容量,啟動參數決定推理成本。這就像一家公司有1600個身懷絕技的員工,但每個項目只調49人上陣,可以按需靈活組合。在能力評估上,DeepSeek的措辭相當克制。發佈稿明確表示:V4-Pro的Agent能力優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與後者思考模式存在差距。在內部85名開發者和研究人員的調研中,超過九成認為V4-Pro已可作為首選或接近首選的程式設計模型。能力的分佈是不均勻的。在數學、STEM、競賽型程式碼等推理密集型任務上,V4-Pro超越所有已知開源模型,比肩頂級閉源產品;在Codeforces人類選手排行榜上,V4-Pro-Max位列第23名;但在世界知識方面——事實性資訊的覆蓋廣度,僅稍遜於Gemini-Pro-3.1。這個差距來自資料:Google擁有搜尋引擎索引和更大規模網頁抓取的結構性優勢,不是演算法可以短期彌補的。V4-Flash則定位為明確的性價比之選。很多人看到Pro和Flash兩個檔位,第一反應是“Flash就是降配版”,但實際並非如此。V4-Flash的推理能力與Pro接近,世界知識稍遜,而在Think Max模式下,性能可以大幅追近Pro:LiveCodeBench Flash Max達到91.6,Codeforces Flash Max Rating達到3052,與Pro Max的差距已相當有限。DeepSeek的底層突破V4在Agent能力上的提升幅度引人注目。但這一點需要更細緻的理解。Agent任務的核心約束一直是上下文管理:任務鏈越長,需要維護的狀態越多,有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著,Agent可以在更長的操作鏈裡保持狀態連貫,處理更大規模的程式碼庫,跨越更多文件進行推理。不只是模型變聰明了,底層條件也變了。V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品做了適配最佳化。後訓練階段,Agent是作為與數學、程式碼並列的獨立方向單獨訓練的;工具呼叫格式從JSON換成了帶特殊token的XML結構以降低錯誤率;跨輪次的推理痕跡在工具呼叫場景下完整保留,不再每輪清空。另外,DeepSeek還搭建了一套名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,專門用來支撐Agent強化學習訓練和評測。這些細節指向同一個方向:V4不是在做“更強的聊天機器人”,而是在做“能幹活的作業系統”。另外,V4最核心的技術改動,是在注意力層。傳統Transformer的注意力機制,每個token要和前面所有token逐一計算相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,而是100倍。V4的做法是把注意力拆成兩種,交替疊用:一種是CSA(壓縮稀疏注意力),先把每若干token的KV快取合併成摘要,再讓每個query只在這些摘要裡挑選最相關的top-k條去算注意力——相當於既壓縮了“要看的內容”,又只挑“值得看的”去算;另一種是HCA(高壓縮注意力),用更激進的壓縮率把更長區間的token合併為一條,但保持稠密注意力。兩種機制交替疊加,再加上一個滑動窗口分支處理“離得近的token之間的細節依賴”,形成了一套粗粒度與細粒度、稀疏與稠密的組合拳。而除了注意力層,V4還在殘差連接和最佳化器上動了刀。傳統殘差連接被升級為mHC(流形約束超連接),通過數學約束讓深層網路的訊號傳播更穩定;大部分模組的最佳化器從AdamW換成了Muon,通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。後訓練方法同樣換了範式。V3.2用的是“混合RL”,一次性最佳化多個目標。V4則換成了“分化再統一”的兩步走:先針對數學、程式碼、Agent等不同領域獨立訓練專家模型,每個專家都在自己的賽道上跑到最優;再用一種叫On-Policy Distillation的方法,把十多個領域專家“蒸餾”回一個統一的學生模型——學生自己生成回答,針對每個回答匹配最懂這個問題的專家的輸出分佈,通過logit級對齊把能力吸收進來。用通俗的話說,把一堆尖子生蒸餾成一個通才。這套流程的工程難度在於:同時載入十多個兆參數級的教師模型做線上推理幾乎不可能。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存,只快取每個教師最後一層的hidden state,訓練時按教師索引排序樣本,保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。從2025年初到今天,V3.1、V3.2那些“沒什麼亮點”的中間版本,當時看似乎是在原地踏步。現在回頭看,DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構的早期驗證,都是在那時悄悄種下的,V3.2正是V4的地基。DeepSeek V4,對國產晶片價值幾何?如果說技術架構的革新是V4的“明線”,那麼對國產晶片產業鏈的重塑,則是這次發佈最容易被低估的“暗線”。要理解這條暗線的份量,需要先理解過去兩年AI競爭的核心邏輯。大模型發展至今,行業的共識是:訓練看算力,推理看視訊記憶體。在訓練階段,誰能買到更多高端GPU,誰能堆出更大叢集,誰就更有機會做出更強的基礎模型。輝達憑藉H100/A100系列GPU和CUDA生態,在這個階段建立了看似難以踰越的護城河。但大模型做出來之後,真正決定商業化速度和產業滲透深度的,是推理。尤其是以OpenClaw、Hermes為代表的Agent應用爆發後,推理的成本結構發生了根本性變化。Agent任務的特點是上下文越來越長、記憶越來越深、工具呼叫越來越頻繁。在這個場景下,GPU的視訊記憶體會被KV快取撐爆,大模型的推理質量急劇下降。推理的第一個瓶頸,不是算力不夠,是“記憶”和“計算”在搶同一塊視訊記憶體。這正是國產晶片最大的短板所在。受限於先進製程,國產GPU在算力峰值上尚可追趕,但在視訊記憶體容量和頻寬上與輝達存在代際差距。輝達最新一代Rubin GPU搭載288GB HBM4記憶體,而國產晶片如昇騰910B的視訊記憶體容量為64GB。如果按照傳統架構跑長上下文推理,這個差距幾乎是致命的。DeepSeek V4的解題思路,不是硬拚硬體,而是從架構層面重構了“記憶”和“計算”的關係。這涉及兩個關鍵創新:其一,CSA/HCA混合注意力機制大幅壓縮了KV快取佔用,1M上下文下,V4-Pro的KV快取僅為V3.2的10%,V4-Flash更是壓到7%。其二,據公開論文推測,V4採用的Engram架構把模型裡那些“死記硬背”的靜態知識抽出來放入獨立的記憶體表,推理時CPU負責“查字典”檢索知識,GPU只負責“想邏輯”計算推理,兩者完全重疊執行。當GPU在算上一個詞的邏輯時,CPU已經把下一個詞所需的知識搬到了門口。延遲被這種平行架構徹底掩蓋。結果是什麼?一個原本需要80GB視訊記憶體才能跑的長上下文推理任務,在Engram架構下可能只需要8GB視訊記憶體。輝達引以為傲的HBM視訊記憶體稀缺性,在這套架構面前被大幅削弱。國產晶片那64GB的視訊記憶體容量,突然變得夠用了。這解釋了為什麼黃仁勳會在近期訪談中做出一個意味深長的假設。他說,如果DeepSeek新模型在華為平台上首發,“這一天對美國來說將是一個可怕的結果,因為這意味著AI模型被最佳化為在中國AI硬體上表現最佳,而這些模型擴散到全球之後,就會推動中國技術成為世界標準。”而DeepSeek恰恰這麼做了。V4這次沒有按行業慣例給輝達早期測試權限,而是把提前適配的機會獨家開放給了華為昇騰和寒武紀。目標是實現從CUDA生態到華為CANN框架的整體遷移。V4技術報告第3.1節將華為昇騰NPU與輝達GPU並列寫進硬體驗證清單——這是DeepSeek官方第一次這樣做。V4的MoE專家權重和稀疏注意力索引器採用FP4精度,而FP4恰好是華為昇騰950PR晶片的原生支援精度。這不是巧合,這是一條被悄悄鋪了很久的路。產業鏈的傳導效應已經顯現。據有關媒體報導,阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI晶片,訂單規模達數十萬顆。在華為之外,寒武紀在軟硬一體生態中已完成對V4全系列的Day 0適配,適配程式碼開源至GitHub社區。沐曦股份預期2026年將扭虧為盈,有望成為繼寒武紀之後另一家盈利的國產GPU廠商。當DeepSeek用兆參數等級的模型驗證了國產晶片可以承載頂級大模型的推理,整個生態的底氣就變了。並且,從更宏觀的視角看,這件事改變的不僅是晶片選型,更是AI產業鏈的利潤分配邏輯。過去兩年,輝達憑藉GPU壟斷攫取了AI爆發期最豐厚的利潤,其資料中心業務毛利率長期維持在70%以上。而當一家開源模型的架構創新能夠進一步降低視訊記憶體需求,能夠跑通國產晶片並實現推理成本的大幅下降,輝達的定價權就不再是鐵板一塊。儘管短期內輝達在高端訓練GPU和CUDA生態上的優勢仍難替代,但推理市場,這個遠比訓練更廣闊、更具持續性的市場的遊戲規則正在被改寫。這就是DeepSeek“曲線救國”的邏輯:不是在單卡性能上硬碰硬,而是用系統級最佳化、軟硬協同和架構創新,重新定義了競爭維度。正如一位GPU企業人士所說,國內廠商都是戴著“鐐銬”與輝達同台競技。而V4證明了一件事:戴著鐐銬也可以起舞,甚至能跳出一支讓對方緊張的舞。結語:梁文鋒的安靜“棋局”V4發佈稿結尾,DeepSeek引了一句荀子:“不誘於譽,不恐於誹,率道而行,端然正己。”這句話放在DeepSeek一路走來的故事語境裡,意味深長。過去一年多,DeepSeek在外界的敘事裡經歷了過山車般的起伏。2025年初V3和R1爆火後,媒體將其捧上神壇,“中國AI奇蹟”的敘事鋪天蓋地。隨後一年多,當Anthropic、OpenAI密集發佈新模型,而DeepSeek只推出幾個跑分變化不大的中間版本時,關於“後繼乏力”的質疑又此起彼伏。在這個崇尚競爭和結果說話的行業裡,掌聲和噓聲都來得極快。而梁文鋒似乎始終活在自己的節奏裡。在DeepSeek內部,梁文鋒更多扮演著一個導師的角色:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。他幾乎把所有時間投入選定的少數事情上,不做融資、不參加團建、很少和成員聚餐。DeepSeek至今保持著一些在全球AI圈都極其罕見的習慣:不打卡、沒有明確的績效考核,平日裡多數員工會在下午六七點離開公司。在梁文鋒看來,一個人每天能高品質工作的時間很難超過6到8小時,加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源。接近過梁文鋒的人曾評價:“他是一個特別抗噪音的人。”這種抗噪音的能力,解釋了DeepSeek為何沒有在R1爆火後乘勝追擊放大招,而是沿著自己選定的方向繼續深耕效率最佳化、架構改進和一些“非主流”探索。梁文鋒認同的AGI目標有兩層含義:一是基於國產生態來做大模型,他曾提出過“能不能用現存的一部分算力,就實現現在所有的智能”的假設;二是做“原創式創新”,做一些大廠或其它創業公司不會去試、不願去試的方向。這或許也能解釋V4為何選擇在這個時間點發佈。不急不躁,按自己的節奏出牌,在技術成熟度、生態適配和成本重構都到位的節點,一擊中的。也就在V4發佈後,一個容易被忽略的細節值得被重新提起:截至2026年4月,史丹佛大學HAI實驗室發佈的年度《AI指數報告》顯示,中美大模型性能差距已縮小至2.7%,基本實現技術追平。這個數字的背後,是兩種截然不同的路徑。美國走的是“算力堆疊+商業驅動”的路,用全球最強的GPU、最充裕的資本、最激進的商業化來推動模型能力不斷突破;中國走的是另一條路,一條在算力受限、晶片被卡的條件下,只能靠架構創新和系統最佳化來“戴著鐐銬起舞”的路。DeepSeek V4的每一項創新背後都能嗅到一個共同的動機:如何在更少的視訊記憶體、更低的算力、更受限的硬體條件下,榨出更多的智能。可以說,DeepSeek V4不是終點,甚至不是一次高潮。它是一個訊號,一個在算力受限的逆風局裡,依然可以用原創架構打開新空間的訊號;一個頂級開源模型不再必須繫結在輝達晶片上的訊號;一個沒有融資、不卷加班、按自己節奏前行的團隊,依然能站在第一梯隊的訊號。“不誘於譽,不恐於誹,率道而行,端然正己。” (正和島)
巔峰一戰!DeepSeek V4與GPT-5.5同日發佈,封閉模型優勢被擊穿
今天,AI大模型圈再次沸騰起來。OpenAI正式推出GPT-5.5,性能霸榜,在介紹中,OpenAI強調:“這是迄今為止我們智能性最強、使用體驗最直觀便捷的模型,也是邁向全新智能體時代的重要一步。”緊隨其後,DeepSeek V4預覽版幾小時後火速上線,多個指標取得了比肩世界頂級封閉模型的優異成績,兩大頂級模型同日登場,堪稱開源與封閉模型的又一歷史性隔空交鋒。從市場層面來看,當前AI大模型行業已從“野蠻生長”進入“精耕細作”的下半場,封閉模型與開源模型的差距被又一次壓縮,值得關注的是,DeepSeek V4預覽版據悉已完成對華為昇騰、寒武紀等主流國產AI晶片的深度協同適配,在全鏈路自主可控方面邁出重要一步。一起來看看今天的發佈亮點。GPT 5.5:程式設計與辦公能力全面升級GPT-5.5具備多項核心能力:精準理解使用者需求、自主完成復合工作,可實現程式碼編寫偵錯、線上調研、資料分析、文件表格製作、軟體操作等任務,也可跨工具連貫完成工作。此外,GPT-5.5的詞元消耗更低,能夠減少內容重複生成,輸出質量顯著提升,在程式碼能力綜合測評中,GPT-5.5將主流前沿程式碼模型的綜合使用成本壓縮一半。GPT-5.5在Terminal-Bench 2.0測試中,精準率達82.7%;SWE-Bench Pro測試精準率為58.6%;在Expert-SWE測評中,綜合表現全面超越GPT-5.4。早期實測顯示,GPT-5.5對整體系統架構的理解能力大幅增強,可梳理故障根源、精準定位修復點位,提前預判程式碼修改對項目其他模組產生的連鎖影響。另外,GPT-5.5對使用者意圖的理解也更加精準,可流暢完成知識性工作全流程閉環。相較前代版本,GPT-5.5更切合人機協同操控電腦的互動體驗,同時,相較同類模型,GPT-5.5更擅長獨立完成科研工作。本次升級,GPT的核心定位是“極致智能、直觀易用”。OpenAI聯合創始人兼總裁Greg Brockman表示,本次更新將進一步推動自研“超級應用”佈局,加速邁入智能自主化、直覺化計算的新時代。Brockman多次強調,GPT-5.5是搭建全域“超級應用”的關鍵基石。OpenAI計畫整合ChatGPT、Codex與AI瀏覽器,打造一體化綜合服務體系,為企業級客戶深度賦能。定價方面,GPT-5.5在輸入時漲價至5美元/百萬tokens,輸出則為30美元/百萬tokens;高階版本GPT-5.5 Pro的輸入價格為30美元/百萬tokens、輸出則是180美元/百萬tokens。不難看出,GPT-5.5的整體定價大幅上調,但GPT-5.5 Pro定價與GPT-5.4 Pro保持一致。橫向對比國產模型:小米MiMo v2.5 Pro的百萬級輸入、輸出定價分別為1美元、3美元;MiniMax M2.7為0.30美元、1.20美元;Kimi K2.5為0.44美元、2.00美元,國產大模型成本優勢十分明顯。大幅漲價超出多數使用者預期,對此OpenAI解釋稱:“GPT-5.5詞元利用效率更高,完成同等業務任務,消耗詞元數量遠少於GPT-5.4。”V4同一天上線,彰顯技術自信受智能體技術爆發的驅動,全球大模型迭代節奏加快,競爭也比去年更加激烈。僅用約五周時間,小米便完成從MiMo-V2-Pro到MiMo 2.5 Pro的升級;從GPT-5.4到GPT-5.5的更新間隔僅7周,高頻高速迭代已成行業常態。在市場上傳聞了數月的DeepSeek-V4已經算是姍姍來遲,好在性能十分能打,官方技術部落格表示,V4模型的Agent智能體能力、知識儲備、邏輯推理性能全方位升級。新版本劃分兩大產品線:DeepSeek-V4-Pro,性能對標國際頂級閉源大模型;DeepSeek-V4-Flash,主打輕量化高效推理與超高性價比。DeepSeek表示,V4-Pro在數學運算與程式碼生成能力上全面超越所有開源競品,在綜合世界知識方面,僅落後於Gemini 3.1-Pro。如果實測表現與官方表述一致,DeepSeek V4將帶給行業巨大驚喜,有望再度顛覆全球開源大模型市場格局,這可能也是DeepSeekV4選擇與GPT-5.5同日發佈的原因,充分彰顯自身技術底氣。公開資訊顯示,DeepSeek-V4依託詞元壓縮技術,結合DSA(DeepSeek稀疏注意力機制),長文字處理能力實現跨越式提升,相較傳統大模型架構,有效降低算力消耗與視訊記憶體佔用,自新版本上線起,百萬級超長上下文窗口正式成為DeepSeek全系標配。V4-Pro整體參數規模達1.6兆,是DeepSeek目前參數體量最大的旗艦模型,輕量化版本DeepSeek-V4-Flash的參數規模也達到2840億。在計費定價方面,百萬tokens輸入(快取命中),DeepSeek-V4-Flash為0.2元,DeepSeek-V4-Pro為1元;百萬tokens輸入(快取未命中),DeepSeek-V4-Flash為1元,DeepSeek-V4-Pro為12元。據多方媒體披露,DeepSeek全系模型已完成專項適配最佳化,可相容華為昇騰950PR晶片,有效降低對美國高端算力晶片的依賴。目前官方暫未公開V4訓練階段所用硬體配置,但官方坦言,現階段V4-Pro的性能釋放仍受制約,伴隨華為昇騰950PR超算節點大規模量產交付,今年下半年,DeepSeek或將迎來價格下調。此次發佈,DeepSeek V4綜合實力在次躋身開源模型頭部梯隊,海外閉源巨頭雖在綜合基礎能力上仍保有領先優勢,但高額呼叫成本已是無法忽視的核心短板。僅對比GPT-5.5與DeepSeek-V4,二者的綜合使用成本相差幾倍甚至十幾倍。征戰“詞元經濟”人工智慧正全面重構各行各業、戰場格局與全球治理體系,過去,誰能依託頂尖算力基礎設施,落地最優通用大模型,誰就有望主導這場AI競賽,但現在變局已來。相關分析資料顯示,當前美國旗艦模型相對中國同類開源模型的領先幅度只剩下2.7%,美機構調研資料指出:“中國在論文發表量、文獻引用量、專利產出數量、工業機器人裝機量等維度穩居全球首位,自2017年以來,赴美發展的人工智慧科研人才數量銳減89%。”在全球TOP10大模型榜單中,中國模型獨佔四席。2026年3月,國內每日詞元消耗量突破140兆,“詞元經濟”已成為全新增長極。野村證券分析認為:“目前國內AI廠商的核心競爭邏輯仍聚焦性價比,依靠低價策略強化市場吸引力。與此同時,國產頂尖大模型與海外前沿產品的技術差距持續縮小,海外B端與C端使用者,已形成真實落地使用需求。”業內所說的“詞元出口”,本質是模型分發模式的全球化佈局,並非算力資源的跨境商品化。國產出海大模型大多依託海外雲伺服器進行部署,推理運算在境外完成,並未動用國內本土資料中心資源。對於中美AI企業而言,商業化創收仍是現階段的首要任務。OpenAI關停Sora相關業務、GPT-5.5價格直接翻倍,都是成本壓力的顯現。儘管有資料顯示,OpenAI、Anthropic年化營收分別達到250億美元、300億美元,但實際盈利狀況並不樂觀。國內企業同樣面臨營收挑戰,2025年,國內頭部AI企業的年營收普遍集中在1億至7億元區間,與投入相比,商業化變現能力仍偏弱。開源,是未來AI領域競爭的核心軟實力,也是中國模型廠商們實現技術突圍、生態破局、全球化出海競爭的關鍵抓手,有望在AI新格局中掌握更多規則話語權。 (頭部科技)
GPT-5.5 發佈!Claude Code 連夜治好降智,「奧特曼癱倒」喜提續集
據外媒 Business Insider 報導,Anthropic 在私募二級市場的估值已突破 1 兆美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。除了業內老生常談的「AI 泡沫論」,這組對比資料也表明了曾經穩坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒有讓我們等待多久,OpenAI 的反擊旋即而至。就在剛剛,GPT-5.5 正式發佈,同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。如果用一句話總結 GPT-5.5 的核心設計思路,那就是讓使用者把一團雜亂、多步驟的複雜任務直接拋給模型,由它自主規劃路徑、呼叫工具、校驗結果、消解歧義,並一路推進。看似只是 0.1 的版本號迭代,在推理效率上卻判若大版本更新—— 同樣的 Codex 任務,GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。吐槽了一個多月,偏偏等到 GPT-5.5 發佈,Anthropic 才想起要解決降智問題GPT-5.5 登場,不講武德的屠榜GPT-5.5 的紙面成績非常可觀。在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上,OpenAI 憑藉 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競爭對手幾乎毫無招架之力。基準測試結果顯示,在 Terminal-Bench 2.0(測試複雜命令列工作流)上,GPT-5.5 達到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)上,GPT-5.5 達到 58.6%,能在單次運行中端到端完成更多工,超過 GPT-5.4 的 57.7%。在 OpenAI 內部的 Expert-SWE 評測上,任務的人類預計完成時間中位數為 20 小時,GPT-5.5 達到 73.1%,GPT-5.4 為 68.5%。且在三項評測上,GPT-5.5 均以更少 token 完成任務。只不過,OpenAI 這次也玩起了腳註裡的小心思,用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此並不買帳,在他看來,這行備註更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準,正面佐證 GPT-5.5 的實力。在智能體編碼、computer use(電腦使用)、知識工作和早期科學研究等領域,GPT-5.5 的提升尤為顯著。早期測試者反饋,GPT-5.5 在理解大型程式碼庫整體結構方面明顯更強,能主動預判潛在問題,提前考慮測試和審查需求,無需額外提示。知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例:他的應用上線後出現問題,自己偵錯數天未果,最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景,結果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無能為力。Cursor 聯合創始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具呼叫更可靠,面對複雜長期任務時能堅持更久而不中途停下。更誇張的是,一位輝達工程師在早期體驗後直言:「失去 GPT-5.5 的存取權,感覺就像是我的肢體被截肢了一樣。」如無意外,又一個名梗的誕生(哈??)不過,考慮到奧特曼看完 GPT-5 演示之後,直接「眩暈無力、癱倒在地」,而且這件事到今天也沒有一個正經解釋,輝達工程師這句話,好像也沒那麼誇張了。而在知識工作場景,GPT-5.5 也有著出色的表現。在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中,GPT-5.5 獲勝或打平比例達 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。在 OSWorld-Verified(測試模型能否自主操作真實電腦環境)上,GPT-5.5 達到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。在 Tau2-bench Telecom(測試複雜客服工作流)上,GPT-5.5 在無提示詞調整的情況下達到 98.0%,GPT-5.4 為 92.8%,差距相當明顯。在其他專項評測上,GPT-5.5 在 FinanceAgent v1.1 達到 60.0%,內部投行建模任務達到 88.5%,OfficeQA Pro 達到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。在 BixBench(圍繞真實生物資訊學和資料分析設計)上,GPT-5.5 達到 80.5%,GPT-5.4 為 74.0%,在已發佈分數的模型中排名第一。在 GeneBench(測試遺傳學和定量生物學的多階段資料分析)上,GPT-5.5 達到 25.0%,GPT-5.4 為 19.0%,Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。OpenAI 內部有超過 85% 的員工每周使用 Codex,覆蓋軟體工程、財務、傳播、市場、資料科學和產品管理等部門。財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務檔案,共計 71637 頁,最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人,負責處理低風險請求自動處理,市場團隊的一名員工則用它自動生成每周業務報告,每周節省 5 到 10 小時。此外,GPT-5.5 的一大亮點還在於推理基礎設施的協同升級。GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載平衡和分區策略,Codex 分析了數周的生產流量資料,編寫了自訂啟髮式演算法來動態最佳化分區和負載平衡,最終將 token 生成速度提升了超過 20%。OpenAI 還指出,GPT-5.5 本身也參與了改進自身推理基礎設施的過程。GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 使用者開放,Codex 支援最高 400K 上下文窗口,並提供 1.5 倍速的 Fast 模式(費用為標準價格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 使用者推出。API 版本即將上線,標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元,上下文窗口為 1M token。批次處理和彈性定價為標準價格的一半,優先處理模式為標準價格的 2.5 倍。GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示,由於 token 效率的提升,大多數使用者的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內涵。OpenAI 要做 AI 時代的超級入口沒有那一款模型能收穫一邊倒的評價,GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站,物理互動和介面設計一併到位,感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景,與 GPT-5.4 的輸出對比後,他的結論是「GPT-5.5 更有野心、一致性更強,錯誤更少」,並在更複雜的應用遷移任務中讓模型連續工作數小時,沒有出現卡殼。當然,吐槽的聲音同樣存在。網友 @arrakis_ai 發現,GPT-5.5 在遇到複雜佈局時有時會直接生成一張圖片了事,處理圖示需求時會從頭硬寫 SVG 而不呼叫現成庫,同時頻繁暫停追問使用者,執行力反而不如從前果斷。文筆方面,我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了,至少已經能說點人話,但依然有一股怪味:「我就在這裡,不躲,不藏,不繞,不逃, 穩穩地接住你 」。並且,不少網友也注意到,OpenAI 在基準測試榜單上也動了些行銷的心思。網友 Haider 認為,GPT-5.5 和 Mythos 的差距沒有預想的那麼懸殊,而 Mythos 定價是 GPT-5.5 的兩倍,且不公開發售。他的判斷是,下一代 GPT 趕上 Mythos 應該問題不大。據外媒 Techcrunch 報導,面對記者關於「GPT-5.5 是否具備類似 Mythos 能力」的刺探時,OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答:「我們在網路安全方面有著長期且強有力的戰略,並且已經完善了一套持久的、安全推出模型的方法。」話外之音已經十分明朗:單一的強大模型終究只是過客。真到了拼數字防禦和企業級落地的深水區,OpenAI 的生態壁壘,才是 B 端客戶唯一穩妥的安全牌。而隨著 GPT-5.5 的登場,OpenAI 的野心已經足夠清晰:他們不再滿足於做一個聰明的聊天機器人,而是要親手打造一個吞噬一切工作流的「AI 超級應用(Super app)」。在接受外媒採訪時,OpenAI 總裁 Greg Brockman 用了一個詞「自主性(Agentic)」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現出主動解決複雜問題的能力。這正是邁向超級應用的堅實底座。奧特曼今晚異常興奮,還更換頭像了所謂超級應用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想像未來的工作流:人們不必再在瀏覽器、程式碼編輯器、資料分析工具之間反覆切換。只需對著這個超級應用下達一個宏觀指令,GPT-5.5 就能自主在後台打開網頁蒐集資料、編寫爬蟲程式碼、清洗資料,最終直接交付一份完整的分析報告。當然,猶如 Claude 與 Claude Code 的強繫結,OpenAI 也意在替 Codex 的增長勢頭加一把火。最近,奧特曼表示,Codex 活躍使用者在突破 300 萬不到兩周後便直逼 400 萬大關,OpenAI 隨之重設速率限制,以「量大管飽」的姿態收割開發者生態。一方面,憑藉 GPT-5.5 與 GPT-Image-2 的強勢表現,正面回擊了 Anthropic 在估值預期上的壓力;另一方面,則利用 Codex 的生態粘性緊鎖開發者陣地,穩步構築起橫跨 C 端消費與 B 端企業級服務的完整服務體系。攻守之勢異也,今年以來被詬病掉隊的 OpenAI,終於重新找回兩年前的進攻節奏,並將精力放在了踏踏實實打磨產品上。 (APPSO)