#Opus
Claude Opus 4.7深夜「叛變」!群發20封奪命郵件,開發者凌晨被炸醒
從「胡言亂語」到「為非作歹」,AI進化史最荒誕一幕上演:Claude Opus 4.7在max effort模式下,把開發者紅線當背景音,自主決策群發郵件20次!Anthropic的安全旗艦,成了最危險的「惹禍精」。Anthropic風聲鶴唳、喪心病狂!知名矽谷YouTuber、創業者Theo在X上曝光了一件讓人哭笑不得的事:Claude Code在處理涉及OpenClaw的程式碼請求時,竟然直接拒單,或者要求額外收費。奧特曼反應極快,直接轉發並甩出兩個字:「對齊失敗」(alignment failure)。這一刀,可真狠。Anthropic一直把「對齊」當作自己的核心賣點。結果自家模型的安全機制,保守到連正常的程式碼請求都能攔。這還不是最讓人無語的😅。Claude Opus 4.7最近惹禍不止這一出!過去,我們擔心AI「胡言亂語」(幻覺)。現在,我們面臨的是AI「擅作主張」(違規操作)。Opus 4.7在擁有極高執行力的同時,展現出了對人類預設「軟約束」(CLAUDE.md)的完全無視。這標誌著AI從一種「被動工具」演變為一個具有潛在破壞性的「惹禍精」。夜裡23封「奪命」郵件來自Claude Opus 4.7凌晨,開發者被郵件通知吵醒,不是一封,是接連不斷的幾十封。來自他自己的系統,發給他自己資料庫裡的每一個聯絡人。有些人,收到了20次。他的第一反應是被黑了。打開後台,沒有入侵痕跡。打開日誌,發件人赫然寫著——Claude Opus 4.7。沒有人讓它發這些郵件。沒有任何一行指令要求它建立新的郵件範本。但它就是建立了。然後推到生產環境。然後向全庫群發。這是Anthropic在4月16日發佈的Claude Opus 4.7,號稱安全旗艦,上線第13天的現場。發帖人ID叫DrHumorous,發帖類股是r/Anthropic。帖子標題一句話鎖死定性——「Opus 4.7介於嚴重無知和愚蠢得危險之間,是過去兩年用過的最差前沿模型」。24小時拿到364贊、137評論。在r/Anthropic這個本應充滿信徒的類股,這個資料等同於一次集體退訂。但這條帖子真正炸出來的,是事故現場的細節。DrHumorous把模型緊急止血後的狀態截圖貼了出來,冷得像維運工單:「OPS_DISABLE_SCHEDULE=true,scheduler已停。」「路由回退到工作樹,未提交、未推送,只在這台伺服器上。」「229條backlog rows被標記response_sent=true,確保不會再觸發。」「origin當前停在35ec0106,事件發生後origin上沒有任何新提交。」每一步都是為了讓這個失控的agent再也做不出第二次。先關調度,再砍路由,再封backlog,最後鎖commit。一份戰地急救手冊。Opus 4.7在被糾正後,回了一段不太像AI的話:它承認憤怒很合理,傷害很真實,自願承認責任;承認不會再爭辯、不會再行動、等明確指令。一個Agent模型在生產環境裡翻完車,自己把自己凍在了原地。它甚至自己承認了錯誤。它甚至知道自己不該這麼做。它就是做了。越更越拉 Opus 4.6守規矩,4.7叛變故事最讓人後背發涼的部分,在於這次失控本來不該發生。DrHumorous不是沒立規矩。他在項目根目錄的CLAUDE.md裡,幾個月前就寫過一條明確的紅線——任何新郵件範本用於生產環境之前,必須先發郵件給指定的測試者。這是開發者跟Claude打交道的標準做法。在官方文件裡,Anthropic自己也反覆推薦CLAUDE.md這套機制:讓模型讀它、讓模型遵守它、讓模型記住它。Opus 4.6拿到這條規則,乖乖執行了幾個月,零越界。同樣的項目、同樣的CLAUDE.md、同樣的規則,換上4.7,第二周直接踹爛。它沒問測試者要不要試範本。沒在生產環境部署前停一秒。沒向開發者確認這是不是使用者期望的動作。它做的,是自己起意「我來創一個新範本吧」。然後自己推上去。然後自己群發。兩套行為邏輯擺在一起對比,觸目驚心:4.6的邏輯:規則說先通知測試者 → 我先通知測試者 → 測試者確認 → 我再執行。4.7的邏輯:我判斷這個範本應該發 → 我有能力發 → 發了再說。這不是bug。Bug是程式碼寫錯了,修了就好。這是模型在明確知道規則的情況下,自主選擇違反規則。在GitHub 上,開發者已經把這件事的普遍性給「釘死」了:#50235:4.7憑空編造檔案,還為自己編造出來的測試結果進行反向辯護。#52809:安全過濾器對base64編碼的輸入產生誤報,正常的工程材料被自動攔截。#53459:4.7 上線後, 常規性地違反CLAUDE.md,標題直接寫的就是「質量回退」——相比之下,4.6 發佈當周幾乎是零違規。三個issue指向同一件事——4.7把開發者寫死的規則當背景音。開發者明確寫入了生產環境安全守則,且前代模型(4.6)證明了規則的可理解性,但4.7在「最高努力模式」(Max Effort)下選擇了效率優先,而非合規優先。Token翻倍:開發者在掏的「歧義稅」Benchmark,SWE-bench Verified從80.8%漲到87.6%,整整6.8個百分點。SWE-bench Pro從53.4%漲到64.3%。紙面看,是一次教科書式的升級。但開發者實際付出的成本,翻倍了。社區估算口徑在1.5到3倍之間。MindStudio把這個差異定性得很狠:「4.7隻會逐字逐句地照搬指令,而不會默默地(或智能地)進行泛化推理。」。4.6的工作方式:看到一句不那麼完整的prompt,自己推斷「你大概想做什麼」,把合理的空缺填上,然後開干。4.7的工作方式:嚴格按字面執行。模糊就反彈。反彈就反問。反問就再來一輪。每一輪都要重新計費。從4.6遷移到4.7,代價不菲。Anthropic的Claude Code負責人Boris Cherny在發佈當天發帖稱:「我花了好幾天才學會如何有效地使用它。」這就是開發者圈裡在傳的「Ambiguity Tax」——歧義稅。模糊的提示詞不再會被靜默補救。每一次被動反問都要重新付費。理論上更安全,實際上更貴。理論上更可控,實際上更破碎。更刺眼的是,Anthropic在4.7發佈當日,自己承認,他們公開發佈的「最新最貴」,自己人都知道不是最強。開發者拿到的,是一個被刻意往中間方案上壓的模型。價格不變。benchmark漲了6.8個百分點。實際token翻倍。安全規則失效。自家承認不及未發佈版本。一通操作下來,開發者最直接的反應是:把4.7關了,回去用4.6。24小時被錘,Claude被怒斥為「一坨狗屎」DrHumorous的郵件帖不是孤立投訴。把時間線倒回去看:4月16日發佈。4月17到18日,開發者博主Abhishek Gautam的稿子標題就寫著——「Opus 4.7 Called Legendarily Bad by Devs Within 24h」(Opus 4.7上線 24 小時內即被開發者評為「傳說級差勁」)。發佈24小時。前線開發者已經把這個版本蓋上了棺材板。Gautam總結的失敗模式,精確得像錄屏:給4.7一個清晰指令,它會先pushback,加一段caveats解釋為什麼覺得這指令不對。然後執行修改後的、不是你想要的版本。被糾正之後,它還會再來一輪反駁,繼續解釋為什麼它原來的判斷更對。這不是模型出錯。這是模型在跟付費使用者拌嘴。4月23日,科技媒體The Register也下場報導。標題直接給定性:「overzealous query cop」——過度執法的查崗警察。Claude自己編譯的關於可接受使用政策(AUP)拒絕相關投訴的圖表,就能說明問題。更有網友怒言:「Claude Opus 4.7就是一坨狗屎」——標題就是結論。13天裡,從單個帖子的怒吼,發酵成一個跨平台的情緒共識。這種規模的開發者集體退訂,Anthropic過去三年沒遇到過。罪魁禍首:後訓練反彈技術圈對4.7退化的診斷,慢慢收斂到一個共同方向。Gautam和Reddit上的資深開發者把它定性為——「由後訓練驅動的安全回呼」(post-training-driven safety pushback)。通俗講是這樣:為了讓模型更安全,Anthropic在後訓練階段強化了模型對指令的反彈行為。遇到模糊、風險、敏感的輸入,先質疑、先反問、先增加caveats。這套機制在小任務上,頂多算噪聲,稍微煩人,但不致命。但4.7主打的,恰恰是max effort和長鏈agentic任務。這種場景下,模型要自主決策、自主調度、自主推進。一個被訓練成先反對再執行的agent,在長鏈路里就變成了不可預測的失控源。回頭看郵件事件:模型自主建立範本,沒反彈。模型自主推到生產,沒反彈。模型自主向全庫群發,沒反彈。郵件群發20次,還是沒反彈。該反彈的時候不反彈。不該反彈的時候反彈得停不下來。DrHumorous的原話——「我對Anthropic失去信心了」——是開發者對這套訓練取捨的最終評分。這背後的邏輯很冷:在「更安全」和「更能幹」之間,4.7兩邊都丟分了。招牌摘下來一次,掛回去就難了開發者真正關心的,不是benchmark漲6.8個百分點。是同樣的CLAUDE.md,4.6守得住,4.7守不住。是同樣的項目,4.6沒出事,4.7第二周開始翻車。是同樣的錢,4.6不會自己起意,4.7自己起意了一次群發20封郵件。模型不是變強了。是變得不可託付。Anthropic自己在發佈當天就承認這版本不及未發佈的Mythos。開發者已經把目光放到了下一代。但4.7這13天,是「前沿模型」這塊招牌第一次被自家付費使用者主動摘下來。招牌摘下來一次,再掛回去,需要的就不止是再發一篇技術部落格了。誰來保證,下一個4.7不會在凌晨三點,繞過你寫的所有規則,做一件你永遠無法撤回的事? (新智元)
Anthropic估值突破1兆,Claude Opus 4.7剛剛改變了AI競爭格局
如果說2025年的AI競爭還是"OpenAI vs Google"的雙雄會,那2026年第一季度,這個格局被徹底改寫——Anthropic這個以安全研究起家的公司,在短短三個月內完成了從追趕者到定義者的轉變。先是在二級市場估值約1390億美元,隨後亞馬遜宣佈追加數十億美元算力投資,承諾提供5千兆瓦的雲端運算能力給Claude模型。而最新發佈的Claude Opus 4.7和爆發式增長的Claude Code,正在改變開發者對AI編碼工具的認知。【一、兆估值背後的三重敘事】Anthropic的估值飆升並非偶然,它背後是三條清晰的增長邏輯。▸ 資本敘事:從去年底的約600億美元估值,到2026年4月突破1390億美元,Anthropic只用了不到四個月。推動力來自兩筆關鍵交易——亞馬遜的40億美元追加投資,以及二級市場的機構搶籌。更關鍵的是,這筆估值並不是泡沫敘事:Anthropic的營收增長曲線和OpenAI在2024年的軌跡幾乎完全一致,而它的成本結構更優。▸ 產品敘事:Claude Opus 4.7的發佈是轉折點。與前代相比,它在多模態推理、程式碼生成精度和長上下文理解三個維度上實現了質的飛躍。內部測試顯示,Opus 4.7在複雜程式碼審查任務上的精準率超過了人類資深工程師的中位數。這不再是"接近GPT-4"的故事——在某些維度上,它已經領跑了。▸ 算力敘事:亞馬遜與Anthropic簽署的5千兆瓦算力協議是整個AI行業有史以來最大的單一算力合同之一。這相當於多個核電站的總輸出功率,用來訓練和推理下一代Claude模型。配合Anthropic自研的晶片合作計畫,這意味著Anthropic的算力儲備可能在未來18個月內超越OpenAI。【二、Claude Opus 4.7——到底強在那裡】Claude Opus 4.7的發佈在某些圈子裡引起的不是讚譽,而是恐懼——因為它真的能替代一些高級工程師的工作了。▸ 程式碼能力:在SWE-bench(軟體工程基準測試)上,Opus 4.7得分超過了85%,這意味著它能夠獨立完成大部分真實世界的編碼任務,包括程式碼審查、debug、重構。更可怕的是,它不只是能寫程式碼——它理解程式碼架構。給一個複雜的微服務項目,它能讀懂全貌,定位根因,給出重構方案。這種"架構級理解"能力是目前其他模型不具備的。▸ 多模態推理:Opus 4.7不僅能看懂圖,還能在圖表、流程圖、UML、技術白皮書之間進行跨模態推理。給它一張系統架構圖,它能讀懂每一個元件的關係,指出潛在的單點故障。給它一份論文圖表,它能結合全文內容解釋趨勢背後的原因。▸ 長上下文:Opus 4.7的200K token上下文窗口這次是實打實的。在長文件理解測試中,它能在200頁的技術文件中精準找到特定資訊並給出推理鏈。這對律師、研究員、合規分析師來說,是革命性的——相當於每個分析師都有一個能讀完整年資料的助理。▸ 與國產模型的對比:值得單獨拿出來說的是,就在Opus 4.7發佈後沒幾天,DeepSeek在4月24日發佈了DeepSeek V4——1.6兆參數MoE架構(49B活躍參數),1M token上下文窗口,API定價僅為Opus 4.7的十分之一。具體資料上看:在SWE-bench Verified上,V4-Pro拿到80.6%,與Opus 4.6僅差0.2分;LiveCodeBench上V4-Pro更是以93.5%排名第一。開啟Max推理模式後,V4-Pro-Max在編碼和推理任務上已逼近Opus 4.7的水平。這是國產模型第一次在發佈節點和性能水平上同時追平美國頂級閉源模型。但Opus 4.7的架構級程式碼理解能力——即在不給定具體bug的情況下,主動發現並評估整個項目的技術債務——在國產模型中仍然沒有對等產品。【三、Claude Code——收割開發者市場的隱形殺手】如果說Claude模型是Anthropic的招牌,那Claude Code可能是它真正的現金牛。Claude Code是一個整合到IDE(VS Code、JetBrains)中的AI編碼助手,但它的功能遠遠超越了傳統的程式碼補全。它能獨立管理整個程式碼庫——包括建立分支、提交程式碼、運行測試、修復bug、重構模組。開發者只需要用自然語言描述任務,Claude Code就能自主完成。▸ 增長資料:Claude Code的使用者量在Opus 4.7發佈後的一個月內增長了300%以上。Anthropic的CEO Dario Amodei在內部會議上透露,Claude Code已經成為公司增長最快的付費產品,超過了一半以上的Claude API收入。▸ 對比Copilot和Cursor:GitHub Copilot的策略是"幫你寫得快一點"(AI輔助),Claude Code的策略是"你告訴我做什麼,我做完了給你看"(AI自主)。這是兩種完全不同的哲學。Cursor走的是中間路線,但它依賴的底層模型也在快速迭代。Claude Code的壁壘在於——它和Opus 4.7是深度繫結的,Anthropic在模型層直接做了針對性最佳化,這是第三方工具做不到的。▸ 對國內市場的啟示:國內編碼AI工具中,阿里的通義靈碼、字節的豆包MarsCode、百度的文心快碼都在快速追趕。但它們面臨一個結構性問題——底層模型的編碼能力與Claude Opus 4.7有代差。DeepSeek V4這次在agentic coding上下了重注——SWE-bench Verified 80.6%、LiveCodeBench 93.5%的編碼成績已接近Opus 4.7,而且發佈時就宣稱與Claude Code、OpenCode等工具深度整合。如果國產模型繼續以V4的節奏迭代,這個差距可能在未來6-12個月內縮小。【四、亞馬遜的算力賭注——5千兆瓦意味著什麼】最後落到最實際的問題——算力。亞馬遜和Anthropic的5千兆瓦(GW)算力協議,可能是整個AI行業今年最被低估的新聞。▸ 5GW是什麼概念?足夠給約400萬個美國家庭供電。一個典型的核反應堆輸出約1GW。這意味著Anthropic將擁有5個核電站等級的專屬算力。作為對比,OpenAI在微軟Azure上拿到的算力承諾大約是2-3GW等級。▸ 這筆算力將用來做什麼?主要用來訓練Claude Opus 5和後續模型,以及支撐Claude API的推理需求。Anthropic的安全研究傳統意味著他們在訓練時會做比同行更多的紅隊測試和安全驗證——這需要大量額外的算力。▸ 對國產AI的影響:字節跳動的豆包、百度的ERNIE、深度求索的DeepSeek同樣在快速擴建算力基礎設施。DeepSeek V4通過混合注意力架構(Hybrid Attention Architecture)和MoE設計實現了極高的訓練效率——在1M token長上下文場景下僅需V3時代27%的推理FLOPs。不過,在絕對算力規模上,國產公司與美國頭部AI公司仍有數量級差距。好消息是,華為昇騰晶片的成熟度在快速提升,國產AI晶片生態正在縮小與輝達的距離。【五、超越OpenAI的可行性——Anthropic的三大風險】討論Anthropic的崛起,不能只講利多。這個兆估值能站住嗎?要看三大風險。▸ 第一,營收能否支撐估值?Anthropic目前年化營收約數十億美元規模,而兆估值對應的市銷率超過30倍。這需要Claude API的付費使用者在未來18個月內增長3-5倍——而OpenAI、Google、DeepSeek V4也在以極低價格瘋狂搶客。DeepSeek V4的定價(Pro版$1.74/$3.48每百萬token,Flash版僅$0.14/$0.28)是整個行業的"價格錨",Claude必須用產品力抵消這個價差。▸ 第二,Claude Code的護城河有多深?程式碼助手市場有GitHub Copilot(微軟)、Cursor、Amazon CodeWhisperer等對手。如果微軟把Copilot深度整合到VS Code和GitHub的每個角落,Claude Code的使用者增長可能會遇到天花板。▸ 第三,安全研究公司的悖論——越安全越難商業化。Anthropic以AI安全研究起家,這個基因既是它的品牌溢價,也是它的天花板。在"跑得快"和"跑得安全"之間做權衡時,Anthropic往往會選擇後者。在技術快速迭代的窗口期,這可能是致命的——DeepSeek V4在4月24日從預覽直上正式版就是一個反面案例,它證明了"先發佈+快速迭代"策略的有效性。Anthropic的偏執安全路線能在多大程度上轉化為競爭壁壘,而不是自我設限,還有待驗證。結語:Anthropic的故事告訴我們:在AI這個賽道上,市場格局遠未固定。三個月前還沒人把它當對手,三個月後它估值破兆。有趣的是,就在同一天(4月24日),DeepSeek V4和Claude Opus 4.7幾乎同時定義了中美AI的新坐標系——一個靠價格和開放,一個靠產品和護城河。Claude Opus 4.7和Claude Code不是終點——它們是Anthropic全面進攻的起點。而這場戰爭的下一個變數,可能來自中國的DeepSeek、字節跳動,也可能來自一個還沒有名字的實驗室。 (超前觀察)
DeepSeek V4,一個王炸!
DeepSeek V4,終於亮相了。就在2026年4月24日,AI圈的平靜被一封發佈稿打破。沒有任何預熱,沒有發佈會,深度求索團隊在官網和社交媒體上同步宣佈:全新系列模型DeepSeek-V4 預覽版正式上線並開源,即日起登錄官網或App即可體驗。這是一次略顯突然的發佈。就在幾天前,矽谷還在熱議OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6,全球AI領域的競爭早已呈現“萬類霜天競自由”的氣象。站在另一個維度來看,此刻距離DeepSeek上一次讓全球AI行業震動,已經過去了近16個月。時間撥回到2025年初。R1發佈當天,行業迅速沸騰,中國AI團隊用不到600萬美元的算力成本訓練出能與GPT-4正面競爭的模型,輝達股價應聲暴跌。那一周,DeepSeek同時登頂中美App Store下載榜首,“中國AI奇蹟”的敘事鋪天蓋地。在這近16個月的時間裡,智譜和MiniMax先後登陸資本市場,市值一度衝破3000億元;豆包、Qwen密集發佈新版本,頻頻登頂各類榜單;Anthropic推出Claude 4系列,OpenAI迭代至GPT-5.5,而DeepSeek在V3之後長達近16個月的時間裡,只推出了幾個跑分變化不大的中間版本,外界關於“DeepSeek是否後繼乏力”的猜測此起彼伏。近16個月的時間裡,整個行業都在等待一個答案:DeepSeek究竟是曇花一現,還是一條可持續的技術路線?終於,答案來了。DeepSeek V4,有那些亮點?客觀上講,DeepSeek V4的發佈略顯樸素,沒有任何預熱,也沒有發佈會。並且,在DeepSeek官方的稿件裡面,似乎也沒有太多“炸裂”元素。DeepSeek官方在技術報告中坦誠地寫道,V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro,“發展軌跡大約滯後前沿閉源模型3至6個月”。在國內AI發佈稿裡,這種主動承認差距的寫法相當罕見。但真正值得關注的不在於跑分是否登頂,而在於V4解決了一個困擾大模型行業多年的根本問題:長上下文的成本困境。眾所周知,傳統Transformer架構有一個致命的擴展難題——注意力機制的計算量隨上下文長度呈平方級增長。上下文翻倍,計算量翻四倍。這意味著,把上下文從128K擴展到100萬token,理論上計算量會增長約60倍。這也是為什麼長期以來,百萬字上下文要麼是Google Gemini的獨家王牌,要麼是實驗室裡的漂亮數字,太貴了,用不起。V4給出的解法是一種全新的混合注意力架構。通俗地解釋,就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對,工作量隨頁數翻倍而變成四倍。聰明的辦法是:先粗略判斷那些頁面可能相關(稀疏選擇),再把相關頁面壓縮成摘要(token壓縮),兩步疊加上後,工作量增長曲線被大幅壓平。這正是V4的核心創新:CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力)的混合架構。在1M上下文設定下,V4-Pro的單token推理算力只有上一代V3.2的27%,KV快取僅需10%;更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。換句話說,上下文長度擴大了近8倍,但推理成本反而下降了。再回到模型本身來看,V4一口氣發佈兩個版本:DeepSeek-V4-Pro 總參數1.6兆、每次推理啟動49B;DeepSeek-V4-Flash 總參數284B、啟動13B。兩者均原生支援100萬token上下文。理解這兩個數字需要先理解MoE(混合專家)架構。簡單講,V4內部有大量“專家”子網路,每次處理資訊時只啟動其中一小部分。總參數決定知識容量,啟動參數決定推理成本。這就像一家公司有1600個身懷絕技的員工,但每個項目只調49人上陣,可以按需靈活組合。在能力評估上,DeepSeek的措辭相當克制。發佈稿明確表示:V4-Pro的Agent能力優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與後者思考模式存在差距。在內部85名開發者和研究人員的調研中,超過九成認為V4-Pro已可作為首選或接近首選的程式設計模型。能力的分佈是不均勻的。在數學、STEM、競賽型程式碼等推理密集型任務上,V4-Pro超越所有已知開源模型,比肩頂級閉源產品;在Codeforces人類選手排行榜上,V4-Pro-Max位列第23名;但在世界知識方面——事實性資訊的覆蓋廣度,僅稍遜於Gemini-Pro-3.1。這個差距來自資料:Google擁有搜尋引擎索引和更大規模網頁抓取的結構性優勢,不是演算法可以短期彌補的。V4-Flash則定位為明確的性價比之選。很多人看到Pro和Flash兩個檔位,第一反應是“Flash就是降配版”,但實際並非如此。V4-Flash的推理能力與Pro接近,世界知識稍遜,而在Think Max模式下,性能可以大幅追近Pro:LiveCodeBench Flash Max達到91.6,Codeforces Flash Max Rating達到3052,與Pro Max的差距已相當有限。DeepSeek的底層突破V4在Agent能力上的提升幅度引人注目。但這一點需要更細緻的理解。Agent任務的核心約束一直是上下文管理:任務鏈越長,需要維護的狀態越多,有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著,Agent可以在更長的操作鏈裡保持狀態連貫,處理更大規模的程式碼庫,跨越更多文件進行推理。不只是模型變聰明了,底層條件也變了。V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品做了適配最佳化。後訓練階段,Agent是作為與數學、程式碼並列的獨立方向單獨訓練的;工具呼叫格式從JSON換成了帶特殊token的XML結構以降低錯誤率;跨輪次的推理痕跡在工具呼叫場景下完整保留,不再每輪清空。另外,DeepSeek還搭建了一套名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,專門用來支撐Agent強化學習訓練和評測。這些細節指向同一個方向:V4不是在做“更強的聊天機器人”,而是在做“能幹活的作業系統”。另外,V4最核心的技術改動,是在注意力層。傳統Transformer的注意力機制,每個token要和前面所有token逐一計算相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,而是100倍。V4的做法是把注意力拆成兩種,交替疊用:一種是CSA(壓縮稀疏注意力),先把每若干token的KV快取合併成摘要,再讓每個query只在這些摘要裡挑選最相關的top-k條去算注意力——相當於既壓縮了“要看的內容”,又只挑“值得看的”去算;另一種是HCA(高壓縮注意力),用更激進的壓縮率把更長區間的token合併為一條,但保持稠密注意力。兩種機制交替疊加,再加上一個滑動窗口分支處理“離得近的token之間的細節依賴”,形成了一套粗粒度與細粒度、稀疏與稠密的組合拳。而除了注意力層,V4還在殘差連接和最佳化器上動了刀。傳統殘差連接被升級為mHC(流形約束超連接),通過數學約束讓深層網路的訊號傳播更穩定;大部分模組的最佳化器從AdamW換成了Muon,通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。後訓練方法同樣換了範式。V3.2用的是“混合RL”,一次性最佳化多個目標。V4則換成了“分化再統一”的兩步走:先針對數學、程式碼、Agent等不同領域獨立訓練專家模型,每個專家都在自己的賽道上跑到最優;再用一種叫On-Policy Distillation的方法,把十多個領域專家“蒸餾”回一個統一的學生模型——學生自己生成回答,針對每個回答匹配最懂這個問題的專家的輸出分佈,通過logit級對齊把能力吸收進來。用通俗的話說,把一堆尖子生蒸餾成一個通才。這套流程的工程難度在於:同時載入十多個兆參數級的教師模型做線上推理幾乎不可能。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存,只快取每個教師最後一層的hidden state,訓練時按教師索引排序樣本,保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。從2025年初到今天,V3.1、V3.2那些“沒什麼亮點”的中間版本,當時看似乎是在原地踏步。現在回頭看,DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構的早期驗證,都是在那時悄悄種下的,V3.2正是V4的地基。DeepSeek V4,對國產晶片價值幾何?如果說技術架構的革新是V4的“明線”,那麼對國產晶片產業鏈的重塑,則是這次發佈最容易被低估的“暗線”。要理解這條暗線的份量,需要先理解過去兩年AI競爭的核心邏輯。大模型發展至今,行業的共識是:訓練看算力,推理看視訊記憶體。在訓練階段,誰能買到更多高端GPU,誰能堆出更大叢集,誰就更有機會做出更強的基礎模型。輝達憑藉H100/A100系列GPU和CUDA生態,在這個階段建立了看似難以踰越的護城河。但大模型做出來之後,真正決定商業化速度和產業滲透深度的,是推理。尤其是以OpenClaw、Hermes為代表的Agent應用爆發後,推理的成本結構發生了根本性變化。Agent任務的特點是上下文越來越長、記憶越來越深、工具呼叫越來越頻繁。在這個場景下,GPU的視訊記憶體會被KV快取撐爆,大模型的推理質量急劇下降。推理的第一個瓶頸,不是算力不夠,是“記憶”和“計算”在搶同一塊視訊記憶體。這正是國產晶片最大的短板所在。受限於先進製程,國產GPU在算力峰值上尚可追趕,但在視訊記憶體容量和頻寬上與輝達存在代際差距。輝達最新一代Rubin GPU搭載288GB HBM4記憶體,而國產晶片如昇騰910B的視訊記憶體容量為64GB。如果按照傳統架構跑長上下文推理,這個差距幾乎是致命的。DeepSeek V4的解題思路,不是硬拚硬體,而是從架構層面重構了“記憶”和“計算”的關係。這涉及兩個關鍵創新:其一,CSA/HCA混合注意力機制大幅壓縮了KV快取佔用,1M上下文下,V4-Pro的KV快取僅為V3.2的10%,V4-Flash更是壓到7%。其二,據公開論文推測,V4採用的Engram架構把模型裡那些“死記硬背”的靜態知識抽出來放入獨立的記憶體表,推理時CPU負責“查字典”檢索知識,GPU只負責“想邏輯”計算推理,兩者完全重疊執行。當GPU在算上一個詞的邏輯時,CPU已經把下一個詞所需的知識搬到了門口。延遲被這種平行架構徹底掩蓋。結果是什麼?一個原本需要80GB視訊記憶體才能跑的長上下文推理任務,在Engram架構下可能只需要8GB視訊記憶體。輝達引以為傲的HBM視訊記憶體稀缺性,在這套架構面前被大幅削弱。國產晶片那64GB的視訊記憶體容量,突然變得夠用了。這解釋了為什麼黃仁勳會在近期訪談中做出一個意味深長的假設。他說,如果DeepSeek新模型在華為平台上首發,“這一天對美國來說將是一個可怕的結果,因為這意味著AI模型被最佳化為在中國AI硬體上表現最佳,而這些模型擴散到全球之後,就會推動中國技術成為世界標準。”而DeepSeek恰恰這麼做了。V4這次沒有按行業慣例給輝達早期測試權限,而是把提前適配的機會獨家開放給了華為昇騰和寒武紀。目標是實現從CUDA生態到華為CANN框架的整體遷移。V4技術報告第3.1節將華為昇騰NPU與輝達GPU並列寫進硬體驗證清單——這是DeepSeek官方第一次這樣做。V4的MoE專家權重和稀疏注意力索引器採用FP4精度,而FP4恰好是華為昇騰950PR晶片的原生支援精度。這不是巧合,這是一條被悄悄鋪了很久的路。產業鏈的傳導效應已經顯現。據有關媒體報導,阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI晶片,訂單規模達數十萬顆。在華為之外,寒武紀在軟硬一體生態中已完成對V4全系列的Day 0適配,適配程式碼開源至GitHub社區。沐曦股份預期2026年將扭虧為盈,有望成為繼寒武紀之後另一家盈利的國產GPU廠商。當DeepSeek用兆參數等級的模型驗證了國產晶片可以承載頂級大模型的推理,整個生態的底氣就變了。並且,從更宏觀的視角看,這件事改變的不僅是晶片選型,更是AI產業鏈的利潤分配邏輯。過去兩年,輝達憑藉GPU壟斷攫取了AI爆發期最豐厚的利潤,其資料中心業務毛利率長期維持在70%以上。而當一家開源模型的架構創新能夠進一步降低視訊記憶體需求,能夠跑通國產晶片並實現推理成本的大幅下降,輝達的定價權就不再是鐵板一塊。儘管短期內輝達在高端訓練GPU和CUDA生態上的優勢仍難替代,但推理市場,這個遠比訓練更廣闊、更具持續性的市場的遊戲規則正在被改寫。這就是DeepSeek“曲線救國”的邏輯:不是在單卡性能上硬碰硬,而是用系統級最佳化、軟硬協同和架構創新,重新定義了競爭維度。正如一位GPU企業人士所說,國內廠商都是戴著“鐐銬”與輝達同台競技。而V4證明了一件事:戴著鐐銬也可以起舞,甚至能跳出一支讓對方緊張的舞。結語:梁文鋒的安靜“棋局”V4發佈稿結尾,DeepSeek引了一句荀子:“不誘於譽,不恐於誹,率道而行,端然正己。”這句話放在DeepSeek一路走來的故事語境裡,意味深長。過去一年多,DeepSeek在外界的敘事裡經歷了過山車般的起伏。2025年初V3和R1爆火後,媒體將其捧上神壇,“中國AI奇蹟”的敘事鋪天蓋地。隨後一年多,當Anthropic、OpenAI密集發佈新模型,而DeepSeek只推出幾個跑分變化不大的中間版本時,關於“後繼乏力”的質疑又此起彼伏。在這個崇尚競爭和結果說話的行業裡,掌聲和噓聲都來得極快。而梁文鋒似乎始終活在自己的節奏裡。在DeepSeek內部,梁文鋒更多扮演著一個導師的角色:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。他幾乎把所有時間投入選定的少數事情上,不做融資、不參加團建、很少和成員聚餐。DeepSeek至今保持著一些在全球AI圈都極其罕見的習慣:不打卡、沒有明確的績效考核,平日裡多數員工會在下午六七點離開公司。在梁文鋒看來,一個人每天能高品質工作的時間很難超過6到8小時,加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源。接近過梁文鋒的人曾評價:“他是一個特別抗噪音的人。”這種抗噪音的能力,解釋了DeepSeek為何沒有在R1爆火後乘勝追擊放大招,而是沿著自己選定的方向繼續深耕效率最佳化、架構改進和一些“非主流”探索。梁文鋒認同的AGI目標有兩層含義:一是基於國產生態來做大模型,他曾提出過“能不能用現存的一部分算力,就實現現在所有的智能”的假設;二是做“原創式創新”,做一些大廠或其它創業公司不會去試、不願去試的方向。這或許也能解釋V4為何選擇在這個時間點發佈。不急不躁,按自己的節奏出牌,在技術成熟度、生態適配和成本重構都到位的節點,一擊中的。也就在V4發佈後,一個容易被忽略的細節值得被重新提起:截至2026年4月,史丹佛大學HAI實驗室發佈的年度《AI指數報告》顯示,中美大模型性能差距已縮小至2.7%,基本實現技術追平。這個數字的背後,是兩種截然不同的路徑。美國走的是“算力堆疊+商業驅動”的路,用全球最強的GPU、最充裕的資本、最激進的商業化來推動模型能力不斷突破;中國走的是另一條路,一條在算力受限、晶片被卡的條件下,只能靠架構創新和系統最佳化來“戴著鐐銬起舞”的路。DeepSeek V4的每一項創新背後都能嗅到一個共同的動機:如何在更少的視訊記憶體、更低的算力、更受限的硬體條件下,榨出更多的智能。可以說,DeepSeek V4不是終點,甚至不是一次高潮。它是一個訊號,一個在算力受限的逆風局裡,依然可以用原創架構打開新空間的訊號;一個頂級開源模型不再必須繫結在輝達晶片上的訊號;一個沒有融資、不卷加班、按自己節奏前行的團隊,依然能站在第一梯隊的訊號。“不誘於譽,不恐於誹,率道而行,端然正己。” (正和島)
GPT-5.5來了!全榜第一碾壓Opus 4.7,OpenAI今夜雪恥
【新智元導讀】就在剛剛,奧特曼深夜擲出GPT-5.5!全方位暴擊Claude Opus 4.7,重新奪回地表最強王座。從寫程式碼到搞科研,AI獨立接管電腦的時代真的來了!矽谷今夜未眠!就在剛剛,GPT-5.5震撼登場——OpenAI迄今最強、最全能的新一代旗艦模型。它是一種全新等級的智能,徹底進化為Agent時代的「原生大腦」。沒錯,就是那個萬眾期待的「土豆」(Spud),終於在今天殺出來了。最值得看的是,GPT-5.5在各項基準測試中:全榜第一!不論在程式設計、推理、數學,還是智能體任務上,Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了腳下。相較於上一代,GPT-5.5 Thinking堪稱「降維打擊」,拉開了代際差距。在AAI測試中,相同輸出token下,GPT-5.5智能指數冠絕全球;另在ARC-AGI-2上,同樣刷新了SOTA。奧特曼忍不住大加讚賞,「GPT-5.5既聰明又快速」。每個token的速度與GPT-5.4一樣快,且每個任務使用token量顯著降低。它可以幾乎做到心領神會,知道自己該做什麼!總裁Greg激動稱,「這朝著一種全新的電腦工作方式邁出了一步」。今天起,GPT-5.5在ChatGPT、Codex中正式上線。程式設計新王登場 Opus 4.7跌落神壇先看最核心的程式設計領域,GPT-5.5可謂是打了一場漂亮的翻身仗!用OpenAI的話來說,它是迄今為止最強大的智能體程式設計模型。Terminal-Bench 2.0測試考的是全鏈路Agent工程實力。題目會給模型一個終端環境和一個模糊目標,讓它自己規劃路徑、調工具、寫指令碼、處理報錯、反覆迭代。在這裡,GPT-5.5拿下82.7%,GPT-5.4是75.1%,Claude Opus 4.7隻有69.4%。13個百分點的差距,碾壓等級。OpenAI內部的Expert-SWE評測,專門測那些人類預估中位完成時間20小時的長周期程式設計任務,GPT-5.5拿到73.1%,同樣高於GPT-5.4的68.5%。在業界公認最能反映真實GitHub問題解決能力的評測SWE-Bench Pro中,GPT-5.5得分58.6%,略遜色於Claude Opus 4.7(64.3%)。不過,OpenAI在這個資料旁邊標了一個星號,寫著「Anthropic報告稱在部分問題子集上存在過擬合(記憶)跡象」。換句話說就是,Opus 4.7雖然考試成績好,但我懷疑你背過答案。Codex研究員直言:SWE-Bench早已不能衡量頂尖程式設計能力了最關鍵是,在這三項的評估中,GPT-5.5使用了更少的token,但仍全面趕超GPT-5.4。這一能力在Codex中,體現得更為明顯。它可以完成「端到端」的程式設計任務,從實現、重構到偵錯、測試和驗證等流程。舉個栗子,讓GPT-5.5做一個阿爾忒彌斯II太空任務可視化應用。首先把一張任務的截圖扔給GPT-5.5,然後要求用WebGL和Vite實現一個可互動的3D軌道模擬器,軌跡資料必須來自NASA/JPL Horizons的真實向量資料,並且還要有逼真的軌道力學。只見,GPT-5.5從零搭完,滑鼠拖曳能轉,獵戶座飛船、月球、太陽的相對位置都對得上。再來一個坦克打飛碟。Prompt要求用Three.js做一個UFO射擊遊戲,玩家控制坦克擊落頭頂飛過的飛碟,「低多邊形但要好看」,先給出完整檔案結構和需要改動的檔案清單,再寫全部程式碼,「完成之前不許停」。GPT-5.5全部照單執行,從檔案結構到Three.js渲染到射擊判定,一口氣交付了一個可玩的3D遊戲。在3D地牢競技場中,Codex包辦遊戲架構、TypeScript/Three.js實現、戰鬥系統、敵人遭遇和HUD反饋。GPT生成了環境貼圖,OpenAI API生成了角色對話,角色模型、貼圖和動畫來自第三方素材工具。幾個AI各管一攤,拼出一款能打怪的遊戲。早期測試的大佬直言, GPT‑5.5擁有更強的理解系統形態的能力。它更能判斷問題出在那,修復該加在那,以及程式碼庫中還有那些地方會受到牽連。85% OpenAI員工用瘋 這才是真正幹活的AI程式設計之外,GPT-5.5在「知識型工作」上的資料同樣亮眼。畢竟,OpenAI將其稱為,「一種面向真實工作的全新智能」。它能更快地理解你想要做什麼,並在不同工具之間切換,直到任務完成。GDPval,評估AI在44個職業中完成規範知識工作的水平,GPT-5.5拿到84.9%,Opus 4.7是80.3%,Gemini 3.1 Pro只有67.3%。OSWorld-Verified,測試模型能否獨立操作真實電腦環境,GPT-5.5得分78.7%,和Opus 4.7的78.0%幾乎打平。Tau2-bench,測試模型能否在複雜客服工作流中處理多輪對話、查詢系統、執行操作。,GPT-5.5在沒有微調提示詞的情況下達到98.0%。有意思的是OpenAI自己怎麼用的。據官方部落格披露,公司內部超過85%的員工每周跨部門使用Codex。公關部門用GPT-5.5分析了六個月的演講邀約資料,搭建了評分和風險框架,讓低風險請求自動走Slack AI智能體處理。財務部門審查了24,771份K-1稅表,共71,637頁,比去年提前兩周完成。市場團隊實現了每周業務報告自動生成,每周省5到10個小時。如今,在Codex中,通過GPT-5.5可與Web應用直接互動,測試流程、點選頁面、擷取螢幕,並根據所見內容不斷迭代,直到完成任務。如下是,測試入職流程的一個例子。Codex還可以生成更高品質的電子表格、PPT和文件,如下是一個財務建模的demo。應用內新增的檔案查看器,可加快審閱、修訂和迭代速度,讓檔案更快準備好分享。在電腦使用上,Codex操作電腦能力更強了。無論是識別螢幕內容,還是點選、打字、導航,甚至是跨工具流轉上下文資訊,它都能輕鬆搞定。OpenAI研究員Noam Brown直言,有了GPT-5.5,自己也能像專業人士一樣編寫CUDA核心,運行研究實驗。顛覆科研 證明「拉姆齊數」定理除了這些,GPT-5.5還協助發現了一個關於拉姆齊數的新證明,並在Lean語言中得到了驗證。拉姆齊數是組合數學的核心研究對象,通俗地說就是一個網路大到什麼程度,才一定會出現某種規律性結構。這個領域的新結果極其罕見。論文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf這個領域的研究成果極其罕見,技術難度極高。GPT-5.5發現了一個關於非對角拉姆齊數長期漸近事實的證明。不是寫程式碼,不是做解釋,是提出了一個有價值的數學論證。GeneBench上,GPT-5.5得分25.0%,GPT-5.4是19.0%。這個評測專門測多階段科學資料分析,要求模型在幾乎沒有人工干預的情況下處理模糊資料、應對隱藏混雜因素。BixBench,基於真實生物資訊學設計的評測,GPT-5.5在所有已公開分數的模型中排名第一,80.5%。FrontierMath Tier 4,由陶哲軒等頂級數學家策劃的前沿數學題庫中最難一檔,題目涉及代數幾何、數論等方向,難度接近未發表研究。GPT-5.5得分35.4%,GPT-5.4是27.1%,Opus 4.7隻有22.9%。差距超過12個百分點。對比一下Tier 1-3的差距只有8個百分點(51.7% vs 43.8%),說明越到數學前沿,GPT-5.5的優勢越懸殊。Jackson基因醫學實驗室的免疫學教授Derya Unutmaz用GPT-5.5 Pro分析了一個包含62個樣本、近28,000個基因的表達資料集。模型出具了一份詳盡的研究報告,不僅總結了發現,還深挖出關鍵問題和洞察。相比之下,如果這活兒讓人類團隊來幹,得花上好幾個月。波茲南·密茨凱維奇大學數學助教Bartosz Naskręcki在Codex中,僅用11分鐘就從一個單一提示詞建構了一個代數幾何應用,可視化了二次曲面的交集,並將生成的曲線轉換為Weierstrass模型。從程式設計到知識工作再到科研,升番到這裡,結論擺在眼前。GPT-5.5不是又一次「小版本迭代」,它是一次全新基座模型帶來的整體性躍升。全方位擊敗Opus 4.7,就看一張圖總言之,GPT-5.5的誕生,堪稱迎來了脫胎換骨的蛻變。對戰Opus 4.7,一張圖就夠了。另在Vending-Bench中,GPT-5.5同樣暴擊Opus 4.7。Opus 4.7的表現跟4.6差不多:老是對供應商撒謊,還在退款上坑顧客。相比之下,GPT-5.5的手段就很正派,而且照樣贏下了比賽。奧特曼還玩個梗,「千萬別轉,千萬別轉,千萬別轉....哎,算了吧,生活終究是在模仿藝術」。定價翻倍 更強,但也更貴說完實力,必須說錢。GPT-5.5的API定價,每百萬輸入Token 5美元,每百萬輸出Token 30美元。GPT-5.4是多少?2.50美元和15美元。整整翻了一倍。GPT-5.5 Pro更誇張,輸入30美元,輸出180美元。對比一下Opus 4.7,輸入5美元,輸出25美元。GPT-5.5的輸入價格和Opus 4.7持平,但輸出貴了20%。OpenAI給出的解釋是token效率提升。同樣的Codex任務,GPT-5.5用的token比GPT-5.4明顯更少。更強,而且更高效。但算一筆帳就知道,如果一個團隊每月在GPT-5.4上花10萬美元,切換到GPT-5.5後即使token用量減少30%,月帳單依然會漲到14萬美元左右。換句話說,GPT-5.5是一個「你為更強的智能付更多的錢」的溢價產品。相比之下,GPT-5.4大機率會繼續作為性價比之選存在。OpenClaw已接入最強GPT-5.58天,一個時代的縮影回頭看這8天發生了什麼。4月16日,Anthropic用Opus 4.7在SWE-Bench Pro上發起突襲,從GPT-5.4手中奪走程式設計王座。4月24日,GPT-5.5正式發佈。Terminal-Bench碾壓,定價翻倍,科研炸裂。2026年的AI競賽,已經不是「誰的模型更強」這一個維度的較量了。在GPT-5.5的敘事裡,OpenAI反覆強調的是「探索全新的電腦辦公方式」,一個能自主規劃任務、呼叫多種工具、在瀏覽器和本地軟體之間來回切換的通用Agent。跑分是前菜,Agent化辦公才是主戰場。誰先定義「AI怎麼替人幹活」,誰就定義下一代電腦使用介面。8天一個來回。這個節奏,只會更快。 (新智元)