#Sonnet
GPT-5.6現身後,下一個Claude Sonnet 4.8又曝光了!
GPT-5.5發佈沒幾天,後台日誌裡就冒出了GPT-5.6;Anthropic的一個從未見過的代號——Jupiter也炸出了!兩天之內,兩家巨頭的下一代模型同時浮出水面。新一輪模型軍備競賽,比我們想的都要快!GPT-5.5的熱度還沒散,OpenAI的後台就漏了底。昨天,有開發者在Codex內部日誌中發現了一條異常記錄。絕大多數API呼叫走的是GPT-5.5,但有一條路由對應赫然寫著「gpt-5.6」。不是正式發佈,更像是後端的金絲雀測試。也就是說,OpenAI在用真實流量悄悄喂養下一代模型。GPT-5.6已經在跑了。幾乎同一時間,Anthropic那邊也炸了。Claude Code相關原始碼洩露中,一串從未公開過的型號名被扒了出來:Sonnet 4.8、Opus 4.7、Mythos、Capybara,以及一個最扎眼的新代號——Jupiter。兩天之內,兩家公司的下一代模型同時曝光。這個節奏,整個AI圈都沒緩過神來。後台日誌裡的GPT-5.6先看OpenAI這邊。發現過程很簡單。開發者在呼叫Codex API時,常規日誌裡幾乎全是GPT-5.5的路由記錄。但有一條例外,模型欄位寫的是「gpt-5.6」。金絲雀測試,是業內的老套路了。用極小比例的真實流量打到新版本上,觀察表現和穩定性,不對外公開。Google做過,Anthropic做過,OpenAI自己也做過很多次。但這次的訊號,明顯跟以前不一樣。現在,GPT-5.5才剛發佈沒多久。按照過去OpenAI的節奏,大版本之間至少要隔幾個月。現在5.6就已經在後台跑真實流量了,說明內部迭代速度比外界感知的快得多。奧特曼這兩天的動作也在印證這一點。Codex剛剛完成從編碼工具到通用桌面Agent的大升級,奧特曼親自發推「試試非編碼電腦工作」,總裁Greg直接喊出「Codex適用於所有人,所有電腦任務」。5.6藏在這個時間節點的後台裡,非常耐人尋味!奧特曼的野心已經很明確。他不再滿足於發佈一個對話方塊,他要的是一個能接管所有數位化生存空間的超級Agent。GPT-5.6,大機率就是這個野心的下一塊拼圖。Claude Code原始碼裡,炸出一整張模型矩陣再看Anthropic。此前,Sonnet 4.8與Opus 4.7和Mythos/Capybara就一起出現 Claude Code原始碼洩露中。因此,Jupiter很可能是另一個內部代號,而不是Discord上的隨機謠言。Jupiter這個名字的特殊性在於,它很可能是Sonnet等級的後續型號或全新分支。在Sonnet 4.8已經現身的情況下,Jupiter更像是產品線演進中的下一個節點,而不是社區的隨機猜測。Jupiter V1僅為內部使用的代號,預計不會出現在任何公開API字串或使用者介面中把這些型號擺在一起看,Anthropic的模型矩陣比外界此前認知的更深。Opus主打高端推理,Sonnet平衡性能與成本,Haiku偏向輕量部署。三條線同時在跑,每條線都有多個版本在內部迭代。在洩露這方面,Anthropic最近一直碩果纍纍。這次原始碼等級的洩露,一下子把整個產品矩陣的輪廓暴露了出來。據傳,Jupiter將在5月6日在舊金山舉辦「Code with Claude」開發者大會上亮相。兩天撞車,不是巧合GPT-5.6和Jupiter幾乎同時被發現,時間窗口不到48小時。巧合的可能性不大。更合理的解釋是,兩家公司的內部迭代節奏本來就在加速,只是恰好在這兩天各自漏出了一角。回頭看這半年的時間線就很清楚了——GPT-5發佈到GPT-5.5,間隔在縮短。GPT-5.5到後台出現5.6的影子,間隔更短。Anthropic這邊,Opus 4.6剛站穩,4.7和Sonnet 4.8就已經在原始碼裡了。矽谷大廠的模型迭代,正在從「大版本發佈」變成「持續部署」。對開發者來說,這個節奏意味著很多。今天基於GPT-5.5或Claude Opus 4.6做的架構決策,可能兩個月後就要面對下一代模型的能力躍遷。API介面可能不變,但模型能力的天花板在持續抬高。對兩家公司來說,競爭已經不在「誰先發佈下一個大版本」這個層面了。真正的競賽才剛換擋目前沒有任何官方公告確認GPT-5.6或Jupiter的定位和發佈時間,但訊號已經足夠清晰。大版本發佈會的間隔在壓縮,後台的金絲雀測試和內部代號在加速流轉,下一代模型不再是遙遠的期待,而是後台日誌裡已經在跑的一行路由。GPT-5.5發佈的熱度還沒過一周,5.6就在後台候場了;Sonnet 4.6剛成為主力,4.8和Jupiter已經在原始碼裡排隊。這個速度,才是值得所有人注意的訊號。 (新智元)
Anthropic發佈新AI模型:操控電腦能力大幅提升;微軟本十年末前將向全球南方AI領域投資500億美元丨AIGC日報
1.【Anthropic發佈新AI模型:操控電腦能力大幅提升】Anthropic PBC發佈名為Claude Sonnet 4.6的人工智慧(AI)新模型,可以執行需要多個步驟的電腦操作,例如填寫網頁表單,然後跨多個瀏覽器標籤頁協調資訊。Anthropic 在一篇部落格文章中寫道:“在操作電腦方面,該模型當然仍落後於最熟練的人類。但儘管如此,其進步速度依然驚人。”Anthropic表示,Sonnet 4.6在抵禦提示詞注入攻擊(Prompt Injection Attacks)等安全威脅方面表現更好,這類攻擊是指通過惡意指令操控AI模型。(新浪科技)2.【印一大學被曝買中國機器狗冒充自研,校方承認:從宇樹採購的】印度人工智慧(AI)影響力峰會於16日在新德里開幕,為期五天,該科技展會由印度電子和資訊技術部主辦,號稱“有史以來規模最大”。展會期間,加爾戈蒂亞斯大學團隊展示的所謂自主研發的機器狗,被發現其實是買來的中國企業現成產品。 當地時間2月18日,這所大學在社交平台X的官方帳號發聲明承認,展示的這台裝置確實是從中國企業宇樹科技採購的。(環球時報)3.【高通將向印度人工智慧戰略基金投資至多1.5億美元】根據一份聲明,高通公司計畫投資高達 1.5 億美元,以支援印度不斷擴大的科技和人工智慧初創企業生態系統。資金將通過高通創投(Qualcomm Ventures)投向處於各個發展階段的初創企業,重點在於汽車、物聯網、機器人技術和移動領域的 AI 應用。(介面新聞)4.【微軟本十年末前將向全球南方AI領域投資500億美元】微軟在印度人工智慧影響力峰會上宣佈,計畫在本十年末前投資500億美元,助力將人工智慧技術推廣至全球南方各國。微軟這項旨在發揮AI影響力的五大計畫包括:建設人工智慧普及所需的基礎設施;通過技術與技能培訓賦能學校及非營利機構人員;強化多語言、多元文化的人工智慧能力;推動滿足社區需求的本地人工智慧創新;評估人工智慧普及情況,為未來人工智慧政策與投資提供指導。 (創業邦)
Claude Sonnet 4.5發佈,可連續程式設計30小時,Claude Code同款建構工具也開放了
看起來10月又是一個大月,DeepSeek用v3.2開場,Anthropic,Google,OpenAI都有大動作剛剛,Anthropic發佈了其最新前沿模型——Claude Sonnet 4.5官方稱,這是目前全球最強的程式碼模型、最強的複雜智能體建構模型、以及最擅長使用電腦的模型,並且在推理和數學能力上取得了顯著進步伴隨新模型發佈的,還有一系列產品全家桶的升級,Anthropic還首次開放了建構Claude Code的同款工具,最後還發佈了一個比較科幻的東西叫Imagine with Claude,可以即時動態生成軟體,不過目前還是研究預覽Claude Sonnet 4.5現已全面可用,通過API呼叫claude-sonnet-4-5即可。價格與上一代Sonnet 4保持不變,為每百萬token輸入3美元/輸出15美元新模型性能有多強?Anthropic表示,Claude Sonnet 4.5在衡量真實世界軟體編碼能力的SWE-bench Verified評估中達到了業界頂尖(SOTA)水平。在實際測試中,該模型能在複雜的多步驟任務上保持超過30小時的專注在電腦使用能力方面,Sonnet 4.5也實現了巨大飛躍。在測試AI模型真實世界電腦任務的OSWorld基準上,Sonnet 4.5以61.4%的得分領先。就在四個月前,Sonnet 4還以42.2%的成績保持領先此外,該模型在一系列廣泛的評估中也展示了更強的能力,包括推理和數學:來自金融、法律、醫學和STEM領域的專家發現,與包括Opus 4.1在內的舊模型相比,Sonnet 4.5在特定領域的知識和推理能力上表現出了顯著的提升產品全家桶重大升級Claude Code發佈 v2.0 了,升級了 UI 介面,推出了全新的VS Code擴展外掛。此外,還有一個實用的新功能:檢查點(checkpoints)。通過它,你可以快速撤銷Claude剛剛做出的修改,只需輕鬆按下Esc+Esc快速鍵,或者輸入指令/rewind即可實現Claude API增加了新的上下文編輯功能和記憶工具,使智能體能夠運行更長時間並處理更複雜的任務。Claude App中,程式碼執行和檔案建立(電子表格、幻燈片和檔案)功能被直接整合到對話中Claude for Chrome擴展已向所有上個月加入等待名單的Max使用者開放首次開放Claude Agent SDKAnthropic此次還開放了他們用於建構Claude Code的基石——Claude Agent SDK官方表示,他們解決了建構AI智能體過程中的多個難題:智能體如何在長時間任務中管理記憶、如何平衡自主性與使用者控制的權限系統、以及如何協調多個子智能體以實現共同目標現在,這套為Anthropic前沿產品提供動力的基礎設施正式向所有開發者開放,可用於建構自己的智能體地址:https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 建構 Agent)史上最對齊模型Anthropic稱,Claude Sonnet 4.5是其迄今為止最對齊的前沿模型通過提升模型能力和進行廣泛的安全訓練,模型的行為得到了顯著改善,減少了逢迎、欺騙、權力尋求和鼓勵妄想等不良行為。針對智能體和電腦使用能力,模型在抵禦提示注入攻擊方面也取得了長足進步Claude Sonnet 4.5在AI安全等級3(ASL-3)的保護下發佈。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器,特別是與化學、生物、放射性和核(CBRN)武器相關的內容如果分類器意外標記了正常內容,使用者可以方便地切換到CBRN風險較低的Sonnet 4模型繼續對話。Anthropic表示,自最初引入分類器以來,他們已將誤報率降低了十倍one more thing與Sonnet 4.5一同發佈的還有一個名為“Imagine with Claude”的限時研究預覽在這個實驗中,Claude能夠即時動態地生成軟體,沒有任何預定功能或預寫程式碼。使用者可以看到Claude根據互動請求進行即時建立和調整該功能向Max訂閱使用者開放,為期五天上手小測試我用之前測試新模型前端能力的提示詞測了一下,並且至少進行了5次抽卡,沒有一次成功,感覺Claude Sonnet 4.5程式碼能力提升貌似不大,提示詞如下:模擬,一個由彈力球組成的正方體漂浮在半空中,從正方體最下一層慢慢塌方,注意是,一層一層塌方,小球落在桌子上彈起來,直到靜止,模擬整個塌方過程,整個過程符合物理規律,效果要酷炫,整個環境要儘量逼近真實,在單個HTML中實現實現效果:一次掉落了兩層後,小球就不往下掉落了,核心的邏輯沒有實現完整的技術細節和評估結果,可參閱官方發佈的系統卡、模型頁面和檔案https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148頁)https://www.anthropic.com/claude/sonnethttps://docs.claude.com/en/docs/about-claude/models/overviewhttps://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(這篇也很重要,講如何為Agent建構的上下文工程context engineering,詳細請看下一篇文章)官方測試方法說明SWE-bench Verified: 所有Claude結果均使用一個包含bash和檔案編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified資料集上,通過10次試驗平均,無測試時計算,200K思考預算,得分為77.2%OSWorld: 所有分數均使用官方OSWorld-Verified框架報告,最大步數為100,4次運行取平均值MMMLU: 所有分數均為在14種非英語語言上進行5次運行的平均值,並使用了擴展思考(最高128K)。其他模型的得分均引用自OpenAI和Google發佈的官方文章或排行榜 (AI寒武紀)
Anthropic稱DeepSeek未超越前沿,僅是訓練時間更晚:我們也可以用「500萬美元或廣告中宣傳的任何金額來訓練它」
最近,Anthropic的研究員Trenton Bricken在接受Dwarkesh Patel採訪時,對DeepSeek的成就提出了一個頗具爭議性的觀點。他聲稱:DeepSeek並沒有真正超越AI前沿,它只是訓練得更晚而已。「我們也能用500萬美元訓練出來!」Bricken在採訪中詳細解釋了他的觀點:DeepSeek是在Claude 3 Sonnet發佈九個月之後才開始訓練的。如果我們今天重新訓練同樣的模型,或者和DeepSeek同時進行訓練工作,我們也可以用500萬美元或者廣告中宣傳的任何金額來訓練它。他進一步強調:令人印象深刻或者說令人驚訝的是,DeepSeek確實達到了前沿水平。但我認為仍然存在一個普遍的誤解,認為他們遠超前沿。我不認為這是對的,我覺得他們只是等待了時機,然後能夠利用所有其他人也在經歷的效率提升。這番話的潛台詞很明顯:DeepSeek的成功更多是時機問題,而非技術突破。網友:「聽起來像失敗者的藉口」對於Bricken的這番言論,網友們的反應可謂是極具嘲諷。Roger Sterling(@rogersterling__) 回懟:聽起來像一個失敗者的藉口anku(@whoisanku) 更是直接地表示:自我安慰網友們的評論反映出了外界對Anthropic這種「事後諸葛亮」式解釋的質疑。畢竟,如果真的這麼容易,為什麼Anthropic當時沒有去做呢?怕使用者不願意付費了?還是擔心投資人不打錢呢?DeepSeek的發佈節奏而就在這場爭議發酵的同時,DeepSeek的下一步動作也浮出水面。根據最新消息,DeepSeek 或計畫在7月推出V4版本,R2 則可能在8月跟進,這比之前傳言的5月發佈時間有所推遲。值得注意的是,DeepSeek一直保持著大約7個月的旗艦模型發佈節奏:V1:2023年10月V2:2024年5月V3:2024年12月V4:預計2025年7月這種規律性的發佈節奏顯示出DeepSeek團隊的戰略規劃能力和對市場時機的精準把握。誰在「等待時機」?Bricken的觀點雖然有一定道理——技術確實在快速迭代,後發者可以享受到前人積累的效率提升——但這種說法也暴露出了一種微妙的心態。過去兩年裡,模型訓練效率的提升確實令人驚嘆。 如Bricken所說,這些效率增益讓後來者能夠以更低的成本達到同樣的效果。但問題在於:時機本身就是競爭力的一部分。DeepSeek選擇利用有限的資源,在「正確的時間」進入,利用已有的技術積累和效率提升,這本身就是一種戰略智慧。把這種成功歸結為「只是等待」,多少有些酸葡萄的味道。真正的問題或許是:為什麼其他公司沒有在同樣的時機做出同樣的選擇?隨著DeepSeek V4和R2的臨近發佈,這場關於「前沿」和「時機」的爭論註定還會繼續。而市場最終會用腳投票,告訴我們什麼才是真正的技術實力和正確的戰略。 (AGI Hunt)