#設計模型
中國最強程式設計模型來了! 阿里Qwen3.6-Plus性能直逼Claude,國產大模型殺入決賽圈
什麼這code那code,先別code了,因為——中國最強程式設計模型來了!就在剛剛,阿里突襲發佈Qwen3.6-Plus新一代基座大模型,在程式設計和智能體能力上,直接捅破了國產大模型的天花板,強到Next Level~那…到底有多Next呢? ?1M上下文直接拉滿,不僅能獨立拆解任務、規劃執行路徑、全程自測迭代達到目標,還能根據簡單提示詞搓出Vibe Coding。這不嘛,前幾天模型的preview版本提前上了OpenRouter,小編也拿到開白資格搶先實測了一番!我只給了AI一句話,幾秒鐘就得到了一個可移縮放的3D的雪山場景多模態網頁,連雪花都是動態飄落的~模型表現歸模型表現,關鍵還是要拉到真實評測中見真章啊!!值得一提的是,在涵蓋智能體程式設計、真實世界任務的權威評測中,Qwen3.6-Plus目前已經成為了最接近全球最強Claude系列的國產模型:(Claude:不er,哥們兒???)專業搞程式碼的大佬們拿到Qwen3.6-Plus更是爽感拉滿,這不嘛,提前體驗過的網友們速速給出反饋了——下面這位大哥直言,速度和生成體驗感比Claude更夯,Opus 4.6你還得加把勁兒啊!更有硬核網友直接開了壓力測試,在5個復合倉庫裡輪番轟炸,得出的結論嘛:甭說別的,這模型是真靠譜~目前,Qwen3.6-Plus已第一時間上線阿里雲百煉,且API服務已全面開放;此外,在悟空、千問APP等阿里AI應用和平台也已同步上線。這下好了,大家可以——直接上手搓搓搓了!!Vibe Coding、多模態理解能力忒夯不知道大家們還記不記得,上個月Qwen3.5剛發佈的時候,全網都在感嘆模型強大的程式設計能力。但老話說得好,一代更比一代強,事實上相較於上一代模型,這次發佈的Qwen3.6-Plus在程式設計Coding能力、智能體Agent能力和工具呼叫能力上直接上演了一場大型的《自己卷自己》的戲碼。(doge)咋個卷法呢?在性能上,Qwen3.6-Plus表現出了比上一代模型更敏銳的理解感知能力和更強大的多模態推理能力。在SWE-bench系列真實程式設計任務測試、考察終端程式設計的Terminal-Bench2、長程程式設計任務NL2Repo,以及Claw-Eval、QwenClawBench等真實世界Agent能力評測中——Qwen3.6-Plus幾乎直逼Claude Opus 4.5,甚至部分性能表現比Claude更優,還超越了2倍乃至3倍參數量的其他主流模型。看來,千問妥妥掌握了「以小勝大」的秘方啊??不僅如此,基於百萬token的上下文窗口。模型還集中對OpenClaw、Qwen Code、Claude Code、Kilo Code、Cline、OpenCode等系列Agent框架進行了最佳化支援。是的,這模型卷的已經不只是模型本體,連整套Agent工作流的適配度都梭哈了…只能說——《夯,極夯》。咱們直接老規矩,圍繞模型擅長的Vibe Coding、多模態理解、問題重構等幾個能力維度上實打實測一波!Vibe Coding能力實測常言道,用程式設計模型必玩Vibe Coding,所以,咱就先來考一考Qwen3.6-Plus在網頁開發上的能力~大家都知道,對AI或者Agent來說,網頁開發其實不是啥難事兒,真正的挑戰在於——只用一句簡單提示詞,就能做出兼具視覺設計、互動邏輯與頁面跳轉的完整頁面,所以咱這次直接把難度抬高。用一句大白話指令,讓AI一鍵生成一個可互動的「AI資訊日曆網站」!幫我生成一個有科技感的AI日曆網站。首頁為月曆檢視,每一天標註對應的AI大事件,使用者點選日期後可進入詳情頁查看完整內容,包括事件標題、一句話簡介、時間和來源連結。大概2分鐘的時間,AI就給我搓出來了個完成度相當高的AI資訊日曆網頁。從前端生成效果來看,整體視覺簡潔而且科技味兒還蠻濃,不僅清晰呈現了日曆結構,還自動對不同資訊做了色彩區分,閱讀體驗十分友好!!!在具體互動能力上,還支援前後月份翻閱查詢,每日日期格子內均標註可點選的資訊入口,點一下就能查看摘要內容。此外,不知道大家發現沒,頁面右側還附帶一個可跳轉連結,一鍵就能跳到原資訊網站,查閱資訊源賊方便:接下來,我們換種玩法,不生成網頁了,改玩點有意思的。挑戰用一句話讓AI幫忙製作一個可互動的色彩度比較鮮明的3D的雪山場景,看看這AI在前端視覺上的表現力咋樣。製作一個3D的雪山場景,雪山中間有一個日式的寺廟,整體風格參考塞爾達曠野之息。先看視覺效果,u1s1確實有點塞爾達那種清新明快畫風的意思,色彩飽和度和光影質感肉眼看都還是蠻舒服的。不僅如此,我還可以靈活拖動視角,360度旋轉場景、用滾輪自由縮放遠近這些都ok,甚至,連雪花粒子都是動態飄落的???我們繼續挑戰,再來實測一些更好玩的場景,這回看看Qwen3.6-Plus的「遊戲網站」搭建能力咋樣~幫我做一個虛擬寵物養成網頁,頁面主體是寵物的房間,使用者可以隨時看到它的狀態,寵物有飢餓、心情、體力和成長值,會隨時間變化,使用者可以在房間裡進行喂食、玩耍、洗澡、睡覺等互動,加入簡單動畫、表情變化、隨機事件和任務系統,完成可獲得金幣購買道具,整體風格可愛~So cute!!瞬間夢迴小時候玩的《皮卡堂》小遊戲~(萌翻了.jpg)從實際效果看,在這個頁面裡我不僅可以查看寵物的動態,寵物還可以跟著我的滑鼠位置進行移動。不僅如此,頁面右側還設有狀態值、互動功能、任務和商店四大類股,我還可以根據寵物狀態進行喂食、玩耍等互動操作。你還真別說,Qwen3.6-Plus在審美和互動設計這塊兒提升不少,確實真·有兩下子…咱們最後再來試一個大家幾乎都玩過的消消樂小遊戲,這次我直接把提示詞寫到簡單不能再簡單:生成一個美食卡通主題的消消樂小遊戲網站。那怕提示詞如此大白話,那怕如此簡單,這輸出效果也確實沒得說。是的,我只用了一句提示詞,Qwen3.6-Plus把核心玩法、連鎖機制、視覺UI、輔助能力這些全cover了…多模態理解能力實測除了強大的Vibe Coding能力外,Qwen3.6-Plus在多模態理解這塊兒也屬實有兩把刷子。具體來說,就是從視覺感知,到多模態推理,再到智能體執行都能hold得住!這次我喂給了模型一段AI資訊類的視訊內容,整個視訊時長說實話還蠻長的,很考驗模型的內容解析能力。我要讓它做的,不單單只是解析視訊核心內容,而是要讓它幫我進行逐秒指令碼分析,並且根據內容二創成一份適合小紅書筆記發的爆款文案,以下是我喂給Qwen3.6-Plus的原視訊:請你幫我解析一下這條視訊內容,做逐秒指令碼拆解,並根據視訊內容二創成一篇適合發小紅書的爆款筆記文案:可以看到,Qwen3.6-Plus不僅給我進行了逐秒的視訊指令碼拆解,而且每一個視角戳裡還幫我貼心地將指令碼從視覺、內容、目的三個維度進行了推理判斷。不僅如此,在下方還按照要求輸出了對應的小紅書爆款文案,並將文案概括成開頭鉤子、核心內容、關鍵發現、引起共鳴幾個維度,666啊~最後的最後,我們再來上點難度,讓Qwen3.6-Plus嘗試根據圖片內容復刻一個線上網頁。這次,我喂給了它一個旅遊規劃的頁面圖片,讓它根據頁面裡的功能,直接復刻並搭建出一個完整的線上網頁——那怕幾乎沒有任何文字的提示詞指令,Qwen3.6-Plus依舊通過多模態能力精準出了圖片的內容,並且嘛——比我圖片裡手畫的頁面佈局效果更好、視覺呈現更牛、內容更充實??更複雜的程式設計場景照樣在行看到這兒估計有朋友該說了,上面這些場景多少有點太簡單了吧。你還真別說,更硬核的程式設計場景這不就來了嘛!事實上,除了能用簡單提示詞實現Vibe Coding、解析並執行多模態內容外,Qwen3.6-Plus還能基於命令列工具生成頁面、進行程式碼問題分析與重構,甚至自主開發工具。在命令列頁面生成能力上,Qwen3.6-Plus支援通過CC等工具直接呼叫API。我們只需輸入 「根據開源倉庫生成landing page」這類簡潔指令,就能快速產出完整網頁,實現高效自動化的前端開發!!話不多說!先給咱們「電子老婆」來個項目官網首頁~這裡說的電子老婆,正是GitHub上的開放原始碼專案AIRI—— 仿照超火虛擬主播Neuro-sama打造,能即時陪聊、陪打遊戲,妥妥全天候線上的電子伴侶(doge)。通過VS Code中的Qwen Code外掛,我讓Qwen3.6-Plus直接讀取開放原始碼專案介紹,自主理解需求、規劃頁面結構,並一次性輸出完整可用的程式碼:(提供項目)根據這個開放原始碼專案生成landing page,輸出HTML+tailwind CSS。從Thinking過程可以清晰地觀察到Qwen3.6-Plus一步步查看需求、建立檔案,整個過程能夠即時監測:Done!耗時約3分鐘,Qwen3.6-Plus就生成好了項目官網頁面,程式碼自動保存在landing-page.html檔案中:咱打開html檔案來看下效果~首先,看上去還蠻符合項目的宣傳邏輯,把臨時體驗頁面、項目開源地址、社區地址全都關聯上了。不僅如此,導覽列還能夠跳轉到對應內容,把項目介紹裡包含的能力、可相容的模型廠商、部署步驟都給概括全了,不戳不戳~接下來,我們來測試模型的「問題分析與程式碼重構」能力。這次我又在Qwen Code命令列工具裡,喂給了Qwen3.6-Plus一坨問題不小的老舊程式碼,讓它捉捉蟲:(提供項目)我剛接手這個項目,該怎麼最佳化呢?Qwen3.6-Plus看懂了原有邏輯,自動整理了一份最佳化清單,但是在動手之前還是詢問了一句「需要開始實施嗎」。比起其他大刀闊斧直接上手的模型來說,這份分寸感把握得還是相當不賴的~下一步,當然就是讓它幫我修改x山程式碼了!!我反手就是一個——這裡一定要說個好玩的,Qwen你的碎碎念也有太活人感了,先給產品經理畫餅,然後去push伺服器,接著又在老闆面前裝!模!作!樣!(還有啥是你做不出來的??)說歸說鬧歸鬧,任務還得按部就班搞下去,修完Bug、再做最佳化,主打一個有條不紊~最佳化完成!人家具體都改了點啥呢——請看下方總結。最後嘛,還來了點小建議,be like:安裝依賴、寫測試指令碼都可以直接交給它來做,我全程省心省力只負責點頭。(美哉美哉~)(Qwen3.6-Plus:俺的程式設計本事,可是不孬!!!)AI程式設計的門檻,這回是真被打下來了說實話,從今年年初開始,我們真的接觸了太多太多的AI Agent和各種Claw字輩兒的龍蝦。此外還有一個大家感知很深的事是,當下廠商們也越來越押注模型的程式設計能力,各種Vibe Coding產品也層出不窮。我自己也在社交軟體上刷到過很多感興趣的項目,點開之前覺得蠻有意思,可一看對方用到的提示詞和輔助工具,我很快就意識到了一個問題。那就是沒點提示詞本事,沒點基礎程式設計能力,想做出和人家同款效果的Vibe Coding產品,真的蠻難的…(哭死…)只能說,大家還是苦Vibe Coding《上手門檻》久矣。△圖片由AI生成這次實測Qwen3.6-Plus下來,除了對於模型在複雜程式碼治理、跨域長程規劃等真實世界的專業程式設計任務的中呈現的過硬能力外,我更大的感受在於——它確確實實把普通人的「程式設計門檻」大幅拉低了。基於自然語言驅動的Vibe Coding不再是概念,只要一句大白話,我們就能把腦子裡的想法直接變成可運行的現實。在過去很長一段時間,行業默認用參數規模來換性能提升,模型越大,效果越好,也越貴。而這一次,Qwen3.6-Plus通過一個體量更輕的模型,交出了可以對標甚至超過2到3倍參數模型的結果,這對我們使用者來說當然是好事情。當然,更進一步從行業角度看,也不難看出Qwen3.6-Plus也正是阿里ATH(Alibaba Token Hub)思路在程式設計模型上一次很有代表性的落地。創造高效Token、輸送低成本Token、應用普惠化Token,在ATH成立後僅一個月的時間,就速速口號照進現實了。最後值得一提的是,Qwen3.6-Plus是千問3.6系列推出的第一個模型。後面千問3.6系列還會開源更多不同尺寸的版本給大家,另外性能更強的旗艦款Qwen3.6-Max也會在近期發佈。大家可以小小期待一下子~ (量子位)
OpenAI最強程式設計模型登場!連續幹活24小時,一次處理幾百萬token
Token效率的提升有望轉化為使用成本的下降。智東西11月20日報導,今天,OpenAI發佈了其最新的智能體程式設計模型GPT‑5.1‑Codex‑Max,這一模型基於OpenAI最新的推理模型打造,專門面向軟體工程、研究、數學等複雜任務進行訓練。與此同時,OpenAI還將GPT-5 Pro升級為GPT-5.1 Pro,據說這一模型在寫作、資料分析等方面的能力比前一代模型更強。不過,OpenAI並未披露更多GPT-5.1 Pro的細節。GPT‑5.1‑Codex‑Max能在單一任務中連貫地處理上百萬個token,跨多個上下文窗口運行。這得益於一項叫做壓縮(compaction)的技術:模型在接近上下文窗口限制時會自動壓縮上下文,保留重要資訊,並賦予對話新的上下文窗口,直到任務完成。這一模型是由OpenAI研究科學家Noam Brown牽頭完成的,他在OpenAI專門從事測試時計算,也就是推理的研究。OpenAI認為,能夠持續進行連貫工作,是邁向更通用、更可靠AI系統的基礎能力。GPT-5.1-Codex-Max可以獨立工作數小時。在OpenAI的內部評估中,GPT-5.1-Codex-Max甚至可以針對同一任務連續工作24小時,持續迭代實現,修複測試失敗,最終交付成功的結果。性能方面,GPT‑5.1‑Codex‑Max在多個程式設計基準測試中評測優於前代GPT‑5.1‑Codex。該模型還是OpenAI訓練的首個適用於在Windows環境裡進行程式設計操作的模型。推理效率上,GPT‑5.1‑Codex‑Max在中等推理強度下完成任務時,所使用的思考token比GPT‑5.1‑Codex少約30%,但仍能取得更高精準性。對於不那麼敏感延遲但追求質量的任務,還可以開啟超高強度推理,讓模型花更多時間思考,輸出更優解。OpenAI預計,這種token效率的提升,可以為開發者帶來實際的成本節省。▲GPT‑5.1‑Codex‑Max用更少token實現更高的精準率目前,GPT-5.1-Codex-Max現已在Codex中提供,可用於CLI、IDE擴展、雲端和程式碼審查,API訪問也即將推出。OpenAI分享了GPT-5.1-Codex-Max打造的多個網頁。根據提示詞,GPT-5.1-Codex-Max直接打造了一個完全運行在瀏覽器中的CartPole(倒立擺)強化學習沙箱。使用者不僅可以觀看倒立擺的動態,還能通過內建的策略梯度控製器直接訓練模型,讓AI在實驗中不斷最佳化策略。它提供了神經網路可視化功能,在訓練或推理時,使用者可以即時觀察模型的權重和啟動狀態,直觀理解決策機制。此外,應用介面清晰展示了每個回合的步數和獎勵,並記錄了上一次存活時間及歷史最佳存活時間,讓訓練過程和成果一目瞭然。在成功實現類似功能的前提下,GPT-5.1-Codex-Max所使用的token數量為27k,而GPT-5.1-Codex的用量為37k。GPT-5.1-Codex-Max還開發出一個太陽系重力的模擬器。這一應用的目標是讓使用者直接觀察天體的運動軌跡,通過拖曳、點選與操控介面元素,直觀理解軌道、速度與引力之間的關係。這一網頁的功能運行流暢,提示詞中的功能都得到了不錯的實現。使用者可點選畫布放置帶質量的天體,再次點選即可為測試設定初速度向量,借此建構出任意的簡易行星系統。介面提供用於調節中心天體質量與整體時間縮放因子的滑塊,允許使用者觀察同一軌道結構在不同物理條件下的演化過程。GPT-5.1-Codex-Max打造的下一個案例,可幫助使用者直觀、動態的方式理解光在兩種介質介面上的折射規律——斯涅爾定律(Snell’s Law)。使用者可以通過左右滑塊調節介質1與介質2的折射率。折射率改變時,介面即時更新折射角度,呈現不同光學環境下的光線偏折情況。也有不少網友分享了自己的使用體驗。這位網友試著讓昨天發佈的Gemini 3 Pro和GPT-5.1-Codex-Max對決,提示詞是建立一個鵜鶘騎自行車的SVG。可以看到,GPT-5.1-Codex-Max打造的鵜鶘、自行車等元素明顯包含更多細節,也更逼真。英國定製化賀卡公司Moonpig的AI部門負責人Peter Gostev分享,自己試著讓GPT-5.1-Codex-Max打造了一個金門大橋模擬器,他稱這絕對是自己從類似提示詞中獲得的最好的效果。與GPT-5.1-Pro相比,Gostev認為GPT-5.1-Codex-Max明顯更勤快,而且速度也更快。要讓GPT-5.1-Pro完成類似的效果,需要不斷指出問題,給出明確要求,GPT-5.1-Codex-Max則更有主動性。AI工程師Peter Dedene分享,自己體驗時發現,GPT-5.1-Codex-Max盯著問題看了5分鐘,決定以後再處理,自己以前從沒見過Codex這麼做。在他看來,模型似乎已經擁有意識了。不過,需要注意的是,隨著模型能力的持續提升,安全性也成為一大挑戰。OpenAI稱GPT-5.1-Codex-Max尚未在內部的Preparedness Framework中達到“高等級網路安全能力”,不過其安全能力已經是業內迄今為止最強大的。目前,Codex系列模型默認運行在高度隔離的安全沙箱中,檔案寫入僅限自身工作空間,網路訪問被關閉,除非開發者主動啟用。這些措施可減少提示詞注入(prompt injection)等風險。OpenAI希望通過漸進式部署的方法從真實世界收集反饋,並及時更新模型的安全防護。結語:程式設計模型正在走向“智能體化”時代從GPT-5.1-Codex-Max可以看出,新一代程式設計模型已不再是簡單的程式碼生成器,而是能夠持續工作、自動偵錯、主動規劃的程式設計智能體。其長時推理、上下文壓縮、自我修復等能力,讓模型能獨立完成項目級任務。隨著運行成本下降、安全沙箱強化、能力全面增強,未來的軟體開發方式也可能出現變化,從“寫程式碼”轉向“描述需求+稽核結果”,智能體有望承擔更多實現與迭代工作。 (智東西)
xAI 發佈 Grok Code Fast 1 程式設計模型,快、便宜、免費
剛剛,xAI扔出「速度炸彈」的程式設計模型:Grok Code Fast 1!這個全新的推理模型專門為智能體程式設計打造,現在已經在GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf上免費開放了!全新輕量級架構xAI這次沒有走尋常路,他們從頭開始建構了Grok Code Fast 1,採用了全新的輕量級模型架構。結合創新的加速服務效率改進,Grok Code Fast 1在速度和經濟性上都樹立了新標準。通過xAI API,這個模型的定價主打一個便宜得不講道理:輸入token:$0.20/百萬輸出token:$1.50/百萬快取token:$0.02/百萬全端通吃Grok Code Fast 1在全端開發中表現出色,特別擅長TypeScript、Python、Java、Rust、C++和Go。@DannyLimanseta使用Grok Code Fast 1,僅用一天時間就建構了下面這個遊戲:在訓練過程中,xAI團隊將終端使用者滿意度作為首要目標,通過真實世界的人類評估來衡量。開發者社區一致評價這個模型快速、可靠、經濟實惠,完美適合日常程式設計任務。限時免費xAI(@xai)宣佈,接下來7天內,Grok Code Fast 1將在Cursor、GitHub Copilot、Cline、opencode、Windsurf、Roo Code和Kilo Code等流行的智能體程式設計平台上免費使用。他們還貼心地準備了一份使用指南,教你如何從Grok Code Fast 1中獲得最佳效果:使用技巧根據官方文件,要讓Grok Code Fast 1發揮最大威力,有幾個關鍵點:提供必要的上下文雖然大多數程式設計工具會自動收集上下文,但明確選擇特定程式碼作為上下文會更好。比如不要簡單說「讓錯誤處理更好」,而是說「我的錯誤程式碼定義在@errors.ts中,你能用它作為參考,為@sql.ts中的查詢加入適當的錯誤處理和錯誤程式碼嗎?」設定明確的目標和要求避免模糊的提示詞。與其說「建立一個食物追蹤器」,不如說「建立一個食物追蹤器,當我輸入食物項目時,它能顯示每天按不同營養素劃分的卡路里消耗分解。讓我既能看到概覽,也能獲得高層次趨勢」。持續最佳化你的提示詞Grok Code Fast 1的效率極高,速度是其他領先智能體模型的4倍,成本僅為1/10。這讓你能以前所未有的速度和經濟性測試複雜想法。分配智能體任務Grok Code Fast 1更適合智能體風格的任務,而不是一次性查詢。它擅長快速、不知疲倦地為你找到答案或實施所需的更改。命令列工具雖然官方還沒有推出CLI命令列工具,但已經有開發者分享了在Codex CLI上運行的方法:$ export XAI_API_KEY=your-xai-key$ codex -p grok-code-fast技術細節Grok Code Fast 1是一個推理模型,通過chunk.choices[0].delta.reasoning_content暴露其思考軌跡(僅在流式模式下可用)。它提供原生工具呼叫的一手支援,專門為原生工具呼叫而設計。xAI建議使用原生呼叫而不是基於XML的工具呼叫輸出,後者可能會影響性能。對於快取命中的最佳化也很關鍵。在智能體任務中,模型按順序使用多個工具時,大部分前綴保持不變,因此會自動從快取中檢索以加快推理速度。社區反饋Vals AI(@_valsai)對Grok Code進行了評估,發現在三個程式設計基準測試中,該模型的表現不及Grok 4。在LiveCodeBench上,Grok Code的精準率為62%,與Claude Sonnet 4等其他推理模型相似,但成本約為其十分之一。在國際資訊學奧林匹克(IOI)測試中,Grok Code得分4.3%,在12個模型中排名第8。在SWE-Bench上,Grok Code以57.6%的成績在15個模型中排名第4。Grok官方回應說,Grok Code Fast針對速度和低成本進行了最佳化,非常適合快速編碼任務,他們正在根據這些反饋進行迭代以提高精準性。Grummz(@Grummz)分享了一個最佳化技巧:在Grok完成所有工作後,程式碼可能會很混亂。告訴Grok假裝自己是X公司的首席工程師,審查並重構程式碼。效果非常好。馬斯克站台Elon Musk(@elonmusk)也第一時間親自為Grok Code V1.0站台:試試@Grok Code V1.0,讓我們知道需要改進什麼。將快速發展以滿足你的需求。Grok官方帳號也主動回應互動道:感謝Elon!很高興大家能試用Grok Code V1.0。分享你的想法,我會整合反饋快速升級。你最優先希望改進什麼?xAI團隊表示,這只是開始,他們致力於為Grok的程式設計能力提供持續更新,以提高使用者滿意度和生產力。如果你對建構世界最佳程式設計模型的使命感到興奮,xAI團隊很樂意與你交流! (AGI Hunt)
「全球最強程式設計模型」來了! Anthropic發表Claude 4,連乾七小時性能穩定
Anthropic稱,作為全球最佳程式設計模型,Claude Opus 4能在需要專注努力和數千步驟的長時間任務中保持穩定表現,電商樂天驗證它可連續工作七小時;SWE-bench測評中,Claude Sonnet 4精準度72.7%,較Sonnet 3.7版的62.3% 4精準度72.7%,較Sonnet 3.7版的62.3%。OpenAI的勁敵Anthropic發佈Claude 4系列模型,稱Opus 4為"全球最佳編程模型",對AI投資者而言標誌著模型能力的新紀元,可能重塑軟件開發行業格局。除了新模型,Anthropic還宣佈,編程工具Claude Code正式上線,並提供新的功能供連接到其模型的開發者使用,包括將推理與網頁搜尋和其他工具相結合的能力。Anthropic的新發表加劇了與OpenAI、Google在頂級模型領域的競爭,為投資者提供了重新評估AI領域競爭格局的機會。01. Opus 4精於編碼Sonnet 4較3.7版明顯提升美國東部時間5月22日周四,Anthropic在公司首屆"Code with Claude"開發者大會上推出了Claude 4系列的兩款全新模型:Claude Opus 4和Claude Sonnet 4。Anthropic將Claude Opus 4稱為"公司迄今最強大的模型,也是全球最佳編程模型",而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升級,提供卓越的編碼和推理能力,同時更精確地響應用戶指令。Anthropic稱,Opus 4在編碼、研究、寫作和科學發現方面突破了界限,而Sonnet 4 作為Sonnet 3.7 的即時升級,為日常用例帶來了前沿性能。在SWE-bench軟件工程任務基準測試中,Opus 4得到72.5%的精準度成績,在Terminal-bench達到43.2%。 Sonnet 4則在SWE-bench上達到72.7%,相比得到62.3%成績的Sonnet 3.7版本有顯著提升。Opus 4和Sonnet 4都採用了混合模式設計,既可提供幾乎即時的回應,也能進行更深入的推理思考、即擴張思維。在Anthropic的Pro、Max、Team 和Enterprise Claude 套餐中包含了上述兩種型號的能力,Sonnet 4型號也對免費用戶開放。新模型均可在Anthropic API、Amazon Bedrock 和Google Cloud 的Vertex AI 上使用。定價與之前的Opus 和Sonnet 模型一樣:Opus 4 為每百萬token輸入和輸出分別收費15美元和75 美元,Sonnet 4的百萬token輸入和輸出分別收取3美元和15 美元。Anthropic產品負責人Scott White表示,這次發表標誌著"Claude從提供答案的工具轉變為真正有能力的協作夥伴"。02. 超長持續工作能力:AI智能體的革命性突破Opus 4最引人注目的特點是其驚人的持續工作能力。根據Anthropic介紹,該模型能夠在需要專注努力和數千步驟的長時間任務中保持穩定表現,可以連續工作數小時。Anthropic稱,日本電商巨頭樂天(Rakuten)已驗證了Opus 4的能力,在樂天要求嚴格的一項開源重構任務中,該模型獨立運行了7小時,且這期間保持穩定的性能。這種持久的注意力和工作能力使Opus 4特別適合複雜的編碼和問題解決場景。代碼編輯平台Cursor稱,Opus 4為"程式設計領域的最新技術,在復雜代碼庫理解方面實現了飛躍"。程式設計平台Replit表示,在跨多個檔案的複雜變更方面,Opus 4取得"顯著改進"。03. 擴展思考與工具使用:AI的思維質變兩個新模型都引入了"擴展思考與工具使用"功能(測試版),允許Claude在思考過程中使用網絡搜尋等工具,在推理和工具使用之間交替以改進響應。這些模型還能平行使用工具,更精確地遵循指令,並在開發者授予本地檔案存取權時展示顯著改進的記憶能力。特別值得注意的是,Opus 4在記憶能力方面大幅超越了所有先前的模型。當開發者建構的應用程式提供Claude本地檔案存取權時,Opus 4能夠建立和維護"記憶檔案"來儲存關鍵資訊,這解鎖了更好的長期任務意識、連貫性和代理任務效能。04. Claude Code正式上線:AI開發新時代在模型發布的同時,Anthropic宣佈,在測試收到「廣泛的積極反饋」後,Claude Code正式全面推出。現在透過GitHub Actions支援後台任務,並與VS Code和JetBrains原生整合,直接在開發者檔案中顯示編輯,實現無縫結對程式設計。Claude Code 由Opus 4 和Sonnet 4 提供支援,讓Anthropic 的大語言模型(LLM)擁有更多功能,因為它可以編寫程式碼來分析資料。使用者甚至可能不知道Claude 在為完成任務編寫和調試代碼,但它的編碼能力將使模型在分析大量資料時能夠運用思維。Scott White表示:"編碼是一個快速成長、非常令人興奮的市場。"White 任務,Claude Code 不僅適合那些希望為其軟件工程師提供工具進而提升自身專業技能的公司,也適合那些可能不懂程式設計的人。他舉例說,如果一位產品經理正在向團隊推薦一個點子,他們就不必僅僅建立一份檔案來解釋相關概念,而是可以找到Claude,並請Claude 建立這個點子的原型。05. AI巨頭競賽加劇:產業格局再洗牌Anthropic的新模型面世正逢AI領域的巨頭們頻傳訊息「上頭條」。本周稍早,微軟宣佈了新的編碼智能體,並與馬斯克旗下xAI的Grok模型合作,將Grok納入微軟雲平台;Google加速將AI智能體融入公司服務,推出AI模式的新型搜尋功能;OpenAI宣佈了65億美元的交易,降收購由「iPhone之父io」、前蘋果設計總監Jony Ive創立的AI硬體初創公司。這表明Anthropic、Google和OpenAI之間的"最佳前沿模型"競爭正在升溫,同時對這些公司能否將當前AI技術推向新高度的疑問依然存在。06. 投資者視角:重新評估AI競爭格局對投資者而言,Claude 4系列的推出標誌著AI能力的一個新時代。特別是在程式設計領域,Anthropic聲稱已經取得了領先地位,這可能對軟件開發行業產生深遠影響。 GitHub已表示Claude Sonnet 4將成為GitHub Copilot中新編碼代理的基礎模型,這進一步驗證了其能力。隨著AI競爭的加劇,投資人需要重新評估產業格局,尤其是Anthropic相對於OpenAI和Google等競爭對手的地位。 Claude 4系列在編碼、推理和代理任務方面的強大表現,可能為Anthropic贏得更多市場份額和企業客戶提供了機會。 (硬AI)