#程式設計模型
OpenAI最強程式設計模型登場!連續幹活24小時,一次處理幾百萬token
Token效率的提升有望轉化為使用成本的下降。智東西11月20日報導,今天,OpenAI發佈了其最新的智能體程式設計模型GPT‑5.1‑Codex‑Max,這一模型基於OpenAI最新的推理模型打造,專門面向軟體工程、研究、數學等複雜任務進行訓練。與此同時,OpenAI還將GPT-5 Pro升級為GPT-5.1 Pro,據說這一模型在寫作、資料分析等方面的能力比前一代模型更強。不過,OpenAI並未披露更多GPT-5.1 Pro的細節。GPT‑5.1‑Codex‑Max能在單一任務中連貫地處理上百萬個token,跨多個上下文窗口運行。這得益於一項叫做壓縮(compaction)的技術:模型在接近上下文窗口限制時會自動壓縮上下文,保留重要資訊,並賦予對話新的上下文窗口,直到任務完成。這一模型是由OpenAI研究科學家Noam Brown牽頭完成的,他在OpenAI專門從事測試時計算,也就是推理的研究。OpenAI認為,能夠持續進行連貫工作,是邁向更通用、更可靠AI系統的基礎能力。GPT-5.1-Codex-Max可以獨立工作數小時。在OpenAI的內部評估中,GPT-5.1-Codex-Max甚至可以針對同一任務連續工作24小時,持續迭代實現,修複測試失敗,最終交付成功的結果。性能方面,GPT‑5.1‑Codex‑Max在多個程式設計基準測試中評測優於前代GPT‑5.1‑Codex。該模型還是OpenAI訓練的首個適用於在Windows環境裡進行程式設計操作的模型。推理效率上,GPT‑5.1‑Codex‑Max在中等推理強度下完成任務時,所使用的思考token比GPT‑5.1‑Codex少約30%,但仍能取得更高精準性。對於不那麼敏感延遲但追求質量的任務,還可以開啟超高強度推理,讓模型花更多時間思考,輸出更優解。OpenAI預計,這種token效率的提升,可以為開發者帶來實際的成本節省。▲GPT‑5.1‑Codex‑Max用更少token實現更高的精準率目前,GPT-5.1-Codex-Max現已在Codex中提供,可用於CLI、IDE擴展、雲端和程式碼審查,API訪問也即將推出。OpenAI分享了GPT-5.1-Codex-Max打造的多個網頁。根據提示詞,GPT-5.1-Codex-Max直接打造了一個完全運行在瀏覽器中的CartPole(倒立擺)強化學習沙箱。使用者不僅可以觀看倒立擺的動態,還能通過內建的策略梯度控製器直接訓練模型,讓AI在實驗中不斷最佳化策略。它提供了神經網路可視化功能,在訓練或推理時,使用者可以即時觀察模型的權重和啟動狀態,直觀理解決策機制。此外,應用介面清晰展示了每個回合的步數和獎勵,並記錄了上一次存活時間及歷史最佳存活時間,讓訓練過程和成果一目瞭然。在成功實現類似功能的前提下,GPT-5.1-Codex-Max所使用的token數量為27k,而GPT-5.1-Codex的用量為37k。GPT-5.1-Codex-Max還開發出一個太陽系重力的模擬器。這一應用的目標是讓使用者直接觀察天體的運動軌跡,通過拖曳、點選與操控介面元素,直觀理解軌道、速度與引力之間的關係。這一網頁的功能運行流暢,提示詞中的功能都得到了不錯的實現。使用者可點選畫布放置帶質量的天體,再次點選即可為測試設定初速度向量,借此建構出任意的簡易行星系統。介面提供用於調節中心天體質量與整體時間縮放因子的滑塊,允許使用者觀察同一軌道結構在不同物理條件下的演化過程。GPT-5.1-Codex-Max打造的下一個案例,可幫助使用者直觀、動態的方式理解光在兩種介質介面上的折射規律——斯涅爾定律(Snell’s Law)。使用者可以通過左右滑塊調節介質1與介質2的折射率。折射率改變時,介面即時更新折射角度,呈現不同光學環境下的光線偏折情況。也有不少網友分享了自己的使用體驗。這位網友試著讓昨天發佈的Gemini 3 Pro和GPT-5.1-Codex-Max對決,提示詞是建立一個鵜鶘騎自行車的SVG。可以看到,GPT-5.1-Codex-Max打造的鵜鶘、自行車等元素明顯包含更多細節,也更逼真。英國定製化賀卡公司Moonpig的AI部門負責人Peter Gostev分享,自己試著讓GPT-5.1-Codex-Max打造了一個金門大橋模擬器,他稱這絕對是自己從類似提示詞中獲得的最好的效果。與GPT-5.1-Pro相比,Gostev認為GPT-5.1-Codex-Max明顯更勤快,而且速度也更快。要讓GPT-5.1-Pro完成類似的效果,需要不斷指出問題,給出明確要求,GPT-5.1-Codex-Max則更有主動性。AI工程師Peter Dedene分享,自己體驗時發現,GPT-5.1-Codex-Max盯著問題看了5分鐘,決定以後再處理,自己以前從沒見過Codex這麼做。在他看來,模型似乎已經擁有意識了。不過,需要注意的是,隨著模型能力的持續提升,安全性也成為一大挑戰。OpenAI稱GPT-5.1-Codex-Max尚未在內部的Preparedness Framework中達到“高等級網路安全能力”,不過其安全能力已經是業內迄今為止最強大的。目前,Codex系列模型默認運行在高度隔離的安全沙箱中,檔案寫入僅限自身工作空間,網路訪問被關閉,除非開發者主動啟用。這些措施可減少提示詞注入(prompt injection)等風險。OpenAI希望通過漸進式部署的方法從真實世界收集反饋,並及時更新模型的安全防護。結語:程式設計模型正在走向“智能體化”時代從GPT-5.1-Codex-Max可以看出,新一代程式設計模型已不再是簡單的程式碼生成器,而是能夠持續工作、自動偵錯、主動規劃的程式設計智能體。其長時推理、上下文壓縮、自我修復等能力,讓模型能獨立完成項目級任務。隨著運行成本下降、安全沙箱強化、能力全面增強,未來的軟體開發方式也可能出現變化,從“寫程式碼”轉向“描述需求+稽核結果”,智能體有望承擔更多實現與迭代工作。 (智東西)
xAI 發佈 Grok Code Fast 1 程式設計模型,快、便宜、免費
剛剛,xAI扔出「速度炸彈」的程式設計模型:Grok Code Fast 1!這個全新的推理模型專門為智能體程式設計打造,現在已經在GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf上免費開放了!全新輕量級架構xAI這次沒有走尋常路,他們從頭開始建構了Grok Code Fast 1,採用了全新的輕量級模型架構。結合創新的加速服務效率改進,Grok Code Fast 1在速度和經濟性上都樹立了新標準。通過xAI API,這個模型的定價主打一個便宜得不講道理:輸入token:$0.20/百萬輸出token:$1.50/百萬快取token:$0.02/百萬全端通吃Grok Code Fast 1在全端開發中表現出色,特別擅長TypeScript、Python、Java、Rust、C++和Go。@DannyLimanseta使用Grok Code Fast 1,僅用一天時間就建構了下面這個遊戲:在訓練過程中,xAI團隊將終端使用者滿意度作為首要目標,通過真實世界的人類評估來衡量。開發者社區一致評價這個模型快速、可靠、經濟實惠,完美適合日常程式設計任務。限時免費xAI(@xai)宣佈,接下來7天內,Grok Code Fast 1將在Cursor、GitHub Copilot、Cline、opencode、Windsurf、Roo Code和Kilo Code等流行的智能體程式設計平台上免費使用。他們還貼心地準備了一份使用指南,教你如何從Grok Code Fast 1中獲得最佳效果:使用技巧根據官方文件,要讓Grok Code Fast 1發揮最大威力,有幾個關鍵點:提供必要的上下文雖然大多數程式設計工具會自動收集上下文,但明確選擇特定程式碼作為上下文會更好。比如不要簡單說「讓錯誤處理更好」,而是說「我的錯誤程式碼定義在@errors.ts中,你能用它作為參考,為@sql.ts中的查詢加入適當的錯誤處理和錯誤程式碼嗎?」設定明確的目標和要求避免模糊的提示詞。與其說「建立一個食物追蹤器」,不如說「建立一個食物追蹤器,當我輸入食物項目時,它能顯示每天按不同營養素劃分的卡路里消耗分解。讓我既能看到概覽,也能獲得高層次趨勢」。持續最佳化你的提示詞Grok Code Fast 1的效率極高,速度是其他領先智能體模型的4倍,成本僅為1/10。這讓你能以前所未有的速度和經濟性測試複雜想法。分配智能體任務Grok Code Fast 1更適合智能體風格的任務,而不是一次性查詢。它擅長快速、不知疲倦地為你找到答案或實施所需的更改。命令列工具雖然官方還沒有推出CLI命令列工具,但已經有開發者分享了在Codex CLI上運行的方法:$ export XAI_API_KEY=your-xai-key$ codex -p grok-code-fast技術細節Grok Code Fast 1是一個推理模型,通過chunk.choices[0].delta.reasoning_content暴露其思考軌跡(僅在流式模式下可用)。它提供原生工具呼叫的一手支援,專門為原生工具呼叫而設計。xAI建議使用原生呼叫而不是基於XML的工具呼叫輸出,後者可能會影響性能。對於快取命中的最佳化也很關鍵。在智能體任務中,模型按順序使用多個工具時,大部分前綴保持不變,因此會自動從快取中檢索以加快推理速度。社區反饋Vals AI(@_valsai)對Grok Code進行了評估,發現在三個程式設計基準測試中,該模型的表現不及Grok 4。在LiveCodeBench上,Grok Code的精準率為62%,與Claude Sonnet 4等其他推理模型相似,但成本約為其十分之一。在國際資訊學奧林匹克(IOI)測試中,Grok Code得分4.3%,在12個模型中排名第8。在SWE-Bench上,Grok Code以57.6%的成績在15個模型中排名第4。Grok官方回應說,Grok Code Fast針對速度和低成本進行了最佳化,非常適合快速編碼任務,他們正在根據這些反饋進行迭代以提高精準性。Grummz(@Grummz)分享了一個最佳化技巧:在Grok完成所有工作後,程式碼可能會很混亂。告訴Grok假裝自己是X公司的首席工程師,審查並重構程式碼。效果非常好。馬斯克站台Elon Musk(@elonmusk)也第一時間親自為Grok Code V1.0站台:試試@Grok Code V1.0,讓我們知道需要改進什麼。將快速發展以滿足你的需求。Grok官方帳號也主動回應互動道:感謝Elon!很高興大家能試用Grok Code V1.0。分享你的想法,我會整合反饋快速升級。你最優先希望改進什麼?xAI團隊表示,這只是開始,他們致力於為Grok的程式設計能力提供持續更新,以提高使用者滿意度和生產力。如果你對建構世界最佳程式設計模型的使命感到興奮,xAI團隊很樂意與你交流! (AGI Hunt)
「全球最強程式設計模型」來了! Anthropic發表Claude 4,連乾七小時性能穩定
Anthropic稱,作為全球最佳程式設計模型,Claude Opus 4能在需要專注努力和數千步驟的長時間任務中保持穩定表現,電商樂天驗證它可連續工作七小時;SWE-bench測評中,Claude Sonnet 4精準度72.7%,較Sonnet 3.7版的62.3% 4精準度72.7%,較Sonnet 3.7版的62.3%。OpenAI的勁敵Anthropic發佈Claude 4系列模型,稱Opus 4為"全球最佳編程模型",對AI投資者而言標誌著模型能力的新紀元,可能重塑軟件開發行業格局。除了新模型,Anthropic還宣佈,編程工具Claude Code正式上線,並提供新的功能供連接到其模型的開發者使用,包括將推理與網頁搜尋和其他工具相結合的能力。Anthropic的新發表加劇了與OpenAI、Google在頂級模型領域的競爭,為投資者提供了重新評估AI領域競爭格局的機會。01. Opus 4精於編碼Sonnet 4較3.7版明顯提升美國東部時間5月22日周四,Anthropic在公司首屆"Code with Claude"開發者大會上推出了Claude 4系列的兩款全新模型:Claude Opus 4和Claude Sonnet 4。Anthropic將Claude Opus 4稱為"公司迄今最強大的模型,也是全球最佳編程模型",而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升級,提供卓越的編碼和推理能力,同時更精確地響應用戶指令。Anthropic稱,Opus 4在編碼、研究、寫作和科學發現方面突破了界限,而Sonnet 4 作為Sonnet 3.7 的即時升級,為日常用例帶來了前沿性能。在SWE-bench軟件工程任務基準測試中,Opus 4得到72.5%的精準度成績,在Terminal-bench達到43.2%。 Sonnet 4則在SWE-bench上達到72.7%,相比得到62.3%成績的Sonnet 3.7版本有顯著提升。Opus 4和Sonnet 4都採用了混合模式設計,既可提供幾乎即時的回應,也能進行更深入的推理思考、即擴張思維。在Anthropic的Pro、Max、Team 和Enterprise Claude 套餐中包含了上述兩種型號的能力,Sonnet 4型號也對免費用戶開放。新模型均可在Anthropic API、Amazon Bedrock 和Google Cloud 的Vertex AI 上使用。定價與之前的Opus 和Sonnet 模型一樣:Opus 4 為每百萬token輸入和輸出分別收費15美元和75 美元,Sonnet 4的百萬token輸入和輸出分別收取3美元和15 美元。Anthropic產品負責人Scott White表示,這次發表標誌著"Claude從提供答案的工具轉變為真正有能力的協作夥伴"。02. 超長持續工作能力:AI智能體的革命性突破Opus 4最引人注目的特點是其驚人的持續工作能力。根據Anthropic介紹,該模型能夠在需要專注努力和數千步驟的長時間任務中保持穩定表現,可以連續工作數小時。Anthropic稱,日本電商巨頭樂天(Rakuten)已驗證了Opus 4的能力,在樂天要求嚴格的一項開源重構任務中,該模型獨立運行了7小時,且這期間保持穩定的性能。這種持久的注意力和工作能力使Opus 4特別適合複雜的編碼和問題解決場景。代碼編輯平台Cursor稱,Opus 4為"程式設計領域的最新技術,在復雜代碼庫理解方面實現了飛躍"。程式設計平台Replit表示,在跨多個檔案的複雜變更方面,Opus 4取得"顯著改進"。03. 擴展思考與工具使用:AI的思維質變兩個新模型都引入了"擴展思考與工具使用"功能(測試版),允許Claude在思考過程中使用網絡搜尋等工具,在推理和工具使用之間交替以改進響應。這些模型還能平行使用工具,更精確地遵循指令,並在開發者授予本地檔案存取權時展示顯著改進的記憶能力。特別值得注意的是,Opus 4在記憶能力方面大幅超越了所有先前的模型。當開發者建構的應用程式提供Claude本地檔案存取權時,Opus 4能夠建立和維護"記憶檔案"來儲存關鍵資訊,這解鎖了更好的長期任務意識、連貫性和代理任務效能。04. Claude Code正式上線:AI開發新時代在模型發布的同時,Anthropic宣佈,在測試收到「廣泛的積極反饋」後,Claude Code正式全面推出。現在透過GitHub Actions支援後台任務,並與VS Code和JetBrains原生整合,直接在開發者檔案中顯示編輯,實現無縫結對程式設計。Claude Code 由Opus 4 和Sonnet 4 提供支援,讓Anthropic 的大語言模型(LLM)擁有更多功能,因為它可以編寫程式碼來分析資料。使用者甚至可能不知道Claude 在為完成任務編寫和調試代碼,但它的編碼能力將使模型在分析大量資料時能夠運用思維。Scott White表示:"編碼是一個快速成長、非常令人興奮的市場。"White 任務,Claude Code 不僅適合那些希望為其軟件工程師提供工具進而提升自身專業技能的公司,也適合那些可能不懂程式設計的人。他舉例說,如果一位產品經理正在向團隊推薦一個點子,他們就不必僅僅建立一份檔案來解釋相關概念,而是可以找到Claude,並請Claude 建立這個點子的原型。05. AI巨頭競賽加劇:產業格局再洗牌Anthropic的新模型面世正逢AI領域的巨頭們頻傳訊息「上頭條」。本周稍早,微軟宣佈了新的編碼智能體,並與馬斯克旗下xAI的Grok模型合作,將Grok納入微軟雲平台;Google加速將AI智能體融入公司服務,推出AI模式的新型搜尋功能;OpenAI宣佈了65億美元的交易,降收購由「iPhone之父io」、前蘋果設計總監Jony Ive創立的AI硬體初創公司。這表明Anthropic、Google和OpenAI之間的"最佳前沿模型"競爭正在升溫,同時對這些公司能否將當前AI技術推向新高度的疑問依然存在。06. 投資者視角:重新評估AI競爭格局對投資者而言,Claude 4系列的推出標誌著AI能力的一個新時代。特別是在程式設計領域,Anthropic聲稱已經取得了領先地位,這可能對軟件開發行業產生深遠影響。 GitHub已表示Claude Sonnet 4將成為GitHub Copilot中新編碼代理的基礎模型,這進一步驗證了其能力。隨著AI競爭的加劇,投資人需要重新評估產業格局,尤其是Anthropic相對於OpenAI和Google等競爭對手的地位。 Claude 4系列在編碼、推理和代理任務方面的強大表現,可能為Anthropic贏得更多市場份額和企業客戶提供了機會。 (硬AI)