#訓練模型 | 熱門關鍵字 | 鉅亨號

今天，可算是又炸了一輪啊……讓不讓人睡覺了！就在過去一小時內，OpenAI 發佈了 GPT-5.3-Codex，Anthropic 發佈了 Opus 4.6（100萬 context）Claude Opus 4.6 發佈，跑分霸榜，價格不變。兩顆重磅炸彈，幾乎同時落地。建立在這些模型之上的 Agent 們，接下來怕是要起飛了。而就在 Anthropic 放出 Claude Opus 4.6 的同一天，OpenAI 緊跟著扔出了 GPT-5.3-Codex，號稱迄今為止最強的 agentic coding 模型。Sam Altman 本人也第一時間發了推：GPT-5.3-Codex 來了！最強編碼性能（57% SWE-Bench Pro，76% TerminalBench 2.0，64% OSWorld）。任務執行中可即時引導，工作過程中提供即時更新。更快！相同任務的 token 消耗不到 5.2-Codex 的一半，每個 token 的速度還快了 25% 以上！電腦使用能力也很強。那這個 GPT-5.3-Codex 到底強在那呢？且往下看。自己訓自己GPT-5.3-Codex 有一個很「離譜」的特點：它參與了自己的創造過程。OpenAI 團隊在訓練過程中，就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說，這個模型幫著把自己「生」出來了。OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。它不僅能排查基礎設施問題，還能追蹤訓練過程中的模式變化，對互動質量做深度分析，提出修復建議，甚至為研究員建構可視化應用來精確理解模型行為的差異。工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。當出現影響使用者的邊界情況時，團隊成員直接讓 Codex 去定位 context 渲染的 bug，排查快取命中率低的根因。在發佈期間，GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰，保持延遲穩定。有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道，做出了比標準儀表盤工具豐富得多的可視化結果，然後和 Codex 一起分析，三分鐘內就從數千個資料點中提煉出了關鍵洞察。全面屠榜GPT-5.3-Codex 在多個基準測試上刷新了紀錄：SWE-Bench Pro 拿下 56.8%，這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同，SWE-Bench Pro 覆蓋了四種程式語言，更抗資料污染，也更貼近工業場景。GPT-5.2-Codex 是 56.4%，GPT-5.2 是 55.6%。Terminal-Bench 2.0 達到 77.3%，遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。OSWorld-Verified 拿下 64.7%，而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準，這個提升幅度可以說是「斷崖式領先」了。GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估，衡量模型在 44 個職業的知識工作任務上的表現，包括做簡報、處理電子表格等。網路安全 CTF 挑戰達到 77.6%，GPT-5.2-Codex 是 67.4%。SWE-lancer IC Diamond 拿到 81.4%，超過 GPT-5.2-Codex 的 76.0%。而且值得注意的是，GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省，這才是真本事。不只是寫程式碼GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。OpenAI 稱：從寫程式碼的 agent，變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作：debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域，能幫你做幻燈片、分析電子表格中的資料。OpenAI 結合了前沿編碼能力、美學改進和壓縮能力，做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。為了測試長時間運行的 agentic 能力，他們讓 GPT-5.3-Codex 建構了兩款遊戲：一個賽車遊戲的第二版和一個潛水遊戲，使用的只是通用的跟進提示，比如「fix the bug」或「improve the game」，GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。在網頁開發方面，GPT-5.3-Codex 也比前代更懂你的意圖。簡單或不夠詳細的提示，現在會默認生成功能更完善、預設值更合理的網站，給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁，GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀，還會做一個自動輪播的使用者評價元件，而不是只放一條。開箱即用的完成度明顯更高了。邊幹活邊對話隨著模型能力越來越強，瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。GPT-5.3-Codex 在這方面做了一個關鍵改進：互動式協作。以前你給 Codex 一個任務，然後等它給你最終結果。現在不一樣了，GPT-5.3-Codex 會在工作過程中頻繁給你更新，讓你即時瞭解關鍵決策和進展。你可以隨時提問、討論方案、調整方向，而不會丟失上下文。它會告訴你它在幹什麼，回應你的反饋，從頭到尾都讓你參與其中。更像是和一位同事協作，而不是給一台機器下命令。在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。首個「高能力」安全評級GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型，也是他們首個直接訓練來識別軟體漏洞的模型。雖然沒有確鑿證據表明它能端到端地自動化網路攻擊，但 OpenAI 採取了預防性措施，部署了迄今最全面的網路安全安全端，包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。因為網路安全天然是雙重用途的，OpenAI 採取了「基於證據、迭代推進」的方法，加速防禦者發現和修復漏洞的能力，同時減緩濫用。具體措施包括：推出 Trusted Access for Cyber 試點項目，加速網路防禦研究。擴大 Aardvark（安全研究 agent）的私有 beta 測試，作為 Codex Security 產品套件的首個產品。與開源維護者合作，為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描，上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上，OpenAI 還承諾投入 1000 萬美元的 API 額度，用於加速網路防禦，特別是針對開放原始碼軟體和關鍵基礎設施系統。可用性GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放，覆蓋 Codex 可用的所有平台：應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。速度方面，比 GPT-5.2-Codex 快了 25%，token 消耗則不到前代的一半。GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。方向變了OpenAI 在文章最後說到：GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。最初聚焦於成為最好的 coding agent，現在已經演變成了一個更通用的電腦協作者，擴展了誰能建構以及用 Codex 能做什麼的邊界。同一天，Anthropic 發 Opus 4.6，OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽，已經進入白熱化了。cli 中也已經能用了：而方向也越來越清晰：不是讓模型寫更多程式碼，而是讓模型用程式碼去搞定一切。而另一個值得注意的是：GPT 5.3 Codex 今日正式發佈，而數小時前同時發佈的還有人工智慧代理平台 Frontier。這種發布周期的縮短意味著什麼呢？OpenAI 在近 6 個月內發佈了 5 個主要版本/更新，而此前 15 個月總共才只發佈了 7 個版本。對於日益複雜的模型，根據 OpenAI 自己的發佈公告，越來越多地使用#AI生成的程式碼來建構，這要麼是因為真正的功能程式碼開發改進而帶來的速度提升，要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。這次的 GPT-5.3-Codex，可還是參與了自己的訓練過程的……有意思。 (AGI Hunt)

2025/11/26

•

重磅！Ilya現身，最新2萬字採訪來了：藏了一手，但其他全部都分享出來了「超級 AI 將吞噬文明級能源」

2025/09/30

•

DeepSeek突然擁抱中國國產GPU語言！TileLang對標CUDA替代Triton，華為昇騰Day0官宣支援適配

DeepSeek v3.2有一個新改動，在論文裡完全沒提，只在官方公告中出現一次，卻引起牆裂關注。開源TileLang版本算子，其受關注程度甚至超過新稀疏注意力機制DSA，從畫線轉發的數量就可以看出來。海外社區也注意到DeepSeek使用了它而不是OpenAI開發的Triton語言。有接觸過的開發者感嘆TileLang是一種非常優雅的語言，只需不到100行程式碼就能寫出比Flash Attention 2原版快30%的注意力實現。那麼什麼是TileLang，又為何引人矚目？首先，TileLang是一種專門用來開發GPU核心的領域專用語言，性能上可以對標輝達CUDA，DeepSeek官方推薦使用此版本做實驗，在方便偵錯和快速迭代上有優勢。更重要的是，TileLang與國產算力生態適配，連華為昇騰都要在第一時間公告對TileLang的支援。在幾周前的華為全聯接大會2025的開發者日上，TileLang團隊成員董宇騏就介紹了TileLang實現FlashAttention算子開發，程式碼量從500+行減少至80行，並保持了與官方版本持平的性能。此外TileLang團隊成員王磊和沐曦積體電路的高級總監董兆華也在同一個圓桌沙龍上出現過，討論了沐曦GPU與TileLang的適配。DeepSeek為什麼選擇TileLangDeepSeek與TileLang第一次同框亮相，其實是在6月的北京智元大會。在DeepSeek實習過的北大博士袁境陽，在報告中就提到“TileLang的算子實現會更快一點”。TileLang的發起人之一，北大博士研究生王磊當時還專門發帖感謝DeepSeek嘗試他們的語言。TileLang由北大團隊主導開發，核心人物除了王磊、董宇騏，還有北大電腦學院的副研究員、博士生導師楊智。2025年1月，TileLang在GitHub上正式開源，至今已獲得1.9k標星。簡單來說，Tile語言 ( tile-lang ) 是一種簡潔的領域專用語言，旨在簡化高性能 GPU/CPU 核心的開發。tile-lang採用Python式語法，並在TVM之上建構底層編譯器基礎架構，使開發者能夠專注於提高生產力，而無需犧牲實現最佳性能所需的底層最佳化。王磊曾在7月HyperAI超神經主辦的Meet AI Compiler技術沙龍分享TileLang的核心設計理念：將調度空間（包括執行緒繫結、記憶體佈局、張量化和流水線等）與資料流解耦，並將其封裝為一組可自訂的註解和原語。這種方法允許使用者專注於核心的資料流本身，而將大部分最佳化工作交給編譯器完成。TileLang將“Tile”作為程式設計模型的核心概念，通過顯式的Tile抽象，讓開發者能夠直觀地控制資料在全域記憶體、共用記憶體和暫存器之間的流動。TileLang提供了三個不同層次的程式設計介面，滿足不同水平開發者的需求。初學者可以使用硬體無關的高層介面，專注於演算法邏輯而不必關心底層細節。有經驗的開發者可以使用ile Library，這裡包含了各種針對不同硬體架構最佳化過的預定義操作。對於追求極致性能的專家使用者，TileLang還提供了執行緒原語等級的控制，允許他們直接操作執行緒同步、記憶體合併等底層特性。DeepSeek顯然就屬於追求極致性能的專家使用者了，根據v3.2公告的說法，在早期DeepSeek團隊使用TileLang快速開發原型，之後用更底層的方法進一步最佳化性能。v3.2論文中提到在核心層面共享k-v提升計算效率，讓DSA的閃電索引器機制（lightning indexer）運行速度遠超傳統實現。在TileLang的文件中也有相關的技術介紹，在計算過程中快取中間資料，比全域記憶體快得多。TileLang與DeepSeek雙向奔赴更早之前，在DeepSeek連續一周發佈開放原始碼庫的第一天，王磊就曾向DeepSeek團隊推薦TileLang語言。後來TileLang也以DeepSeek在這天發佈的FlashMLA核心作為評測基準，在H100上的MLA解碼速度，TileLang編寫的核心做到與FlashMLA相當。在最新的DeepSeek v3.2發佈之後，王磊也發帖致敬DeepSeek敢於使用一門新的程式語言來開發核心產品。並且DeepSeek v3.2也驗證了TileLang確實可以用來訓練模型。 (量子位)