#程式碼
GPT-5.3-Codex 發佈:首個自我訓練的模型
今天,可算是又炸了一輪啊……讓不讓人睡覺了!就在過去一小時內,OpenAI 發佈了 GPT-5.3-Codex,Anthropic 發佈了 Opus 4.6(100萬 context)Claude Opus 4.6 發佈,跑分霸榜,價格不變。兩顆重磅炸彈,幾乎同時落地。建立在這些模型之上的 Agent 們,接下來怕是要起飛了。而就在 Anthropic 放出 Claude Opus 4.6 的同一天,OpenAI 緊跟著扔出了 GPT-5.3-Codex,號稱迄今為止最強的 agentic coding 模型。Sam Altman 本人也第一時間發了推:GPT-5.3-Codex 來了!最強編碼性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。任務執行中可即時引導,工作過程中提供即時更新。更快!相同任務的 token 消耗不到 5.2-Codex 的一半,每個 token 的速度還快了 25% 以上!電腦使用能力也很強。那這個 GPT-5.3-Codex 到底強在那呢?且往下看。自己訓自己GPT-5.3-Codex 有一個很「離譜」的特點:它參與了自己的創造過程。OpenAI 團隊在訓練過程中,就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說,這個模型幫著把自己「生」出來了。OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。它不僅能排查基礎設施問題,還能追蹤訓練過程中的模式變化,對互動質量做深度分析,提出修復建議,甚至為研究員建構可視化應用來精確理解模型行為的差異。工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。當出現影響使用者的邊界情況時,團隊成員直接讓 Codex 去定位 context 渲染的 bug,排查快取命中率低的根因。在發佈期間,GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰,保持延遲穩定。有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道,做出了比標準儀表盤工具豐富得多的可視化結果,然後和 Codex 一起分析,三分鐘內就從數千個資料點中提煉出了關鍵洞察。全面屠榜GPT-5.3-Codex 在多個基準測試上刷新了紀錄:SWE-Bench Pro 拿下 56.8%,這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同,SWE-Bench Pro 覆蓋了四種程式語言,更抗資料污染,也更貼近工業場景。GPT-5.2-Codex 是 56.4%,GPT-5.2 是 55.6%。Terminal-Bench 2.0 達到 77.3%,遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。OSWorld-Verified 拿下 64.7%,而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準,這個提升幅度可以說是「斷崖式領先」了。GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估,衡量模型在 44 個職業的知識工作任務上的表現,包括做簡報、處理電子表格等。網路安全 CTF 挑戰 達到 77.6%,GPT-5.2-Codex 是 67.4%。SWE-lancer IC Diamond 拿到 81.4%,超過 GPT-5.2-Codex 的 76.0%。而且值得注意的是,GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省,這才是真本事。不只是寫程式碼GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。OpenAI 稱:從寫程式碼的 agent,變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作:debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域,能幫你做幻燈片、分析電子表格中的資料。OpenAI 結合了前沿編碼能力、美學改進和壓縮能力,做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。為了測試長時間運行的 agentic 能力,他們讓 GPT-5.3-Codex 建構了兩款遊戲:一個賽車遊戲的第二版和一個潛水遊戲,使用的只是通用的跟進提示,比如「fix the bug」或「improve the game」,GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。在網頁開發方面,GPT-5.3-Codex 也比前代更懂你的意圖。簡單或不夠詳細的提示,現在會默認生成功能更完善、預設值更合理的網站,給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁,GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀,還會做一個自動輪播的使用者評價元件,而不是只放一條。開箱即用的完成度明顯更高了。邊幹活邊對話隨著模型能力越來越強,瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。GPT-5.3-Codex 在這方面做了一個關鍵改進:互動式協作。以前你給 Codex 一個任務,然後等它給你最終結果。現在不一樣了,GPT-5.3-Codex 會在工作過程中頻繁給你更新,讓你即時瞭解關鍵決策和進展。你可以隨時提問、討論方案、調整方向,而不會丟失上下文。它會告訴你它在幹什麼,回應你的反饋,從頭到尾都讓你參與其中。更像是和一位同事協作,而不是給一台機器下命令。在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。首個「高能力」安全評級GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型,也是他們首個直接訓練來識別軟體漏洞的模型。雖然沒有確鑿證據表明它能端到端地自動化網路攻擊,但 OpenAI 採取了預防性措施,部署了迄今最全面的網路安全安全端,包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。因為網路安全天然是雙重用途的,OpenAI 採取了「基於證據、迭代推進」的方法,加速防禦者發現和修復漏洞的能力,同時減緩濫用。具體措施包括:推出 Trusted Access for Cyber 試點項目,加速網路防禦研究。擴大 Aardvark(安全研究 agent)的私有 beta 測試,作為 Codex Security 產品套件的首個產品。與開源維護者合作,為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描,上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上,OpenAI 還承諾投入 1000 萬美元的 API 額度,用於加速網路防禦,特別是針對開放原始碼軟體和關鍵基礎設施系統。可用性GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放,覆蓋 Codex 可用的所有平台:應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。速度方面,比 GPT-5.2-Codex 快了 25%,token 消耗則不到前代的一半。GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。方向變了OpenAI 在文章最後說到:GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。最初聚焦於成為最好的 coding agent,現在已經演變成了一個更通用的電腦協作者,擴展了誰能建構以及用 Codex 能做什麼的邊界。同一天,Anthropic 發 Opus 4.6,OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽,已經進入白熱化了。cli 中也已經能用了:而方向也越來越清晰:不是讓模型寫更多程式碼,而是讓模型用程式碼去搞定一切。而另一個值得注意的是:GPT 5.3 Codex 今日正式發佈,而數小時前同時發佈的還有人工智慧代理平台 Frontier。這種發布周期的縮短意味著什麼呢?OpenAI 在近 6 個月內發佈了 5 個主要版本/更新,而此前 15 個月總共才只發佈了 7 個版本。對於日益複雜的模型,根據 OpenAI 自己的發佈公告,越來越多地使用#AI生成的程式碼來建構,這要麼是因為真正的功能程式碼開發改進而帶來的速度提升,要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。這次的 GPT-5.3-Codex,可還是參與了自己的訓練過程的……有意思。 (AGI Hunt)
程式設計已死,鍵盤長草!Claude Code之父對談Kaparthy,全程爆金句
【新智元導讀】Andrej Karpathy與Claude Code負責人Boris Cherny展開了一場關於程式設計未來的終極對談。面對AI接管100%程式碼編寫的現狀,Karpathy坦言人類正處於「腦萎縮」與能力進化的十字路口。本文深度解析了從Software 2.0到Agentic Coding的範式轉移,揭示了在Opus 4.5等強力模型加持下,程式設計師如何從「搬磚工」進化為「指揮官」,以及不僅要面對效率的飛躍,更要警惕「垃圾程式碼末日」的隱憂。2026年的開篇,科技圈被一場關於「程式設計本質」的深度對話引爆。這場對話的雙方,一位是特斯拉前AI總監、OpenAI創始成員 Andrej Karpathy,他是「Software 2.0」概念的提出者,一直站在程式設計範式轉移的最前沿;另一位是 Claude Code 的締造者、Anthropic 的核心人物 Boris Cherny,他正在親手打造終結傳統程式設計的工具。他們的討論不僅僅是關於工具的迭代,更像是一場關於人類技能邊界的哲學思辨。當程式碼不再由人類一個個字元敲擊而出,我們究竟是在進化,還是在退化?這場對話揭示了一個殘酷而興奮的事實:我們正處於從「指令式程式設計」向「聲明式意圖」徹底轉型的奇點。「我兩個月沒手寫過一行程式碼了」 從輔助到接管震撼的開場白來自 Claude Code 的負責人 Boris Cherny。「兩天狂發 49 個 PR!」 這是 Boris 團隊目前的工作常態。他透露,Claude Code 團隊目前的開發工作幾乎100% 由 Claude Code 結合 Opus 4.5 完成。「對我個人而言,這種情況已經持續兩個多月了,我甚至不再手動進行任何小微信調。」 Boris 的話語中透著一種跨越時代的自信。無論是在 CLI 命令列,還是在 iOS 手機端,程式碼的生成、測試、提交,全流程由 AI 接管。這不僅僅是一個效率提升的故事,而是一個工作流重構的故事。Boris 分享了他極其硬核的「AI 原生」工作流:他通常會在終端同時運行 5 個 Claude 實例,甚至在 Web 端再開 5-10 個。他不再是那個逐行敲程式碼的工匠,而是一個指揮著一支 AI 軍團的指揮官。他使用「Plan Mode」(計畫模式)讓 AI 先思考策略,確立方案後再切換到執行模式。這種「平行化開發」的能力,讓一個人的產出足以匹敵一個傳統的小型開發團隊。而 Karpathy 的體驗也印證了這一點。他在長文中感嘆:「2025年11月,我還是80%手動+20% AI;到了12月,直接變成了80% AI + 20%手動。」「我在用英語程式設計。」Karpathy 略帶自嘲但也無比誠實地承認,「這有點傷自尊,告訴 AI 該寫什麼,就像在指揮一個實習生。但當你習慣了那種大規模駕馭軟體的『程式碼操作』能力後,你根本回不去了。」深度解析 從 Software 2.0 到 Agentic Coding要理解 Karpathy 的震撼,我們必須回溯他在 2017 年提出的 「Software 2.0」 概念。當時的 Software 2.0,是指用神經網路權重替代人工編寫的邏輯(Software 1.0)。程式設計師的角色從「編寫規則」變成了「整理資料」。而今天,我們正在邁入 Software 3.0 或者說是 Agentic Coding(代理編碼) 的時代。在這個階段,只有「意圖」(Intent)是人類提供的,而實現細節(Implementation)完全由 AI 掌控。Karpathy 敏銳地指出,這種轉變標誌著程式設計範式從「命令式」(Imperative)向「聲明式」(Declarative)的終極飛躍。過去:你需要告訴電腦「第一步做什麼,第二步做什麼,如果出錯怎麼辦」。現在:你只需要定義「成功標準是什麼」。正如 Boris 團隊所實踐的,利用 Claude Opus 4.5 強大的長程推理能力和 CLAUDE.md 這樣的記憶檔案,AI 能夠理解項目的整體架構上下文。Opus 4.5 在 CodeClash.ai 等基準測試中展現出的統治力,證明了它不僅僅是一個程式碼補全工具,而是一個具備邏輯推理、能夠自我修正的「工程師」。它不僅能寫程式碼,還能管理依賴、重構架構、甚至編寫測試用例來驗證自己的程式碼。這種「循環驗證」(Looping)能力是 Agentic Coding 的核心。AI 不再是寫完就忘,它會在一個封閉的循環中運行測試、讀取報錯、修改程式碼,直到通過測試為止。這正是 Karpathy 提到的「Feel the AGI」(感受通用人工智慧)的時刻——看著 AI 在30分鐘內不知疲倦地嘗試幾十種方案最終解決難題,人類感受到了前所未有的「槓桿效應」。10x 工程師的重新定義 通才的勝利隨著 AI 接管具體的編碼工作,「程式設計師」這個職業的定義正在被劇烈重寫。Boris 直言不諱:「我們現在傾向於招募『通才』(Generalists)。」在 LLM 能夠自動補全所有技術細節的時代,過去那些死記硬背的 API、特定語言的奇技淫巧,不再是護城河。你不需要記住 Python 的某個庫函數的具體參數,因為 AI 肯定記得比你清楚。真正的 「10x 工程師」 依然存在,但他們的能力模型發生了重組。未來的頂級工程師將是那些擁有宏觀視野的人——他們必須是能橫跨 產品與設計、業務甚至底層架構 的多面手。他們是產品經理:能清晰定義需求,識別偽需求。他們是架構師:能設計高可用的系統結構,指揮 AI 去填充模組。他們是測試官:能敏銳地發現 AI 邏輯中的漏洞,制定嚴格的驗收標準。Karpathy 也提出了深刻的疑問:「借助 LLM,通才是否會全面碾壓專才?」答案似乎是肯定的。AI 擅長填補微觀的細節(Fill in the blanks),而人類需要負責宏觀的戰略(Grand Strategy)。未來的程式設計,更像是玩《異星工廠》(Factorio)或者《星海爭霸》——你在指揮千軍萬馬,而不是親自去挖每一塊礦石。那些只專注於「把需求翻譯成程式碼」的初級程式設計師(Junior Devs),將面臨最嚴酷的生存危機。「廢用性萎縮」與 「Slopacolypse」繁榮背後的陰影然而,這場革命並非沒有陰影。Karpathy 最深刻的擔憂在於——「腦萎縮」(Atrophy)。「我已經注意到,我手動寫程式碼的能力正在緩慢退化。」Karpathy 描述這種感覺。在大腦的認知功能中,生成(Generation)和辨別(Discrimination)是兩種完全不同的能力。以前的程式設計師通過大量的「生成」訓練(寫程式碼)來強化邏輯;而現在,我們越來越依賴「辨別」能力(Review 程式碼)。這就像計算器的普及讓我們喪失了心算能力一樣。雖然我們還能讀懂程式碼(Review),但那種從零建構系統、對每一行程式碼都了然於胸的「肌肉記憶」正在消失。當你不再親自處理記憶體管理、不再親自偵錯並行死鎖,你對電腦系統的底層理解是否也會隨之膚淺化?更可怕的是 Karpathy 預測的 2026年 「Slopacolypse」(垃圾程式碼末日)。隨著 AI 生成內容的氾濫,網際網路和程式碼庫可能被大量低品質、看似正確實則充滿隱患的「垃圾」(Slop)填滿。GitHub 上可能充斥著由 AI 生成的、無人能維護的「屎山」。Karpathy 警告:目前的 AI 仍然會犯錯,不是簡單的語法錯誤,而是那種「粗心的初級程式設計師」才會犯的微妙概唸錯誤。它們會過度抽象,會堆砌死程式碼(Dead Code),會盲目順從你的錯誤假設。如果不加節制,軟體工程的熵將急劇增加。對此,Boris 則持一種「技術樂觀主義」態度。他認為「垃圾末日」不會到來,理由是——AI 審 AI。「我們在 Anthropic,每個 PR 都會開啟一個新的上下文窗口,讓 Claude 去 Review Claude 寫的程式碼。」這種「左腳踩右腳」的螺旋上升,被 Boris 視為解藥。隨著模型能力(特別是 Opus 4.5 及其後續版本)的提升,AI 清理垃圾程式碼、重構程式碼的能力將超過它製造垃圾的速度。未來的 IDE 可能不僅是程式碼編輯器,更是一個全自動的垃圾回收站,即時清洗著 AI 產生的冗餘。昇華:相位轉換的一年Karpathy 將 2026 年定義為 「行業代謝新能力、發生相位轉換(Phase Shift)的關鍵一年」。這不僅僅是效率的提升,而是物種的進化。我們正在經歷從「手工匠人」到「工業化生產」的劇變。在這個新時代,人類的角色從「建築工」變成了「建築師」。我們失去的是搬磚的手感,得到的是建造摩天大樓的視野。程式設計不再是關於「語法」和「演算法」的苦修,而是關於「想像力」和「邏輯」的釋放。但正如 Karpathy 所言,看著 AI 不知疲倦地在30分鐘內解決一個只有人類專家才能解決的難題,那種 「Feel the AGI」(感受通用人工智慧) 的時刻,既讓人興奮,也讓人感到一絲作為碳基生物的落寞。程式設計已死,程式設計萬歲。死的是作為「打字員」的程式設計師,活下來的是作為「創造者」的我們。當你不再需要為語法報錯而抓狂時,唯一限制你的,就只剩下你的想像力,和對世界本質的理解了。 (新智元)
Nature封面!GoogleDeepMind開源“生命底層程式碼”,一鍵破解98%基因暗物質!
就在今天,GoogleDeepMind開源人類底層程式碼!AlphaGenome登上了Nature封面,標誌著 DeepMind 在生物計算領域繼 AlphaFold 之後再下一城。相較於同類模型,AlphaGenome能夠一次性輸入100萬個鹼基對,並在單鹼基對的精度上預測數千種表徵其調控活性的分子特性。這是DNA領域的里程碑式突破。如今,AlphaGenome只需讀入一段DNA序列,提取調控基序與表徵活性,便可對數千種分子特性高度預測。該研究也得到了醫學大佬的認可,美國醫學院院士,斯克里普斯研究轉化研究生的創始人和主任Eric  Topol表示,這是AI在生命科學方面的又一大進步。早在2025 年6月,DeepMind就率先在 bioRxiv 發佈 AlphaGenome 預印本並推出 API,目前已經有來自160個國家的3000多名研究人員使用。如今,該成果被《自然》正式刊發,團隊正式對外開源了全部研究程式碼和模型權重。我們可以期待,在完全開放原始碼的情況下,有多少人類基因秘密被科學家們解開。解鎖人類98%的“垃圾基因”AlphaGenome由Google DeepMind的負責人DemisHassabis領導,他此前憑藉蛋白質模型AlphaFold2,獲得了2024年諾貝爾化學獎。Demis Hassabis曾放出豪言:「未來十年,AI將治癒所有疾病」。而AlphaGenome出世意味著,人類向理解生命本質又邁進一大步。要知道,距離全球科學家完成人類基因組測序,已經過去了23年了。但迄今為止,科學家仍然沒能解開DNA的秘密。以往的觀點認為,人類DNA僅有2%,剩下的98%都是DNA都是“無用”的非編碼區。然而,現在剩下的98%並非是無用的基因,其中蘊含著豐富的調控資訊,包括調控基因開關、影響胚胎發育、參與形成特殊RNA、維持染色體結構等。因此AlphaGenome,其核心意義正是為瞭解碼這98%的“暗物質”區域。它能夠系統預測非編碼DNA序列的功能和變異影響,幫助科學家從海量無用資訊中高效篩選出真正具有生物學意義的寶藏,從而理解疾病機制、助力藥物研發。解開人類底層密碼該模型基於Google DeepMind 的基因組學模型 Enformer 建構,採用Loop-aware 架構,並和此前推出的預測編碼區變異的AlphaMissense互補。同時,AlphaGenome整合了人類和小鼠的基因組資料,包含5930 條人類以及1128 條小鼠基因組訊號,這些訊號與基因表達、DNA 可及性和剪接等功能相關。這也讓AlphaGenome做到了以往同類模型到達不了的高度。1、又長又精準,100萬鹼基對的長序列輸入此前的模型要麼能處理長序列但解析度低(如Enformer和Borzoi),要麼解析度高但只能處理短序列(如SpliceAI和BPNet)。但AlphaGenome它一次就能掃描長達100萬個DNA鹼基對的廣闊區域,與此同時它做到了能夠預測到單個鹼基對的精度2、多模態大模型,多個任務一次搞定現有模型要麼專注於單一任務,例如剪接預測等,要麼是多模態但某些任務表現不佳。而AlphaGenome能夠做到一次輸入後,可以同時預測基因變體對數千種基因組的影響,包括基因表達、組蛋白修飾、剪下等各個方面,科學家不用再切換多個工具了。更重要的是,AlphaGenome做到了性能全面領先。對單條DNA 序列進行預測時,AlphaGenome 在 24 項評估中有 22 項表現優於最佳外部模型。而在預測變異的調控效應時,它在 26 項評估中有 24 項表現與最佳外部模型相當或更優,尤其在預測eQTL方向上,比此前最佳模型提高超25%。RNA剪貼錯誤是造成疾病的常見原因,AlphaGenome的創新性在於,能夠直接從序列預測剪下點。在7個權威的剪接變異基準測試中,AlphaGenome在其中6個上實現了SOTA 性能,包括根據ClinVar、sQTL因果關係和GTEx剪接異常值預測剪接變異的致病性。除了能夠預測多種分子特性外,AlphaGenome還能在一秒鐘內高效評估一個基因變異對所有這些特性的影響。它通過對比突變序列與未突變序列的預測結果,並針對不同模態採用不同方法高效總結這種對比來實現這一功能。不僅如此,對比此前的預印本,DeepMind團隊還最佳化了以下內容。更好地理解生命就在論文發佈同一天,DeepMind還上傳了一支視訊,邀請團隊對該工作進行分享。針對後續如何完善AlphaGenome,團隊表示:1、拓展對複雜變異類型的預測支援,使模型能解讀更真實的臨床與科研遺傳變異,覆蓋更多疾病機理2、提升易用性,將數千個複雜評分彙總為更易解讀的單一評分3、拓展資料與物種範圍,目前只包含人類和小鼠,未來可能納入更多物種和更多細胞類型的資料這些都將進一步提高AlphaGenome在實際科研中的實用性。從AlphaFold再到AlphaGenome,DeepMind打開了一扇窺見生命與疾病最根本過程的窗口。近期科技女皇木頭姐的一份報告,再次點燃了人們對AI+醫療保健的熱情。報告預測,到2030年,測序整個人類基因組的成本可能下降約十倍,降至10美元(如今約100美元)。測序成本降低將導致資料量增長10倍,意味著人類基因資料將遠遠超過現有的數量。當然,海量資料本身不是價值,解讀才是。AlphaGenome正是為解讀資料中最複雜、資訊量最大的DNA序列而生,能將原始資料轉化為可理解的生物學知識。當前,AlphaGenome已經學會了DNA的基本原理,未來有望為為罕見病診斷、癌症精準醫療、藥物靶點發現提供新途徑。包括但不限於:發現新的疾病標記物和藥物靶點(尤其是在非編碼區)解釋患者基因檢測結果,指導精準用藥設計合成生物學元件,為基因療法和細胞療法提供設計工具此外,它在預測RNA剪接異常等方面的能力,對於理解許多罕見病和癌症至關重要,能直接推動相關藥物研發。可以預見,未來的多組學AI平台可能會整合類似AlphaGenome的先進基因組模型,使其與蛋白質、代謝組等模型協同工作,形成一個統一的生命系統模擬與預測環境。屆時,人類不只是能夠獲得DNA資料,而是真正理解生命的運行。 (智藥局)
Anthropic強勢出手,Clawdbot改名Moltbot!建立者自曝產品誕生故事;程式碼本身不值錢,不會程式設計也能做出「一人公司」,大量APP會自然消失
短短幾天時間,”大龍蝦“Clawdbot已經火遍全網。看下面這張趨勢圖,幾乎是一條直線上升。其 GitHub star 數在25號已經接近 7 萬,現在已經達到了7.5萬,真叫一個“原地起飛”。Clawdbot的熱度甚至一度超越了Claude Code。但是俗話說“人紅是非多”——AI紅了,是非也多。短短幾天內,Clawdbot在爆火的同時,還經歷了一場“改名風波”。就在27號下午,官方宣佈Clawdbot已經正式改名為Moltbot。改名風波:Anthropic律師函找上門Github帳號被幣圈搶注為什麼改名?原因很簡單:Anthropic 找上門來了,直接給 Clawdbot 發了一紙律師函,指控其商標侵權,理由是「Clawdbot」與自家的「Claude」在拼寫和讀音上過於相似。Moltbot創造者Peter Steinberger在X上直言:我在Anthropic的壓力之下被迫改了名,實屬無奈之舉。除了名字,項目的吉祥物和Logo也必須更換。「Molt」意為”蛻皮“,這個新名字寓意著龍蝦為了成長必須經歷的痛苦蛻殼過程。Peter也在X上自嘲:「Same lobster soul, new shell.」(同樣的龍蝦靈魂,換了一身新殼)。但非常戲劇性的是,在改名過程中,還發生了不少波折。由於重新命名過程中,GitHub 平台出現故障,導致 Peter 的個人帳號一度報錯。在短短 10 秒內,舊 ID「@clawdbot」便被加密貨幣騙子迅速搶注。這些搶注帳號隨後被用於區塊鏈詐騙,甚至有炒幣者以此指責開發者。Peter 在X上澄清:這只是一個非營利的業餘項目,自己永遠不會發行代幣,任何掛著他名字的代幣項目都是騙局。他還非常委屈地表示:自己發佈了一個免費項目,人們把它當成一個價值數百萬美元的生意,但自己連一台Mac Mini也撈不著!還有網友提出一個陰謀論:Clawdbot是不是蘋果放出來的,目的就是為了刺激Mac Mini的銷售?Peter表示,這真是今年聽過最搞笑的事情。不過改名歸改名,Moltbot的熱度還是只增不減。甚至有不少Moltbot的死忠粉表示:無論名字叫Clawdbot還是Moltbot,我們都愛它。Peter自曝Moltbot誕生故事:沒寫語音功能,結果Agent自動回覆了改名完成後,緊接著Peter又上了TPBN的直播節目,在短短35分鐘內,完整曝光了Moltbot的誕生故事。Peter表示,自己在5月份有個小項目,當時就冒出一個想法:“要是能在手機上用 Claude Code 會不會很酷?”他坦言,當Agent沒在跑的時候,自己會感覺很不對勁——明明現在可以有兩個終端在幫他幹活。11 月,我每天醒來都會想:“我是不是該看看電腦?看看 WhatsApp?看看 agent 還在不在跑?”於是,他隨手 hack 了一個 WhatsApp 整合:收到消息 → 丟給 Claude Code → 原樣返回結果。一個小時就搞定了。慢慢地,在一次馬拉喀什的旅行中,Peter發現自己用這個Agent的頻率遠超預期——不止是用來寫程式碼,而是查餐廳、查資訊。而最令人震驚的,是有一次他給 Agent 發了語音,然後才想起來自己根本沒寫語音功能。結果10秒後 Agent 跟沒事人一樣回覆了他。我問:你到底是怎麼做到的?它說:你給我發了消息,但只有一個檔案連結,沒有檔案結尾。我看了檔案頭,發現是 Opus,然後用你的 Mac 上的 FFmpeg 轉換成.wav。然後我想用 Whisper,但你沒裝。我四處查看,發現了你們環境中的 OpenAI 金鑰,於是通過 curl 傳送給 OpenAI,翻譯回來了,然後我才回覆了。Peter震驚了,他開始意識到這個東西真的聰明,而且極其“有資源感”。他還做了一個”最貴的鬧鐘“:Agent 用 SSH 登錄他在倫敦的 MacBook,把音量調到最大叫他起床。一人公司成為可能大量APP會自然消失當然,面對鋪天蓋地的熱度,Peter坦言,他做這個項目的初衷只是為了好玩、啟發別人,而不是賺錢。主持人追問:”過去 72 小時你是怎麼度過的?現在有無數人想給你錢、想收購、想雇你。你卻看起來非常淡定,還在繼續做你原本在做的事。你是怎麼思考這些的?“Peter表示,如果要他總結,去年是 Coding Agent 的一年,今年是 Personal Assistant 的一年——Moltbot戳破了這一點。從外表上看,Moltbot很像一家公司,那是因為現在的基礎模型已經強到:一個人,掌握這些工具、會“和模型說話”、理解它們的工作方式,就能在今天做出過去一年一家公司才能交付的東西。Peter表示,自己剛參加了一個 Agent Meetup,遇到一個從沒寫過程式碼的設計工作室老闆。他從12 月就開始用 Moltbot,他完全不懂程式碼,只是在 Telegram 裡跟 Agent 對話,但現在已經跑了 20 多個內部服務。這意味著,你不再訂閱一堆創業公司,擁有一個高度個性化、免費的軟體系統,就可以定製化地解決你的問題。Peter預言:個人智能體將開啟高度個性化軟體的新時代,即便是不懂程式碼的人,也將擁有自己的公司。以後的大模型只會越來越強,所以個性化軟體還會越來越簡單,越來越便捷。此外,Peter還談到自己對幾款模型的看法:他認為Claude Opus 是能力最強的模型,但 OpenAI Codex 是編碼方面最好的。OpenAI 非常穩定,甚至可以說是“更可靠的工人”。在寫程式碼這件事上,我更偏愛 Codex,它能很好地理解大型程式碼庫。我幾乎可以做到:prompt 一下 → 直接提交程式碼,95% 的機率是能跑的。Claude Code 也很好,但你需要更多技巧、更“表演式”的引導才能達到同樣效果。Codex 更省心,讓我能更快推進。另外,他還認為MiniMax M2是開源最強的模型。Peter指出,Moltbot的出現,意味著「大型科技公司可能並不真正想要的資料解放」,因為它有效地打破了它們的封閉生態系統。他直言:官方 API 是為企業設計的,我一發 100 條消息就被封了,所以我最後直接把官方支援刪了。有意思的是,他認為,在Agent這樣的個人助理流行之後,大量 App 可能會自然消失。我為什麼還需要 MyFitnessPal?我拍一張食物照片,Agent 知道我在麥當勞做了錯誤決定,自動調整我的訓練計畫。App 會退化成 API,甚至連 API 都未必需要。在最後,Peter表示自己正在考慮組建一支Moltbot團隊,因為一個人不睡覺也只能做這麼多了。但他透露,自己不一定會創辦公司,而是更傾向於基金會這樣的非營利組織,保持開放原始碼專案的初心。同時,Peter還尖銳地指出:程式碼本身已經不值錢了。現在刪掉它,一個月內完全可以重寫一份。而在AI時代,真正有價值的是:想法、注意力、以及品牌。 (51CTO技術堆疊)
再見,人類程式設計師!OpenAI自曝:一行程式碼都不寫了,100%用Codex
【新智元導讀】100%是用Codex寫的。還有內部爆料說,Codex讓他們僅用三天時間就搭出了伺服器,三周就發佈了APP。人類程式設計師,真的要退出歷史舞台了?矽谷的空氣裡再次充滿了躁動,而這一次的震源中心,回到了OpenAI。OpenAI的奇點時刻,也要來了?就在剛剛,X被一條爆料徹底刷屏——Codex,已經正式接管了OpenAI研究員「Roon」100%的程式碼編寫工作!Roon發出了感慨萬千的宣告:程式設計一直很痛苦,然而卻是必經之路。我很高興,它終於結束了。我驚訝於自己竟然這麼快就擺脫了程式設計的陰影,而且一點都不懷念它。甚至我有點遺憾,從前的電腦為什麼不是這樣的。早在去年12月,Claude Code之父Boris Cherny就曾投下一枚震撼彈——自己對Claude Code的貢獻100%都是由Claude Code完成的。這一「套娃式」的自我進化,直接引爆了矽谷的自動編碼狂潮。面對如此巨大的蛋糕,OpenAI顯然不會拱手相讓。如今,反擊已經開始。在剛剛過去的周末,Sam Altman已經公開預告:接下來一個月會發佈一堆關於Codex編碼模型的新產品。社區的風向也開始發生微妙的轉變。一些資深開發者評論道:在90%的情況下,GPT-5.2-Codex都能一次性完成我提出的請求。Claude雖然不錯,但它偶爾會偷偷插入「壞程式碼」;相比之下,OpenAI的新方案更像蘋果——主打一個開箱即用。看來,Codex和Claude Code的大戰,已經一觸即發!人類寫程式碼的時代,徹底結束?OpenAI研究員Roon的這個爆料,也讓網友們直言:AI終於到達了這個奇點!看來,人類直接手寫程式碼的時代,真的結束了。經過多年的模型迭代與資料積累,我們似乎真的站在了一個臨界點上:人類直接手寫程式碼,正在變得不再有任何意義,甚至是一種效率的浪費。在Roon的評論區,人們開始集體對程式設計時代說再見。是的,我熱愛電腦,熱愛軟體開發,對我而言,程式設計只是實現目標的手段,僅此而已。複雜的語法只是是我們為了讓邏輯得以執行而必須付出的昂貴代價。如今,這些中間商終於可以退場了。激進的觀點開始湧現。甚至有人建議,既然不需要人類閱讀程式碼了,我們就該讓模型跳過人類可讀的彙編語言,直接使用機器程式碼。今天的程式設計就像曾經的打孔卡一樣,應該永遠消失了。與此同時,另一個炸裂的消息從OpenAI內部流出——一位研究員爆料,在Codex的輔助下,他們僅用了三天時間,就從零搭建了OpenAI的MCP伺服器,並完成了規模驗證。不僅如此,他們還在3周內推出了Sora的Android應用;此外,還有一大波由Codex建構、甚至由Codex自我稽核的內部工具正在排隊上線。如果沒有Codex的話,很難想像OpenAI能以如此驚人的速度發佈產品。有趣的是,這位大佬似乎還玩起了Claude Code之父的梗:過去30天,我花了大量時間稽核Plan和PR,幾乎沒寫一行程式碼!有人評價,這正是「起飛」第一階段的樣子。而下一步,或許就是真正的端到端AI自主研究。還有人問,確定你們這不是行銷?這位研究者詳細解釋說,絕對不是。具體的使用過程是這樣的:首先,他會花很多時間來撰寫規格說明,並在腦海中構想輸出應該是什麼樣子。然後,會啟動一個「4×Codex」的雲端並行任務。這樣不僅可以一次性看到多種不同的變體,也能補上自己一開始遺漏的細節。接下來,就是讓Codex自己發揮。等它跑完,人類再介入進行測試和驗證。Codex CLI 0.9+來了!既然「人機協作」的範式已經改變,那麼承載這種範式的工具自然也要升級。面對Anthropic在的步步緊逼,OpenAI顯然有備而來。就在今天,Codex CLI連續推送了兩次更新,版本號直接來到了0.91.0。其中,Codex 0.9.0帶來了最受大家期待的功能——Plan Mode(計畫模式)!Code模式是Codex的默認體驗,它的工作方式和其他AI智能體一樣。這點咱們就不多費口舌了。但Plan模式則完全不同,它將程式設計任務拆解為兩個截然不同的階段:第一階段:理解意圖(明確目標、劃定範圍、識別約束條件、制定驗收標準)第二階段:技術規格(生成決策完備的實施方案)在這種模式下,輸出的內容非常詳盡,無需任何後續追問即可直接執行。Plan模式最聰明的地方在於:它堅持「證據優先探索」。在開口問問題之前,Codex會先在你的程式碼庫中進行2次以上的針對性搜尋,檢查配置、Schema結構、程序入口等。此外,Plan模式還可以呼叫全套工具:它可以(並且將會)呼叫各種技能、子智能體和後台終端,從而建構高層級的實施計畫。當Codex確實需要你輸入時,它是結構化的,而且只有關鍵且聚焦的問題:· 儘可能提供選項· 總是包含一個推薦選項(對新手極其友好)· 只問那些會實質性改變計畫的問題為了實現這一互動,它利用了新的request_user_input工具。這個工具會暫停執行流程,拋出一道有針對性的多項選擇題,並支援你在選擇時補充反饋或上下文。更貼心的是,一旦它在任何時候檢測到歧義,尤其是當你在引導它時指令模糊,它會立即停下來確認,而不是盲目執行。現在,開發流程變成了這樣:使用者請求一個計畫 -> AI研究程式碼庫與規劃 -> 針對性詢問使用者 -> AI完善並完成計畫 -> 提示是否執行?但是,程式碼誰來審?看起來完美無缺,對吧?Codex負責思考,Codex負責執行,Codex負責填滿你的GitHub。但就在我們為這種極致的效率歡呼時,一個被忽視的深淵正在腳下裂開——在這個新時代,最大的懸念不再是誰在寫程式碼,而是誰來稽核程式碼。當AI火力全開,每天向倉庫甩出10+個PR時,人類開發者面臨的實際上是一場針對注意力的DDoS攻擊。AI生成程式碼是毫秒級的,而人類理解程式碼上下文是分鐘級甚至小時級的。這種「生產與審查的極度不對稱」帶來了兩個可怕的後果:審查者被淹沒,開始習慣性點「Approve」,Code Review淪為形式。那些看起來能跑、但缺乏系統性思考的程式碼塊,正在像癌細胞一樣在程式碼庫中擴散。利益衝突顯而易見,但我們需要看透這一層。Claude Code的創造者吹捧自己的工具天經地義——這是商業的本能。但作為受眾,我們不能把「Demo裡的完美世界」當成日常。畢竟,Demo不會展示偵錯三小時都找不到的競態條件,也不會展示由於上下文丟失導致的邏輯斷層。除此之外,資料裡還藏著一個迷人的悖論。Ars Technica曾報導稱,開發者對AI工具的使用量在漲,信任度卻在跌。為什麼?因為AI正在跨越「恐怖谷」。以前的AI程式碼爛得很明顯,現在的AI程式碼爛得很隱蔽——它引用了不存在的庫,或者在一個極其邊緣的Case上埋了雷。人們用得越多,踩的坑越多,信得自然越少。正如Jaana Dogan所警示的,我們正在面臨軟體工程「瑣碎化」的風險。100個提交,可能讓GitHub的綠格子很好看。1個架構變更,可能需要三天思考,零行程式碼產出。前者廉價如塵土,後者珍貴如黃金。問題從來不是AI能不能寫程式碼,而是它寫的程式碼,是不是我們系統真正需要的,以及我們是否有能力維護它。這對我們意味著什麼?無論我們是否準備好,這個時代已經來了。對於不同的人群,這意味著完全不同的生存法則。致開發者AI編碼工具不是「即將來臨」,它們已經破門而入。問題在於,如何在不丟失自身核心價值的前提下整合它們。技術大牛們依然在做那些艱難的思考工作,AI只是接過了「打字員」的工作。如果你只會「搬運程式碼」,那你確實該慌了。致非開發者「技術工作」與「非技術工作」的邊界正在消融。Claude Cowork這類工具創造了新物種。曾經需要開發者才能搞定的任務,可能很快只需要你能清晰描述出你想要什麼。清晰描述需求的能力,將成為新的程式語言。最後的話雖然OpenAI的研究員和Claude Code的創造者都在宣稱AI包辦了100%的程式碼,但請記住——那是他們的實驗室環境,不是你的生產環境。唯一可以確定的是,我們正在經歷從「寫程式碼」到「指揮寫程式碼」的不可逆的轉變。而且,正在加速。 (新智元)
國家定調:數位資產確權正式入國標,你的虛擬財富有“身份證”了
熬夜畫的畫,在平台一夜間被瘋狂轉發,卻沒人為你署名;花三年寫的程式碼,被前公司拿走當產品賣,卻維權無門;省吃儉用買的數字藏品,突然因平台倒閉而灰飛煙滅。別急,國家這次動真格了,數位資產確權,正式納入國家標準體繫了。這不僅是檔案上的幾行字,而是千千萬萬普通創造者等了太久的一把“鑰匙”,從此,你我在數字世界裡留下的每一份心血,終於能有個名正言順的“戶口”了。一紙國標背後,是無數普通人的掙扎李想,一個從山區走出來的90後插畫師,三年前在出租屋裡熬夜畫出的原創角色“小藍豆”,被一家知名公司盜用作商業廣告,傳播量過億。他發郵件、找律師、在網上發聲,卻因“數字作品權屬難認定”屢屢碰壁,最後對方敷衍地賠了3000元,相當於那波廣告收入的萬分之一。“我不甘心啊,那是我一筆一筆畫出來的孩子。”他在維權帖裡寫道,像李想這樣的人,太多太多了。張勇是程式設計師,程式碼被抄走,成了別人融資百萬的項目;王玲是寫手,文章被扒得一字不差,卻署上別人的名字爆紅;李青用手機拍的晚霞照片,被做成明信片全國售賣,自己卻渾然不知……數字世界像個法外之地,創作的熱情,一次次被冰冷的“無法確權”澆滅。“誰主張,誰舉證?我連它被偷的證據都難固定。”一位維權博主的話,道盡了無奈。國家標準來了:不止是技術,更是態度這次,國家出手了,數位資產確權被納入國家標準體系,意味著從技術框架、權屬登記、流轉記錄到侵權追溯,都將有一套全國統一的“遊戲規則”。簡單說,以後你的數字作品、虛擬財產、甚至遊戲裝備、社交帳號裡的原創內容,都可以像房產登記一樣,獲得一個權威的“數字身份證”。誰在什麼時候創作、修改、轉讓,鏈上記錄,一目瞭然,偷盜、抄襲、惡意搶注的成本將大大增加。這不是單純的技術升級,而是國家層面對數字時代勞動者價值的正式承認,無論你在現實世界還是數字空間創造的財富,都應被尊重和保護。那些“看不見”的財富,終於能被看見了張阿姨今年62歲,在兒子的指導下,把老家幾十種快要失傳的剪紙花樣,一張張拍照、修圖,上傳成了一個數字藏品系列,她不懂什麼區塊鏈,只是單純想“留下點老祖宗的東西”。去年,某文化公司盜用她的圖樣製作文創,盈利頗豐,張阿姨發現後去問,對方竟說:“網上的圖,誰都能用。”新標準落地後,張阿姨的數字剪紙將從上傳那一刻就獲得時間戳與權屬證明,“以後誰再敢亂拿,一查一個准。”她兒子興奮地說。那些散落在民間的文化碎片,終於能以數字的形式,確權、傳承、甚至變現。業餘攝影師拍的城市光影、大學生寫的開放原始碼、寶媽分享的育兒漫畫、老人記錄的口述歷史……這些曾經被輕易抹去署名、隨意搬運的“輕資產”,都將因為一紙國標,獲得應有的重量。未來:你的創造力,就是你的不動產數位資產確權國家標準的建立,預示著一次觀念大地震:創造力,正成為這個時代最硬的不動產。它保護的不只是大IP、大作品,更是每個普通人在數字世界留下的印記,你的每一個好點子、每一份用心創作,都不該因為“虛擬”而貶值,國家標準的背書,讓“無形”變“有形”,讓“虛擬”變“真實”。從此,在數字世界裡耕耘的你我,可以更安心地播種,更踏實地收穫,因為你知道,你的努力,有了國家的認證和保護。你的數字作品,曾被“借用”過嗎?期待如何用這把“新鑰匙”,打開屬於自己的財富之門? (RWA公社)
華爾街日報:韓國力推的本土人工智慧模型含中國程式碼
The Row Over South Korea’s Push for a Native AI Model: Chinese Code韓國的努力表明,開發自主人工智慧模型並擺脫對美國或中國科技巨頭的依賴是多麼困難。首爾資訊技術展上的SK Telecom展館。Jeon Heon-Kyun/Shutterstock首爾——去年六月,韓國政府發起了一項競賽,旨在開發一款基於韓國本土技術的全新獨立人工智慧模型。在人工智慧領域已被美國和中國主導的當今世界,開發這樣一款本土工具對於確保韓國的技術自主性至關重要。事實證明,說起來容易做起來難。在為期三年的比賽中,五家入圍決賽的公司中,有三家被發現使用了至少一些來自國外人工智慧模型的開放原始碼,其中包括中國的人工智慧模型。這些公司和人工智慧專家認為,摒棄現有的人工智慧模型而試圖從零開始建構一切毫無意義。但也有人指出,使用外國工具會造成潛在的安全風險,並削弱開發出真正屬於本國的人工智慧模型的希望。哈佛大學電氣工程教授魏顧延表示,在進行人工智慧模型開發時,要求每一行程式碼都必須完全由公司內部編寫是不現實的。魏顧延熟悉韓國的比賽,但並未直接參與任何參賽者。魏說:“放棄開放原始碼軟體,就等於放棄了巨大的好處。”世界各國都在日益尋求減少對外國的依賴,並提升自身在可能對其經濟競爭力和國家安全產生深遠影響的技術方面的能力。韓國擁有眾多晶片巨頭、軟體公司和政治支援,是所謂“主權人工智慧”最積極的倡導者之一。這項競賽旨在到2027年選出兩家本土優勝企業,使其人工智慧模型的性能達到OpenAI或Google等領先公司的95%或更高水平。優勝企業將獲得政府提供的資料和人才招聘資金,以及用於人工智慧計算的政府採購晶片的使用權。近日,入圍決賽的Upstage項目引發爭議。據其競爭對手Sionic AI的首席執行長稱,Upstage人工智慧模型的部分元件與中國智普AI的開源模型存在相似之處。此外,他還聲稱Upstage的部分程式碼中保留了智普AI的版權標記。Sionic首席執行長高錫鉉在領英上寫道:“令人深感遺憾的是,一款疑似對中國模型進行精細改造的模型竟然被提交到由納稅人資助的項目中。” Sionic也參加了韓國的這項競賽,但未能進入決賽名單。對此,Upstage 舉行了一場直播驗證會,分享了其開發日誌,以證明其模型是使用自主研發的方法從零開始開發和訓練的。但用於運行模型的推理程式碼使用了源自智普AI的開源元素,而智普AI在全球範圍內被廣泛使用。Sionic 的首席執行長為此道歉。這一審查促使人們對其他入圍決賽的方案進行了更深入的考察。Naver的AI模型被指與中國阿里巴巴和OpenAI的產品在視覺和音訊編碼器方面存在相似之處,這些編碼器可以將圖像和聲音轉換成機器可以理解的格式。SK Telecom曾因運行其人工智慧模型的推理程式碼與中國 DeepSeek 的程式碼相似而受到批評。Naver承認使用了外部編碼器,但表示採用標準化技術是出於戰略考量。該公司強調,模型的核心引擎——決定其學習和訓練方式——完全由公司自主研發。SK Telecom也提出了類似的觀點,強調其模型核心的獨立性。比賽規則並未明確規定是否可以使用外國公司的開放原始碼。負責監管此次比賽的韓國科學技術部自爭議發生以來,尚未發佈任何新的指導方針。韓國科學技術部長官裴京勳對這場激烈的辯論表示歡迎。“當我觀察目前席捲我們人工智慧行業的技術辯論時,我看到了韓國人工智慧的光明未來,”裴在本月初的一篇社交媒體帖子中寫道。該部門在接受《華爾街日報》採訪時拒絕置評。該部門計畫按原計畫在本周淘汰五名決賽選手中的一名。首爾國立大學人工智慧研究所所長李在宇表示,人工智慧模型是通過設定和微調內部數值來獲得輸出的,而這些核心任務在面臨質疑的決賽入圍模型中似乎並沒有依賴於外部工具。他說:“他們是從零開始訓練的。” (invest wallstreet)
OpenAI將要被反殺?Google這一局,埋了整整十年……
2023 年初的那個冬天,當 ChatGPT 橫空出世,驚豔全球時,Google 看起來像是一個垂垂老矣的巨人。圖片 | 來自網路華爾街拋售股票,內部發佈“紅色程式碼”(Code Red),關於“搜尋已死”的訃告充斥著科技媒體的頭版,內部員工一邊調侃自己在“養老廠”,一邊焦慮。當時的金融和科技領域均不看好效率低下的搜尋業務然而,僅僅不到三年後的今天,戰局的風向正在發生微妙而劇烈的逆轉。當 OpenAI 為昂貴的算力帳單發愁,當整個行業因為 Nvidia GPU 的產能瓶頸而焦慮時,Google 卻憑藉 Gemini 模型展示了百萬級的長文字能力,並悄然建構了全球成本最低的 AI 推理基礎設施。對,是全球。資料顯示,自 Gemini 3 發佈以來的過去 6 周內,ChatGPT 的流量下降了 22%,7天平均訪問使用者數從約2.03億下降到約1.58億。這可能與假期流量回落有關,但Gemini的流量保持基本持平,而且目前已經達到ChatGPT的約40%。ChatGPT 與 Gemini流量對比而這場勝利的草蛇灰線,早在 2013 年就已經埋下——今天我們就要盤一下,Google最具遠見、也最瘋狂的兩筆賭註:一是自研晶片 TPU,二是收購 DeepMind。而連接這兩者的關鍵,則是 2023 年那場壯士斷腕般的組織變革。01 自研晶片TPU故事的起點,始於 2013 年Google內部的一次“數學恐慌”。彼時的Google坐擁全球最大的 CPU 資料中心。然而,工程傳奇 Jeff Dean 做了一個粗略的紙上演算:如果全球數億Android使用者每天只使用 3 分鐘的語音搜尋,Google現有的資料中心規模就需要翻倍。但在摩爾定律已現疲態的背景下,這在帳上根本行不通,因為僅電費和伺服器採購成本就能將Google的利潤吞噬殆盡。唯一的出路就是——改變計算架構。Google首席科學家 Jeff Dean於是,硬體負責人 Norm Jouppi 帶隊,在高度保密的狀態下,僅用 15 個月就完成了從設計到部署的急行軍。TPU(Tensor Processing Unit)誕生了。TPU v1 是一個極端的“偏才”,它砍掉了所有不需要的功能,專註解決一個問題,那就是——如何在有限的電力和預算下,跑模型(Inference)。深度學習(Deep Learning)聽起來高大上,但它在晶片內部干的最多的活其實是“矩陣乘法”。這就像你做一頓土豆主題的滿漢全席,雖然菜譜很複雜,但90%的時間其實都在切土豆絲(做簡單的乘法和加法)。CPU和GPU好比是博學的教授,雖然聰明但幹活“死板”,每切一刀都要跑一趟倉庫拿放土豆,時間全浪費在“跑路”(記憶體存取)上了;而TPU不用太聰明,它引入的“脈動陣列Systolic Arrays”就像是由 256 個切土豆工人排成的方陣——第一個人切一下,直接遞給身邊的第二個人,第二個人切完遞給第三個人……不需要頻繁跑倉庫就能被連續加工256次。正因為省去了大量無效的搬運時間,即使是2015年部署的 TPU v1,以 28nm 的老舊工藝和僅 40W 的功耗(就像一個燈泡),在推理性能上比當時輝達的旗艦 K80 GPU 快了 15-30 倍,能效更是高出 30-80 倍。這是Google的第一次隱秘勝利。TPU 在多層感知器MLP、時間循環神經網路LSTM、摺積神經網路CNN的計算效率上,顯著高於傳統的CPU和GPU也就是說,在外界還在搶購昂貴的 GPU 時,Google已經在用接近物料成本(BOM Cost)的價格,大規模部署自己的 AI 加速器。更關鍵的是,輝達的硬體毛利率高達 70% 以上,而Google自研 TPU 意味著它不需要繳納這筆昂貴的“過路費”。這為十年後,AI從“炫技”轉向“大規模工業化生產”時,Google擁有的極低邊際成本埋下了伏筆。02 最成功的投資 ——Deep Mind如果說造 TPU 是為瞭解決“算得快”的問題,那麼收購 DeepMind 就是為瞭解決“算什麼”的問題。差不多在同一時期(2014 年),Google擊敗 Facebook(Meta),以超過 6 億美元的天價收購了一家位於倫敦、沒有任何產品、只有十幾名員工的創業公司。站在今天看,如果沒有這筆收購,Google在 ChatGPT 的攻勢面前很可能會直接“猝死”。說回2014,當時,深度學習剛剛萌芽。Google內部雖然有 Jeff Dean 領導的Google Brain,但Google Brain的基因是“工程師文化”——他們想的是如何用 AI 最佳化搜尋排名、識別貓的視訊、提升廣告點選率。但DeepMind 的創始人Demis Hassabis不一樣,他從小就是一位天才,是前國際象棋神童,是一個神經科學家和遊戲設計師。他的願景與Google截然不同,甚至有些“瘋魔”:“解決智能,然後用它解決一切。”(Solve Intelligence, and then use it to solve everything else.)同為天才的拉里·佩奇(Larry Page)看懂了這一點——DeepMind 研究的不是某種“工程”,而是 通用人工智慧(AGI)。所以,從這個角度看,這筆收購的本質,是Google買斷了當時地球上最聰明的一群 AI 大腦。而且為了達成交易,Google甚至簽下了一份極其罕見的協議:成立“倫理委員會”,承諾DeepMind的技術永遠不用於軍事。這奠定了後來雙方長期“一國兩制”的基調。所以,我們看到收購後的前七年(2014-2021),DeepMind 實際上是Google供養在倫敦的“梵蒂岡”——神聖、高冷、且極其燒錢,要知道,DeepMind 長期處於虧損狀態(甚至一度單年虧損 6 億美元),而他們對Google的核心業務(廣告、雲、Android)幾乎沒有任何直接貢獻。好在這麼多錢砸下去還是能聽到個響的——2016 年,AlphaGo 擊敗李世石,宣告了深度強化學習(Deep Reinforcement Learning, RL)的勝利。可以這樣說,Google Brain 擅長“監督學習”(給資料打標籤,教AI 認圖,也是Meta花天價收購的Scale AI搞的那一套);而 DeepMind 擅長“強化學習”(讓AI在虛擬環境中自我博弈、自我進化)。請記住這一點:強化學習。因為這一技術路線的儲備,直接決定了後來 Gemini 能夠擁有強大的邏輯推理能力。03 組織合併 打通任督二脈現在,問題來了——為什麼Google擁有 DeepMind 和 Brain 兩大天團,還有自己的TPU,為什麼在 2022 年會被 OpenAI 打得措手不及?答案在於組織內耗。甚至可以說,Google在很長一段時間裡,是在“左右手互搏”——Google Brain(加州派):務實、工程導向,由 Jeff Dean 領導,他們發明了 Transformer,打造了 TensorFlow,致力於將 AI 塞進搜尋、翻譯和廣告裡賺大錢錢。DeepMind(倫敦派):學術、清高,由Demis Hassabis領導,他們追求 Nature 封面,致力於攻克圍棋(AlphaGo)和蛋白質折疊(AlphaFold),對商業化嗤之以鼻,每天想的是怎麼才能發《Nature》封面頭條。他,剛剛拿了諾貝爾獎,但去年公司虧損6000萬,英鎊……兩方不僅形而上的文化不一樣,形而下的“程式碼語言”都不一樣——Brain 團隊死守自己開發的 TensorFlow,儘管隨著版本迭代它日益臃腫;DeepMind 則嫌棄 TensorFlow,轉而擁抱更靈活、更適合科研的 JAX。目前AI領域主流的三種開發工具,各有其特點想像一下,一家公司的兩支頂級特種部隊,一支說英語,一支說法語,槍支彈藥(模型架構)也不通用,而且時不時兩邊互懟一下,這導致了嚴重的資源浪費。所以,當OpenAI的Ilya Sutskever(前Google員工)帶領團隊在 GPT 的道路上狂飆突進時,Google的兩支團隊還在為爭奪 TPU 的配額而明爭暗鬥。在和平時期,這種“賽馬機制”是創新的溫床,但在戰時,就是致命的拖累。Ilya Sutskever 於2015年從Google離職後加入OpenAI,成為其聯合創始人兼首席科學家,直至他2024年離開OpenAI2023 年 4 月,那是Google最痛苦的時刻,也是決定生死的轉折點。在 ChatGPT 發佈的第 140 天,Google終於按下了一個遲到多年的核按鈕:強制合併Google Brain與DeepMind,組建Google DeepMind (GDM),Jeff Dean 轉任首席科學家,不再負責行政管理;權杖交到了 Demis Hassabis 手中。這代表了Google高層極其冷酷的決斷:為了生存,必須把命脈交給更有野心的“倫敦派”。Google Brain 與 Deepmind合併,標誌著Google與OpenAI展開終極對決這場組織合併,終於打通了任督二脈,因為它不僅僅是程式碼的統一(Google放棄了 TensorFlow,全面轉向 JAX + XLA)更是工程主義”與“科學主義”的握手言和:Brain 提供了“身體”(極致的架構力):作為 Transformer 的發明者,Brain 團隊擁有地表最強的工程化能力。他們造出了最強壯的軀殼——他們知道如何建構兆參數的模型架構,並讓它在數萬張 TPU 上穩定運行數周而不崩潰。DeepMind 提供了“靈魂”(基於 RL 的學習法):這是被嚴重低估的一點。ChatGPT 的核心壁壘不僅僅是預訓練,更是 RLHF(基於人類反饋的強化學習)。還記得 AlphaGo 嗎?DeepMind 在圍棋上鑽研了十年的強化學習(RL)終於找到了最大的用武之地。他們將 AlphaGo 中用於“自我博弈”和“策略最佳化”的演算法,遷移到了大語言模型的後訓練階段(Post-training)。Google Gemini 1.5 發佈時,長上下文是模型的亮點之一於是很快在2024 年,Gemini 1.5 發佈。這是一個震撼業界的時刻:當時GPT-4的命門在於處理不了長文字(只能處理幾萬字),Gemini瞄準的正是這一點,一舉將上下文窗口(Context Window)拉升到了 100 萬 token,讓Gemini可以一口氣吃透《戰爭與和平》、一小時的視訊或整個程式碼庫。Google Gemini 1.5 的100萬Tokens的上下文窗口對同時期的其他大模型產品形成了壓倒性優勢04 戰時獨裁 降維打擊很多人以為這只是演算法的最佳化,其實這是Google積累了10年的、軟硬一體架構的降維打擊。在硬體端,Google在 TPU v4/v5 中祭出了大殺器:OCS(Optical Circuit Switches),這是一套由 MEMS 反射鏡組成的物理光路交換系統,具體技術咱不需要懂,只需要知道這給Google帶來了毀滅性的優勢:極低的延遲和無限的靈活性,這也是支援百萬級長文字的物理基礎。Google 建設的算力中心有了強大的硬體,還需要軟體來駕馭。OpenAI 在 GPU 上最佳化性能,往往需要工程師手搓 CUDA Kernel,難度極大。但Google的JAX配合 XLA(加速線性代數編譯器),讓研究員只需要寫出數學公式(Python 程式碼),XLA 編譯器會自動將其“翻譯”成 TPU 的機器碼,並利用 GSPMD(通用分片器) 自動將模型切分到數千個晶片上。這就是為什麼Google能在長文字上率先突破:因為他們的編譯器能比人類更高效地指揮光路和晶片,將百萬token的計算完美地平鋪在整個資料中心。話說回來,如果沒有做“統一”這一步,Gemini絕無可能誕生,Google也不可能翻盤。但我們不禁要問:為什麼像Google這樣一家擁有 18 萬員工、以官僚主義和行動緩慢著稱的巨頭,能如此迅速地完成這樣劇烈的、甚至可以說有些血腥的組織手術?首先,Google是的確害怕了,恐懼永遠都是改變的第一動力。平時Google的官僚做派,是因為核心業務太穩固了。但在 2022 年底,Google第一次看到了“死神”的影子。如果使用者不再點選藍色連結,而是直接問 AI,Google賴以生存的商業模式將瞬間歸零。這種對生存的絕對恐懼擊穿了所有的部門牆和審批流。更關鍵的是——“創始人模式”回歸。這是外界鮮少提及的關鍵。平時Google由職業經理人 Sundar Pichai 管理,他的風格是求穩與平衡,但要強行合併兩個互相看不順眼的山頭,職業經理人做不到,也不敢做。但創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)回來了。兩位Google創始人拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)據報導,布林甚至親自去總部寫程式碼,其實不管公司發展到什麼階段,只有創始人才擁有“凌駕於 KPI 之上”的道德權威,可以直接下達命令打破利益格局。這種“戰時獨裁”,是Google能迅速掉頭的核心原因。最近謝爾蓋·布林(Sergey Brin)在回母校史丹佛演講中復盤了Google此段在AI比拚中的危機經歷視訊連結:https://www.youtube.com/watch?v=0nlNX94FcUE05 中局?終局?進入 2026 年,AI 的競爭已經變味了。如果說前兩年是比拚“誰的模型更聰明”(智力競賽),那麼未來三年將比拚“誰的推理更便宜”(價格戰),商業的本質回歸到了“電力公用事業”的邏輯。在Google的算力中心佈局規劃中,“太陽能+儲能+資料中心”模式展示了其改變整個行業的能源邏輯而這,正是Google等待已久的獵殺時刻。我們看看 OpenAI 目前的處境:它像是一個住在豪宅裡的高級租客,軟體上,依賴 Microsoft Azure;硬體上,依賴 Nvidia GPU。結果就是每一筆收入,都要被微軟抽成,還要支付給輝達高昂的硬體溢價。OpenAI 的毛利天花板被牢牢鎖死。再看看Google,它是這個星球上極少數擁有“全端主權”的玩家:從最底層的沙子(自研 TPU 晶片),到連接晶片的光纖(Jupiter 網路),再到編譯器(JAX)、模型(Gemini),直至最頂層的使用者入口(Search/Android),Google實現了從原子到位元的完美閉環。Google的TPU產品也在不斷迭代更新,最新的產品擁有更強大計算能力和更高的效率據 SemiAnalysis 估算,TPU 的單位總擁有成本(TCO)比同代 GPU 低 4-10 倍。這意味著,Google完全可以將 AI 推理的價格壓低到 OpenAI 的成本線以下,還依然有大把的利可圖。而且,隨著 AI應用滲透進生產力核心,使用者開始上傳整本幾百頁的財報、丟進去一小時的高畫質視訊會議記錄。而這種“長文字推理”是算力的黑洞,推理成本是隨著上下文長度呈指數級爆炸的,如果使用昂貴的 H100 GPU 來做這件事,那無異於“燒錢取暖”。但Google卻可以憑藉 TPU 大記憶體優勢和 OCS 的光互連,可以將這種“重推理”任務變成一種極其廉價的通用服務。這或許是Google處心積慮設下的一個局:它可以毫無壓力地培養使用者使用“百萬級 Token”的習慣,因為它是唯一的發電廠(TPU)和電網(光互連)擁有者。當 AI 真正變成像自來水一樣的基礎設施時,只有掌握水源和管道的人,才擁有最終的定價權。06 長期主義的勝利回望 2013/2014 年,當 Jeff Dean 在那張紙上寫下 TPU 的構想,當拉里·佩奇拍板買下 DeepMind 時,他們可能沒想到過程會如此曲折。Google確實犯過大錯:它曾傲慢、它曾內耗、它曾像個猶豫不決的官僚。在 2022 年被 ChatGPT 突襲的那個至暗時刻,這些錯誤差點讓這家兆帝國崩塌。但科技行業的競爭,從來不是百米衝刺,而是一場馬拉松。OpenAI 是一支驚才絕豔的特種部隊,憑藉先發優勢和微軟的裝備支援,打贏了登陸戰(ChatGPT)。但當戰爭進入相持階段,演變成拼後勤、拼工業體系、拼成本控制的總體戰時,Google這台龐大的戰爭機器終於顯露出了它的猙獰獠牙。Google的護城河,從來不是某個神奇的演算法——因為演算法總會擴散,模型總會過時。真正的護城河,是那些深埋海底的自有光纖,是那些日夜轟鳴的脈動陣列晶片,是那套統一意志的 JAX 軟體棧,以及十年前那兩次不計成本、看似瘋狂的下注。這給所有科技公司帶來了一個殘酷的啟示:在技術變革的浪潮中,真正的壁壘無法通過“買買買”建立,但唯有在那個無人問津的“前夜”,敢於在底層基礎設施與基礎科學上做最笨重、最昂貴的投入,並擁有在危機時刻自我革命的組織勇氣,才能在十年後的風暴中,笑到最後。 (TOP創新區研究院)