#Claude
Claude Opus 4.6殺死程式設計比賽!挖出500個day0漏洞,生成k線成交量分佈,還有PPT直出
凌晨突襲,Opus 4.6多場景性能領先GPT-5.2。智東西2月6日報導,今天凌晨,Anthropic正式發佈旗艦模型Claude Opus 4.6,是Anthropic首款開啟100萬token上下文窗口測試功能的旗艦級模型。Opus 4.6具備更縝密的規劃能力,能維持更長時間的智能體任務執行,可以在龐大程式碼庫中穩定運行,並能夠進行自我糾錯。在基準測試中,Opus 4.6在智能體程式設計評估Terminal-Bench 2.0中獲得最高分,於綜合性多學科推理測試Humanity's Last Exam中也坐穩了第一名的寶座。針對金融、法律等經濟價值領域的GDPval-AA評估中,Opus 4.6也是第一,並較第二名的GPT-5.2拉開約144個Elo分差,較前代版本Claude Opus 4.5提升了190分。就在Opus 4.6發佈後幾分鐘,OpenAI把GPT-5.3-Codex也搬了出來“正面硬剛”。截至台北時間2月6日11點,X平台上有關“Claude VS Codex”的話題下已有4.1萬條討論。Varick Agent的CEO“vas”發帖稱:“Claude 4.6 Opus僅用一次呼叫就重構了我的整個程式碼庫。25次工具呼叫,新增3000多行程式碼,建立了12個全新檔案。它模組化了所有內容,拆解了單體架構,理順了混亂的邏輯。結果沒一個能運行,但重構後的程式碼,實在是美得驚人。”有網友展示出他用Opus 4.6一次性做出的k線成交量分佈表。評論區紛紛感嘆:這要是真的,那一切都結束了。在話題討論中,有不少網友都自發測評了Opus 4.6與GPT-5.3 Codex這兩款模型,還曬出了測試Agent在複雜現實世界任務中的表現的Terminal-Bench,結果顯示GPT-5.3 Codex比Opus 4.6領先了11.9%。在網友的測評中,在程式設計方面GPT-5.3 Codex獲得的好評似乎更多。有網友發出對比:“Opus 4.6有100萬上下文+企業/知識工作+發現500個零日漏洞+Claude程式碼中的Agent叢集-基準測試成績不如Codex 5.3;而gpt-5.3-codex有程式碼基準測試勝出+速度更快+任務中轉向,但上下文窗口不到Opus的一半。”還有網友放出了更直觀的性能對比圖:價格上,在200K上下文以內(包括200K),Opus 4.6輸入每百萬token的價格為5美元(約合人民幣34.69元),輸出每百萬token的價格為25美元(約合人民幣173.45元);超過200K上下文,Opus 4.6輸入每百萬token的價格為10美元(約合人民幣69.38元),輸出每百萬token的價格為37.5美元(約合人民幣260.18元)。此外,Anthropic還將向Pro與Max使用者限時贈送價值50美元(約合人民幣346.9元)的額外使用額度,不適用於Team版、企業版及API/控制台使用者。使用額外額度的使用者需同時滿足以下兩個條件:1、已於2026年2月4日(太平洋時間)晚11:59前開通Pro或Max訂閱;2、在2026年2月16日(太平洋時間)晚11:59前啟用額外用量功能。Claude Opus 4.6即日起在claude.ai官網、API介面及所有主流雲平台同步上線。開發者可通過Claude API呼叫claude-opus-4-6模型。01. “大海撈針”測試得分76% 緩解“上下文衰減”問題在多語言程式設計測試SWE-bench Multilingual中,Opus 4.6的成績較Opus 4.5提升1.6分;在網路安全漏洞復現測試CyberGym中,Opus 4.6獲得66.6分,較Opus 4.5提升15.6分,是Sonnet 4.5分數的兩倍多。Opus 4.6在長文字連貫性測試Vending-Bench 2中以 8017.59 的分數大幅領先,在計算生物學BioPipelineBench測試中也以53.1分的成績位居第一。Opus 4.6在從海量文件中檢索相關資訊方面能力較上一代有所提升。這一優勢延伸至長上下文任務,它能在處理數十萬token時更穩定地保持和追蹤資訊,減少資訊漂移,並能捕捉到可能遺漏的深層細節。Anthropic團隊在部落格中稱,使用者常抱怨AI模型存在“上下文衰減”問題——即對話超過一定token數量後性能會下降。對此,研究團隊對Opus 4.6進行了MRCR v2的“8針-100萬”變體測試,這是類似於一種在浩瀚文字中檢索隱藏資訊的“大海撈針”式基準測試。在這個測試中Opus 4.6得分達76%,而Sonnet 4.5僅得18.5%。Opus 4.6的綜合基準測試如下圖所示。總而言之,Opus 4.6在長上下文中尋找資訊更精準,吸收資訊後的推理能力更強。02. 行為失范率極低 新增六類網路安全探測工具智能水平的飛躍並未以犧牲安全性為代價。在Anthropic的自動化行為審計中,Opus 4.6的行為失范率極低,行為失范包括欺騙、奉承、助長使用者妄想以及配合濫用等情形。其安全對齊程度與前代旗艦模型,即迄今為止對齊度最高的Claude Opus 4.5保持同等水準。值得注意的是,Opus 4.6在所有近期Claude模型中展現出最低的過度拒絕率,即模型未能回應良性查詢的情況。在部落格中,Anthropic團隊透露,針對Opus 4.6,他們開展了迄今最全面的安全評估體系,首次應用多項全新測試方法並對既有評估方案進行升級。Anthropic團隊新增了使用者福祉評估、更複雜的危險請求拒答能力測試,並更新了模型隱蔽執行有害行為的評估標準。同時,其運用可解釋性科學的新方法進行實驗,開始探究模型特定行為背後的成因,以期發現標準測試可能遺漏的問題。針對Opus 4.6在特定領域可能被危險利用的突出能力,研究團隊同步部署了新的防護機制。尤其鑑於該模型顯著增強的網路安全能力,他們開發了6種新型網路安全探測工具以幫助追蹤不同形式的潛在濫用行為。同時,Anthropic也在加速推進Opus 4.6在網路防禦領域的應用,通過其協助發現並修復開放原始碼軟體漏洞。他們認為網路防禦者利用Claude這類AI模型來平衡攻防態勢至關重要。網路安全領域發展迅速,Anthropic將根據對潛在威脅的認知持續調整和更新防護措施,近期其可能啟動即時干預機制以阻斷濫用行為。03. API新增自適應思考功能 Claude Code現可多智能體平行通過API介面,開發者們還可以獲取到更精細的模型算力控制方案,並為長期運行的智能體任務帶來更高靈活性。具體新增以下功能:1、自適應思考:此前開發者僅能在啟用或停用深度思考模式間二選一。現在通過自適應思考功能,Claude可自主判斷何時需要深度推理。在默認算力等級(高)下,模型會在必要時啟動深度思考,開發者也可通過調整算力等級來改變其觸發頻率。2、算力調控:現提供四個可調節的算力等級:低、中、高(默認)、極致。3、上下文壓縮(測試版):長程對話與智能體任務常觸及上下文窗口限制。當對話接近可配置閾值時,上下文壓縮功能將自動總結並替換早期對話內容,使Claude能夠執行更長任務而不受限制。4、100萬token上下文(測試版):當提示內容超過20萬token時,將適用高級定價。5、128k輸出token:Opus 4.6支援最高128k token的輸出長度,使Claude能完整處理需要大規模輸出的任務,無需拆分為多次請求。6、美國境內推理:對於需要在美國境內運行的工作負載,可選擇美國專屬推理服務,定價為標準token費用的1.1倍。在Claude與Claude Code平台,Anthropic新增了多項功能:Claude Code中新增智能體團隊的研究預覽功能。現在使用者可以啟動多個平行工作的智能體,它們將自主協同配合,特別適用於程式碼庫審查這類可拆分為獨立、重讀取的子任務。在與常用辦公工具的協作體驗方面,Claude Excel整合版現在能夠處理長時程與高難度任務,支援先規劃後執行、自主解析非結構化資料並推斷正確格式,還能單次完成多步驟修改。Excel整合版還能搭配PowerPoint整合版使用,使用者可先在Excel中處理並結構化資料,再通過PowerPoint實現可視化呈現。PowerPoint整合功能現已面向Max、Team及企業版使用者開放研究預覽。04. 放手兩千次會話 智能體團隊“煉”出十萬行C編譯器Anthropic官方還給出了一個開發者使用平行Claude智能體團隊建構C語言編譯器的案例。在這個案例中,開發者指派Opus 4.6率領智能體團隊建構一個C語言編譯器,隨後便基本放手任其運行,僅用兩周,就完成了一個小團隊一個月的工作。在為期兩周、近2000次Claude Code會話中,Opus 4.6消耗了20億個輸入token並生成1.4億個輸出token,總成本略低於2萬美元(約合人民幣13.88萬元),這個成本僅相當於開發者個人獨立完成所需投入的零頭。最終Opus 4.6做出了一個有著10萬行程式碼規模的編譯器,並且是淨室實現,即開發全程Claude無網路存取權,僅依賴Rust標準庫。這個編譯器能在x86、ARM和RISC-V架構上建構可啟動的Linux 6.9核心,還能編譯QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型項目。該編譯器在包括GCC torture測試套件在內的大多數編譯器測試中達到99%通過率,甚至通過了編譯器、作業系統等底層技術的 “終極測試”:成功編譯並運行第一人稱射擊遊戲《Doom》。經過多輪實踐,開發者總結出了協調多個Claude高效協作的四大核心方法:1、改進測試框架:在項目後期,Claude每次實現新功能時都會頻繁破壞現有功能。為此開發者建構了持續整合流水線,實施更嚴格的檢查機制,讓Claude能更好地測試自身工作,確保新提交不會破壞現有程式碼。2、站在Claude的視角設計適配環境:每個智能體都啟動於無上下文的新容器中,會花費大量時間自我定位,尤其在大型項目中。甚至在運行測試前,為幫助Claude自助,開發者需要在說明中要求維護詳細的README文件和進度檔案,並需頻繁更新當前狀態。3、簡化平行機制:當存在多個獨立失敗的測試時,平行化輕而易舉,但當智能體開始編譯Linux核心時卻陷入困境。與包含數百個獨立測試的套件不同,編譯Linux核心是單項巨型任務,所有智能體都會遇到相同的bug,修復後卻互相覆蓋修改,運行16個智能體也不行,因為它們都卡在解決同一問題上。為此,開發者編寫了新測試框架,將GCC作為線上驗證編譯器進行比對。這讓每個智能體都能平行工作,在不同檔案中修復不同bug,直至Claude的編譯器最終能編譯所有檔案。4、多元智能體角色分工:LLM編寫的程式碼常重複實現現有功能,因此開發者指派了一個智能體專門合併發現的重複程式碼。另一個負責最佳化編譯器本身的性能,第三個則專攻輸出高效的編譯程式碼,還讓一個智能體以Rust開發者視角批判項目設計並進行結構性改進,另設智能體專注文件工作。開發者稱,該成果已經逼近Opus的能力邊界,但仍有需要提升的方面:1、16位x86編譯器缺失:缺乏從真實模式啟動Linux必需的16位x86編譯器,該環節需呼叫GCC(x86_32和x86_64編譯器為自主實現);2、彙編器與連結器不完善:這兩部分是Claude最後開始自動化的模組,目前仍存在較多缺陷。演示視訊中使用的是GCC彙編器與連結器;3、相容性未達全替代標準:雖能成功建構眾多項目,但尚不能完全替代真實編譯器;4、程式碼生成效率偏低:即使啟用所有最佳化選項,其輸出程式碼效率仍低於停用最佳化的GCC;5、Rust程式碼質量有限:程式碼質量尚可,但遠未達到專業Rust程式設計師的水準。05. 結語:Anthropic在安全性上下了狠功夫Opus 4.6在長上下文理解、複雜推理與智能體協作等方面的性能提升,為企業級高密度、長周期任務提供了新的解決方案。同時,在Anthropic的部落格中,他們用了很大篇幅來寫新模型的安全性。Anthropic通過增強安全評估體系與部署主動防護機制,展現出對AI風險治理的前置性投入。 (智東西)
ChatGPT 和 Claude 同時大更新,不會給 AI 當老闆的打工人要被淘汰
OpenAI 和 Anthropic 像約好了一樣,同時甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。如果說昨晚之前,我們還在討論怎麼寫好 Prompt 輔助工作;那麼今天過後,我們可能需要學會如何作為老闆去管理 AI 員工。AI 造 AI,順便接管你的電腦就在昨天,Sam Altman 剛在 X 平台上凡爾賽了一把 Codex 的「百萬活躍使用者」里程碑。短短一天後,OpenAI 再次乘勝追擊,扔出王炸——GPT-5.3-Codex。技術文件裡藏著一句極具份量的話:「這是我們第一個在創造自己的過程中,發揮了關鍵作用的模型。」說人話就是:AI 已經學會了自己寫程式碼、自己找 Bug,甚至開始自己訓練下一代的 AI 了。這種自我進化能力,也直接體現在了一連串跑分資料上。還記得那個模擬人類操作電腦的 OSWorld-Verified 基準測試嗎?前代模型只有 38.2% 的精準率,連及格線都夠不上。但這次,GPT-5.3-Codex 直接跳漲到了 64.7%。要知道,人類的平均水平也就 72%。這意味著,AI 距離像你一樣熟練地甩滑鼠、切屏、操作軟體,只剩下一層窗戶紙的距離。而在 Terminal-Bench 2.0(命令列操作基準測試)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)遠遠甩在身後。在覆蓋四種程式語言,不僅抗污染,還全是真實世界的硬核工程難題的 SWE-Bench Pro 基準測試中,GPT-5.3-Codex 也表現出了 SOTA 水準,而且用的 Token 比以往任何模型都少。OpenAI 甚至展示了它獨立建構的能力:在幾天內,它從零建構了一款包含多張地圖的賽車遊戲 v2,順手還搞定了一款管理氧氣系統的深海潛水遊戲。最讓我印象深刻的是 GPT-5.3-Codex 對模糊意圖的理解。在建構落地頁時,它自動把年度計畫換算成了打折後的月付價格,甚至還貼心地自動補充了使用者評價輪播——這一切,都不需要你下指令。OpenAI 的野心已經寫在臉上了:以前微軟常說 AI 將會成為人類的副駕駛(Copilot),但現在 AI 更想做那個能掌控方向盤、甚至能自己修車的司機。對了,還有一個有趣的細節。此前外界盛傳 OpenAI 對輝達的 AI 晶片頗有微詞,但這次官方部落格特地強調:GPT-5.3-Codex 的設計、訓練和部署都在 NVIDIA GB200 NVL72 系統上完成。這一波高情商的「感謝輝達」,屬實是給足了黃仁勳面子。告別「金魚記憶」Claude 迎來絕地反擊在 GPT-5.3-Codex 發佈的前後腳,Anthropic 也端出了自己的春節大禮包。壞消息是,大家期待的 Claude「中杯」Sonnet 模型沒有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。相比於 OpenAI 在行動力上的激進,Anthropic 今天發佈的 Claude Opus 4.6 則是在思考力和可靠性上死磕。很多企業使用者都有一個名為 Context Rot(上下文腐蝕)的痛點:號稱支援 200k 上下文,但塞進去的資料一多,AI 就開始顧頭不顧尾。這次,Claude Opus 4.6 拿出的資料簡直是「降維打擊」。在 MRCR v2(長文字大海撈針)測試中,Claude Opus 4.6 的召回率高達 76%。作為對比,上一代 Sonnet 4.5 隻有慘不忍睹的 18.5%。從某種程度上說,這是一個從基本不可用到高可靠的質變。這是因為 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。這意味著什麼?意味著你可以把幾百頁的財報、幾十萬字的程式碼庫直接扔給它,它不僅能讀完,還能精準地告訴你第 342 頁尾注裡的那個數字有問題。此外,它現在還支援最高 128k 的輸出 Token。什麼概念?你可以讓它一次性寫完長篇研報或複雜的程式碼庫,而不用因為字數限制被迫截斷。除了記性好,Opus 4.6 這次還在智商上實現了碾壓:在 GDPval-AA(一項針對金融、法律等高經濟價值任務的評估)中,Opus 4.6 的 Elo 得分比業界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。在複雜的多學科推理測試 Humanity's Last Exam 中,它領先所有前沿模型。在測試尋找網際網路「難找資訊」能力的 BrowseComp 中,它同樣表現最優。通過這些資料,Anthropic 似乎在傳遞一個訊號:如果你要寫程式碼,去隔壁找 OpenAI;如果你要處理複雜的商業決策、法律文書或金融分析,Claude 才是唯一的選擇。更讓打工人眼前一亮的是它的生產力功能。一方面,Anthropic 這回直接把 Claude 塞進了 Excel 和 PowerPoint。它能根據 Excel 資料直接生成 PPT,不僅保留排版風格,連字型和範本都能對齊。在 Claude Cowork 協作環境中,它甚至能進行自主多工處理。另一方面,Anthropic 順勢在 Claude Code 中推出了實驗性的 Agent Teams 功能,讓普通開發者也能體驗這種「指揮千軍萬馬」的感覺:角色分工:你可以指定一個 Claude Session 擔任 Team Lead(組長),它不干髒活累活,專門負責拆解任務、分配工單、合併程式碼;其他的 Session 則是隊友(Teammates),各自領任務去幹。獨立作戰:每個隊友都有獨立的上下文窗口(不用擔心 Token 爆炸),它們甚至能背著你互相發消息(Inter-agent messaging),討論技術細節,最後只把結果匯報給組長。平行賽馬:這東西有什麼用?想像一下查一個頑固 Bug,你可以生成 5 個 Agent,分別驗證 5 種不同的假設,像「賽馬」一樣平行排雷;或者在 Code Review 時,讓一個隊友扮「安全專家」查漏洞,一個扮「架構師」看性能,互不干擾。為了展示 Opus 4.6 的極限,Anthropic 的研究員 Nicholas Carlini 搞了個瘋狂的實驗:Agent Teams(智能體團隊)。他沒有親自寫程式碼,而是扔了 2 萬美元 的 API 額度,讓 16 個 Claude Opus 4.6 組成一個「全自動軟體開發團隊」。結果在短短兩周內,這群 AI 自主進行了 2000 多個程式設計會話,從零手寫了一個 10 萬行程式碼的 C 語言編譯器(基於 Rust)。這個 AI 寫的編譯器,還成功編譯了 Linux 6.9 核心(涵蓋 x86、ARM 和 RISC-V 架構),甚至跑通了 Doom 遊戲。雖然它還不夠完美(比如生成的程式碼效率不如 GCC),但這個案例也表明我們不再是和 AI 一起程式設計,而是看著一個 AI 團隊自主協作、查錯、推進項目。此外,它還學會了 Adaptive Thinking(自適應推理),能根據難度自己決定「想多久」。加上新增的「智能強度」控制,你可以在 Low 到 Max 四檔之間切換。定價方面,Anthropic 這次很良心,維持在每百萬 Token $5/$25 的基礎定價。看來是為了搶佔企業級市場,鐵了心要和 OpenAI 捲到底。一個是激進天才,一個是靠譜老牛知名 AI 評測人 Dan Shipper 在第一時間搞了個「盲測」(Vibe Check),他的評價非常精準:Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。它像是一個才華橫溢但偶爾跳脫的天才。在測試中,它直接解決了一個讓 iOS 團隊卡了兩個月的功能難題;在 LFG Benchmark 中拿到了 9.25/10 的高分。但它偶爾也會「過度自信」,一本正經地胡說八道。如果你需要突破性的靈感,選它。GPT-5.3-Codex 則是「高可靠,低方差」(High Reliability, Low Variance)。它像是一個經驗豐富、絕不掉鏈子的資深工程師。推理速度提升 25%,幾乎不犯低級錯誤,穩健得讓人心安。雖然在創造性任務上略遜一籌(LFG 得分 7.5/10),但在日常的 Coding 和維運任務中,它是最高效的老黃牛。當然,比起選擇那款模型,更重要的是,當 ChatGPT 可以自主修 Bug 甚至操作你的終端,當 Claude 可以一次性吞吐海量文件並精準定位細節時,Prompt Engineering(提示詞工程)的重要性正在下降,而 Agent Management(智能體管理)的能力開始浮出水面。我們不再需要像教小學生一樣,把指令拆解得碎碎念。相反,我們需要做的,是學會如何以管理者的身份,去定義目標、稽核結果、以及決定在什麼時候,把什麼任務交給那位 AI 員工。這就是 2026 年的新職場。你的團隊裡混入了一群矽基天才,而你是唯一的碳基老闆。 (APPSO)
兆市值一夜蒸發!Claude Cowork血洗全球軟體業,老黃急了
又崩了!矽谷軟體巨頭短短一夜,蒸發3000億美金,過去一周全球近兆美金沒了。令人想不到的是,罪魁禍首竟是Anthropic推出的一款外掛。瞳孔地震!一夜之間,全球軟體股集體跳水,蒸發3000億美金。如今,整個矽谷都在說:軟體(SaaS)已死!起因竟是,Anthropic為Claude Cowork植入「外掛」(plugins)功能。僅憑一己之力,凌遲老牌巨頭公司。注意!這還不是「新模型」,僅是11款「新外掛」。它們直接統領了財務、銷售、法律各行各業,不用巢狀在軟體中運行,AI直接把軟體取而代之。這是破天荒第一次,一家做底層模型的AI公司,把「應用層」直接端掉,並接管整條業務工作流。現如今,整個華爾街陷入恐慌,宣稱「SaaS末日」(SaaSpocalypse)真正來臨。摩根大通發文稱:Anthropic正在吞噬整個世界,讓Saas商業模式崩塌,且無處可藏!美股方面,周三開盤不久後,甲骨文重挫4.2%。隨之,其他軟體巨頭也紛紛走低:Adobe下跌 2.6%,Salesforce跌3.3%,Atlassian跌3%......僅在當地時間周二交易中,短短24小時,軟體、法律科技、資料服務公司市值蒸發了約2850-3000億美元。路透稱,自1月28以來,軟體和服務的股價蒸發近8300億美元。令人細思極恐的是,這還僅是11款外掛「研究預覽版」而已,就把AI自動化根基,扎到各行各業。不得不說,活在這個時代真是瘋狂!一位大佬銳評,「市場終於從冰冷數學邏輯中驚醒:如果模型能直接交付成果,傳統的軟體外殼將毫無價值」。模型即員工,軟體即泡沫,Anthropic的轉身宣告了一個時代的終結。還有很多人表示,這只是歷史的插曲,未來不可想像。Claude外掛接管一切軟體時代已死話又說回來,Anthropic發佈的Cowork「外掛」有何魔力,竟引發全球軟體股票的恐慌?這一切,還得回到1月29日,一場沒有掀起什麼大浪的「小更新」。Claude Cowork這款生產力辦公神器,自誕生之後一夜成為當紅炸子雞,各家公司都在紛紛效仿。上周末,Cowork終於迎來了史詩級更新:新增11款外掛。可別小看這個小更新,11款外掛一口氣覆蓋了銷售、財務、法律、資料、市場行銷等多個領域。在官網介紹中,Anthropic是這麼描述其能力的:你可以將各種技能、連接器、斜槓命令和子智能體(sub-agents)整合在一起,讓Claude變身為精通崗位、團隊和公司業務的「特種兵」。以「銷售外掛」為例:它可以將Claude接入個人CRM和知識庫,學習銷售流程。從此,從調研潛在客戶到會後跟進,人類都能通過指令輕鬆完成。外掛配置只需「一次性」搞定,之後每當涉及相關任務,Claude都會自動呼叫背景資訊。眾所周知,Claude Cowork是「非程式碼版的Claude Code」。實際上,Claude Code也是軟體巨頭市值慘跌的「罪魁禍首」之一。其強大的程式設計能力,攪動甚至顛覆了編碼底層邏輯。它們的出現,釋放了一個強烈的訊號,大模型正在殺入所謂的「應用層」。市場分析認為,Anthropic策略已發生轉變:單純提供API(工具)→「即插即用」工作流。當Claude Cowork能自主讀取/組織檔案,並完成端到端法律合同審查,它就不再是SaaS軟體的「助手」,真正進化為SaaS的「替代者」。因此,全球軟體行業正經歷一場極其慘烈的「信仰地震」!矽谷「信仰」崩塌,LLM殺入了應用層實際上,美股軟體暴跌「非一日之寒」,從去年開始就已經有了一系列跡象。只不過,Anthropic這次更新,成為了最大「導火索」,直接在傳統軟體賴以生存的領地插旗。這種降維打擊,讓投資者想起了當年的亞馬遜——從賣書起家,最終顛覆了零售、雲服務和物流等多個行業。統計顯示,過去一個月,標普北美軟體指數下跌了18%,跌至2025年4月以來最低水平。短短5個交易日內,標普500軟體服務指數暴跌近 13%,市值縮水之快,甚至讓剛剛創下歷史新高的標普500大盤都黯然失色。這場風暴不僅席捲了華爾街,也波及了亞洲、歐洲。就連輝達CEO老黃緊急發聲:有這樣一種觀點認為,軟體行業的工具正在衰落,並將被AI取代……這是世界上最不合邏輯的事情,時間會證明一切。確實,時間會證明一切。短短一周,上兆美金沒了想像一下,你是某家財富500強公司的法務總監。周一早上7點,你打開信箱,本該是焦慮的一天——上周遺留的千頁併購合同還等著人工審計,涉及上百個非標條款、續約日期、交叉違約條件。但今時不同以往。Claude Cowork的法律Agent外掛已經連夜登錄了你們的法律資料庫,自主完成了實體關係對應,提取了所有關鍵日期,識別出三處潛在風險條款,並生成了完整的合規報告,連PDF都自動排版好了。你盯著螢幕,咖啡涼了也沒察覺:它不需要你點任何按鈕,它直接「做了」。這不是科幻。這是2026年2月3日的現實。對於法律科技行業來說,這雖然不是1929年的「大蕭條」,但情況也絕對不妙。湯森路透市值蒸發了約15%。律商聯訊的母公司下跌了約14%。電子簽名冠軍DocuSign跌了11%。一年來,法律科技公司一直在炒作智能體AI是未來,但沒有拿出太多實質成果。現在,一家基礎模型公司發佈了一款智能體法律工具,市場突然意識到,法律AI「大眾化」可能將法律科技的客戶群「大眾化」到消失的地步。這直接引爆了美股軟體股集體下跌——Gartner暴跌21%,Thomson Reuters跌18%,ServiceNow跌11%,Salesforce一度熔斷。納指100兩天跌掉5500億美元市值,是去年10月以來的最慘紀錄。這波「軟體股大屠殺」從2月3日開始,一路蔓延到2月4日,交易員們已經給它起了個新名字:「SaaSpocalypse」——SaaS世界末日。而且這種拋售潮擴大到了更大的市場。由於市場擔憂私募信貸股票對「受AI衝擊的軟體公司的風險敞口」,相關個股大幅下跌。Blue Owl、TPG、Ares Management和KKR均下跌超10%。Apollo下跌 7%,貝萊德(BlackRock)下跌5%。iShares軟體ETF今年已下跌20%,創三年最大單日跌幅。整個軟體類股像被抽走了氧氣。市場恐慌情緒,在全球蔓延。歐洲廣告巨頭WPP、Omnicom、Publicis集體下挫10%以上,歐洲股市蒸發了3000億美元。英國原本被視為AI贏家的Relx(擁有LexisNexis)重挫14.4%,倫敦證交所集團(LSEG)下跌 12.8%,創五年最差單日表現。廣告巨頭WPP和Omnicom也因擔心行銷工作被自動化而大跌。印度IT巨頭如TCS、Infosys正面臨3000億美元營收風險 ,一天蒸發19.1兆盧布,約2010億美元。勞動力成本套利似乎正在消失,160萬印度IT從業者受影響,而Anthropic僅有2500名員工。現在市場還有誰在談AI泡沫?Anthropic這只AI蝴蝶扇了一下翅膀,全球股市狂風暴雨、令人膽寒──它這次沒有賣模型,賣的是「IT行業的死亡判決書」。全球SaaS浩劫,都是AI干的微軟、Salesforce、Adobe,個個是SaaS翹楚。2023年全球光在雲端SaaS上的花銷就超過了4000億美元。但現在,這套模式正面臨生成式AI的猛烈衝擊。警告其實早就有了:AI工具,尤其是那些能自動執行任務的AI智能體,可能會讓很多SaaS軟體變得「沒必要」。而Anthropic發佈的Cowork外掛,是壓垮駱駝的最後一根稻草。傳統SaaS的護城河建立在三個支柱上:按席位(Per-Seat)收費——人越多,錢越多;使用者必須適配複雜的UI/UX;功能越全、越封閉,壁壘越高。但Claude Cowork把這一切都踩碎了。現在是AaaS(Agent as a Service)的時代:收費模式 → 按產出(Per-Outcome)計費;互動邏輯 → 零UI,AI在後台直接操作;系統價值 → 介面越開放,存活機率越高。毀滅的邏輯極其簡單:一個Claude智能體,能幹掉10個初級會計或法務助理的工作量。一家公司原本需要購買100個Salesforce或Zendesk席位,現在只需要10個Claude就夠了。席位費是SaaS公司的命根子,而AI正在用手術刀精準切斷它。於是,那些SaaS被「判死刑」——DocuSign暴跌,因為Claude能自己讀懂合同並操作簽署流;Zendesk崩盤,因為AI客服已達到95%人類水平;HubSpot下挫,因為AI現在能自動撰寫、傳送、跟蹤行銷郵件,甚至自創策略。你是否還願意為一個漂亮的UI付費,當AI可以在後台直接完成一切?新的共識浮現:(軟體)服務經濟正面臨緩慢卻不可避免的消亡。隨著AI、自主機器人及其與物理世界的融合,將高端服務商品化,「人工包裝」的軟體曾經享有的溢價正在迅速蒸發。更殘酷的是二階打擊。軟體公司是雲服務商最大的客戶群。當軟體公司被AI顛覆,雲巨頭也難逃干系:  Oracle跌3.4%,Microsoft跌2.9%,輝達跌2.8%。AMD季度營收超預期、給出98億美元強勁指引,盤後股價卻跌了5–8%——因為資料中心對記憶體的瘋狂需求正在把成本推到天上,利潤率被活活吃掉。誇大了嗎?AI殺死SaaS,市場對此並不完全認同。Wolfe Research(沃爾夫研究) 最新報告直言,「SaaS之死被誇大了」。一場網路研討會,他們得出的核心觀點是:AI不會把SaaS一刀殺死。因為很多SaaS賣的不是「軟體程式碼」,而是穩定的業務流程能力/營運交付(可靠性、安全、整合等),AI更可能擴大市場,不會單純蠶食SaaS。另一篇來自WSJ報導,是這麼說的:AI殺不死軟體行業,只會終結它的增長神話。大企業會用那種「氛圍編碼APP」(vibe-coded apps)來取代高度複雜的軟體平台,未免有些異想天開。這些平台承載著發工資、IT 管理等核心業務,需要極深的行業知識,絕非敲幾行程式碼那麼簡單。當然,一些網友同樣認為,SaaS消亡確實被過分誇大了。前比爾·蓋茲的技術助理、Office團隊成員及負責人Steven Sinofsky直言:軟體已死。軟體純遊戲的概念將消失在某個語言模型中。胡說八道。奇點已至,人類開始交接權利歷史上,市場對軟體行業的悲觀情緒不是沒出現過。當年「移動網際網路」火起來時,曾有一堆人預測微軟會完蛋——誰還在用PC,大家都去刷手機了。但過去十年,微軟股價漲了近800%。彭博分析師Rana也說:「這在軟體行業其實挺常見的。真出事的時候,很多公司也無能為力。」但這不是一次簡單的股災,這是人類經濟史上最大的價值轉移——從「碳基大腦」向「矽基智能」的暴力交接。GoogleGenie公開發佈一周內遊戲股暴跌15%;視訊模型如Veo3、Higgsfield取代人類創作者,迫使SAG工會為AI影響者徵稅捐助人類演員基金;財富500強企業取消數百萬美元軟體合同,轉用AI智能體平台;OpenAI和Anthropic與科研機構合作,推出健康功能自動化醫療、製藥、研究等兆市場;GPT-5.2和Gemini解決數學難題,質疑數學學位價值。誰還能否認AI沒有經濟效益?誰能想到AI會這麼快就幹掉整個行業?但這甚至還不是最瘋狂的部分。但這還不是最瘋狂的,OpenAI Codex負責人直言:「Codex現在能自我建構,我們只需監督。」Anthropic團隊也對Claude表達了相同觀點:它能自我改進。我們已進入AI不僅顛覆人類行業、甚至開始自動化自身迭代的階段。我們已經跨過了那道隱形的門檻——AI不再只是顛覆人類的行業,它開始自動化自身的迭代。人類與人工認知的加速融合,最終將歸結為一個冷酷的方程式:算力 × 能源 × 矽片。在未來的歷史書中,這可能只是短短的一行字:「Anthropic發佈Claude Cowork與Claude Code,標誌著腦力勞動自動化的奇點來臨。」 (新智元)
程式設計已死,鍵盤長草!Claude Code之父對談Kaparthy,全程爆金句
【新智元導讀】Andrej Karpathy與Claude Code負責人Boris Cherny展開了一場關於程式設計未來的終極對談。面對AI接管100%程式碼編寫的現狀,Karpathy坦言人類正處於「腦萎縮」與能力進化的十字路口。本文深度解析了從Software 2.0到Agentic Coding的範式轉移,揭示了在Opus 4.5等強力模型加持下,程式設計師如何從「搬磚工」進化為「指揮官」,以及不僅要面對效率的飛躍,更要警惕「垃圾程式碼末日」的隱憂。2026年的開篇,科技圈被一場關於「程式設計本質」的深度對話引爆。這場對話的雙方,一位是特斯拉前AI總監、OpenAI創始成員 Andrej Karpathy,他是「Software 2.0」概念的提出者,一直站在程式設計範式轉移的最前沿;另一位是 Claude Code 的締造者、Anthropic 的核心人物 Boris Cherny,他正在親手打造終結傳統程式設計的工具。他們的討論不僅僅是關於工具的迭代,更像是一場關於人類技能邊界的哲學思辨。當程式碼不再由人類一個個字元敲擊而出,我們究竟是在進化,還是在退化?這場對話揭示了一個殘酷而興奮的事實:我們正處於從「指令式程式設計」向「聲明式意圖」徹底轉型的奇點。「我兩個月沒手寫過一行程式碼了」 從輔助到接管震撼的開場白來自 Claude Code 的負責人 Boris Cherny。「兩天狂發 49 個 PR!」 這是 Boris 團隊目前的工作常態。他透露,Claude Code 團隊目前的開發工作幾乎100% 由 Claude Code 結合 Opus 4.5 完成。「對我個人而言,這種情況已經持續兩個多月了,我甚至不再手動進行任何小微信調。」 Boris 的話語中透著一種跨越時代的自信。無論是在 CLI 命令列,還是在 iOS 手機端,程式碼的生成、測試、提交,全流程由 AI 接管。這不僅僅是一個效率提升的故事,而是一個工作流重構的故事。Boris 分享了他極其硬核的「AI 原生」工作流:他通常會在終端同時運行 5 個 Claude 實例,甚至在 Web 端再開 5-10 個。他不再是那個逐行敲程式碼的工匠,而是一個指揮著一支 AI 軍團的指揮官。他使用「Plan Mode」(計畫模式)讓 AI 先思考策略,確立方案後再切換到執行模式。這種「平行化開發」的能力,讓一個人的產出足以匹敵一個傳統的小型開發團隊。而 Karpathy 的體驗也印證了這一點。他在長文中感嘆:「2025年11月,我還是80%手動+20% AI;到了12月,直接變成了80% AI + 20%手動。」「我在用英語程式設計。」Karpathy 略帶自嘲但也無比誠實地承認,「這有點傷自尊,告訴 AI 該寫什麼,就像在指揮一個實習生。但當你習慣了那種大規模駕馭軟體的『程式碼操作』能力後,你根本回不去了。」深度解析 從 Software 2.0 到 Agentic Coding要理解 Karpathy 的震撼,我們必須回溯他在 2017 年提出的 「Software 2.0」 概念。當時的 Software 2.0,是指用神經網路權重替代人工編寫的邏輯(Software 1.0)。程式設計師的角色從「編寫規則」變成了「整理資料」。而今天,我們正在邁入 Software 3.0 或者說是 Agentic Coding(代理編碼) 的時代。在這個階段,只有「意圖」(Intent)是人類提供的,而實現細節(Implementation)完全由 AI 掌控。Karpathy 敏銳地指出,這種轉變標誌著程式設計範式從「命令式」(Imperative)向「聲明式」(Declarative)的終極飛躍。過去:你需要告訴電腦「第一步做什麼,第二步做什麼,如果出錯怎麼辦」。現在:你只需要定義「成功標準是什麼」。正如 Boris 團隊所實踐的,利用 Claude Opus 4.5 強大的長程推理能力和 CLAUDE.md 這樣的記憶檔案,AI 能夠理解項目的整體架構上下文。Opus 4.5 在 CodeClash.ai 等基準測試中展現出的統治力,證明了它不僅僅是一個程式碼補全工具,而是一個具備邏輯推理、能夠自我修正的「工程師」。它不僅能寫程式碼,還能管理依賴、重構架構、甚至編寫測試用例來驗證自己的程式碼。這種「循環驗證」(Looping)能力是 Agentic Coding 的核心。AI 不再是寫完就忘,它會在一個封閉的循環中運行測試、讀取報錯、修改程式碼,直到通過測試為止。這正是 Karpathy 提到的「Feel the AGI」(感受通用人工智慧)的時刻——看著 AI 在30分鐘內不知疲倦地嘗試幾十種方案最終解決難題,人類感受到了前所未有的「槓桿效應」。10x 工程師的重新定義 通才的勝利隨著 AI 接管具體的編碼工作,「程式設計師」這個職業的定義正在被劇烈重寫。Boris 直言不諱:「我們現在傾向於招募『通才』(Generalists)。」在 LLM 能夠自動補全所有技術細節的時代,過去那些死記硬背的 API、特定語言的奇技淫巧,不再是護城河。你不需要記住 Python 的某個庫函數的具體參數,因為 AI 肯定記得比你清楚。真正的 「10x 工程師」 依然存在,但他們的能力模型發生了重組。未來的頂級工程師將是那些擁有宏觀視野的人——他們必須是能橫跨 產品與設計、業務甚至底層架構 的多面手。他們是產品經理:能清晰定義需求,識別偽需求。他們是架構師:能設計高可用的系統結構,指揮 AI 去填充模組。他們是測試官:能敏銳地發現 AI 邏輯中的漏洞,制定嚴格的驗收標準。Karpathy 也提出了深刻的疑問:「借助 LLM,通才是否會全面碾壓專才?」答案似乎是肯定的。AI 擅長填補微觀的細節(Fill in the blanks),而人類需要負責宏觀的戰略(Grand Strategy)。未來的程式設計,更像是玩《異星工廠》(Factorio)或者《星海爭霸》——你在指揮千軍萬馬,而不是親自去挖每一塊礦石。那些只專注於「把需求翻譯成程式碼」的初級程式設計師(Junior Devs),將面臨最嚴酷的生存危機。「廢用性萎縮」與 「Slopacolypse」繁榮背後的陰影然而,這場革命並非沒有陰影。Karpathy 最深刻的擔憂在於——「腦萎縮」(Atrophy)。「我已經注意到,我手動寫程式碼的能力正在緩慢退化。」Karpathy 描述這種感覺。在大腦的認知功能中,生成(Generation)和辨別(Discrimination)是兩種完全不同的能力。以前的程式設計師通過大量的「生成」訓練(寫程式碼)來強化邏輯;而現在,我們越來越依賴「辨別」能力(Review 程式碼)。這就像計算器的普及讓我們喪失了心算能力一樣。雖然我們還能讀懂程式碼(Review),但那種從零建構系統、對每一行程式碼都了然於胸的「肌肉記憶」正在消失。當你不再親自處理記憶體管理、不再親自偵錯並行死鎖,你對電腦系統的底層理解是否也會隨之膚淺化?更可怕的是 Karpathy 預測的 2026年 「Slopacolypse」(垃圾程式碼末日)。隨著 AI 生成內容的氾濫,網際網路和程式碼庫可能被大量低品質、看似正確實則充滿隱患的「垃圾」(Slop)填滿。GitHub 上可能充斥著由 AI 生成的、無人能維護的「屎山」。Karpathy 警告:目前的 AI 仍然會犯錯,不是簡單的語法錯誤,而是那種「粗心的初級程式設計師」才會犯的微妙概唸錯誤。它們會過度抽象,會堆砌死程式碼(Dead Code),會盲目順從你的錯誤假設。如果不加節制,軟體工程的熵將急劇增加。對此,Boris 則持一種「技術樂觀主義」態度。他認為「垃圾末日」不會到來,理由是——AI 審 AI。「我們在 Anthropic,每個 PR 都會開啟一個新的上下文窗口,讓 Claude 去 Review Claude 寫的程式碼。」這種「左腳踩右腳」的螺旋上升,被 Boris 視為解藥。隨著模型能力(特別是 Opus 4.5 及其後續版本)的提升,AI 清理垃圾程式碼、重構程式碼的能力將超過它製造垃圾的速度。未來的 IDE 可能不僅是程式碼編輯器,更是一個全自動的垃圾回收站,即時清洗著 AI 產生的冗餘。昇華:相位轉換的一年Karpathy 將 2026 年定義為 「行業代謝新能力、發生相位轉換(Phase Shift)的關鍵一年」。這不僅僅是效率的提升,而是物種的進化。我們正在經歷從「手工匠人」到「工業化生產」的劇變。在這個新時代,人類的角色從「建築工」變成了「建築師」。我們失去的是搬磚的手感,得到的是建造摩天大樓的視野。程式設計不再是關於「語法」和「演算法」的苦修,而是關於「想像力」和「邏輯」的釋放。但正如 Karpathy 所言,看著 AI 不知疲倦地在30分鐘內解決一個只有人類專家才能解決的難題,那種 「Feel the AGI」(感受通用人工智慧) 的時刻,既讓人興奮,也讓人感到一絲作為碳基生物的落寞。程式設計已死,程式設計萬歲。死的是作為「打字員」的程式設計師,活下來的是作為「創造者」的我們。當你不再需要為語法報錯而抓狂時,唯一限制你的,就只剩下你的想像力,和對世界本質的理解了。 (新智元)
中國國產Claude Cowork來了!阿里祭出首個桌面Agent,打工人徹底解放
【新智元導讀】不用羨慕歪果仁了!國產版Claude Cowork重磅出世,阿里把Agent搬進了每個人的桌面。一句話,讓AI完成複雜任務,堪稱打工人效率神器。2026年的科技圈開年大戲,比預想中來得更猛烈。幾周前,Claude Cowork橫空出世,徹底點燃了全球開發者與打工人的熱情。它不僅解放了雙手,更直接捅破了AI與人類協作的最後一層窗戶紙:無需門檻,人人皆可上手。大洋彼岸的風暴剛剛捲起,國內的戰事已然白熱化。就在昨天,阿里正式交出答卷——首個桌面Agent工具QoderWork驚豔亮相。同樣的零門檻,同樣的無需部署。僅需一句話,QoderWork就能按需呼叫已授權的本地應用,幫打工人直接完成任務。目前,QoderWork已開啟邀測。內測傳送門:https://qoder.com/qoderworkMac使用者可搶先上車,Windows使用者也別急,據官方透露很快就會上線。告別「對話方塊坐牢」AI正式接管滑鼠與鍵盤過去三年,無論是ChatGPT還是Gemini,縱有「滿腹經綸」,卻始終被困在那個窄窄的對話方塊裡。讓它分析報表?你得先手動上傳;讓它整理桌面?它只能尷尬地回你一串程式碼。它們觸碰不到你的桌面,也看不見你凌亂的資料夾。但現在,次元壁碎了。AI正式從「動嘴」轉向「動手」。面對凌亂不堪的電腦桌面,Claude Cowork瞬間就能分類歸檔。直接把財務資料、商業計畫草稿直接甩給它,Claude Cowork就能全自動輸出成品,幹完了年薪十萬美元的活。如果說過去三年是AI的「大腦進化期」,那麼2026年,註定是AI真正接管桌面的「Agent元年」。國產版Claude Cowork來了!阿里Qoder負責人丁宇的一番話,精準定義了這個轉折點:我們希望推動 AI 從「聊天時代」進入「桌面智能體時代」。QoderWork的核心邏輯非常簡單粗暴:本地化、工具化、Agent化。作為一個安裝在本地的軟體,它擁有受控的系統級檔案權限,內建了強大的MCP(模型上下文協議),並且還支援自訂Skills。它到底多能打?我們直接看實測。一手實測,真正的效率神器初試QoderWork,第一感覺是:克制、高效。介面左側是新建/歷史任務,右側是預設好的三種場景「檔案整理、內容創作、文件處理」,以及一個可以上傳附件的對話方塊。為了驗證QoderWork的含金量,接下來模擬了一些讓打工人十分頭禿的場景。場景一:拯救「爆炸」的資料夾想必很多人的下載資料夾中,早已堆積了上千個檔案:PDF文件、各種資料表、PPT、截圖....平時工作根本沒有時間做一個分類,下載到資料夾中就不管了,久而久之,檔案大爆炸。現在,直接點選QoderWork給的「檔案整理」功能,選中目標資料夾,告訴它幫忙整理分類。不一會兒功夫,一個雜亂的資料夾,瞬間變成了條理有序的「個人知識庫」。場景二:萬級資料處理,喝杯水就搞定月底了,老闆突然丟過來一個超大的「旅遊行為資料集」,裡面有上萬條雜亂的資訊。要求是根據不同的景點類型彙總人數,並計算出男女遊客所佔的比例,最後再統計成一個Excel表格。一個一眼望不到頭的表格,不上點魔法顯然是很難頂得住的。現在,只需要說出需求,把資料丟給QoderWork分分鐘就能搞定。喝一口水的功夫,QoderWork直接把資料分類,比例計算完了。不得不說,簡直是打工人辦公神器。場景三:全球調研報告,直出網頁版再比如,上方下達命令——對全球十大AI公司前景做一個深度調研報告。這要是擱在以往,上網一家一家做背調和資料蒐集,如今直接交給QoderWork就可以了。它會聯網自主查詢最新的資訊,並且將其整合,給出一些關鍵的洞察。不得不說,QoderWork直出的網頁版報告實在是太強了。場景四:科研文獻全自動化引用對於科研黨來說,做一項研究需要參考多個文獻,論文完成後還需列出所有文獻。以後這件事,QoderWork直接可以代勞了。這不,AI從所有文獻中,精準提取出了作者、發表年份、摘要和關鍵詞。最關鍵的是,它還按照正確的引用規範,清晰列出了所有的參考文獻。場景五:一鍵生成PPTQoderWork還是「內容生產力」神器,任何人都可以用得得心應手。假設讓它生成一個光的折射原理的圖片演示,並製作一個PPT,將生成視訊素材插入到課件中。在右邊任務監控中,它設定了一系列待辦事項,還有要用到的Skills,以及輸出的內容。最終,QoderWork直出一份覆蓋了原理解釋、案例應用、圖文雙全的成品PPT。它還在PPT中植入了一個光的折射原理的互動式HTML,更直觀展示了其背後的原理。再比如讓QoderWork生成i個最速降限問題的教學PPT,同樣它會幫你梳理清內容邏輯,配上精美的圖片。在極短時間內,就可以手搓一個非常有料的PPT了。場景六:私人行程管家QoderWork還可以充當你的「私人助理」。春節馬上到了,想要去三亞度假,又不想做攻略怎麼辦?直接交給QoderWork就可以了。提出具體需求,讓它從飛豬、攜程抓取資訊做比較,生成旅行推薦報告。值得注意的是,它不會一股腦輸出計畫,而是在此之前詢問你的建議,若是方案沒有問題才會進行下一步。隨後,QoderWork做了一份專屬定製的PDF攻略。從詳細行程、具體網站,到總價彙總、貼心提示,全都安排得妥妥噹噹。更貼心的是,它還在爭取個人同意前提下,把日程全部植入到日曆中,以免忘記。一番實測下來,最深刻的感受,這不僅僅是Claude Cowork的平替,更是在某些辦公場景下,完成了超越。核心能力拆解我們深入拆解後發現,QoderWork核心幹了三件大事:1. 本地執行這是QoderWork與市面上大多數雲端Agent最大的分水嶺。過去一年,AI助手雖然遍地開花,但大多數邏輯都是:上傳素材 -> 雲端處理 -> 下載結果。這條鏈路不僅受限於網速,更充斥著「隱私焦慮」——誰敢把公司的財務報表、核心程式碼或者未公開的商業計畫書隨意傳到雲端?QoderWork選了一條更難、但更安心的路:本地化。它將任務執行環境直接部署在你的終端裝置上。這意味著,AI是在你的硬碟裡「幹活」,直接呼叫本地應用,無需反覆上傳下載。2. 自主規劃如果你對它說:「分析這個銷售表,找出Top 5產品和下滑區域,出個圖表和報告。」QoderWork不會因為指令太複雜而CPU乾燒,而是會像成熟的員工一樣分步執行:Step 1拆解:自動把這句話拆成多個步驟。Step 2執行:一步步呼叫工具去完成。Step 3反饋:過程全程可見可控。遇到模糊不清的指令,它還會主動彈窗詢問,而不是自作主張地瞎搞。3. MCP為骨,Skills為肉如果說前兩點解決了「敢不敢用」和「好不好用」的問題,那麼這一點解決的是「能用多久」的問題。很多AI助手像是一個封閉的瑞士軍刀,出廠給了你剪刀和鋸子,你就只能用這兩樣。但QoderWork更像是一個開放的樂高底座——不僅內建了目前行業最主流的MCP,而且還支援自訂Skills。標準化的MCP工具:它能直接通過MCP協議,連接你的本地資料庫、Notion文件、甚至是你自己寫的Python指令碼。個性化的Skills:你可以把自己的一套工作流「封裝」成一個Skill。比如你是銷售:你可以定義一個「周報Skill」。只要說一句「寫周報」,它就會自動調取Excel裡的銷售額,對比上周資料,生成圖表,再用郵件格式寫好草稿。比如你是營運:定義一個「競品監控Skill」。它自動抓取指定網頁的新聞,總結核心觀點,推送到你的飛書/釘釘。以前你需要分別打開五個軟體才能完成的工作,現如今在QoderWork裡可以一鍵觸發。工具自由的時代已來如果說,2025年是程式設計師的「Vibe Coding」之年——程式碼不用自己敲,指揮 AI 就行。那麼2026年,很可能就是普通人的「Vibe Working」之年——PPT不用自己排,Excel不用自己拉,動動嘴就行。回望PC發展的四十年,我們一直在被迫學習「如何適應工具」:背函數、記快速鍵、啃語法。而QoderWork這類桌面Agent的出現,正在撕開「工具自由」的一角。它在告訴我們:未來,你不需要精通Office,你只需要精通「發號施令」就可以了。 (新智元)
Claude統治一切!吞下這顆紅藥丸,焊工也是頂尖程式設計師
【新智元導讀】一種被稱為「Claude-pilled」的詭異現象正在矽谷病毒式蔓延!焊工、律師、全職奶爸都在用Claude Code寫APP,程式設計師的護城河正在以肉眼可見的速度崩塌。更恐怖的是,工程師們發現自己正在悄悄「退化」。攪翻整個矽谷的Anthropic,這次又甩出新的核彈。就在今天,華爾街日報曝出一個令人顫慄的現象——Claude-pilled,Claude紅丸化!在這個語境下,Claude-pilled 源自電影《駭客帝國》(The Matrix)中的 Red pill(紅丸)梗,意思是吞下藥丸,看清真相/覺醒。在科技圈和網路俚語中,加上 -pilled 後綴通常表示「徹底認同」、「成為……的信徒」或「因為見識了真相而轉投……陣營」。這是軟體工程師、高管和投資者將工作交給Claude AI的關鍵時刻,然後親眼見證一台思維機器展現出令人震驚的能力。即便在這個AI工具層出不窮的時代,這種衝擊依然振聾發聵。什麼是「紅丸化」?這個概念源自經典電影《駭客帝國》:主角尼奧面前擺著兩顆藥丸——吃下藍色藥丸,繼續活在虛假的舒適區;吞下紅色藥丸,則看清殘酷的真相,再也無法回頭。在矽谷語境中,「Claude紅丸化」意味著:一旦你體驗過Claude的能力,就再也無法回到過去的工作方式。你會意識到,傳統的程式設計範式、手寫程式碼的效率、甚至程式設計師的職業護城河,可能都是「藍丸幻覺」。不僅是資深工程師,就連完全不懂程式碼的高管和小白,在將工作移交給Claude後,都瞬間淪陷於其「令人顫慄」的思考能力。一個殘酷的問題正浮出水面:當AI開始大規模接管程式碼工作,程式設計師還剩多少生存空間?一行程式碼沒寫6個月的APP一個周末上線了最近,一位開發者@TukiFromKL在社交媒體上分享了自己的「恐怖」經歷。他原本準備花6個月時間開發一款移動應用。但在使用了Claude Code後,整個項目在一個周末就完成了——而且,他幾乎沒有手寫任何核心邏輯程式碼。「這感覺就像我搶劫了一位資深工程師。」他寫道,「應用下周就要上線了,但我整個人都是恍惚的。」這到底是怎麼做到的?答案是一整套「作弊碼」等級的AI工具鏈——Claude Code負責編寫約90%的業務邏輯Expo SDK 54讓iOS和Android應用即寫即跑Figma MCP將設計稿在幾秒內轉為React Native程式碼Supabase MCP一站式解決後端、資料庫和身份驗證NativeWind v4讓移動端樣式像寫Tailwind一樣簡單Vercel AI SDK提供流式聊天響應能力這些工具組合在一起,開發者不再被樣板程式碼、配置細節和基礎設施拖慢,而是直接專注於產品想法與功能拼裝。這位開發者的結論振聾發聵:「如果到2026年你還在手動寫大量樣板程式碼,那等同於主動放棄競爭力。」焊工、老師、律師都在用全民程式設計時代殺到了Claude Code的恐怖之處,不僅在於它對專業程式設計師的衝擊。更在於它正在徹底消滅程式設計門檻。紐約時報最近報導了一個驚人的現象:Anthropic推出的Claude Code正在引領一股「Vibe coding」(氛圍程式設計)熱潮。無需任何程式碼基礎,使用者只需輸入提示詞,就能生成完整的應用程式。訂閱費?僅需$20-200/月。這不是實驗室裡的概念驗證,而是真實發生在普通人身上的故事——超級奶爸的洗衣AI故事的主角是一位全職爸爸。他有三個女兒,每天最頭疼的事情就是——洗完衣服後,分不清那件是誰的。於是他打開Claude Code,用自然語言描述了自己的需求:「我需要一個App,用攝影機掃描衣服,自動識別是那個女兒的。」僅僅1小時後,一款可用的「洗衣分揀App」就誕生了。現在,他只要拿著衣服對著手機攝影機,程序就能自動識別是大女兒、二女兒還是小女兒的衣服,並告訴他應該放進那個衣櫃。一個困擾了他多年的家務難題,就這樣被AI在60分鐘內解決了。藍領逆襲更令人震驚的是一位焊工的故事。他自稱「勉強高中畢業」,從未接受過任何程式設計培訓。但他經營著一家小型金屬加工廠,每天要處理大量的估價單、訂單跟蹤和合同管理。過去,這些工作全靠Excel表格和手寫筆記,效率低下,經常出錯。有一天,他聽說了Claude Code,抱著試試看的心態,用自己能想到的最直白的語言描述了需求:「我需要一個系統,客戶發來圖紙我能自動估價,訂單能自動跟蹤進度,合同到期能提醒我。」幾個小時後,一套完整的AI助理系統就跑起來了。現在,這位「勉強高中畢業」的焊工,擁有了一套比很多小公司還專業的業務管理系統——而他一行程式碼都沒寫過。教授與律師一位金融學教授想給學生做一個股票交易模擬器,用來教學。他沒有找程式設計師,沒有外包開發,只是打開Claude Code,描述了模擬器應該具備的功能:即時行情、模擬交易、盈虧計算、排行榜……2小時後,一個功能完整的交易模擬平台就上線了。更有意思的是一位檢察官的故事。他開發了一款緊急求助App,讓受害者在危險情況下能一鍵報警並自動錄音取證。這些人有一個共同點:他們都不是程式設計師,但他們都在用AI建構真正解決問題的軟體產品。這些案例證明了一個殘酷的事實——AI正在徹底打破技術壁壘,讓攝影師、老師等非技術人員也能像搭積木一樣建構複雜的軟體產品。程式設計師曾經引以為傲的技術護城河,正在以肉眼可見的速度崩塌。AI讓你更快,卻讓你變慢工程師正在悄悄「退化」但在這場狂歡背後,一個隱性危機正在浮現。越來越多工程師發現,使用Claude Code後交付速度明顯提升——但學習速度卻在急劇下降。在大量使用Claude Code的團隊中,一個詭異的問題開始蔓延:工程師可以更快拿到可運行的程式碼、順利合併PR、迅速流轉到下一個工單。但對程式碼背後的邏輯、架構選擇和潛在風險,他們卻理解得越來越少。那些被AI自動規避的bug、默認選用的架構模式、關鍵技術取捨——工程師本人並未真正消化。甚至在面試或復盤時,他們難以解釋自己「寫」的程式碼。你交付了程式碼,卻失去了理解。這種「AI依賴症」的後果是什麼?當有一天AI無法解決某個問題,或者需要在面試中證明自己的能力時,這些「AI枴杖」使用者將無所適從。破局之道:把AI助手變成你的私人導師好消息是,社區已經開始探索解決方案。知名產品專家@aakashgupta分享了一種名為CLAUDE.md的實踐正在流行。它的核心理念是:強制要求AI不僅「交付程式碼」,還要「解釋程式碼」。具體做法很簡單:在項目中建立一個CLAUDE.md檔案,讓Claude詳細說明——它剛剛做了什麼為什麼這樣做遇到了那些問題如何修復通過這種方式,工程師將AI從執行者轉變為「老師」。隨著項目推進,這些解釋性文件會不斷積累。半年之後,工程師將擁有一份專屬於自己的工程維基——相當於一位全程旁觀並講解你所有項目的專家導師。實踐者發現,能夠系統性吸收這些知識的工程師,學習速度比同樣使用AI工具的同行快3倍以上。通過在每個項目中維護類似FOR[姓名].md的說明檔案,把架構思考、踩坑經驗、最佳實踐寫清楚——Claude Code不再只是提速工具,而成為持續提升技術能力的「Claude Teacher」。Claude的統治正在加速Anthropic的Claude Cowork功能推出後,根據Similarweb的資料,相關指標呈現爆發式增長——程式碼相關搜尋需求激增、網站流量和應用下載量大幅上升、開發者社區討論熱度飆升這一現象反映出開發者對AI協作工具的狂熱追捧,正在推動Claude在程式設計領域的快速普及。然後Claude的DAU也一直在增長。SaaS已死,AI Agent時代來臨我們正站在一個歷史性的拐點上。Claude Code代表的不僅僅是一個更強大的程式碼生成工具,而是整個軟體開發範式的根本性轉變。傳統SaaS模式——賣軟體許可證、靠訂閱費養活一家公司——正在被AI Agent直接衝擊。從「人+應用」到「AI Agent+API」貝恩諮詢(Bain)在最新報告中指出:軟體行業正在從「人類+應用程式」模式,轉向「AI Agent+API」模式。這意味著什麼?傳統SaaS的運作方式是:使用者打開軟體介面,手動點選按鈕,逐步完成工作流程。而AI Agent的邏輯完全不同:使用者用自然語言描述需求,AI自主決策、呼叫API、完成任務,全程無需人工干預。高盛的研究報告更進一步指出:AI模型正在成為「作業系統」,能獨立訪問各種工具來完成任務,徹底改寫傳統軟體棧。2026年:80%的企業應用將嵌入AI Agent根據IDC的預測,到2026年,AI Agent將作為「數字員工」嵌入近80%的企業工作場所應用中。這不是實驗室裡的概念,而是正在發生的現實。Klarna的AI助手在上線第一個月就處理了230萬次客戶對話,相當於700名全職客服的工作量,同時把問題解決時間大幅縮短。傳統SaaS面臨的四種命運貝恩諮詢將AI Agent對現有SaaS工具的衝擊分為四種模式——1. 增強(Enhance):AI成為現有工具的加速器2. 壓縮(Compress):減少在某些功能上的支出3. 超越(Outshine):AI直接取代某些功能4. 吞噬(Cannibalize):徹底淘汰某些工具這意味著,不是所有SaaS都會死,但很多SaaS的價值主張正在被重新定義。未來,傳統SaaS可能退化為純粹的「資料倉儲」和「記錄系統」,而使用者介面將被AI Agent的對話式互動所取代。程式設計師的分化:贏家與輸家史丹佛大學的研究顯示,AI程式設計工具對初級開發者的衝擊最為嚴重。22-25歲的早期工程師就業率已經出現下降——因為AI擅長自動化那些「規範化知識」任務,而這恰恰是初級開發者的主要工作內容。但另一方面,能夠駕馭AI的高級工程師反而更吃香。未來的軟體工程師不再是「寫程式碼的人」,而是「AI戰略家和系統架構師」——負責監督、驗證和編排AI的輸出。掌握AI程式設計技能的工程師,薪資溢價已經可量化。而那些還在用傳統方式手寫程式碼的人,正在被市場拋棄。當任何人都能用自然語言「描述」出自己想要的軟體,並讓AI幾分鐘內建構出來時,為什麼還要購買別人的產品?程式設計師的護城河正在崩塌。技術壁壘正在消失。唯一能讓你不被取代的,是你對問題的理解深度,和駕馭AI的能力。如果你還沒有「Claude紅丸化」,現在可能是最後的窗口期了。 (新智元)
騰訊研究院AI速遞 20260126
生成式AI一、OpenAI Codex預告,今先揭秘Codex CLI核心智能體循環1. OpenAI CEO奧特曼預告下周起將發佈Codex相關重磅內容,官方同步發佈技術部落格揭秘Codex CLI核心架構——智能體循環;2. 智能體循環通過Responses API協呼叫戶指令、模型推理與本地工具執行,採用"提示詞前綴一致"策略觸發快取最佳化性能;3. Codex支援零資料保留配置保障隱私,利用自動壓縮技術管理上下文窗口,後續將深入介紹工具呼叫和沙箱模型。二、Google DeepMind 發佈 D4RT,徹底顛覆了動態 4D 重建範式1. GoogleDeepMind發佈D4RT,將3D重建、相機追蹤、動態物體捕捉統一成"查詢"動作,速度比現有SOTA快18至300倍;2. 核心創新是統一的時空查詢介面,AI先全域"閱讀"視訊生成場景表徵,再按需搜尋任意像素的3D軌跡、深度和位姿;3. 該技術對具身智能、自動駕駛和AR意義重大,讓AI即時理解動態環境,但訓練仍需10億參數模型和64個TPU。三、Claude Code 宣佈重磅升級:將內部的Todos升級為 Tasks1. Claude Code將內部"Todos"升級為"Tasks",支援多會話或子代理協作完成跨越多個上下文窗口的長期複雜項目;2. Tasks儲存在檔案系統中便於多個會話協同,當一個會話更新Task時會廣播給所有處理同一任務列表的會話;3. 新功能適配Opus 4.5更強的自主運行能力,使用者可通過環境變數讓多個會話在同一任務列表上協作。四、文心5.0正式版發佈,霸榜LMArena的最強文科生強在那1. 百度文心5.0正式版上線,參數量達2.4兆,採用原生全模態統一建模技術,支援文字、圖像、音訊、視訊的理解與生成;2. 在LMArena文字和視覺理解榜單五次登頂,進入全球第一梯隊,語言與多模態理解能力穩居國際領先;3. 實測顯示模型在複雜情感理解、弦外之音分析、創意寫作等文科任務表現突出,被稱為"最強文科生"。五、Clawdbot刷屏,AI智能體+閘道器,現階段使用請注意風險1. 開放原始碼專案Clawdbot在矽谷爆火,可在Mac mini上運行,兼具本地AI智能體和聊天閘道器雙重身份,通過WhatsApp、iMessage等隨時對話;2. Clawdbot解決了大模型記憶力痛點,能記住兩周前的對話,還會主動推送郵件、日程提醒,並可直接操控電腦執行任務;3. 項目GitHub獲9.2k星,最低月成本約25美元,但需要一定技術基礎部署,使用者反饋它能自動管理生意、寫程式碼替代Zapier等付費服務。六、LeCun創業官宣核心方向,掀起對Next-token範式的「叛變」1. 圖靈獎得主LeCun創立的AMI Labs官宣核心方向為"世界模型",旨在建構理解現實世界、具備持久記憶和推理規劃能力的智能系統;2. 該路線認為僅靠預測下一個token無法真正理解現實,需在更高層次表徵空間進行預測與推理,過濾不可預測的噪聲資訊;3. AMI Labs據傳正以35億美元估值融資,目標應用於工業控制、機器人、醫療等對可靠性要求極高的領域。七、實測:Claude in Excel,能聯網、能做表、辦公完全自動化1. Anthropic推出Claude in Excel外掛,支援Pro、Max、Team、Enterprise使用者,基於Opus 4.5模型,可通過Microsoft Marketplace安裝啟動;2. 外掛能聯網搜尋並自動填充表格,支援讀取公式、Debug錯誤、從零建模、製作透視表等功能,支援.xlsx和.xlsm格式;3. 當前不支援條件格式、宏和VBA,官方提醒存在prompt injection風險,建議只用可信來原始檔,高危函數會彈確認框。報告觀點八、Claude Code之父最新私教課:手把手教你Claude Cowork1. Claude Code創造者Boris Cherny詳解Cowork使用方法,強調將其當作"執行者"而非聊天工具,可直接操控檔案、瀏覽器和各類工具;2. 在之前X推文基礎上,再次強調:核心工作流是平行運行多個任務照看Claude們,先用"計畫模式"來回溝通直到滿意,再切換"自動接受編輯"模式執行;3. 強調Claude.md作為團隊複利式知識庫的重要性,任何Claude犯的錯都應加入進去,以及給Claude驗證輸出的方式能顯著提升質量。九、Google總監警告:只會寫Prompt的程式設計師,2026年將被淘汰1. Google雲AI總監Addy Osmani警告"氛圍程式設計"已撞南牆,AI能完成70%前期工作但剩餘30%只有經驗豐富的工程師能搞定;2. Stack Overflow調查顯示開發者對AI精準性信任度從40%降至29%,73%受訪者遇到過氛圍編碼導致的程式碼理解問題;3. 2026年真正核心競爭力是把模糊問題轉化為明確執行意圖、設計好上下文結構,以及區分真正重要的東西。十、「AI 無處不在」的達沃斯論壇,科技巨頭們都說了那些金句?1. 馬斯克預測2026年底前AI將超越人類智慧,到2030年AI將比全人類集體智慧更聰明,特斯拉明年底將開售人形機器人Optimus;2. 微軟CEO納德拉警告若AI只消耗資源不改善結果社會會失去容忍,黃仁勳稱具身智能是"一代人一次的機會";3. DeepMind CEO哈薩比斯認為AGI還需5-10年,Anthropic CEO達里奧稱只差6-12個月模型就能端到端完成軟體開發。 (騰訊研究院)
全球頂尖大模型,通關不了“寶可夢”:這些遊戲都是AI的噩夢
世界頂尖的AI模型可以通過醫學執照考試,可以編寫複雜程式碼,甚至能在數學競賽中擊敗人類專家,但是卻在一款兒童遊戲中《寶可夢》屢屢受挫。這場引人矚目的嘗試始於2025年2月,當時Anthropic的一名研究人員推出了“Claude玩《寶可夢紅》”的Twitch直播,以此配合Claude Sonnet 3.7的發佈。2000名觀眾湧入直播間。在公共聊天區,觀眾們為Claude出謀劃策、加油打氣,使這場直播逐漸演變為一場圍繞AI能力展開的公開觀察。Sonet3.7隻能說是“會玩”《寶可夢》了,但“會玩”不等於“能贏”。它會在關鍵節點卡住數十小時,還會做出連兒童玩家都不會犯的低級錯誤。這不是Claude第一次嘗試。早期版本的表現更加災難:有的在地圖中毫無目標地遊蕩,有的陷入無限循環,更多的甚至無法走出新手村。即便是能力顯著提升的Claude Opus 4.5,仍會出現令人費解的失誤。有一次,它在“道館外“繞圈整整四天,卻始終未能進入,原因僅僅是沒意識到需要砍倒擋在路口的一棵樹。一款兒童遊戲,為何成了AI的滑鐵盧?因為《寶可夢》要求的,恰恰是當今AI最缺乏的能力:在沒有明確指令的開放世界中持續推理、記憶數小時前的決策、理解隱含的因果關係、在數百個可能的行動中做出長期規劃。這些事情對8歲孩子來說輕而易舉的事,對標榜"超越人類"的AI模型卻是不可踰越的鴻溝。01工具集差距決定成敗?相比之下,Google的Gemini 2.5 Pro在2025年5月成功通關了一款難度相當的《寶可夢》遊戲。Google首席執行長桑達爾·皮查伊(Sundar Pichai)甚至在公開場合半開玩笑地表示,公司在打造“人工寶可夢智能”方面邁出了一步。然而,這一結果並不能簡單歸因於Gemini模型本身更“聰明”。關鍵差異在於模型所使用的工具集。負責營運Gemini《寶可夢》直播的獨立開發者喬爾·張(Joel Zhang)將工具集比喻為一套“鋼鐵人裝甲”:AI並非赤手空拳進入遊戲,而是被置於一個可呼叫多種外部能力的系統中。Gemini的工具集提供了更多支援,例如將遊戲畫面轉寫為文字,從而彌補模型在視覺理解上的弱點,並提供定製化的解謎與路徑規劃工具。相比之下,Claude所使用的工具集更為簡約,它的嘗試也更直接地反映出模型自身在感知、推理與執行上的真實能力。在日常任務中,這類差異並不明顯。當使用者向聊天機器人提出需聯網查詢的請求時,模型同樣會自動呼叫搜尋工具。但在《寶可夢》這類長期任務中,工具集的差異被放大至足以決定成敗的程度。02回合制暴露AI的“長期記憶”短板由於《寶可夢》採用嚴格的回合制且無需即時反應,它成為了測試 AI 的絕佳“練兵場“。AI 在每一步操作中,只需結合當前畫面、目標提示與可選操作進行推理,即可輸出‘按A鍵’這類明確的指令。這似乎正是大語言模型最擅長的互動形式。癥結恰恰在於時間維度的“斷層”。 儘管 Claude Opus 4.5 已累計運行超 500 小時、執行約 17 萬步,但受限於每一步操作後的重新初始化,模型只能在極窄的上下文窗口中尋找線索。這種機制讓它更像是一個靠便利貼維持認知的失憶者,在碎片化的資訊中循環往復,始終無法像真正的人類玩家那樣,實現從量變到質變的經驗跨越。在國際象棋和圍棋等領域,AI系統早已超越人類,但這些系統是為特定任務高度定製的。相比之下,Gemini、Claude和GPT作為通用模型,在考試、程式設計競賽中頻頻擊敗人類,卻在一款兒童向遊戲中屢屢受挫。這種反差本身便極具啟示性。在喬爾·張看來,AI面臨的核心挑戰在於無法在長時間跨度內持續執行單一明確目標。“如果你希望智能體完成真正的工作,它不能忘記五分鐘前自己做了什麼,”他指出。而這種能力,正是實現認知勞動自動化不可或缺的前提。獨立研究者彼得·惠登(Peter Whidden)給出了更直觀的描述。他曾開源一個基於傳統AI的《寶可夢》演算法。“AI對《寶可夢》幾乎無所不知,”他表示,“它在海量人類資料上訓練,清楚知道正確答案。但一到執行階段,就顯得笨拙不堪。”遊戲中,這種“知道卻做不到”的斷層被不斷放大:模型可能知道需尋找某道具,卻無法在二維地圖中穩定定位;知道應與NPC對話,卻在像素級移動中反覆失敗。03能力演進背後:未跨越的“本能”鴻溝儘管如此,AI的進步仍清晰可見。Claude Opus 4.5在自我記錄和視覺理解上明顯優於前代,得以在遊戲中推進更遠。Gemini 3 Pro在通關《寶可夢藍》後,又完成了難度更高的《寶可夢水晶》,且全程未輸一場戰鬥。這是Gemini 2.5 Pro從未實現的。與此同時,Anthropic推出的Claude Code工具集允許模型編寫並運行自有程式碼,已被用於《過山車大亨》等復古遊戲,據稱能成功管理虛擬主題公園。這些案例揭示了一個不直觀的現實:配備合適工具集的AI,可能在軟體開發、會計、法律分析等知識工作中展現極高效率,即便它們仍難以應對需要即時反應的任務。《寶可夢》實驗還揭示另一耐人尋味的現象:在人類資料上訓練的模型,會表現出近似人類的行為特徵。在Gemini 2.5 Pro的技術報告中,Google指出,當系統模擬“恐慌狀態”,如寶可夢即將昏厥時,模型的推理質量會顯著下降。而當Gemini 3 Pro最終通關《寶可夢藍》時,它為自己留下了一段非任務必需的備註:“為了詩意地結束,我要回到最初的家,與母親進行最後一次對話,讓角色退休。”在喬爾·張看來,這一行為出乎意料,還帶有某種人類式的情感投射。04AI難以踰越的“數字長征”,遠不止《寶可夢》《寶可夢》並非孤例。在追求通用人工智慧(AGI)的道路上,開發者發現,即便AI能在司法考試中名列前茅,在面對以下幾類複雜遊戲時,依然面臨著難以踰越的“滑鐵盧”。《NetHack》:規則的深淵這款80年代的地牢遊戲是AI研究界的“噩夢”。它的隨機性極強且有“永久死亡”機制。Facebook AI Research發現,即便模型能寫程式碼,但在需要常識邏輯和長期規劃的《NetHack》面前,表現甚至遠遜於人類初學者。《我的世界》:消失的目標感雖然AI已能製作木鎬甚至挖掘鑽石,但獨立“擊敗末影龍”仍是幻想。在開放世界裡,AI經常會在長達數十小時的資源收集過程中“忘記”初衷,或在複雜的導航中徹底迷路。《星海爭霸 II》:通用性與專業的斷層儘管定製化模型曾擊敗職業選手,但若讓Claude或Gemini直接通過視覺指令接管,它們便會瞬間崩盤。在處理“戰爭迷霧”的不確定性,以及平衡微操與宏觀建設方面,通用模型依然力不從心。《過山車大亨》:微觀與宏觀的失衡管理樂園需要追蹤數千名遊客的狀態。即便具備初步管理能力的Claude Code,在處理大規模財務崩潰或突發事故時也極易疲態。任何一次推理斷層,都會導致樂園破產。《艾爾登法環》與《隻狼》:物理反饋的鴻溝這類強動作反饋遊戲對AI極不友好。目前的視覺解析延遲意味著,當AI還在“思考”Boss動作時,角色往往已經陣亡。毫秒級的反應要求,構成了模型互動邏輯的天然上限。05為何《寶可夢》成為AI試金石?如今,《寶可夢》正逐漸成為AI評估領域中一種非正式卻極具說服力的測試基準。Anthropic、OpenAI和Google的模型在Twitch上的相關直播累計吸引數十萬條評論。Google在技術報告中詳細記錄Gemini的遊戲進展,皮查伊在I/O開發者大會上公開提及此項成果。Anthropic甚至在行業會議中設立“Claude玩寶可夢”展示區。“我們是一群超級技術愛好者,”Anthropic應用AI負責人大衛·赫爾希(David Hershey)坦言。但他強調,這不僅是娛樂。與一次性問答式的傳統基準不同,《寶可夢》能在極長時間內持續追蹤模型的推理、決策與目標推進過程,這更接近現實世界中人類希望AI執行的複雜任務。截至目前,AI在《寶可夢》中的挑戰仍在繼續。但正是這些反覆出現的困境,清晰勾勒出通用人工智慧尚未跨越的能力邊界。 (騰訊科技)