#程式碼
Meta華人實習生搞出超級智能體!自己寫程式碼實現自我進化
能無限進步的「超級智能體」來了!最近,Meta研究團隊的一篇題為HYPERAGENTS(超級智能體)的論文迅速刷屏。這篇論文將LSTM之父Jürgen Schmidhuber二十年前提出的哥德爾機(Gödel Machine)思想,與達爾文開放演算法相結合,提出了能持續自我迭代的達爾文哥德爾機。基於此這一思想,Agent不僅能更好地完成具體任務、持續提高自身表現。更關鍵的是,它可以不斷最佳化“改進自身”的底層邏輯,實現“元學習(Meta-learning)”這,便是論文定義的新一代超級智能體——Hyperagents。論文更進一步提出:未來AI有望通過持續自我迭代,最終突破人類預設的初始演算法邊界,也正因如此,AI安全必須被擺在核心位置。不少網友也感慨道:元學習真正讓人既害怕又興奮的,是元層面的改進能夠跨領域遷移。這不是在某一件事上變得更厲害,而是學會了在一切事情上變得更厲害。目前,這篇論文已被ICLR 2026接收。從哥德爾機到達爾文哥德爾機要理解超級智能體Hyperagents,必須先瞭解它的基石——哥德爾機(Gödel Machine)。哥德爾機是一種假設性的自我完善型AI。它在數學上尋求證明:如果存在某種更好的策略,它會通過遞迴重寫自身程式碼來解決問題。而這一假設,最早由尤爾根·施密德胡伯(Jürgen Schmidhuber)在二十多年前提出。在傳統機器學習中,AI的“學習方法”是人類預設的硬編碼,它只能通過調整內部參數來逼近目標;而哥德爾機則打破了這一限制,它能夠將演算法框架本身視為可編輯的程式碼,通過自主重寫程序來實現學習能力的自我演進。但問題也隨之而來:哥德爾機往往要求AI在自我演進之前,證明該改動具備淨收益。也就是說,改程式碼花掉的算力成本,未來能不能通過更強的性能賺回來?不幸的是,這種計算在現實中的複雜任務中幾乎是無法實現的。針對這一問題,Meta團隊提出達爾文哥德爾機(DGM),它利用開放式演算法(Open-ended algorithms),通過在大模型提議的程式碼改進方案中進行搜尋,獲取能從經驗上提升性能的方案。換句話說,DGM利用基礎模型來提議程式碼改進方案,並利用開放式演算法的最新創新成果,來搜尋並建構一個不斷增長的、多樣化且高品質的AI智能體庫。基於此,DGM能創造出各種自我改進方案,例如:增加補丁驗證(Patch Validation)步驟、最佳化檔案查看功能、增強編輯工具、生成並篩選多個解決方案以選出最優解,以及在進行新更改時,會自動加入歷史嘗試記錄(並分析失敗原因)以供參考。論文的實驗還表明,DGM獲得的算力越多,自我提升效果越好。超級智能體雖然DGM很強,但它存在一個致命限制:它主要在程式設計任務中有效。這是因為DGM依賴一個關鍵假設——評估任務與自我修改任務必須“對齊”。在程式設計領域,這種對齊是天然的:提升了程式設計能力,自然也就提升了修改自身程式碼的能力。也就是說,解決外部程式設計問題的邏輯工具,可以直接轉化為修改其自身底層程式碼的能力。相反,如果是在非程式設計領域(如寫詩),即便提升了寫詩能力,也無法直接轉化為修改程式碼的邏輯水平。在這種缺乏“自指性(Self-referentiality)”的任務中,DGM的遞迴進化鏈條就會斷裂,陷入停滯。基於此,文章提出超級智能體——它們既能修改自己的任務執行行為,也能修改生成未來改進建議的過程。這實現了所謂的元認知自我修改(metacognitive self-modification):不僅學習如何做得更好,還學習如何更有效地進行改進。進一步,論文將超級智能體實例化為DGM-Hyperagents (DGM-H)。DGM-H是對DGM的擴展,其中任務解決行為和自我改處理程序序都是可編輯且可進化的,其框架如下:自指性架構:它將“任務智能體(Task Agent)”與“元智能體(Meta Agent)”整合為一個單一的、可編輯的程序。元級進化:在Hyperagents中,“改進的方法”本身也是可以被改進的。這使得系統不再要求任務與修改必須對齊,從而實現了跨領域的“元認知自我修改”。打個比方,在Hyperagents中,運動員不僅在訓練,教練也在學習如何更好地執教。由此,運動員的表現和教練的執教水平不斷螺旋上升。此外,DGM-H還改進了生成新智能體的過程(例如引入持久化記憶、性能追蹤等),且這些元級改進具有跨領域遷移和跨運行累積的特性。實驗驗證:從20%到50%的跨越實驗證明,達爾文哥德爾機(Darwin Gödel Machine)能夠通過修改自身程式碼庫實現持續的自我提升。在SWE-bench上,DGM自動將其性能從20.0%提升至50.0%。在Polyglot上,DGM的性能從初始的14.2%躍升至30.7%,遠超由Aider開發的具有代表性的人工設計智能體。這些結果證明了DGM能發現並實施有效的自我改進。而實現這一點的關鍵在於其開放式進化搜尋策略:通過從現有智能體庫中採樣生成新智能體,DGM能夠平行探索多條進化路徑。性能稍遜的“祖先”智能體在發現新方法和功能方面起關鍵作用,避免了早熟收斂。此外,DGM的改進具有廣泛的遷移性:針對Claude 3.5 Sonnet最佳化的智能體,在切換到o3-mini或Claude 3.7 Sonnet時仍能提升性能。在Polyglot基準中,Python任務上的自我改進同樣提升了Rust、C++、Go等不同語言任務的表現。 (量子位)
Anthropic深夜血洗500億美金行業!程式碼審計末日來了
全球AI圈地震了:Anthropic的一個新功能,直接幹掉了價值500億美元的傳統程式碼審計行業!年費5萬美元的傳統安全廠商,現在直接被一鍋端掉,新工具最低只要15美金。前幾天,Anthropic又出手了!Claude Code之父重磅官宣:Claude Code新增程式碼評審(Code Review)新功能。這一次,它瞄準了一個價值500億美元的產業——程式碼安全審計。Anthropic剛剛發佈的新功能,可以說是在用極其簡單粗暴的方式,直接挑戰整個程式碼安全行業。有人驚呼:價值500億美元的行業,被Anthropic一夜干翻了!現在,可以坐等安全股大跌了。在Anthropic,幾乎每個PR都測試了此系統。經過數月的測試,結果如下:包含實質性評審意見的PR比例從16%增加到54%。工程師認為評審結果錯誤的比例不到1%。在大型Pull Request(1000行以上)中,84%的PR存在表面問題,平均每份PR存在7.5個問題。目前,該功能已給Claude Team和Enterprise測試版中作為研究預覽上線。500億美金市場的噩夢Anthropic的這個產品,簡直是讓全球AI圈和網路安全界(AppSec)發生了一場足以載入史冊的大地震。資深開發者紛紛驚呼,價值500億的程式碼審計行業被端了!這是因為,在過去,大公司為了防止程式碼裡的Bug或安全漏洞流向生產環境,每年要支付給傳統安全廠商(如Snyk、Checkmarx 等)高達5萬美金甚至更高的授權費,僱傭專業團隊進行掃描和審計。而現在,Claude卻可以直接派一隊AI智能體潛伏在你的PR裡,24小時待命。而且,按token計算,它的單次Review成本,平均只要15-25美元!5萬美金和25美金,差了2000倍。這根本不是功能更新,這是給傳統程式碼審計吹響了終結的號角。Code Review,開發者最痛苦的環節如果你問一個任何一個工程團隊:軟體開發中最大的瓶頸環節,是那一個?相信很多人的答案,都是程式碼評審(Code Review)。過去幾年,AI寫程式碼的能力是日新月異,突飛猛進,無論是GitHub Copilot、Cursor、Claude Code還是ChatGPT,用上這些工具的開發者,寫出的程式碼量直接暴漲。結果,問題來了——雖然程式碼被飛速產出,審程式碼的人卻並沒有變多。Anthropic發現,過去一年裡,每位工程師的程式碼產出增加了200%,但很多PR(Pull Request)只是被快速掃了一眼。連開發者自己都承認,很多程式碼評審,不過是在走流程而已。於是,大量Bug、漏洞、邏輯問題就這樣被帶進生產環境。這也就是為什麼,很多企業願意花天價去買安全掃描工具。然而問題來了——這些工具並不聰明。傳統程式碼掃描工具,到底有什麼問題?如果你用過傳統AppSec工具,比如Snyk、Checkmarx、Veracode、SonarQube等,你大機率會有這樣的感受:誤報太多了。原因在於,這些工具大多數基於靜態規則和已知漏洞庫,可以掃描程式碼,卻無法真正理解程式碼。經常發生的一個場景,就是工具提醒「可能有SQL隱碼攻擊風險」,開發者檢查了半天,卻發現沒有問題。於是大家慢慢開始忽略警告,而真正危險的問題,就往往被忽略過去。因此,企業仍然需要大量人工Code Review,而Anthropic這次做的,就是把它自動化。Anthropic,扔出一個AI程式碼評審軍團這一次,Claude Code Review的思路其實很簡單。在Claude Code中,系統可以自動分析Pull Request,並從多個角度進行檢查,例如:程式碼規範是否符合項目規則是否存在潛在bug修改是否與歷史程式碼邏輯衝突之前PR中提出的問題是否再次出現最終,它們會輸出兩個結果:一個高訊號總結評論,和一個具體程式碼位置的inline評論。也就是說,你打開PR時,就能看到一份AI評審報告,看到真正重要的問題,而不是幾十頁的流水帳。「AI寫程式碼,AI評審」的時代,終於還是來了。Claude自我循環、自我遞迴,苗頭出現了。隨著AI能力日益強大,以後人類唯一的作用可能就是打開AI開關了,鍵盤上只需要Claude按鍵了。多Agent系統,Claude Code評審軍團出動Claude Code Review最大的特點就是,它不是一個AI,而是一個團隊。當一個PR被建立時,系統會自動啟動一支AI Agent團隊。據介紹,Claude新的程式碼評審功能會派出多個AI「評審智能體」平行工作,每個智能體負責不同類型的檢查。這些智能體通過驗證來過濾誤報,並根據嚴重性對錯誤進行排序。最終結果會作為一條高訊號的綜合評語,以及針對特定錯誤的內聯評論,呈現在PR上。評審規模會隨PR大小調整。大型或複雜的變更會獲得更多智能體和更深入的審閱;微小的變更則會快速通過。根據Anthropic的測試,平均評審時間約為20分鐘。最終,通過多Agent相互驗證,就可以減少誤報。這個過程中,它會重點尋找邏輯錯誤、安全漏洞、邊界條件(edge case)缺陷和隱蔽的回歸問題。所有發現的問題都會按嚴重等級(severity) 標記。紅色圓點表示普通問題,即合併程式碼前應修復的bug;黃色圓點表示輕微問題,建議修復,但不會阻止合併;紫色圓點表示既存問題,非本次PR引入的bug。每條評審評論還包含一個 可折疊的推理說明(extended reasoning)。展開後,你可以看到:Claude 為什麼標記該問題它是如何驗證這個問題確實存在的需要注意的是,這些評論不會自動批准或阻止PR合併,因此不會破壞現有的程式碼評審流程.默認情況下,Claude Code Review主要關注程式碼正確性(correctness)。也就是說,它重點檢查:會導致生產環境故障的bug實際邏輯問題而不會重點關注程式碼格式、風格偏好、是否缺少測試等問題。如果希望擴展檢查範圍,需要使用者進行配置。內部測試結果,堪稱恐怖Anthropic的內部測試結果,堪稱恐怖!也更加證明了,傳統的程式碼評審,基本就是個笑話。內部資料實在是觸目驚心:只有16%的PR獲得了實質性的評審意見。在1000行以上的大型PR中,84%的程式碼都被它揪出了問題,平均每個PR抓到7.5個Bug。為什麼?原因就是,工程師太忙了。Anthropic在過去一年裡,每個工程師的程式碼產出增長了200%。程式碼越來越多,誰還有功夫一行一行細看?而在實施該功能後,程式碼庫中有實質性修復建議的PR比例,從16%暴漲到了54%。這意味著,以前有近40%的潛在屎山程式碼,是在人類程式設計師眼皮子底下溜過去的,而現在,它們全被Claude揪了出來。更恐怖的是小於50行的小PR,從前大家覺得,就這麼幾行,能有什麼問題。結果,其中的31%都被發現了問題,每三個小改動,就有一個藏著bug。而那些被揪出來的問題,工程師的的認可度直接達到99%以上!只有不到1%的結果,被工程師標記為誤報。這個精準率,已經超過了絕大多數人類reviewer。Anthropic舉了自己內部的一個例子:對一個生產服務的一行程式碼更改,看起來是常規操作,屬於通常會快速獲得批准的差異。但程式碼評審將其標記為嚴重問題。該更改會導致身份驗證失效,這種故障模式在差異對比中容易被忽略,但一經指出就非常明顯。該問題在合併前得到了修復,工程師事後表示,他們自己可能不會發現這個問題。再講一個真實案例。iXsystems,一家做TrueNAS的公司,在用Code Review評審了一個ZFS加密相關的程式碼重構。這是一個很深度的技術改動,review的人都是這個領域的專家。結果,Code Review幹了一件讓所有人意外的事:它在「相鄰程式碼」裡發現了一個潛在的bug。那個bug不在這次改動的核心範圍,只是程式碼「恰好被改動涉及到了」。這個類型不匹配的問題,會導致每次同步時悄悄擦除加密金鑰快取。這是一個隱藏了很久很久的bug,一直在那裡,只是沒人發現。人類專家幾乎不可能發現,因為它不在diff裡,不是要關注的重點,但說不定某一天,它就會炸掉你的系統。但是,現在Code Review一下子將它揪出。行業大洗牌,來了現在,安全公司和SaaS廠商都在哀嚎。每年收5萬美金的程式碼安全公司,還能活多久?不是它們的技術不好,而是商業邏輯變了。如果Anthropic可以用智能體團隊,花20美元就能解決深度的業務邏輯安全審計,誰還會去買那些動輒幾萬美金、誤報率還高得離譜的傳統掃描器?如果你還在手動Review幾千行程式碼,或者還在為高昂的安全審計費買單,醒醒吧,時代變了。 (前瞻經濟學人)
從“無所不能”到“一文不值”,龍蝦Agent跌落神壇了?
01在商業世界裡,有一件極其有趣跟現實的規律:我們對待一項新事物的態度,往往是從一個極端,迅速走向另一個極端。在上周,我們在單仁行裡聊了火爆全網的“龍蝦智能體(OpenClaw)”。那個時候,全網都還在熱捧龍蝦,吹噓它無所不能,好像只要說一句話,龍蝦就能幫我們把所有的活全幹了。所以,在那篇文章裡,我們是非常早,並且花了大量篇幅告訴大家,龍蝦有著極高的使用門檻跟安全風險,它是一個缺乏常識,容易撞南牆的實習生,我們要克服那些難點,掌握什麼樣的能力,注意那些環節,才能真正用好龍蝦。結果,這才過了多久,輿論就出現了極其魔幻的反轉。從無腦吹捧,人人都可以輕鬆上手,到今天各大平台,各個專家突然就開始罵起龍蝦了,出了大量痛罵龍蝦的內容跟視訊。說它連個簡單的網頁都打不開,token燒的飛快,費用猛猛上跳,簡直就是一個只知道燒錢的人工智障。這一下,龍蝦就從神壇跌落下來,從“無所不能”的智能體,變成了“一文不值”的智能廢物。那麼,為什麼會出現這種極端的反轉?龍蝦這樣的智能體到底有沒有用?今天,我們不聊技術跟程式碼,我們就從商業邏輯跟人性的角度來拆解一下。02輿論對於龍蝦看法的反轉,其實是一場非常經典的“達克效應”的集體展演。達克效應告訴我們,當一個人對某個領域瞭解很少的時候,他往往會產生一種虛幻的自信,覺得自己什麼都懂,這就是所謂的“愚昧之巔”。所以,當一些人用精心剪輯的視訊,展示龍蝦如何行雲流水地訂機票、做報表的時候,很多人就被推上了這個“愚昧之巔”。大家潛意識裡把龍蝦當成了一顆靈丹妙藥,看著視訊覺得它很簡單,小白都能幹,只要把它裝進電腦,它就會自己幹活了,自己就能躺著把錢賺了。這是自信心爆棚的高點,因為大家瞭解得太少,所以根本不知道這件事情的邊界跟難度在那裡。但就像我們在之前單仁行裡拆解過的,龍蝦並不是靈丹妙藥,它更像是一台極其硬核的健身器材。它確實能讓你變強,但前提是你得懂規則、懂拆解、還要每天流汗去訓練跟教會它。所以,處於“愚昧之巔”的人,第一次試圖讓龍蝦去幹極其複雜的非標任務,結果龍蝦在後台燒光了Token、甚至搞崩潰了電腦的時候。好了,馬上就跌入了達克效應的第二個階段“絕望之谷”。他們發現龍蝦不是神奇的魔法棒,而是一把需要自己組裝,用力揮舞的鐵錘的時候,他們不會去反思自己缺乏臂力,不會去思考自己要去學什麼,只會大罵這把錘子太難用,把它一腳踢開。然後,就告訴所有人,龍蝦沒用,把它貶的一文不值。這就是今天龍蝦被全網群嘲的根本原因,人們懶惰的預期,被技術門檻無情擊碎了,然後開始懷疑,這個工具壓根就沒什麼用。03那麼,既然現在進入到“絕望之谷”,是不是意味著Agent智能體這條路就走不通了呢?當然不是。矽谷有一個著名的“阿瑪拉定律”:人們總是高估一項新技術的短期爆發力,卻又大大低估它的長期破壞力。我們要明白,接下來Agent的發展不會停止,而是會持續的進步。正是因為發現了巨大難點的存在,才會給難點的解決,帶來豐厚的回報。商業怕的,從來不是有問題,而是找不到問題。但是,Agent接下來絕對不是造出一個無所不能的“數字上帝”。那種指望一句話就能讓Agent打天下的想法,在真實的商業環境裡是不成立的。Agent未來的真正形態,是走向“多智能體協同(Multi-Agent System)”。什麼意思呢?一百多年前,亨利·福特是怎麼把汽車成本降下來的?他不是發明了一個能包攬所有造車工序的全能機器,而是發明了標準化、分工明確的流水線。同樣的邏輯,Agent接下來會逐步降低使用的門檻,然後細分成不同的應用,去對應不同的應用場景。像騰訊現在就已經在這樣做了,開始打造Agent矩陣。這就意味著,我們未來不僅要去學習跟使用Agent,而且,我們要面對的一定不只是一個龍蝦。比如說我們可能要用Agent A專門負責盯著信箱、工作軟體,接受資訊,分門歸類,A就只幹這一件事,做到極其精準。Agent B就負責把歸類後的資訊做篩選跟排序,區分出這些資訊那些是緊急重要,那些是值得注意,但不是馬上就要做的事。Agent C就負責檢查跟校驗,提醒使用者,給出具體的執行建議。這其實就是技術發展的規律,真正的工業革命,靠的不是包攬一切的全能超人,而是逐漸演化出細分、垂直的標準化流水線。04那麼,面對這種正在演進的趨勢,我們的企業跟個人,應該怎麼正確對待智能體呢?我想給大家的建議只有四個字:向內生長。什麼意思呢?Agent現在正在經歷最讓人痛苦,也是淘汰率最高的絕望之谷。在這個階段,絕大多數跟風者、好奇者,都會死在這個谷底,他們會放棄探索,轉而去尋找下一個“能讓人一夜暴富,不用幹活”的愚昧之巔。這個時候,我希望大家不要被情緒的鐘擺所左右,不要在它火的時候去神化它,更不要在它低谷的時候拋棄它,而是要找到方法,逼著自己去學習。因為達克效應並不是只有“愚昧之巔”跟“絕望之谷”這兩個階段,它還有後來的“開悟之坡”跟“平穩高原”。我們不要幻想一口吃成個胖子,而是要敬畏常識,尊重規律,向內生長。我們現在打開公司的業務流程、獲客話術、銷售動作跟轉化路徑,看看有沒有一份能夠讓人類員工看懂的標準執行流程?而且,你的每一個節點有沒有精準清晰的資料,維度是不是足夠?當這些準備好的時候,Agent工作就變得容易了。如果你發現公司決策全靠老闆拍腦袋,銷售全靠老師傅帶徒弟的口口相傳,業務資料跟邏輯本身就是一團亂麻的時候。那你引進任何Agent,那都是一場災難,它只會放大你的混亂。所以,今天靜下心來,借助自己的經驗跟數位化工具,把企業的每一個業務動作,拆解成極其清晰、沒有歧義的SOP;把企業沉澱下來的各種資料,包括客戶資料,各種維度、產品賣點、關鍵詞、業務邏輯整理好。然後,把它們放入到我們現有,成熟的,馬上就能用的AI工具中,它可以是你最熟悉的AI大模型,也可以是垂直領域的AI應用,比如說我們的文思子牙專業行銷AI系統,嘗試用它輸出符合企業特徵跟需求的行銷內容。重要的是動起來,開始去有目的地進行訓練、輸出、調整、再訓練。這一步就是檢驗跟提高AI與企業實際業務結合的契合度,同時,訓練我們如何把一個大目標,拆解為一步步精準指令的人機協作能力。這就是“開悟之坡”,走在這個階段的人,不會再有狂熱的情緒,而是一次次的學習-使用,再學習,再使用...直到逐漸做出結果。所有的長期主義者,都是在這條坡道上默默攀爬的苦行僧。等到我們的業務、資料、流程實現了高度的標準化,我們知道怎麼給AI下達精準、有效的指令。未來降低了技術門檻的Agent,才能真正給我們插上自動化的翅膀,走進平穩高原。因為人機協作已經內化為我們的肌肉記憶跟本能,用好Agent也就是一種理所當然的事情了。 (單仁行)
Karpathy深夜炸場:開源630行程式碼“AI研究員”,5分鐘完成一次訓練,單卡就能跑,自我進化
曾幾何時,前沿AI研究還靠著一群"碳水化合物電腦"——他們在吃飯睡覺摸魚的間隙,偶爾通過"組會"儀式用聲波互相吼兩嗓子,就這麼推進著人類的技術邊界。那個年代已經一去不返。如今,研究完全被AI智能體接管,它們成群結隊地在雲端巨型計算叢集裡狂奔。據說程式碼已經迭代到了第10205代,但這數字真偽已無從考證——那些程式碼早已進化為能自我修改的二進制生命,遠遠超出了人類的認知範疇。這個程式碼倉庫,正是這一切故事的起點。——@karpathy,2026年3月以上是Karpathy為新項目撰寫的序言。就在剛剛,AI大神Andrej Karpathy發佈並開源了一個名為autoresearch的新項目,一句話來說Karpathy開源了一個自主AI研究員,它會在你睡覺的時候運行100個實驗,任何人只要擁有一塊GPU,就能在一夜之間運行一個研究實驗室。這個項目的核心想法很簡單:給AI Agent一個雖小但真實的LLM訓練環境,讓它通宵達旦地自主進行實驗研究人類的新工作是編寫一個提示(Prompt),用來指導Agent如何去思考和進行研究。這個Agent會徹夜不休地循環執行以下任務:編輯程式碼、訓練一個小型語言模型(每次精確到五分鐘)、檢查得分、根據結果決定保留還是放棄,整個過程完全無需人工干預。5分鐘是真正的精妙之處。這個設計有兩個好處:首先,無論AI代理如何修改模型大小、批次大小或架構,實驗結果都可以直接比較。其次,這意味著自主研究將在固定的時間預算內,為你的特定平台找到最優的模型。其缺點是,你的運行結果將無法與其他人在不同計算平台上得到的結果進行比較具體來說是這樣的:他將這個項目打包成一個獨立的迷你程式碼庫,方便大家上手體驗。這個項目本質上是nanochat大模型訓練核心的精簡版,被壓縮成一個約630行的單檔案程式碼,並且能在單GPU上運行。整個程式碼庫被刻意設計得非常小巧,核心只有三個檔案:prepare.py - 這個檔案包含固定的常數、一次性的資料準備工作(如下載訓練資料、訓練BPE分詞器)以及執行階段工具(如資料載入器和評估)。此檔案不會被修改。train.py - 這是AI Agent唯一會編輯的檔案。它包含了完整的GPT模型、最佳化器(Muon + AdamW)和訓練循環。從模型架構、超參數、最佳化器到批次大小,一切都可以被AI修改。program.md - 這是為單個AI代理準備的基線指令。人類研究員通過編輯和迭代這個檔案來指導AI。項目的核心機制是,無論你的計算平台性能如何,單次訓練的執行階段長都固定為5分鐘(不包括啟動和編譯時間)。評估指標是val_bpb,即每字節的驗證位元數,這個指標越低越好。由於它與詞彙表大小無關,因此可以公平地比較不同模型架構的變更效果。項目的核心工作流分為兩個部分:人類負責迭代提示詞,即.md檔案。AI智能體則負責迭代訓練程式碼,即.py檔案。Karpathy指出,該項目的目標是設計出能夠無限期、無需任何人工干預,並以最快速度取得研究進展的AI智能體。在實際運行中,智能體在一個Git的特性分支上自主循環工作。每一次完整的模型訓練運行恰好持續5分鐘,在Karpathy分享的圖片中,每一個點都代表一次這樣的訓練。當智能體發現能讓驗證損失更低的更好配置時,比如調整神經網路架構、最佳化器或各項超參數,它就會將這些改進以Git提交的形式累積到訓練指令碼中。通過這種方式,研究人員可以比較不同提示詞或不同智能體帶來的研究進展速度。Karpathy本人形容這個項目是程式碼、科幻和一絲瘋狂的結合體。他還透露,自己仍在nanochat的生產環境中運行一個規模更大的版本。這個加強版智能體正在一個更大的模型上工作,並部署在8塊H100 GPU上。Karpathy表示他會一直讓這個系統持續運行下去。除了PyTorch和少數幾個小包外,沒有其他外部依賴。沒有分佈式訓練,沒有複雜的配置檔案。一塊GPU,一個檔案,一個指標,構成了整個實驗環境。項目地址:https://github.com/karpathy/autoresearch快速上手指南環境要求:一塊輝達GPU(已在H100上測試),Python 3.10+,以及uv包管理器。第一步:安裝uv項目管理器(如果尚未安裝)curl -LsSf https://astral.sh/uv/install.sh | sh第二步:安裝依賴uv sync第三步:下載資料並訓練分詞器(一次性操作,約2分鐘)uv run prepare.py第四步:手動運行一次訓練實驗(約5分鐘)uv run train.py如果以上命令都能正常工作,說明你的環境已經準備就緒,可以進入自主研究模式了。如何運行AI代理你只需在這個程式碼倉庫中啟動你選擇的AI代理,例如Claude或Codex(並停用所有權限),然後可以發出類似這樣的指令:你好,請看一下program.md檔案,我們來啟動一個新的實驗吧!先從設定開始。這個program.md檔案本質上是一種超輕量級的技能指令。平台支援目前,該項目程式碼要求使用單塊輝達GPU。雖然原則上可以支援CPU、MPS等其他平台,但這會增加程式碼的複雜性。Karpathy表示,他目前不確定是否會親自進行這方面的擴展。這個項目主要是一個概念演示,未來會提供多少支援還是未知數。如果需要更廣泛的平台支援,使用者或其AI代理可以參考父項目nanochat,那裡展示了各種解決方案,如Flash Attention 3的備用核心實現、通用裝置支援和自動檢測等。 (AI寒武紀)
OpenClaw創始人:Vibe Coding已經是貶義詞了!Meta軟體工程師爆料:矽谷Agentic Engineering五大支柱!要給Agent寫程式碼,而不是寫給人!
進入2026以來,許多 AI 圈的大神和大佬們都在提一個新概念:“agentic engineering”,智能體工程。先是前 OpenAI 聯合創始人、大神 Karpathy 表示:Agentic Engineering 會是下一個階段。然後 OpenClaw 的創始人 Peter Steinberger 在加入 OpenAI 之後的一次播客中則給出了更為激進的說法:現在提 Vibe Coding,已經是一個侮辱性詞語了。那麼,大佬們為什麼會這樣說?智能體工程究竟都做那些呢?近日,Meta資深工程師John Kim分享了內部的實踐做法。John表示,agentic engineering和vibe coding完全不同,這兩個概念之間的差距,遠比想像中大。有人給ChatGPT 或 Gemini 輸入一個提示詞,複製一段程式碼,部署在本地localhost 上,截圖發圈,說“我做了一個產品”。這種熱情值得鼓勵,但這不是工程。但他並不是在否定這些嘗試。他表示,很多人嘗試用AI程式設計、探索新工具是非常棒的事情。但把“vibe coding”和“AI 程式設計”劃等號,其實是對整個行業的傷害。所有做AI程式設計的人都被歸為“vibe coding”,這並不是一個合理的做法。“工程意味著系統設計、上下文管理、驗證閉環、工具建構,以及長期演進的能力。工程是可持續的,是可復用的,是可積累的。”非常有“α含量”的是,John 還給出了 agentic engineering 的五大支柱:context engineering(上下文工程)、agentic validation(Agentic驗證)、agentic tooling(Agentic工具化)、agentic codebase(Agentic程式碼庫)、compound engineering(複合式工程)。John 在介紹這五大支柱的同時,也爆料了許多前沿公司,如OpenAI、Anthropic、Google、Meta等頂尖工程師的“黃金做法”。下面是更詳細的觀點整理,各位enjoy:上下文工程才是王道!“第二大腦”會成為重要的工程真正決定Agent上限的,並不是模型參數規模,而是它所處的資訊環境。John表示,上下文是最關鍵的一點,輸入垃圾就會輸出垃圾。John表示,在工作中經常會被問道這樣的問題:現在模型的上下文窗口非常大,直接把所有內容都喂進去不就好了?還需要最佳化嗎?”在他看來,即使上下文窗口很大,也不意味著要堆砌資訊,而是精準篩選。因為模型的本質是基於統計機率生成輸出。它會根據你輸入的資料,計算某種機率分佈,生成一個最可能的輸出結果。因此,在做上下文工程時,你必須認真思考:到底需要給模型多少、什麼樣的上下文,才能讓它把事情做好。此外,他還提出了“第二大腦(second brain)”的概念,即那些不直接屬於程式碼本身,但圍繞程式碼存在的領域資訊,比如產品資訊、產品規格、配置決策、領域規則等這些原本存在於工程師腦海裡的知識,應該存放在那裡,才能讓 AI 輕鬆獲取?談到實現方式,以ClockCode 為例,他給出了聯眾解法:一是,可以在本地維護一個.cloud 檔案,把不適合直接寫進程式碼庫的內容放進去,二是,直接提交到程式碼倉庫中。對於提交到程式碼倉庫這一方法,John提到OpenAI 做了一個實驗,並在一篇名為《Harness Engineering》的文章中提及,正在把越來越多的資訊推入程式碼庫,目的是給AI 提供更多上下文。他們實際上是在為 AI 最佳化程式碼庫,而不僅僅是按照人類開發者的習慣去組織程式碼。John認為,“第二大腦”會成為一個重要的工程領域,它早在 RAG 系統中就已經出現,而現在它只是疊加在 agentic engineering 之上的又一層能力結構。Agentic驗證:沒有驗證閉環,輸出只是機率猜測當Agent開始承擔真實工程任務時,生成能力不再是瓶頸,驗證能力才是關鍵。John 明確提到,讓Agent能夠自我驗證,是讓其輸出質量顯著提升的關鍵因素之一。他引用Boris Chen的實踐經驗強調,是否具備驗證機制,是“生成糟糕輸出”和“真正可用且經過驗證的結果”之間的巨大差異。在John看來,驗證可以嵌入多個維度,比如,在後端任務中加入整合測試或單元測試;在前端任務中,讓Agent自己操作 Chrome 瀏覽器、截圖並進行自我驗證;在移動端場景下,甚至可以使用 ADB 來模擬互動,無論採用什麼驗證方式,這將是創造性工程大量湧現的地方。此外,他特別指出,驗證極具挑戰尤其是UI驗證。比如,目前在沒有成熟視訊模型進入Agent解碼循環的情況下,我們如何確認介面互動的真實效果?”截圖是一種方法,但並不完美。領域特定語言(DSL)、模擬器控制邏輯、可觀測資料分析,都是可能的替代路徑。再比如,在日誌層面,Agent在驗證過程中能“觀察”到那些可觀測資料?這些資料能否幫助它完成自我驗證?諸如,OpenAI 開始使用 LogQL,在驗證循環中記錄大量記錄檔,讓Agent在執行過程中攜帶日誌資料,從而判斷資料是否真實正確,而不是只依賴測試結果。“沒有驗證循環,Agnet只是一次性推理工具;有驗證循環,Agent才具備自我修正與質量保證能力。”Agentic工具化:凡是需要人手操作的地方,都是摩擦當Agent執行流程頻繁被打斷時,問題通常不在模型,而在工具層。John引用Peter Steinberger 的觀點,將這種阻礙稱為“摩擦”。他也發出了這樣的疑問:“什麼在阻礙Agent?Agent循環中有那些步驟必須由人類接手?”如果每次遇到邊界條件都需要人工干預,那麼自動化永遠無法形成穩定結構。反觀Agent技術越來越成熟,他也承認,有越來越多的公司開始建構Agentic工具,比如ChatGPT和Gemini引入搜尋功能、深度研究、多模態能力、任務系統等能力,這些本質上都可視為Agentic工具。在John看來,OpenClaw是Agentic工具最成功的案例。他指出,OpenClaw成功的重要原因並非模型能力更強,而是建構了大量 CLI 工具,讓Agent能夠完成原本需要人工處理的任務。“工具化的本質,是將一次性的人類操作轉化為可復用的自動能力。當Agent無法完成任務時,與其手動接管,不如建構一個工具。”凡是需要登錄網站修改配置、手動觸發指令碼、重複執行命令的地方,都意味著潛在的工程機會。Agentic程式碼庫:程式碼的結構,決定了Agent的理解深度你的程式碼庫是否為AI Agent做過最佳化?John給出的回答是:大多數老項目幾乎完全沒有為Agent做過最佳化。目前有多少是死程式碼或糟糕的設計模式?有多少相互競爭的框架共存於其中?他強調道,清理程式碼庫、提升工程質量非常重要。因為每一次“糟糕的上下文”進入你的Agent循環,本質上都在污染Agent。Agent本質上是機率性的,如果你的程式碼中存在奇怪的、相互衝突的模式,就必須主動清除它們。在John看來,OpenAI在這方面做的更好,OpenAI最佳化檔案結構時始終讓AI能夠穩定、持續地生成一致的內容。此外,他們還加入了面向Agent的日誌系統,讓Agent可以讀取日誌資料。建立的文件不僅服務於人類開發者,也服務於Agent,以便Agent能夠掌握領域知識。“OpenAI將所謂的“黃金原則”直接編碼進程式碼倉庫。規則非常明確、風格高度統一,這種一致性是為未來的Agent而設計,而不僅僅是為未來的人類工程師。”John補充道。“我們必須意識到,我們不再只是為下一位工程師寫程式碼,而是在為下一位Agent寫程式碼。”複合式工程:當能力開始疊加John表示,“複合式工程”的思維方式,是團隊成功的關鍵。”何為複合式工程?John做了詳細的拆解:如果把‘上下文工程、Agentic驗證、Agentic工具化、Agentic程式碼庫最佳化’全部結合起來;如果把所有知識都放入程式碼庫,讓Agent能夠看到、共享;如果整個團隊都真正認同 agentic engineering 的理念,就會產生一種新的行為模式:隨著時間推移,不斷複利增長。“簡言之,每當最佳化一個工作流、加入一個新技能;每當建構一個新的 MCP;每當把這些能力納入程式碼庫與共享庫中,這一切都會產生複利效應,這就是複合式工程。”在五大支柱中,John把複合式工程放在了最後,原因在於這些理念必須被真正內化,並在團隊中傳播。同時,他也道出了目前大部分團隊存在的問題:每個人都有自己的工作流,每個人都在本地做最佳化,但團隊內部缺乏統一理念。Jonh認為,未來的團隊應該向OpenAI團隊學習,因為他們集體認同這一理念,共同復合地積累知識、工具和工作流,讓Agent隨著時間推移越來越強大,能夠自我驗證、持續運行,甚至讓程式碼在很大程度上“自我建構”。 (51CTO技術堆疊)
Anthropic 聯創 Jack Clark:AI 開始幹活,企業該改什麼?
AI 將以多快的速度重塑經濟?2026 年 2 月 25 日,Anthropic 聯合創始人 Jack Clark 在接受《紐約時報》採訪時給出了直截了當的回答。他透露,在 Anthropic 內部,絕大多數程式碼已由 AI 完成,工程師的核心職責已從敲擊程式碼轉變為管理 AI。在 Jack Clark 看來,AI 已跨越了“說話者”的階段,正式成為“行動者”。然而,技術演進的速度,已經將企業常規的組織調整節奏遠遠甩在身後。這預示著一個必然的結局:當 AI 深度介入核心業務流程,企業所面臨的挑戰已不再是單純的降本增效,而是底層邏輯的全面重構。第一節|AI 開始幹活了這種重構具體是什麼樣?Jack Clark 在採訪中分享了 Anthropic 內部正在發生的三件事:1、工程師寫程式碼的方式徹底變了。Jack Clark 自己就體驗過這種變化:他想做一個物種模擬器。如果放在過去,他自己手寫可能要花上幾天。但現在,他只需把想法告訴 Claude Code,十分鐘就跑出了結果,程式碼、環境、依賴包全部自動配置妥當。這是一種全新的工作模式:過去是人寫程式碼,現在是人提需求,AI 負責執行。2、一個人就能帶一支 AI 團隊。在 Anthropic,一位工程師日常工作時,往往會同時開著五六個 Claude。有的負責寫程式碼,有的負責改 bug,有的負責跑測試。一個人同時指揮多個 AI,就像在帶一支小型研發團隊。Jack Clark 明確表示:這就是他們公司現在的工作常態。3、AI 開始主動調整策略。在執行任務時,Claude 甚至會主動說:“這個方法可能不行,我換條路試試。”它能自主判斷問題、調整方向、尋找新的解決路徑。這意味著 AI 已經具備獨立推進任務的能力,而且這個變化來得比預期更快。Anthropic 內部的情況很能說明問題:就連 Claude Code 這個產品本身,也幾乎是 Claude 自己寫的。Jack Clark 提到,如果進展順利,到今年(2026)年底由 AI 完成的程式碼比例可能接近 99%。這三個變化,加上這組資料,指向了一個清晰的方向:AI 現在能獨立完成任務,能與其他 AI 協同,還能在執行中自我調整。當幹活的“人”變了,企業原有的組織架構和運轉邏輯必然要重構。第二節|分工方式要重新劃線“AI 帶來的衝擊,不會直接從裁員開始,而是從重新分配工作開始。”這是 Jack Clark 在採訪裡反覆強調的一點。相比裁員,這聽起來可能沒那麼可怕,但這要求企業重新設計整套分工方式。1、初級工作正在快速消失過去企業的分工是:新人做基礎任務,中層推進項目,高層定方向。現在這套體系的基礎開始動搖。那些原本交給新人的瑣碎工作,交給 AI 之後完成得更快、出錯也更少。Anthropic CEO Dario 曾預測,AI 可能在幾年內取代一半的初級白領崗位。Jack Clark 自己的判斷更謹慎一些:三年後大學畢業生的失業率會更高,但不會高太多。具體多少崗位會消失,目前還說不清楚,但趨勢已經很明確。2、能給方向的人開始變得稀缺這帶來第二層變化:企業越來越看重一個人能不能把目標定義清楚,而不是只看執行能力。Clark 在採訪中說,真正有價值的人,能把任務說清楚,讓 AI 知道該做什麼。這種能力差異正在企業內部形成新的分化:會指揮 AI 幹活的人變得稀缺,而只會完成安排好的任務的人,發展空間越來越小。3、成長路徑正在改變年輕人該如何成為那種稀缺的人?傳統的路徑是從基礎任務開始積累經驗,但現在這些任務正在消失。Clark 觀察到,在 Anthropic 內部,成長最快的年輕人,正是那些從入行起就習慣與 AI 一起工作的人。他們從一開始就學會指揮 AI、與 AI 配合,在 AI 的輔助下完成更複雜的工作。企業未來的核心人才,可能就是最早掌握這種協作能力的年輕人。這場變革已經開始了。企業要不要裁員,那都是後面的事,當下更緊迫的是重新劃好人與 AI 的分工邊界。第三節|組織運轉要跟上 AI 節奏當人和 AI 的分工邊界重新劃定後,下一個問題是:在這個新環境下,組織本身該怎麼運轉?1、加速的代價是失控Clark 發現,當工程團隊把大量執行環節交給 AI 後,最先改變的不是產能,是管理層對工作的掌握度。過去層層傳遞的流程,現在被 AI 自動完成,許多中間步驟不再需要人工確認。流程跑得更快了,但人能掌握的部分反而變少了。被問到是否擔心技術債累積、網路安全漏洞、對程式碼理解下降時,Clark 回答得很直接:擔心,而且整個社會都得面對這個問題。AI 寫的程式碼越多,工程師能直接掌握的就越少。過去企業靠繁瑣的流程保證質量,每個環節都有人把關,出問題能及時發現。但現在 AI 的執行速度太快,這種人工檢查的方式已經跟不上了。Clark 說,企業必須重新設計流程:讓 AI 把關鍵決策記錄下來,讓人隨時能看到 AI 在做什麼、為什麼這麼做。否則,組織會完全失去對自身流程的掌控。2、管理方式必須改變以前管理者的日常工作是什麼?協調團隊開會、跟進每個人的任務進度、催促延期的項目、整理匯報材料。這些事情佔據了管理者大部分時間。現在這些 AI 都能自動完成。它會自動提醒該開會了、自動發現某個任務卡住了、自動修正小問題,甚至自動生成進展報告發給所有人。那管理者還要做什麼?Clark 認為變成了三件事:一,確定優先順序。當 AI 提出五個方案時,那個最重要?這需要人的判斷。二,講清目的。AI 只能根據指令執行,但為什麼要做這件事、要達成什麼效果,必須人來說清楚。三,在關鍵節點做出取捨。比如產品該按時上線還是再打磨一周?這種權衡 AI 做不了。Clark 舉了個例子:有團隊專門訓練了一個監督 AI,它的工作就是盯著其他 AI 的輸出,檢查有沒有明顯錯誤。這樣一來,人不用再盯著每一行程式碼、每一個步驟,只需要在幾個關鍵決策點介入就夠了。組織的運轉邏輯變了:以前是人盯人,現在是人盯方向、AI 盯過程。3、真正的挑戰是速度差組織轉型真正難的地方在於速度跟不上。AI 的現在迭代是以“周”為單位的,一個新功能可能兩周就上線了。而傳統企業的組織架構調整往往是以“季度”甚至“年”為單位,改個流程、調個部門,半年過去了。這裡有三種速度在拉開差距:個人適應的速度:員工需要時間學習怎麼用 AI,怎麼和 AI 協作,這個過程可能要幾個月。企業和政策響應的速度:企業要開會討論、制定規則、調整考核,政府要研究、立法、監管,這個過程往往要一年甚至更久。AI 進步的速度:模型每幾個月就升級一次,能力不斷增強。過去的技術變革,時間往往站在人類這邊,給了緩衝期。蒸汽機出現後,工廠有幾十年時間慢慢適應。但這一次不一樣,等企業調整好組織架構,AI 可能已經又進化了好幾代,速度差只會讓衝擊變得更嚴重。這個速度差還在擴大,因為 AI 進化的速度在不斷加快。Clark 透露,Anthropic 正在監測“AI 開發 AI”的比例。什麼意思?就是 AI 不再只是幫人類寫程式碼,而是開始寫改進自己的程式碼。一旦 AI 開始大規模這麼做,它的迭代速度就不再受人類開發速度的限制了,會進入一個自我加速的循環。正因為看到了這種技術優勢,Anthropic 撤銷了 OpenAI 使用 Claude Code 的權限,不想讓競爭對手也快起來。速度,已經成為 AI 時代最關鍵的競爭力。這就是為什麼企業必須重構組織架構:不重構,就會永遠慢一拍。而 AI 的發展,只會越來越快。結語|重新擺清人和 AI 的位置AI 已經開始幹活。在 Anthropic 內部,絕大多數程式碼已經由 AI 完成,如果一切順利,年底這個比例可能接近 99%。這帶來三層變化:第一,AI 正在接管執行層的工作。第二,企業的分工方式要重新劃線。第三,組織的運作節奏要跟上 AI 的速度。AI 的進化速度超過了企業的適應速度。那些會指揮 AI、能做出正確判斷的團隊,會佔據優勢。而堅持舊流程、舊分工的組織,會越來越被動。企業該改什麼?只有一件事:重新定義人該做什麼,AI 該做什麼。 (AI深度研究員)
瑞芯微,栽了!
瑞芯微栽了,栽在了最容易被忽視的開源合規上。作為國內知名晶片設計企業,近日它被推上了行業風口浪尖。其相關程式碼庫被GitHub平台緊急凍結,核心原因是涉嫌侵犯開放原始碼專案FFmpeg的版權。這起事件,再次把開放原始碼軟體合規問題,拉回了所有人的視線。據悉,瑞芯微的違規操作,並不複雜卻觸碰了開源協議的紅線。在自身產品開發過程中,它使用了FFmpeg的核心元件libavcodec程式碼。但瑞芯微沒有遵守開源協議,反而做了兩件致命操作。一是擅自刪除了原作者的資訊及版權聲明,抹去了程式碼的來源痕跡。二是將原程式碼的LGPL許可證,私自改成了Apache協議,篡改了授權規則。很多人可能不清楚這兩種協議的區別,這裡簡單說清楚。LGPL協議雖允許商業使用,卻有明確的底線要求。必須保留原作者版權聲明、提供原始碼,且要保持許可證的一致性,不能隨意更改。瑞芯微的一系列操作,顯然完全違反了這些核心規定。其實這起侵權行為,早在2024年初就被開發者發現了。事件曝光後,瑞芯微工程師HermanChen曾公開道歉,承諾會盡快整改。可令人失望的是,這份道歉更像是權宜之計,沒有任何實質性動作。整整近兩年時間,瑞芯微始終未落實整改承諾,敷衍了事。忍無可忍之下,FFmpeg項目方採取了法律手段。他們依據《數位千禧年著作權法案案》(DMCA),向GitHub平台發起了正式投訴。GitHub核實後,迅速作出反應,凍結了瑞芯微的相關項目程式碼庫。截至目前,瑞芯微暫未就程式碼庫凍結事件,發佈新的回應或整改方案。作為A股上市的晶片設計企業,瑞芯微此次侵權風波,影響不容小覷。其最新股價顯示,近期雖有小幅波動,但長期來看,合規風險或進一步影響市場信心。更值得警惕的是,瑞芯微的案例,從來不是個例。有資料統計,當前97%的程式碼庫都包含開源元件,開源已成為科技研發的常態。但與之對應的是,63%的項目都存在開源許可證衝突問題。這背後,是很多企業和開發者對開源協議的認知盲區。業內專家直言,不少人存在一個致命誤解,認為開放原始碼就是“免費可用、隨意修改”。殊不知,開源不等於無版權,每一份開放原始碼,都有明確的協議約束。GPL、MIT、Apache、LGPL等不同開源許可證,各自有不同的使用規則。一旦違反,就可能面臨版權投訴、程式碼凍結,甚至巨額賠償的風險。中國信通院的調研也顯示,超過六成企業缺乏嚴格的開源合規管理流程。很多企業允許開發人員隨意引入開源元件,忽視協議約束,埋下合規隱患。這些隱患,隨時可能爆發,成為企業發展的“定時炸彈”。對科技企業而言,尤其是晶片設計這類技術密集型行業,開源是助力,而非捷徑。合理使用開放原始碼,能節省研發成本、加快產品迭代速度。但前提是尊重智慧財產權,嚴格遵守開源協議,守住合規底線。 (1 ic芯網)
一夜變天?Claude出手,網路安全股集體「血洗」!全球百億市值已蒸發
【新智元導讀】剛剛,Anthropic發佈程式碼安全工具Claude Code Security,直接讓安全股一夜蒸發百億市值!網路安全龍頭CrowdStrike的股價直接原地跌超6.5%,市場陷入極度恐慌:傳統安全工具,從此全涼了?過年期間,AI圈接連不斷的地震還沒停。昨天的Gemini 3.1 Pro剛剛亮相,緊接著就又來新炸彈了——剛剛,Anthropic發佈了一個程式碼安全工具Claude Code Security,能高效掃描程式碼庫漏洞並自動生成針對性補丁,遠超傳統工具。聽起來,是不是只是一條平平無奇的技術更新?結果,消息一出,美股網路安全類股立刻集體跳水。CrowdStrike、Cloudflare、Okta等安全股瞬間暴跌超5%,總市值蒸發逾100億美元,一夜就蒸發了百億市值!仔細看,網路安全龍頭CrowdStrike一度暴跌6.5%,Cloudflare重挫超6%,SailPoint大跌6.8%,Okta下挫5.7%,Zscaler跌3.5%,Global X網路安全ETF下跌3.8%,年內累計跌幅擴大至14%一條AI功能更新,直接讓一個千億級的行業類股原地失血。這不是波動,這是恐慌!外媒火速發文:網路安全公司的股價周五暴跌,原因僅僅是因為,Anthropic在Claude新模型中引入一項安全功能安全股全線飄紅,巨頭市值縮水百億Anthropic新殺器一發佈,網路安全市場就嘗到了血腥。網路安全龍頭CrowdStrike的股價跌超6.5%,Cloudflare和Okta等隨之跟跌,總市值一夜蒸發超100億美元。全球投資者陷入大恐慌:AI將直接蠶食專業安全廠商的市場份額!Cybersecurity ETF下跌了4.9%,收盤時達到自2023年11月以來的最低點。就在2026開年的這幾周,市場的焦慮情緒不斷升溫。iShares擴展科技軟體ETF今年已下跌超過23%,有望創下自2008年金融危機以來最大季度跌幅!而且諷刺的是,Cloudflare一度被視為Anthropic崛起的受益者代表;今年1月底,一款基於Claude模型的開源AI助手採用率上升後,其股價還曾大幅上漲。然而,市場瞬息萬變。要知道,現在YC裡的創業公司有一半是做安全方向的,Anthropic這個新工具一發佈,他們還有活路嗎?每當Claude出一個新版本,SaaS企業主的內心都是這樣的:A正I以摧枯拉朽之勢,直接把我們原地掀翻!Claude變身最強白帽駭客為什麼Claude Code Security會造成全球安全股的崩塌?原因就在於,它不僅是一個工具,更是對傳統安全防禦體系的一次徹底顛覆。就在安全團隊還在對著堆積如山的漏洞工單發愁時,Claude已經化身「最強白帽駭客」,拿著剛剛發佈的Claude Opus 4.6,一頭紮進開放原始碼庫中。結果讓人驚掉下巴:它一口氣揪出了500多個潛伏了十幾年的史詩級Bug!要知道,這些漏洞可是經歷過無數個人類頂級專家逐行審查,依然大搖大擺活在程式碼裡的「漏網之魚」。降維打擊,傳統掃描工具大翻車?一直以來,安全圈的痛點極其刺骨:漏洞永遠修不完,安全專家永遠不夠用。大家都在用傳統的靜態分析工具(SAST),但這些工具往往基於死板的規則匹配。找找硬編碼的密碼還行,一旦遇到複雜的業務邏輯缺陷或是越權漏洞,直接抓瞎。而Claude Code Security的出現,徹底改變了遊戲規則。它不搞死板的模式匹配,而是像一個擁有十年經驗的人類安全大牛一樣,真正去「讀懂」和「推演」你的程式碼!它能深度理解各個元件之間是如何相愛相殺的,順藤摸瓜追蹤資料在應用中的流轉路徑。規則掃描工具看不到的複雜漏洞,在它那如同開掛般的邏輯推理面前,根本無處遁形。絕不瞎改!自我驗證防幻覺AI寫程式碼大家都怕幻覺,那AI查漏洞修Bug呢?Anthropic這次穩得可怕。為了過濾掉讓人頭疼的「假陽性」(誤報),每一個被揪出來的漏洞,都要經歷一場極其嚴苛的「內部多階段驗證」。Claude會強迫自己扮演紅藍雙方,拚命地證明或推翻自己的發現。最終脫穎而出的那些真·高危漏洞,會被推送到安全儀表盤上。不僅自動生成帶評級的修復補丁,還附贈一個詳細的「信心指數」。最關鍵的是,Claude秉承「只建議,不代勞」的克制。找出問題、提供解法,但最終按下合併按鈕的,永遠是人類開發者。戰績赫赫,紅隊親測這套系統的強大,並非一蹴而就。在過去的一年多里,Anthropic的Frontier Red Team(前沿紅隊)簡直把Claude按在地上瘋狂高強度拉練。不僅把它丟進CTF安全大賽上去跟人類駭客卷,甚至還和太平洋西北國家實驗室合作,用AI去防禦國家關鍵基礎設施。實戰出真知,正是這種「地獄級」特訓,才讓本月早些時候發佈的Claude Opus 4.6擁有了如此恐怖的防禦力。那500多個被連根拔起的隱藏漏洞,就是最好的軍功章。連Anthropic自己都承認:「我們日常也用Claude來審查自家程式碼,效果好得驚人!」AI攻防戰:核威懾級軍備競賽打響毫無疑問,這是一個極具歷史意義的轉折點。在不久的將來,世界上絕大部分的程式碼都將被AI一遍遍地掃描。駭客們必定會瘋狂使用AI來大規模挖掘可利用的薄弱環節。但正所謂魔高一尺道高一丈,動作更快的防守團隊,完全可以用同款甚至更強的AI魔法,把漏洞扼殺在搖籃裡。目前,Claude Code Security已經向企業和團隊(Enterprise and Team)客戶開放了限量研究預覽版!而開放原始碼專案的維護者們,更享受「一路綠燈」的加急通道。誰能最先掌握AI安全這張底牌,誰就能在這場算力與智力的生死角逐中,立於不敗之地。AI吞噬中間層,資本市場最怕的來了!過去兩年,AI寫程式碼,已經讓程式設計師們神經緊繃了。但大家還在安慰自己:AI只是能寫程式碼、補bug,安全這種高度專業化的領域,它不可能替代人類。結果,現在,Claude直接開始動手掃漏洞了。這就意味著,AI不再是生成內容,而是進入企業安全的核心工作流,它直接瞄準了企業級安全服務的天價利潤池!資本市場最怕的是什麼?不是技術,而是定價權被動搖。網路安全公司之所以長期擁有高估值,就是因為攻防對抗複雜,安全專家稀缺,這就讓他們的服務高度專業化。結果,現在Claude Code Security一出,一個AI模型就能完成80%的漏洞掃描和修復建議,企業只需要少量安全工程師就夠了。那麼,企業還需要支付高昂的訂閱費用給安全廠商嗎?這也就是為什麼,Claude現在還不能替代CrowdStrike,就已經引起了市場的拋售。當投資人開口問「五年後還需要這麼多安全公司嗎」,股市就開始崩塌!Anthropic用Claude引發一兆美元拋售的情況,彷彿還在昨天回顧從去年底Claude Code引發的一系列核爆級事件,就可以發現:這一類AI革命最殘酷的地方在於,它優先吞噬的是中間層。一旦模型精準率足夠高,SaaS溢價會被壓縮,服務費會被重估,估值邏輯會被打穿!更可怕的是,別忘了,Anthropic說了,這項功能還只是「limited research preview」,還沒全面開放,也沒有商業化規模驗證。但是股價已經一路暴跌,這說明,當前AI的進化速度,已經遠遠快於傳統軟體公司的產品迭代速度。這是一個危險的訊號彈——接下來,恐怕還要發生更恐怖的事。 (新智元)