AI Coding火了大半年,AI Debugging也來了!剛剛,OpenAI發佈由GPT-5驅動的“白帽”Agent——Aardvark(土豚)。這只“AI安全研究員”能幫助開發者和安全團隊,在大規模程式碼庫中自動發現並修復安全漏洞。據OpenAI報告,Aardvark已識別出了92%的已知與人工注入漏洞,而且能定位僅在複雜條件下出現的問題。OpenAI副總裁Matt Knight表示:我們的開發者發現,土豚在清晰地解釋問題並引導他們找到修複方案方面確實非常有價值。這個訊號告訴我們,我們正走在一條有意義的道路上。而且,不僅OpenAI。整個10月Anthropic、Google、微軟基本上是前腳跟後腳發佈了類似的白帽Agent。這是怎麼一回事。Agentic AI +自動修補漏洞OpenAI對這款白帽Aardvark的官方描述是——代理型安全研究員(agentic security researcher)Aardvark的核心任務是持續分析原始碼倉庫,以識別安全漏洞、評估可利用性、確定風險等級,並提出有針對性的修複方案。它通過監控程式碼提交(commits)與變更來工作,自動識別潛在漏洞、推斷攻擊路徑並生成修復建議。Aardvark並不依賴傳統的程序分析技術(如模糊測試fuzzing或軟體成分分析SCA),而是運用大語言模型驅動的推理與工具使用能力來理解程式碼行為,像人類安全研究員那樣閱讀、分析程式碼、編寫測試並運行驗證。具體來說,它的工作流程從Git倉庫出發,依次經歷:威脅建模→漏洞發現→沙盒驗證→Codex 修復→人工覆審→ 提交Pull Request。分析:對整個倉庫進行全面分析,生成反映項目安全目標與設計的威脅模型(threat model)。提交掃描:新程式碼提交時,結合倉庫和威脅模型掃描差異;首次連接倉庫時回溯歷史提交。同時解釋發現的漏洞,在程式碼中標註,便於人工覆審。驗證:一旦識別出潛在漏洞,將在隔離環境中觸發潛在漏洞,確認可利用性,同時說明驗證步驟,確保結果精準且誤報率低。修復:Aardvark與OpenAI Codex深度整合,為漏洞生成修復補丁,附於報告中,便於一鍵審閱與應用。目前,Aardvark可無縫整合GitHub、Codex及現有開發流程,在不影響開發效率的前提下提供可執行的安全洞察。內部測試顯示,它不僅能識別安全漏洞,還能發現邏輯缺陷、不完整修復及隱私風險。而且,Aardvark 已在內部和合作夥伴項目中測試運行,表現出色,驗證了其實際可用性。正如開頭提到的,它不僅能夠進行深度分析、定位僅在複雜條件下出現的問題,在對“黃金測試倉庫(golden repositories)”的基準測試中,也實現了92%的識別率。此外,Aardvark也已應用於多個開放原始碼專案,發現並負責披露了眾多漏洞,其中10個已獲得CVE編號。OpenAI表示將為部分非商業開源倉庫提供公益掃描服務,並提升整個開源生態與供應鏈的安全性。Aardvark現已開啟內測,有需要的開發者可以直接在官網申請。AI程式設計完,AI來修就像開頭提到的,不僅是OpenAI,其他科技巨頭也在積極佈局Agentic AI+程式碼安全。整個10月,Google、Anthropic、微軟就想提前約好了似的,紛紛發佈相關動作,OpenAI這次反而顯得稍晚。例如,Anthropic在10月4號表示將Claude Sonnet 4.5應用於程式碼安全任務。據悉,Claude Sonnet 4.5在發現程式碼漏洞和其他網路安全技能方面,性能已經超越了Opus 4.1,並且價格更低、速度更快。Google在10月6號發佈了CodeMender,利用Gemini Deep Think模型,實現自主偵錯和漏洞修復。微軟在10月16號發佈了Vuln.AI,正式宣告使用AI進行漏洞管理,而在10月的最後一天,OpenAI也是姍姍來遲,跟上了這次更新的節奏。(註:各家在發佈前均進行了數月的測試和驗證)那麼,為什麼這些巨頭都選擇在此時發力AI程式碼安全呢?OpenAI以及其他公司的解釋高度一致:人工Debug與傳統的自動化方法(如模糊測試)已經跟不上大規模程式碼庫的漏洞發現與修復需求。一方面,企業級網路中裝置、服務、程式碼庫數量巨大,另一方面AI技術雖能提高生產力,但也被用於快速尋找漏洞、生成攻擊程式碼。因此,在漏洞數量激增、攻擊手段日益智能化的背景下,借助AI自動化發現與修復漏洞,已成為確保軟體安全和降低企業風險的關鍵手段。不過,大廠說管說,倒是有網友發現了“華點”:我們有一個會製造安全漏洞的Agent,也有一個會修復安全漏洞的Agent,這就是最好的商業模式。 (量子位)