#編碼 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#編碼

Anthropic：2026年智能體編碼趨勢報告

根據Anthropic發佈的最新研究報告《2026年智能體編碼趨勢報告》（2026 Agentic Coding Trends Report），人工智慧在軟體開發領域的應用正在經歷一場從嚴重的“輔助工具”向深度的“協作夥伴”的根本性轉變。這份報告基於廣泛的客戶資料和內部詳細研究，闡述了將在2026年定義智能體編碼（Agentic）報告核心觀點指出，隨著智能體向協作型智能體團隊進化，軟體開發的生命周期將被徹底崩潰，工程師的角色佇列程式碼系統的執行者轉變為智能體的編寫排版者。智能體系統的崛起與開發周期的崩潰收縮軟體開發領域正在經歷自圖形使用者介面誕生以來最顯著的互動變革。2025年，編碼智能體已經從實驗性工具轉變為能夠交付實際功能的生產系統。而根據Anthropic的預測，2026年將出現一種結構性的飛躍：單一的AI智能體將轉變為協調協作的“智能體團隊”（Cooperative Teams）。傳統的軟體開發生命周期（SDLC）——涵蓋需求、設計、實現、部署等階段——通常以測試周或月為單位。然而，報告指出，隨著智能體取代實現、自動化測試和文件編寫等專項性工作，這一周期正在崩潰為縮短小時甚至分鐘級。變革的核心驅動力承載架構的演進。目前的架構智能體工作流通常是線性的，建立於單一的這種下游窗口。而2026年的多智能體分層架構將引入“編排者智能體”（Orchestrator Agent）。該中心大腦負責任務分層、分發工作和質量控制，指揮於架構、編碼、測試和審查的“專家智能體”架構工作。這種協作模式使得智能體不再侷限於完成數十內完成的離散任務。報告預測，長效運行的智能體（Long-running Agents）將能夠連續工作數小時甚至數天，獨立建構和測試整個應用程式系統，並在關鍵決策點尋求人類的戰略指導。日本樂天集團（Rakuten）的案例慘遭這一趨勢。其工程師利用 Claude Code 在擁有 1250 萬行程式碼的龐大開源庫（vLLM）中實施了一項複雜性的啟動提取方法。究竟可能需要數周的工作，智能體在單次運行中僅需 7 小時即可完成自主，且實現的結果與參考方法相比達到了 99.9% 的精度。這種能力不僅是速度的提升，更是任務複雜性處理度的變遷。協作部落論與工程師角色的重構隨著智能體承擔了更多的實施工作，一個關鍵的成本分數浮出水面：這種轉型本質上是高度協作的，而不是簡單的替代方案。人類的社會影響團隊研究發現了一個耐人尋味的“協作工作論”：雖然開發人員在約 60% 的中使用了 AI，但他們報告能夠“完全授權”給 AI 的任務比例大約 0-20%。這表明，人工智慧正在成為一個持續的合作者，但有效使用它需要深思熟慮的設定、主動的監督和嚴格的驗證。對於高風險工作而言，人類的判斷力相等。報告強調，未來的軟體工程師將不再是程式碼的編寫者，而是智能體的“編排者”。他們的核心價值將轉移到系統架構設計、智能體協調、質量評估以及將業務轉化為技術路徑的戰略決策問題上。這種角色的轉變反而工程師變得更加“全端”。研究顯示，借助AI補知識空白，工程師現在可以更有效地覆蓋遠端、遠端、資料庫設施和基礎設施等領域工作。究竟需要數周跨團隊協調的任務，現在可以在重點的工作會話中完成。例如，金融科技平台CRED利用Claude Code覆蓋了整個開發生命周期，在保持金融服務的高品質標準的同時，將執行速度提高一倍。另外，生產力的提升在速度上，更體現在財富的“體量”和“廣度”上。人類的內部研究發現，約27%的人工智慧輔助工作由那些“具體不會行動”的任務組成。這包括清理長期積累的技術債務、建構前期因成本過高而被擱置的“錦上添花”的工具，以及進行探索性的原型設計。加拿大電信黨TELUS的團隊在將程式碼交付速度提高 30% 的同時，建立了超過 13,000 個定製的 AI 解決方案，這在傳統模式下是不可想像的。泛化與防禦：程式碼權力的下放與雙刃劍2026年的智能體編碼趨勢開創了專業的軟體工程團隊，它正在向新的領域和使用者群體擴展，推動技術的民主化。首先是語言障礙的消失。智能體編碼將分裂COBOL、Fortran等傳統語言以及特定領域的母語。這將極大地降低繼承系統的所有權，使企業能夠更輕鬆地對核心舊舊系統進行現代化改造。更必然的影響具有非技術角色的賦能。報告預測，來自銷售、行銷、法律和營運等非技術團隊的員工將獲得建構自動化工作流和工具的能力。例如，自動化平台 Zapier 已經實現了全員 AI 普及，設計團隊利用 Claude 在客戶訪談期間即時原型，而這在過去需要數周時間。人性化自身的法律團隊也通過建構自動化合同修訂的工作流，將支出審查的周轉時間從兩周到三天大約達到了 24 小時。然而，這種能力的普及也帶來了“雙重用途”的風險。報告指出，智能體編碼在增強防禦能力的同時，也可能被攻擊者利用。隨著模型變得更加強大，建構行為安全的應用程式變得更加容易，任何工程師都可以在人工智慧的輔助下執行之前需要專家級知識的安全審查和牙齒。但與此同時，威脅能力同時利用相同的擴展攻擊規模。針對這一挑戰，報告建議企業採用“安全優先”的架構。自動化的智能體防禦系統將能夠以機器速度響應威脅，這是對抗自動化攻擊的唯一有效途徑。這要求工程師在設計之初就將安全性嵌入到智能體系統中，而不是作為事後的補充。結語：從增量工具到戰略核心人類的這份聲明清晰地描繪了一個分嶺：2026年，智能體編碼將不再是提高效率的外掛，而是企業參與的核心戰略原動力。早期的採用者與落後者之間的差距正在迅速擴大。對於企業領導者而言，未來的當務之急不僅僅是部署工具，而是掌握多智能體協調的，建立規模化的人機協作監督機制，並賦能整個組織的領域專家。成功的關鍵不是試圖將人類從循環中移除，而是通過智能協作，讓人類的智慧聚焦於最關鍵的決策點。在這個新時代，軟體開發佇列一行行程式碼的編寫，漸進為智能系統的宏大編排。 (21世紀關鍵技術)

DeepSeek-OCR-2 正式上線

DeepSeek-OCR-2 正式上線文件解析性能顯著提升昨天，深度求索（DeepSeek）正式推出新一代文件解析模型「DeepSeek-OCR 2」。該模型採用全新的視覺編碼器架構 DeepEncoder V2，在文件解析能力上實現重要突破。技術架構升級視覺因果流是核心創新，引入類似大語言模型的因果推理機制，使圖像理解更貼近人類閱讀邏輯。視覺編碼器 DeepEncoder：約3.8億參數，用於圖像轉視覺標記序列解碼器：30億參數 MoE 模型，推理時表現為5.7億參數模型性能表現優異OmniDocBench v1.5 測試得分：91.09%，較上代提升3.73%閱讀順序精準率大幅提升純文字提取精度達97%-98%多模態能力突出不僅限於文字提取，還支援：圖表、公式、化學結構識別表格圖像轉 HTML 或 Markdown豐富結構化輸出，滿足多種場景需求開源策略促進發展MIT 許可證開源，可在 Hugging Face 和 GitHub 獲取支援動態解析度與多裁剪策略提供 Transformers 和 vLLM 推理示例部署靈活性優勢本地運行，保障資料隱私支援自訂輸出格式，提示詞靈活引導適用於敏感文件處理場景技術發展前景未來有望擴展至多模態統一編碼器共享因果推理框架，融合圖像、文字、語音等輸入社區驅動開發，加速模型迭代行業影響初顯推動多模態模型走向開源生態打破傳統OCR服務商壟斷格局降低使用門檻，增強市場活力應用場景廣泛涵蓋 OCR、版面解析、圖像描述等任務適合企業級文件處理與科研機構定製化開發本地部署保障資料安全技術路線清晰雙階段訓練策略：先獨立訓練視覺編碼器，再聯合訓練提高OCR魯棒性與佈局適應性市場定位明確精準性高、靈活性強、成本可控超越部分傳統OCR服務通過社區反饋持續最佳化產品體驗小結DeepSeek-OCR 2 的發佈是開源多模態AI的重要里程碑。它不僅提升了文件解析性能，也通過開源策略賦予使用者更高的自由度和掌控力。這一變革或將重塑OCR服務市場的競爭格局，值得長期關注。 (MaXTe)

Claude Cowork一周半純AI編碼交付—產品和工程研發的新範式

昨天Claude發佈了cowork，一個針對非技術工作者的知識工作工具而據他們產品部門的分享，Cowork 僅用 1.5 周就交付完成，而且程式碼是100% Claude Code生成這開創了AI自我迭代的新範式，也創造了交付速度的記錄“我們人類會面對面地討論基礎架構和產品決策，但我們所有開發人員都會管理 3 到 8 個 Claude 實例，用於實現功能、修復錯誤或研究潛在的解決方案。”Claude Code 的影響力不再僅僅侷限於開發者。非技術人員也用它來建構項目。技術人員也用它來處理非技術工作。技術與非技術之間的界限正在變得模糊。我絕不是第一個想到這一點的人。Anthropic 的多個團隊幾個月來一直在研究“智能體體驗”——Claude 不僅僅是聊天夥伴，還能幫助你完成實際工作。@bcherny提醒我：我們能否利用內部開發成果，在幾天內發佈一個早期精簡版？於是我們組建了一個小團隊，設定了一個緊迫的截止日期（“周一怎麼樣？” ") ，然後就開始工作了。@claudeai寫道：Cowork。我們人類面對面地討論基礎架構和產品決策，但我們所有開發人員都管理著 3 到 8 個 Claude 實例，用於實現功能、修復錯誤或研究潛在的解決方案。對於原生程式碼，我們使用本地機器上的本地 Git 工作樹。對於較小的改動或僅涉及 Web 程式碼的改動，我們只需讓 Claude 去實現即可。當有人在 Slack 中報告 bug 時，我們通常直接 @ 提及 Claude 並讓他修復。所有程式碼在合併前都會由一位人工（以及另一位 Claude）進行稽核，但我們現在大部分時間都花在協調眾多 Claude 的工作和做出決策上，而不是精心編寫每一行程式碼。我們提前發佈了 Cowork。它還有一些不完善的地方。但如今，軟體工程中最難的部分莫過於確定要開發什麼——我們認為，儘早獲得反饋，瞭解使用者的實際需求，才是打造真正優秀產品的關鍵。如下是cowork的系統提示詞(大道至簡不簡單)

OpenAI發佈自主編碼代理Codex，程式設計師的工作將被徹底顛覆？

OpenAI剛剛發佈了全新的自主編碼代理Codex，一個能自己建構功能和修復bug的AI助手！這已經不是簡單的程式碼補全工具，而是能夠獨立完成整個程式設計任務的AI代理。OpenAI CEO Sam Altman 宣佈稱：今天我們推出了codex。它是一個在雲端運行的軟體工程代理，可以為你執行編寫新功能或修復bug等任務。你可以平行運行許多工。並且，Plus 帳號還得等等（我猜是等你充錢成為Pro 帳號）：而Codex 是什麼呢？與其他AI編碼工具不同，Codex不是一個聊天介面，而是一個面向任務的工具。你只需描述編碼任務，它就會在沙盒環境中啟動你的程式碼庫，運行測試和程式碼檢查，確保一切正常運行。受OpenAI 邀請，Every團隊已經提前體驗了幾天，Dan Shipper對此印象深刻，還特別邀請了Codex產品團隊成員Alexander Embiricos進行了深度對話，一起來看看這款革命性工具到底有多強！註：本文部分內容參考了Dan Shipper 的使用體驗文章——https://every.to/chain-of-thought/vibe-check-codex-openai-s-new-coding-agentCodex是什麼以及它如何工作？Codex是專為高級工程師設計的自主編碼代理，能夠自動執行加入功能或修復bug等編碼任務。與其他AI編碼工具的最大區別在於，它允許你同時啟動多個會話，讓多個AI代理平行工作。使用者介面非常簡潔，只有一個文字框讓你描述程式設計任務，然後是兩個按鈕：「Ask」和「Code」。這種設計很有深意——它不是一個聊天框，而是一個任務委派介面。當你按下「Code」按鈕後，Codex會將你的任務加入佇列，開始工作。它會在自己的沙盒環境中啟動你的程式碼庫，在那裡可以運行測試和程式碼檢查工具，以便自己捕捉錯誤。但與Devin不同，它還沒有訪問瀏覽器的能力，無法使用它編寫的程式碼來檢查功能是否正常運行。當任務完成後，它會給你一個簡潔的總結和程式碼差異，讓你清楚看到具體做了那些更改。還有一個按鈕可以輕鬆地將這些更改作為PR提交到Github上。Codex被訓練有「品味」OpenAI通過強化學習對Codex進行了微調，讓它掌握了專業軟體工程師的技能——如何編寫良好的PR標題和描述，如何處理大型混亂的程式碼庫，如何以及何時運行測試等等。訓練團隊向Codex展示了大量程式碼庫——既有乾淨的也有混亂的——這讓它感覺自己擁有更多實際經驗，最關鍵的是，比其他編碼模型有更好的品味。這一點很明顯：Codex產生的程式碼簡潔、精煉，總結也簡明扼要。Dan 親自體驗了這一點，Codex成功地一次性完成了他們內部應用Paradigm的樣式修復。還有一次，他讓Codex給他們的郵件助手Cora加入一個新功能——保存UI展開和摺疊狀態——Codex也迅速而出色地完成了。「豐富思維模式」最適合與代理互動Codex的設計鼓勵一種特殊的使用方式：它強調建立小型、自包含的任務，這些任務轉化為小型、易於審查的PR。這使其非常適合在生產環境中工作的專業軟體工程師，因為它使跟蹤和理解程式碼庫的變化變得更容易。這種方式讓你從程式設計師變成了管理者，如在最初使用Devin時的體驗——就像大學時代玩線上撲克，可以同時運行3-4個桌子，或者，多個窗口倍速同時看不同集的電視劇😂Dan和Kieran的體驗很能說明問題：我昨晚花了大約一小時與Kieran一起結對程式設計，我們聊天的同時向Codex傳送任務，然後測試返回的結果。這是一種更加社交化的程式設計模式，因為使用Codex時你可以分散注意力。這種「豐富思維模式」讓使用者能夠同時委派多個任務而不陷入細節。這允許你將大量代理指向特定任務，比如一個難以解決的bug——即使只有一個成功，也是值得的。Codex的不足之處Codex雖然強大，但也有明顯的侷限性。首先，它不是聊天產品，它位於與ChatGPT分離的介面中，明顯是圍繞特定工作流建構的：給它一個編碼任務，得到一個完成的結果。它對後續請求處理不佳。如果你要求它建構一個功能，然後意識到你想加入或修改它所建構的內容，後續請求是否有效完全是個賭博。因此，它對資歷較淺的工程師不太友好，更適合小型、自包含的任務。如果你像高級工程師一樣在腦中瞭解整個系統的工作原理，並確切知道要建構什麼，你可以將請求輸入任務框並繼續你的一天。如果你更喜歡來回聊天一段時間來確定要建構什麼以及如何完成，Codex將無法很好地工作。此外，它還沒有與大多數工程環境（如Github和Slack）完全整合。雖然它可以向Github發佈PR，但不能響應PR上的評論告訴它需要更改什麼。這些功能可能會隨著時間的推移而加入，但目前增加了一些使用摩擦。OpenAI對代理的思考Codex是OpenAI最終想要建構的統一超級助手的一部分——一個能幫助使用者輕鬆完成任務的代理，在幕後為他們選擇合適的工具。而OpenAI似乎正從兩個角度攻克程式設計問題：考慮到OpenAI報導收購AI編碼代理Windsurf，似乎OpenAI正從兩個角度攻克程式設計。一旦Windsurf完全整合到其生態系統中，它將提供程式設計師和AI之間緊密、協作的程式設計體驗。而Codex則是為自主委派而建構的。這讓我不禁想起OpenAI的另一個產品Operator，它也是分離出來的獨立工具，因此使用者必須記得使用它。由於更加專業化，它的靈活性也相對較低。自Operator五個月前推出以來，我們還沒有看到任何重大更新——考慮到OpenAI報導收購Windsurf，我懷疑Codex是否會有同樣的命運。程式設計的未來OpenAI 對程式設計未來的願景是什麼？未來開發人員可能會花更少的時間編寫常規程式碼，而花更多時間指導代理、審查他們的工作並做出戰略決策。程式設計將變得更加社交化，讓團隊可以輕鬆地同時委派多個任務，讓人們專注於想法和協作而不是常規編碼。而Codex 或將是是自主程式設計的下一步，但我們還需要一段時間才能知道它是否恰好是展現程式設計未來的產品。一方面，OpenAI為高級工程師製作了一個程式設計工具並取得了成功。高級開發人員通過能夠同時啟動多個建構良好的任務獲得了不錯的生產力提升。它還改變了編碼的體驗，如Dan所述，使用Codex進行編碼時可以分散注意力，這是一種更加社交化的程式設計模式。但另一方面，發前所述，Codex讓我想起OpenAI的電腦使用代理Operator——它被分離成自己的工具，所以必須記得使用它。或許，Codex 會走向和Operator 同樣的結果。而且因為它更專業化，所以本質上更不靈活。又或許，使用者會希望能夠在不同的任務和一天中的不同時間段之間來回切換這兩種工具。伸手測試伸手測試的結果顯示：Kieran（已接受代理理念的技術領導者）：是的，他一直在思考如何使用它。Dan（技術愛好者CEO，周末編碼愛好者）：否，但這是因為他通常是在編寫全新的想法而不是現有產品。總體評價：如果你是技術領導者，在現有程式碼庫上加入功能或修復bug，你會想要使用它。如果你想要建立一個新的「一人十億美元SaaS公司」，去別處看看吧。註：伸手測試"Reach Test" 是Dan Shipper提出的一個概念或測試標準，用來評估AI產品的實用性和長期價值。AI產品長期實用性的最佳領先指標是什麼？我稱之為“伸手測試”——我是否發現自己自動轉向這個工具來完成某些任務？還是我只是把它放在架子上忘記它的存在？簡單來說，這是一個判斷AI工具實際價值的直觀測試：如果你在需要完成特定任務時會自然而然地“伸手”去使用這個工具，說明它確實有用且融入了你的工作流程；如果你總是忘記使用它，那麼不管它多麼先進，實際價值都會有限。這實際上是一個很實用的評估新技術工具價值的方式，關注的是使用者的自然傾向和實際使用習慣，而不僅僅是技術規格或能力。而顯然，Codex不是一個「隨性編碼」的能通過伸手測試的工具。我能看出它不是為了取代高級軟體工程師而建構的，而是作為他們的工具。但無論如何，Codex的出現標誌著自主程式設計的新時代即將到來。對於高級開發人員來說，這是一個強大的生產力提升工具；對於整個行業來說，這預示著程式設計方式的根本轉變。 (AGI Hunt)

30億收購！OpenAI憑什麼敢重金壓碼？

你還在用ChatGPT聊天？巨頭們已經開始了一場新的佈局！🔥震撼消息：AI巨頭OpenAI正以30億美元天價洽購編碼工具Windsurf！這一手筆不僅是OpenAI史上最大收購，更是AI行業新一輪洗牌的開始。為何一家編碼工具公司值這麼多錢？這背後暗藏著怎樣的野心？👀編碼即競技場：巨頭們的下一個必爭之地AI輔助編碼不再是小眾技術，而是科技巨頭們的必爭之地。想像一下：只需用日常語言描述需求，AI就能自動生成完整程式碼，這不僅改變了程式設計師的工作方式，更顛覆了整個軟體開發行業！Windsurf（前身為Codeium）成立僅3年，卻已吸引超2億美元投資，估值從去年的12.5億美元飆升至今日的30億美元。這家公司到底有什麼魔力？答案簡單：在AI編碼這個風口，誰能領先一步，誰就能掌握下一代技術革命的入場券。💰合併潮來臨：吃與被吃的生存法則隨著AI領域競爭加劇，"大魚吃小魚"已成常態。OpenAI此前已悄然收購了Rockset和Multi，而此次對Windsurf的收購將直接對標Anthropic、微軟Github和Anysphere等強勁對手。考慮到OpenAI剛剛完成400億美元融資，估值高達3000億美元，這筆30億的收購對它而言不過是小菜一碟。但對整個行業而言，這是一記響亮的訊號：整合時代已經到來，獨立生存將越來越難！⚔️贏家通吃的AI未來在這場AI競爭中，勝者將獲得巨大的技術優勢和市場份額。OpenAI通過收購Windsurf，不僅獲得了頂尖的AI編碼技術，更打通了程式碼生成與其現有AI模型的聯絡，為使用者提供從創意構思到程式碼實現的一站式解決方案。這樣的戰略佈局，將使OpenAI在與Google、微軟、Anthropic的競爭中佔據更有利位置。而對普通使用者來說，意味著更智能、更強大的AI工具即將到來！🚀當AI能夠編寫複雜程式碼，當創意變成現實只需一句指令，我們的工作方式、學習方式甚至思考方式都將被徹底改變。你如何看待這場AI巨頭的收購戰？AI編碼工具會讓程式設計師失業還是創造新機會？歡迎在評論區分享你的觀點，也別忘了轉發給關注科技的朋友，一起見證這場改變世界的技術革命！ (澤問科技)

超越Sora！阿里正式完全開源最新、最強大的視訊生成模型 Wan2.1

阿里巴巴通義實驗室正式開源了他們最新、最強大的視訊生成模型 Wan2.1 系列！ Wan2.1 亮點速覽 ✨ 複雜運動: 視訊動作更流暢自然，複雜場景也能輕鬆駕馭 🧲 物理模擬: 物體互動更真實，視訊更具沉浸感

華為提出多模態部署新方案！記憶體節省15倍，吞吐量提高57%，遠超所有基線！

今天給大家帶來華為最新的大模型論文。能做多模態大模型最佳化的企業較少，希望大家能從中有所啟發。【論文標題】 Efficiently serving large multimedia models using EPD Disaggregation 【論文連結】https://arxiv.org/pdf/2501.05460v1

微軟AI程式設計師登場，10倍AI工程師真來了？996自主生成代碼，性能超GPT-4 30%

全球首個AI程式設計師Devin誕生之後，讓碼農紛紛恐慌。沒想到，微軟同時也整出了一個AI程式設計師──AutoDev，能夠自主產生、執行程式碼等任務。網友驚呼，AI編碼發展太快了。全球首個AI程式設計師Devin的橫空出世，可能成為軟體和AI發展史上一個重要的節點。它掌握了全端的技能，不只可以寫程式碼debug，訓模型，還可以去美國最大求職網站Upwork上搶單。一時間，網友們驚呼，「程式設計師不存在了」？