#Agent
AI Coding 走到深處:金融開發中心為什麼必須走向“一崗一助手”
金融智能研發的下一步,不是給所有人一個統一聊天框,而是讓每個崗位都有自己的 AI 助手。萬能助手解決個人效率,一崗一助手解決金融級生產流程。金融研發不是一個動作,而是一條由崗位、流程、權限、知識和責任組成的長鏈條。一崗一助手,把 AI 從“黑盒聊天工具”變成了“可審計的生產節點”。萬能助手像一個人帶了一台“萬能破譯機”;一崗一助手像每個工位都配了一把“帶行車記錄儀的專用工具”。測試、交付、維運不智能化,AI Coding 只會把壓力往後傳。崗位智能體真正改變的,不是某個環節的效率,而是研發全鏈路的協同方式。未來金融開發中心,不只是人力組織,而是一套“人 + 智能體 + 知識資產 + 流程規則 + 責任邊界”共同運行的生產系統。01. 萬能助手為什麼不夠用金融機構做 AI Coding,為什麼一個統一 萬能的AI 助手不合適,它能問答,能寫程式碼,能解釋報錯,能生成單測,能總結文件,所有研發人員都可以用。這一步當然有價值。它能快速降低 AI 使用門檻,讓一線研發人員先感受到 AI 的能力,也能在很多零散場景裡帶來效率提升。但只要真正進入金融研發流程,就會發現一個萬能助手很快不夠用。因為金融研發不是一個單一動作,而是一條長鏈條。一個需求從業務想法到生產運行,至少要經過需求、設計、編碼、測試、交付、維運。每個環節的上下文不同、工具不同、權限不同、風險不同、責任也不同。產品經理關心業務目標和需求邊界。架構師關心系統邊界、介面關係和長期可維護性。開發人員關心程式碼實現、工程規範和單元測試。測試人員關心場景覆蓋和出口質量。交付人員關心版本完整性和投產風險。維運人員關心故障定位、告警降噪和生產穩定。這些崗位表面上都在“做軟體”,但實際面對的是完全不同的問題。一個萬能助手如果同時服務所有崗位,最後很容易變成“什麼都能答一點,但什麼都不夠深入”的通用問答工具。它適合個人提效,不適合進入金融級生產流程。所以,AI Coding 走到深處,金融開發中心需要的不是一個越來越大的萬能助手,而是一組越來越懂崗位、懂流程、懂責任的崗位智能體。02. 一崗一助手不是把 AI 拆複雜而是把 AI 放進真實生產關係為什麼要切這麼細?不是為了複雜,而是因為金融研發本來就是按崗位、流程、權限、責任和風險組織起來的。AI 要進入生產,也必須按同樣的方式被組織起來。從責任邊界看,需求是誰確認的,設計是誰稽核的,程式碼是誰採納的,測試是誰放行的,版本是誰交付的,故障是誰處置的,都必須清楚。一個萬能助手跨越多個崗位,很容易讓責任變模糊。崗位智能體對應崗位責任,需求助手就處理需求,設計助手就處理設計,編碼助手就處理編碼,交付和維運也各自有邊界。邊界清楚,責任才清楚;責任清楚,AI 才敢進入生產流程。從專業上下文看,不同崗位需要的知識完全不一樣。需求智能體需要業務規則、產品範本和需求用例。設計智能體需要應用架構、介面文件、表結構和歷史程式碼。編碼智能體需要工程規約、程式碼上下文和開發工具。測試智能體需要測試資產、測試資料和缺陷案例。交付智能體需要流水線、版本、環境和投產規則。維運智能體需要日誌、指標、鏈路和告警知識。上下文不一樣,智能體就不能混用。拿一個通用助手去服務所有崗位,就像拿一把瑞士軍刀去修飛機:能擰幾個螺絲,但不可能成為生產線上的專業工具。從工作流看,金融研發不是隨問隨答,而是流程驅動。需求輸出要進入設計,設計輸出要進入編碼,編碼輸出要進入測試,測試結果要進入交付,生產問題還要反哺維運和研發知識庫。崗位智能體不是孤立回答問題,而是流程節點上的執行者和連接器。從權限安全看,不同崗位能看什麼、能調什麼、能執行什麼,必須被嚴格劃開。需求智能體不能隨意呼叫生產日誌。編碼智能體不能越過程式碼門禁。交付智能體不能繞過投產審批。維運智能體不能在沒有授權和留痕的情況下執行生產動作。從效果評估看,萬能助手很難評價真實價值,但崗位智能體可以被量化。需求智能體看需求澄清效率和需求用例質量。設計智能體看設計採納率和設計缺陷檢出率。編碼智能體看程式碼採納率、AI 入庫率、單測覆蓋率。測試智能體看案例覆蓋率、缺陷發現率、測試結果精準率。交付智能體看風險提前識別率。維運智能體看故障定位精準率和平均處置時間。一崗一助手不是技術花樣,而是金融研發組織邏輯在 AI 時代的自然延伸。萬能助手像一把什麼都能碰一下的瑞士軍刀。一崗一助手更像流水線上的專用工裝,每個工位都為自己的任務、標準和責任而設計。03. 一崗一助手本質是在提高 AI 研發的確定性金融機構不能只追求 AI “會不會做”,更要追求 AI “能不能穩定地做、按規矩做、出了問題能不能說清楚”。通用大模型天然帶有隨機性。同一個問題,不同上下文、不同提示方式、不同模型版本,可能生成不同答案。對個人寫材料、寫程式碼初稿,這不一定是大問題;但對金融研發來說,這就是生產風險。金融軟體不是創意寫作,它有明確技術堆疊、架構邊界、介面規範、資料口徑、安全要求、測試標準和投產流程。AI 如果脫離這些約束自由發揮,越能生成,越可能帶來不可控。一崗一助手的價值,就是把大模型的通用能力壓進具體崗位的工作秩序裡。需求智能體通過業務規則、產品範本和驗收標準約束輸出。設計智能體通過應用架構、介面關係、表結構和歷史程式碼約束輸出。編碼智能體通過工程規約、程式碼上下文和安全規則約束輸出。測試智能體通過測試資產、缺陷案例和覆蓋標準約束輸出。交付智能體通過流水線、環境、版本和門禁規則約束輸出。維運智能體通過日誌、指標、鏈路和告警知識約束輸出。這樣,AI 就不是憑感覺回答問題,而是在崗位知識、崗位規約、崗位流程和崗位權限之內工作。萬能助手像一個聰明但不熟悉規矩的新員工,什麼都願意試;崗位智能體像一個被帶過、看過制度、知道邊界、懂審批流的熟練工。金融研發不怕 AI 聰明,怕的是 AI 聰明得沒有邊界,一崗一助手,就是給 AI 立邊界、裝規矩、接流程。萬能助手解決的是“個人能不能用 AI”。崗位智能體解決的是“組織能不能把 AI 放進生產流程”。04. 一崗一助手更符合金融行業的強審計要求金融行業做 AI,不只是看“能不能生成”,還要看“能不能審計”,強監管環境下,審計最關心的是這件事能不能被追溯:誰在什麼時間,基於什麼權限,呼叫了什麼能力,使用了那些資料,生成了什麼結果,誰稽核採納,最後流向那裡。萬能助手最大的問題,是邊界太寬。所有人都在同一個通用助手裡提問,輸入輸出混在一起,事後只能翻一堆聊天記錄,很難判斷某個結果到底屬於需求分析、設計判斷、編碼建議、測試結論,還是交付決策。某種意義上,萬能助手就像一個人帶了一台“萬能破譯機”:看起來什麼都能做,但誰用它做了什麼、基於什麼權限做、結果流向那裡,並不容易說清楚。一崗一助手更像每個工位都配了一把“帶行車記錄儀的專用工具”。需求智能體處理需求,設計智能體處理設計,編碼智能體處理程式碼,測試智能體處理覆蓋,交付智能體處理版本風險,維運智能體處理故障鏈路。每個智能體都對應一個崗位、一個流程節點、一類權限和一組輸出物。這就把 AI 從“黑盒聊天工具”,變成了一個個“可審計的生產節點”。它至少帶來四個變化。第一,責任主體更清楚。出了問題,可以沿著崗位鏈條追溯,而不是籠統地說“AI 生成的”。第二,日誌從聊天記錄變成生產記錄。一崗一助手留下的是任務編號、關聯需求、輸入文件、呼叫工具、生成結果、稽核記錄、流轉節點,更適合自動化審計。第三,合規護欄可以按崗位嵌入。測試智能體可以強制檢查測試資料脫敏,編碼智能體可以強制掃描硬編碼金鑰和開源漏洞,交付智能體可以強制校驗投產審批單和環境一致性,維運智能體可以強制記錄生產訪問授權和操作留痕。第四,異常監控更精準。當智能體按崗位拆分後,管理平台可以監控每個智能體的呼叫量、權限訪問、Token 消耗、失敗率、越權嘗試和異常行為。需求智能體不該頻繁訪問日誌。維運智能體不該在非窗口期呼叫生產工具。交付智能體不能繞過審批檢查。這些異常在萬能助手裡很容易被淹沒,在崗位智能體體系裡卻能更快被發現。所以,一崗一助手不是把 AI 做複雜,而是把 AI 放進可追溯、可治理、可問責的生產秩序裡。對金融機構來說,審計不是事後翻聊天記錄,而是從一開始就讓 AI 在正確的崗位邊界裡工作。05. 全球共識 Agent 必須進入工作流也必須被治理從公開實踐看,全球頭部金融機構正在形成共同方向:AI 研發不會停留在一個通用聊天框,而會進入崗位、流程和責任邊界。DBS 對 Agentic AI 治理的表述很有代表性。DBS 認為,真正的 AI 自主並不意味著沒有控制,而是需要更有策略的控制;其 AI 部署強調人類監督治理,包括升級路徑、審計軌跡和 fallback 機制,以確保決策可解釋、可問責並與意圖一致。DBS 還提出,企業在部署多個 agent 時,需要考慮 agentic control plane,對企業內所有 agent 進行監督。Citi 的做法更能說明責任邊界。公開報導顯示,Citi 正在向 4 萬名開發者推出 agentic AI,用 Devin 處理軟體補丁、升級等任務;其技術負責人明確表示,不允許 agent 部署程式碼,agent 只產出 artifacts,交給開發者,並經過自動測試和人工 review。Citi 還把內部軟體文件、最佳實踐和知識庫用於約束 agent 行為,不希望 agent “創造性地”引入新技術。Morgan Stanley Research 的判斷也很直接:當 AI coding assistants 和 agents 成為標準開發工作流後,傳統軟體工程師會更多轉向複雜應用,成為 curators、reviewers、integrators 和 problem-solvers,變得更戰略、更有價值;同時,AI 生成程式碼增多,也會把瓶頸推向程式碼審查、測試、安全、驗證和部署等後續環節。Bank of America 的公開材料也提到,其 AI 方法包括 human oversight、transparency 和 accountability for all outcomes;其軟體開發人員也在使用 GenAI 工具輔助程式碼編寫和最佳化,效率提升超過 20%。這些案例放在一起看,結論很清楚:金融機構不是不敢用 Agent,而是必須把 Agent 放進工作流、權限邊界、稽核機制和治理框架裡。這也是一崗一助手的核心邏輯。讓 AI 幹活可以,但不能讓 AI “無證駕駛”。金融研發裡的 Agent,不是無人駕駛汽車沖上高速,而是進了調度系統、裝了行車記錄儀、限定了路線、設定了剎車、有人遠端監管的專業車輛。06. 招行的啟示 從程式碼助手走向任務級研發智能體招行這條線,最值得看的不是“通用模型”,而是直接進入研發現場的 DevAgent。深圳市委金融辦發佈的招商銀行項目展示中提到,招行自研“研發智能體 DevAgent”,採用“感知—規劃—執行—反饋—進化”的多輪互動 ReAct 模式,可結合程式設計現場環境感知、企業研發知識檢索等工具,以開發者業務目標為驅動,提供任務級功能需求開發能力,並具備跨檔案、大片段程式碼生成能力。公開材料顯示,DevAgent 每月完成超過 4.8 萬個開發任務。這說明頭部銀行的 AI 研發已經不只是“問答 + 程式碼補全”,而是在把 AI 放進真實開發現場。它要理解當前工程環境,呼叫企業研發知識,拆解開發任務,並在多輪反饋中完成任務。DevAgent 的關鍵詞不是“通用”,而是“現場感知、知識檢索、任務級開發、跨檔案生成”。這恰好說明,金融研發 Agent 的方向不是萬能助手,而是懂崗位、懂工程、懂企業知識的專業智能體。一個真正能進入開發現場的 AI,不能只會說“我建議你這樣寫”;它還要知道這個工程在那裡、規範是什麼、改那些檔案、影響那些介面、怎麼跑檢查、最後誰來稽核。07. 工商銀行樣本 一崗一助手 更像金融級研發秩序重建在中國金融科技語境下,工商銀行的智能研發建設尤其值得關注。作為超大規模金融機構,工商銀行面對的是超大規模客戶、複雜系統體系、高安全合規要求和大規模研發組織協同。在這樣的背景下推進 AI Coding,難點不是接一個程式碼助手,而是如何讓 AI 進入真實研發流程,並且可控、可審計、可規模化。從前面整理的建設方案看,工商銀行智能研發不是只做程式碼補全,而是圍繞需求、設計、編碼、測試、交付、維運全流程,推進智能研發能力建設。這個路徑的核心,不是“AI 能不能寫程式碼”,而是“AI 能不能在金融級軟體工程體系中穩定工作”。一崗一助手在這樣的超大組織裡,價值更明顯。需求、設計、編碼、測試、交付、維運每個環節都有自己的責任邊界,每個崗位都有自己的知識資產,每個階段都有自己的輸入輸出。如果只有一個萬能助手,很難承接這種複雜度。只有把 AI 按崗位拆開、按流程接起來、按責任管住,才可能進入金融級研發體系。這也是大型金融機構做 AI Coding 最容易被低估的一點:不是模型接入了,智能研發就完成了。真正難的是讓模型進入秩序,讓生成進入流程,讓結果進入審計,讓責任有人承接。08. 需求原型智能體 讓產品經理從“寫需求” 走向“定義意圖”需求階段,是金融研發最容易出偏差的地方。業務說一個方向,產品理解一版,開發再轉譯一版,測試最後補缺口。等系統做出來,才發現最初的業務意圖沒有被精準表達。這種損耗,在大型金融機構裡非常常見,需求原型智能體要解決的是需求階段的“第一公里”。它不是簡單幫產品經理寫幾段需求,而是把自然語言、會議討論、業務說明、草圖、歷史範本和同類案例,轉化為更清晰的需求資產。對產品經理來說,最大的變化是:需求不再只是寫一份文件,而是要把業務意圖轉化為可以被設計、編碼、測試繼續使用的結構化資產。需求智能體可以輔助生成原型,讓業務、產品、設計和開發圍繞一個“看得見的東西”討論。過去大家對著一段文字爭半天,現在可以先看到互動雛形,再討論流程、權限和邊界。它也可以輔助生成需求用例,把使用者角色、業務流程、輸入輸出、異常情況、權限邊界、資料口徑和驗收標準補齊。這樣下游拿到的不是一句“我要一個功能”,而是一組更接近可執行的需求資產。對產品經理來說,這不是被 AI 替代,而是要求更高了,未來好的產品經理,不只是會寫需求的人,而是能把業務目標講清楚、把邊界定義清楚、把 AI 生成結果判斷清楚的人。產品經理過去像“翻譯”,把業務話翻譯成研發話。未來產品經理更像“導演”,要讓業務、AI、設計、開發、測試在同一個鏡頭裡對齊。09. 設計智能體 讓架構師從“補文件”走向“沉澱系統邊界”在金融研發裡,設計階段最容易被低估。很多系統不是新建系統,而是在複雜存量系統上不斷演進。裡面有歷史程式碼、舊介面、表結構、公共元件、上下游依賴、技術債和業務規則。如果設計階段沒有把這些內容理解清楚,後面 AI 生成程式碼越快,返工也可能越快。設計智能體的價值,是幫助架構師和開發骨幹理解存量系統,並生成更高品質的設計。它不能唯讀當前需求,還要理解應用架構、功能清單、介面文件、表結構、歷史程式碼、公共方法和已有設計文件。它要知道這個系統過去怎麼做,那些地方能復用,那些介面不能亂動,那些模組有歷史約束。對架構師來說,最大的變化是:設計不再只是寫給評審看的文件,而是要成為後續智能體能夠執行的結構化藍圖。過去設計文件主要給人看。未來高品質設計要同時給人看、給 AI 看、給測試看、給交付看。它要成為連接需求、編碼、測試和交付的中間資產,這會倒逼架構師的價值上移。未來優秀架構師,不只是懂系統的人,而是能把系統邊界、介面關係、工程規則和長期約束沉澱成 AI 可執行資產的人。過去架構師是“救火隊長”,那裡複雜去那裡。未來架構師更像“軌道設計師”,軌道鋪得越清楚,AI 這列高速列車才越不容易脫軌。10. 編碼智能體:讓開發人員從“敲程式碼”走向“帶 AI 幹活”編碼智能體是現在最容易被看見的崗位智能體,但真正成熟的編碼智能體,不只是“幫我寫一段程式碼”。它要能理解任務、讀取上下文、遵守規約、呼叫工具、生成程式碼、生成單測、執行自檢,並在發現問題後自動修復。一個典型過程是:開發人員給出任務目標,編碼智能體讀取需求規格、詳細設計、工程規約、程式碼上下文和歷史資產;然後拆解任務,判斷需要改那些檔案、呼叫那些公共方法、補那些單測;再生成程式碼、運行檢查、修復問題,最後把結果交給開發人員稽核。對開發人員來說,最大的變化是:過去大量時間花在寫範本程式碼、補欄位、查規範、寫單測、改小錯上;未來這些工作會更多由智能體承擔。開發人員要做的,是把任務講清楚,把設計看明白,把規約補完整,把生成結果審得住。這不是開發人員價值下降,而是開發人員價值重新定價。未來好的開發人員,不只是寫程式碼快的人,而是會拆任務、會用 AI、懂系統、能審查、能兜住複雜邏輯的人。以前開發人員像“親自下地幹活的人”。未來開發人員更像“帶一組 AI 工人的工長”。活可以讓 AI 干,但圖紙對不對、工序對不對、質量過不過關,最後還得人接得住。11. 測試智能體讓測試人員從“後面接鍋”走向“前面設防”如果只做編碼智能體,不做測試智能體,智能研發很容易出問題,AI 生成程式碼越多,測試壓力也越大。如果測試仍然靠人工補案例、人工構造資料、人工執行指令碼,AI Coding 只是把壓力從開發環節推到了測試環節。這就像高速入口拓寬了,但收費站還是老樣子,車流遲早會堵在後面。測試智能體的關鍵價值,是讓測試從“後置執行”轉向“同步設計、自動構造、結果分析”。它要能基於需求、設計和程式碼生成測試案例,覆蓋正常流程、異常流程、邊界場景、權限場景和資料口徑。它要能理解業務資料結構、欄位約束、帳戶狀態、交易狀態和資料依賴,輔助構造可用測試資料。它還要能生成測試指令碼,分析失敗原因,判斷是環境問題、資料問題、指令碼問題,還是程式碼缺陷。對測試人員來說,最大的變化是:不再只是反覆執行案例,而是要設計質量體系。未來好的測試人員,不只是找 bug 的人,而是能定義覆蓋標準、識別遺漏場景、審查 AI 測試結果、把住質量出口的人。過去測試像“最後一道安檢”。未來測試要更像“全流程雷達”。不是等飛機落地再看有沒有問題,而是在起飛前、飛行中、降落前都持續發現風險。12. 交付智能體讓交付人員從“臨門救火”走向“提前控險”金融研發的交付環節,有大量流程、檢查、配置、環境、依賴和審批,很多問題不是編碼時暴露,而是在持續整合、版本打包、環境部署、投產交接和上線驗證時暴露,過去這些環節高度依賴交付人員經驗,一旦資訊不完整,風險很容易到最後一刻才出現。交付智能體要解決的是研發到投產之間的“最後一公里”。它不是簡單幫人點流水線,而是要成為“AI 交付工程師”。在資源供給階段,它可以根據需求項、應用、交付日期和投產安排,輔助識別程式碼庫、分支、環境、流水線和發佈單元。在持續整合階段,它可以監控建構失敗、門禁異常、部署異常,分析原因並推薦修複方案。在版本交付階段,它可以生成版本交付報告,識別程式碼增量、配置變更、門禁異常、環境差異和潛在風險。在投產前,它可以圍繞部署複雜度、歷史故障率、環境差異度和依賴關係,給出風險提示和處置建議。對交付人員來說,最大的變化是:過去很多精力花在流程操作和事後協調,未來更重要的是提前識別風險、組織閉環處置、保障版本穩定。交付智能體的價值,不只是減少人工操作,而是讓風險提前暴露。過去交付像“臨門一腳”。未來交付更像“塔台調度”。每一架飛機能不能起飛,天氣、跑道、路線、機組狀態都要提前看清楚。13. 維運智能體讓維運人員從“告警疲勞”走向“故障推理”很多智能研發文章講到程式碼生成就結束了,但金融系統真正的考驗在生產運行,服務超時、CPU 沖高、資料庫異常、鏈路波動、日誌堆積、告警風暴,這些問題發生時,真正需要的是快速定位、精準判斷和穩定處置。維運智能體要做的,不是簡單回答“這個報錯是什麼意思”,而是模擬資深維運專家的分析過程。它要能讀取指標、日誌、鏈路、告警、變更記錄和歷史故障案例;要能形成診斷計畫;要能邊查邊調整;要能在多個可能原因中做排除;要能生成故障分析報告;還要能把這次處置經驗沉澱為後續可復用的維運知識。對維運人員來說,最大的變化是:不再只是被告警推著跑,而是要把故障模式、處置路徑和專家經驗沉澱成組織能力。一個老專家知道先看那條鏈路、那個指標、那個歷史問題,新人很難一下子掌握。維運智能體如果能把專家經驗變成標準化診斷技能,就可以縮短新人學習曲線,也可以提升常見故障定位效率。維運智能體成熟以後,研發閉環才真正完整。因為生產反饋可以反哺設計、編碼、測試和交付,形成持續改進。過去維運像“消防隊”。未來維運更像“城市神經系統”。不僅要救火,還要提前感知那裡升溫、那裡堵塞、那裡可能出事。14. 一崗一助手的關鍵不是各做各的而是上下游協同一崗一助手聽起來像每個崗位都有一個獨立 AI,但真正的價值不在“獨立”,而在“銜接”。需求智能體生成的需求用例,要能進入設計智能體。設計智能體生成的詳細設計,要能被編碼智能體讀取。編碼智能體生成的程式碼和單測,要能被測試智能體接住。測試智能體發現的問題,要能反饋給編碼智能體修復。交付智能體發現的版本風險,要能反饋給開發和測試。維運智能體發現的生產問題,要能沉澱為知識資產,反向最佳化設計、測試和交付。如果每個智能體只是孤立工作,智能研發仍然是碎片化的,只有當結構化資產在智能體之間持續流轉,金融研發才會從“人和人之間反覆傳話”,變成“資產和流程在系統中自動銜接”。未來研發流程裡最重要的資產,可能不再只是程式碼,而是需求規格、設計資產、測試資產、交付資產、維運知識和規約體系。這些資產如果能持續流轉,智能研發才會越來越強。一崗一助手不是把每個崗位都做成一個小煙囪。它要做的是把每個崗位變成一段標準化軌道,最後連成一條能跑起來的智能研發生產線。15. 開發中心以後不僅管人也要管 Agent一崗一助手帶來的變化,不只是崗位效率提升,也會改變開發中心的管理方式。過去管理研發,主要看人力投入、項目進度、缺陷數量、版本上線、生產問題。未來還要看智能體使用情況、任務閉環率、知識命中率、規約覆蓋率、AI 程式碼入庫率、測試自動生成率、交付風險提前發現率、故障定位精準率、反饋閉環率。過去主要管理人、項目和系統。未來還要管理智能體、知識資產、規約資產、模型能力、算力資源和人機協作流程。過去我們管人,管流程,管系統,未來還要管 Agent,不管 Agent,AI 就只是散落在個人電腦裡的效率工具,管住 Agent,AI 才可能成為金融級研發生產力的一部分。開發中心未來要多一張“智能體組織圖”:每個智能體負責什麼崗位,能呼叫什麼工具,能訪問什麼資料,輸出什麼資產,由誰稽核,進入那個流程。沒有這張圖,AI 越多越亂。有了這張圖,AI 才能從個人工具變成組織能力。16. 不是讓崗位消失是每個崗位都站到更高的位置一崗一助手,聽起來是 AI 工具的事情,做深了才知道是研發組織的事情。它不是給每個崗位配一個聊天窗口,而是把每個崗位的知識、流程、工具、責任和經驗重新整理一遍,讓 AI 真正進入崗位工作流。金融開發中心過去靠人傳經驗、靠文件傳流程、靠會議傳上下文。未來,這些經驗、流程和上下文,要逐步沉澱成智能體能理解、能呼叫、能執行、能反饋、也能被追溯和審計的生產資產。做到這一步,AI 才不只是“幫開發寫程式碼”,而是開始參與需求、設計、編碼、測試、交付、維運的完整鏈條。真正的一崗一助手,不是讓崗位消失,而是讓每個崗位都站到更高的位置。 (Space AIThinker)
黃仁勳預言的100兆市場,被易鑫金融Agent撞開一道口子
【新智元導讀】黃仁勳說Agent將創造100兆美元。易鑫用Model+Harness的硬核組合,把這一預言提前落地汽車金融,效率革命已悄然拉開帷幕。大模型在垂直行業的落地,正邁入深度融合的新階段。過去一年,大模型概念在各行各業加速滲透。作為公認「最具AI潛力」的垂直領域,金融行業展現出了極高的敏銳度與行動力。行業資料顯示,金融行業成為大模型技術落地的核心戰場,全球近半數金融機構已積極引入大模型。儘管目前大模型在核心業務環節的應用仍不足10%,但這恰恰意味著一個超過90%的藍海市場正等待行業去開拓。然而,巨大潛能的背後,同樣伴隨著極高的落地門檻。金融業務兼具複雜性與專業性:獲客線索來源多且分散,單筆融資額從數萬到數十萬不等,業務周期普遍超過20天,所需材料最多可達60余種,涉及15+關鍵決策節點,業務路徑組合可達數萬種,且存在正向與逆向反覆決策過程。面對這種複雜、動態的業務鏈路,缺乏業務根基的通用大模型或簡單的「套殼」應用,往往只能停留在業務外圍。它進不了預審、碰不到風控,更摸不透資金鏈路,難以創造真正的價值。行業真正亟需的,從來不是只會泛泛而談的AI百曉生,而是一個懂業務、能幹活、守規矩的專屬AI解決方案。在此背景下,作為國內規模領先、AI驅動的金融科技平台,易鑫依託10餘年行業深耕經驗,推出了一套深度適配汽車金融場景的Agentic AI解決方案,為行業破局提供了可行路徑。(易鑫是一家AI驅動的金融科技平台,2017年在香港上市,2025年成為港交所科技100指數成員。目前年交易額已達到約750億元人民幣,全球擁有員工5000多人,核心產品為Agentic AI解決方案,深度賦能汽車金融全鏈路。)易鑫Agentic AI = Agentic Model + Harness易鑫Agentic AI解決方案的底層邏輯,源於一個核心公式: Agent=Model+HarnessModel與Harness相輔相成,缺一不可。大模型具備強大的理解、推理與生成能力,但在業務應用中存在很大的侷限性:沒有持久記憶,無法直接呼叫業務系統API;穩定性不足,易出現「幻覺」輸出;更關鍵的是,它缺乏業務約束機制,不懂得什麼叫「權限」與「合規」,能力無法直接轉化為業務價值。Harness則是彌補Model侷限性的關鍵。作為連接模型與應用的中間層框架,Harness的核心價值在於兩件事:一是賦予模型上下文管理和工具整合等能力,讓其能順暢處理複雜業務;二是給模型劃好規矩、守住底線,把不確定的機率性輸出轉化為確定的業務結果。Model提供智能潛力,Harness提供執行標準。基於這個邏輯,易鑫推出了行業首個專屬的Agentic大模型XinMM-AM1,並配套設計了全面的Harness AI Infra(Harness Framework)和三層Harness體系。這兩者的結合,正如易鑫CTO賈志峰所言,「Agentic基礎模型和Harness AI Infra,是金融垂直行業真正把Agent用起來的兩個輪子,缺一不可。」輪子一:專為汽車金融打造的Agentic大模型——XinMM-AM1XinMM-AM1絕非通用模型的簡單套殼,而是在業務實踐中打磨而成的專屬模型。極高的工程效率:參數量約為300億,單卡吞吐可達370 tokens/s,響應延遲低於200ms,可支援語音即時互動,完全匹配汽車金融一線業務的高效需求。優質的專有資料:擁有超過15T tokens的訓練語料,且絕大部分來自易鑫真實、多元的汽車金融業務場景,讓模型更懂行業痛點,更貼合業務實際。四大核心能力:全管道互動、全模態感知、全域協同決策和全量安全合規,全方位覆蓋汽車金融從管道到資管的全鏈路需求。輪子二:基於人機協同的Harness AI Infra和三層Harness體系為了讓Agent真正走進業務流程,易鑫設計了全面的Harness Framework和三層Harness體系(人類駕馭層、Agentic駕馭層、資料駕馭層)。這相當於Agent的「手腳」與「運行規則」,可使AI賦能的業務安全合規、全鏈可審計、低成本維護更新。人類駕馭層:在同一個訂單流裡,實現Agent與真人即時無縫切換,涵蓋語音、文字、圖片等多模態形式。在關鍵的合規節點,人類即時干預,成為風險兜底者。Agentic駕馭層:根據模型能力邊界和人類特長進行動態混合編排。一旦大模型出現「幻覺」或試圖做出違規承諾,系統能在毫秒級觸發熔斷機制,瞬間切換至人工干預鏈路。資料駕馭層:打通人與AI的運算元據,通過人類示範修正模型能力邊界,相關資料反哺模型訓練,這不僅放大了人與AI各自的優勢,還推動模型持續進化,Harness逐漸變輕。易鑫「Model + Harness」如何重塑核心業務?「Model + Harness」的協同效應,充分釋放了易鑫Agentic AI解決方案的核心價值。從前端智能進件,到中端風控決策,再到後端融後服務,易鑫Agentic AI解決方案,不再是孤立的單點應用,而是覆蓋汽車金融全鏈路的一站式AI智能服務解決方案。那麼,從概唸到落地,易鑫Agentic AI解決方案究竟如何通過「Model + Harness」賦能核心業務?場景化應用案例一:風控和反欺詐前置,建構全鏈路風險屏障傳統汽車金融風控多在客戶提交資料後進行風險攔截,主要依賴靜態徵信資訊與人工審批。易鑫Agentic AI採用全鏈路風險管控模式,不僅將風控節點前置,還可以處理語氣、語速、情緒波動等非結構化資料,實現風險的動態識別與即時攔截。管道線索即時核驗:客戶留資後,XinMM-AM1會立即呼叫管道風險識別工具,核查管道和線索的真實性和質量,並迅速判斷線索跟進的優先順序。聲紋檢測識別風險:確認線索後,XinMM-AM1自動呼叫外呼Agent致電客戶,並即時呼叫聲紋檢測工具,與歷史聲音風險庫比對,捕捉高風險訊號(如通過聲紋匹配發現客戶為歷史黑名單客戶)。多模態資訊無損納入決策:XinMM-AM1可以將文字、語音和圖片等多模態資訊無損納入建模過程中,減少傳統特徵工程帶來的資訊丟失,確保全量資訊參與決策,並提高模型泛化能力,識別更多長尾風險案例。人工鏈條即時介入:當系統檢測到潛在欺詐、高風險或複雜案例時,Agentic AI確保人工能立刻接手當前互動,並獲悉完整上下文,實現人機無縫協同。場景化應用案例二:一次對話即辦理,告別溝通「拉鋸戰」在傳統流程中,客戶常需要與資訊採集、產品推薦、風控驗證等多個環節重複對接,導致流程割裂與重複,同時影響審批效率與客戶體驗。易鑫Agentic AI通過多模態即時互動與跨模組協同,在一次互動中完成聯動和業務目標。情緒洞察與動態話術:在互動過程中,XinMM-AM1可呼叫情緒分析工具,即時檢測客戶情緒,識別客戶的真實意圖和上下文,並動態調整溝通話術,最佳化客戶體驗和互動效果。Example:以典型互動場景為例,當客戶說出「說了,你繼續說吧」時,僅從文字語義的角度極易將其判定為積極的溝通訊號。而XinMM-AM1能夠通過即時情緒分析,識別語調升高、語速加快等細微變化,進而判斷出語義背後隱藏的不耐煩、催促等負面情緒。基於此判定,XinMM-AM1會自適應調整為安撫性話術或主動轉換話題,從而更好地貼合客戶情緒,實現高效溝通。資訊採集與方案推薦:在互動過程中,XinMM-AM1能引導客戶提供進件資訊和電子授權,並自動完成進件資訊的採集。同時,XinMM-AM1能即時聯動產品與風控模組,根據資質推薦最優金融方案,在一次對話中完成資訊錄入和方案匹配。資料閉環與模型進化:人類處理複雜情緒、疑難問題、棘手案例的運算元據,同步反哺至XinMM-AM1的訓練,形成「AI助人,人教AI」的閉環。結語輝達CEO黃仁勳曾預言:未來的主流極有可能是Agent,新興的AI技術(如Agent和機器人等)將會創造100兆美元的價值。十四屆全國政協委員、科技部原副部長李萌則指出,從大模型到Agent,是AI向生產力落地的必然路徑,金融Agent更是撬動金融新質生產力的有力工具。宏觀趨勢已然清晰,關鍵在於如何落地。易鑫通過Agentic大模型與Harness的結合,讓AI真正應用於真實、複雜、充滿變數的汽車金融場景。汽車金融的效率革命已拉開序幕,而這,正是易鑫給出的答案。 (新智元)
【北京車展】2026北京車展:座艙AI進入決戰期,火山引擎給出新解法
什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?4月24日,2026 北京車展正式拉開大幕。經過多年新能源汽車賽道的飛速發展,整車外觀、三電動力、硬體配置的內卷早已漸漸降溫,智能座艙AI成為本屆車展最熱鬧、最核心的必爭賽道。曾有不少從業者向雷峰網坦言,“車展上,你到處可以見到各式各樣的‘龍蝦’。”以“龍蝦”為代表的新一代Agent開始進入車內,代表著AI從“功能控制”轉向“情感陪伴”與“主動服務”。熱鬧之餘,一個最樸素、最本質的問題一直擺在整個行業面前:什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?PART 1 座艙AI賽道的困局座艙AI並不是一個新概念,至少在大模型問世之前,座艙的互動感和體驗感還遠遠不夠。大模型到來後,讓座艙AI上了一個台階並走出兩條不同的發展路線:通用大模型跨界上車、部分車企自研模型。首先,通用大模型跨界玩家,底層AI功底十分紮實。依託海量網際網路資料訓練,它們在日常聊天、知識問答、長文字理解、多輪對話上能力出眾,雲端算力、語義理解基礎十分強大,能快速搭建起車機基礎語音互動,介面呼叫方便,上線速度快。但問題也很明顯:通用能力很強,可偏偏缺少汽車專屬的行業功底。這類模型日常處理網際網路資訊得心應手,訓練資料大多是百科、資訊、生活常識,對於汽車內部複雜的整車邏輯、細微的車控細節、車內專屬場景、行車過程中的各類專屬需求,瞭解得並不深入。很多用車裡的細碎需求就能直接暴露短板,比如大家日常高頻用到的空調出風口調節、出風角度、座椅精細調節、氛圍燈分區控制等等。使用者隨口說一句 “別讓空調風直吹臉”“只開腳部出風口,關掉側面風口”,很多通用大模型上車方案都沒法精準聽懂,更沒法精準控制硬體。而另一邊是車企自研座艙模型。車企深耕汽車行業多年,整車製造、底盤調校、車身底層權限、車輛全周期資料都是自家優勢,汽車內部所有硬體邏輯、車控協議、功能細節,所有關於車的“know how”,都是沉澱多年的經驗。但想要從零搭建頂級大模型底座難度極高、投入巨大、周期漫長,模型更新速度遠遠趕不上網際網路 AI 的迭代節奏。而且自研模型大多隻適配自家車型,體系相對封閉,想要拓展外部生態、跨車型通用適配,難度不小。簡單總結就是:通用大模型缺車載深度,車企自研缺AI底層上限。行業需要兼有頂級AI底座,又能吃透汽車場景、打通全域智能、能大規模裝車落地的第三條路線。PART 2 如何打造一個可用、好用的座艙AI?2023年左右,業界在探索大模型上車時,火山引擎做的最核心的一件事就是用function call去替換傳統的“意圖分域  + 多 Agent”的語音助手架構。火山引擎副總裁楊立偉火山引擎副總裁楊立偉表示,“在‘車’這麼一個封閉場景裡,有諸多的AI應用彼此獨立,沒有反思、沒有總結、任務不能連貫,手機端和車端不能互聯,是非常不好的體驗。AI,一定要是One Brain(一個大腦聯動整車)的AI。”當時,火山引擎的這一想法十分激進。很多同行直言,“讓一個模型去呼叫1000個外部工具基本做不到。”但這種死磕的做法,也讓火山積累了很多經驗。而第二件事則是,火山引擎開始引入環境變數,知道這些工具在不同的狀態下應該如何用。到了2024年,火山引擎做的主要工作是基於端狀態的車控。例如,窗戶有縫隙或者座椅加熱時,車內的溫度應該如何調整,這裡面就涉及到很多與車廠、車型配置的“know-how”。楊立偉表示,“想讓模型很好的使用所有原子能力,就要給模型比較清晰的定義,讓模型能真正理解它。識別訊號燈顏色、控制空調風速大小,這些能力都需要一起和車廠共同碰撞和共創。”基於海量真實車載場景資料、行車資料、車控指令、車內互動場景,火山引擎對模型做了專門的汽車專項訓練和端側輕量化最佳化。小到空調出風口風向、座椅細微調節、車內各類精細功能控制,大到行車場景、道路環境、駕乘習慣,全部做了深度適配打磨,具備了聯動智駕功能的能力,幫助駕駛Agent更好地理解使用者需求和環境變化。經過數年的打磨,4月24日,北京車展開幕首日,火山引擎發佈基於Agentic AI架構的新一代汽車AI解決方案,將對話推理引擎、目標驅動引擎、學習成長引擎三大引擎融入統一的“汽車大腦”,通過一個AI大腦深度聯動整車,打通車控、智駕、導航、座艙等關鍵功能域,實現“感知 - 推理 - 執行 - 記憶 - 學習”一體化閉環。我們可以設想一個場景:在傳統的座艙AI裡,我們說“後排的孩子是不是睡了”,車機助手會回答“睡了”,沒有後續動作,顯得非常機械。但是,在“基於目標的持續任務”能力加持下,火山引擎的座艙AI助手會做這麼幾件事:首先,AI助手會識別孩子的狀態,如果睡著了,會自主降低空調風速、關閉車窗、調節燈光並放低座椅角度,這就涉及到一些跨域打通的事情,真正像人一樣去做事,把複雜、多步驟、跨場景的事情從頭到尾幫你辦完。其次,如果孩子睡醒了哭鬧,AI助手會根據後排孩子的狀態,選用合適的方式進行陪伴:唱歌、放他最喜歡的動畫片、講故事、做遊戲,想媽媽了模仿媽媽的口吻安撫他。考慮到使用者駕駛狀態,火山引擎的座艙AI助手還會通過生成式UI渲染寶寶的可視化狀態,讓使用者一眼明白。最後,在學習成長引擎的支援下,AI助手會記住並且能在“哄娃”這一個任務執行的過程中沉澱經驗,形成可復用的技能。等到下一次出現“孩子睡覺”和“睡醒哭鬧”的場景時,還會持續記住並保持照顧寶寶的目標。在三大引擎的支撐下,火山引擎的座艙AI更像是一個有智商、有感情、有持續學習能力的“類人”體。值得注意的是,本次車展的“含蝦量”很高,各種座艙AI公司和晶片公司都推出自己的專屬龍蝦。在這股潮流下,火山引擎如何將AI能力輸送給行業?楊立偉表示,火山引擎將以Agentic AI技術為核心提供多元化的合作方案,主要包括AI座艙套件方案、豆包座艙助手方案兩大解決方案。前者可以根據車企需求靈活輸出能力:既可以輸出豆包大模型底層能力,也可以無縫對接整車功能呼叫與全品類知識,還可以輸出火山引擎的互動、工具、生態類的Agent。這就有點類似於樂高積木,大家可以根據需求搭建自己的智能體。後者則是完整的產品級交付,以統一的汽車“大腦”深入聯動整車能力,並與手機豆包APP互聯互通、能力共同進化,年內將有合作車型量產落地。在一些業內人士看來,火山引擎的兩種模式具備更大的“開放性”——頭部車企可以做深度聯合定製,打通全系統能力;中小車企可以輕量化快速接入,低成本完成智能化升級,無需複雜二次開發。楊立偉表示,“兩種方案聚焦做好產品體驗,暫不考慮商業模式與複製問題,而且還會投入高密度的人才持續打磨。”目前,100%主流車企都已攜手火山引擎佈局 AI 創新,能力不侷限於座艙,更是覆蓋座艙、智駕、整車研發、品牌行銷、使用者服務、企業數位化全流程,全方位幫車企做智能化升級。從資料來看,搭載豆包大模型的智能汽車已經突破 700 萬台,覆蓋超 50 個汽車品牌、145 款量產車型,豆包大模型智能車搭載量穩居行業第一,跨品牌適配能力經過大量市場驗證。更關鍵的是真的有人用、高頻在用,豆包大模型日均完成超3000萬次座艙互動和服務閉環。本屆車展期間,梅賽德斯-奔馳純電GLC、上汽奧迪E7X、上汽大眾 ID. ERA 9X、奇瑞星途EX7、一汽紅旗HS6 PHEV、別克至境E7、榮威家越等多款搭載豆包大模型的重磅新車亮相,帶來全新的智能體驗。PART 3 座艙AI行業終將回歸“實用”本質2026年,座艙AI將會是“去魅之年”,從演示泡沫走向實用落地。有調研顯示,智能座艙在購車決策中僅排第9位,這並不表示使用者不重視座艙,而是上一個時代的座艙不夠智能、不夠好用。但隨著汽車智能化程度越來越高,智能座艙的關注度持續升高。擺在我們眼前的一個現實問題:什麼才是車企和使用者真正想要的座艙AI?答案其實很簡單——座艙AI一定要是一個更聰明、更鮮活、更普適的“出行助手”。作為首次登陸北京車展整車館的獨立參展方,火山引擎從以往幕後技術賦能,走到台前完整展示全端能力。站在整個行業視角來看,本屆北京車展也是座艙AI賽道的分水嶺和新的起點。座艙AI終將不再是整車錦上添花的附加功能,慢慢變成汽車與生俱來的核心能力。回望智能汽車產業的迭代之路,從傳統燃油車的“三大件”到新能源時代的智能化升級,行業的核心競爭力早已完成迭代躍遷。如今,一個清晰的行業共識正在形成:智能車的“新三大件”,已然定格為寧德的電池、華為的智駕、火山引擎的智能座艙,三者共同構築起智能汽車的核心競爭力底座,形成了“能量供給-安全駕駛-智能互動”的閉環。未來,隨著“新三大件”成為行業標配,智能汽車將真正擺脫參數內卷,步入“體驗為王”的全新階段。直擊「2026北京車展」車展,是當下全球汽車工業最激烈的競速場。在這裡,不僅僅是新車的更迭,更是智駕晶片、液態電池、大模型上車等前沿技術的秀場。它是技術信徒的朝聖地,也是未來出行方式的預演地。2026北京車展,雷峰網《新智駕》將以專業的視角、及時的訊息,為你拆解每一次技術脈動。20+ 頂級車企動態(華為、小米、比亞迪、蔚來、小鵬、理想...),1個專題深度搞定。 (新智駕)
兩個廣東人的五次撞車,撞出最強開源雙雄的底氣?
摘要:兩個廣東人,撐起中國AI半邊天。千呼萬喚,4月24日上午,DeepSeek終於扔出重磅炸彈,全新系列模型DeepSeek-V4預覽版正式上線並同步開源,在Agent能力、世界知識和推理性能三大維度宣佈達到國內及開源領域領先水平。從2月8日上線測試版至今,其始終保持著神秘的姿態。就在四天前的周一晚上,月之暗面同樣發佈並開源了Kimi K2.6模型,主打長程編碼和Agent叢集能力,在多項基準測試中持平甚至優於GPT-5.4、Claude Opus 4.6等閉源模型。鳳凰網科技統計發現,這已經是Kimi和DeepSeek的第五次“撞車”。不僅如此,這一次雙方在架構層面有了更多吸納與借鑑。就連在資本市場,二者也被拿來並列。據Theinformation報導,DeepSeek正在尋求首輪外部融資,在估值方面就參考了Kimi。一次兩次的撞車或許是巧合,但這兩支中國隊伍顯然已在過去兩年的摸高探索中形成了一種默契。開源策略疊加創新互惠,讓雙方都比既定路線走的更快。中國最強的兩個開源模型,正以一種心照不宣的方式,從兩個不同的方向合力包抄海外巨頭的腹地。五次撞車,蛛絲馬跡越來越多先說前幾天的Kimi K2.6。月之暗面已經有段時間不在單個模型上堆參數了。但從2.5到2.6,模型卻越來越會幹活了。據稱2.6在單個工程任務中持續12小時、發起4000多次工具呼叫,在官方測試中完成從零建構SysY編譯器到通過140項功能測試的複雜任務——官方估算,這相當於4名工程師兩個月的工作量。用楊植麟之前概括的三個詞來說,就是Token效率、長上下文、Agent叢集。DeepSeek V4也有三個關注點,即百萬上下文,兆參數和下半年適配國產算力。在架構層面,V4採用大規模混合專家(MoE)架構,完整版總參數高達1.6兆。創新注意力機制在Token維度進行壓縮,結合DSA稀疏注意力,相比傳統方法大幅降低計算與視訊記憶體需求,1M上下文正式成為DeepSeek所有官方服務的標配。新模型的看點不展開說了,這次想回顧下幾個巧妙的撞車點。Kimi和DeepSeek的“撞車史”,最早可以追溯到Kimi 1.5與DeepSeek R1的發佈時間重疊,當時大家還替Kimi惋惜,認為強者遇強者,是一種壓力。此後,兩邊的發佈節奏重疊次數越來越多,鳳凰網科技此前也報導過《Kimi和DeepSeek又又又撞車》。就拿上下文來說,Kimi其實是國內最早做百萬上下文的,2024年時就提過對應200萬文字,當時長文字一度是Kimi非常亮眼的標籤。不過比較遺憾的是,當時Kimi沒解決成本問題,這次DeepSeek再提長文字,就已經把成本打下來了。這次V4 API標準費率為輸入每百萬Token 0.30美元,快取命中時低至0.03美元,僅為GPT-4o價格的約1/20至1/50。按照人民幣計價,V4-Flash輸入價格僅為1元/百萬Token(快取未命中)、輸出2元/百萬Token;V4-Pro輸入為12元/百萬Token、輸出24元/百萬Token。另外,Kimi下一代模型的亮點其實也是長上下文,但在路線上兩者有點不一樣,DeepSeek探索的是稀疏注意力,Kimi探索的事線性注意力。至此,DeepSeek和Kimi拿出了中國唯二兆已開源模型。開放原始碼的合力,對壘矽谷三巨頭在全球的AI競賽裡,有人負責做0-1的創新,有人負責1-100的工程複製,但難的是前者需要全球範圍內那1%的天才,後者更適合軍團作戰的大廠。過去,外界常常說0-1的創新容易發生在美國,後者容易發生在中國。但從DeepSeek和Kimi開始,0-1的創新開始更多的發生在中國。這給了海外AI廠商巨大壓力。鳳凰網科技瞭解到,梁文鋒在創立DeepSeek之後,對應用和市場都不是最感興趣的,他更在乎底層創新,2025年初的R1以多頭潛在注意力的架構創新擊穿了深度思考的成本。另有行業人士告訴鳳凰網科技,儘管融資曾打亂Kimi的節奏,但在2025年DeepSeek走紅後,Kimi也回歸技術,繼續鑽研底層創新。而Kimi從K2到K2.5,其底層架構與DeepSeek V3一脈相承,本質上是在後者基礎上的規模化擴展。到了2026年, DeepSeek團隊在1月連續發佈的兩篇論文mHC與Engram中,開始大量參考Kimi此前開放原始碼的最佳化器、注意力架構等研究成果。這種中國開源模型在底層技術的你追我趕,讓中國的底層創新形成了良性循環,最終帶動了國內開源陣營的集體逆襲。MIT與Hugging Face聯合發佈的報告顯示,過去一年中國開源模型的全球下載量佔比達到17.1%,首次反超美國的15.86%。全球頭部AI模型API聚合平台OpenRouter的資料則顯示,2026年2月,中國AI模型的呼叫量三周大漲127%,全球前五中佔據四席——包括MiniMax、Kimi、智譜和DeepSeek。一年前,這個數字還不到2%。DeepSeek撬開矽谷視野時,Kimi的市場空間也被打開了;當Kimi在長文字和Agent領域持續突破時,DeepSeek在推理效率上的極致追求又給整個行業帶來了新的參照系。一位業內人士對鳳凰網科技表示,Kimi與DeepSeek的撞車早就已經不是內卷,而是一種“惺惺相惜”——“兩個最強的中國開源模型交替衝鋒,合力圍剿的是海外閉源巨頭。”4月24日凌晨,OpenAI面向付費使用者上線GPT-5.5並官宣API計畫,標準版API定價為每百萬Token輸入5美元、輸出30美元,較前代GPT-5.4翻倍,Pro版更達到輸入30美元、輸出180美元。2026年初,史丹佛HAI發佈的《AI指數報告》顯示,截至年初,美國頂級AI公司Anthropic最先進模型的性能僅領先中國最強競爭對手2.7個百分點。美國私人AI投資高達2859億美元,是中國的23倍。但“用23倍的資本砸出2.7%的差距”,這可能已經不是美國AI的優勢,而是中國AI的護城河。無論是K2.6還是DeepSeek V4,可能都是分水嶺等級的產品。兩者選擇了不同的技術路徑,Kimi深耕長程執行和Agent叢集,DeepSeek聚焦推理效率和極致性價比——但在底層邏輯上又高度一致:用開源打破閉源壟斷,用效率避險算力限制。AGI雙雄格局初現去年輝達帶火了中國AI的御三家,其中就有Kimi和DeepSeek,在輝達GTC大會上,Kimi和DeepSeek也是被用來Benchmark 晶片性能的兩家中國開源模型。近期,鳳凰網科技訪談了多位年輕前沿科學家,也多認為DeepSeek和Kimi有著相似的組織形態與創新環境,都是員工數不多,但人才密度極高。都是從底層技術出發探索AGI,也有著相似的技術前瞻性。他們也都願意吸納年輕人,DeepSeek的核心研究員有非常多年輕人,Kimi也廣納賢才,下放到本科生,甚至是高中生。Kimi與DeepSeek開始有越來越多相似的軌跡,另一個值得關注的維度是晶片。楊植麟在2026年3月的輝達GTC演講台上坦言,“目前普遍使用的很多技術標準,本質上是八九年前的產物,逐漸成為Scaling的瓶頸。”Kimi為此給開源社區貢獻了二階最佳化器MuonClip和Kimi Linear架構。DeepSeek V4則直接選擇了用華為晶片做推理,共同為國產算力生態發展做努力。據楊植麟判斷,大模型的本質是“將能源轉化為智能”,而規模化不是暴力堆砌算力與能源,而是以提升效率為核心。這可能也會是中國開源模型的集體敘事轉變,不再執著於與GPT-5.4、Claude Opus 4.7等對手在benchmark上死磕,而是定義一種全新的價值體系——低成本、高可及性、自主可控。第五次撞車或許不會是中國開源模型最後一次在時間線上的“巧合”。從K1.5借鑑DeepSeek R1的強化學習路線,到DeepSeek V4沿用Kimi的長上下文研究成果,中國的開源力量正在用自己的方式證明:最高效的競爭,是讓對手成為自己生態的一部分。AI競賽的下半場,規則正在由中國開源模型重新書寫。而Kimi和DeepSeek們,無疑是這段歷史最核心的註腳。 (鳳凰網科技)
講真,DeepSeek V4+Claude Code 就是中國最強 Agent
DeepSeek V4(預覽版)終於在四月底來了!眾望所歸啊。去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。不誘於譽,不恐於誹,率道而行,端然正己。V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flash,deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。別的廢話我就不多說了,直接開測。咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。01、Claude Code + DeepSeek V4講真,Claude Code+DeepSeek V4 就是國產最強 Agent。切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。切換底層模型後,重新打開一個終端,輸入 /claude 啟動。可以用 /status 確認下配置是否生效。提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。我全程盯著 token 消耗。讀了那麼多程式碼,加上輸出計畫的量,一塊多。然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。編譯直接過了,有錯誤自己也修了。然後我讓它自己用 CDP 連到 Chrome 跑測試。提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat點點按鈕,驗證功能。測出問題自己修。修完繼續測歸檔功能。最後我還讓它最佳化了一下佈局。從頭到尾,Pro 一共花了 10 塊左右。能接受。當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。功能方面是沒出一點問題。一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。Claude Code之所以牛X,就是因為。它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。很期待下一個版本。02、派聰明 RAG 接入 DeepSeek V4由於我們派聰明RAG做了模型管理。所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。問了一模一樣的問題:「派聰明是什麼?」Flash 的回答是這樣的:派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。Pro 的回答是這樣的:派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。一個簡略,一個詳細。畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。但重點不在誰答得長。RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。03、DeepSeek V4 值得聊的一點傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。DeepSeek V4 pro繪圖第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。再加一個 128 token 的滑動窗口管局部依賴。也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。可以這樣理解這個設計:讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。04、DeepSeek 真的很克制最讓我意外的是 DeepSeek 官方這次的措辭。公告裡是這樣寫的:使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。「不誘於譽,不恐於誹,率道而行,端然正己。」V4 不是一個完美的模型。就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。這種實心的線條來佈局,有點回到返璞歸真的。😄下一版不急,按你的節奏來。 (沉默王二)
筆記本“養蝦”,MTT AIBOOK夯爆了
當 AI Agent 從“聊天工具”進化為“數字員工”,在本地養一隻真正能自主幹活的“龍蝦”(OpenClaw),正成為眾多開發者與極客的新需求。然而,同樣的 OpenClaw 運行在不同的作業系統和硬體架構上,其表現出的形態與體驗截然不同。通過將摩爾線程MTT AIBOOK與MacBook、Windows PC的深度對比,我們可以清晰看到不同平台的設計哲學,以及它們在支撐 AI Agent 時的差異。安裝部署:繁瑣折騰vs 開箱即用對於AI Agent而言,環境部署往往是第一道門檻。在 MacBook 上搭建 OpenClaw 環境,主要依賴開發者熟悉的命令列工具。使用者需要依次配置 Git、Node.js,並運行官方指令碼。這套流程對資深開發者來說並不陌生,但需要投入一定的時間進行前置準備與版本維護。Windows PC 則為開發者提供了更豐富的選擇路徑——既可以選擇開啟 WSL2 部署 Ubuntu 子系統,也可以在原生環境中手動配置。這種高自由度帶來的代價是相對繁瑣的配置路徑,尤其是在處理子系統與宿主機之間的環境依賴時,往往需要較高的維護成本。相比之下,AIBOOK 採用的是“0幀起手”的開箱即用邏輯。最新的 MT AIOS 1.3.4 版本直接預裝了 OpenClaw,並與官方保持同步更新。系統內建了 12 款來自 ClawHub 官方技能社區的熱門實用 Skills,並預裝了 Qwen3-8B 本地模型。使用者無需介入任何環境配置,開機即可直接進入 AI Agent 的使用場景。系統生態:封閉圍欄vs自由生長決定一個AI Agent是“寵物”還是“員工”的關鍵,在於系統權限的開放度與呼叫硬體的自由度。macOS 以出色的隱私安全機制著稱,其嚴格的沙盒機制和 TCC 權限模型能最大程度保護使用者資料。但這種設計在面對需要 7×24 小時運行、需頻繁呼叫系統底層的 AI Agent 時,會產生不可避免的系統性摩擦。為了讓高級 Skill 正常工作,往往需要使用者手動授權,這種需“專人值守”的特性,使其更適合作為輕量級的日常輔助介面。Windows 的權限模型相對開放,但在運行 OpenClaw 時,主流的 WSL 子系統方案會引入額外的網路和檔案系統相容性開銷。當 Agent 需要呼叫宿主機的攝影機或麥克風時,仍需要進行額外的橋接配置,增加了跨環境通訊的複雜度。AIBOOK 搭載的 MT AIOS 基於 Linux 核心,天生契合開發與生產環境。其權限模型清晰直接、可程式設計,完美適應自動化服務的需求。在 AIBOOK 上,使用者可以通過自然語言直接觸發 Skills 的自動安裝。OpenClaw 能夠順暢地完成從環境檢測、依賴下載到模型配置的閉環,例如音視訊轉錄(FunASR)、語音合成(Kokoro)及視覺檢測(YOLO NPU/PaddleOCR)等能力,均可完全駐留在本地高效運行。算力底座:支撐思考與執行的硬實力本地化運行不僅需要權限,更需要紮實的算力支撐。MacBook 搭載的 M 系列晶片能效比優異(例如 M4 晶片提供約 38 TOPS 算力),能夠應對基礎的端側 AI 需求,但受限於統一記憶體和系統機制,大型模型的本地部署仍需手動適配。Windows PC 陣營擁有龐大的硬體跨度。輕薄本的整合顯示卡在處理複雜 AI 任務時稍顯吃力;而搭載頂級獨立顯示卡(如 RTX 4090)的工作站雖然能提供極高的算力,但往往伴隨著高昂的功耗與犧牲便攜性,更多屬於固定場所的“重型裝備”。AIBOOK 則在便攜與性能之間找到了專注 AI 場景的平衡點。其提供了 50 TOPS 的異構 AI 算力(CPU+GPU+NPU),不僅確保了預裝大模型的流暢運行,也為複雜的視覺檢測和語音互動提供了充足的算力冗餘,保障了低延遲與資料隱私。結語:給AI Agent一個原生的家不同的系統環境,承載著不同的計算使命。MacBook 是優秀的個人消費與創作終端,Windows 是全能的綜合性工作台。但如果您的核心訴求是擁有一位真正的“AI 員工”——要求它能看、能聽、會思考,能跨越應用獨立執行複雜任務,並且能在本地環境穩定、低延遲地長期運行,那麼 MTT AIBOOK 無疑提供了更純粹的土壤。不需要繁瑣的改裝與配置,AIBOOK 正以原生、開放、專屬的姿態,重塑 AI Agent 時代的個人電腦體驗。 (芯榜)
智元開卷具身智能Agent,「搭積木」式部署機器人應用
人工智慧領域的Agent熱,毫無懸念地燒到了具身智能領域。4月13日,智元(AGIBOT)推出面向具身作業場景的「零程式碼」應用平台——Genie Studio Agent。Genie Studio是智元去年發佈的一站式具身智能模型開發平台,此番在Agent化後,官方稱其從「提供技術能力」走向「應用產品化」,從「單一交付項目」走向「搭建開放生態」:以一站式解決方案,讓機器人部署變得簡單、高效、可複製。圖源:智元具體而言,Genie Studio Agent具備如下四大核心能力:零程式碼上手:將視覺感知、運動控制、導航規劃、VLA模型、強化學習(RL)工具鏈等複雜能力,進行模組化重組,並封裝成可直接呼叫的能力元件,使用者無需輸入複雜程式碼與演算法,即可快速完成作業流程編排;內建模擬運行系統:內建三維場景重建與模擬系統,支援在模擬環境中提前規避風險並驗證路徑;引入真機強化學習:使機器人能在實際作業中通過力控與視覺反饋持續自主最佳化;提供全鏈路監控維運:實現從運行資料監控到異常預警的主動化管理。與之同步,Genie Studio Agent搭載開箱即用的標準化解決方案,在底層技術SDK基礎上,封裝了直觀的可視化介面與豐富的行業場景範本,即使是非工程技術人員也能較為容易配置並部署機器人應用。不難看出,Genie Studio Agent將複雜能力和底層技術進行了「模組化」和「標準化」設定,讓機器人應用部署像「搭積木」一樣簡單,意圖解決具身智能落地過程中門檻高、周期長、複製難等核心痛點。入手了智元機器人的使用者,在Genie Studio Agent平台只需拖曳相應的節點、簡單配置參數,即可通過平台快速建構屬於自己的機器人任務流程,得到專屬的機器人應用。在智元設想中,Genie Studio Agent是一套貫穿機器人全生命周期的軟體基礎設施,而其中最重要的「應用定義權」應該從後端工程師交還給一線場景端。圖源:智元相比個人使用者,行業使用者市場才是人形機器人在當下的主戰場。那麼在複雜工業場景等真實作業環境,Genie Studio Agent的部署是否也可以「輕鬆」落地呢?智元表示,Genie Studio Agent目前已在多個高精度製造場景中完成落地驗證,證明了機器人部署可以通過標準化平台能力,實現更高效的工程化複製。基於Genie Studio Agent,智元此前聯手某頭部半導體封測企業,已成功跑通「晶圓搬運」全流程。而在更具挑戰性的半導體封測場景,智元生態夥伴基於國際領先晶片企業半導體封測場景需求,借助Genie Studio Agent平台,成功完成了Tray盤上下料全流程作業驗證:作業成功率達到99.999%以上,掉盤率低於0.001%,系統平均無故障執行階段間超過168小時。圖源:智元需要指出的是,在發佈Genie Studio Agent前,智元已連續帶來了資料集、模擬平台、基座模型及世界模型領域的多項重要更新。作為全球具身智慧型手機器人銷量冠軍,智元在4月祭出的這一套組合拳,不僅可以加速具身智能在多元工業與商業場景中的規模化落地,也為更多「零程式碼」能力使用者帶來了嘗試和參與的機會。從根本上來說,人形機器人身體需要更加靈活、運動需要更加穩定、大腦需要更加聰明、開發需要更加簡易乃至「傻瓜」。而從個體(不管個人還是行業使用者)參與角度來說,具身智慧型手機器人在應用開發和部署上的全面簡易化和低上手門檻,才是銷量數字中那麼多個0前面最重要的一個1。 (雷科技)
Anthropic Harness:AI Agent從“野馬”到“戰車”的工程哲學
Harness開始自主進化越來越薄薄成鎧甲。在AI從聊天機器人邁向真正自主Agent的當下,最棘手的不是模型本身有多聰明,而是如何讓它在漫長的任務中不跑偏、不崩潰、不半途而廢。2026年3月,Anthropic在其工程部落格上發表了一篇重量級文章《Harness design for long-running application development》,系統拆解了他們為Claude設計的“Harness”(馬具/韁繩)架構。這不是一次簡單的提示詞最佳化,而是對Agentic Coding(代理式編碼)底層工程的深刻反思——模型越強,Harness反而需要越精簡,但絕不能消失。什麼是Harness?為什麼它突然成了前沿關鍵詞?簡單來說,Harness就是包裹在LLM周圍的完整軟體基礎設施:它包括編排循環、工具呼叫、記憶管理、上下文壓縮、錯誤處理、守衛欄(guardrails)和多Agent協作機制。Anthropic把Claude Agent SDK本身就稱為“a powerful, general-purpose agent harness”。它不是給模型加一層prompt那麼簡單,而是把模型變成一個可控、可持久、可迭代的“系統”。上篇深度扒光Anthropic Claude Code 8大新功能+6級安全架構中,詳解了三層“Self-Healing Memory”自癒永久記憶架構和聲明式可組合權限。今天再看看Harness是怎麼做到的?早期Agent在長時任務中常遇兩大頑疾:上下文焦慮(context anxiety):模型在超長上下文裡突然“慌了”,開始胡亂結束任務或重複工作。漂移與崩潰:單Agent長時間運行後,規劃與執行混在一起,自我評估能力不足,導致輸出質量雪崩。Anthropic的解決方案不是一味堆模型參數,而是借鑑人類工程師和GAN(生成對抗網路)的思路,建構結構化的“環境”來引導模型行為。這就是Harness Engineering——一門新興的AI工程學科。從兩Agent到三Agent:演進路徑清晰可見Anthropic的Harness設計經歷了清晰的三階段演化:2025年11月:基礎版兩Agent Harness引入Initializer Agent(初始化器)負責一次性搭建項目環境、分解規格成JSON特徵列表、初始化git倉庫;Coding Agent(編碼器)則每次只推進一個特性,留下清晰artifact(產物)供下次接力。通過上下文重設和artifact手off,解決了多會話連續性問題。2026年Opus 4.5時期:三Agent GAN式架構(核心創新)針對前端設計和全端開發,升級為Planner(規劃器) + Generator(生成器) + Evaluator(評估器)。-- Generator專注創造程式碼或UI設計;-- Evaluator像對抗網路裡的判別器,提供批判性反饋(前端用審美+創意等多維度打分);--規劃與評估分離,避免Generator自我陶醉。實驗顯示,經過5-15輪迭代,生成的介面明顯更美觀、獨特,全端應用也更完整可靠。靈感直接來自GAN:生成器與評估器的對立統一,極大提升了模型的自洽能力。Opus 4.6及以後:精簡與去複雜化隨著模型自身長上下文理解、自我偵錯和規劃能力的躍升,許多腳手架可以移除。上下文重設不再必要,自動壓縮機制(Claude Agent SDK)足以處理增長;微觀詳細的sprint規劃反而成了累贅。Anthropic的結論耐人尋味:Harness必須隨模型能力動態演化,過度複雜的Harness反而會拖累新一代模型的表現。他們甚至公開對比了Harness版與單Agent版的成本、時長和質量,資料清晰表明:高品質輸出需要付出更多token和時間,但性價比在複雜項目中顯著更高。更進一步:Claude Managed Agents——把Harness變成產品幾乎與工程部落格同時,Anthropic推出了Claude Managed Agents,本質上是“元Harness”——一個託管服務,為企業提供開箱即用的Agent基礎設施,包括沙盒環境、持久會話、工具鏈和可擴展介面。它解耦了“大腦”(模型)和“手”(執行環境),讓開發者無需自己從零搭建複雜Harness,就能部署可靠的長時程Agent艦隊。這一步,直接把Harness Engineering從實驗室技巧推向了企業級生產力工具。科技評論:Harness是AI Agent時代的真正基礎設施Anthropic的這一系列工作,揭示了當前AI發展的一個核心悖論:模型能力越強,工程約束反而越重要。單純追求參數規模或上下文長度並不能解決自主性問題;真正決定上限的是“環境設計”——如何讓模型在不確定、長時間的任務中保持方向感、自我糾正能力和輸出一致性。優點顯而易見:顯著提升可靠性:多Agent分離職責,減少幻覺和漂移,尤其適合前端美學、全端開發這類主觀+客觀結合的任務。可演化性強:Harness隨模型迭代而簡化,避免了“框架鎖死”。安全與可控:內建沙盒、評估循環,天然契合Anthropic一貫的AI安全哲學。開源精神:相關quickstart和最佳實踐已在GitHub公開,社區已快速跟進復現。潛在挑戰也不能忽視:成本與複雜度:多輪迭代必然帶來更高token消耗,對中小團隊仍是門檻。演進速度過快:今天有效的Harness,明天模型升級後可能變成“死重”(dead weight)。開發者需要持續跟進Anthropic的工程部落格。標準化缺口:雖然Managed Agents在降低門檻,但整個行業仍缺乏統一Harness規範,碎片化風險猶存。從更廣視角看,Harness Engineering標誌著AI開發範式的轉變:從“提示工程”(Prompt Engineering)到“環境工程”(Environment/Harness Engineering)。未來,頂級AI工程師不再只是會寫prompt的人,而是擅長設計Agent“馬具”、建構反饋閉環、平衡模型自由度與系統約束的系統架構師。Anthropic再次用行動證明:在通往AGI的路上,安全、可靠、可解釋不是空洞口號,而是必須通過精密工程落地的硬實力。Claude的Harness不是給模型套上枷鎖,而是為它披上戰甲,讓它能在現實世界的長征中,穩穩地跑完全程。當其他實驗室還在比拚誰的模型上下文更長、誰的benchmark分數更高時,Anthropic已經把目光投向了“如何讓Agent真正可用”。Harness不是終點,而是AI Agent從實驗室玩具走向生產力的必經之橋。 (AI頓悟湧現時)