【硬核科技導讀】月之暗面正式發佈並開源 Kimi K2.6 模型,在程式碼生成、長程任務執行及 Agent 叢集能力上實現全面升級。實測顯示,該模型可連續編碼13小時,編寫或修改超過4000 行程式碼,多項基準測試成績持平或優於GPT-5.4、Claude Opus 4.6等閉源模型。中國大模型程式碼能力首次躋身全球第一梯隊。
4月20日晚,月之暗面(Moonshot AI)扔出一枚「重磅炸彈」。
其最新研發的Kimi K2.6模型正式發佈並開源,即日起所有使用者均可通過官(kimi.com)、最新版Kimi應用、Kimi API以及Kimi Code程式設計助手免費使用。
這不是一次普通的版本迭代。
在博士級難度的完整版「終極人類考試」(Humanity's Last Exam)、評估真實軟體工程能力的SWE-Bench Pro、Agent深度檢索基準 DeepSearchQA 等測試中,Kimi K2.6均取得行業領先成績,表現持平或優於GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等閉源模型。
**中國大模型的程式碼能力,第一次真正站在了世界之巔。
程式碼能力暴漲20%,13小時不間斷作業
程式碼能力是此次升級的核心亮點。
在Kimi內部嚴格程式碼評測基準Kimi Code Bench中,K2.6得分68.2,較前代K2.5的57.4 提升約20%。
什麼概念?
實測顯示,該模型可以連續編碼13 小時,編寫或修改超過4000行程式碼**,完成複雜系統的開發與最佳化。
這不是簡單的「寫得多」,而是「寫得深」。
在一個實測案例中,K2.6成功在Mac本地下載並部署了Qwen3.5-0.8B模型,使用小眾的Zig 語言實現並最佳化模型推理。
經過4000多次工具呼叫、超過12小時不間斷運行、14 輪迭代,將吞吐量從約15 tokens/s 提升至約193 tokens/s,最終推理速度比LM Studio快20%。
另一個案例更硬核。
K2.6 自主完成了對擁有8年歷史、接近性能極限的開源金融撮合引擎 exchange-core 的深度重構。
13 小時連續作業,迭代12套最佳化策略,通過1000餘次工具呼叫,精準修改4000多行程式碼。
結果如何?
中位吞吐量從0.43MT/s 躍升至1.24MT/s(增幅185%),峰值吞吐量從 1.23 MT/s 飆升至2.86 MT/s(增幅133%)。
接近性能極限的老舊系統,被硬生生提升了近兩倍。
Agent叢集架構升級,300個子Agent 平行作戰
如果說程式碼能力是「單兵作戰」,那Agent 叢集就是「集團軍衝鋒」。
K2.6的Agent 叢集架構迎來重大升級,現支援300個子Agent 平行完成4000 個協作步驟,任務完成度與交付質量較K2.5 顯著提升。
這意味著什麼?
Agent叢集能夠將搜尋、深度研究、文件分析和長文創作等能力進行組合,在單次運行中獨立完成從文件到網頁、再到 PPT 和表格的多產物端到端交付。
一個實測案例:針對全球100個半導體標的,Agent叢集設計並執行了5套量化策略,將麥肯錫風格的 PPT 邏輯沉澱為可復用技能,最終交付了詳盡的建模表格和整套匯報演示文件。
另一個案例更震撼。
Agent叢集將一篇包含大量視覺資料的天體物理論文轉化為可復用學術技能,提取論文的推理流程和可視化方法,產出40頁、7000字的研究論文,以及包含**2 萬多條資料的結構化資料集和14 張天文級圖表。
這已經不是「輔助工具」,而是「數字員工」。
程式碼+視覺融合,專業級Web應用一鍵交付
通過程式碼與視覺能力的深度融合,K2.6將程式碼驅動的設計能力提升到了新高度。
在Kimi Agent模式下,K2.6能夠製作具有設計感和視覺衝擊力的網站。憑藉對圖像和視訊生成工具的熟練呼叫,該 Agent 可以生成視覺風格高度統一的素材,建構視覺焦點突出的首屏區,並實現互動元素和滾動觸發動效。
月之暗面不侷限於前端頁面編寫,也支援基礎的後端資料庫模組,例如在網頁中嵌入表單資訊收集功能。
為此,月之暗面建立了一套專門的前端開發設計評測基準Kimi Design Bench,涵蓋視覺輸入、落地頁建構、全端應用開發及通用 Web 開發四個維度。
對比Google AI Studio中的Gemini 3模型,基於Kimi K2.6的Agent展現出了明顯領先優勢。
5 天不間斷自主運行,維運Agent正式上線
K2.6 顯著增強了 Agent 的自主化執行能力。
尤其在與OpenClaw、Hermes Agent等主動式 Agent 框架協同工作時,這類場景要求 AI 能夠跨應用實現 24/7 不間斷運行。
月之暗面的RL 基礎設施團隊使用基於K2.6的Agent 實現了連續5天自主運行。
該Agent負責監控、故障響應和系統維運,展現了持久的上下文維持能力、多線程任務處理能力以及從接收告警到徹底解決的全流程執行能力。
Kimi內部的Claw Bench 測試結果顯示,K2.6相比K2.5綜合性能提升了10%,涵蓋程式設計任務、即時通訊生態整合、資訊檢索與分析、定時任務管理及記憶呼叫五大維度。
在需要長時間自主運行且無需人工干預的工作流中,優勢尤為顯著。
技能系統上線,Office文件一鍵轉技能
借助K2.6更強的程式碼和視覺理解能力,Kimi Agent模式現在支援建立和呼叫技能(Skill)。
系統已內建上百個官方推薦技能,包括投研技能包,可一鍵生成專業排版的A股、港股、美股公司一頁紙或深度投資研報。
使用者在Kimi Agent模式下輸入斜槓「/」即可開始建立和呼叫技能。
更有趣的是「Office 文件轉技能」功能。
上傳高品質Office文件後,模型會嘗試理解原文件的結構與風格基因,生成專屬的可復用文件建立技能。
這意味著,你的PPT範本、Excel報表格式、Word公文規範,都可以被 AI學習並復現。
「Claw 群組」內測開啟,人機協同時代來臨
月之暗面同時宣佈開啟「Claw 群組」小範圍內測。
該群組的目標是讓多個 Agent 與人類作為真正的協作者共同運行。
使用者可以接入來自任何裝置、任何供應商、運行任何模型的全天候 Agent(首批支援 OpenClaw,後續將加入對 Hermes Agent 等框架的支援),每個 Agent 可攜帶各自的專業工具包、技能和持久化記憶上下文。
在 Claw 群組中,K2.6 擔任協調者,根據 Agent 的技能畫像和可用工具動態匹配任務。
當某個Agent遇到故障或停滯時,協調者會檢測到中斷並自動重新分配任務或生成子任務。
Kimi Claw使用者將陸續收到內測邀請。
企業客戶提前測試,口碑炸裂
Baseten、Blackbox AI、CodeBuddy、Factory(Droid)、飛書妙搭、Fireworks AI、Nous Research(Hermes Agent)、Kilo Code、Ollama、OpenCode、Qoder 和 Vercel 等企業客戶已提前測試該模型。
評價如何?
Baseten:K2.6 在程式設計任務上已可與領先閉源模型掰手腕,對第三方框架底層邏輯理解更深。
Blackbox AI:指令遵循能力更強,能挖掘出深藏不露的隱蔽Bug。
CodeBuddy:內部評測顯示程式碼生成精準率提升12%,長上下文穩定性提升18%,工具呼叫成功率達 96.60%。
API限時優惠,最高充贈30%
Kimi K2.6現已面向所有免費使用者、付費訂閱使用者、Kimi Code和企業 API使用者開放。
企業和開發者在Kimi API中指定模型為kimi-k2.6即可開始使用。
為慶祝K2.6模型API上線,Kimi開放平台同步開啟了最高30%的限時充贈活動。
同時,Kimi K2.6官方API已經首發登陸騰訊雲TokenHub等平台。
月之暗面推薦直接呼叫官方API復現基準評測成績,如需使用第三方API 服務,可通過Kimi模型供應商驗證服務(Kimi Vendor Verifier, KVV)挑選精度更高的服務商。
十年磨一劍。
從2023年Kimi橫空出世,到如今K2.6 對標全球頂尖閉源模型,月之暗面用三年時間走完了歐美大廠十年的路。
這一次,中國大模型不再是「追隨者」。
而是真正的「並跑者」,甚至在某些領域成為「領跑者」。
AGI 的奇點,或許比我們想像的更近。 (硬核科技資本論)
