#Kimi-k2
外媒:Kimi K2 Thinking模型的訓練成本僅460萬美元,刷新DeepSeek紀錄!首波案例盤點
Kimi K2 Thinking模型訓練成本僅460萬美元,海外網友再一次炸鍋Kimi開源K2思考模型後的2天,在海外科技圈又掀起一波“DeepSeek效應”,權威榜單Artificial Analysis直接把它列為世界第一,排在GPT-5、Grok-4和Claude 4.5前面!連HuggingFace創辦人都親自發文說:「Kimi K2是開源AI的重大里程碑,今天就是AI的轉捩點!CNBC報告:據知情人士透露,這款新模型的訓練成本僅為460萬美元,再次刷新了AI模型訓練的成本效率紀錄。這一數字甚至低於先前DeepSeek V3模型聲稱的560萬美元訓練成本,形成鮮明對比的是,OpenAI等美國公司通常需要投入數十億美元進行模型訓練。消息一出,海外網紅直接刷屏啦~~~突然想起:1969年NASA阿波羅登月,電腦只有4KB記憶體。"如果460萬美元是真的,那矽谷那些燒錢的AI實驗室可以關門了。""重新定義效率。新紀錄,甚至超越了DeepSeek R1的訓練效率。我的天。""僅460萬?是美國的1/100?這能是真的嗎?我來給大家速覽海外網友玩瘋了的真實案例。例如有開發者用K2一口氣寫了本科幻小說集,15個短篇故事從一個指令開始,全程自動調用300次工具,一部完整的書就這麼誕生了!日本網友讓它挑戰東京大學2025年數​​學入學試題,模型整整思考了3分鐘,推理過程像現代藝術表演一樣在屏幕上跳舞,最後答案全對——這種題人類學霸都得啃幾小時。還有人把兆參數的K2塞進兩台Mac Studio,M3 Ultra那種,原格式運作完全不降質!量化到int4,每秒15個token,3500個token一口氣就吐完了,推理速度捲到飛起。(三次方AIRX)
Vercel CEO爆Kimi K2智能體精準率超GPT-5 50%?中國國產的風還是吹到了矽谷
刷到了Vercel CEO 大讚Kimi K2 ,是企業內部實際的部署估值93億美元的美國知名雲平台Vercel,其CEO吉列爾莫·勞赫(Guillermo Rauch)在x公開表示,在一項內部智能體真實場景基準測試中,來自中國的Kimi K2模型表現優於GPT-5和Claude Sonnet 4.5根據勞赫於10月19日發佈的資訊,這項測試結果顯示,Kimi K2在運行速度和精準率兩個維度上均有優勢具體資料如下:執行階段間:Kimi K2為2分鐘,而GPT-5和Sonnet 4.5為8-10分鐘。K2的速度是後兩者的5倍精準率:Kimi K2高於60%,而GPT-5低於40%,Sonnet 4.5低於50%。K2的精準率比GPT-5高出50%。勞赫同時提到,借助運行平台,可以實現零成本完成模型切換。Vercel是一家總部位於舊金山的雲端開發平台公司,為開發者提供將網站或AI應用從程式碼部署到線上的服務,其客戶包括Netflix、OpenAI、Stripe等公司。Vercel也是Web開發框架Next.js的建立者和維護者。在2025年10月,該公司完成3億美元融資後,估值達到93億美元,Vercel也是2025年OpenAI開發者大會上重點展示的企業之一矽谷多家公司已接入或轉用除Vercel的測試外,我發現矽谷已出現一股將工作流切換或接入K2模型的小高潮此前在美國科技投資播客《All in》中,“SPAC之王”查馬斯·帕裡哈皮蒂亞(Chamath Palihapitiya)透露,他的公司已經把大量工作需求轉移到Kimi K2模型上。他給出的理由是,K2不僅性能強,並且價格比OpenAI和Anthropic便宜很多查馬斯表示,由中國引領的開源模型,正在挑戰美國閉源模型的領先地位此外,一批科技公司,諸如Cline,Cursor,Perplexity,  Genspark,  Youware等也都宣佈已接入K2模型。客觀講,GPT-5、Claude Sonnet 4.5這樣的頂級模型,在整體實力上還是要領先我們不少,推測Vercel這個結果因為是內部測試,非常規Benchmark的刷分邏輯,所以會有驚喜。理性認清差距的同時,還是應該為國產模型感到高興,畢竟性能和價格擺在這裡,頂尖的矽谷投資人和科技公司已經用行動說明一切。K2 Agent 能力其實在7月K2剛發佈時我就第一時間充了API,當時在Claude code 中簡單配置了一下,我還用K2搗鼓了一個給圖片加上漸變底色的小工具,現在市面上有很多這樣的工具,介面大概長這樣:但基本都是付費的,免費的輸出會有水印,我也不想花錢,抱著試一試的態度就讓K2幫我做了類似的小工具,前後花了1小時,踩了一些坑,核心功能就實現了,不過我的功能比較粗糙,目的是能用就行,反正最終結果就是K2幫我在桌面建了一個終端快捷方式,操作很簡單,點選打開,拖入圖片,就會自動處理,給圖片加上漸變底色我來曬一下,大家不要笑話,確實很粗糙,介面長這樣:比如拖入張圖美女進行漸變底色處理:處理過程:處理完後,會輸出5種效果:🎨 生成: 紫色酷炫... ✅🎨 生成: 薄暮餘暉... ✅🎨 生成: 抹茶拿鐵... ✅🎨 生成: 星夜極光... ✅🎨 生成: 盛夏果實... ✅我放兩張大家感受一下效果:個人感覺還可以,抱著試一試的心態讓K2 做完這個小工具後,我當時內心的直觀感受就是 Kimi K2 確實成了!由於平時比較忙,沒時間最佳化這個工具,後面有時間了再搞一下,到時候免費分發有感興趣的朋友可以後台私信我交流,我給你提供開發文件,不過這個文件也是我讓K2 自己寫的,我一個字都沒寫,哈哈哈😄,大家有時間也可以自己試試讓Kimi K2 復刻一下這個工具(注意全程都在 Claude code 中使用的)國產模型繼續攻城略地,Kimi k2 的Agent能力慢慢經受住了時間,市場和真實生產環境的檢驗,尤其是更新後的K2的兩個版本kimi-k2-0905-Preview 版本和 kimi-k2-turbo-preview 版本均提供 256K 上下文窗口。kimi k2 高速版本,速度更是高達 60-100 Tokens/s,特別適合企業級和高響應智能體應用關於使用Kimi K2 和價格國際版看這裡:https://platform.moonshot.ai/docs/overview國內版看這裡:https://platform.moonshot.cn/docs/overview在 ClaudeCode/Cline/RooCode 中使用 kimi k2 模型,看這裡:https://platform.moonshot.cn/docs/guide/agent-support#%E4%BD%BF%E7%94%A8%E6%B3%A8%E6%84%8F%E4%BA%8B%E9%A1%B9價格:充值與限速:(AI寒武紀)
Kimi K2拿到了世界第一,也殺死了過去的自己
7月12日深夜,月之暗面更新了最新的大模型——Kimi K2,並將模型權重和程式碼全部開源。海內外AI圈瞬間炸鍋。在大模型競技場LMArena排行榜中,Kimi K2綜合排名斬獲全球第五,在開源大模型中位居全球第一,超越Claude 4、DeepSeek-R1-0528。海外AI圈大佬紛紛點贊,Perplexity CEO次日即宣佈將基於K2開啟後訓練。我們原本認為,K2的發佈只不過意味著月之暗面趕上了節奏,獲得了“短暫的呼吸權”。但當深入閱讀技術文件後我們卻發現,K2對於月之暗面以及行業的意義,遠比短暫的第一要更加重大。01 Kimi為何“遲到”?月之暗面曾憑藉獨樹一幟的長上下文技術和天才創始人背景,成為中國“AI六小虎”中最典型的代表。然而從今年1月份,Kimi的聲量卻逐漸式微,模型及產品的口碑開始出現下滑。要理解Kimi K2的轉向,我們必須先理解一個問題:為何Kimi陷入長達數月的沉寂。楊植麟以及月之暗面,在過去一直都是Scaling Law的忠實信徒。他們堅信,更大的模型、更多的資料,必然會湧現出更強的智能。通過卓越的產品體驗吸引使用者,利用使用者資料反哺模型訓練,從而形成“使用者資料”與“模型性能”的增長飛輪。因此月之暗面自創立之初起,就一直採取激進的“買量”策略,以期獲得更多使用者資料來驅動飛輪旋轉。2024年11月,楊植麟在接受採訪時表示,Kimi當前最核心的任務仍然是提升使用者留存。這個戰略聽起來很完美,但它建立在一個脆弱的前提之上——高品質的網際網路資料是取之不盡的。然而2024年底AI技術圈的風向徹底改變。前OpenAI科學家Ilya在演講中,預告了一個殘酷的現實:全球範圍內,可用於高品質預訓練的公開資料,已經被消耗殆盡。這與月之暗面一直堅持的Scaling信仰產生了巨大的矛盾。之後的故事我們已經很熟悉了。深度求索搶先佈局,依靠DeepSeek R1開闢了一種新的技術範式:依靠後訓練強化學習,讓大模型從“模仿學習”轉向更本質的“目標導向學習”來突破智能上限,是這個版本實現AGI的新路徑。儘管月之暗面也意識到強化學習的重要性,但在Kimi 1.5的訓練中,強化學習僅僅只是一個解決長文字 “上下文衰減問題”的輔助環節,而並非如R1那樣聚焦 “提升推理能力”,幫助模型突破智能上限。根據AppGrowing測算,2024年Kimi一年花掉的行銷預算接近9億人民幣,月活流量資料峰值為10月的 3600 萬。而一分廣告費沒花的DeepSeek,單單依靠產品實力和使用者口碑,月活一個月就暴漲至6181 萬。DeepSeek R1的出現直接引發了AI創業公司的存在主義危機。月之暗面的使用者增長策略開始備受質疑。這種巨大的壓力當然不僅僅只有月之暗面一家公司需要面對,R1給行業帶來挑戰是一視同仁的。當舊地圖已經無法通向羅馬,月之暗面必須找到一條全新的航線。02 Kimi K2 趟出的一條新航線Kimi K2 的“新”首先是在模型架構、演算法上的全面革新,更深層次則是月之暗面公司戰略甚至文化的重新出發。在大模型層面,K2取得了兩個突破性進展:(1)將模型參數量擴展到了超大的1T量級(2)K2原生具有呼叫各種工具的能力,提出了“模型即Agent”的新概念這兩個技術創新說起來容易,但真正實現卻十分困難,否則Kimi也不會消耗了大半年的時間才將K2端上來。Kimi是怎麼做到的呢?首先,為了實現K2 1T的參數量規模,Kimi果斷放棄了此前自研的模型架構,轉而積極擁抱DeepSeek V3。根據Kimi團隊的觀點,V3是一個被市場驗證過的、兼具性能和效率的選擇。於是,很多人抨擊K2就是DeepSeek V3的套殼,這顯然又是一種淺薄的傲慢。根據第一性原則,不拘泥於固有思維,只關注方案是否有效、可用,這恰恰反映了Kimi團隊的進步。合適的架構選擇只是第一步,K2與V3在具體參數上的差別非常大。根據團隊此前對Scaling的研究,為了在算力並不充裕的情況下突破智能上限,Kimi選擇減少DeepSeek V3 MoE結構中的Attention Heads(注意力頭)數量,將節省下來的參數空間全部用於增加專家的數量(Experts)。就理論而言,更多的專家數意味著模型擁有更龐大的知識,以及更強的處理複雜問題的潛力。然而,參數的輕微改動卻產生了巨大的麻煩。Kimi發現,此前內部已經驗證過的自研Muon最佳化器,在龐大的資料集的預訓練過程表現極不穩定,會頻繁崩潰。這困擾了Kimi團隊很長的時間,沒有公開的解決方案能應用於穩定15T量級的預訓練資料集。經過長期的嘗試,Kimi巧妙的將Muon與QK-Clip的組合,提出了一種新的MuonClip最佳化器。MuonClip最佳化器能很好地保持在預訓練的穩定性,最終保證了模型在15.5T tokens的巨量預訓練中,實現了零崩潰的穩定表現。它的Loss曲線是這樣的,海外AI圈大佬稱其為“完美的Loss曲線”。K2的第二個壯舉,是提出來一條通往原生Agentic Intelligence(智能體人工智慧)的新思路。眾所周知,繼推理大模型普及之後,Agent 在今年正式成為 AI 新的發展方向。AI Agent與對話類大模型最大的區別,就是AI Agent 能做到主動感知環境、影響環境,具備使用工具的能力。今年我們見證了MCP概念的火熱與普及,Cursor等 AI 程式設計產品開始大規模普及,OpenAI及國內廠商先後也發佈了不少通用Agent產品。在此前的認知中,大模型的使用工具的能力,大多需要通過複雜的提示工程(Prompt Engineering)或在預訓練後進行強化學習(RLHF)來“後補”。但Kimi K2 卻提出了訓練Agent的第三條路徑。在模型訓練之前,Kimi團隊依靠AI生成了成百上千個模擬場景,例如點外賣、寫程式碼、看視訊等,來模擬使用者的各種行為,並據此合成了覆蓋了數百個垂直領域的工具呼叫軌跡,其中既包括真實的MCP(模型上下文協議)工具,也包括合成工具。通俗點說,這就相當於直接將無數使用者未來可能使用Agent的所有場景,提前打包成了全新的、高品質的語料。最後再通過LLM從結果去評估每條模擬結果成功與否,以此篩選出高品質的訓練資料。基於此流程,月之暗面搭建出了一個完全自動化的Agent資料生產工廠!正如Kimi團隊研究員Flood Sung所言,這個生成無數個工作流的機制,十分契合老子的思想:一生二,二生三,三生萬物。這就讓Kimi K2在預訓練中,學到的不僅僅是知識,還包括工具和方法。最終我們看到,Kimi K2具備了很強的原生Agent能力。在我們的測試案例中,Kimi K2幾乎零失誤地實現了我們搭建前端網頁、開發小遊戲的需求。在官方公開的衡量程式碼任務執行能力的LiveCodeBench測試中,K2取得了53.7%的驚人成績,遠超GPT-4.1的44.7%和Claude 3.5 Opus的47.4%。不少從業者反饋,當K2的API完全接入Claude Code之後,能以更低的成本完美的取代原本Claude 3.5的能力,效果甚至直逼最先進的Claude 4.0。03 尾聲:先改變自己,再改變世界最後,我們想聊一聊月之暗面公司本身的戰略轉型。人們熟悉的月之暗面,是一家堅持產品、模型雙管齊下,有時候看起來甚至是更偏向產品驅動的AI公司。這當中自然有面對30億美元融資的無奈。參照過去網際網路時代行業“燒錢”換使用者的慣性思維,似乎只有使用者數量的持續增長,才能回應投資人的期待。網際網路可以通過平台免費+廣告變現的方式,將流量無痛轉化為收入,但AI與廣告在核心上就水火不容:前者強調效率提升,後者分散注意力。真正為AI創業公司創造價值的是付費使用者,付費使用者只會為效率和結果買單。C端使用者在乎的,是模型能力是否足夠聰明、通人性;B端使用者關心的,是AI能否幫企業賺更多錢。這也是為什麼DeepSeek R1能不花一分行銷預算就收穫巨量使用者——它足夠滿足需求,這就夠了。Kimi團隊在社交媒體上透露,公司在DeepSeek爆火後,內部對此前的決策進行了深刻乃至痛苦的反思。自2025年初開始,Kimi完全停掉了所有市場行銷和買量行為。“只要模型做的好,就會獲得市場認可”這是一個Kimi研究員從DeepSeek成功歸納出的結論。在反思會上,楊植麟果斷決定不再更新 K1 系列模型,集中資源搞基礎演算法和 K2,將全部資源和能力重新聚焦到大模型性能的提升上來。截至發稿日,Kimi開源第一的位置似乎已被阿里Qwen再次反超。但這些都不重要,從Kimi K2身上我們能夠看到月之暗面正在改變自己:放棄自研的架構去擁抱更優秀的架構;暫停買量,回歸技術研究,用實力說話;加入開源陣營,分享探索出的新技術路徑……無論是架構還是戰略上,我們可以肯定地說,是DeepSeek喚醒了Kimi。但我們更希望這是一個青出於藍而勝於藍的故事。 (新財富)
DeepSeek終於失去了開源第一王座,但繼任者依然來自中國
幾千人盲投,Kimi K2超越DeepSeek拿下全球開源第一!歪果網友們直接炸了,留言區秒變誇誇打卡現場:今天,競技場終於更新了Kimi K2的排名情況——開源第一,總榜第五,而且緊追馬斯克Grok 4這樣的頂尖閉源模型。且各類單項能力也不差,能和一水兒閉源模型打得有來有回:連續多輪對話並列第一,o3和Grok 4均為第四;程式能力第二,和GPT 4.5、Grok 4持平;應對複雜提示詞能力第二,和o3、4o位於同一梯隊;……連眼尖的朋友也發現了,唯二闖入總榜TOP 10的開源模式都來自中國。(DeepSeek R1總榜第8)當然了,即使拋開榜單不談,Kimi這款新模型過去一周也確實火爆——K2過去一周真熱啊公開可查戰績包括但不限於以下這些:從實打實的數據來看,發布這一周裡,Kimi K2在開源社群中獲得了相當關注度和下載量。GitHub標星5.6K,Hugging Face下載量近10萬,這還不包括它在中國社區的應用。連AI搜尋引擎明星創企Perplexity CEO也親自為它站台,並透露:Kimi K2在內部評估中表現出色,Perplexity計劃接下來基於K2模型進行後訓練。甚至因為造訪的用戶太多了,逼得Kimi官方也出來發公告:訪問量大+模型體積大,導致API過慢。……不過就在一片向好之時,人們關於「Kimi K2採用了DeepSeek V3架構」的質疑聲再度升溫。對此,我們也找到了Kimi團隊成員關於K2架構的相關回應。總結下來就是,確實繼承了DeepSeek V3的架構,不過後續還有一系列參數調整。ps 以下分享皆來自知乎@劉少偉,內容經概括總結如下~一開始,他們嘗試了各種架構方案,結果發現V3架構是最能打的(其他頂多旗鼓相當)。所以問題變成了,要不要為了不同而不同?經過深思熟慮,團隊給了否定答案。理由有兩點:一是V3架構珠玉在前且已經經過大規模驗證,沒必要強行「標新立異」;二是自己和DeepSeek一樣,訓練和推理資源非常有限,而經過評估V3架構符合相關成本預算。所以他們選擇了完全繼承V3架構,並引入適合自己的模型結構參數。具體而言,K2的結構參數改動有四點:增加專家數量:團隊驗證了在啟動參數量不變的情況下,MoE總參數增加仍有益於loss下降。注意力頭head數減半:減少head數節省的成本,剛好抵消MoE參數變大帶來的開銷,且效果影響很小。只保留第一層Dense:只保留第一層為dense,其餘都用MoE,結果對推理幾乎無影響。專家無分組:透過自由路由+動態重排(EPLB)可以處理負載不均衡,同時讓專家組合更靈活,模型能力更強。最終得到的推理方案就是,在相同專家數量下:雖然總參數增加到1.5倍,但除去通訊部分,理論的prefill和decode耗時都更小。即使考慮與通訊overlap等複雜因素,這個方案也不會比V3有顯著的成本增加。就是說,這是一種更「精打細算」的結構調優。而這種放棄自己的模型架構路線,徹底走DeepSeek路線的做法,也被國內網友評價為「相當大膽」。△來源:知乎網友@蛙哥OK,以上關於Kimi和DeepSeek架構之爭的問題落定後,我們再把目光拉回這次最新排名。開源追平or超越閉源ing一個很明顯的趨勢是:「開源=效能弱」的刻板印象正在被打破,開源模型已經越來越厲害了。不僅榜單上的整體排名正在上升,而且分數差距也越來越小。仔細看,模型TOP 10總分均為1400+,開源和閉源幾乎可以看成位於同一起跑線。而這次拿下開源第一的Kimi K2,總分已經非常接近Grok 4、GPT 4.5等頂尖閉源模型了。換句話說,以前我們可能還要在模型能力和成本之間作取捨,但隨著開源力量的崛起,多思考一秒鐘都是對開源的不尊重(doge)。同時,越來越多的產業人士也表達了對開源崛起的判斷。艾倫人工智慧研究所研究科學家Tim Dettmers表示:開源擊敗閉源將變得越來越普遍。Perplexity CEO也多次在公開場合表示:開源模型將在塑造AI能力的全球擴散路徑中扮演重要角色。它們對於因地制宜地定製和本地化AI體驗至關重要。而在已經逐漸崛起的開源模型領域,TOP 10中唯二開源、且都是國產模型的含金量還在上升。 (量子位元)
全網爆火的Kimi-k2驅動Claude Code親測可食用版本來了「附詳細配置」
先說一句,感謝Kimi-k2,讓窮小編也用上了富哥的大殺器Claude codeClaude code不用多講了,用過的都說好,但是貴,一般人真用不起,Kimi-k2大家也應該看了很多博主的文章了,表現還是很不錯的,甚至可以說被嚴重低估,最重要的k2的Agent能力很強,雖然可能還不如claude 模型那麼強,但至少讓我們看到了它的潛力,而且API價格比claude便宜多了月之暗麵糰隊為 Kimi K2 提供了一個與 Anthropic 相容的 API 端點。這意味著我們可以“欺騙” Claude Code讓它轉而與 Kimi K2 進行互動,而無需改動 Claude 自身的一行程式碼那麼如何在強大的claude code 使用k2模型呢?看了一些網友寫的claude code 中使用 k2方法,我自己也動手實踐了一下,以下是更簡潔和清晰的親測可食用版本以下逐步說明(前提:會使用命令列):安裝claude code打開你的終端,先安裝node.js(mac)sudo xcode-select --install/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sbrew install nodenode --version安裝 claude code# Install Claude Codenpm install -g @anthropic-ai/claude-code# 開始使用claude安裝成功會出現以下介面:選一個主題進入,安裝成功前往Kimi開放平台申請API Keyhttps://platform.moonshot.cn/console/api-keys ,去這裡建立你的api沒記錯的你的帳戶默認有免費贈送15塊使用費用,建立好API Key 等待下一步使用注意:不要洩露你的API金鑰在 claude code 中使用 k2建立一個測試資料夾比如claude,切換到這個檔案,這樣全新的檔案目錄下你可以隨便造了,以防誤操作,破壞你的電腦其他檔案cd desktop/claude第一種方法最簡單的方法可以使用這個項目提供的方法 https://github.com/LLM-Red-Team/kimi-cc在安裝完claude code和準備好 kimi 的API Key後,運行以下這個命令,命令運行後會讓你輸入API Key,這時,你只需要複製上一步建立好的API key,貼上就可以了bash -c "$(curl -fsSL https://raw.githubusercontent.com/LLM-Red-Team/kimi-cc/refs/heads/main/install.sh)"這樣就可以在claude code 裡使用 kimi K2 了另外一種方法配置環境變數來實現,複製以下命令到命令列,回車:# 告訴claude將所有通常指向 api.anthropic.com 的 API 呼叫重新導向到 Moonshot AI 的相容端點export ANTHROPIC_BASE_URL=https://api.moonshot.cn/anthropicexport ANTHROPIC_API_KEY=你的kimiAPIkeyclaude注意這一步有個巨坑,就是你在設定ANTHROPIC_BASE_URL時,如果你用月之暗面國內站點生成的API-key,那麼就必須用這個https://api.moonshot.cn/anthropic,如果你用全球網站生成的生成的API-key,就用https://api.moonshot.ai/anthropic,這兩組API是不相容的,否則等你配置完了就會不斷出現API報錯,這個折騰了我好長時間,😄,比如這個錯誤如果成功,會出現一下介面:寫在最後照著我以上的步驟操作直接開始低成本使用 Claude Code,媽媽再也不用擔心你錢不夠了,也不用擔心被封號了,嫌速度慢的可以多充點(AI寒武紀)
若不想用k2了,要怎麼恢復成原本的claude模型?