#楊植麟
梁文鋒和楊植麟的默契:AGI不是終點,定義規則才是
484天的沉默,換來一場1.6兆參數的爆發。4月24日,DeepSeek V4-Pro正式發佈,總參數1.6兆、百萬token上下文、首次將華為昇騰與輝達GPU並列寫進硬體驗證清單。而就在4天前,與DeepSeek相距僅1.4公里的月之暗面剛開源了Kimi K2.6,SWE-Bench Pro得分58.6,首次讓國產開源模型站上全球程式碼評測之巔。兩家公司在五天內連發兩款兆級模型,這不是巧合,是海淀區知春路上兩個男人——梁文鋒與楊植麟,長達一年半的默契共振終於公開化。先說一個被大多數媒體忽略的真相:DeepSeek和Kimi的"技術撞車",恰恰是開源生態最理想的進化方式。2025年初,DeepSeek在V3中推出的MLA多頭潛在注意力機制,Kimi直接沿用;2025年7月,Kimi在兆參數K2中率先規模化驗證自研Muon二階最佳化器,訓練成本降低50%以上,而這次DeepSeek V4的技術報告裡,也跟進採用了Muon。表面上看是路線同質化,實際上這是兩家公司在兆參數無人區裡的"交叉驗證"。你探一步,我確認一步,共同把國產大模型的技術水位抬到全球第一梯隊。它們是在互相兜底。這種默契,比單打獨鬥更難得。更關鍵的是,DeepSeek V4的發佈證明了一件事:中國AI已經具備了"晶片-模型-系統"全端自主的能力。技術報告裡那行關於昇騰950的備註,很多人讀出了"算力受限"的焦慮,但我讀出了另一種訊號:DeepSeek敢於在發佈當天就把國產晶片的適配進度寫進官方文件,這意味著"芯模協同"不再是PPT概念,而是正在發生的工程現實。下半年昇騰950超節點批次上市後,V4-Pro的價格會大幅下調,到時候國產模型的性價比優勢將進一步放大。當然,挑戰也是真實存在。DeepSeek近300人的研發團隊中,已有10位核心成員標註"已離職",包括初代LLM核心作者王炳宣、R1核心研究員郭達雅等,分別流向騰訊、字節跳動。人才流失倒逼DeepSeek打破"零融資"的執念,融前估值已達3000億人民幣,計畫增資500億,50億起投。騰訊、阿里正在爭搶入局。但換個角度看,這恰恰說明DeepSeek的技術實力已經強到讓大廠無法忽視。挖不走整個團隊,就挖核心骨幹;投不了整個公司,就搶份額入局。這裡有一個反常識的判斷:DeepSeek和Kimi越是被資本追捧,中國AI的"去中心化"生態反而越穩固。梁文鋒曾拒絕所有外部投資,擔心喪失決策權;楊植麟去年12月還在內部信裡說"短期內不著急上市"。智譜和MiniMax在港股上市後的暴漲並沒有讓這兩家公司跟風IPO,而是選擇了更靈活的一級市場融資。有意思的是,當國內為DeepSeek和Kimi的融資歡呼時,美國那邊Anthropic的ARR已經突破300億美元,15個月翻了30倍,正式超越OpenAI的240億美元。OpenAI剛完成1220億美元融資,估值8520億美元。相比之下,中國大模型的融資額"顯得小情小調"。但體量差距背後,是商業模式的代際差異。Anthropic 80%收入來自企業端,30萬家企業客戶,財富十強裡八家在用Claude。而DeepSeek至今堅持模型全部開源,C端產品免費。這不是不會賺錢,是主動選擇用開源換生態。Kimi雖然月活使用者從巔峰期的3600萬回落至1000-1500萬,但海外API收入四個月翻了四倍。Cursor套殼Kimi事件更讓全球開發者意識到:中國開源模型的性能已經不輸閉源旗艦。中國大模型公司不是在重複網際網路時代的"燒錢換規模"劇本,而是在走一條更硬核的路:先用技術實力打開全球市場,再用生態粘性鎖定長期價值。歷史正在寫下新的註腳。當DeepSeek把昇騰寫進技術報告,當Kimi的模型ID出現在Cursor的API呼叫裡,當馬斯克親自轉發評價"Impressive work from Kimi"。這些訊號都在指向同一個趨勢:中國AI不再只是"本土童話",而是全球開源生態的規則制定者之一。朱嘯虎去年說"大模型已經變成水電煤,沒有超額利潤"。目前來看,他錯了一半:大模型確實在變成基礎設施,但超額利潤沒有消失,只是從閉源壟斷轉移到了開源生態的規模化營運。DeepSeek和Kimi的估值飆漲,本質上不是泡沫,是資本對"開源即權力"這一新範式的提前下注。DeepSeek和Kimi的"知春路雙雄"敘事,不是精緻的本土童話,而是正在發生的全球級技術事件。它們的結局也不只有兩種:被資本收編,或在獨立與規模之間找到平衡。還有第三種可能,用開源生態的廣度,避險閉源壟斷的深度,最終在全球AI格局中佔據不可替代的位置。AGI不是終點,定義規則才是。 (識焗)
不是算力,不是電力,這才是中美AI競爭的終極變數
近日,英國《經濟學人》發表題為《中國正贏得人工智慧人才競賽》的文章,指出中國正在全球AI人才競逐中,逐步擴大對西方國家的領先優勢,為贏得AI競爭增加更多可能。西方媒體並非第一次有這類言論和預期,事實上,他們說得都對。相比算力,電力而言,人才,才是贏得AI競爭的終極籌碼,而中國正建立自己的領先優勢。《經濟學人》那篇文章拋出了一個判斷:在中美競爭中,中國“贏得”AI人才戰的方式是:留住增量,吸引更多存量回流。先看增量。文章援引了卡內基國際和平基金會的一份報告:2019年,全球頂尖的AI會議NeurIPS上,華裔研究者的比例是29%,已經超過了美國本土的20%;到了2022年,這個數字接近一半;而來自中國機構的作者佔比,從2019年的11%猛漲到28%——雖然還落後於美國的42%,但升勢已十分顯著。與此同時,中美之間的緊張關係也在悄悄改變年輕人的選擇。STEM專業的中國學生,前往美國讀博的機率降了大約15%,畢業後留在美國的機率又降了4%。過去,最頂尖的中國AI研究者大多把“去美國”當成理所當然的下一步;現在,越來越多人開始把目光留在中國。種種跡象指向同一個結論:美國正在失去吸引下一代的能力,進而在人才增量上出於被動。再看存量。黃仁勳說過一句很直白的話:“美國絕對有可能在AI上落後於中國,因為人才在變。”所謂人才在變,核心是流向在變,是美國的頂尖AI人才正在流往或回到中國。2025年3月,齊國君回到中國。他在美國工作了十幾年,先後在IBM研究中心、華為美國研究中心、OPPO西雅圖研究中心任職,履歷漂亮得像教科書;回國後,他全職加入杭州西湖大學,帶著一支近20人的團隊,組建了“MAPLE實驗室”。差不多同一時候,純外籍的Alex Lamb也前往中國。這位前微軟研究院高級研究員,師從圖靈獎得主Yoshua Bengio,在亞馬遜、Google Brain和微軟研究院都留下過足跡。他宣佈加入清華大學人工智慧學院,成為了一名助理教授。頂尖學者的回流只是冰山的一角,更密集的變化發生在產業界。姚順雨,前OpenAI研究員,加入騰訊成為其史上最年輕的首席AI科學家;吳永輝,前GoogleDeepMind研究副總裁,去了字節跳動;潘欣,前Google大腦研究員,加入了美團……再往前推兩年,楊植麟從卡內基梅隆大學博士畢業後,沒有留在美國,而是回到中國創辦了月之暗面。如今,成立不過三年的月之暗面已是估值超過180億美元的世界級獨角獸,其大模型也被不少美國初創公司改採用。▲月之暗面在過去一年迅速完成多輪融資,受到頭部基金、網際網路巨頭與產業資本的密集下注。圖源:VCG值得注意的是,所有這些回流,都不遠遠不是“為國效力”的口號在驅動,而是最樸素的理由——選擇更好的發展環境與空間。越來越多的頂尖AI研究者發現,“在中國”就是最好的職業路徑。中國擁有發展科創的巨大政策支援,也有一批頭部公司和頂尖高校,算力不缺,資料全面,工程體系完整,更重要的是,有大量可落地的應用場景。而且,中國公司,包括中國資本現在也都捨得為頂級人才投入,給錢、給空間,乃至給權力。不少人在矽谷可能是“螺絲釘”,但回到中國就能獨當一面,當負責人。最重要的是,中國不斷湧現的成功案例,大大增加了對美國矽谷人才的吸引力。過去幾年,中國湧現出一批10億美金,百億美金的AI初創公司,它用真金白銀告訴全球優秀人才,這裡是實現夢想的理想殿堂。如今,談中國的科創人才優勢,核心的核心,還在於自身強大的教育體系。自改革開放,尤其鄧小平提出科技是第一生產力以來,中國的理工科教育就一直備受重視。國家不斷出台政策支援理工科人才培養,民間也曾長期有著“學好數理化,走遍天下都不怕”的理工崇拜。這些的積累,為中國造就了一個領先全球的AI人才底座。現在,中國不但擁有全球最大的高等教育體系,每年培養以千萬計的大學學子,而且還約有四成的大學生攻讀STEM專業,這個比例幾乎是美國的兩倍。早在“人工智慧”這個詞還沒流行起來的時候,這片土地就已經為它儲備了最龐大的人才池。當AI的浪潮真的拍過來時,中國的這一優勢立刻湧出了驚人的勢能。到今天,中國已有80多所高校設立了AI學院,僅2025年一年,就有包括人大、北理工、西北工大在內的二十多所名校加入這個行列。五年間,AI專業新增了406個布點,在所有本科專業中增量最大。其中,清華在2025年擴招了150名本科生,全部進入新成立的通識書院,眼下已有117門課程、147個班級在嘗試AI賦能教學;而在另一頭,深圳技術大學這樣的地方院校,則選擇與華為、騰訊、百度聯手,把課堂無限延伸,讓實習直通產業。從頂尖名校到普通院校,中國搭起了一座人才培養金字塔——塔尖培養能“開天闢地”的領軍人才,塔身和底座則源源不斷地輸送應用型人才。教育端的播種,持續在產業端開花結果。2025年,中國企業發佈了超過300款AI產品,遍佈醫療、教育、物流。其中,其中,DeepSeek以不到150人的研發團隊、十分之一的成本,打造出可與GPT-4“掰手腕“的大模型。但DeepSeek最讓人感慨的不是技術本身,而是這支隊伍的底色——核心研發團隊平均年齡僅28歲。創始人梁文鋒曾坦言:“目前在人工智慧領域,前50名頂尖人才可能都不在中國,但也許我們能自己打造這樣的人。”這句話像一枚石子投進湖面,漣漪很快擴散到了招聘市場。據一家頭部AI獵頭透露,當下各家都在爭搶“C9”院校的高端人才。一位清華大學電腦系的博士畢業後,同時收到了華為“天才少年”項目、某大模型創業公司以及海外網際網路巨頭的Offer,最終他選擇了那家中國創業公司,年薪過百萬。這並非個例。脈脈資料顯示,2025年中國AI崗位的招聘量一年漲了十倍,平均月薪超過六萬,一半以上的應屆AI崗月薪破五萬。大模型演算法工程師的起薪,已經超過了不少傳統行業老專家的天花板。市場的熱度,反過來推動著教育繼續擴張——人才培養、產業吸納、再反哺教育,一個完整的閉環悄然成形。而在這套系統的底層,是國家的力量在穩穩托舉。2025年8月,國務院印發了《關於深入實施“人工智慧+”行動的意見》,明確提出到2030年,人工智慧要全面賦能高品質發展;同月,八部門聯合發文,提出要“超常規”建構領軍人才培養的新模式。政策支援不僅是檔案上的表態。2024年,中國的研發經費超過了3.6兆元,投入強度2.68%,已經超過歐盟的平均水平;2025年中央科技預算接近4000億元,同比增長一成,重點投向人工智慧、積體電路這些關鍵戰場。同時,人社部也在去年發佈了42個新工種——生成式人工智慧系統測試員是其中之一,同時頒布了73個國家職業標準,為AI賽道上的年輕人畫出了清晰的成長路線圖。教育、產業、政策,三股力量交織在一起,讓中國的AI人才培養不再是一個個孤立的點,而是一張綿密、可持續的網。當世界還在爭論“去那兒搶人”的時候,中國已經默默搭好了“自己造人”的底座。這場人才戰,贏得的不只是眼前,更是未來十年。人才培養的底座越築越厚實,但遠沒到高枕無憂的時候。這場人才戰的敘事裡,依然藏著幾道繞不過去的坎。首先,眾多頂尖人才還漂在海外。卡內基基金會追蹤了100位在2019年NeurIPS上亮相的中國籍研究者,六年後再看,87%的人還留在美國機構裡。▲2019–2025年,頂尖中國籍AI研究人員的職業路徑 註:國家隸屬關係基於研究人員目前所在機構的總部所在地 來源:保爾森基金會與卡內基國際和平研究院“回流”確實在發生,但還只是“涓涓細流”,星星之火。美國為什麼能留住他們?一來,它從基礎研究到技術轉化再到產業應用的鏈條,已經打磨得足夠成熟;二來,中國與西方頂尖創新生態之間,還橫著一條看得見的“鴻溝”。諾獎、圖靈獎的突破,至今仍然高度集中在西方。中科院院士唐本忠點破了一個尷尬的事實:“中國在AI領域擅長‘從1到10’的最佳化升級和‘從10到100’的規模擴張,但在‘從0到1’的原創突破上步履維艱。”他進一步拆解了根源——我們太推崇實用主義了,科研工作總盯著短期的成果和落地的應用,卻忘了基礎研究和原創探索才是一切的根。其次,本土人才的供需矛盾突出,AI產業的人才缺口依然巨大。2025年,AI技術類崗位的需求比前一年漲了四成。而另一邊,真正能駕馭垂直領域大模型訓練和最佳化的人,供需比已經掉到了0.3左右。高性能計算工程師更誇張——0.15,相當於七個崗位搶一個人。再者,美國政策的不確定性,既是機遇,也是變數。簽證收緊、經費削減、對華裔學者的懷疑氣氛,在一定程度上推動了美國AI人才向中國流動。2025財年,H-1B簽證的中國留學生中籤率跌到了11.7%。Meta、亞馬遜這樣的科技巨頭,已經宣佈不再為部分崗位的留學生提供擔保;那些研究半導體材料、AI演算法最佳化的學生,如果研究方向被貼上“受控技術”的標籤,連簽證都可能拿不到;美國眾議院甚至還提出議案,打算限制中國人在美國從事AI和機器學習相關的職業。這些變化,都在讓年輕一代重新思考“要不要出去”。▲北京的招生會上,中國赴美留學生人數近年來有所下降 圖源:紐約時報但問題的另一面是:這類因素極不穩定。政策會隨著選舉、隨著地緣政治的風向來回搖擺,不能把它當成可以長期依賴的變數。AI競爭,表面是算力之爭、模型之爭,乃至電力之爭,但真正的底層卻是教育體系、產業結構與人口結構的長期較量,人才,才是贏得競爭的終極變數。人才之戰,不是一場百米衝刺,而是一場漫長的馬拉松。曾經,中國不但本土優秀人才有限,而且優秀人才大規模外流。如今,中國不但本土優秀人才湧現,而且還迎來外流人才的回流。趨勢已經逆轉,但要真正長期形成超越優勢,還任重道遠。當下,或許只是這場競賽的起點。 (華商韜略)
這一次,梁文鋒和楊植麟隔空握手
真是熱鬧的一周。周一,Kimi剛發完Kimi K2.6;周五,萬眾矚目的DeepSeek V4就來了。這種感覺很熟悉。過去一年,這兩家公司不是前後腳發模型,就是前後腳發技術論文,不是你把市場熱度點著了,就是我把技術討論接過去了。更早之前,說起中國開源模型,幾乎條件反射地想到DeepSeek。尤其是DeepSeek發佈R1之後,這家公司不僅憑一己之力改寫了全球市場對中國AI的印象,而且喚醒了其他中國的AI創業團隊的“信心”。於是,我們看到,更多的中國AI創業團隊開始做出非常競爭力的模型,帶來非常有影響力的技術研究成果。2025年7月,被《自然》雜誌稱為“又一個DeepSeek時刻”的Kimi K2模型,在底層架構上首次大規模驗證了二階最佳化器 Muon,同時採用了 DeepSeek驗證過的 MLA注意力機制。到了2026年4月,DeepSeek V4在架構上也跟進 Kimi K2採用 Muon最佳化器,取代過去已經使用了10年的Adam最佳化器。這可能是開源最大的價值:讓中國公司共享技術,加速追趕美國的閉源巨頭。它們是中國目前唯二,總參數超過兆、已權重公開的中國模型。也是最有國際影響力的中國AI模型代表。全球市值最高的輝達公司在展示下一代晶片性能時,用的模型正是來自 DeepSeek 和Kimi。不僅如此,他們也都在挑戰深度學習網路的底層架構,DeepSeek有mHC殘差連接,Kimi有引發矽谷核心技術圈討論的“注意力殘差”。A雖然說DeepSeek V4和Kimi K2.6在同一周發佈,但其實兩個模型各有技術側重點。V4的核心突破在於百萬上下文的成本重構,它通過全新的混合注意力機制,將單token推理的計算量壓縮到V3.2的27%,KV Cache降至10%。這套方案結合了壓縮稀疏注意力和重度壓縮注意力,讓百萬級上下文從技術演示變成了可以普及的基礎設施。V4同時針對agent場景做了專項最佳化,後訓練階段把agent作為獨立方向單獨訓練,工具呼叫格式從JSON換成帶特殊token的XML結構,跨輪次推理痕跡在工具呼叫場景下完整保留。DeepSeek還自建了名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,用來支撐agent強化學習訓練和評測。K2.6的方向則更偏向長程編碼和agent叢集。它在Kimi Code Bench內部評測中得分68.2,比K2.5的57.4提升約20%。最高可支援300個子agent平行完成4000個協作步驟。B2025年2月,Kimi 發佈 Moonlight系列模型,首次將二階最佳化器Muon應用於480億參數的大模型,驗證了新一代最佳化器的效果。2025年4月,Kimi-VL模型發佈,在Moonlight模型的技術上,引入MoonViT視覺編碼器,為之後的多模態理解模型打下基礎。2025年7月,Kimi首次將Muon最佳化器擴展到兆參數的規模,推出 K2 開源模型。2025年10月,Kimi發佈Kimi Linear,這是Kimi提出的一種線性注意力架構,核心目標是在保住長上下文能力的同時,把大模型處理超長文字的計算和視訊記憶體成本降下來。這說明楊植麟已經不滿足於只做模型了,他想對模型的底層架構動手。隨後,Kimi發佈並開源支援圖片和視訊理解的兆參數模型Kimi K2.5。2026年3月,Kimi發佈注意力殘差的論文,繼續對Transformer的底層結構下手。這篇論文在X上收穫了馬斯克本人的稱讚。在然後就到了前幾天的K2.6,這是一個圍繞長周期編碼、agent執行、工程任務能力的模型。從產品定位的演變可以看出,Kimi正在從消費級對話產品往生產力工具轉型。2026年3月,楊植麟在輝達GTC大會上發表演講,系統介紹Kimi技術路線,他用三個關鍵詞概括Kimi的Scaling策略:Token效率、長上下文、agent叢集。他表示,要推動大模型智能上限的持續突破,必須對最佳化器、注意力機制及殘差連接等底層基石進行重構。當前的Scaling已經不再是單純的資源堆砌,而是要在計算效率、長程記憶和自動化協作上同時尋找規模效應。一家公司最怕的是,只有媒體在討論你,開發者卻不用你。但Kimi不一樣,無論是在OpenRouter上還是絕大多數agent工具的默認介面裡, K2.5和K2.6都是主流選項。截止發稿,Kimi和DeepSeek都出現在OpenRouter的TOP3模型裡,在AA的榜單上,K2.6甚至暫時佔得先機。而在K2.6這裡,模型繼續強化agent、長任務、編碼能力,也是同一個訊號。楊植麟真正押注的,就是生產力場景。這也是Kimi這一年最關鍵的變化。它不再只是告訴使用者“我能幫你讀更長的檔案”,而是在回答更底層的問題,模型怎樣才能在更長時間、更複雜任務、更高工具呼叫密度下保持穩定?長上下文解決的是記憶和資訊承載;線性注意力解決的是成本和擴展性;agent叢集解決的是複雜任務拆解;程式設計能力解決的是模型的理解和執行。它們看起來是幾條不同產品線,其實背後指向同一個方向,Kimi想把Kimi從一個好用的聊天窗口,變成可以承接真實工作的基礎模型。4月,楊植麟受邀參加總理主持的經濟形勢專家和企業家座談會,作為唯一的大模型創業者代表發言。這個1993年出生的年輕人,成為座談會上最年輕的參會者。一個月前,他剛在2026中關村論壇年會全體會議上發表演講,系統闡述了中國AI團隊如何通過底層架構的“推倒重建”,打破沿用十年的行業技術標準。顯然,Kimi已經從一家創業公司,變成了代表中國AI技術路線的符號之一。Kimi這一年的成長路徑,和DeepSeek的路徑有明顯差異。兩家公司的技術選擇不同,但也正因如此,才讓中國開源模型有了更多可能性。C過去我們寫這兩家公司,容易寫成“誰的模型好”、“誰才是下一個OpenAI”。但這其實是個誤區。DeepSeek和Kimi,不該被簡單理解成“誰贏誰輸”。它們更像中國開源模型對外競爭的兩條腿。不存在誰取代誰,而是應該互相刺激互相促進。DeepSeek和Kimi相繼證明了一件事,做前沿模型不一定需要無限的資源,關鍵在於演算法創新和工程最佳化。它們在模型演算法、工程效率、開源路線和降低推理成本上的貢獻,仍然是中國AI過去一年最重要的技術事件之一。它們彼此競爭,但也彼此抬高了中國開源模型的上限。真正重要的不是它們誰先到終點,而是它們把中國模型的競爭維度拆開了。過去我們評價一家模型公司,很容易只看榜單、參數、價格、發佈會聲量。但模型公司真正的護城河,已經不再是“模型聰不聰明”、“模型性能如何”這些事了。現在圍繞模型的敘事,是它能不能形成一整套技術路線。DeepSeek把第一件事做得很徹底。它讓外界看到,中國公司可以用更高的工程效率,把模型訓練和推理成本打下來,可以把技術報告寫到足夠透明,可以把權重開放到足夠激進。它建立的是一種開源信任。開發者願意研究它、復現它、部署它,是因為它不只是給了一個API,而是把模型背後的方法論也拿了出來。Kimi補上的是另一塊。Kimi最早被使用者記住,是因為長文字和聊天產品,但K2.6之後,它講的已經不是一個更會聊天的助手,而是模型如何進入真實工作流。長程編碼、Agent叢集、工具呼叫、長周期任務,這些能力沒有“霸榜”那麼直觀,但它們決定模型能不能從“被試用”走向“被依賴”。如果說DeepSeek解決的是模型夠不夠強、夠不夠便宜、夠不夠開放的問題,Kimi更關心的是模型能不能真的替人完成複雜任務。所以這兩家公司放在一起看,意義反而更大。作為觀察者和使用者,我們肯定希望都存在,這樣產業才能發展。中國AI真正值得興奮的,不是終於出了一個DeepSeek。而是在DeepSeek的帶動下,Kimi們依然能靠自己成長為一座座大山。這說明中國AI公司已經開始在不同維度上找到自己的位置,不再是簡單模仿,是真正的在探索自己獨有的那條技術路線。DeepSeek和Kimi的技術互相賦能,也說明了一件事,開源生態的價值在於協作。現在的問題不是DeepSeek和Kimi誰更強,而是它們能不能繼續保持這種競爭關係,繼續在技術上互相刺激。中國開源模型要真正在全球站穩腳跟,需要的不是一家獨大,而是多家公司在不同方向上都做到世界級水平。DeepSeek和Kimi的存在,讓這個可能性變得更大。 (字母榜)
中國AI四小龍,全部去見了總理
不是百度,不是阿里,不是騰訊。總理的座談會上,中國AI創業江湖的"四小龍"終於湊齊了一桌。從2024年3月到2026年4月,智譜AI、DeepSeek梁文鋒、MiniMax閆俊傑、月之暗面楊植麟,先後坐到了總理對面。四個男人,覆蓋了80後、85後、90後三個世代;廣東潮汕與湛江,河南商丘縣城,浙江杭州錢塘江畔,串聯起中國AI最生猛的草根逆襲史。他們帶著各自的"技術圖騰":一個逆勢漲價,一個開源封神,一個不信天才,一個搖滾反叛。這是中國AI獨有的故事。智譜AI 清華土著第一家受邀的是智譜AI。2024年3月,調研新質生產力座談會,第一個出場的AI公司就是它。張鵬,標準的清華"土著",清華電腦系本碩博連讀,在清華園待了近十年,連創業都是清華老師唐傑帶的隊。圈內人都說,他身上那股"技術原教旨主義"的勁兒,很清華。2026年1月,智譜AI在香港上市,成為"大模型第一股"。張鵬有一句很狠的話:"智能上界決定了定價權。"當所有人在價格戰裡殺紅了眼,比誰更便宜時,他逆勢漲價。邏輯很簡單:只有把模型能力做到極致,才有資格定價格,而不是靠燒錢補貼換市場。這種底氣來自智譜的"技術護城河",自研的GLM架構,不走尋常路,而是用"自回歸填空"的原創設計。2026年發佈的GLM-5採用超大規模MoE架構,在國產晶片上跑出了比雙卡叢集還強的性能。智譜的CodeGeeX程式碼大模型,在程式設計圈程式設計師裡的口碑,被稱為"國產Copilot最強平替"。張鵬相信,AGI不是炒概念,而是一行程式碼一行程式碼摳出來的工程問題。梁文鋒 全球AI都意外第二家,DeepSeek。2025年1月20日,政府工作報告座談會,梁文鋒第四個發言。鏡頭裡的他,眼神平靜得像一潭深水。1985年,梁文鋒出生在廣東湛江吳川,一個連五線城市都算不上的地方,父親是當地小學老師。2002年,17歲的他以吳川一中"高考狀元"的成績考入浙江大學電子資訊工程專業。2008年全球金融危機,在浙大讀研的梁文鋒嗅到了機會。他拉著同學,用機器學習探索全自動量化交易。2015年,30歲的梁文鋒創立幻方量化。6年後,管理規模突破千億,躋身中國"量化四大天王"。但外界不知道的是,2019年,他豪擲2億元搭建“螢火一號”,搭載1100塊消費級顯示卡;2021年,又砸10億元建“螢火二號”,搭載萬張輝達A100"。別人炒股賺錢買房,他炒股賺錢買顯示卡。2023年,梁文鋒帶著這些"計算軍火"殺入大模型戰場。2025年,DeepSeek-R1橫空出世,用557萬美元的訓練成本(僅為GPT-4的零頭),干翻了矽谷的一眾巨頭。Meta、微軟連夜研究他的技術路線。他最著名的一句話是:"中國AI和美國真實的gap,是原創和模仿的差距。"這句話,成了中國AI行業反攻的起點。梁文鋒極其低調,卻在2022年以"一隻平凡的小豬"名義,向慈善機構捐款1.38億元。閆俊傑 不相信天才第三家,MiniMax。2026年1月,討論"十五五"規劃的座談會上,閆俊傑坐在對面。1989年,閆俊傑出生在河南商丘的一個縣城,高中在縣城中學度過。。2006年考入東南大學數學學院,隨後進入中科院自動化所碩博連讀(2015年博士畢業於中國科學院自動化所模式識別國家重點實驗室),並在清華大學電腦系從事博士後研究。2014年,25歲的閆俊傑在百度深度學習研究院實習。那是中國AI的"黃埔軍校",他在這裡第一次直觀感受到大規模算力的顛覆性價值。據說,他一個人就用掉了百度當時三分之一的GPU算力做實驗,還拿下了百度獎學金。轉折發生在2021年春節。閆俊傑回河南老家,外公說想寫一本回憶錄,但不會打字,也沒辦法組織語言。這個做了十年AI的博士突然意識到:他做的技術,對一個想寫回憶錄的老人來說,一點用都沒有。那一刻,他決定要做"普通人能用上的AI"。2021年底,離職創立MiniMax。閆俊傑有一句座右銘:"AI不是神秘黑盒,而是可用第一性原理解析的工程問題。AGI是科學,不是魔法。"他旗幟鮮明地反對"天才論",認為大模型領域貢獻前50的人,可能沒一個在中國公司工作,中國公司要做的就是"聚攏一批素質優秀的人,做一個成長型組織"。四小龍裡,MiniMax是唯一放棄盲目追求"超級模型"的,專攻Agent和程式設計。他們的M2系列,被稱為"國產Claude平替",最新M2.7實現了"模型自己訓練自己"的AI進化。更驚人的是成本,MiniMax用OpenAI約1%的研發投入(累計4.5億美元),實現了全模態技術全球領先,團隊385人,平均年齡29歲,70%收入來自海外。2026年3月,MiniMax市值突破3800億港元,超越了曾經的"導師"百度。在MiniMax內部,閆俊傑有一個花名叫“IO”,既是電腦語言的輸入輸出,也是DOTA裡那個專職輔助隊友的英雄。這很符合他的自我定位:“成功是體系和組織的勝利,不是個人的勝利。”他曾評價自己“可能只是二流研究者”,但堅信二流研究者加上一流組織,能打敗一流研究者的單打獨鬥。楊植麟 "Token經濟學"第四家,月之暗面。2026年4月10日,經濟形勢座談會,楊植麟作為科技企業家出席。1993年,楊植麟出生在廣東汕頭。這是四小龍裡唯一的90後,潮汕人。他的成長史像一部青春電影:高中時零程式設計基礎,被選拔進資訊學奧賽培訓班,拿下廣東一等獎,保送清華。但他放棄保送,以667分的高考成績成為汕頭市理科狀元,考入清華熱能工程系。大二轉專業進入電腦系,師從唐傑教授。在清華,他還是搖滾樂隊Splay的鼓手和詞曲作者,曾晉級清華校園歌手大賽原創決賽。他坦言,選擇電腦專業,是因為村上春樹的一篇小說,讓他對"深夜寫程式碼讓科技落地"的角色印象深刻。2015年,他進入卡內基梅隆大學(CMU),師從蘋果AI負責人Ruslan Salakhutdinov和Google首席科學家William Cohen。4年時間,他完成了通常需要6年的博士課程,提出的Transformer-XL與XLNet模型,成為自然語言處理領域的里程碑,至今被引用上萬次。他參與過Google Gemini、Google Bard、盤古NLP、悟道等大模型的研發。2023年創業,公司名"月之暗面"(Moonshot AI)來自他崇拜的搖滾樂隊Pink Floyd的專輯《The Dark Side of the Moon》。楊植麟最廣為人知的觀點是:"Token消耗在未來可能將直接意味著GDP產出。"誰消耗的Token越多,誰的經濟就越活躍。在AI Agent時代,這就是新的GDP演算法。技術路線上,楊植麟是"長文字"和"原生多模態"的堅定信徒。2026年發佈的Kimi K2.5,上下文窗口擴展到200K,並引入了Linear注意力架構和Attention Residuals(注意力殘差),讓馬斯克都直呼"令人印象深刻"。他提出了"智能體叢集"(Agent Swarms)的概念,認為未來的智能將從單智能體向動態生成的叢集進化。2026年3月,月之暗面完成新一輪融資,投前估值180億美元(約1300億人民幣),帳上現金儲備超過100億元。但楊植麟說,"短期內不著急上市"。小結一個時代的註腳。你看這四個人:一個清華土著,一個浙大天才,一個縣城做題家,一個潮汕搖滾青年。46歲,40歲,36歲,33歲。當有的AI公司還在套殼做大模型、卷流量、應付AI考試時,這四個人,正在卷"智能上界"、卷"原創架構"、卷"國產算力"、卷"全球化"。張鵬說:"智能上界決定定價權。" 梁文鋒說:"中國AI不能永遠跟隨。" 閆俊傑說:"AGI是科學,不是魔法。" 楊植麟說:"Token消耗就是GDP。"四句話,四個技術哲學,四種商業路徑。為什麼選擇見他們,而不是見網際網路巨頭?中國AI,正在從"應用創新"轉向"硬核創新",從"跟隨者"轉向"規則制定者"。四小龍全部到位,中國AI的牌桌,重新發牌了。 (奇偶工作室)
Kimi楊植麟「2026中關村論壇」演講全文
大家好,今天很高興有機會分享我們在做開源模型和不斷訓練更好的大模型過程中的最新進展和思考。其實做大模型本質上是把能源轉化成智能。轉化的過程中,最重要的事情是規模化。也就是說,把儘可能多的能源,經過算力和模型,變成更多的、更高程度的智能。本質上,規模化定律(Scaling Law)是過去若干年,所有的模型和 AI 發展的一個很重要的基礎。當然,規模化並不是代表我們只是去暴力地增加能源,或者去暴力的增加算力,而是涉及到我們如何有效地規模化。我們會從三個維度去思考如何提高效率:首先是提升 Token 效率。它代表的是從同樣的資料中能夠學到多少智能。因為這個世界上的有效高品質資料,其實是一個常數,或者說是一個非常有限的值。如果你有更好的網路架構,或者有更好的最佳化器,那麼你就可以從有限的資料裡學到更多的智能。第二是擴展上下文長度。更長的上下文能力,意味著模型可以學會處理更複雜的任務。為此,我們設計了新的網路架構 Kimi Linear 和專門的訓練資料,來提升模型在長上下文時的表現。第三是 Agent 叢集。我們在最新模型 Kimi K2.5 中提出了一種新的規模化的方法,就是通過引入多個 Agent,讓很多個 Agent 可以一起去工作,形成 Agent 叢集。通過這種方式提升 AI 能完成的任務複雜度。這是我們 K2.5 Agent 叢集的一個內部測試結果。橫坐標是任務複雜度,縱坐標是執行時間,如果我們用這種單一 Agent 的方式工作,可以看到隨著任務複雜度逐漸提升,完成時間是指數增加的。如果你需要做一個非常複雜的任務,比如從頭去寫一個程式碼倉庫,去實現一個很複雜的功能,需要幾天甚至幾周的時間。但如果我們能夠平行,比如說開啟 100個 Agent 同時去做這個任務,然後在過程中它們會互相協作,互相協調和規劃接下來應該做的事情,就跟人類的組織一樣,那麼隨著任務複雜度的增加,執行時間其實沒有太大的變化。這意味著你可以在單位時間內去完成更加複雜的任務,使得原來一些完全不可能實現的任務變得有可能。就像一家公司,如果你想做一個非常艱難的事情,完成一個很複雜的使命,比如說從 0 到 1 建造一家 100 億或者 1,000 億美元的公司,那麼你只靠一個人,可能要 100 年才能做出來,那你在市場上是沒有競爭力的,但這個時候如果你有100 或者 200 個非常聰明的人,能一起協作,那就有可能在短時間內完成。通過 Agent 叢集能力,我們可以實現規模化的輸入,比如說你可以同時去調查幾百個不同的資料來源,在各種權威的資料來源裡面尋找答案;你也可以做規模化的輸出,比如說你可以通過閱讀這些資料來源,去撰寫一個幾百頁的論文;以及去規模化的執行或規模化的編排,去提升模型能處理的任務複雜度。同時,我們非常注重研發更好的底層網路架構。這是我們最新開放原始碼的模型架構,叫做注意力殘差(Attention Residuals)。這項技術主要的靈感來自於 10 年前的技術 Resnet, 或者叫殘差網路連線。在十年之前,其實沒有任何人有辦法去訓練深度的神經網路。直到何凱明等研究者引入殘差網路,可以讓模型去訓練幾十、幾百層的網路,可以任意的增加層數。這種殘差結構,其實可以認為是 LSTM 網路的一個變種,只是說 LSTM 是應用在時間的維度上,殘差網路更多體現在網路深度上,使得每一層可以用上一層的輸出,然後做一個函數的處理,得到當前這一層的輸出。我們把類似的思路做一個自然的泛化,把注意力機制這種計算模式做 90 度的旋轉,從原來只是應用在時間軸上,現在我們可以把它應用在深度上。把注意力應用到深度上有很多好處,比如不僅僅只是基於前一層的輸出來進行計算,而是可以去結合之前的所有層的輸出進行計算,這樣在最佳化網路架構性能的時候就有非常多好處。這是我們整個注意力殘差的架構圖。左邊是標準的殘差結構,右邊是我們提出來並開放原始碼的殘差結構。然後,我們也設計了基於塊狀的殘差結構,使它能夠非常高效地實現。基本上在只有 2% 額外成本的情況下,就大幅度提升了效果。就像我剛才說的,大模型的第一性原理是規模化定律(Scaling Law),但我們不僅僅只是去暴力的做規模化,而是希望我們在規模化的同時也能夠去提升效率,所以我們一直致力於研發更強的模型架構。比如像 Adam 最佳化器或者像 Attention 架構、殘差連接這些都是有了 10 餘年歷史的技術。在電腦領域,十年其實是非常長的時間。過去十年的時間裡面,沒有任何人能夠去挑戰這些技術,大家都把它當成一個標準。但隨著現在算力的提升和大家研發方式的變化,從原來的偏學術,單純從想法(idea)出發的研究,到變成現在更加重視與工程的結合,然後可以設計非常紮實的規模化驗證實驗,從而得到非常紮實的結論。因此,很多以前認為是標準的東西,現在都可以被挑戰。我們看到,開源模型正在逐漸成為新的標準。這是幾張從剛剛結束的輝達 GTC 2026 大會上,黃仁勳的主題演講中裡面摘取的幻燈片。可以看到,以 Kimi K2.5 為代表的開源模型,已成為全世界所有晶片廠商測試硬體性能的基準:如果發佈新的晶片,就會通過 Kimi 或者其他開源模型來評測晶片性能提升幅度。現在,全世界很多研究機構也在用 Kimi K2.5 或其他的開源模型去進行研究。我們通過開源,讓每一個企業、每一個研究者、每一個終端使用者,都能以非常低門檻獲取智能,是一個非常重要的事情。同時我們做的很多重要的創新,包括我剛提到的新的架構也是開放的,可以被任何人所獲取。最終,大家能夠去形成一個開源生態系統,一起推動 AI 領域的發展。最後想跟大家分享,從模型訓練的角度看,大模型領域仍在快速發展,現在的研發方式跟兩三年之前會有很大不同:2023 年和 2024 年,大家主要使用「天然」資料。也就是從整個網際網路獲取的資料,加上一些少量的人工標註,比如去標註某一條資料是不是符合價值觀或者偏好。2025年,大家更加重視搭建大規模的強化學習系統。但要靠人篩選高品質任務,然後在這些任務上做強化學習得到更好的效果。可以看到,在程式設計或者數學領域上得到的能力提升,主要就來自於這種技術路線。從 2026 年開始,包括接下來的若干年時間內,整個 AI 研發的方式會發生重大變化:更多由 AI 去主導研究。每個研究員會配備非常多的 AI Token, 然後這些 AI 的 Token 可以幫你去合成新的任務,幫你合成新的環境,幫你定義在這個環境下面最好、最合適的獎勵函數是什麼。甚至可以去幫你探索新的網路架構可能長什麼樣。因此,整個 AI 的研發也會逐漸加速。我們希望也能夠跟整個開源社區一起,打造更好的生態系統,不斷把技術往前推進,加速探索智能的上限。感謝大家。 (深科技)
Kimi K2.5登頂開源第一!15T資料訓練秘籍公開,楊植麟劇透K3
開源熱榜第一輪流做,現在花落Kimi。在Hugging Face上,Kimi K2.5登上了Trending榜首,下載量超過了5.3萬。Kimi K2.5主打Agent能力,在HLE-Full、BrowseComp等測試集中,成績超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗艦閉源模型。而且極具性價比,在BrowseComp上達到比GPT-5.2更高的表現,Kimi K2.5的資金消耗僅有不到5%。現在,官方的技術報告也已經亮相,Kimi K2.5怎樣練成,我們可以從中窺探一些答案。原生多模態,15T Token混合訓練Kimi K2.5在K2的架構基礎上,投入了15T的視覺與文字混合Token進行持續預訓練。它選擇了一條原生多模態的技術路線,讓同一套參數空間直接處理視覺訊號與文字邏輯。在15T這樣龐大的資料量級下,視覺理解與文字推理能力實現了同步增強,一改往日“此消彼長”的局面。這種統一的參數架構,讓模型能夠像理解語法結構一樣,精準解析像素背後的邏輯語義。有了這套原生底座,K2.5解鎖了“視覺程式設計”能力。因為能在像素層面進行推理,它具備了從視訊流直接逆向推導程式碼的能力。面對一段包含複雜滾動觸發特效或動態互動佈局的網頁演示視訊,模型能夠準確捕捉視覺元素隨時間軸變化的規律,並將其直接對應為可執行的前端程式碼。這一過程跳過了“視覺-文字”的中間環節,讓開發需求能夠以最直觀的視覺形式傳遞給模型,實現了從設計演示到程式碼實現的無損轉化,即便是極其複雜的動態互動邏輯也能被精準還原。為瞭解決程式碼能跑但樣式不對的問題,K2.5還整合了自主視覺偵錯機制,在程式碼生成並渲染出介面後,模型會呼叫視覺感知能力對實際運行的頁面進行驗收。一旦發現佈局錯位、樣式偏差或動畫異常,模型會自動觸發文件查詢工具,查閱相關技術文件定位問題,並對程式碼進行修正。這種“生成-觀察-查閱-修復”的自動化閉環,模擬了高級工程師的偵錯流程,讓模型具備了獨立完成端到端軟體工程任務的可靠性。超大規模“智能體叢集”為了能更好地解決複雜任務,Kimi K2.5還搭載了Agent Swarm架構。這是一套能自主建構百人規模數位化團隊的平行系統,讓模型獲得了“分身”能力,可以瞬間建立並編排多達100個子智能體,並支援呼叫1500個工具的平行工作流。這種機制將全網深度搜尋或海量資料分析等複雜任務,拆解為無數個同步進行的子任務,利用叢集算力大幅壓縮了處理時間。指揮這支龐大團隊運轉的是PARL(平行智能體強化學習)框架。該框架建立了一套嚴密的指揮體系,由核心的調度器和眾多子智能體構成。調度器如同指揮官,負責宏觀層面的任務拆解與分發;子智能體則作為執行層,在參數凍結的狀態下專注於高效完成具體指令。這種動靜結合的設計,既賦予了系統靈活規劃的能力,又保障了大規模平行操作的邏輯嚴密性。為了讓模型學會高效分工,訓練過程採用了一套階段性獎勵塑造策略。系統在初期會優先激勵調度器進行平行化探索,培養其“多管齊下”的直覺;隨著訓練深入,獎勵重心平滑過渡至任務的最終成功率。這種循序漸進的訓練方式,讓模型建立了在保證結果精準的前提下,最大化利用並行優勢的思維習慣。在效率評估上,系統引入了臨界步驟作為核心指標,基於平行計算的關鍵路徑原理,聚焦於調度開銷與最慢子智能體的耗時。這種機制倒逼模型在決策時,必須優先考慮如何縮短端到端的實際等待時間。只有在能切實提升響應速度的情況下,系統才會增加平行度,從而在極致速度與計算資源消耗之間找到了最佳平衡。楊植麟劇透Kimi K3K2.5上線後不久,月之暗面的三位創始人——楊植麟、周昕宇和吳育昕現身Reddit,來了一場長達3小時的AMA問答。面對全球開發者和的提問,他們直接把程式碼背後的思考、未來的劇透甚至尷尬的Bug都攤開來聊了個透。對於大家最關心的下一代Kimi K3,團隊給出了一個相當硬核的預告——它很可能基於線性注意力機制。楊植麟更是直言,雖然不敢打包票,但K3相比K2.5那怕沒有10倍的提升,也絕對會有質的飛躍。針對K2.5偶爾會自稱Claude的趣聞,團隊也給出了坦誠的解釋——這是因為Kimi“吃”了太多高品質的程式設計訓練資料,而這些資料裡充斥著Claude的名字 。這就像讀了太多某位作家的書,說話難免帶上對方的口頭禪。此外他們也對算力焦慮問題進行了回應,演算法負責人周昕宇拋出了一句“創新往往誕生於約束之中(Innovation loves constraints)” 。在他們看來,堆砌算力不是通往AGI的唯一路徑,在有限的資源下逼出更高效的演算法、更聰明的架構,才是這家實驗室真正的“登月”野心 。 (量子位)
月之暗面三位聯創深夜回應一切!3小時答全球網友23問,楊植麟劇透Kimi K3提升巨大
月之暗面的價值觀是“把事情真正做成並落地”。智東西1月29日報導,今天凌晨,月之暗面核心團隊在社交媒體平台Reddit上舉行了一場有問必答(AMA)活動。三位聯合創始人楊植麟(CEO)、周昕宇(演算法團隊負責人)和吳育昕與全球網友從0點聊到3點,把許多關鍵問題都給聊透了,比如Kimi K2.5是否蒸餾自Claude、Kimi K3將帶來的提升與改變,以及如何在快速迭代與長期基礎研究之間取得平衡。▲AMA欄目截圖(圖源:Reddit)一開始,便有網友拋出尖銳問題:Kimi K2.5有時會自稱為Claude,有人懷疑這是對Claude進行蒸餾的證據。楊植麟回應道,這一現象主要是由在預訓練階段對最新程式設計資料進行了上採樣,而這些資料似乎與“Claude”這個token的關聯性較強,事實上,K2.5在許多基準測試中似乎都優於Claude。談及Kimi K3,楊植麟沒透露太多細節,但提到了K3會在Kimi Linear上加入更多架構最佳化,他相信,就算Kimi K3沒比K2.5強10倍,也肯定會強很多。整場問答中,月之暗面的三位聯合創始人共回答了40多個問題。智東西也向他們提出了3個問題,並獲得了直接回應。當智東西問及月之暗面的算力儲備時,楊植麟稱,GPU數量的差距並未縮小,但實現AGI究竟需要多少算力,仍需拭目以待,而周昕宇補充了一句頗具哲理的話:創新往往誕生於約束之中。▲楊植麟、周昕宇回應智東西關於算力儲備的問題(圖源:Reddit)周昕宇還提到,月之暗面有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。此次AMA正值Kimi K2.5的發佈。這是月之暗面目前最強大的模型,在視覺、程式設計、Agent以及各種通用任務上都有不錯的表現,還通過一項名為智能體蜂群的技術實現一個模型對多達100個“子智能體”的調度,任務執行效率最高提升450%。發佈後2天左右,Kimi K2.5獲得權威AI評測榜單Artificial Analysis開源模型第一的成績,僅次於來自OpenAI、Anthropic和Google的4款模型。我們將AMA中的精華內容梳理歸納為23個關鍵問題,分為三章呈現,第一章聚焦月之暗面公司本身及AI行業相關話題,第二章介紹Kimi K2.5的技術細節,第三章展望月之暗面的未來規劃。完整問答連結:https://www.reddit.com/r/LocalLLaMA/comments/1qpewj7/comment/o28hvpt/01. GPU數量差距並未縮小 但創新往往誕生於約束之中(1)智東西提問:在上次的AMA中,您提到月之暗面的GPU數量(相較其他企業)處於劣勢。在2026年,這種差距會縮小嗎?楊植麟:我認為差距並沒有縮小。但是,要實現通用人工智慧(AGI)究竟需要多少算力?我們拭目以待。周昕宇:可用算力受到太多因素的影響。但無論如何,創新往往誕生於約束之中(innovation loves constraints)。(2)網友提問:您對DeepSeek的Engram架構有何期待?您是否正在考慮採用這種架構?周昕宇:對嵌入進行Scaling是一個值得探索的有趣方向。但在我們通過Scaling階梯對其進行測試之前,我們還沒有太多可靠的資料。(3)智東西提問:這是一個關於你們研究文化的問題。大規模模型訓練會消耗大量的GPU時間,如何界定沉沒成本?比如說,某個方向經過三個月的實驗後沒有明顯的性能提升,你們的團隊會根據那些指標來決定是繼續、調整方向還是徹底放棄?鑑於行業內快速迭代的步伐,你們是否擔心追求短期成功的壓力,會影響那些需要多年才能見效的基礎研究?您如何使您的團隊免受這種壓力的影響?周昕宇:非常好的問題。針對第一個問題,我們會將所有相關實驗的結果分享給所有技術人員,並進行深入討論,直到最終決定是繼續、轉型還是徹底放棄。討論每天都會進行,我們鼓勵每個人對所有事情提出質疑,從目標設定到最細微的技術細節。針對第二個問題,長期以來,我們在押注技術基本面的走勢上有著相當不錯的記錄。MoBA幾乎從公司成立之初就開始了;Kimi Linear也經歷了將近一年的探索與掙扎。關鍵在於團隊要有“把事情真正做成並落地”的共同價值觀,而不僅僅是為了表面光鮮。我們的組織、文化和管理都是為了支撐這一價值觀而建立的。(4)網友提問:你們最喜歡工作中的那一部分?楊植麟:我們喜歡訓練模型,因為這讓人感覺在不斷接近真相:關於什麼是有效的、什麼是無效的真相,關於智能是如何被創造出來的真相。(5)網友提問:請問訓練視覺語言模型(VLM)的主要挑戰是什麼?為什麼Kimi如此致力於訓練視覺模型?楊植麟:主要挑戰在於如何同時提升文字和視覺性能。我們發現,當方法得當時,文字和視覺可以相互促進。例如,我們觀察到,在視覺任務上進行強化學習訓練可以提升文字知識基準測試的成績。另一方面,像K2這樣強大的文字庫對於提升視覺性能也至關重要。(6)網友提問:Kimi Code和Claude Code有什麼區別?為什麼Kimi要開發自己的程式設計工具?楊植麟:我們認為我們需要一個與模型最匹配的框架。但使用Claude Code時,框架會不斷變化,相容性有時會成為問題。此外,Kimi Code還擁有一些獨有的功能,例如視訊輸入。我們認為video2code(視訊生程式碼)非常重要,代表著前端開發的未來。(7)網友提問:強化學習基礎設施已成為關注的焦點。考慮到訓練像智能體蜂群這樣的系統的複雜性,在像verl這樣的開源框架上實現起來會相當具有挑戰性。你們在強化學習基礎設施方面所做的具體改進是什麼?吳育昕:強化學習基礎設施的確是一項巨大的挑戰,我們力求在保持良好靈活性的同時實現高效率。在效率方面,我們嘗試在開發訓練和推理系統時充分考慮強化學習的實際應用場景,以便復用所有繁重的計算工作,從而實現規模化擴展。智能體蜂群的部署邏輯尤其複雜,但我們的系統具有極高的靈活性,允許我們將不同的框架和子智能體設定整合到訓練過程中。(8)網友提問:我想問一下與你們的Scaling階梯有關的問題。你們開始實驗的最小規模(主動/被動)是多少?通常步長是多少?另外,你們是否會根據所做的更改類型(資料、最佳化器、線性注意力機制等)採用不同的Scaling階梯?周昕宇:我們從非常小的規模開始。我個人有時會從小到可以在單個CPU上訓練的模型開始。核心目標是預測系統的可擴展性。有些架構無法擴展,有些最佳化器無法擴展,甚至有些資料也無法擴展。在低FLOPs下評估可擴展性是一個有趣的研究課題,它需要對訓練過程中的數學動態有深刻的理解,同時也需要兼顧嚴謹性和創造性。舉個例子:我們曾經急於將Kimi Linear移植到Kimi K2中,但它在達到一定規模後Scaling失敗了。我們不得不暫停開發,經過漫長的偵錯過程,最終歷經數月才使其達到如今Kimi Linear的水平。從統計學角度來看,大多數小規模行之有效的方案都無法突破規模化瓶頸。而那些能夠成功推廣的方案通常都簡單有效,並且有數學依據。研究的重點在於如何應對失敗,而不是慶祝成功。02. 模型自稱Claude並非因為蒸餾 智能的上限取決於新學習演算法(9)智東西提問:Kimi K2.5使用了平行智能體強化學習技術。你們會不會將主要算力預算從預訓練轉向強化學習?在K3路線圖中,強化學習的算力規模是否會超越預訓練?楊植麟:強化學習的計算量將持續增長。更重要的是,增加強化學習計算量的方法有很多,而且有些方法比其他方法更有效。未來可能會出現更多新的目標函數來對模型進行強化訓練,尤其是在智能體領域。(10)網友提問:Kimi K2.5已經證明,通過強化學習擴展思考token是實現前沿推理的可行途徑。考慮到訓練CoT(思維鏈)策略的巨大工程開銷和生成思考token的推理延遲,你們是否正在探索架構遞迴作為一種在不將計算外部化到KV快取的情況下實現P/poly複雜度的方法?楊植麟:在當前的架構下,我們所關心的許多問題在計算意義上其實都是可解的。在很多情況下,模型能力的瓶頸並不在於其路線複雜度(circuit complexity),而在於任務本身是否是可驗證的。這意味著兩點:一方面,我們當然可以通過設計更高效的架構來降低特定任務所需的路線複雜度,從而提升token使用效率;不過,智能的上限更多地取決於能否發明新的學習演算法。這些演算法應當能夠超越預先定義的、可驗證的任務,而不僅僅是依賴更高效的模型架構。(11)網友提問:Kimi K2.5非常棒,但我看到有人說模型會自稱為Claude,並把這當作你們大量蒸餾(distill)自Claude模型的證據。這是怎麼回事?楊植麟:我們的觀察是,在正確的系統提示詞下,它有很高的機率回答“Kimi”,尤其是在思考模式下。但當系統提示為空時,它就進入了一個未定義區域,這更多地反映了預訓練資料的分佈情況。其中一項改進是,我們在預訓練階段對來自網際網路的最新程式設計資料進行了上採樣,而這些資料似乎與詞元“Claude”的關聯性更強。事實上,K2.5在許多基準測試中似乎都優於Claude,例如HLE、BrowseComp、MMMU Pro和MathVision等等。(12)網友提問:我想知道你們是如何降低K2的幻覺問題的?幻覺問題似乎是K2模型的主要弱點,也是我之前沒有使用Kimi的原因。但目前來看,2.5版本更加可靠。吳育昕:對於所有大模型來說,管理幻覺仍然是一個巨大的挑戰。我們已經通過提高資料質量(更多經過驗證的知識,更少低品質的說法)和獎勵機制(例如,當模型出現幻覺時進行懲罰)來改善這種情況,但我們認為仍然有很多方法可以進一步改進。(13)網友提問:Kimi K2.5使用了較高的參數比例(約470:1)。您認為我們目前是否因為使用15兆個token進行過度訓練而“浪費”了計算資源?吳育昕:我不確定1:1最優性是否仍然成立,但從這個意義上講,我們確實會“浪費”一些訓練計算資源。否則模型會更大,並且與我們現在的模型相比,會“浪費”大量的推理計算資源。周昕宇:如果你追求計算最優(compute-optimal)的訓練方式,那麼大多數有用的模型實際上都是被過度訓練的;更大的模型只是“過度訓練得沒那麼嚴重”。而計算最優訓練通常要求模型規模足夠大,這會對現有基礎設施帶來巨大的挑戰,同時也會顯著提高推理成本。我並不認為過度訓練是一種“浪費”,而更像是我們為了獲得更優整體權衡而主動支付的一種“成本”。(14)網友提問:Kimi K2.5的“智能體蜂群”功能最多可協調100個子智能體。在這種規模下,“協調器”模型往往會成為瓶頸。Kimi K2.5如何處理管理100個平行推理流所帶來的延遲和上下文資訊丟失問題?吳育昕:“智能體蜂群”的一個很酷的點在於,各個子智囊團可以在不“腐蝕”或污染主調度器上下文的情況下獨立執行子任務。它們本質上擁有各自的工作記憶,只在必要時將結果返回給調度器。這使我們能夠在一個全新的維度上擴展整體的上下文長度。(15)網友提問:在Kimi K2.5中,你們如何權衡強化程式設計能力與保持甚至提升非程式設計能力(如創意寫作和情緒理解)之間的關係?在K2發佈時你們在官方介紹中強調了創意寫作和情商。團隊是如何在訓練和最佳化過程中,確保這些對使用者體驗至關重要但更“軟性”的能力不發生退化的?楊植麟:在模型參數規模足夠的情況下,我認為程式設計能力和創意寫作之間不存在根本性的衝突。但確實,隨著我們不斷改進獎勵模型,要在不同模型版本之間保持一致的“寫作品味”本身就是一項挑戰。我們的一項做法是依賴內部基準評測(幾乎可以看作一種“元評測”)來反映模型在創意寫作方面的進展,並據此對獎勵模型進行相應調整。(16)網友提問:K2.5的個性和寫作風格明顯變得更加通用,更像其他模型的“貼心助手”風格了。我們非常喜歡K2的個性!K2.5到底發生了什麼?你們是否已經注意到這個問題並正在調查?吳育昕:遺憾的是,每次新版本發佈後,我們都會看到模型“個性”發生一定程度的變化。這是一個相當棘手的問題,因為個性是模型主觀且難以評估的特徵。我們正在努力解決這個問題,並且希望能夠讓產品更好地滿足每位使用者的個性化需求。03. K3將在Kimi Linear基礎上最佳化 即便沒比K2.5強10倍也會強得多(17)網友提問:Kimi K3的重點會是什麼?原始性能?長期目標?還是上下文長度?楊植麟:我們正在嘗試新的架構和新功能。(18)網友提問:Kimi K3是否一定會採用線性架構或其他新架構?如果真是如此,您將如何確保K2.5 Thinking的性能得以保留,甚至進一步提升?尤其是在多模態性能方面。我擔心架構改變後可能會出現不穩定的情況。楊植麟:線性架構是一個非常不錯的選擇。我們做了很多研究,包括Kimi Linear。希望我們能在此基礎上加入更多架構最佳化。我相信Kimi K3就算沒有比K2.5強10倍,也肯定會強得多(I'm sure it will be much, if not 10x, better than K2.5)。(19)網友提問:你們未來對線上/持續學習方面有什麼計畫,特別是針對Agentic模型?Kimi Linear與K2.5有什麼關係?線性注意力仍然是主要研究方向之一,還是會發展成為一個獨立的研究分支?周昕宇:我們相信,持續學習能夠提升模型的自主性,並使它們能夠更長時間地高效工作。我們正在積極探索這一方向。Kimi Linear是與K2.5平行開展的一項專門研究項目。我們正大力投資於線性注意力機制,將其作為未來模型的一個關鍵方向。(20)網友提問:你們是如何考慮模型的角色塑造的?如果有的話,你們對“Kimi”這個角色有什麼目標?楊植麟:我認為模型的核心在於“品味”,因為智能本身是非同質化的(non-fungible)。我個人很喜歡K2.5打造的前端設計,它有著獨特的審美取向。模型的性格也是“品味”的一種體現。有報導稱,K2.5相比其他模型更少迎合使用者。這或許是一種好的性格特徵,因為持續不斷地強化使用者原有的觀點,在某些情況下可能是危險的。(21)網友提問:請問你們有計畫開源“智能體蜂群”或者將其作為一項功能加入到Kimi-cli中嗎?楊植麟:目前它還處於測試階段。待其更加穩定後,我們將向開發者提供框架。希望很快就能實現。(22)網友提問:為什麼不把視覺編碼器做得大於400M呢?吳育昕:小型編碼器在很多方面都有利於Scaling,所以我們甚至會問自己:為什麼不把它設為0呢?(23)網友提問:你們有計畫推出帶有原生音訊輸入功能的模型嗎?楊植麟:目前我們沒有足夠的資源來處理音訊輸入,所以可能會把重點放在訓練更好的智能體上。 (智東西)