#Kimi
揭秘楊植麟,技術理想主義的孤島還是燈塔
很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)
中國兩部門發文,DeepSeek、Kimi、豆包等或將入圍
一批平台即將成為你的個人資訊“守門人”。11月22日,中國國家網際網路資訊辦公室、公安部發佈《大型網路平台個人資訊保護規定(徵求意見稿)》(以下簡稱“徵求意見稿”),明確了對大型網路平台的認定標準,以及應履行的個人資訊保護義務。根據徵求意見稿,除卻阿里、騰訊、螞蟻、字節跳動、百度、微博、小紅書等網際網路平台,DeepSeek、MiniMax、Kimi等迅速增長的AI公司,以及OPPO、vivo、榮耀等智能終端廠商,不少使用者規模也滿足徵求意見稿中的“使用者超5千萬或月活超1千萬”等條件,同樣可能進入大型網路平台的序列。“能力越大、責任越大”,這一原則貫穿了數字經濟監管始終。該徵求意見稿與9月份發佈的《大型網路平台設立個人資訊保護監督委員會規定》一脈相承,均可被視為個人資訊保護法第58條“守門人條款”以及《網路資料安全管理條例》對大型平台規定的配套檔案。配套檔案的規定,待正式版本發佈後,將對上述平台的個人資訊保護合規帶來重要影響。AI新貴進入大型平台監管射程?4年前,個人資訊保護法正式實施。其中第58條創設了“守門人”制度:對於提供重要網際網路平台服務、擁有巨大使用者數量的企業,要求承擔更高的個人資訊保護義務。2024年9月30日發佈的《網路資料安全管理條例》中,進一步對大型網路平台做了額外的要求。但在實踐過程中,“守門人”企業應如何搭建制度體系,如何披露個人資訊保護社會責任報告等,一直沒有明確答案。今年,隨著配套檔案陸續進入徵求意見階段,答案似乎逐漸明朗。此次發佈的徵求意見稿中,明確提出:對大型網路平台的認定,主要考慮以下因素:(一)註冊使用者5000萬以上或者月活躍使用者1000萬以上;(二)提供重要網路服務或者經營範圍涵蓋多個類型業務;(三)掌握處理的資料一旦被洩露、篡改、損毀,對國家安全、經濟運行、國計民生等具有重要影響;(四)中國國家網信部門、國務院公安部門規定的其他情形。根據上述要求,騰訊、螞蟻、阿里、字節跳動、拼多多、美團、京東、百度、高德、快手、小米、順豐、滴滴、微博、小紅書、中國銀行、攜程、網易等傳統的網際網路平台自然在列;近幾年風頭正勁的AI公司,比如DeepSeek、MiniMax、Kimi、360奈米也滿足上述條件;積極佈局AI智能終端廠商們,如OPPO、vivo、榮耀,其AI助手的月活數均破億,也進入監管射程之內。不過,很多AI公司的產品主要以聊天機器人為主,是否符合涵蓋多個類型業務,又如何定義“提供重要網路服務”等,一位頭部AI公司法務向我們坦言:“確實存在很多解釋空間和爭議”。徵求意見稿中提到,國家網信部門會同國務院公安部門等有關部門制定發佈大型網路平台目錄並動態更新。屆時,一切將明晰。明確個人資訊保護工作機構在組織架構方面,徵求意見稿中明確,大型平台應該指定個人資訊保護負責人,並公開個人資訊保護負責人的聯絡方式;還要明確個人資訊保護工作機構。這意味著,大型平台需要在公司內部組建專門的“個保團隊”。職責包括:制定實施內部個人資訊保護管理制度、操作規程以及個人資訊安全事件應急預案;明確專人負責未成年人個人資訊保護工作;以及每年編制發佈個人資訊保護社會責任報告等。事實上,關於社會責任報告的落實情況此前已暴露出短板。早在2022年與2023年,21世紀經濟報導商業秩序工作室/南財合規科技研究院曾連續推出《“守門人”個人資訊保護社會責任測評報告》,測評選取了上述傳統的大型網際網路平台為對象。連續兩年的測評發現,仍有多家企業並未發佈專門個人資訊保護社會報告。即便將ESG報告、企業總體社會責任報告等對外披露的內容都囊括在內,總體來看,平台對個人資訊保護的年度總結和披露內容仍非常簡略。(詳情見:重磅:南財發佈“守門人”個人資訊保護社會責任測評報告2.0)因此,如若正式法律文字中保留對社會責任報告的明確要求,大型平台如何補齊這一合規短板,還有待觀察。此外,徵求意見稿還要求,大型平台應該在中華人民共和國境內營運中收集和產生的個人資訊儲存在資料中心。並且,大型平台應當按照國家有關規定自行或者委託第三方專業機構開展個人資訊保護合規審計、風險評估等活動,並對發現的問題進行整改。鼓勵大型網路平台服務提供者優先選擇通過認證的第三方專業機構。獨立監督機構落地困難重重?上述提到,此次發佈的徵求意見稿與9月份發佈的《大型網路平台設立個人資訊保護監督委員會規定(徵求意見稿)》(以下簡稱規定徵求意見稿)均為個人資訊保護法的配套檔案。4年前,個人資訊保護法實施時,58條的守門人條款作為明星條款備受關注。其中最關鍵的一項要求則是: 成立主要由外部成員組成的獨立機構對個人資訊保護情況進行監督。此前,國內相關法律法規中尚未出現過類似提法,甚至在隱私保護最為嚴格的歐洲,都未有過針對企業個人資訊保護設立外部獨立監督機構的先例。中國人民大學教授張新寶曾在接受21記者採訪時解釋,獨立監督機構是大型網際網路企業公司治理的重要組成部分,是一個創新的制度,主要通過引入外部成員對企業的個人資訊保護情況進行監督,確保企業在個人資訊保護方面合規運行。不過,大型平台如何設立獨立監督機構,又如何運行?多年來沒有解法。我們在2022年、2023年連續兩年測評中發現,對於獨立監督機構,大部分平台企業選擇了“按兵不動”,只有少數幾家開始探索。(詳情見《個人資訊保護法》頒布一年後 中國網際網路大廠仍難以進入“守門人”角色?)9月份發佈的規定徵求意見稿中做了明確的要求。在人員配置上,個人資訊保護監督委員會成員人數應與大型網路平台業務規模、使用者數量等相匹配,一般不得少於7人,外部成員佔比不低於三分之二。職責範圍方面,監督委員會重點監督:個人資訊保護合規制度體系建設情況;平台或產品個人資訊保護規則制修訂情況;敏感個人資訊保護情況;個人資訊保護影響評估開展情況;向境外提供個人資訊合規情況;利用個人資訊進行自動化決策等情況等。並且,監督委員會應當建立與大型網路平台使用者常態化溝通機制,聽取使用者意見建議,回應使用者關切。至少每三個月召開一次定期會議,就大型網路平台個人資訊保護監督事項進行審議,並作出監督意見。在責任承擔方面,監督委員會成員在履行職責過程中發現大型網路平台個人資訊處理活動存在風險或違法違規收集處理個人資訊等問題的,應當向監督委員會和大型網路平台服務提供者提出書面建議。監督委員會和大型網路平台服務提供者未處理的,或成員對處理結果有異議的,成員應當向所在地省級網信部門報告。如果,監督委員會履行職責不到位,導致大型網路平台出現重大個人資訊安全事件的,或嚴重違反個人資訊保護相關法律法規的,省級以上網信部門應當要求大型網路平台服務提供者解散監督委員會,重新成立監督委員會。不過,有業內專家反映,規定徵求意見稿中對監督委員會的要求較高,尤其是該監督委員會主要由外部專家組成,課以太多的責任與義務,可能會損傷外部專家的積極性,“畢竟外部監督只是打輔助的”。 (21世紀經濟報導)
Kimi的估值為什麼不到OpenAI的1%?
最近,月之暗面推出的Kimi K2 Thinking 性能全面壓過 GPT-5,第一次把中國模型推上全球榜首。不久,小鵬汽車發佈了IRON機器人,以逼真的步態復刻了人類的行走姿勢。而且幾乎每個季度,中國的高科技公司們都會發佈階段性的技術成果。但地球另一端,OpenAI 的估值突破了 5000 億美元,特斯拉的市值也超過1.34兆美元。不論是Kimi 還是小鵬,估值都只有他們的百分之一。一個越來越尖銳的問題擺在檯面上:為什麼我們的企業與美國企業之間始終存在一個難以解釋的估值差距?即使在一些關鍵評測上,中國技術已經領先。即使在商業化的路徑上,中國企業並未落後。即使在資金成本上,中國企業更低。但如此懸殊的估值差距依然沒有明顯收斂。這種差距或許不是市場的誤判,而是兩種估值體系、兩種資金結構與兩種產業歷史之間的結構性鴻溝。不過隨著中國企業持續從向海外溢出,估值差收斂可能來得比想像中更快。01. Kimi估值不到OpenAI的1%到底是中國企業被低估了,還是美國企業被高估?這是在Kimi和小鵬發佈了最新產品之後,朋友圈的幾位創業者同時發出的疑問。資料展現了他們的疑惑:OpeanAI在今年10月的估值已達5000億美元。而月之暗面的估值或在33億美元50億美元之間,不到其1%。Tesla的市值1.34兆美元,而小鵬汽車的市值1900億港元,大約為其1.8%。如果你說月之暗面、小鵬,仍是OpenAI和特斯拉的“隨從”,遠不能與之相比。那我們再看看宇樹科技與Figure AI的差異。宇樹科技不論是其技術能力與商業化進度,都是無可爭議的全球第一梯隊。但它的估值僅有120億人民幣,而Figure AI最新一輪估值高達390億美元,約合人民幣2700億元,也就是說宇樹的估值只有Figure AI的4.4%。真格基金合夥人戴雨森在8月份的一次交流中就說,以Kimi為代表的中國AI創業團隊的價值在被低估。“外界太容易在很早期就下結論……但實際上,他們的主觀能動性和突破空間遠遠被低估了。”可見,這類感嘆並非個例,已經是一種在投資圈內反覆出現的普遍情緒。不僅國內投資人會發出這樣的感嘆,海外質疑也開始多了起來:為什麼中國AI企業能夠在資金成本如此低廉的情況下,做出與美國同行相同水平的產品和技術?要回答這個問題。關鍵不在於解答中國企業是不是被低估,而是找到為什麼被低估的原因。至少從技術上而言,這樣懸殊的估值差距不應該出現。Kimi K2 Thinking在多項核心評測中全面超越OpenAI的GPT-5、Anthropic的Claude 4.5等閉源模型。獨立評測平台Artificial Analysis將其列為全球第一。因此,技術能力本身顯然不足以解釋估值鴻溝。商業化路徑也不是根本差異。比如豆包、Kimi、元寶等都上線了電商業務。同樣的,今年10月中旬,OpenAI也宣佈與零售巨頭沃爾瑪達成合作,使用者未來可通過和Chat-GPT聊天直接購買沃爾瑪商品。既然技術與商業模式都不能解釋差距,那麼真正的分野就只能從估值方式本身找答案。02. 如何給AI大模型公司估值中美投資人,到底是按照什麼給AI估值的?2023年底,國內某機構給出了AI大模型公司的估值方法。當時OpenAI正在與投資人討論股票出售,估值在800—900 億美元區間。該機構分析說,預估OpenAI的穩態年利潤30億美元/年,以SaaS的業務模式,給到30倍PE,那麼估值就在900億左右。然後又以OpenAI為天花板,按照市場體量差異、終局市佔率差距、穩態淨利率差距等係數進行調整,得出中國第一梯隊的大模型公司的估值或在600億人民幣左右。我覺得這家機構對大模型估值邏輯,能夠說明兩個問題:第一,即使到今年,OpenAI也沒有實現穩態年利潤30億美元,資料顯示,OpenAI在2025年上半年營收約43億美元,淨虧損135億美元。但是OpenAI的估值從900億美元左右迅速飆升至5000億美元,這意味著美國市場採用的根本不是“PE估值”這一套,而是完全不同的敘事框架。第二,但在中國市場,大模型公司的估值則在200億-600億之間,可見給國內大模型公司的估值,恰恰正是按照這家機構的邏輯進行估值的。這正是兩個市場不同的估值邏輯。在中國市場,對AI公司的估值,是按照落地效率+產業化兌現速度來定價;而在美國資本市場,對AI公司的估值邏輯,是按照未來可能控制AI基礎層範式來定價。一個面向當前現金流,一個面向未來系統權力。所以,真正影響資本定價巨大差異的,既不是技術實力,也不是商業化模式,而是上述不同的估值體系。再進一步,OpenAI的估值錨點,是基礎模型與AI平台級控制權的爭奪。市場對它的預期,是建構AI世界的作業系統。這一點不僅是其演算法領先,也在於與傳統巨頭的生態繫結。其商業模式是向全世界的使用者,抽取“AI稅”。而一旦能夠抽“稅”,估值自然具備平台級資產的溢價。而以Kimi為代表的中國AI公司就大不一樣了。其估值錨點在於應用層和產品體驗,市場對其的預期並非作業系統,而是AI助手。商業模式自然也不是“稅”,而是廣告、流量與B端的大客戶。兩廂比較,一個是AI的作業系統,另一個是AI產品。兩者對應的不是同一種資本語言。類似的估值體系也表現在小鵬與特斯拉上。從產品形態上看,兩家企業都是新能源汽車和機器人公司。但是資本市場把特斯拉看做是通用機器人的產業革命,木頭姐更定義特斯拉是“地球上最大的AI項目”。而國內資本市場只把小鵬看做是一家製造業公司,即使率先推出了IRON機器人,也只被看做是車廠延伸出的智能硬體新業務。一個是全球最大AI,另一個僅為車企新業務,兩者的估值高下立現。這種估值體繫上的差異,還體現在對高端人才收購上。你很難想像一個頂尖大學畢業的25歲的年輕人,竟然能夠拿到5000萬美金以上的薪酬包。這筆人力成本的帳,在中國市場是算不過來的。但在美國投資界有獨特的演算法:“如果我能把賺一兆美元的機率提高1%,那就值100億美元。”——即便這可能是一種不能兌現的演算法,但美國資本願意相信這樣的敘事。正如紅杉資本David Cahn說的,這是矽谷的“生態系統的焦慮症”。何為生態系統?就是一種對AI世界的定義權。它不僅是單一產品或技術,而是一套被廣泛採用的技術和商業模式組合,說白了就是標準的制定權,“我這麼做,你也必須按照我的方式來做”。所以,美國投資者並不關心 OpenAI 短期內是否掙錢,而關心它是否能成為 AI 世界的“生態系統”。美國資本對OpenAI的高估值,本質上是對這種“定義權”的押注。而現金流只在它的估值體系的邊緣。03. 不同的LP 不同的產業歷史而估值體系差異的背後,實質上是LP結構差異。PitchBook 前不久發佈的一篇報告Sovereign AI: The Trillion-Dollar Frontier.《主權人工智慧:兆美元前沿》,報告披露了全球主權財富基金對AI的投資資料。資料顯示,今年 1 月至 8 月,全球主權財富基金參與了總價值 464 億美元的 AI 風險投資交易,其中 433 億美元(超過 93%)流向了美國的初創公司。比如,阿布扎比主權財富基金旗下的資產管理機構Mubadala Capital領投了Crusoe。馬斯克的xAI,則得到了阿曼和卡達的主權財富基金支援。這些主權財富基金通常偏好能長期掌控技術秩序的公司,而不是短期能掙現金流的公司。除了主權財富基金外,養老基金、大學捐贈基金、產業資本等長期資本也是其重要的出資人。也就是說,美國AI創業公司背後的資本結構天然是“全球化+長周期”而國內資金量少得多。投中嘉川CVSource資料顯示,今年(截至11月15日)國內AI產業,累計融資金額約為480億人民幣,這包括了市場化VC/PE、國資機構、產業資本。其資金規模更小、期限更短、退出壓力更強,自然更偏好現金流可見性高的公司。但資金屬性只是表層原因,更深層的差異來自——歷史上誰曾掌握過“範式定義權”。答案是:在過去半個世紀,美國企業連續三次定義科技範式,這讓美國市場形成了“押注定義者而不是追隨者”的長期主義。比如第一次由微軟完成的PC革命。1981年,IBM 採用微軟 DOS 作為 PC 系統,第一次把“計算入口”交給微軟。1985年,微軟發布Windows系統,確立了圖形介面的交付標準。1995年,微軟發布Windows95,為全世界的個人電腦,建構了統一的交付平台。再加上推出的office系列產品,微軟最終定義了個人的網際網路生活與全球商業的辦公方式。第二次是由Google建立的內容革命。創業之初,靠著 PageRank 演算法,Google迅速成為網際網路使用者獲取資訊的起點,改變了使用者使用網際網路的習慣。2010 年以後,隨著智慧型手機普及、YouTube迅速增長、Chrome成全球最強瀏覽器,Google最終完成了對入口層的全面佔領。資訊不再自發傳播,而是“按Google的方式”被組織、排序、傳遞。第三次由蘋果創造的移動生活革命。原本手機只是“通訊裝置”,由諾基亞、黑莓、摩托羅拉統治。2007年發佈的iPhone則重新定義了“手機是什麼”。2008 年的 App Store又把手機從硬體產品變成一個“生態系統”,所有開發者必須遵循它的規則、介面和稽核流程。從此,蘋果掌握了移動網際網路時代的“入口權”和“生態秩序”。這三次定義,強化了美國投資人對於平台級技術的長期主義信仰。所以,全球資金對OpenAI們的追逐,正是延續了這一種信仰的“歷史慣性”。04. 中國企業創造半次勝利那麼中國企業呢?到目前為止,中國企業只完成了半次對世界的定義,那就是新能源。太陽能、新能源汽車、動力電池,這三大領域,其產能、價格和材料體系均由中國主導。中國企業是供應鏈上的規則制定者。舉個例子,在太陽能產業中,中國在矽料—電池片—元件—製造能力上的規模與成本優勢,形成了產業等級的“成本曲線定義權”。在技術上,不論是PERC ,還是TOPCon 、HJT,這些新技術的迭代節奏全部由中國企業決定。在動力電池行業,其磷酸鐵鋰、矽碳負極、電解液、隔膜等各個環節,都由中國企業把控。韓國市場分析機構SNE Research的資料顯示,今年上半年,中國動力電池企業在全球市場的佔有率持續提升,6家中國企業(寧德時代、比亞迪、中創新航、國軒高科、億緯鋰能、蜂巢能源)的市佔率合計達到68.9%。即使其他國家試圖削弱中國企業和供應商的影響力,也不得不遵循中國的價格體系和產能曲線。特斯拉當年必須依靠中國的供應鏈才得以起死回生;而歐洲老牌公司雷諾汽車也在2024年將新能源汽車的研發中心設在了上海。可見,中國企業不是單一技術領先,而是生態化的系統性的領先。站在一級市場的角度,我們認為新能源投資也標誌著人民幣基金的成熟。寧德時代就是里程碑,它是人民幣基金投出的第一家具有世界影響力的兆級企業。寧德的早期投資者,君聯資本葛新宇曾說,新能源是中國歷史上第一次為世界貢獻的工業語言。正說明了中國企業在這一領域擁有的範式定義權。但中國在新能源上並非完全具備軟體定義能力,所以只能說是“半次定義”。新能源汽車的作業系統,智能駕駛的城市標準,分佈式能源的調度與分配,這些軟性層面的標準和規則,依然在角逐之中。而AI的發展水平,無疑也深刻影響著這些軟體層面的競爭格局。05. AI的故事會按照既定劇情發展嗎?所以從產業發展的歷程上看,中美AI企業的估值差距,表面上看是模型強弱的差距,是LP屬性上的差距,但根本上是“美國企業定義了世界3次”與“中國企業定義了世界半次”之間的歷史差距。而現在AI產業上的競爭,正是進行中的又一次定義權之爭。這場競爭的起點,是誰的模型更加強大,但競爭的終點,在於誰能夠決定“人類未來應該如何使用AI”。這不止是性能競爭,更是系統的競爭。輝達、OpenAI和微軟等美國企業之間的合縱連橫,正是形成這一系統閉環的縮影。但歷史慣性並不意味著未來必然重演。紅杉資本David Cahn說,過去所有的壟斷,都是靜悄悄完成的。不論微軟,還是Google,早年間投資界對他們的預期,都遠遠小於後續的發展。他們當今的全球權力,是所有人的意外。但是今天,AI卻是擺在明面上的事。整個資本市場幾乎都在押注AI,不論是標普500,還是私募股權,全球資本都指向了單一方向。所以,會不會出現這樣的情形:當所有人都認為一件事會發生的時候,這件事就不會發生,或者不會按照預期的模樣發生?這或許是可能的。最近矽谷的一個新趨勢,就是投資那些由頂尖科學家組成“Neolabs ”(新生代實驗室),背後的邏輯便是對OpenAI、Anthropic 等高度成熟的大公司們的懷疑——5000億估值的企業已經過於龐大,在技術路徑上是否已經陷入了某種慣性?那麼在主流之外又有沒有新的可能?所以,競爭尚未落定。至少到目前為止,沒有那個模型能主導一切。特別是在中國開源模型的衝擊下,應用端公司和個人仍然有很多選擇。最近中美模型的下載量資料被刷屏了:2023年11月,美國模型在全球下載量中佔比超過60%,中國模型僅有25%。到2025年9月,中國模型新增下載量佔比已上升至約65%,而美國模型份額下降至30%左右。截至2025年10月,中國開源模型累計下載量達到約5.5億次,而美國模型為4.75億次。下載量上升說明中國模型可用性提升,這削弱了美國模型的先發優勢,增加了未來估值收斂的可能性。另一個在矽谷流傳但沒有核實的資料是,80%的AI創業公司都在用中國開源模型。這些資料都意味著,中國模型的可用性正在被海外市場驗證,這為後續更深層競爭打開了空間。所以,回到中美AI企業估值差距這一話題。OpenAI 的估值並不只來自模型能力,而來自其被視為主導下一代互動範式、工作方式和軟體形態的可能性。而中國AI範式也在競爭之中,如果它能持續從中國向外溢出,讓海外市場開始認為中國模式也能“制定標準”。那麼估值差收斂可能來得比想像中更快。這會發生在什麼時候?如今矽谷的AI泡沫的形成已經成為共識。人們開始質疑美國企業過於高估了。也許更清晰的未來,在這一輪泡沫消化(或破滅)之後就能看到。 (超越 J Curve)
用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了
上周 Kimi K2 Thinking 發佈,開源模型打敗 OpenAI 和 Anthropic,讓它社交媒體捲起不小的聲浪,網友們都在說它厲害,我們也實測了一波,在智能體、程式碼和寫作能力上確實進步明顯。剛剛 Kimi 團隊,甚至創始人楊植麟也來了,他們在 Reddit 上舉辦了一場資訊量爆炸的 AMA(有問必答)活動。Kimi 團隊三位聯創,楊植麟、周昕宇、吳育昕參與回答面對社區的犀利提問,Kimi 不僅透露了下一代模型 K3 的線索、核心技術 KDA 的細節,還毫不避諱地談論了 460 萬的成本,以及與 OpenAI 在訓練成本、產品哲學上的巨大差異。460 萬美元這個數字不是官方的數字,具體的訓練成本很難量化到多少錢K3 什麼時候來,是看奧特曼的兆美中繼資料中心什麼時候建成K3 的技術將會繼續沿用,當前效果顯著的 KDA 注意力機制視覺模型還需要我們去採集更多的資料,但目前已經在做了……我們為你整理了這場 AMA 中最值得關注的幾個核心焦點,來看看這家現在算是國產開源老大的 AI 實驗室,是如何看待他們的模型,和未來 AI 的發展。叫板 OpenAI,「我們有自己的節奏」在這場 AMA 中,火藥味最足的部分,大概就是 Kimi 團隊對 OpenAI 的隔空回應。最大的噱頭之一:K3 什麼時候來?Kimi 團隊的回答非常巧妙:「在奧特曼的兆美中繼資料中心建成之前。」很明顯這一方面是幽默,因為沒有人知道 OpenAI 到底什麼時候才能建成那個資料中心,另一方面似乎也在回應外界對於 Kimi 能用更少資源追趕 GPT-5 的讚歎。當有網友貼臉開大,直接問 Kimi 怎麼看 OpenAI 要花這麼多錢在訓練上時,Kimi 坦言:「我們也不知道,只有奧特曼自己才知道」,並強硬地補充道,「我們有自己的方式和節奏。」這種自己的節奏,首先體現在產品哲學上。當被問到是否會像 OpenAI 一樣發佈 AI 瀏覽器時,團隊直言 No:我們不需要建立另一個 chromium 包裝器(瀏覽器套殼),來建構更好的模型。他們強調,目前的工作還是專注於模型訓練,能力的體現會通過大模型助手來完成。在訓練成本和硬體上,Kimi 也展現了精打細算的一面。社區好奇 K2 的訓練成本是否真的是傳聞中的 460 萬美元,Kimi 澄清了這個數字並不精準,但表示大部分的錢都是花在研究和實驗上,很難具體量化。至於硬體,Kimi 承認他們使用的是 H800 GPU 和 Infiniband,雖然「不如美國的頂級 GPU 好,而且數量上也不佔優勢」,但他們充分利用了每一張卡。模型的個性與 AI 的垃圾味一個好的模型,不僅要有智商,還要有個性。很多使用者喜歡 Kimi K2 Instruct 的風格,認為它「比較少的諂媚,同時又像散文一樣,有洞察力且獨特」。Kimi 解釋說,這是「預訓練(提供知識)+ 後訓練(增添風味)」共同作用的結果。不同的強化學習配方(即獎勵模型的不同選擇)會得到不同的風格,而他們也會有意的把模型設計為更不諂媚。大語言模型情商評估排名,圖片來源:https://eqbench.com/creative_writing.html但與此同時,也有使用者直言 Kimi K2 Thinking 的寫作風格太「AI Slop 垃圾」,無論寫什麼話題,風格都太過於積極和正面,導致讀起來 AI 味就是很重。他還舉例子說,要 Kimi 寫一些很暴力很對抗的內容時,它還是把整體的風格往積極正面那邊去靠近。Kimi 團隊的回答非常坦誠,他們承認這是大語言模型的常見問題,也提到現階段的強化學習,就是會刻意地放大這種風格。這種使用者體感與測試資料的矛盾,也體現在對 Benchmark(跑分)的質疑上。有網友尖銳地提問,Kimi K2 Thinking 是不是專門針對 HLE 等跑分進行了訓練,才會取得如此高分?畢竟這麼高的分數,好像和他實際使用中的智能不太匹配。對此,Kimi 團隊解釋說,他們在改進自主推理方面取得了一些微小的進展,這剛好讓 K2 Thinking 在 HLE 上得分很高。但他們也坦誠了努力的方向,要進一步提升通用能力,以便在更多實際應用場景中和跑分一樣聰明。網友還說,你看馬斯克的 Grok 因為做了很多 NSFW (非工作安全) 的工作,生成圖片和視訊;Kimi 完全可以利用自己的寫作優勢,讓它完成一些 NSFW 的寫作,一定能為 Kimi 帶來很多的使用者。Kimi 只能笑而不語,說這是一個很好的建議。未來是否會支援 NSFW 內容,可能還需要找到一些年齡驗證的方法,也需要進一步做好模型的對齊工作。很明顯,現階段 Kimi 是不可能支援 NSFW。核心技術揭秘:KDA、長推理與多模態作為一家被稱為「開源先鋒實驗室」的公司,而 Reddit 本身就是也是一個非常龐大和活躍的技術社區,Kimi 也在這次的 AMA 中,分享了大量的技術細節。10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的論文,詳細介紹了一種新型混合線性注意力架構 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。KDA 演算法實現,論文連結:https://arxiv.org/pdf/2510.26692通俗來說,注意力(Attention)就是 AI 在思考時,決定應該重點關注上下文那些詞語的機制。和常見的完全注意力和線性注意力不同,KDA (Kimi Delta Attention),是一種更智能、更高效的注意力機制。在這次 AMA 活動中,Kimi 也多次提到,KDA 在長序列強化學習場景中展現了性能提升,並且 KDA 相關的想法很可能在 K3 中應用。但 Kimi 也坦言,技術是有取捨的。對大多數大模型任務來說,目前混合注意力的主要目的是節省計算成本,並不是為了更好的推理;在長輸入和長輸出任務上,完全注意力的表現依然是更好的。那麼,Kimi K2 Thinking 是如何做到超長推理鏈的呢,最多 300 個工具的思考和呼叫,還有網友認為甚至比 GPT-5 Pro 還要好?Kimi Linear 模型結構Kimi 認為這取決於訓練方式,他們傾向於使用相對更多的思考 token 以獲得最佳結果。此外,K2 Thinking 也原生支援 INT4,這也進一步加速了推理過程。我們在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化訓練技術,這是一種高效的量化技術(INT4 QAT),Kimi 沒有訓練完再壓縮,而是在訓練過程中,就保持了低精度運算模型。這能帶來兩個巨大的優勢,一個是推理速度的提升,一個是長鏈條的推理,不會因為訓練完再進行的壓縮量化,而造成邏輯崩潰。最後,關於外界期待的視覺語言能力,Kimi 明確表示:目前正在完成這項工作。之所以先發佈純文字模型,是因為視覺語言模型的資料獲取,還有訓練,都需要非常多的時間,團隊的資源有限,只能優先選擇一個方向。生態、成本與開放的未來對於開發者和普通使用者關心的問題,Kimi 團隊也一一作答。為什麼之前能處理 1M 上下文的模型消失了?Kimi 的回答言簡意賅:「成本太高了。」而對於 256K 上下文在處理大型程式碼庫時依然不夠用的問題,團隊表示未來會計畫增加上下文長度。在 API 定價上,有開發者質疑為何按「呼叫次數」而非 token 收費。對使用 Claude Code 等其他智能體工具進行程式設計的使用者來說,基於 API 請求次數的計費方式,是最不可控且最不透明的。在傳送提示之前,使用者根本無法明確工具將發起多少次 API 呼叫,或者任務將持續多長時間。Kimi 會員計畫Kimi 解釋說,我們用 API 呼叫,是為了讓使用者更清楚的知道費用是怎麼消耗的,同時符合他們團隊的成本規劃,但他們也鬆口表示會看看是否有更好的計算方法。當有網友提到自己公司不允許使用其他聊天助手時,Kimi 藉機表達了他們的核心理念:我們擁抱開源,因為我們相信通用人工智慧應該是一個帶來團結而不是分裂的追求。而對於那個終極問題——AGI 什麼時候到來?Kimi 認為 AGI 很難定義,但人們已經開始感受到這種 AGI 的氛圍,更強大的模型也即將到來。和去年瘋狂打廣告行銷的 Kimi 不同,在這場 AMA 裡,楊植麟和團隊成員的回答;確實能讓人感受到在國產開源,逐漸佔據全球大語言模型開源市場的背景下,Kimi 也更加有底氣,更明確了自己的節奏。而這個節奏很明顯,就是在這場燒錢、甚至卷太空的 AI 競賽中,繼續走開放原始碼的路,才能推動技術往前走。 (APPSO)
小成本DeepSeek和Kimi,正攻破奧特曼的「算力護城河」
2025年前盛行的閉源+重資本範式正被DeepSeek-R1與月之暗面Kimi K2 Thinking改寫,二者以數百萬美元成本、開源權重,憑MoE與MuonClip等最佳化,在SWE-Bench與BrowseComp等基準追平或超越GPT-5,並以更低API價格與本地部署撬動市場預期,促使行業從砸錢堆料轉向以架構創新與穩定訓練為核心的高效路線。2025年以前,AI界盛行著一種信念:只有閉源、巨額投入和瘋狂堆算力才能打造最強大的模型。OpenAI作為這一思路的旗手,不僅將模型訓練秘而不宣,更與合作夥伴繪製了高達1.4兆美元的基礎設施藍圖。八年內燒掉1.4兆美元來建構資料中心,被視作確保領先的唯一途徑。在這種思維下,OpenAI旗艦模型的研發成本節節攀升:據報導,訓練GPT-4就花費了約1億美元。閉源+重資本模式一度令人信服,OpenAI因此獲得了天價估值和洶湧資本支援。然而,這一「用錢砸出智能」的神話,正隨著一系列意料之外的挑戰而動搖。信念的第一次動搖DeepSeek-R1橫空出世今年年初,一家彼時名不見經傳的中國初創公司深度求索掀起了巨浪。它發佈的DeepSeek-R1模型不僅開源,而且號稱性能可與OpenAI頂級模型比肩。更令人瞠目的是,DeepSeek宣稱訓練這款模型只花了約560萬美元,連舊金山一套像樣的房子都買不起。這個成本數字相比業內普遍認為的「燒錢」等級相差懸殊,僅為Meta開發Llama模型成本的約十分之一。事實證明,這並非誇誇其談。DeepSeek-R1發佈後一周內,DeepSeek App下載量迅猛攀升,一舉超越ChatGPT,登頂美國蘋果App Store免費榜。一款開源AI應用在美國使用者中的受歡迎程度超過了OpenAI的王牌產品,這一幕令業界震驚。DeepSeek以微薄成本實現高性能,直接質疑了開發AI必須投入天量資金和算力的傳統觀念。華爾街對此反應劇烈,微軟和Google股價應聲下挫,而AI晶片巨頭輝達的市值甚至蒸發了約17%,相當於約6000億美元。資本市場用腳投票,開始重新審視AI賽道的投入產出模型:燒錢打造封閉模型的路線,或許並非高枕無憂的康莊大道。開源低成本路線的核彈Kimi K2 Thinking震撼登場DeepSeek年初點燃的星星之火尚未平息,中國另一家初創公司月之暗面在年末投下了一枚震撼彈。本周,月之暗面發佈了最新的開源巨模型Kimi K2 Thinking(以下簡稱K2 Thinking),以開源身份在多個關鍵基準上追平甚至超越了OpenAI的旗艦GPT-5。要知道,GPT-5可是閉源巨頭最先進的成果之一,而K2 Thinking僅用幾百萬美元訓練,卻在高難度推理和編碼測試上正面較量並拔得頭籌。K2 Thinking在綜合程式設計挑戰「SWE-Bench Verified」上取得了71.3%的通過率,略高於GPT-5的成績,甚至在複雜網頁搜尋推理任務BrowseComp上,以60.2%對54.9%的得分大幅領先GPT-5。這些數字宣示了一個歷史拐點:開源模型與頂級閉源模型之間性能鴻溝的實質性塌陷。K2 Thinking的問世標誌著開源免費模型在高端推理和編碼能力上與封閉系統平起平坐,這一點在過去幾乎難以想像。而實現這一壯舉,月之暗面投入的算力成本據傳約為460萬美元,比起OpenAI宏圖中的兆投入,幾乎可忽略不計。一邊是幾百萬美元造就的開放奇蹟,另一邊是幻想燒錢兆的巨無霸帝國,鮮明對比令人不禁懷疑:AI行業過去堅持的大投入邏輯,難道真的站不住腳了?技術路徑的勝利巧用架構勝過砸錢堆料K2 Thinking並非魔法橫空出世,而是技術路線差異帶來的成本逆襲。傳統的GPT-5這類閉源模型採用的是「通用大腦」式架構,每個參數對每個輸入都會發動運算,因而模型越大推理開銷越驚人。K2 Thinking則採用混合專家架構,將龐大模型劃分為384個專長各異的專家模組。每次僅有8個專家(外加1個通用專家)被啟動參與計算,相當於只動用320億參數來解決特定問題。換言之,K2-Thinking擁有一個「萬智百寶箱」,每個token只呼叫其中不到3.5%的智力,卻能享受近似兆參數的知識儲備。這一架構設計讓K2 Thinking在推理時既聰明又節省:「大而不笨重」。架構最佳化帶來的成本效率提升達百倍之多,令人歎為觀止。更關鍵的是,月之暗面研發了名為「MuonClip」的自訂最佳化器,在訓練過程中自動穩壓梯度,成功杜絕了超大模型常見的梯度爆炸和損失發散問題。Kimi-K2在長達15.5兆token的訓練中實現了「零訓練崩潰」,無需人為中途干預重啟,這意味著即使資金裝置相對有限的團隊也能可靠地訓練超大模型。DeepSeek也在工程上強調「強化學習後訓練」等高效策略,使得小團隊得以攀登AI高峰。這些技術路徑上的創新,等於是用聰明才智破解了過去只有砸錢才能解決的難題。曾經只有巨頭燒錢才能鋪就的康莊大道,如今民間高手另闢蹊徑,用技術巧思抄了近路。開源風暴的經濟學衝擊當技術壁壘被攻克,開源路線在經濟層面的優勢便愈發凸顯。K2 Thinking的模型權重可在相應許可證條款下自由下載部署。這與OpenAI等閉源模式形成鮮明對比,它們的模型被封藏於雲端,只能通過昂貴API租用它們的大腦。以K2 Thinking為例,其官方提供的API價格是每百萬輸入token收費4元(命中快取時更低至1元)、輸出token16元。相比之下,OpenAI的GPT-5 API價格約為每百萬輸入token收1.25美元(約9元),輸出token高達10美元(約71元)。換算下來,同樣百萬token的處理,K2 Thinking的費用僅為GPT-5的十分之一不到。對開發者和企業而言,這無疑極具誘惑力,更何況K2完全可以本地部署,不願付API費的話,大可以自建服務。正因如此,我們已看到市場正在迅速響應:越來越多AI工具和平台開始整合K2 Thinking模型,許多開發者在社區分享如何用K2 Thinking微調自訂應用。DeepSeek-R1發佈後,其MIT開源權重更是被無數開源社區下載、魔改,用於各種外掛和研究項目。甚至政府機構和大型企業也開始重新考慮,與其斥資購買封閉模型的算力配額,不如採用開源模型作為基礎,掌控自主可控的AI能力——尤其當這些開源模型已經足夠好且成本低廉。這種用腳投票的風向轉變,不僅出現在技術圈,更在資本圈引發連鎖反應:OpenAI此前天價的資料中心投資承諾,正面對質疑和壓力。OpenAI高管甚至在公共場合暗示需要政府貸款支援,事後又忙不迭出來「滅火」澄清不尋求政府背書,以平息外界對其燒錢計畫的擔憂。當巨頭為融資「續命」四處遊說時,開源對手們正用實際成績證明,也許根本不需要那麼多錢,也能把事情辦成。行業敘事的改寫與泡沫的冷卻DeepSeek和Kimi K2 Thinking帶來的並非單純的「追趕」,而更像是一場對舊路線的證偽。過去,封閉巨頭們的護城河建立在一種假設之上:只有不斷投入數量級增長的資金和算力,才能保持模型性能的領先。這一假設曾讓OpenAI們在資本市場上如日中天,甚至形成了某種估值泡沫,AI公司和底層晶片廠商的價值被無限推高,因為所有人相信燒錢會帶來奇蹟。然而當開源挑戰者以區區百萬量級美元達到同類水準,這個故事的結局便不再那麼線性。事實證明,「性能領先的最後20%」或許並非大多數使用者真正需要的,尤其如果為此要付出十倍乃至百倍的價格。從普通消費者到中小企業,更青睞的是「夠用+便宜」的實惠。OpenAI等公司無疑依然握有行業頂尖的研究人才和技術積累,但他們再難宣稱自己的路線是「唯一正確且必不可少」的。行業敘事正在轉向:與其痴迷於砸錢堆出更大模型,不如在架構創新和工程穩定性上下功夫,以換取成本效率和開放生態。投資者也日趨清醒,過去見誰談AI就砸錢的狂熱減退了許多,現在更關注實際效能和商業可行性。最危險的對手,不是那個跟你拼燒錢的人,而是那個證明根本不需要燒那麼多錢的人。 (新智元)
外媒:Kimi K2 Thinking模型的訓練成本僅460萬美元,刷新DeepSeek紀錄!首波案例盤點
Kimi K2 Thinking模型訓練成本僅460萬美元,海外網友再一次炸鍋Kimi開源K2思考模型後的2天,在海外科技圈又掀起一波“DeepSeek效應”,權威榜單Artificial Analysis直接把它列為世界第一,排在GPT-5、Grok-4和Claude 4.5前面!連HuggingFace創辦人都親自發文說:「Kimi K2是開源AI的重大里程碑,今天就是AI的轉捩點!CNBC報告:據知情人士透露,這款新模型的訓練成本僅為460萬美元,再次刷新了AI模型訓練的成本效率紀錄。這一數字甚至低於先前DeepSeek V3模型聲稱的560萬美元訓練成本,形成鮮明對比的是,OpenAI等美國公司通常需要投入數十億美元進行模型訓練。消息一出,海外網紅直接刷屏啦~~~突然想起:1969年NASA阿波羅登月,電腦只有4KB記憶體。"如果460萬美元是真的,那矽谷那些燒錢的AI實驗室可以關門了。""重新定義效率。新紀錄,甚至超越了DeepSeek R1的訓練效率。我的天。""僅460萬?是美國的1/100?這能是真的嗎?我來給大家速覽海外網友玩瘋了的真實案例。例如有開發者用K2一口氣寫了本科幻小說集,15個短篇故事從一個指令開始,全程自動調用300次工具,一部完整的書就這麼誕生了!日本網友讓它挑戰東京大學2025年數​​學入學試題,模型整整思考了3分鐘,推理過程像現代藝術表演一樣在屏幕上跳舞,最後答案全對——這種題人類學霸都得啃幾小時。還有人把兆參數的K2塞進兩台Mac Studio,M3 Ultra那種,原格式運作完全不降質!量化到int4,每秒15個token,3500個token一口氣就吐完了,推理速度捲到飛起。(三次方AIRX)
Kimi又開源了! KV快取暴砍75%,解碼速度飆6倍
Kimi開源全新線性注意力架構!智東西10月31日訊息,今天凌晨,大模型獨角獸月之暗面開源混合線性注意力架構Kimi Linear,該架構首次在短上下文、長上下文、強化學習擴展機制等各種場景中超越了Transformer架構的全注意力機制(Full Attention)。Kimi Linear的核心是線性注意力模組Kimi Delta Attention(KDA),透過更細粒度的門控機制擴展了Gated DeltaNet,從而能夠更有效地利用有限狀態RNN記憶體。論文中指出,Kimi Linear既可以滿足Agent對效率和測試時擴展的需求,同時也不會犧牲模型品質。Kimi在社群平台X發布貼文稱,Kimi Linear隨時可以作為全注意力的直接替代品。研究人員基於KDA和多頭潛在註意力(MLA)的逐層混合,預先訓練了具有30億個活化參數和480億個總參數的Kimi Linear模型。其實驗表明,在相同的訓練方案下,Kimi Linear在所有評估任務中均顯著優於全注意力機制,同時將KV快取使用率降低75%,並在100萬個Token的上下文中解碼吞吐量提升6倍。論文提到,這些結果表明,Kimi Linear可以作為全注意力架構的直接替代方案,並且具有更優異的效能和效率。Kimi開源了KDA內核和vLLM的實現,並發布了預先訓練和指令調優的模型檢查點。▲Kimi Linear的Hugging Face開源主頁GitHub:https://github.com/fla-org/flash-linear-attention/tree/main/fla/ops/kdaHuggingFace:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct01.劍指標準注意力機制兩大瓶頸解碼吞吐量最高提升6倍隨著Agent熱潮湧起,尤其是在長時域和強化學習情境下的推理運算需求正成為核心瓶頸。這種向強化學習測驗時擴展的轉變,使得模型必須在推理時處理擴展軌跡、工具使用交互作用以及複雜的決策空間,從而暴露了標準注意力機制的根本性缺陷。傳統Transformer架構的softmax注意力機制,存在運算複雜度高、KV快取佔用大兩大瓶頸。在此基礎上,Kimi提出了混合線性注意力架構Kimi Linear,可以滿足Agent的效率需求和測試時間擴展性,同時又不犧牲模型品質。其核心是Kimi Delta Attention(KDA),這是一個硬體高效的線性注意力模組,它在Gated DeltaNet的基礎上擴展了一種更細粒度的門控機制。與GDN採用粗粒度的頭部遺忘門控不同,KDA引入通道級對角門控,其中每個特徵維度都保持著獨立的遺忘率。這種細粒度設計能夠更精確地控制有限狀態RNN的記憶,進而釋放混合架構中RNN類模型的潛力。至關重要的是,KDA使用Diagonal-Plus-LowRank(DPLR)矩陣的特殊變體對其轉移動態進行參數化,從而實現定制的分塊並行演算法,該演算法相對於一般的DPLR公式大幅減少了計算量,同時保持與經典delta規則的一致性。Kimi Linear將KDA與周期性的全注意力層以3:1的均勻比例交錯排列。這種混合結構在產生長序列時,透過全注意力層保持全域資訊流,同時將記憶體和鍵值快取的使用量降低高達75%。透過符合規模的預訓練和評估,Kimi Linear在短上下文、長上下文和強化學習風格的後訓練任務中,始終能夠達到或超越強大的全注意力基線模型的性能,同時在100萬上下文長度下,解碼吞吐量最高可提升到完整MLA的6倍。Kimi研究團隊的主要貢獻包括:1.線性注意力機制KDA,改進了門控delta規則,提高了循環記憶體管理和硬體效率;2.Kimi線性架構採用3:1 KDA與全域注意力比率的混合設計,在減少記憶體佔用的同時超越了完全注意力品質;3.大規模的公平經驗驗證:透過1.4T個token的訓練運行,Kimi Linear在短、長上下文和RL風格的評估中優於完整的注意力機制和其他基線,並完全開源了內核、vLLM整合和檢查點。02.透過細粒度門控改進Delta規則多個組件提升表達能力論文中介紹了KDA的分塊並行化,展示瞭如何在對角門控下保持穩定性的同時,將一系列秩為1的矩陣變換壓縮成稠密表示,在輸出階段,研究人員採用塊間遞歸和塊內並行策略來最大化矩陣矩陣,從而充分利用張乘法核心的計算潛力。▲輸出階段在表達能力方面,KDA與廣義DPLR公式一致,兩者都表現出細粒度的衰減行為,然而這種細粒度的衰減會在除法運算期間引入數值精度問題。透過將變數a和b都綁定到k,KDA有效地緩解了這一瓶頸,將二級分塊矩陣計算的次數從四次減少到兩次,並進一步消除了三次額外的矩陣乘法。因此,與DPLR公式相比,KDA的算子效率提高了約100%。▲KDA算子效率狀況此外,KDA模型架構主要基於Moonlight,除了細粒度的門控之外,研究人員還利用了多個元件來進一步提升Kimi Linear的表達能力。神經參數化:輸出閘採用類似遺忘閘的低秩參數化方法,以確保參數比較的公平性,同時維持與全秩門控相當的效能,並緩解注意力陷阱問題;▲Kimi Linear模型架構示意圖混合模型架構:研究人員將KDA與少量全域注意力層混合。經驗表明,3:1的統一比例,即3個KDA層對應1個全MLA層,能夠提供最佳的質量-吞吐量平衡。MLA層不採用位置編碼(NoPE):研究者對所有MLA層都應用了NoPE。其發現與先前的研究結果一致,以專門的位置感知機制來補充全局NoPE注意力機制,可以獲得具有競爭力的長上下文表現。▲Kimi Linear合成任務的結果03.效能評估整體優於MLA通用知識、推理、中文任務得分第一研究人員評估了Kimi Linear模型與全注意力MLA基線、混合閘控DeltaNet(GDN-H)基線的效能,所有基線均採用相同的架構、參數數量和訓練設定。研究人員使用1.4T預訓練語料庫將Kimi Linear模型與兩個基線模型(MLA和混合GDN-H)進行了比較,評估主要集中在三個方面:通用知識、推理(數學和編程)以及中文任務,Kimi Linear在幾乎所有類別中都始終優於兩個基線模型。在常識方面:Kimi Linear在BBH、MMLU和HellaSwag等所有關鍵基準測試中得分最高;推理能力方面:Kimi Linear在數學和大多數編程任務方面領先,與GDN-H相比,其在EvalPlus上的得分略低;中文任務上:Kimi Linear在CEval和CMMLU上取得了最高分。▲Kimi Linear與全注意力MLA基線、混合GDN基線的表現比較研究人員稱,Kimi Linear可以成為短上下文預訓練中全注意力架構的有力替代方案。在經過相同的監督式微調流程後,研究人員測試發現,Kimi Linear在通用任務和數學與程式碼任務中均表現出色,始終優於MLA和GDN-H。在通用任務中,Kimi Linear在各種MMLU基準測試、BBH和GPQA-Diamond上均取得了最高分。在數學與程式設計任務中,它在AIME 2025、HMMT 2025、PolyMath-en和LiveCodeBench等高難度基準測試中超越了所有基準模型。▲Kimi Linear與MLA、GDN-H在長上下文基準測試中的比較整體結果:在預訓練和SFT階段,Kimi Linear優於GDN-H,GDN-H又優於MLA;在長上下文評估中,這一層級發生了變化,Kimi Linear保持領先地位,GDN-H的表現下降落後於MLA;在強化學習階段,Kimi Linear表現優於MLA。效率方面,隨著序列長度的增加,混合Kimi Linear模型在較短的序列長度(4k–16k)下,表現與MLA相當,從128k開始速度顯著提升。對於512k個序列,Kimi Linear的表現是MLA的2.3倍;對於1M個序列,其表現是MLA的2.9倍。在100萬個Token上下文長度的解碼效率方面,Kimi Linear的速度是全注意力機制的6倍。▲Kimi Linear與MLA、GDN-H在效率上的比較04.結語:攻克全注意力機製瓶頸Kimi Linear實現性能、效率雙超越Kimi Linear透過KDA的細粒度門控與高效分塊演算法、3:1混合注意力架構,首次實現性能超越全注意力以及效率大幅提升的突破,且在100萬個token長上下文、解碼強化大模型中表現突出,使得其可以兼顧效率和可擴展性,為下一代Agent發展、解碼強化大模型提供了高效解決方案。同時,Kimi Linear可以作為全注意力架構的直接替代品,這意味著在實際應用中,開發者可以直接採用Kimi Linear架構來改進現有模型,而無需進行大規模的重新設計和訓練,有效降低開發成本和計算資源成本。(智東西)
力壓美國,中國國產AI巨頭殺瘋了!
AI帶貨,突然爆火。ChatGPT出現以來,全球AI熱潮襲來。DeepSeek、Kimi橫空出世,國產大模型大爆發。馬雲、馬化騰、張一鳴等大佬們也紛紛押注,阿里通義、騰訊元寶、字節豆包應運而生,AI大戰一觸即發。一番酣戰後,作為眾矢之的的OpenAI“落下馬來”,國產AI巨頭們也“殺瘋”了。最新資料顯示,豆包以1.72億月活穩居第一,DeepSeek以1.45億月活暫列第二,二者合計使用者規模接近3.2億人,幾乎相當於中國網民的三分之一。誰能想到,短短兩年時間,豆包從亮相時月活躍使用者還不足10萬,已暴漲170000%,躍至第一。豆包大模型使用量從2024年5月1200億tokens增長253倍至今年9月的超30兆tokens。AI工具業已從“遙不可及”到“觸手可及”,如今全球都在加速AI工具商業化。前不久,豆包默默上線了購物功能。搖身一變,竟然成了“帶貨主播”。你敢想像,我的AI聊天搭子竟然開始給我上連結了。作為國內少有的仍在堅守chatbot路線的AI產品,終於還是走上了那條堪稱“宇宙盡頭的道路”——帶貨。在這個動靜不太大的“雙11”裡,直播間裡少了些許“家人們666”、“給老鐵們上點福利”的喧囂,突然多了一種以AI帶貨的平台方式。AI的工具屬性愈發明顯,“帶貨”的實際效果又會如何呢?01AI大模型也能帶貨了?近日,抖音旗下豆包APP突然上線了AI購物功能,即根據使用者的提問,豆包會推薦相應的產品,給出價格、特色等具體介紹和圖片,並在產品名處嵌入可點選跳轉的商品連結(藍色字樣)。另外,豆包還整合了本地生活與抖音團購服務,也能彈出相應的跳轉連結。不得不感慨,上線兩年的豆包正變得越來越全能,不僅能做聊天搭子,即時回答你的問題,還可以在推薦商品時附上抖音商城的連結,化身AI導購。使用者在與豆包的對話中,即可直接完成“諮詢-比價-下單”全流程。這種“對話式消費”,有助於使用者決策效率的提升,可能會改變未來的購物方式。因為相對於廣告或者直播間中帶貨主播的推銷話術,使用者普遍會認為AI更具有“中立性”,給出的建議比較客觀,更易於接受。如果不是面向大眾的AI實在賺不到錢,豆包恐怕也不會這麼急著“為五斗米折腰”。事實上,不止豆包,大模型“前輩”ChatGPT都開出了成年人限定服務,還與沃爾瑪合作,計畫在ChatGPT上提供購物功能;亞馬遜也推出了AI購物助手Rufus。值得注意的是,Kimi同樣可以跳轉到具體的商品連結。目前國內頭部AI大模型背後不少都關聯著成熟的電商生態,如元寶與騰訊、通義千問與阿里。不過,便捷的同時,豆包“帶貨”的初期體驗仍顯得有些許“粗糙”。首先是有些推薦不太精準,並不全是官方旗艦店產品,還有就是目前還無法顯示商品的折後價。新模式的出現往往都是伴隨著新問題的,使用者會信任AI推薦的商品嗎?傳統電商模式下,商家可以通過付費提升排名,增加曝光。當“豆包們”開始嵌入電商連結後,又如何保證AI給出的推薦結果不會被商家暗中操縱呢?這些都是AI帶貨所要面臨的難題。值得一提的是,這次豆包在帶貨上的策略更像是一場雙11期間 “錦上添花”的測試,有效果當然更好,沒有也不強求,畢竟產品都是基於使用者需求才不斷迭代的。而這場添頭,測試的不僅是豆包的帶貨效果,更是面向大眾的AI產品,到底有沒有不虧本的可能。02如火如荼發展的AI產品,目前實現盈利的沒幾家,基本都是行業頭部(像人形機器人龍頭宇樹科技),特別是大模型領域。OpenAI今年上半年淨虧損高達 24億美元,同比擴大了45%。AI實在太燒錢了,硬體、場地、人員都很費錢,微軟、亞馬遜、Meta四巨頭2025年在AI資料中心和晶片採購上投入超3200億美元。都生怕別人超過自己,戰略卡位已經壓過商業回報的驅動了。強如微軟,在今年上半年,每多一個AI使用者,微軟就虧20美元。有一些擅用AI的使用者,每個人每個月能讓微軟虧80美元!如今AI大模型缺乏好的變現途徑,那怕是網際網路平台最大的紅利,也無非是通過電商導流、廣告、金融“變現”,所以說豆包的行為並不“丟人”,它嘗試引流的方式可能開啟了AI變現的新路徑。AI只是改變了“人”這個點,貨場還是網際網路時代。AI只是適應了消費者新的習慣,在不知道怎麼區分產品的時候,很少再去用搜尋功能而是去問AI,這就使得電商和AI結合成了必然。電商行業正經歷從“人找貨”到“貨找人”,再到“智能體代勞”的深刻變革。其實,豆包引流抖音之前,淘寶、京東等電商平台早已推出多款AI(人工智慧)導購工具,一場圍繞AI導購的入口之爭已悄然啟幕。可以預見,這個“雙11”,電商平台的“戰爭”不再只是低價和補貼,一場關於AI導購的暗戰正悄悄打響。豆包的帶貨嘗試,很簡單同時也會很難。簡單在於引流方式上,而難卻在AI技術上。在AI工具盈利模式尚不清晰的情況下,GEO最佳化(生成式引擎最佳化)正逐漸成為各品牌在AI時代不得不佈局的重要任務。032023年,ChatGPT的橫空出世,掀起了AI行業熱潮,同行如雨後春筍般崛起,一通廝殺後“賣鏟人”賺瘋了。海外大模型加速迭代推動了算力需求爆發,AI晶片供不應求,“賣鏟人”漲瘋了,賺得盆滿缽滿,全球第一家市值突破5兆美元的輝達,就是AI迸發目前最大的受益者。2024年,DeepSeek面世,中國本土大模型躋身世界前列,推動了AI原生應用加速向前,網際網路巨頭反而因全端AI能力和入口優勢,率先突圍而出。字節旗下的豆包就是最好的例子,自2023年8月正式亮相以來,月活從不足10萬增長至超1.7億,僅用兩年時間,實現國內網際網路罕見增長速度。豆包的快速崛起得益於抖音生態支援,2024年初抖音向6億日活使用者推送“用豆包AI做春節特效”彈窗,實現大規模曝光導流。AI產品的本質是資料智能,而非規則智能。更多使用者意味著更多資料,更多資料意味著更聰明的AI,進而吸引更多使用者,形成正向循環。抖音日活超7億時,就成了豆包推廣的核心流量入口,通過高頻互動降低使用者使用門檻,推動下載轉化。2025年8月,豆包月活躍使用者規模達到1.57億,環比增長6.6%,正式超越長期霸榜的DeepSeek,登上中國原生AI App月活榜榜首。9月,豆包以1.72億月活穩居第一,依舊是目前國內最大的Chatbot產品。截至2025年9月,中國AI原生App月活使用者突破7億,AI助手、搜尋、教育、創作等應用進入國民級階段。豆包成功背後是張一鳴的一場豪賭,寧可利潤“失血”也要換未來十年的統治權:2024年,字節跳動在AI領域狂砸120億美元,日均消耗2.3億元,而字節跳動2024年淨利潤增速卻從兩位數跌至6%。04前不久,字節跳動旗下火山引擎披露了最新大模型token(大模型文字單位)呼叫資料,稱豆包大模型日均Tokens呼叫量破30兆了。2025年上半年,中國公有雲大模型呼叫量達536.7兆tokens。其中,火山引擎以49.2%的市場份額位居中國市場第一,阿里雲、百度智能雲分別佔比27%、17%,位列第二、第三位。很明顯,殺出重圍之勢的豆包,勢必要跟ChatGPT“掰一掰手腕”了。期待豆包不僅是中國人自己的大模型,更將會是未來的“世界模型”!作為能夠建模物理規律、時空演化與場景邏輯的智能系統,世界模型賦予AI“看見”世界運行本質的能力,被認為是通往下一代智能的核心引擎。眾所周知,AI是未來,而未來已來。如果說AI的基礎是算力,那麼AI的盡頭可能就是太陽能和儲能!大模型質量的關鍵在於資料、算力和頂尖人才,而高算力的背後,是靠著數萬張晶片晝夜不停的運轉支撐,對電力日益增長的需求,就成了實實在在的新問題。OpenAI近日疾呼美國政府承諾“每年新建100吉瓦”電力(相當於8000萬戶美國家庭的年用電量)。資料中心能耗呈指數級攀升,美國電網早已不堪重負,這些龐大的資料中心將直接挑戰能源供給極限。這聲“電力求救”,撕開了OpenAI光鮮表象下的巨大焦慮,已然暴露其撐不住的窘境。去年中國新增電力產能429吉瓦,美國僅新增51吉瓦,這種“電力鴻溝”若持續,美國或在全球AI賽跑中掉隊。當AI算力被視為“上半場”,電力已悄然成為“下半場”的決勝變數。因為,再龐大的算力訂單,若沒有穩定電力托底,最終只會是空中樓閣。 (正商參閱)