#Kimi
97年法拉利小王子,年入2.4個億,卻因為哭上熱搜:掌管破碎感的神!
剛剛過去的周末,F1中國大獎賽在上海開賽。11支車隊、22名頂尖車手齊聚上海,上演真·速度與激情,三天時間吸引了超23萬人觀賽,據說創下近20年新高。兩岸三地的天王們來了~影視圈、音樂圈、體育圈的明星大咖、還有B站UP主,全都來了!大家圍著車手一邊嘴角瘋狂上揚、一邊偷偷拍照的樣子,像極了追星時的我!在這裡,明星也得讓道,車手們才是絕對的主角。不看不知道,一看有點妙,原來賽車圈那麼多高顏值帥哥——F1帥哥圖鑑火速出爐,一起來欣賞~安德烈亞·基米·安東內利(Andrea Kimi Antonelli),人稱小kimi,06年的義大利車手,目前效力於梅賽德斯AMG車隊。一頭毛絨絨的泰迪捲髮,看起來很好rua的樣子。某些角度有點撞臉荷蘭弟,甚至眉眼比荷蘭弟更精緻一些。不笑的時候是文藝片男主:《梅賽德斯的美麗傳說》笑起來立馬切換到偶像劇,好陽光好青春的弟弟~父親是前賽車手,擁有自己的賽車隊,出身於賽車世家的kimi,7歲參加卡丁車比賽,9歲拿下第一個冠軍,被譽為天才少年。17歲跳級直接參與F1賽事,據說F1為了他專門下調了參賽年齡(之前是18歲)。此次上海F1中國大獎賽一舉拿下冠軍,直接創造了歷史,成為F1史上第二年輕的分站冠軍得主,實力和顏值一樣夯!喬治·拉塞爾(George Russell),同樣效力於梅賽德斯AMG車隊,和kimi是隊友,也是此次上海站的亞軍得主。一些兩人的“氛圍感”同框圖,kimi在他面前好乖,除了交流車技,還還經常讓拉塞爾給他補習數學作業~不同於kimi的意式氣質,英國出生的拉塞爾,是標準的英倫美人。雕塑般的輪廓和五官,湖水綠的瞳孔,恰到好處的性感薄唇,有一種很古典的美。這兩個動圖,也就循環了幾百遍吧~再加上185的完美身高,從頭到腳都太權威了!因為過分貌美,被粉絲稱為“F1美神”、“拉姐”。走下賽場,穿上正裝的拉塞爾,更是一臉“老錢”范十足。溫馨提示,拉姐98年的,怎麼有種48的daddy氣場!好幾次和女友去法網、溫網被拍到,大家都以為是什麼名門望族。再加上手握萬國、勞力士、拉夫勞倫等奢牌代言,關於他的豪門傳說越傳越邪乎~不過拉姐本人闢謠了:就是普通農民(Farmer)出身。真的嗎?我不信。開頭一堆明星圍著的就是他——夏爾·勒克萊爾 (Charles leclerc)。97年摩納哥出身,法拉利車隊的核心車手,圍場公認的“速度與顏值雙擔”,粉絲暱稱“樂扣”、勒老四。顏值就不用多說了吧。從小到大帥得很客觀,五官深邃,自帶高光。teenage時期清清爽爽,有甜茶早期的感覺,笑起來還有小酒窩~近些年蓄起鬍子,魅力加分,而且他真的好適合法拉利紅!至於為什麼叫勒老四。。因為他明明實力不錯,但好似有某種魔咒,好多次比賽都拿了第四名,包括這次上海也是......曾經還因為轉彎失誤後在車裡流淚,被稱為“坐在法拉利上哭的男人”。這迷人的破碎感,很難不讓人心生憐愛~而且他的追夢之路也頗為坎坷。出身普通,4歲開始接觸賽車,到21歲才簽約法拉利,而一直支援和陪伴自己的教父、父親、摯友卻在重要時刻相繼離世。陽光小正太一點點變憂鬱王子,真·美強慘。當然啦,除此之外,樂扣已經是絕對的人生贏家。一年固定薪資近2.4個億,是F1收入最高的車手之一,這還沒算上獎金和各種時尚代言。2月底剛和戀愛3年的女友舉辦了婚禮,開著最愛的法拉利,迎娶心愛的女孩,簡直不要太浪漫。此次來上海女友也是全程陪同,樂扣化身老婆奴,三句不離my wife。總之,雖然破碎版樂扣很美,還是希望他能開心多一些!奧利弗貝爾曼(Oliver Bearman),又是一名05年的帥弟弟,目前效力於哈斯F1車隊。185的大高個,眼神清澈,青春逼人,完全是男高來的。而且超級愛笑,燦爛的笑容看起來人畜無害。捲毛小甜心一枚!但可別被他的外表忽悠了,踩起油門來很野很生猛。16歲F4 17連勝,成為歷史首位雙冠王,17歲F2雙冠王,18歲臨危替補生病的隊友,一戰成名,成為法拉利史上最年輕正賽車手。可以說是目前最受矚目的新生代天才車手之一。相比樂扣的出身寒門、孤軍奮戰,奧利弗可以說生來就在羅馬。出身賽車世家,祖父、父親、母親、弟弟都是賽車手,從小就坐著保時捷、法拉利長大。父親還是保險金融公司的CEO,家境優渥。全家都很支援他的賽車夢想,父親更是常年陪著他出征,而且從不給他施加壓力,總是鼓勵他“享受比賽”,完全就是被愛包圍著長大的小孩。果然啊,這樣無邪的笑容,只會出現在不缺錢、不缺愛的小孩臉上。除了公認帥的這四位,還有不少各花入各眼的車手:03年的傑克·杜漢(Jack Doohan),澳大利亞賽車手。長得好動畫片!人稱“迪士尼在逃王子”。94年的卡洛斯·賽恩斯(Carlos Sainz),綽號西班牙小辣椒。別問為什麼,問就是太hot了!以及,劉易斯・漢密爾頓(Lewis Hamilton).不僅是F1史上第一位黑人車手,更是手握7次世界冠軍、105次分站冠軍的賽車屆GOAT。一個登過VOGUE、當過Met Gala主席,和卡戴珊傳過緋聞的男人。盤完一圈,誰是你心目中的F1最帥? (InsDaily人物)
炸場 AI 圈!Kimi 掀翻 Transformer 十年根基,馬斯克點贊,一作竟是 17 歲高中生
就在3月16日,月之暗面Kimi正式發佈了《Attention Residuals: Rethinking depth-wise aggregation》技術報告,搞出了個顛覆性的注意力殘差(Attention Residuals,簡稱AttnRes)架構,直接動了Transformer沿用了十年的底層根基。這事有多炸?報告發出去不到24小時,矽谷那群最挑嘴的頂流大佬,全下場了。埃隆·馬斯克親自轉發點贊,直白誇了句"Impressive work from Kimi";前OpenAI聯合創始人、AI圈公認的大神Andrej Karpathy更是直接感慨:"看來我們到現在,都沒把'Attention is All You Need'這句話按字面意思吃透"但說實話,比起技術本身,最讓我和全網網友一起驚掉下巴的,是這篇論文的作者列表——三位共同一作裡,赫然有一位年僅17歲的在讀高中實習生。🤔 先給小白嘮明白:這次的突破,到底戳中了AI的什麼命門?能讓全球AI圈集體破防,絕不是小修小補的最佳化,而是直接解決了大模型藏了十年的老頑疾。咱先掰扯個最基礎的常識:現在市面上幾乎所有主流大模型,根子上都離不開Transformer架構,而殘差連接,就是Transformer最核心的地基之一。從2015年ResNet誕生到現在,這套”固定累加”的殘差機制,行業用了整整十年,幾乎沒人能撼動它的地位。但這套老架構,早就帶著天生的毛病。我給大家打個最糙的比方,你瞬間就懂了:傳統殘差連接,就像你跟10個人玩傳話遊戲。第一個人說:”我今天想吃樓下的黃燜雞米飯,要微辣加土豆”傳到第二個人變成:”我想吃樓下的黃燜雞,微辣”再傳到第五個人,就成了:”我想吃樓下的雞米飯”等傳到最後一個人,直接變成了:”我想把樓下的店盤了”資訊越傳越偏,最開始的核心內容,早就被中間層的內容稀釋、帶歪了。對應到模型裡就是:模型層數越深,前面層提取的關鍵資訊越容易在層層傳遞中丟失訓練起來越來越難、效率越來越低甚至會出現”梯度飢餓”——深層的模型根本學不到有用的資訊,白瞎了那麼多算力而Kimi這次搞出來的注意力殘差,直接把這套用了十年的”死規則”,給徹底掀了。💡 大白話講透注意力殘差:把Attention轉90度,到底天才在那?圈內很多人說,這項研究最絕的洞察,是把Transformer的注意力機制”旋轉了90度”。別急,我給你掰開揉碎了說,沒學過AI也能聽明白。原來的注意力機制是幹嘛的?它是用在一句話的內容維度裡的。比如大模型處理”我今天去公園遛狗,遇到了一隻超可愛的橘貓”這句話:它能讓每個詞自主去關注句子裡其他所有詞的資訊“遛狗”能關聯到”我”“橘貓”能關聯到”可愛”解決了長文字看著看著就忘前面內容的問題。Kimi團隊的”降維打擊”式洞察既然詞和詞之間能按需關注,那模型的層和層之間,為什麼不能?這就是注意力殘差的核心邏輯:❌ 徹底扔掉傳統殘差”只能用上一層的輸出”的死規矩✅ 給每一層配個可學習的”智能搜尋框”✅ 每一層計算時,都能自主查詢前面所有層的輸出,只挑最有用的資訊,沒用的直接忽略再來個親民的比方:傳統殘差:你寫畢業論文,導師改了8版,你每次只能拿到上一版修改稿,看不到初稿,也看不到第3版、第5版裡被刪的關鍵思路。只能順著上一版改,很容易越改越偏。注意力殘差:直接給你開全量權限。寫當前這一版時,初稿、第1版到最新版的所有內容全在你眼前,想引用那段就引用那段,完全不會被中間版本帶偏。講真,看到這的時候我雞皮疙瘩都起來了,這個思路真的太妙了。視訊記憶體爆炸?Kimi早有準備肯定有人會問:每一層都要存所有層的內容,視訊記憶體不就炸了嗎?放心,Kimi團隊不光提了理論,連落地的坑都填好了。他們搞了個Block AttnRes(分塊注意力殘差)方案:把模型的所有層分成幾個塊,比如8個塊塊內還是用傳統殘差保證穩定塊和塊之間用注意力機製做選擇性聚合就這一招,直接把視訊記憶體開銷從”和層數成正比”,降到了”和塊數成正比”。只用8個塊,就能找回全量版絕大多數的性能增益,完美平衡了效果和落地成本。不是那種只能看不能用的實驗室花架子。📈 別光聽概念,實打實的效果才是真的狠所有不看落地效果的創新,都是耍流氓。Kimi這篇論文放出來的實驗資料,直接讓行業看到了下一代大模型架構的影子。1️⃣ 訓練效率直接起飛在48B規模的大模型訓練裡,用了注意力殘差的架構,訓練效率直接提了25%。啥概念?同等算力下,訓練時間直接縮短四分之一大模型的訓練成本,直接能砍一大截2️⃣ 模型是真的變聰明了不光基礎任務全面提升,在真正考驗大模型硬實力的高難度場景裡,直接實現了跨越式突破:研究生等級的專業考試高等數學推理程式碼生成超長文字理解這些硬骨頭任務,性能直接漲了3到7.5個百分點。懂行的都知道,大模型到了這個量級:能漲1個點都算大突破更別說這麼大的漲幅了3️⃣ 模型越大,優勢越明顯這就意味著,它不是只能用在小模型上的玩具,而是完全能適配未來更大規模的大模型研發。是真的能支撐AGI發展的底層架構創新。4️⃣ 順便解決了傳統架構的老毛病因為Softmax自帶的歸一化特性:✅ 解決了傳統PreNorm架構的數值隱患✅ 讓梯度在各層之間分佈得更均勻✅ 徹底緩解了深層模型的”梯度飢餓”問題深層大模型的訓練更穩,也更容易收斂。🌟 全網刷屏的17歲一作,到底是什麼來頭?聊完技術,咱再回頭說說這次全網討論度最高的人——論文的共同一作,17歲的高中生陳廣宇(Nathan Chen)。我當時看到作者列表的時候,真的反覆確認了三遍,不敢相信自己的眼睛。給大家說下另外兩位共同一作是誰,你就知道這個事有多離譜:🏆 蘇劍林搞大模型的沒人不叫一聲”蘇神”。RoPE旋轉位置編碼就是他提出來的,現在全世界的主流大模型,基本都在用他發明的這項技術。🔬 張宇之前爆火的Kimi Linear技術的第一作者,大模型底層最佳化領域的頂尖專家。而17歲的陳廣宇,和這兩位行業大神並列,成為了這篇重磅論文的共同一作。📊 陳廣宇的背景根據公開資訊:今年17歲,目前還是在讀高中生以實習研究員身份加入Kimi團隊全程深度參與了注意力殘差項目的完整研發憑藉實打實的貢獻,拿到了共同一作署名從他公開的社交資訊能看到,他此前就已經在AI領域有相關的研究和實習經歷,年紀輕輕,就已經站在了全球大模型底層創新的最前沿。網友的評論真的說出了我的心聲:“我17歲還在為高考數學的最後一道大題頭疼,人家17歲已經把Transformer用了十年的地基給掀了”真・英雄出少年 🌟🌍 最後說點我的心裡話其實我看完這篇論文的完整內容,最感慨的,還不是技術本身有多牛。過去十年,深度學習領域的創新,大多都集中在:注意力機制的小修小補資料規模的放大訓練策略的升級唯獨殘差連接這個最核心的底層元件,幾乎沒人能真正推翻”固定累加”的核心邏輯。而Kimi的注意力殘差,第一次用成熟的、可落地的方案,證明了深度維度的注意力聚合,完全可以替代沿用十年的殘差遞迴。這不止是一次架構最佳化,更是直接打開了下一代大模型架構的全新想像空間。🇨🇳 更讓我驕傲的是這次的底層架構突破,來自中國本土的AI團隊。從RoPE位置編碼,到Kimi Linear,再到如今的注意力殘差,中國的AI團隊,早就不再是應用層的跟隨者,而是真正走到了大模型底層基礎研究的最前排。當17歲的少年天才,遇上敢於顛覆十年規則的創新團隊,我們或許真的在見證,AI領域下一個時代的開啟。🚀 (提拉米蘇的AI驛站)
Kimi 新架構讓馬斯克歎服!17歲高中生作者一戰成名
17歲高中生,以一作身份,在Kimi團隊把Ilya提出的設想,變成了現實。Ilya之前有個預言,把按時間先後順序處理資料的LSTM網路“旋轉90度”,也就是把時間軸換成模型深度軸,就變成了現在的殘差網路。Kimi團隊認為,既然時間上的LSTM能對應深度上的殘差,那後來淘汰了LSTM的“注意力機制”自然也可以照做。他們新搞出的Attention Residuals技術,就相當於把注意力機制也“旋轉了90度”。用了這套新方法後,模型在計算當前層時可以聰明地“回頭看”,根據需要自由決定去提取前面那一層的資訊。這篇論文讓馬斯克也來圍觀,表示令人印象深刻。除了馬斯克,這篇論文也引發了大神Karpathy的思考,直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。這種新機制放到Kimi自家的Kimi Linear 48B大模型(3B啟動參數)上驗證,訓練效率提升25%,推理延遲增加不到2%。殘差連接的“記憶負擔”先回顧一下殘差連接的工作原理。傳統做法是:第N層的輸出 = 第N層的計算結果 + 第N-1層的輸出。這樣一路累加下去,每一層都能“記住”前面所有層的資訊。問題來了,在大模型PreNorm主流範式下,殘差連接中所有層的貢獻都是等權累加。就像一個“記憶力太好的人”,把所有經歷都以相同權重存進大腦。貢獻被逐步稀釋,早期資訊難以檢索,且大量層可被剪枝而損失微小,稱之為“PreNorm dilution problem”。更麻煩的是,隱藏狀態的范數會隨著深度不斷增長。研究人員發現,在深層網路中,這種unbounded growth會導致訓練不穩定。月之暗麵糰隊換了個思路:既然問題出在“無差別累加”,那就讓網路自己決定該回憶什麼。用注意力“選擇性回憶”團隊觀察到一個有趣的對偶性:網路的深度維度和序列的時間維度,本質上是同構的。在Transformer處理序列時,用注意力機制讓當前位置“選擇性關注”之前的位置。那麼在深度維度上,為什麼不能讓當前層“選擇性關注”之前的層?Attention Residuals就這麼來的:當前層的可學習偽查詢向量作為query(learnable pseudo-query)所有前層的輸出作為key和value用注意力機制加權聚合這樣一來,網路可以學會那些層的資訊對當前計算最重要,就多關注一點;不相關的層,權重自然降低。但這帶來一個新問題:計算量爆炸。如果一個100層的網路,每一層都要對前面99層做full attention residual,複雜度是O(L²),根本跑不動。Block AttnRes:分塊壓縮論文中的解決方案是Block AttnRes。核心思想是把連續的若干層打包成一個block,對block內部的輸出做壓縮,只保留一個“摘要向量”。具體操作如下:把L層網路分成B個block,每個block包含若干層每個block結束時,把block內的資訊壓縮成單個向量後續層做attention時,只需要關注塊間表徵+塊內即時層輸出,而非全部L個層這樣一來,attention的複雜度從O(L²)降到了O(L·B),在實踐中B可以設得很小(論文用的是8-16)。此外,團隊還做了數個工程最佳化:快取式流水線通訊、序列分片預填充、KV 快取粒度最佳化等等。Kimi Linear驗證:1.25倍效率提升理論說得通,但真正讓人信服的是大規模驗證。團隊在自家的Kimi Linear架構上做了測試。這是一個採用線性注意力的大模型,總參數48B,啟動參數3B(MoE架構)。同等計算預算下,Attention Residuals能獲得更好的下游性能;反過來說,達到相同性能需要的訓練計算量減少了約20%,相當於獲得了1.25倍的效率優勢。在具體任務上,數學推理(MATH、GSM8K)、程式碼生成(HumanEval、MBPP)均持平或略優,多語言理解的一致性也有所改善。更重要的是,Attention Residuals是一個drop-in replacement,不需要修改網路其他部分,直接替換殘差連接即可。論文裡還講到一個有意思的視角。團隊把這項工作稱為“時間-深度對偶性”(time-depth duality)的應用。在他們看來,深度神經網路的“層”和循環神經網路的“時間步”,本質上是都是對資訊的迭代處理。Transformer之所以成功,是因為用attention替代了RNN中固定的recurrence。那麼在深度維度上,是不是也該用attention替代固定的residual?17歲高中生入列共同一作更有意思的是,這篇讓馬斯克、Karpathy等人都為之一震的論文,共同一作之一是一名年僅17歲的高中生——陳廣宇(Nathan)。另外兩名共同一作,分別是Kimi的關鍵人物之一、RoPE(旋轉位置編碼)的提出者蘇神(蘇劍林),以及Kimi Linear的第一作者張宇。誠然Attention Residuals是團隊協作取得的成果,但一名高中生出現在這樣的團隊之中,還與兩位大神共列一作,已經足夠震撼。a16z創始人Marc Andreessen、Thinking Machines的聯創等人都關注了他的X帳號。一年前才剛剛開始瞭解大模型的陳廣宇,是從北京的一場駭客鬆開始,一路走向矽谷的。後來回國時,他選擇加入了Kimi。經手過月之暗面投資的奇績創壇(原YC中國)創始成員董科含,也曾在其個人公眾號上刊載過陳廣宇的一份自傳。去年二月,北京的一場中學生駭客松上,陳廣宇展示了一個關於“人類第三隻機械輔助手”的創新構想——ThirdArm。也正是這個項目,讓他結識了駭客松評委董科含,後者也成為了他的創業導師。當時,董科含追問他,未來是否會深耕這項技術,這促使他開始重新審視自己的職業方向。隨後他入選了董科含發起的只有極少數人入選的青年計畫,開始接觸IOI(國際資訊學奧林匹克)金牌得主及資深科研人員。此前他曾嘗試經營Shopify跨境電商店舖、營運短影片帳號,但經過董科含的建議,他決定轉向理解時代的底層技術。當時還不知道Transformer是什麼的他,在DeepSeek研究員袁境陽的指導下,利用Gemini作為輔助工具,通過研讀經典論文、追蹤GitHub開放原始碼專案等方式逐步建立認知。有一次他在推特上分享了對一篇部落格的反思後,獲得了作者的回覆,這篇帖子也因此引起了一家矽谷AI初創公司CEO的關注。該公司於2024年底成立,2025年初完成了800萬美元種子輪融資,資方背景涉及OpenAI與Anthropic。在通過一項限時通宵完成的實驗測試後,他拿到了對方的錄用通知。暑假期間,他前往舊金山開啟了為期七周的實習。其中前兩周,他負責定義並推進一個涉及144張H100顯示卡的探索性項目。在CEO直接指導下,他的工作延伸至營運層面,參與了招聘系統搭建、技術內容輸出及融資策略討論,並獲得與早期投資者Vinod Khosla交流的機會。在矽谷期間,他維持著高強度工作節奏,通過咖啡社交與輝達工程師及初創創始人建立聯絡。這次經歷讓他將科研視為一種支撐創造的底層能力。實習結束後,陳廣宇回到國內,並於去年11月加入月之暗面。把他吸引進去的,正是Kimi一直做的Flash Linear Attention這一類高效attention工作。實際上,正是GitHub上的FLA項目,吸引了他對機器學習的興趣並被邀請加入Kimi團隊。也正是順著這條線,他開始一路往更底層鑽,從讀論文、看實現,到研究 Triton kernel、理解attention為什麼能被這樣重寫、這樣加速。到了月之暗面,這條路也算是繞了一圈又落回原點——他最初是被底層技術吸引,最後做的也正是最底層、最核心的那部分事。相比於講一個“少年天才一路開掛”的故事,陳廣宇的經歷更像是另一種成長路徑——先被時代最前沿的技術擊中,再一步步把興趣磨成能力,把能力帶到真正的大模型研發現場裡。 (Python開發者)
估值1200億,Kimi融資破紀錄了
Kimi狂飆。投資界獲悉,月之暗面Kimi正以投前估值180億美元(約合人民幣1200億),進行新一輪10億美元融資。大約一個月前,Kimi剛剛完成逾7億美元融資,彼時估值100億美元;而在去年底一輪5億美元融資中,其估值還只是43億美元。不到三個月,三輪融資,估值翻四倍——Kimi不僅以最快速度成為“十角獸”(估值超100億美元),還創下國內大模型連續融資最多紀錄,金額超過同期大模型公司IPO募資額。放眼一級市場,這樣的融資節奏和量級幾乎從未見過。而點燃這一切的,是Kimi新模型帶來的“K2.5時刻”和業務端的爆發:1月底以來的短短20天內,收入便超2025年全年,狂攬全球使用者。不經意間,中國公司正在改寫世界AI敘事。01融資創紀錄中國最快十角獸誕生猶記得2025年最後一天,投資界報導Kimi 5億美元C輪融資,彼時Kimi獲阿里、騰訊、王慧文等老股東繼續支援,且大幅超募,投後估值達43億美元。如今,紀錄被刷新——不到三個月時間,Kimi一舉創下近年來國內大模型連續融資最多紀錄。早在春節期間,投資界從接近Kimi人士獲悉,當時Kimi已完成超7億美元融資,估值達100億美元。最新一幕,則是Kimi正進行新一輪10億美元融資,投前估值攀升至180億美元。如此估值,已然超過同期大模型公司IPO首日市值。這也意味著,Kimi在短短三個月內,估值翻了4倍。過去幾年,中國AI風暴歷歷在目,特別當DeepSeek一騎絕塵,很多人認為大廠之外創業公司再無機會的時候,中國的AI小龍們還在用市場表現證明自己。放眼一級市場,Kimi的身後集結了紅杉中國、真格基金、Monolith礪思資本、今日資本等知名基金以及阿里、美團、小紅書、騰訊等大廠。從一開始,這就是一個非頭部擠不進去的現象級項目。隨之而來的,Kimi估值也是螺旋式上升,成為國內最快“十角獸”——從成立到估值超100億美元,僅僅用了兩年多的時間。一組對照是,完成這樣的蛻變,拼多多用了三年多,字節跳動則用了四年多。不知不覺間,Kimi正刷新中國科技公司的成長速度。02標誌性一幕:訂單暴漲80倍為何投資人絡繹不絕押注?背後Kimi正迎來爆發。時間回到今年1月底,Kimi正式發佈K2.5,這是Kimi迄今最智能也最全能的模型。官方資訊顯示,該模型具備原生的多模態架構設計,同時支援視覺與文字輸入、思考與非思考模式、對話與Agent任務。Kimi K2.5迅速收穫熱烈反響。矽谷頂級風投a16z聯合創始人Marc Andreessen直言,中國AI公司正讓矽谷感到驚訝,“根據目前的基準測試,Kimi K2.5基本上複製了GPT-5等級的推理能力。”對比下來,GPT-5開發和服務成本極其高昂,Kimi2.5則以極致性價比觸及目前AI推理能力的“天花板”。矽谷知名的風險投資家、企業家Chamath Palihapitiya更是將此視為“Kimi K2.5時刻”——開源模型第一次在綜合能力層面真正撼動由OpenAI、Anthropic、Google建構的閉源體系。回看歷史,技術拐點往往也是商業爆發的起點。其實此次最關鍵的突破點,在於多模態程式設計能力。目前其他主流開源模型並不具備圖片和視訊理解等多模態能力,這在很大程度上影響使用者與AI的互動門檻。由此,Kimi獨特的競爭優勢凸顯,K2.5已是阿里、騰訊、字節等國內巨頭旗下的程式設計工具Qoder、CodeBuddy、Trae使用者使用的主力程式設計模型,也是全球程式設計巨頭Cursor唯一接入的中國開源模型。技術水平直接決定了使用者判斷。據全球支付巨頭Stripe資料,Kimi個人訂閱使用者1月支付訂單數環比增長8280%,2月環比再漲123.8%。在其全球支付榜單上,短短兩個月,Kimi排名由百名開外飆升至第9位。國內市場,Kimi.com今年2月的網站瀏覽量也達到歷史峰值。與此同時,Clawdbot(現為OpenClaw)開始爆紅。擁有它,你就相當於獲得了一個7×24小時不眠不休的AI助手。這也意外成為Kimi的引爆點——作為AI工具,OpenClaw必須搭配大模型才能真正智能。2月初,OpenClaw宣佈將Kimi K2.5設為官方主力模型,直接讓Kimi迎來爆發式增長。而第一時間嗅到趨勢,Kimi也是最早上線了Kimi Claw。相比於OpenClaw繁雜的安裝程序,Kimi Claw無需複雜設定,無需自備電腦,能在網頁端直接使用。不出所料,過去一周OpenClaw全網爆火,“養龍蝦”成為眼下最炙手可熱的社交話題。在此之後,國內大廠及AI公司相繼推出各種“Claw”,千蝦大戰氛圍熱烈。Kimi第一波吃螃蟹,也第一波吃到了紅利。據悉,受Kimi K2.5模型及Kimi Claw火爆出圈帶動,1月底以來,Kimi近20天累計收入已經超過2025年全年。K2.5模型上線以來始終處於供不應求的狀態。如今回頭看,這一波爆發也驗證了Kimi團隊的敏銳。回顧過往,Kimi不少成長節點都是行業風向標。想起楊植麟曾在公開信中寫道,“2026年Kimi會成為一個‘與眾不同’和‘不被定義’的LLM。”如他所言,這樣的輪廓已經浮現。03里程碑中國AI正在成為標準此時此刻,中國AI公司正顛覆想像。記得2026年年初的CES上,黃仁勳展示下一代GPU性能,使用的基準模型是DeepSeek和Kimi K2-Thinking。這在歷史上是第一次。而即將舉行的輝達年度大會GTC 2026,楊植麟也成為唯一受邀演講的中國大模型公司創始人。不止於此,在AI模型API聚合平台OpenRouter的排行榜上,DeepSeek和Kimi泛化能力更強的近7000億和兆大模型,無需免費補貼,也能始終與Google、Anthropic的頂尖模型一起位於榜單TOP10。這是全球使用者的真實需求、真實錢包的投票結果,堪稱中國AI產業一個極具象徵意義的時刻。效應之下,全球資金紛紛開始重估中國科技資產。“相信可以從一級市場募集更大量資金。”楊植麟在去年底的全員信中如此表示。新一輪10億美元融資便是一種應證——如此體量,放在任何交易所都是超級IPO的規模,但Kimi在未上市時就拿到了。這背後是一層更深的邏輯:用一級市場的長錢,換技術突破的時間,在上市之前就建構起足夠的技術壁壘和人才密度。畢竟,AGI這場仗變化太快,唯有持續迭代才能一直在牌桌上。如此策略,也為Kimi打開一個更大的戰略空間。而對於投資人來說,此刻的情緒很複雜。成立不到三年的公司,估值180億美元,這在過去不可想像。但如果這是通往未來的世界級公司,現在不投,以後可能就再也投不進去了。放眼海外,OpenAI最新估值高達8500億美元。但一個普遍共識是,全球AI科技開始進入“中國時間”——中國大模型公司的海外收入不斷攀升,全球AI人才開始向東看,中國頂尖AI公司也將迎來重估。我們正在親歷著這一幕。(EDA365電子論壇)
馬斯克點贊!17 歲高中生參與研究!Kimi 讓 AI 學會“翻舊帳”
2026 年 3 月 16 日,Kimi 團隊最新公開的論文《Attention Residuals》提出了一種針對大模型底層結構的改法。同時 MoonshotAI 也在 GitHub 開源了相關技術報告與實現。該論文獲馬斯克誇讚:“Kimi 的工作令人印象深刻。”論文瞄準的不是訓練資料、參數規模或推理技巧,而是 Transformer 裡一個用了很多年的基礎設計「殘差連接」。用通俗的話說,現在的大模型內部像一條很長的流水線。每一層都會把自己的結果直接加到後面,優點是訓練穩定、網路能堆得很深,但問題是層數一多,前面真正重要的資訊容易被後面的新資訊不斷沖淡。論文把這個問題概括為 PreNorm 下的“稀釋”現象,也就是隱藏狀態會隨著深度持續變大,早期層的貢獻越來越不顯眼。上傳的論文正文對這一點有直接說明。這篇論文的核心思路,是把過去這種“所有層結果默認一股腦往後加”的方式,改成“後面的層按需去前面挑資訊”。作者把這套方法叫做 Attention Residuals,簡稱 AttnRes。簡單理解,它相當於給模型加了一個會翻舊帳的機制,後面的層不再機械接收前面所有層的累計結果,而是像注意力機制那樣,根據當前需要,從更早的層裡找出更有用的資訊再融合進來。過去注意力機制改變了 token 與 token 之間的資訊傳遞,現在 AttnRes 想進一步改變層與層之間的資訊傳遞。這件事之所以被業內關注,不只是因為想法新,還因為它動的是大模型最底層、最通用的一塊積木。Transformer 這些年有很多改進,大家經常改的是 attention、MoE、長上下文、KV cache 或訓練配方,但很少直接去碰 residual connection 這類默認配置。AttnRes 的價值就在於,它試圖回答一個更底層的問題,模型變深以後,資訊到底該怎麼在不同層之間流動,才不會越傳越亂。當然,理想很豐滿,工程通常很殘酷。因為如果每一層都去“看”所有更早的層,記憶體和通訊成本會迅速上升。為瞭解決這個問題,論文又提出了 Block AttnRes,也就是“塊注意力殘差”。它的做法不是逐層精細回看,而是先把很多層壓成若幹個塊,只在塊之間做這種選擇性檢索。可以把它理解成,不是翻整本書的每一頁,而是先把內容整理成幾個章節目錄,再按章節去查。這樣一來,記憶體和通訊開銷從 O(Ld) 降到 O(Nd),更適合真正的大模型訓練和推理場景。論文還配套設計了跨 stage 快取和兩階段計算策略,報告稱典型推理負載下額外延遲低於 2%,啟用 pipeline parallelism 時訓練端到端額外開銷低於 4%。從實驗結果看,這不是那種“只在某個小模型上偶然有效”的工作。論文做了 scaling law 實驗,比較了 baseline、Full AttnRes 和 Block AttnRes 三種方案。結果顯示,AttnRes 在不同計算預算下都持續優於基線,而 Block AttnRes 在最大規模上已經能夠追回大部分 Full AttnRes 的收益。按論文給出的擬合結果,在 5.6 PFLOP/s-days 這一點上,Block AttnRes 達到的損失水平,相當於基線多用 1.25 倍計算量才能達到。GitHub 倉庫首頁也把這一點作為核心結果之一展示出來。論文還把這套方法接入了 Kimi Linear 架構中,使用的是一個 48B 總參數、3B 啟動參數的模型,並在 1.4 T tokens 上進行了預訓練。按照上傳論文中的結果,採用 Block AttnRes 後,模型在通用、數學、程式碼和中文評測上都沒有輸給 baseline,很多項目還有明顯提升。比如 MMLU 從 73.5 提升到 74.6,GPQA-Diamond 從 36.9 提升到 44.4,Math 從 53.5 提升到 57.1,HumanEval 從 59.1 提升到 62.2,C-Eval 從 79.6 提升到 82.5。尤其是多步推理、數學和程式碼這類更依賴組合能力的任務,提升更明顯。如果把這篇論文再說得更白一點,它不是在教大模型“多背一點知識”,而是在幫大模型“更準確地調出自己已經學到的東西”。傳統殘差更像是把所有舊資料不斷堆進一個大箱子,箱子越堆越滿,找重點越來越難;AttnRes 更像是給這個箱子加了索引系統,後面的層可以按需要去翻前面真正有用的資料。這也是為什麼這項工作雖然看起來不像新模型發佈那樣熱鬧,卻可能對下一代大模型底層結構設計產生實際影響。它最大的意義,在於證明“層與層之間的資訊傳遞”也可以像 token 之間那樣被重新設計,而且這種重寫在大模型規模上仍然能跑得動、能帶來穩定收益。至於它會不會像標準殘差連接那樣成為行業新默認配置,還要看後續更多模型、更多團隊和更長時間的復現與驗證。該論文更引人注意的是其中作者之一:陳廣宇是一位 17 歲的高中生,參與了技術研究。 (雲頭條)
Kimi估值1200億,什麼訊號?
Kimi最近高調宣佈融資:要以1200億人民幣的估值,融資10億美元。為什麼說“高調”?因為正常的做法,都是錢到手再宣佈;而Kimi是:錢還沒完全到手,就把消息先放出來了。我很看好Kimi的前景,但這個動作,還是讓人忍不住擔心:它這輪融資,是不是沒有想像中順利。- 01 - 什麼訊號?我的擔心,有兩點理由。第一,提前暴露需求。越喊自己不缺錢,越可能在找錢。1200億估值,能接得住的機構,其實沒多少,可能不到200家。這種融資局,本來應該是:小範圍、一對一、精準擊穿。但現在變成了:對外放風、全市場傳播。這更像什麼?不是“我不缺錢”,而是“我還差點錢”。第二,大模型的融資高峰期,已經過去了。這一點更關鍵。現在,已經有一批大模型公司上市了,比如智譜、Minimax,市值基本在2500億-3000億。趕上趟的投資人,已經走在退出路上。沒趕上趟的,也開始轉向別的賽道,比如具身智能。這些賽道上市又快,資本預期又好,能快速幫資本回籠資金。所以這個時間點,資本還有多少理由去追大模型?理由當然也有,只是條件變苛刻了。條件1:如果是老故事,估值要有性價比。邏輯很簡單。你的競品都已經上市了,你還在路上,那價格能不能便宜些,否則怎麼算帳?舉個例子。智譜、MiniMax上市前估值250–300億,上市後市值2500–3000億(約10倍)。這是已經驗證過的路徑。那Kimi呢?現在估值已經1200億,上市之後能到12000億嗎?有一定難度。所以“性價比”這條路,Kimi走不通。條件2:有新故事,能支撐新估值。而Kimi確實給了一個新故事:智能體(Agent)。也是因為這個故事,Kimi估值暴漲。2月份,它完成7億美元融資,估值約700億元;到了3月份,估值已經突破1200億元——2個月,估值翻了約71%。新故事怎麼來的?Kimi開發了一個類OpenClaw產品:Kimi Claw。自今年1月底以來,官方宣稱20天的累計收入,已經超過去年總和。收入從那來的?通俗地說,三個方面:1、賣算力。你跑任務,消耗算力,付錢。2、收介面費。跑任務,呼叫介面,付錢。3、託管收費。把智能體放我這,付錢。- 02 - 新故事,好講嗎?對於Kimi來說,這個新故事好講嗎?不好說。但如果從賺錢的角度看,我認為:大模型更現實的賺錢方式,不一定是智能體,而是廣告。很多人一聽到廣告,就覺得low。但現實是:國內最賺錢的科技公司,就是靠廣告。以字節跳動為例:2024年收入超1500億美元;利潤超2400億元——核心的收入,就是廣告。為什麼廣告變現速度更快?邏輯極其簡單:大模型體驗好——就有流量——就有廣告——就會有收入。而智能體變現速度為什麼慢?因為現在的產品,中看不中用,使用者嘗鮮的勁頭過去後,還是會回到一個更現實的指標:ROI。Kimi Claw短期收入的增加,並不意味著長期可行。所以我認為,廣告這條路,大模型公司也會走一遍。第一步:先把體驗做到極致。第二步:拿到TOP2的使用者規模。第三步:再用廣告變現。這條路的天花板很高:就算年收入破不了5000億,挑戰1000億也是大有可能。以百度為例,巔峰期時,其每年廣告收入超800億元。但走這條路,也有個關鍵節點:先拿到TOP1、TOP2的市場份額。問題來了:這個節點,Kimi拿到了嗎?沒有。2025年中期,Kimi曾陷入增長困境,排名跌至國內第9(QuestMobile),2026年初有所反彈,大致在3-5名徘徊。這意味著什麼?它還沒拿到“廣告變現”的入場券。不僅Kimi沒拿到,國內任何一家大模型公司都沒拿到。- 03 - 結語相對廣告來說,智能體是一條更遠的路:需要融更多的錢,燒更多的錢,需要更成熟的付費習慣養成。它是機會嗎?必然是。但未必是Kimi的機會。我甚至有一個判斷:智能體老大,和大模型公司的老大,不一定是同一家公司。為什麼?歷史早就給過答案:作業系統霸主,不等於是應用霸主;雲廠商霸主,不等於是SaaS霸主。大模型和智能體,本質基因不同:前者是造發動機的,後者是開車拉客的。一個考驗底層技術能力,一個考驗應用能力,是兩套完全不同的體系。Kimi的挑戰,不是沒有故事。而是故事跑得太快,現實還沒跟上。 (鉛筆道)
Kimi Claw 實測:OpenClaw 熱潮之下,自動化 AI 仍是拓荒期|AI 上新
Kimi Claw,國內第一批「吃」上 OpenClaw 的 AI。2026 年,一隻小龍蝦攪翻了整個 AI 圈,年後 OpenClaw 餘熱還在繼續發力。近期,多家國內模型廠商先後推出對標 OpenClaw 的產品,Kimi 推出的 Kimi Claw,Mini Max 推出的 MaxClaw,顯然,OpenClaw 所展現出的 AI 執行力,以及開發者們對 AI 執行結果所展現出來的包容程度讓市場看到了價值空間。在一眾對標產品中,Kimi Claw 的定位比較清晰,它並非從零自研的 Claw 產品,而是基於 OpenClaw 的託管雲服務,資料託管在 Moonshot 雲端,並且直接配置了 5000+ ClawHub 社區技能。它的優點在於使用較為穩定,部署方便,上手簡單,且依託於雲,可以實現 24/7 線上執行運轉。打開 Kimi 官網,只需要你一鍵點選建立,Kimi 就會直接部署 Kimi Claw。Kimi Claw 一鍵部署|圖片來源:極客公園換句話來說,Kimi Claw 並也不是一個獨立新產品,它本質上就是一台為使用者遠端開好的虛擬機器,讓使用者通過 Kimi 直接訪問運行在雲端的 OpenClaw 環境。它沒有做任何功能刪減,也沒有額外封裝,和本地部署 OpenClaw 幾乎沒有區別,只是把部署、配置、環境搭建這一步替使用者完成了,但並沒有對 OpenClaw 部署之後的調教過程做任何處理。如果沒有學會正確給出指令、合理安排任務,其上手難度仍然比較高。對於從未接觸過 OpenClaw 類產品的使用者來說,這也會導致一個預期錯位,使用者以為接入 OpenClaw 就可以做自動化 AI 執行,但其實只是多了一個便攜介面,後續仍有很多設定需要自己探索。也因此,為 OpenClaw 類產品提供一些熱門的預置 Skills 將會成為不少 AI 模型廠商接下來重點發力的方向。目前 Kimi Claw 仍處於 Beta 測試階段,僅對 Kimi Allegretto 以上的會員開放使用權限。欄目作者召集極客公園的新欄目「AI 上新」,將帶大家體驗最新的 AI 應用和硬體,讓你成為 AI 時代「最靚的仔」!現在,我們也向所有喜歡嘗鮮和體驗 AI 的同學發出召集,只要你發現並體驗了新的 AI 應用或者功能,按照格式(參考案例:用 AI Agent 可以做「一人公司」嗎?我在 Manus 新功能上看到一種可行性|AI 上新)向欄目投稿,在極客公園公眾號發佈,不僅能獲得相應稿費,且會為你「報銷」AI 應用的訂閱費用。同時,優秀作者還有機會進入極客公園 AI 體驗群,獲得最新 AI 應用和工具的內測資格,參加極客公園專屬相關 AI 活動,和 AI 應用創始人一對一溝通。0130 分鐘搭建自動化辦公工作流我們發現,很多使用者和我們一樣,接入 OpenClaw 之後,依然摸不清 AI 的執行能力邊界,對它到底能做什麼、不能做什麼充滿好奇,但也充滿未知,不知道接入之後該從那裡下手。其實,目前不管是本地部署 OpenClaw 這類自動化 AI,還是直接接入 Kimi Claw 這樣的外接入口,整體的使用思路其實可以分成從 0 開始搭建應用和從 0.5 開始最佳化應用兩條路徑,我們分別從這兩種方式做了實際體驗,首先選擇從 0 開始開發一個應用,最佳化工作流。在體驗 Kimi Claw 之前,我先審視了自己有那些工作可以被打造成一個固定的工作流,或者我的工作流中可以有那些任務在 AI 加持之下變得更好。而在此之前,我所需要考慮的僅是我與那個類型的 AI 工具互動可以得到更好的結果。我選擇了工作日記環節,結合每天的工作流,工作記錄、工作總結、工作反思等環節最後輸出一份當日工作報告。找份報告過去都是個人耗時填寫,現在我希望可以 AI 自動抓取,再結合對話式互動自動形成表格。我先將大致思路遞給 AI 最佳化指令,最後從角色定義、技能配置、資料接入、核心工作流、多媒體表格結構、記憶重點、權限與邊界等多個層面給出一個非常長的複雜指令,遞給 Kimi Claw。Kimi Claw 很快分析完指令後,和我確認執行細節。比如說,基礎資訊、飛書權限、資料儲存和觸發方式。隨後我們開始按照指令去飛書平台搭建飛書應用,並且將把 App ID 和 App Secret 發給 Kimi Claw。其中有個環節需要在飛書內搭建表格的時候,我讓 Kimi Claw 直接給我表格的樣式,再遞給飛書內建的 AI 系統,讓飛書自動搭建表格。Kimi Claw 搭建的應用頁面之一|圖片來源:極客公園在經歷了找不到協作者、找不應用頁面、找不到 ID 等一系列問題,大約半小時後,我成功接收到了來自 Kimi Claw 的第一條消息。搭建這個 bot 的速度比我預期要更快。遇到問題時,我會把卡在那一環直接告訴 Kimi Claw,然後在其給出的方案中選擇合適的思路去執行,如果給出的方案沒有合適的,會繼續追問 Kimi Claw 其他解決方法。Kimi Claw 一鍵部署至飛書|圖片來源:極客公園搭建工作流時,跨平台能力的重要性也更加凸顯。接連開放 12 條飛書權限之後,我最終搭建 AI 應用並未完成理想狀態。其中,我希望 AI 通過閱讀我與他人的聊天記錄,從而梳理出我的工作任務,但幾輪嘗試後,AI 應用獲取的群聊列表仍為空,並表示飛書 AI 應用要求 AI 只能讀取自己參與的會話,應用無法讀取群聊列表。整體體驗下來,我認為 Kimi Claw 對一些常規工作流平台比如說飛書、釘釘等開發者工具比較熟悉,基本上給出的指令都能夠直接找到對應的執行方式,0 基礎使用者也能夠讀懂並執行。但這類企業應用會對自身的資訊權限比較看重,開放配置條件也較為嚴格,或許想要 AI 真正融入工作流,不僅看 Kimi Claw 這類開放者的工具,也需要等待更合適與 AI 融合的應用出現。而且,運轉過程中會出現不少 bug,比如,在此過程中,使用者與 Kimi Claw 的互動任務、正在運行的 Agent 任務,會被誤統計進個人工作安排。學會修改 bug 也成為調教 AI 的關鍵一環。如果選擇從 0 主動定製自己想要的應用或者功能,就需要使用者想好清晰的操作路徑,具備基本的產品思維。要明確資訊輸入與輸出兩端介面的開放程度和連通性,同時控制好每次呼叫與運行的成本。本次工作流搭建,全程 token 消耗約 15k-25k,按照 Kimi 的計價方式,大約 1 元左右。但每天大概花費 0.53 元,一個月大約在 15.9 元左右。02自動化 AI 新聞助手搭建實測:「預製」應用上手快,修改有成本除了讓 AI 定製化打造一個我設想的應用外,我還體驗了一些「預製」應用,比如說讓 Kimi Claw 自動抓取新聞。在我們做第一輪自動化新聞抓取任務時,嘗試讓 Kimi Claw 抓取某科技新聞媒體官網。當我們給出指令為:請監控 xxxx 的行業網站,總結最近一周以及未來 3 天內,每當有包含「AI」關鍵詞的新文章發佈時,請自動抓取標題、摘要、發佈時間,並將這些內容彙總到一個線上表格。同時,請在報告中按照我設定的風格進行爆款文章分析。Kimi Claw 會詢問我們具體配置資訊,但第一輪新聞抓取任務時,我們發現不少官網其實都有反爬蟲設定,很難去做優質網站的資訊監控。Kimi Claw 也很難給出精準的範圍抓取,因此會出現空轉的情況,而每一次空轉都意味著出現大量的 tokens 被消耗。該監控任務從今天凌晨 4 點到 11 點共運行約 8 次,消耗約 180K tokens,花費約 3.68 元。如果按原設定每小時運行一次,每天成本約 11 元,每月將花費接近 330 元。隨後,我們請教了相關人士後,開始放棄自己寫指令,轉而從相關 ClawHub 等網站下一個相關指令壓縮包,基於此基礎指令後,繼續定製相關新聞。將 Clawhub 的檔案部署至 Kimi Claw|圖片來源:極客公園隨後,我們對中文媒體、新聞篩選條件以及資訊傳送次數、時間均做了較為詳細的設定。最後能夠獲得一版不錯的 AI 新聞抓取結果。Kimi Claw 自動抓取結果|圖片來源:極客公園很顯然,如果只是被動使用預製好的應用,重點則是學會篩選優質的技能包(skills),並且能根據自身場景,對現成功能做適配調優。但如果想對這些預製好的 AI 應用做定製化修改,往往又會繞回從零搭建應用時遇到的那些難題,開發最佳化的難度不低,最終改出來的效果也未必理想。這個過程裡,使用者其實需要花大量時間,去體驗同一類產品裡不同 Skills 的便捷度、適配性,再決定到底基於那一類 Skills 去做二次開發、修改和擴展。這些其實也考量使用者的產品思維。03Kimi Claw 使用觀感:AI 執行力加強,指令就是生產力現在的現階段 Kimi Claw 的核心價值,只是降低 OpenClaw 的部署門檻,讓國內使用者能快速接入。但產品本身不自帶場景、不自帶技能,更像是一個「轉介面」,而非「成品」。我們在體驗過程中同樣發現,儘管 Kimi Claw 底層呼叫的雖然也是 Kimi K2.5 模型,但它是「裸模型+原生 OpenClaw」的組合,沒有繼承 Kimi 官網版經過搜尋團隊深度最佳化的多輪搜尋、內容強化、自動糾錯等能力。換句話說,官網 Kimi 好用,是因為背後有專門團隊對模型在使用者高頻場景上做了大量最佳化、自動補全能力;而 OpenClaw 環境裡接入的「裸」模型,更接近直接呼叫 API,沒有進行專門最佳化,所以會出現同樣的指令,遞給 Kimi Claw 呈現的效果不如直接遞給 Kimi  K2.5 模型。深度體驗後我能明顯感知,Kimi Claw 和傳統 AI、普通 Agent 產品的核心差異,集中體現在 AI 執行力與指令重要性兩大維度,這也是使用這類產品的關鍵邏輯。首先在執行力上,Kimi Claw 能在你不使用電腦時,同樣能夠執行任務,而非傳統使用者給出指令,然後一直等待任務完成的模式。我甚至可以告訴 Kimi Claw 這個指令在什麼時候執行,等我開機時能直接看到每一次定時輸出的結果。但同時也提醒我,對一些體驗性的應用記得設立停止終點,減少不必要的資源消耗。其次在指令上,過去我與 AI 的指令都會比較簡潔、直擊問題,當 AI 給出的解決方向不對時,再繼續調整。但 Kimi Claw 每一次運行複雜指令的時候,都會呼叫大量 Agent 協助,消耗的 tokens 也會成倍上漲,因此在給出指令時需要明確操作方式,權限範圍、執行路徑以及安全性和成本控制。比如說,過去我查詢新聞時的指令時「給出 10 條有關 OpenClaw 的新聞線索,並告訴我其新聞關注價值」,現在我給出的指令則是:作為資訊檢索專員,你擁有使用網路搜尋工具的權限(限用 web_search 和 web_open_url,禁止訪問需登錄的付費新聞庫),但需在以下約束內執行:1) 先執行關鍵詞'OpenClaw 最新動態'搜尋,僅獲取前 5 條高權重結果(優先技術媒體和官方部落格,排除論壇水帖);2) 分析每條的新聞價值時,嚴格限定在'技術突破'、'商業影響'、'安全隱患'三個維度,每個維度用一句話概括,禁止展開論述無關背景;3) 全程停用瀏覽器自動化點選和深度爬蟲技能,避免觸發反爬機制和額外 token 消耗;4) 輸出格式為表格:新聞標題 | 來源 | 關注價值標籤 | 簡要依據(≤30 字/條);5) 若搜尋結果不足 10 條,立即停止補充搜尋,直接按實際數量輸出,禁止為了湊數發起二次 broad search。預計 token 預算控制在 8K 以內,發現路徑偏離時立即終止並匯報而非自行修正。多數情況下,我甚至會讓 AI 最佳化一下我的指令表達,然後再遞給 Kimi Claw。只有給出具體、精準的指令,才能在合理的 token 消耗範圍內獲得最佳成果。甚至,不少公開論壇上,專門為 OpenClaw 準備的 Skills 庫也能夠幫助使用者更好地上手一些熱門應用玩法。精準、具象的指令,是在合理 token 消耗內獲得優質結果的前提,使用 Kimi Claw 的過程,本質就是使用者在模型能力、輸出結果、使用成本之間做權衡的過程。Kimi Claw |圖片來源:極客公園最後是,調教 AI。即便你快速搭建好的一個 AI 應用之後,你會發現這個 AI bot 並不會一開始就好用。它對於諸多指令的劃分,任務的合併其實與人類的理解會有比較大的差異,你仍然需要一輪又一輪的指令調教去探索產品的邊界。尤其是,很多資訊源的介面並不完全對外公開。這其中,想要真正做好資訊權的接入和讓渡都不是一件易事。說到底,目前 Kimi Claw 展現出來的應用效果,絕不是一個簡單的 Chatbot 之類的 AI 應用,擁有許多 AI 功能供使用者直接使用,而是一個需要使用者理解開發過程,並且能夠在諸多綜合權衡後做出選擇的開發者工具。只不過這個開發者工具能夠支援一些簡單化的自動化部署。04自動化 AI 依然有發展空間儘管 OpenClaw 從 2026 年開始徹底點燃了人們對自動化 AI 的想像,但從近期頻發的安全事件與新產品實測體驗來看,OpenClaw 至今仍只是一把鑰匙、一個契機,而非最終答案。無論是可落地的真實場景,還是可規模化的商業化路徑,AI 行業至今仍未走出一條清晰、成熟的路線。與之相對的是,市場在一輪又一輪的熱度炒作中不斷抬高對 Claw 類產品預期,甚至吸引了大量普通使用者去嘗試超出自身能力的高風險操作。可以確定的是,自動化 AI 從 AI 誕生第一天起就被行業重視,但 OpenClaw 能否跑出真正成功、可規模化的產品,依然存在巨大的待驗證空間。尤其是現在這類 AI 工具會直接拿到修改你終端、檔案的權限。在早期大家對 AI 的能力邊界還不清晰,很多新手小白直接把權限放開,很難想到做安全限制以及二次權限確認。把這麼高的操作權交給 AI,本質上也是系統風險直接開口。這也是為什麼,這類產品想真正規模化、商業化,安全和權限治理,會是比「能力強不強」更難邁過去的坎。從直接與大模型對話,到與單一 Agent 互動,再到與 Agent 叢集協作,再到如今 OpenClaw 的使用方式,行業在同一段 AI 能力基礎上,衍生出了大量功能相似、路徑不同的嘗試。這恰恰說明,整個行業仍處在 AI 功能探索期,除了 ChatGPT 這類成熟穩定的互動範式之外,人們對於 Agent、Claw 等新形態的使用邏輯、邊界與價值,仍在集體摸索。或許,要等到 2026 年走完,我們才能真正看到一批穩定、可用、具備真實價值的自動化 AI 應用落地。 (極客公園)
Token出海或迎風口!Kimi+DeepSeek+智譜+MiniMax,籌碼集中概念股出爐
AI大模型服務正面臨嚴峻的算力考驗。進入2026年,人工智慧大模型行業競爭步入白熱化階段。春節前,騰訊元寶、阿里千問、字節跳動豆包等大廠集中發力C端市場,通過各類福利活動掀起使用者“爭奪戰”。春節假期至今,全球大模型賽道融資消息也密集落地,資本熱度持續攀升。然而,伴隨使用者規模與使用頻次的激增,Token(詞元)消耗量顯著增長,大模型服務正面臨嚴峻的算力考驗。春節期間,豆包因春晚高頻互動導致算力承壓,一度暫停視訊通話功能;智譜AI等廠商也因高並行請求採取了API限流等措施。算力供給不足、推理資源緊張,已成為當前大模型規模化落地過程中亟待解決的核心難題。中國國產大模型霸榜OpenRouter自2025年初DeepSeek橫空出世、驚豔全球以來,中國大模型產業快速崛起,憑藉獨特的技術與場景優勢持續霸榜全球。據全球最大的大模型API聚合平台OpenRouter資料顯示,2月平台內前十模型總Token消耗量已突破27兆,國產模型貢獻超過14兆,市場佔比超過50%。其中,MiniMax M2.5以超過5兆的Token消耗位居全球榜首;Kimi K2.5緊隨其後,2月Token總消耗量超過4兆;DeepSeek V3.2、GLM 5分別位列第四、第八位。這些頭部國產大模型,普遍聚焦於程式碼能力與智能體(Agent)自動化任務的能力提升。從春節期間的消耗量來看,2月16日至22日(農曆除夕至正月初六),OpenRouter平台Token消耗量前十的大模型中,中國大模型份額佔比已超60%。其中,MiniMax M2.5、GLM-5 消耗量環比大幅增長,增幅分別達到197%和158%。反觀全球市場,Google、xAI、OpenAI等海外廠商旗下大模型的Token消耗量增速明顯低於國內模型,全球市場份額增長乏力,部分甚至出現負增長。Token消耗量或開啟多年增長模式Token(詞元),即AI處理資訊的最小單位。大模型每生成一個Token,後端的伺服器就得高速運轉,這不僅需要強大的算力,更需要大量的電力。根據業內測算,Token生成的成本結構中,電力及算力的成本佔比超過七成。摩根大通的報告顯示,基於使用者情境的預測,從應用採用的角度出發,Token消耗量或開啟多年增長期。中國的AI推理Token消耗量預計將從2025年的超10千兆增長至2030年的約3900千兆,增幅接近369倍,主要受兩個復合要素推動,一是隨著AI成為搜尋、內容生成、客戶服務和生產力的默認介面,AI在消費者使用者和企業工作負載中的滲透率都在提高;二是用例從對話AI擴展到智能體和多模態輸出(更長的上下文、更多的工具呼叫、更豐富的輸出),即使使用者數量增長放緩,這也會實際增加每個會話的Token。從細分領域來看,隨著時間的推移,推理需求的佔比發生明顯變化。對話AI佔2025年預期Token總消耗量的近一半,預計到2030年逐步下降至高個位數百分比;生活情景AI智能體的份額預計將從2025年的個位數提高至2030年的10%至20%。國產大模型具備電力的算力的雙重優勢對於開發者而言,性價比是硬道理。從國內來看,無論是電力還是算力,都具備顯著的成本優勢,並有望重構AI定價權。從電力來看,國家能源局資料顯示,截至2025年底,中國累計發電裝機容量達38.9億千瓦,同比增長16.1%,發電量佔全球總量的三分之一。中國也成為全球首個全社會用電量突破10兆千瓦時的國家,電力供給充足且成本優勢顯著。AI熱潮之下,美國電價呈現明顯上漲趨勢,進一步凸顯中國電力成本的競爭力。從算力來看,早在2025年10月份,央視網報導,“十四五”時期以來,中國開啟新一輪數字基礎設施大佈局,全國一體化算力網連通東西南北,算力總規模躍居全球第二,不僅為中國數字經濟的成長澆築新的基座,也創造了增長的新機遇。目前,國內多家頭部算力企業已建構起完備的適配體系,在推理環節有效突破海外技術壟斷,伺服器、光模組、散熱等關鍵硬體環節也基本實現自主可控。依託規模化部署、低成本電力供給與演算法持續迭代,國產方案在主流應用場景中的Token生產成本具備明顯優勢。業內普遍認為,國產大模型憑藉更高效的架構設計,逐步降低對高端GPU的剛性依賴;而全球開發者對中國大模型的廣泛選用,進一步拉動國產算力需求呈現爆發式增長。14隻籌碼集中大模型概念股出爐儘管在最近幾個交易日的行情中,算力類股表現有明顯分化,但不可否認的是,算力需求提升是必然趨勢。在以周度進行統計的周期中,國產大模型Token消耗量更是一度超過美國(2026年2月9日至15日),後續優勢持續擴大,多重利多因素的加持下,Token出海有望成為趨勢。證券時報·資料寶根據萬得、同花順等公開資訊梳理,A股市場中屬於智譜、Kimi、DeepSeek及MiniMax主流大模型的概念公司有140余家。從市場表現來看,截至2月27日,這140餘隻概念股今年以來平均漲幅超過13%,傑創智能、藍色游標及中控技術今年以來累計漲幅均超過60%,前2隻個股涉及智譜概念,中控技術則涉及DeepSeek概念。首都線上、金現代、優刻得-W今年以來累計漲幅均超過40%,3家公司均涉及智譜概念。從籌碼變化情況來看,最新股東戶數較2025年年末下降的概念股有14隻,3隻概念股的股東戶數下降幅度超過10%,分別是世紀天鴻、恆為科技及遠光軟體。世紀天鴻最新股東戶數較去年末下降近24%,公司以自身戰略定位和資源稟賦為出發點,結合人工智慧技術已推出了基於大語言模型研發的專注於服務老師的AI智能體“小鴻助教”,並投資了基於人工智慧NLP(自然語言處理)技術、聚焦中小學寫作場景的人工智慧輔助寫作產品“筆神作文”。恆為科技最新股東戶數較去年末下降超過21%。公司2025年2月份表示,其推出的昇騰、DeepSeek一體機分為訓推一體機與推理一體機兩種類型,以“開箱即用+高並行低時延”為核心優勢,覆蓋金融、政務、科研、醫療等眾多垂直行業,助力行業實現智能化升級。遠光軟體最新股東戶數較去年末下降10.6%。目前公司主要接入或適配了智譜、阿里千問、DeepSeek、盤古等大模型。這14隻概念股今年以來平均漲幅超過9%,恆為科技、世紀天鴻、值得買漲幅居前,均超過15%。太極股份、浪潮資訊、宇信科技表現較弱,今年以來股價均呈下跌局面,其中浪潮資訊伺服器市佔率全球領先,涉及DeepSeek及MiniMax概念。(資料寶)