#智譜
開源模型首超Opus4.6!智譜GLM-5.1登場,14小時後CUDA專家被沖了
最佳化CUDA Kernel這件事,剛剛被AI狠狠地衝擊了一波。因為現在,給AI十四個小時,它就能幫你把CUDA Kernel最佳化,加速比從2.6×推至35.7×!什麼概念?以前人類資深CUDA工程師要完成這個任務,需要數月反覆測試、調優、推翻重來才行;但現在,AI在你睡覺的時候就能解決掉。而且AI在這個過程中還展現出了專家級的直覺。例如在最佳化初期,它嘗試在現有高層框架內尋找解法,但很快通過自主跑測試發現性能觸及了天花板,然後它便做出了人類專家才有的決策——自主判斷放棄高層框架,直接轉向底層C++進行硬核重寫。整整14個小時裡,這個AI主打一個全自動:AI自己發現瓶頸,自己改變技術堆疊,自己重新編譯,自己測試。那這到底是何許AI是也?不賣關子,正是大家熟悉的,來自智譜的開源模型——GLM-5.1。隨著這次長程任務(Long Horizon Task)能力的提升,智譜官方也宣佈了一個重要的突破:首次解鎖了開源模型與當前全球最頂尖閉源模型Claude Opus 4.6的全面對齊!嗯,是妥妥穩坐全球最強開源模型寶座的感覺了。而且,從更多的權威評測榜單中來看,也是印證了這一點。在被稱為“軟體工程能力試金石”的SWE-bench Pro基準測試中,GLM-5.1刷新了全球最佳成績,直接超越Claude Opus 4.6、GPT-5.4等一眾頭部模型,拿下全球第一:甚至在海外網友們的圈子中,已經吹起了棄用Claude Max的風了:它的手感和Opus一模一樣,使用額度是Claude Code的3倍,成本卻只有1/3。HuggingFace CEO也出面站台,稱SWE-Bench Pro中性能最強的模型開源了:而這一切成績的背後,正是智譜面向小時級的長程任務能力。給AI幾個小時,一切都不一樣了當前主流的大模型,可以說大多數還是處於“分鐘級互動”的階段。但到了GLM-5.1這邊,它的交付單位就不同了——一個完整的項目。接下來,我們就通過實測的方式,來看下GLM-5.1的實力到底幾何。呼叫工具1000輪,最佳化真實機器學習模型負載第一個實測,我們順著前面的CUDA的例子,繼續讓GLM-5.1進行一場考驗:KernelBench Level 3最佳化基準,這一基準涵蓋50個真實機器學習計算負載,主打一個還原真實工業場景,考驗的是端到端的完整最佳化能力而非單一算子偵錯。在超過24小時的不間斷迭代中,GLM-5.1全程自主發力,無需人類專家干預,一遍遍完成“編譯—測試—分析—重寫”的閉環循環,最終交出了這樣的結果——3.6倍幾何平均加速比,而作為對比,torch.compile max-autotune模式僅能達到1.49倍,差距直接翻倍不止!從這個過程中可以看到,GLM-5.1能夠自主編寫定製Triton Kernel和CUDA Kernel,運用cuBLASLt epilogue融合併實施shared memory tiling與CUDA Graph最佳化。這些最佳化策略覆蓋了從高層算子融合到微架構級調優的完整技術堆疊,每一步都是模型的自主決策。結果再次表明,在GPU核心最佳化這一傳統上高度依賴專家經驗的領域,AI模型已經展現出從問題分析、方案設計到迭代調優的端到端自主工作能力。1小時從零建構MacOS桌面環境在這個實測中,我們給GLM-5.1扔了一份3000字的PRD,核心要求只有一個:從0開始復刻MacOS核心UI與互動,不僅要前端殼子,還必須包含窗口管理器、Dock欄調度、以及模擬的底層檔案系統。這是一個標準的前端工程團隊至少需要數天才能打磨出原型的任務,但在GLM-5.1這裡,時間被壓縮到了小時等級。瞧,待它分析完任務之後,自己就開始唰唰地程式設計了:1個小時之後,在沒有任何人工參與的情況下,一個MacOS的桌面環境,就這麼水靈靈地誕生了!可以看到,更改桌面背景、放大縮小Docker、終端命令執行、系統自帶的截圖功能等,統統都能實現。而在智譜官方的demo中,展示了GLM-5.1耗時8小時實現的更加複雜的Linux系統:執行了1200多步,完整的桌面、窗口管理器、狀態列、應用程式、VPN管理器、中文字型支援、遊戲庫等……相當於一個4人團隊一周的開發工作量。不得不說,現在GLM-5.1的每一次提交,都是具有實質意義的系統級演進。全自動重寫屎山程式碼寫程式碼的人都知道,比從零寫一個新項目更痛苦的,是重構別人留下的屎山程式碼。但現在有了GLM-5.1,我們可以把這個任務交給它來處理了。例如這段程式碼就堪稱是屎山中的經典:變數名完全無意義、五層巢狀if、重複計算總和三遍、全域變數到處亂改、函數幾百行不拆分……能運行嗎?能運行;噁心嗎?也是真噁心。而在GLM-5.1隻需半小時的自動重寫之後,一份註釋清晰、符合標準的程式碼就誕生了:655次迭代,打破向量資料庫性能瓶頸如果說重構程式碼還只是把已有的東西做好,那向量資料庫最佳化,考驗的就是AI自主迭代、持續突破的能力。這也或許正是人類資深工程師最核心的價值。在這項測試中,GLM-5.1的需求是最佳化現有向量資料庫的查詢性能,儘可能提升QPS。隨後,它開啟了完全自主的“測試-分析-最佳化-再測試”閉環。每一輪最佳化後,它都會主動跑完整的Benchmark,獲取QPS、延遲、記憶體佔用等核心資料,自主分析性能瓶頸。最終,在655輪迭代之後,GLM-5.1把向量資料庫的查詢吞吐從初次交付的3108 QPS一路推到21472 QPS,提升到初始正式版本的6.9倍。AI能獨立工作多久,成了新標準之所以GLM-5.1這次能夠炸場,本質上是它踩中了AI行業的下一個核心賽點:長程任務(Long Horizon Task)能力。2025年3月,全球頂尖的AI安全研究機構METR(Model Evaluation and Threat Research)便提出了一個徹底改變行業認知的新指標,叫做Task-Completion Time Horizon(任務完成時間線)。這個指標的核心思想是,不再用做題的精準率來衡量模型有多聰明,而是用時間來衡量它能獨立完成多長時間的人類專家任務。研究顯示,前沿模型的時間線每7個月就會翻一倍,這條指數曲線,被MIT Technology Review稱為“AI領域最重要的一張圖”。紅杉資本更是在2026年初直接宣告:“這就是AGI的核心方向”,並直言:2023-2024年的AI,是只會對話的“talker”,而2026-2027年的AI,將成為能真正落地做事的“doer”。而GLM-5.1,是全球第一個在真實工程任務中,驗證了8小時持續工作能力的開源模型。它能在單次任務中,持續、自主地工作長達8小時,過程中自主規劃、自主執行、自主測試,碰壁時主動切換策略,出錯後自行修復,最終交付完整的工程級成果。GLM-5.1之所以能做到這一點,核心源於三個維度的系統性技術突破:第一,更強的長程規劃與目標保持能力。它能把一個複雜的大目標,拆解為可執行的多階段計畫,並且在長達十幾小時、上千步的執行鏈路中,始終圍繞最終交付目標推進。簡單來說,就是幹到第十步,還記得第二步定的規矩。第二,更穩的自適應糾錯與持續執行能力。它實現了程式碼編寫、工具呼叫、環境偵錯、API對接等多個環節的穩定銜接,中途出錯時,不會停下來等人工介入,而是會自主查看錯誤日誌、定位問題根源、修復bug,甚至自己寫回歸測試用例驗證修復效果。第三,更好的狀態延續與上下文整合能力。面對長時間跨度、多輪反饋和百萬級token的上下文資訊,它能穩定追蹤已完成的工作、當前所處的階段和下一步的核心動作,持續整合新的資訊,保持整個執行鏈路的一致性。開源模型看中國,更得看智譜GLM-5.1的出現,不僅是模型能力的升級,更改寫了全球大模型行業的敘事邏輯。長久以來,中國開源模型始終帶著追趕者的標籤,與美國頂尖閉源模型存在差距,而GLM-5.1徹底打破這一局面:它在權威榜單上對齊Claude Opus 4.6,在SWE-bench Pro等核心工程指標上實現反超,讓中國開源AI在核心工程能力上與全球前沿並駕齊驅。更重要的是,它的變革遠超模型本身,正重構兆級IT服務市場的底層邏輯。AI Coding的進化有清晰路徑:從程式設計師提效工具,到降低程式碼門檻,再到能自主做事的初級工程師,而GLM-5.1的Long Horizon能力,直接將AI推向能持續工作數小時、交付完整項目的新階段。當AI的交付單位從一行程式碼變為一個完整項目,便衝擊了整個軟體工程的生產關係——4人團隊一周的工作量、資深工程師數月的最佳化任務,它數小時就能完成,這將重構多個行業的定價與人力配置邏輯。當然,我們不必陷入AI會替代程式設計師的無謂焦慮。就像當年電腦的普及,沒有淘汰會計這個職業,只是淘汰了不會用電腦的會計;AI的到來,也不會淘汰開發者,只會淘汰不會駕馭AI的開發者。GLM-5.1的出現,真正給整個行業拋出的核心問題是:當AI已經能自主完成長達數小時的複雜長程任務,實現從規劃、執行、糾錯到完整項目交付的全閉環時,人類的不可替代性到底在那裡?答案或許就是定義問題、創造價值、做出核心決策的能力,畢竟這是AI暫時無法替代的核心護城河。而對中國AI行業而言,GLM-5.1隻是開始,當開源模型達到全球頂尖工程能力、AI從對話者變為執行者,行業必將迎來更徹底、更深刻的變革。 (量子位)
Day-0支援|摩爾線程完成智譜GLM-5.1極速適配
高效支撐長程任務與程式碼生成今日,摩爾線程在其旗艦級AI訓推一體全功能GPU MTT S5000上,成功實現了對智譜新一代旗艦模型GLM-5.1的Day-0極速適配,提供推理部署和訓練復現全流程支援。依託MUSA軟體棧強大的生態相容性,摩爾線程技術團隊基於高性能 SGLang-MUSA推理引擎及TileLang-MUSA算子程式語言,採用PD分離架構完成深度調優,在 MTT S5000 上實現 GLM-5.1 的高效、高精度推理。這一成果彰顯了國產算力基礎設施對前沿 SOTA 模型的快速響應能力,也為行業樹立了軟硬協同應對複雜 AI 推理場景的新標竿。GLM-5.1是智譜迄今最智能的旗艦模型,也是目前全球最強的開源模型。GLM-5.1大大提高了程式碼能力,在最接近真實軟體開發的SWE-bench Pro基準測試中超過GPT-5.4、Claude Opus 4.6,刷新全球最佳成績。值得一提的是,在模型整體性能大幅提升外,GLM-5.1還在長程任務(Long Horizon Task)處理能力上實現了顯著突破。和當前分鐘級互動的模型不同,GLM-5.1能夠在一次任務中獨立、持續工作超過8小時,期間自主規劃、執行、自我進化,最終交付完整的工程級成果。針對GLM-5.1的長程任務與程式碼生成特性,摩爾線程基於自研MUSA架構與SGLang-MUSA、TileLang-MUSA等關鍵技術,完成了系統性的算子適配與推理性能調優。MTT S5000單卡AI算力(稠密)可達1000 TFLOPS,支援FP8到FP64全精度計算,其原生FP8加速顯著提升推理效率;結合高效KV Cache管理,有效支撐極長上下文的視訊記憶體需求;同時,PD分離架構進一步解耦Prefill與Decode階段,降低長序列生成中的干擾,保障持續任務的高吞吐與低延遲。此外,MTT S5000提供784GB/s的卡間互聯頻寬,為大規模部署帶來彈性擴展能力。通過軟硬協同最佳化,MTT S5000能夠穩定承接GLM-5.1的長程任務吞吐與工程級程式碼推理表現。從GLM-4.7到GLM-5.1,摩爾線程已連續實現發佈當日極速適配。這既體現了MUSA架構對主流AI生態的深度相容,更標誌著國產全功能GPU已具備大模型“從適配到部署”的全鏈路支撐能力。摩爾線程將持續夯實算力底座,助力開發者快速應用前沿模型,共建更成熟的國產AI生態。來源:摩爾線程 (芯榜+)
智譜和MiniMax,誰是中國的Anthropic?
“智譜和MiniMax,誰才是中國的Anthropic?”今年1月8日,智譜在港交所成功上市。緊接著的1月9日,MiniMax也完成了掛牌。兩家公司目前都還處於虧損狀態,在研發上的投入遠超營收規模。但上市後的資本市場表現極好,目前合計市值達到千億美元等級。這個定價遠高於海外行業標竿公司。今年初,Anthropic在完成G輪融資後估值達3800億美元,年化營收140億美元,對應P/S約為27倍。相比之下,智譜2025年營收為7.24億元人民幣,市值峰值約510億美元,P/S超過500倍;MiniMax 2025年營收7900萬美元,市值峰值約490億美元,P/S超過600倍。這種極高溢價有多方面原因,比如直接受益於OpenClaw和龍蝦浪潮;流通盤稀缺,60%戰略配售鎖定,極少籌碼在二級市場流通;以及市場在為“中國版Anthropic”的故事買單。MiniMax和智譜都已經公佈了上市後的首次年報,我們從當前的財務結構、商業模式和增長質量分析,誰在商業路徑上更接近Anthropic?To B交付 vs To C訂閱智譜和MiniMax都在發力大模型,但營收結構幾乎是鏡像。智譜深耕國內政企市場,主要收入依賴於中國本土的政企客戶。2025年,73.7%的營收(約5.34億元人民幣)來自私有化部署,這些部署往往是基於行業和企業需求高度定製化的。在市場滲透率方面,國內排名前十的網際網路公司中有9家深度整合了GLM系列模型。全年總營收達7.24億元人民幣,同比增長131.9%。MiniMax聚焦海外C端與創作者生態,核心收入則來源於海外使用者。2025年,總營收達7900萬美元,同比增長158.9%。這其中,73.0%的收入(約5766萬美元)來自中國大陸以外的國際市場。產品端高度依賴AI原生應用,佔比67.2%,主要由AI角色扮演應用Talkie、視訊生成工具Hailuo AI等產品驅動。兩家公司體量相近,但結構完全不同:一家在國內做ToB私有化交付,另一家在海外做ToC及平台訂閱。這種差異直接決定了兩者不同的財務表現。判斷大模型公司商業健康度,毛利率的走向比單純的營收增速更有意義。智譜的毛利率正面臨下行壓力。2024年其整體毛利率為56.3%,到了2025年降至41.0%。核心的私有化部署業務毛利率更是從66.0%跌至48.8%,主要原因是投入了更多交付資源以滿足客戶需求。這種重交付的模式意味著極高的人力成本。2025年,智譜的銷售及行銷費用高達3.91億元人民幣,幾乎是其雲端部署業務全年收入的兩倍。需要強調的是,在國內企業級AI市場,有算力定價權的是阿里雲、百度雲、火山引擎等擁有龐大雲端運算生態的大廠,因為大廠既有自研晶片、雲平台和模型,又搭建起了更龐大的客戶企業和開發者生態。即便獨立大模型公司在某款模型上最佳化了推理成本,也很快會被大廠跟進和模仿。長遠來看,獨立大模型公司的Token成本大機率無法與大廠抗衡。MiniMax的毛利率走向則截然相反。其整體毛利率從2024年的12.2%提升至2025年的25.4%。更關鍵的是,在營收大漲的同時,其銷售及分銷費用同比下降了40.3%,降至5190萬美元,主要得益於AI原生產品靠口碑和自然增長驅動,減少了推廣開支。年化經常性收入ARR僅用兩個月便從1億美元飆升至1.5億美元。毛利率的趨勢比絕對值更重要。智譜41.0%的毛利率目前雖高於MiniMax的25.4%,但前者因規模不經濟而承壓,後者則展現出了軟體訂閱模式特有的網路效應。國內市場 vs 出海避卷智譜選擇的中國政企AI採購市場。截至2025年末,智譜的應收款項總額約3.39億元人民幣,佔其全年7.24億元營收的近47%。此外,2024年智譜存在單一客戶貢獻近5947萬元營收的情況,佔當年總營收約19%,大客戶集中度及帳期問題顯著。私有部署業務需要大量定製化和本地交付,收入與人力成本同步線性增長,難以享受AI技術的邊際成本遞減紅利。智譜管理層顯然意識到了這一點。2025年,公司主動最佳化業務結構,開放平台和API業務收入激增292.6%,雲端部署的收入佔比從15.5%提升至26.3%。然而,雲端業務目前的毛利率僅為18.9%。向雲端轉型意味著短期內必須承受整體毛利率的陣痛,同時還要抵禦字節、阿里等巨頭帶來的價格戰挑戰。MiniMax將主戰場設在海外,避開了國內ToB市場的內卷。73.0%的海外營收比例不僅規避了價格戰,更讓其接觸到了付費意願更強的使用者群體。Talkie和Hailuo AI驗證了AI伴侶和視訊生成場景的變現邏輯。銷售費用的絕對值下降與營收的成倍增長,是典型的產品驅動型SaaS早期特徵,與Anthropic的C端/開發者雙輪驅動模型更接近。但出海也面臨風險。在面對好萊塢等傳統內容巨頭時,版權問題是懸在頭上的達摩克利斯之劍。迪士尼、環球、華納等起訴MiniMax的Hailuo AI侵權,核心是指控其缺乏基礎的護欄,例如用戶輸入“達斯·維達”,系統會直接生成侵權視訊。原告主張按500件作品、每件最高15萬美元索賠,總計索賠額可能高達7500萬美元。MiniMax在財報中披露,其部分子公司正面臨智慧財產權侵權索賠的法律糾紛,目前案件尚處早期,結果無法精準預估。這構成了一個重大的外部風險變數。月之暗面也在策劃上市,據媒體報導,其今年第一季度來自海外的收入增長十分強勁,這意味著,月之暗面整體營收構成或許與MiniMax更類似。MiniMax比智譜更像Anthropic智譜和MiniMax兩家公司都在用極高的研發投入換取技術代差。智譜2025年研發費用高達31.8億元人民幣,同比增長44.9%,錄得經調整淨虧損31.82億元。每創收1元,僅研發就要投入約4.4元。智譜在1月份的IPO中募資約50億港元,補充了彈藥,但以當前的消耗速度,資金鏈壓力依然存在。智譜現金約22. 59億,若按2025年調整後淨虧損31.8億/年推算,不考慮收入增長,現金流不足12個月,短期內大機率需要再融資。從人效來看,智譜目前擁有1094名全職員工。MiniMax的財務安全邊際相對較寬。2025年研發費用為2.53億美元,經調整淨虧損為2.51億美元。其帳上包括現金、定期存款及金融資產等在內的資金儲備達10.5億美元,現金流足以支撐超4年。人員結構也更為精簡,全職員工僅428名,在創造與智譜同等規模營收的情況下,展現出了更高的人效。Anthropic的核心商業模式是基於頂尖的Claude系列模型,建構的“API+訂閱”多元收入結構,並保持極高的企業和開發者粘性。在模型能力上,智譜和MiniMax都展現了極強的競爭力。智譜敢於在2026年初將API呼叫價格上調83%且需求不減,證明已開始掌握一定的定價權。但從商業模式的演進來看,MiniMax比智譜更符合Anthropic的雛形。MiniMax毛利率穩步上行、海外C端訂閱收入佔主導、銷售體系向產品驅動過渡、更精簡的人員結構以及更厚的現金儲備,都指向了一個具備規模效應的健康商業體。智譜的護城河在於國內政企市場的深度繫結以及強大的產學研背景,但這門私有化部署驅動的生意更像傳統的IT整合商,而非純粹的SaaS或MaaS企業。無論是智譜、MiniMax還是月之暗面,要在巨頭環伺的AGI競賽中存活下來,仍需要在這場沒有終點的研發軍備賽中繼續奔跑。 (劃重點)
智譜發佈“炸裂”資料!
在智譜2025年業績說明會上,智譜CEO張鵬表示,2026年一季度智譜的API呼叫定價提升83%,即便如此,市場依然呈現出供不應求的情況,呼叫量增長400%。就在昨晚,智譜發佈首份業績報告:目前,智譜MaaS API平台實現年度經常性收入17億元,同比提升60倍。與此同時,MaaS API平台毛利率同比提升近5倍至18.9%,盈利能力大幅提升。財報顯示,公司全年收入超7.24億元,同比增長132%,是國內收入規模最大的大模型公司;全年綜合毛利率達到41%,遠超行業水準。今年3月,智譜推出GLM-5-Turbo模型,同步上調API價格,較前代GLM-4.7的平均漲幅達到83%。隨後,該模型發佈24小時內即就獲得了字節跳動TRAE、阿里巴巴Qoder、騰訊CodeBuddy等頭部平台產品的官方接入。智譜表示,當前公司已成為國內付費Token消耗量最高的廠商之一。智能上界的提升是大模型AGI時代的“第一性”,將繼續專注模型智能的持續突破。受上述消息影響,截至發稿,智譜漲超25%,MINIMAX漲超10%。A股市場方面,奧瑞德、寧波建工、宏景科技等算力租賃概念股紛紛走強。中銀證券指出,今年3月中國日均詞元呼叫量已突破140兆,兩年增長超千倍。Token(即詞元)作為AI大模型處理資訊的最小計量單位是衡量AI模型活躍度與產業價值的關鍵指標。中國日均Token呼叫量的大幅增加,本質上表明中國AI產業的發展重心正在從“卷模型”轉向“卷應用”,AI應用正在深度融入社會經濟活動。中金公司認為,隨著模型智能化程度提升以及Agent場景滲透,更多使用者願意為智能付費;同時,以智譜為代表的大模型公司上調價格也為毛利率提升帶來更多空間。華創證券表示,2026年,AI Agent元年即將開啟,OpenClaw等現象級個人Agent產品有望湧現,其影響力可比肩2025年DeepSeek大模型開源時刻。在此輪產業周期中,擁抱AI企業將成為勝出關鍵,而AI-Native廠商憑藉更具攻擊性的組織形態與輕量的歷史包袱,勝率更為凸顯。該機構進一步強調,港股已成為全球AI稀缺資產價值發現地,MiniMax與智譜作為全球唯二具備基座大模型能力廠商,稀缺性溢價持續凸顯。 (科創日報)
智譜一邊狂奔,一邊失血
智譜證明了自身的盈利空間,但虧損仍在繼續頭圖|視覺中國如果有一門生意,“每賺 1 元收入,要投入4.4 元研發費”,它會是門好生意嗎?全球大模型第一股智譜AI(下稱“智譜”)試圖回答這一問題。2026年3月31日,智譜公佈了2025年全年業績,這也是其上市後的首份財報。財報顯示,智譜在2025年全年實現總收入7.24億元人民幣,同比增長131.9%;銷售成本,同比增長213.3%至4.27億元。在這樣的收入和成本表現下,智譜的毛利同比增長68.7%至2.97億元,公司全年綜合毛利率也達到了41%。而對於同樣是大模型上市企業的MiniMax而言,智譜的毛利率已經遠高於MiniMax,後者毛利率25.4%。如果從收入構成來拆解,41%的毛利率背後呈分化趨勢,其本地化部署業務毛利率由2024 年的66.0%下降至2025年的48.8%,而云端部署業務的毛利率由由2024年的3.3%上升至2025 年的18.9%。(虎嗅註:本地化部署業務指大模型本地部署,雲端部署業務指開放平台及API)。從這一點來看,智譜已經充分證明了自身的盈利空間。但它依然陷入虧損。受同期31.8億元研發費影響,智譜經調整淨虧損額達到31.82億元,虧損幅度同比增長29.1%。同期虧損額相當於智譜總收入的4.39倍,更是其毛利的10.7倍。值得注意的是,虧損主要來源於研發開支。據財報顯示,2025年智譜研發成本31.84億元,同比增長44.9%;而2025年資本支出為7470萬元。財報中解釋道,研發成本增長主要源於:(1)員工成本增加,包括擴大研發團隊及股份支付費用增加;(2)支付第三方算力供應商的計算服務費用,包括迭代模型及投資更先進的模型訓練基礎設施。但值得一提的是,用於大模型訓練的算力成本並不計入研發開支,而是以算力租賃的形式單獨計入資本支出。在智譜的語境中,前者用於大模型訓練的算力成本指根據模型訓練時長呼叫算力供應商GPU的成本,這部分靈活支出算進研發成本中;而鎖定GPU資源,且長期與某供應商簽合同則算如資本支出。對比MiniMax,智譜的整體規模更大。這主要是兩家公司的業務構成和組織架構等造成的差異。例如,智譜的人員規模是MiniMax的2倍,而這同時也造成了前者投入研發成本更高,虧損更嚴重;而後者則人效更高。本次財報中值得注意的是,與MiniMax一樣,智譜也嘗到了龍蝦紅利。從2026年一季度開始,智譜的業績增長主要依賴於其在3月推出的AutoClaw,一鍵部署龍蝦。據智譜CEO張鵬介紹,一季度智譜的API呼叫定價提升83%。但它也恰好踩中了需求爆發的時間點。彼時,龍蝦的熱度已經持續了一個月。在漲價後半個月,智譜就開始部署龍蝦。所以,即便價格增長,智譜GLM模型呼叫量依然增長了400%。根據財報,該計畫上線兩天后,訂閱使用者即破10萬,上線20天後訂閱使用者突破40萬。與之相對應的,是智譜盈利能力的指標,也就是智譜重心押注的MaaS平台。據悉,MaaS API平台實現ARR 17億元(約2.5億美金),同比提升60倍。也就是說,智譜這份財報,其實是一方面證明了自己的盈利空間,而另一方面,虧損也未停止。智譜的增長邏輯變了,但尚未重構從整體收入結構來看,這份財報裡最關鍵的變數,其實不是總收入本身,而是收入來源。通過拆解收入來源中細微的變化,能夠窺探出智譜新的增長邏輯,以及它的可持續性。拆開來看,智譜的增長重心已經開始向雲端傾斜,也就是MaaS。這部分業務佔比26.3%,而在2024年,雲端部署僅佔總收入的15.5%。而在本次財報發佈後,智譜也聲稱,公司的戰略重點會持續放在MaaS上。然而,儘管從數字上看,雲端部署業務佔比大幅提升。但這其中的幾個變數尤為關鍵。首先,這裡面最核心的驅動來自API。換句話說,智譜這一輪增長,本質上是呼叫量的增長。而在這其中,龍蝦(OpenClaw)是最直接的變數。隨著Agent開始自動執行任務,一次需求往往對應多輪呼叫,Token消耗被成倍放大,API呼叫量隨之上升。第二是MaaS的主要收入來源。財報中介紹道,十家網際網路公司中,已有九家網際網路公司接入智譜模型。這裡有一個值得注意的變化:這些網際網路公司基本都有自己的大模型,但他們也並非完全依賴自有模型,而是會根據不同業務呼叫不同模型。也就是說,短期內即便擁有自研大模型,仍然會在特定場景下選擇智譜。當然,這並不意味著,這九家網際網路大廠會長期選擇這一戰略。而這些公司的呼叫量基本上佔據了智譜MaaS收入的半壁江山。也就是說,一旦智譜失去任意一家客戶,都會對目前的MaaS業務造成重創打擊。第三,MaaS的增長還來自於Token“出海”。過去一年,智譜已與多個中東國家和東南亞國家展開合作,向當地輸出模型能力,本質上同樣是以Token呼叫的形式實現收入。綜合來看,這份財報釋放出的一個明確訊號是,智譜正在把增長的敘事,從重本地化部署切換為賣模型,也就是賣Token。但從結果來看,儘管智譜目前的主要收入仍依賴於本地化部署,但MaaS模式已經呈現出可持續性增長的趨勢。在這一基礎上,智譜還提出了一個新的概念:TAC(Token Architecture Capability,Token架構能力)。按照其定義,TAC由三部分構成:智能呼叫量、智能質量以及經濟轉化效率。簡單來說,就是呼叫了多少Token、這些呼叫是否有效,以及最終能否轉化為收入。在筆者看來,在“龍蝦”事件過後,行業裡對於Token逐漸形成了共識:當大模型具備長程任務執行能力之後,呼叫不再是一次性的輸入輸出,而是被組織成一個持續運行的系統。那麼,也就是說,一項任務背後,往往對應多輪呼叫、工具呼叫甚至自我校驗,Token不再只是被消耗,而是被“編排”,即使用者會如何組織呼叫大模型。而TAC之所以在這個時間點被提出,也並不難理解。過去兩年,大模型行業的競爭主要圍繞參數規模、模型能力以及價格展開;但隨著價格戰趨於尾聲、模型能力逐漸收斂,Agent應用體開始爆發,這些指標已經越來越難以解釋公司的增長差異。在這樣的背景下,智譜需要一套新的指標體系,來回答一個更現實的問題:當模型能力相差不大時,增長從那來?智譜的“成本陷阱”把視角從智譜拉開到整個行業,會發現大模型的商業模式已經開始收斂。除了階躍星辰之外,剩下的三家基座模型公司,核心收入都在向API呼叫收斂。無論是智譜、MiniMax,還是月之暗面,都在走向用MaaS承接增長的路徑。但至少對於智譜而言,這條路徑並不是一開始就存在的。以智譜為例,其早期業務中,ToG與私有化部署佔比極高,項目制特徵明顯。直到上市前夕,大概半年前,為了讓商業模式更具持續性與規模想像空間,智譜才開始明顯向MaaS轉型,將增長重心轉向雲端API呼叫。從結果來看,這一轉型確實帶來了變化,MaaS佔比提升,Token成為核心指標,收入結構也開始向平台化靠攏。只不過,按照智譜現有的架構,這種本地部署超過雲端部署的結構很難短時間內改變。當前MaaS的增長,還高度依賴少數大客戶。財報顯示,智譜的API收入中,相當一部分來自網際網路大廠。這些公司雖然擁有自研模型,但在具體業務中,會選擇呼叫外部模型能力。這種“多模型呼叫”的模式,確實為MaaS提供了穩定需求。但問題在於,這並不等同於真正意義上的規模化增長。一方面,頭部客戶貢獻了主要呼叫量;另一方面,長尾市場尚未被真正打開。換句話說,MaaS的平台形態已經出現,但沒有建立起平台規模。而這還指向了另一個更核心的問題,即單位Token的成本與收入結構。財報顯示,2025年智譜全年虧損47.18億元,同比增長59.5%;其中研發開支達31.8億元,同比增長44.9%;資本開支7470萬元,同比下降約83.8%。前者是指模型訓練成本和員工成本,後者來自算力租賃等成本,而2025年智譜將調整了算力採購方式,將曾經較為固定的算力租賃,變為算力租賃和服務採購相結合的模式,因此資本開支大幅下降。那麼,再把MaaS增長和這上下這兩組資料結合起來,可以觀察到一條非常直接的邏輯鏈:公司若想帶動MaaS增長,就必須依賴模型能力;而模型能力的提升,要依賴持續加大研發投入。但問題是研發與算力成本,並不會隨著呼叫規模的擴大而自然下降。換句話說,收入增長的前提,本身就在推高成本。這也讓大模型公司都陷入一種結構性困境:為了獲得更多呼叫,需要持續提升模型能力;而為了提升模型能力,又必須不斷加大投入。這就造成了如今,增長越快,成本壓力越大的局面。從這個角度看,問題已經不只是智譜一家公司,而是整個大模型行業正在面對的共同約束。而在這個問題沒有被解決之前,MaaS能夠帶來增長,但很難帶來利潤。智譜為何想對標Anthropic?在3月31日晚智譜年度業績發佈電話會中,智譜CEO張鵬在匯報業績前還特意提到了美國AI獨角獸公司Anthropic,該公司ARR從2024年底10億美金,到2025年底90億美金。實際上,幾乎所有頭部大模型公司,都在試圖對標美國路徑。其中,月之暗面把目光瞄準OpenAI,走“模型能力+產品+訂閱”的路線;而智譜、MiniMax,試圖靠近Anthropic模式,即強調基座模型能力,通過API輸出推理算力,建構開發者生態。但無論路徑選擇如何,本質上都是將模型作為基礎設施,通過呼叫來實現規模化收入。目前,這條路徑在美國已經被初步驗證。無論是OpenAI,還是Anthropic,都可以證明模型能力足夠強時,開發者生態可以形成正反饋。但問題在於,這條路徑在中國,很難被覆制。首先,是價格體系的差異。在美國市場,企業客戶與開發者更願意為能力付費,模型能力可以轉化為溢價;但在中國,價格從一開始就被迅速壓低。兩年的價格戰之後,Token才逐漸演變為“基礎資源”。其次,是需求結構的差異。美國的大模型生態,更依賴開發者長尾需求;而在中國,呼叫更多集中在頭部客戶,比如網際網路大廠與政企客戶。這種結構下,MaaS更接近於集中採購”,而不是靠開發者生態驅動。第三,是成本與供給的差異。算力供給、晶片結構以及整體成本環境,使得國內模型公司的成本更難隨著規模下降。從這個角度看智譜的困境就更容易理解了。回看網際網路與雲端運算的發展路徑,基礎設施層的盈利,往往建立在應用層爆發之後。同理,這也意味著,在當下階段,無論是智譜,還是其他大模型公司,都需要等待應用場景被持續驗證後,才有可能出現規模效應。 (虎嗅APP)
供不應求,智譜Token賣爆了
3月31日晚,智譜發佈的上市後首份財報顯示,2025年公司實現總收入7.24億元(人民幣,下同),同比增長131.9%;經調整年內淨虧損為31.8億元,2024年為24.6億元;全年綜合毛利率41%,遠超行業水準。財報顯示,智譜期內“向投資者發行的金融工具的帳面價值變動”帶來9.37億元的帳面虧損,這是導致淨虧損擴大的原因之一。智譜在年報中說明,此項增加主要源於2025年新增了帶有回購權利的股權融資。分業務看,企業級通用大模型業務實現收入3.66億元,佔總收入的50.4%。企業級智能體業務收入從上年的0.47億元增至1.66億元,增長248.8%,收入佔比達22.9%,成為新的增長引擎。企業級智能體是指以通用大模型為核心控制單元,結合企業知識庫與工具備呼叫能力,面向企業級複雜場景建構的自主智能系統。開放平台及API平台業務是最大亮點,從上年的0.48億元增至1.90億元,增幅高達292.6%,收入佔比提升至26.3%。開放平台及API即對外出售詞元(Token),系公司基於通用大模型能力,向開發者及企業客戶提供的標準化、平台化的雲端線上服務。受益於模型智能上限提升和呼叫量激增,該業務收入呈現爆發式增長。以此計算,開放平台及API平台業務的ARR(年度經常性收入,衡量AI公司商業化能力的核心指標)約17億元(2.5億美金),同比提升60倍。與此同時,該業務盈利能力顯著改善,開放平台及API平台毛利率同比提升近5倍至18.9%。智譜稱,得益於雲端部署業務規模增長,程式設計套餐產品的推出和推理效率的提升,毛利及毛利率均有所提高。據記者瞭解,當前智譜該業務呈現出“量價齊升”態勢。在2026年一季度API漲價83%後,呼叫量不降反升,市場依然供不應求,顯示出客戶為生產力付費的高度意願。可以看出,智譜的商業化路徑與Anthropic較為一致,即以模型智能為核心壁壘,以API為主要產品形態。研發投入層面,智譜堅信“智能上界的突破是AGI時代的第一性原理”,並為此進行高強度、長周期的研發投入。2025年,公司研發開支達到31.80億元,同比增加44.9%。該部分投入主要用於擴大研發團隊、股份支付費用增加,以及支付第三方算力供應商費用,以支援基礎模型的迭代和模型訓練基礎設施的投資。在後續展望上,智譜給出了一個公式:AGI商業價值=智能上限×詞元消耗規模。可以理解為,當模型足夠強,API本身就是最好的商業模式。在模型層面,2025年,智譜完成從氛圍程式設計(Vibe Coding)到智能體工程(Agentic Engineering)的行業範式跨越,陸續發佈GLM-4.5、4.6、4.7到GLM-5、5-Turbo等新模型,並取得了較好的反響。進入2026年,算力範式正在發生劇變。OpenClaw的爆發式應用提前引燃了詞元消耗狂潮。面對2026年2月以來供不應求的算力缺口,智譜明確,將繼續加大投入,尤其是深耕國產晶片的“Day 0”適配與軟硬一體化調優。智譜強調,其不是一家傳統意義上的軟體公司,而是一個以AGI為信仰的原生智能實驗室。“我們的護城河不在於算力的堆砌,而在於對智能本質的底層解構,以及將這種理解轉化為社會生產力的定力。”展望2026年,智譜預計,智能範式將從輕量化的Vibe Coding(氛圍程式設計)向工業級的Agentic Engineering(智能體工程)演變,再進化為具備自主規劃、環境感知與自我迭代能力的數字工程師,最終實現跨越多步迭代、具備邏輯一致性的Long-horizon Task(長程任務)閉環執行,這將進一步帶來智能上界的突破與詞元呼叫的指數級增長。 (上海證券報)
楊植麟主持、羅福莉張鵬拋乾貨,這場“龍蝦局”把AI未來聊透了
大模型真正開始“幹活”,token需求或增長百倍。智東西3月27日報導,今天,在中關村論壇上,智譜CEO張鵬、月之暗面CEO楊植麟(擔任主持)、小米MiMo大模型負責人羅福莉、無問芯穹CEO夏立雪和香港大學助理教授黃超罕見同台,進行了一場圍繞開源大模型與智能體未來走向的深度對話。這場對話以當下最火的OpenClaw切入,幾位嘉賓一致認為,智能體讓大模型真正開始“幹活”了。OpenClaw可擴展大模型的能力邊界,但也對模型提出了更高要求,智譜正研究長程規劃、自我偵錯等能力,而羅福莉的團隊更關注通過架構創新把成本降下來、速度提上去,甚至實現模型自進化。基礎設施也得跟上智能體的節奏。夏立雪認為現在的算力系統和軟體架構還是給人用的,不是給智能體用的,其實是用人的操作能力限制了Agent的發揮空間。因此,我們需要打造Agentic Infra。在多位嘉賓眼中,開源是推動大模型與智能體發展的核心動力之一。香港大學助理教授黃超便認為,開源生態的繁榮是智能體從“玩一玩”走向真正“打工人”的關鍵,只有通過社區共建,才能讓軟體、資料和技術全面轉向智能體原生形態,最終形成可持續的全球AI生態。此外,幾位嘉賓還就大模型漲價、token用量爆發、AI未來12個月的關鍵詞等話題,展開討論。以下是這場圓桌論壇的核心觀點:1、張鵬:模型變大後推理成本也會相應提高,近期智譜的漲價策略其實是回歸到正常的商業價值上了,長期低價競爭不利於行業發展。2、張鵬:智能體等新技術的爆發讓token用量增長了10倍,但實際需求可能增長100倍,仍有大量需求未被滿足,因此算力仍然是未來12個月內的關鍵問題。3、羅福莉:從基座大模型廠商的視角來看,OpenClaw保證了基礎大模型的下限,拉高了上限。國產開源模型+OpenClaw的任務完成度已經非常接近Claude。4、羅福莉:DeepSeek給國內大模型廠商帶來了勇氣和信心。一些看似是“為了效率妥協”的模型結構創新引發了真正的變革,讓業界在算力一定的情況下發揮出最高的智能水平。5、羅福莉:接下來一年AGI歷程中最重要的事情是“自進化”。自進化讓大模型像頂尖科學家一樣去探索,是唯一能“創造新東西”的地方。小米已經借助Claude Code+頂尖模型,將研究效率提升10倍。6、夏立雪:當AGI時代到來時,基礎設施本身都應該是智能體,自主管理整個基礎設施,根據AI客戶的需求去迭代基礎設施,實現自我進化、自我迭代。7、夏立雪:OpenClaw引爆了token用量。如今的token消耗速度,就像當年3G時代手機流量剛起步時,每個月只有100M額度的那種感覺。8、黃超:未來很多軟體都不是面向人類的,軟體、資料和技術都會程式設計Agent-Native的形態,人類未來可能只需要使用那些“讓自己快樂的GUI”。以下是這場圓桌論壇的完整實錄:01. OpenClaw就是“腳手架” 大模型token消耗仍處於3G時代楊植麟:很榮幸今天能邀請到各位重磅嘉賓,幾位嘉賓來自模型層、算力層再到agent層。今天最主要的關鍵詞是開源,然後還有agent。第一個問題來談談現在最流行的OpenClaw。大家日常使用OpenClaw或者類似的產品有什麼覺得最有想像力或者印象深刻的點?從技術的角度來看,如何看待今天OpenClaw和相關的Agent的演進。張鵬:很早我就開始自己玩OpenClaw,當時還叫Clawbot。我自己動手來折騰,畢竟也是程式設計師出身,玩這些東西還是有一些自己的體驗。我覺得OpenClaw給大家帶來的最大突破點,或者說新鮮感就在於,它不再是程式設計師或極客們的專利。普通人也可以比較方便地使用頂尖模型的能力,尤其是在程式設計和智能體方面的能力。所以我到現在為止,跟大家在交流的過程當中,我更願意把OpenClaw稱作“腳手架”。它提供的是一種可能性,在模型的基礎之上搭起了一個很牢固、很方便,但是又很靈活的腳手架。大家可以按照自己的意願,去使用很多底層模型提供的新奇功能。原來自己的想法可能會受限於不會寫程式碼,或者沒有掌握其他的相關技能,今天有了OpenClaw,終於可以通過很簡單的交流就把它完成。OpenClaw給我帶來非常大的衝擊,或者說讓我重新認識了這件事。夏立雪:其實我最開始用OpenClaw的時候是不太適應的,因為我習慣於跟大模型聊天的交流方式,使用後我感覺OpenClaw反應好慢。但後來我意識到一個問題,就是它和之前的聊天機器人有一個很大的不同,本質是一個能幫我完成大型任務的“人”。我開始給它提交更複雜的任務,就發現其實它能夠做的很好。這件事情給我帶來很大的感觸。模型一開始按照token去聊天,到現在能夠變成一個agent,變成一個龍蝦,能夠幫你去完成任務。這件事對AI的整體想像力空間帶來很大的提升。同時,它對於整個系統的能力的要求也變得很高。這也是為什麼我一開始用OpenClaw,會覺得它有點卡。作為基礎設施層的廠商,我看到的是OpenClaw對於AI背後的大型系統和生態都帶來了更多的機遇和挑戰。我們現在所有能夠用到的資源,想要支撐起這樣一個快速增長的時代是不夠的。比如說就拿我們公司來說,我們公司從一月底開始,基本上每兩周token用量就翻一番,到現在基本上漲了10倍。上次見到這個速度,還是當年用3G手機消耗流量的時候。我有種感覺,現在的token用量,就像當年每個月只有100M手機流量的那個時代。這種情況下,我們所有的資源都需要進行更好的最佳化,進行更好的整合。讓每一個人,不僅僅在AI領域,而是在整個社會中的每一個人都能夠去把OpenClaw的AI能力用起來。作為基礎設施的玩家,我對這個時代是非常激動、深有感觸的。我也認為這裡邊有很多的最佳化空間是我們仍然應該去探索,應該去嘗試的。02. OpenClaw拉高國產模型上限 互動模式突破意義重大羅福莉:我自己是把OpenClaw當做agent框架演進過程中,一個極具革命性和顛覆性的事件來看待的。其實我身邊所有在進行非常深度coding的人,他們的第一選擇還是Claude Code。但是,我相信用OpenClaw的人會感受到,它在Agent框架上的很多設計是領先於Claude Code的。最近Claude Code有很多更新其實都是在向OpenClaw去靠近。我自己使用OpenClaw時的感受是,這個框架給我自己帶來更多是想像力的隨時隨地的擴展。Claude Code最開始只能在我的桌面上去延展我的創意,但是OpenClaw可以隨時隨地去延展我的創意。OpenClaw帶來的核心價值主要有兩點。第一點是它開源。開源這件事,非常有利於整個社區深度參與進來,重視並推動這個框架的演進,這是一個很重要的前置條件。像OpenClaw這樣的AI框架,我覺得一個很大的價值在於,它把國內那些水平雖然接近閉源模型、但還沒完全追上的模型的上限拉到了很高。在絕大多數場景下,你會發現它(國產開源模型+OpenClaw)的任務完成度已經非常接近Claude的最新模型。同時,它又很好地把下限保證了——通過一套Harness系統,或者說借助它的Skills體系等多方面的設計,保障了任務的完整度和精準率。總結一下,從基座大模型廠商的開發者角度來看,OpenClaw保證了基礎大模型的下限,拉高了上限。此外,我認為它給整個社區帶來的另一個價值是,它點燃了大家的認知,讓大家發現在大模型之外,Agent這一層其實蘊藏著非常大的想像空間。我最近也觀察到,社區裡除了研究員之外,越來越多的人開始參與到AGI的變革中來,更多人開始接觸像Harness、Scaffold這樣更強大的Agent框架。這些人某種程度上是在用這些工具替代自己的一部分工作,同時也是在釋放自己的時間,去投入到更有想像力的事情上。黃超:我覺得首先從互動模式來講,OpenClaw這次之所以能火,第一個原因可能是它給了一種更有“活人感”的體驗。其實我們做Agent也有一兩年了,但之前像Cursor、Claude Code這些Agent,給人的感覺更多是一種“工具感”。而OpenClaw第一次以“即時通訊軟體嵌入”的方式,讓人更有一種接近心目中“個人賈維斯”的感覺。我覺得這可能是互動模式上的一個突破。另外一點,它給整個社區帶來的啟發是:像Agent Loop這種簡單但高效的框架,再次被證明是可行的。同時,它也讓我們重新思考一個問題:我們到底是需要一個全能型的、能做所有事情的超級智能體,還是需要一個更好的“小管家”,像一個輕量級的作業系統或腳手架?OpenClaw帶來的思路是,通過這樣一個“小系統”或者說“龍蝦作業系統”和它的生態,讓大家真正有“玩起來”的心態,進而撬動整個生態裡的所有工具。隨著Skills、Harness這類能力的出現,越來越多的人可以去設計面向OpenClaw這類系統的應用,去賦能各行各業。我覺得這一點天然就跟整個開源生態結合得非常緊密。在我看來,這兩點是我們獲得的最大啟發。03. GLM新模型專為“幹活”打造 漲價是對正常商業價值的回歸楊植麟:想問一下張鵬。最近看到智譜發佈了新的GLM-5 Turbo模型,我理解在Agent能力上做了很大的增強。能不能給大家介紹一下這個新模型和其他模型的不同之處?另外我們也觀察到有提價的策略,這反映了什麼樣的市場訊號?張鵬:這是個很好的問題。前兩天我們確實緊急更新了一波,這其實是我們整個發展路標中的一個階段,只是提前把它放了出來。最主要的目的,是從原來的“簡單對話”轉向“真正幹活”——這也是大家最近普遍感受到的:大模型不再只是能聊天,而是真的能幫人幹活了。但“幹活”背後隱含的能力要求非常高。模型需要自己去做長程的任務規劃、不斷試錯、壓縮上下文、偵錯,還可能要處理多模態資訊。所以它對模型能力的要求,和傳統面向對話的通用模型其實不太一樣。GLM-5 Turbo就是在這些方面做了專門加強,尤其是你提到的——讓它幹活、跑上七十二小時,怎麼能夠不停地loop,這裡邊我們做了很多工作。另外大家也很關注token消耗的問題。讓一個聰明的模型去幹複雜任務,token的消耗量是巨大的。普通人可能感知不深,但看帳單的時候會發現錢掉得特別快。所以我們在這方面也做了最佳化,在面臨複雜任務時,模型能用更高效的token效率去完成。總體上,模型的架構還是多工協同的通用架構,只是在能力上做了偏向性的加強。提價這件事其實也很好解釋。剛才說了,現在不再是簡單地問一個問題就得到一個回答,背後的推理鏈路非常長。很多任務要通過寫程式碼和底層基礎設施打交道,還要不斷debug、修正錯誤,消耗量非常大。完成一個複雜任務需要的token量,可能是原來回答一個簡單問題的十倍甚至百倍。所以價格上需要有一定的提升,模型也變大了,推理成本相應提高了。我們把它回歸到正常的商業價值上,因為長期靠低價競爭也不利於整個行業的發展。這也是我們讓商業化能形成一個良性閉環,持續最佳化模型能力,給大家提供更好服務的。04. 打造更高效token工廠 基礎設施本身也應該是Agent楊植麟:現在開源模型越來越多,也開始形成生態,各種模型可以在不同的算力平台上給使用者提供更多價值。隨著 token用量的爆發,大模型也正在從訓練時代走向推理時代。想請教一下立雪,從基礎設施的層面來看,推理時代對於無問來說意味著什麼?夏立雪:我們是一家誕生在AI時代的基礎設施廠商,現在也在為智譜、Kimi、Mimo等提供支援,讓大家能把token工廠更高效地用起來。同時我們也在跟很多高校、科研院所合作。所以我們一直在思考一件事:AGI時代需要什麼樣的基礎設施?以及我們怎麼一步步去實現和推演它。我們現在對短期、中期、長期不同階段需要解決的問題,已經做好了充分準備。當前最直接的問題,就是大家剛才聊到的——整個Open帶起來的token量暴增,對系統效率提出了更高的最佳化需求。包括價格的調整,其實也是在這個需求下的一種應對方式。我們一直是通過軟硬體打通的方式來佈局和解決的。比如我們接入了幾乎所有種類的計算晶片,把國內十幾種不同的晶片和幾十個不同的算力叢集統一連接起來。這樣能解決AI系統裡算力資源緊缺的問題,資源不足時,最好的辦法就是先把能用上的資源都用起來,然後讓每一個算力都用在刀刃上,發揮出最大的轉化效率。所以在這個階段,我們要解決的就是怎麼打造一個更高效的token工廠。這裡邊我們做了很多最佳化,包括讓模型和硬體上的視訊記憶體等各種資源做最優適配,也在看最新的模型結構和硬體結構之間能不能產生更深的化學反應。但解決當前的效率問題,其實只是打造了一個標準化的token工廠。面向Agent時代,我們認為這還不夠。因為Agent更像一個人,可以交給它一個任務。我堅定地認為,當前很多雲端運算時代的基礎設施,是為服務一個程序、服務人類工程師設計的,而不是為AI設計的。這相當於我們做了一個基礎設施,上面是給人用的介面,再在上面包一層去接入Agent,這種方式其實是用人的操作能力限制了Agent的發揮空間。舉個例子,Agent能做到毫秒等級去思考和發起任務,但像K8s(kubernetes)這類底層能力,其實並沒有為此做好準備,因為人類發起任務大概是分鐘級的。所以我們需要更進一步的能力,我們把它叫“Agentic Infra”,也就是“智慧化的token工廠”,這是無問芯穹在做的事情。更長遠地看,真正AGI時代到來時,我們認為連基礎設施本身都應該是智能體。我們打造的這套工廠,也應該是能自我進化、自我迭代的,能形成一個自主的組織。它相當於有一個CEO,這個CEO本身就是一個Agent,可能是OpenClaw,去管理整個基礎設施,然後根據AI客戶的需求自己去提需求、迭代基礎設施。這樣AI和AI之間才能更好地耦合。我們也在做一些探索,比如讓Agent之間更好地通訊、做Cache to Cache這樣的能力。所以我們一直在思考的是,基礎設施和AI的發展不應該是一個隔離的狀態——我接到需求就去實現,而是應該產生非常豐富的化學反應。這才是真正意義上的軟硬協同、演算法和基礎設施的協同,也是無問芯穹一直想實現的使命。謝謝。05. “為效率妥協”的創新也有意義 DeepSeek給國內團隊帶來勇氣和信心楊植麟:接下來想問一下福莉。小米最近通過發佈新模型、開源背後的技術,對社區做出了很大的貢獻。想問你,小米在做大模型方面,你覺得有什麼獨特的優勢?羅福莉:我覺得可以先拋開小米有什麼獨特優勢這個話題,我更想聊一聊中國做大模型的團隊整體上的一個優勢。我覺得這個話題有更廣泛的價值。大概兩年前,中國的基座模型團隊已經開始了非常好的突破——我們在有限的算力、尤其是在一些NVLink互聯頻寬受限的算力條件下,怎麼去突破這些低端算力的限制,做一些看似是“為了效率妥協”的模型結構創新,比如DeepSeek V2、V3系列,以及MoE、MLA等等。但後來我們看到,由這些創新引發的是一個變革:在算力一定的情況下,怎麼發揮出最高的智能水平。這是DeepSeek給國內所有基座模型團隊帶來的勇氣和信心。雖然今天我們的國產晶片,尤其是推理晶片,以及訓練晶片,已經不再受這種限制,但正是在這種限制下,催生了我們對更高訓練效率、更低推理成本的模型結構的新探索。就像最近出現的Hybrid Sparse、Linear Attention這類結構,比如DeepSeek的NSA、Kimi 的KSA,小米也有面向下一代結構的HySparse。這些都是區別於MoE這一代結構的、面向Agent時代去做的模型結構創新。我為什麼覺得結構創新如此重要?其實大家如果真正地去用OpenClaw,會發現它越用越好用、越用越聰明。其中一個前提是推理的上下文長度。長上下文是一個我們聊了很久的話題,但現在真正有模型能在長上下文下表現很好、性能強勁、推理成本很低嗎?其實很多模型不是做不到1M或10M的上下文,而是因為推理1M、10M的成本太貴了、速度太慢了。只有把成本降下來、速度提上去,才能把真正高生產力價值的任務交給模型,才能在這種長上下文下完成更高複雜度的任務,甚至實現模型的自迭代。所謂模型的自迭代,就是它可以在一個複雜環境裡,依靠超長的上下文完成對自我的進化。這種進化可能是對Agent框架本身的,也可能是對模型參數本身的——因為我認為上下文字身其實就是對參數的一種進化。所以怎麼實現一個長上下文的架構,怎麼在推理側做到長上下文高效推理,是一個全方位的競爭。除了我剛剛提到的預訓練階段做好long-context-efficient的架構——這大概是我們一年前就開始探索的問題。現在真正要做到在長程任務上的穩定性和高上限的效果,是我們在後訓練階段正在迭代的創新範式。我們在想怎麼構造更有效的學習演算法,怎麼採集到真實環境下、在1M、10M、100M上下文裡真正具有長期依賴關係的文字,以及結合複雜環境產生的軌跡資料。這是我們後訓練正在做的事情。但更長期來看,由於大模型本身的飛速進步,加上Agent框架的加持,就像立雪說的,推理需求在過去一段時間已經有近十倍的增長。那麼今年整個token用量的增長會不會到100倍?這裡邊又進入另一個維度的競爭——算力,或者說推理晶片,甚至再往下到能源。所以我覺得,如果大家一起思考這個問題,我可能會從大家身上學到更多。謝謝。06. Agent有三大關鍵模組 多Agent爆發將帶來衝擊楊植麟:非常有洞察的分享。下面想問一下黃超,你開發過像Nanobot這樣很有影響力的Agent項目,也有很多社區的粉絲。想問你從Agent的Harness或者應用層面來看,接下來有那些技術方向是你覺得比較重要、值得大家關注的?黃超:我覺得如果把Agent的技術抽象出來,關鍵就是Planning、Memory和Tool Use這幾個模組。先說Planning。現在的問題主要是在長程任務或者非常複雜的上下文中,比如500步甚至更長的步數,很多模型不一定能做很好的規劃。我覺得本質上是模型可能不具備這類隱性知識,尤其是在一些複雜的垂直領域。所以未來可能需要把各種複雜任務的知識固化到模型裡,這可能是一個方向。當然,Skill、Harness在某種程度上也在緩解Planning帶來的錯誤,因為它提供了高品質的Skill,本質上也是在引導模型去完成一些比較難的任務。再說Memory。Memory給人的感覺是,它好像總是存在資訊壓縮不精準、檢索不准的問題。特別是在長程任務和複雜場景下,Memory的壓力會暴增。現在像OpenClaw這類項目,大家用的其實都是最簡單的檔案系統式的 Markdown格式的Memory,通過共享檔案來做。未來Memory可能會走向分層設計,也需要讓它變得更通用。老實講,現在的Memory機制很難做到通用——因為Coding場景、Deep Research場景、多模態場景,它們的資料模態差別很大,怎麼對這些Memory做好的檢索和索引,同時又保持高效,這永遠是一個權衡。另外,現在OpenClaw讓大家建立Agent的門檻大幅降低之後,未來可能不止一個“龍蝦”。我看到Kimi也有Agent Swarm這樣的機製出來,未來每個人可能會有“一群龍蝦”。相比於單個龍蝦,一群龍蝦帶來的上下文暴增是可以想像的,這對Memory的壓力會非常大。現在其實還沒有一套很好的機制去管理這種“一群龍蝦”帶來的上下文,尤其是對複雜Coding、科研發現這類場景,不管是模型還是整個Agent架構,壓力都很大。再說Tool Use,也就是Skill這塊。Skill現在存在的問題,其實和當初MCP的問題類似——MCP當時有質量不保障、安全風險等問題。現在Skill也一樣,看似有很多Skill,但高品質的很少,低品質的Skill會影響Agent完成任務的精準度。另外還有惡意注入的問題。所以從Tool Use來看,可能需要靠社區把整個Skill生態做得更好,甚至讓Skill能在執行過程中自我進化出新的Skill。總的來說,從Planning、Memory到Tool Use,這些是當下Agent存在的一些痛點,也是未來可能的方向。07. 未來12個月關鍵詞: 生態、可持續token、自進化與算力楊植麟:可以看到兩位嘉賓從不同視角討論了一個共同的問題——隨著任務複雜度增加,上下文會暴漲。從模型層面可以提升原生上下文長度,從Agent Harness層面,像Planning、Memory、Multi-Agent這樣的機制,也能在特定模型能力下支援更複雜的任務。我覺得這兩個方向接下來會產生更多化學反應,進一步提升任務的完成能力。最後我們來一個開放式的展望。請各位用一個詞來描述接下來12個月大模型發展的趨勢以及你的期望。這次先從黃超開始。黃超:12個月在AI這個領域看起來好遙遠,都不知道12個月之後會發展成什麼樣。楊植麟:本來這裡寫的是五年,我改掉了。黃超:對,哈哈。我想到的一個詞是“生態”。現在OpenClaw讓大家很活躍,但未來Agent真的要成為“打工人”,而不只是大家玩一玩、圖個新鮮感。未來應該讓它真正沉澱下來,成為搬磚的工具、成為真正的coworker。這需要整個生態的努力,尤其是開源,把技術探索和模型技術都開源出來之後,需要整個社區一起共建——不管是模型的迭代,還是Skill平台的迭代,還有各種工具,都需要更好地面向龍蝦去創造生態。一個比較明顯的趨勢是,未來的軟體還會是給人用的嗎?我相信未來很多軟體可能都不一定是面向人類的——因為人類需要的是GUI,而未來可能是面向Agent原生的使用。有趣的是,人可能只去用那些讓自己快樂的GUI。而現在整個生態又從GUI、MCP轉到了CLI的模式。這就需要生態把軟體系統、資料、各種技術都變成Agent Native的形態,這樣整個發展才會更加豐富。羅福莉:把問題縮小到一年,我覺得非常有意義。如果五年的話,從我心目中AGI的定義來看,我覺得已經實現了。所以如果用一句話描述接下來一年AGI歷程裡最關鍵的事情,我認為是“自進化”。這個詞聽起來有點玄幻,過去一年大家也多次提到。但我最近對它有更深的體會,或者說對“自進化”怎麼做,有了更務實、更可行的方案。原因在於,有了強大的模型之後,我們在Chat範式下根本沒有發揮出預訓練模型的上限,而Agent框架把這個上限啟動了。當我們讓模型執行更長時間的任務時,發現它可以自己去學習和進化。一個簡單的嘗試是:在現有的Agent框架裡給它加上一個可驗證的條件限制,再給它設一個Loop,讓模型不停地去迭代最佳化目標,就會發現它能持續拿出更好的方案。這種自進化現在其實已經能跑一兩天了,當然跟任務難度有關。比如在一些科學研究上,像是探索更好的模型結構,因為模型結構有評估標準,比如更低的PPL。在這種確定性的任務上,我們發現它已經能自主最佳化和執行兩三天了。所以從我的角度看,自進化是唯一能“創造新東西”的地方。它不是替代我們現有的人的生產力,而是像頂尖科學家一樣,去探索世界上還沒有的東西。一年前我會覺得這個時間線要拉到三到五年,但最近我覺得確實應該縮小到一到兩年。可能很快我們就能用大模型疊加一個強大的自進化Agent框架,實現對科學研究至少指數級的加速。最近我已經發現,我們組裡做大模型研究的同學,他們的workflow是高度不確定、高度創造性的,但借助Claude Code加上頂尖模型,我們的研究效率已經提升了近十倍。我很期待這種範式輻射到更廣泛的學科和領域,所以我覺得“自進化”非常重要。夏立雪:我的關鍵詞是“可持續token”。我看到整個AI的發展還在一個長期持續的過程中,我們也希望它有長久的生命力。從基礎設施的角度看,一個很大的問題是資源終究是有限的。就像當年講可持續發展一樣,我們作為一個token工廠,能否持續、穩定、大規模地提供token,讓頂尖模型真正能為更多的下游服務,是我們看到的一個很重要的問題。我們需要把視角放寬到整個生態——從能源到算力,再到token,最終到應用,形成可持續的經濟化迭代。我們不僅要把國內的各種算力用起來,也在把這些能力輸出到海外,讓全球的資源都能打通和整合。我也覺得“可持續”其實是在把中國特色的token經濟學做起來。過去我們講Made in China,把中國低價的製造能力變成好的商品輸出到全球。現在我們要做的是“AI Made in China”——把中國在能源等方面的優勢,通過token工廠可持續地轉化成優質的token,輸出到全球,成為世界的token廠。這是我今年想要看到的、中國給世界的人工智慧帶來的價值。張鵬:我就簡短一點。大家都在仰望星空,我就落地一點。我的關鍵詞是“算力”。剛才也說了,所有技術、智能體框架讓大家創造力和效率提升了十倍,但前提是大家能真正用得起來。你不能一個問題提出去,讓它思考半天也不給答案,那肯定不行。也因為這樣,很多研究的進展、很多想做的事情都會受阻。前兩年我記得有位院士在中關村論壇上說了一句話:“沒卡沒感情,談卡傷感情。”我覺得今天又到了這個地步,但情況又不一樣了。現在我們進入了推理階段,需求真的在爆發——十倍、百倍地增長。剛才你說用量漲了十倍,那其實需求可能是一百倍呢?還有大量的需求沒被滿足,怎麼辦?我們大家可能一起來想想辦法。 (智東西)