如果在兩年前問一家大模型公司最需要什麼?答案是“有沒有卡”。但如果今天再問同樣的問題,答案也許會變成“好不好用”。
“我們正在製造大量的垃圾算力。”
一位負責大模型訓練叢集的架構師曾這樣抱怨。他的焦慮並不是沒有風聲。過去十年是算力野蠻增長的十年,規模的快速擴張確實帶來了階段性的產業繁榮。但繁榮背後,是難以忽視的效率困局。
為了追趕GPT-4乃至GPT-5的能力,國內企業陷入了一場瘋狂的參數競賽。數以萬計的GPU被高度整合化塞進資料中心,它們日夜轟鳴,但產出的智能效益卻並未如預期般線性增長。
這是一種典型的“算力通膨”。行業習慣用晶片的理論峰值(Peak Performance)來衡量價值,但在現實的複雜的訓練任務中,這些昂貴的晶片往往“有力使不出”。
資料顯示,在許多大規模訓練叢集中,算力的有效利用率(MFU)僅能維持在40%左右,而在推理場景下,大量的算力更是處於閒置狀態,利用率甚至不足20%。
演算法迭代與硬體僵化之間的錯位也在加劇這種浪費,模型架構每六個月就發生一次巨變,從Transformer到MoE,再到各種稀疏化注意力機制,而硬體研發周期長達兩年以上。
大量針對上一代模型最佳化的專用晶片,在交付的那一刻即面臨淘汰。這種“刻舟求劍”式的硬體設計模式,讓原本就昂貴的算力折舊變得更加迅速。
在上述背景下,天數智芯此次發佈的戰略,似乎是有意在回答這個行業痛點。他們不再單純強調單一晶片的峰值參數,而是開始談論“高品質算力”。
什麼是“高品質算力”?天數智芯對此的定義是:高效率、可預期、可持續。
在1月26日的發佈會上,AI與加速計算技術負責人單天逸展示了一張略顯複雜的架構路線圖。與以往發佈會只盯著TFLOPS(每秒浮點運算次數)數值不同,這次他們花了大量篇幅講“利用率”和“相容性”。
天數智芯給出的架構路線圖:2025年的天數天樞架構,超越輝達Hopper,重點解決多精度混合訓練的效率;2026年天數天璇、天數天璣實現對標和超越輝達Blackwell;而計畫於2027年面世的天數天權,則將矛頭直指輝達下一代旗艦架構Rubin。
這不是一紙空談,而是現實中已經部分實現的作戰計畫:2025年推出的天數天樞架構,通過TPC BroadCast(計算組廣播機制)Instruction Co-Exec(多指令平行處理系統)Dynamic Warp Scheduling(動態線程組調度系統)等自研核心技術,呼叫了每一位元算力,實現算力效率較行業平均提升60%,在DeepSeek V3場景性能比輝達Hopper架構高20%。
同樣的“精打細算”也延伸到了對儲存成本的控制上。面對DDR儲存價格高企給AI推理環節帶來的顯著壓力,天數智芯給出了一套“軟硬兼施”的解法:底層依靠kv cache(關鍵值快取)量化與無損反量化技術,將模型推理的實際記憶體佔用直接削減50%以上,從根本上降低對昂貴儲存資源的依賴;上層則利用自研的IX-SIMU軟體系統,像精算師一樣即時追蹤儲存市場價格,為客戶推算出性價比最高的硬體組合。在波動的市場中鎖定“性能與成本最優解”的能力,是其技術護城河的另一塊拼圖。
隨著物理A的“ChatGPT 時刻”到來,這一能實現物理世界“感知-推理-行動”閉環的技術,成為AI突破數字邊界的新方向,推動智能從虛擬走向現實。
這次發佈會上,最讓現場觀眾感到意外的,不是巨大的伺服器機櫃,而是一系列可以塞進衣服口袋的小盒子。
天數智芯副總裁郭為從兜裡掏出了那塊名為“彤央TY1000”的算力模組。這個僅有手掌大小的模組,採用了699pin介面,卻擁有媲美雲端等級的大算力。
尺寸的縮小之外,算力形態的下沉是重中之重。彤央系列包括了整合ARM v9 12核CPU的TY1100,以及被戲稱為“小鋼炮”的TY1100_NX,還有算力高達300TOPS的TY1200。這些名字聽起來有些枯燥的硬體,實則承載了國產GPU突圍的另一條路徑:走出恆溫恆濕的資料中心,進入物理世界。
天數智芯給出的對比資料頗具一較高下的火藥味:在近期火爆的DeepSeek 32B大語言模型以及電腦視覺場景下,彤央TY1000的實測性能全面優於輝達的AGX Orin。特別是在自然語言處理上,它讓邊緣裝置不拘泥於執行預設指令,變成了能理解複雜邏輯的智能體。
在過去,具身智能(EmbodiedAI)和工業機器人往往受限於端側算力的貧乏,只能執行簡單的預設指令。而現在,隨著端側算力達到300TOPS等級,大模型開始真正有機會住進機器人的身體裡。從智慧門店到車路協同,從軌道交通到工業製造,算力的觸角正在無限延伸。
對於網際網路大廠和創業公司來說,每一秒鐘的生成都在燃燒經費。“AI應用現在已經普及了,Chatbot、文生圖大家每天都在用。但行業真正的瓶頸只有一個:Token成本太高。”天數智芯副總裁鄒翾一針見血地指出了問題的核心。
鄒翾分享的一組資料引起了在場的全體注意。在某頭部網際網路客戶的Chatbot場景中,天數智芯的單機性能比國際方案提升了一倍以上,而每Token的成本下降了二分之一。
這意味著,同樣的預算,企業可以服務兩倍的使用者,或者讓模型思考得更久一點。
除了成本,另一個阻礙國產GPU普及的攔路虎是“遷移門檻”。長久以來,CUDA生態建構的高牆讓無數開發者望而卻步。天數智芯沒有選擇硬碰硬地去推翻現有生態,而是選擇了“相容”與“好用”。通過提供與xLLM等主流框架相容的介面,客戶只需花費其他產品1/3的精力即可完成開發調優。
“好用”的哲學也延伸到了科研領域。從基因分析到海洋地質勘探,科學家們不再需要成為硬體工程師。天數智芯幫助研究人員從繁複的底層偵錯中解放出來,專注於科學發現本身。
在金融領域,研報生成效率提升70%;在醫療領域,結構化病歷生成縮短至30秒。這些數字的背後,是算力真正轉化為生產力的過程。
2026年,對於中國GPU行業註定是不平凡的一年。
隨著天數智芯在香港鳴鑼,國產通用GPU四小龍已集齊IPO。但上市從來不是終點,而是更為殘酷的淘汰賽的起點。
資本市場不會永遠為“國產替代”的情懷買單,也不會一直容忍巨額的研發虧損。投資人最終關心的,是有多少客戶真的把業務跑在了晶片上,商業化的成長是否可以持續。
天數智芯交出的答卷是300多家行業客戶與1000多次實際部署,是數千卡叢集穩定運行超1000天,是瑞幸數千家門店的智能營運、太平金科信貸風控的提效,以及視源科技打造的數萬間智慧課堂,這些真實的業務負載,共同構成了招股書中的底色。
而在算力生態的主動建設上,天數聯手了多家硬體廠商和解決方案提供商,目標是讓千行百業以更高性能、更便捷方式使用AI,實現算力普惠。
在這場漫長的算力馬拉松中,領跑者或許會換了一波又一波。但可以確定的是,那個靠堆砌參數、講故事就能融資的草莽時代,已經徹底結束了。接下來的競爭,將屬於那些真正能讓客戶好用的企業。 (創業邦)