#國產算力
澤平宏觀—中國“芯”能否超越輝達?
DeepSeekV4爆了,全面擁抱國產算力,中國“芯”崛起。1、 國產晶片與輝達是否還有差距?先上結論:差距在快速縮小,大叢集方案讓中國芯迎來了全新變數。華為昇騰950是今年的國產主力,主打推理,單卡算力對標輝達H100,FP4性能局部反超H100,雖訓練端與H200仍有差距,但遠優於特供版H20。但與輝達下一代Rubin架構對比,單卡性能仍然落後。未來,真正的突破還在於用系統化思維,重新定義晶片戰爭。比如華為CloudMatrix 384叢集,與輝達GB200 NVL72叢集對比,實現了1.7倍的算力表現。這說明現在競爭進入了超大規模晶片叢集比拚階段。未來要通過數萬顆國產晶片高效協同,實現算力質變。2、 能不能超越?超越正在進行時,中國晶片正迎來關鍵的趕超窗口。未來主要從製程、光刻機、核心原料三大環節突破。製程。我們仍在成熟製程(28nm及以上)向先進製程(14nm、7nm及以下)的爬坡中,比如等效7nm工藝需依賴DUV多重曝光,良率與成本均需要提升。光刻機。全球90%以上的光刻機市場被荷蘭和日本佔據。艾斯摩爾市佔80%,佳能、尼康佔15%。用於7nm以下製程的高端EUV光刻機只有艾斯摩爾能生產,國產28nm DUV光刻機已經實現突破,等待EUV研發破局。原材料。高純度矽片、光刻膠、特種氣體等基礎原材料仍依賴進口。比如日本信越化學、JSR壟斷的ArF光刻膠等。未來需要更多工業積累和研究突破。中國晶片產業正快速崛起。華為、寒武紀等本土晶片品牌快速發展,IDC資料顯示AI加速卡市場國內廠家滲透率突破40%;中興通訊的5nm製程ASIC完成流片、中芯國際步入先進製程良率和產能突破期。長期看,國產晶片必然從“能用”跨越到“好用又便宜”,憑藉產業鏈、規模化和成本優勢,複製新能源汽車和太陽能的奇蹟。中國芯重構全球格局,只是時間問題。3、 AI不是風口,是海嘯我從美國考察回來提醒:AI不是風口,是海嘯。DeepSeekV4與八大國產GPU適配,更低算力成本、更頂級性能。 算力國產化加速,這是國產GPU全面崛起最好契機。 前期預測:2026年超級應用大爆發,中國力量崛起。AI的背後是算力,算力的背後是電力。這是我們這代人最重要的機遇,人生發財靠周期。 (澤平宏觀)
無視所有參數!DeepSeek一句國產算力承諾,才是行業真正拐點!
在萬眾期待中,DeepSeek正式推出新一代旗艦大模型DeepSeek V4。超高的參數規模、百萬級超長上下文、全面升級的智能體能力,讓這場發佈會看點十足。但相較於亮眼的技術資料,官方一句“下半年全面切換國產算力”,才是本次發佈真正的重磅訊號,其價值遠超所有技術參數的發佈。長期以來,國內大模型產業始終深陷算力“卡脖子”困境。國內絕大多數AI模型的訓練與推理,高度依賴海外高端晶片,不僅供應隨時面臨政策風險,高昂的算力成本,也嚴重阻礙了大模型商業化落地與行業普及。打造自主可控的算力底座,早已成為中國AI產業發展的核心訴求。然而過去很長一段時間,國產算力受限於生態、性能等短板,難以承載兆參數級大模型的商用運行。眾多頭部模型廠商雖有心佈局,卻始終停留在小規模適配測試階段,遲遲無法實現規模化落地。DeepSeek V4的官宣,徹底打破了這一僵局。作為國內第一梯隊的開源大模型,DeepSeek官方明確表示,將在下半年依託成熟的國產算力,完成主力模型的全面遷移,並同步下調服務價格。同時,該模型已完成國產晶片平台的深度適配與性能驗證,證明國產算力完全可以支撐頂級大模型的商業運行。這一表態釋放出三重關鍵產業訊號。首先,國產算力技術已經迎來成熟拐點,不再是行業備選方案,正式具備商用替代能力;其次,頭部模型廠商的帶頭適配,將形成強大的頭雁效應,帶動整個行業加速向國產算力生態遷移;最後,中國AI產業正式進入海外算力與國產算力雙軌平行的新階段,算力自主化處理程序大幅提速。除此之外,全面切換國產算力,還將大幅降低大模型推理成本。成本的下降,能夠降低各行各業接入AI的門檻,推動大模型從高端技術實驗,走向千行百業的普惠應用。同時,也能從根本上規避外部斷供風險,築牢中國AI產業的安全防線。一場發佈會,耀眼的參數隻是技術的常規迭代,而擁抱國產算力的決定,才是改變行業格局的關鍵一步。DeepSeek V4的這份宣言,不僅是企業自身的戰略選擇,更是中國AI產業擺脫外部依賴、走向自主自強的縮影。可以預見,在頭部企業的引領下,國產算力生態將迎來爆發式增長。屬於中國AI算力自主可控的新時代,已然加速到來。 (向陽而生的南山)
DeepSeek-V4引爆國產算力,核心上市公司彙總
前言:轉折點,2023 年末美國限制高端 AI 晶片出口(A100/H100),倒逼國產算力加速替代,形成 "政策 + 市場 + 技術" 三重驅動格局。經過近幾年的發展,國產算力進入加速迭代周期。尤其是2026 年 4 月 24 日發佈的 DeepSeek-V4(含 V4-Pro 旗艦版和 V4-Flash 輕量版),對國產算力發展具有里程碑意義,核心催化作用體現在四個方面:1. 技術適配:全球首個兆參數 MoE 模型全鏈路國產算力適配芯模協同:與華為昇騰、寒武紀、天數智芯等國產晶片實現"Day 0 級" 原生適配,非簡單移植架構升級:採用DSA 稀疏注意力機制,token 維度壓縮,百萬上下文(1M)算力消耗僅為 V3.2 的 27%,KV 快取佔用降至 10%性能突破:昇騰950 通過融合 kernel 技術,推理速度提升超 35 倍,單卡性能達輝達 H20 的 2.87 倍,推理成本降至 GPT 的 1/102. 生態建構:打破輝達 CUDA 壟斷,加速國產算力生態閉環框架遷移:從CUDA 轉向華為 CANN 異構計算架構,重寫 40 萬個底層算子,重構通訊協議與平行框架開源賦能:適配程式碼開源至GitHub,推動 vLLM 等推理框架對國產晶片的支援,降低開發者門檻產業協同:華為雲MaaS 平台提供一鍵呼叫 API,昇騰 A3 超節點全面適配,形成 "模型 - 晶片 - 雲" 自主閉環3. 需求啟動:帶動國產算力規模化部署,加速替代處理程序高端場景驗證:兆參數大模型在國產算力上穩定運行,證明國產算力具備支撐頂級AI 應用的能力成本優勢:V4-Flash 輕量版推理能力接近 Pro 版,參數規模更小,大幅降低 AI 應用落地成本市場預期:下半年昇騰950 超節點批次上市後,V4-Pro 服務價格將大幅下調,進一步擴大應用規模4. 產業標準:樹立國產算力適配標竿,推動技術迭代性能基準:為國產晶片提供大模型適配性能參考,倒逼晶片廠商最佳化硬體架構與軟體棧生態聯盟:促進國產晶片、伺服器、軟體廠商形成協同,加速建構自主可控的AI 產業生態以下從產業鏈受益環節梳理出核心上市公司以供大家參考研究:一、AI 晶片 / 算力核心(替代彈性最大)1、寒武紀(688256):思元 590 對標 A100,邊緣計算市佔率 25%,率先完成 DeepSeek-V4 Day 0 適配,開源 vLLM 最佳化程式碼2、海光資訊(688041):國產 DCU 龍頭,深算二號對標 AMD MI300,深算系列適配 V4,x86 CPU+DCU 雙輪驅動,繫結百度字節3、華為昇騰(未上市):950/910B 晶片性能接近 H100,CANN 生態成熟,與 DeepSeek 深度協同,超節點全系列支援 V4,推理性能領先4、沐曦股份(688802):高端訓練晶片,MX1 系列對標 H100,適配 V4,受益國產算力訓練需求爆發二、AI 伺服器 / 超節點(算力載體,需求放量)1、中科曙光(603019):國產超節點領軍者,全球首個單機櫃 640 卡超節點,搭載海光 / 寒武紀晶片,適配 V4 大規模部署2、工業富聯(601138):AI 伺服器絕對龍頭,CPO 全光交換機量產,為國產算力提供高密度伺服器,受益超節點放量3、浪潮資訊(000977):國內伺服器龍頭,網際網路客戶基礎深厚,國產算力伺服器核心供應商,出貨量領先4、紫光股份(000938):乙太網路交換機核心供應商,提供算力網路關鍵裝置,支援超節點互聯三、光模組/ CPO(算力傳輸,高景氣賽道)1、中際旭創(300308):全球光模組龍頭,800G/1.6T 份額第一,國產算力叢集高速互聯核心供應商,2026 年 Q1 淨利潤增 262%2、光迅科技(002281):央企光晶片 + CPO 龍頭,自主光晶片降低成本,適配國產算力高頻寬需求3、華工科技(000988):800G/1.6T 光模組量產,受益國產算力資料中心建設,CPO 技術領先四、算力服務/ IDC(需求落地,長期受益)1、潤澤科技(300442):全國最大 AIDC 營運商,六大區域佈局,提供國產算力基礎設施,受益 "東數西算" 與 V4 應用落地2、光環新網(300383):核心城市算力龍頭,機櫃超 23 萬個,國產算力租賃服務,繫結頭部 AI 企業五、其他關鍵配套(PCB、介面晶片等)1、勝宏科技(300476):AI 伺服器 PCB 龍頭,高頻高速板技術領先,單價為普通 PCB 5-8 倍,AI 業務佔比提升至 35% 以上2、瀾起科技(688008):記憶體介面晶片龍頭,DDR5 技術領先,國產算力伺服器記憶體核心供應商,受益記憶體頻寬提升需求總結與展望:DeepSeek-V4 的發佈標誌著國產算力發展進入芯模協同、生態閉環的新階段,不僅驗證了國產算力支撐頂級 AI 應用的能力,更將加速國產替代處理程序,推動算力產業鏈從 "單點突破" 向 "全鏈崛起" 轉變。未來1-2 年,國產算力將在訓練晶片性能提升、生態適配完善、成本持續下降三大驅動力下實現爆發式增長,產業鏈上下游企業將迎來業績與估值的雙重提升。風險提示:技術進展緩慢,資本開支縮減,海外晶片出口限制解除。 (預見預研)
人在上海,追芯成功
大模型下半場,國產AI晶片如何創新?都在這場大會裡了。智東西9月17日報導,今日,2025全球AI晶片峰會在上海舉行,來自AI晶片領域的42位產學研專家及創業先鋒代表,暢談對大模型下半場中國AI晶片創新、落地、生存、破局的最新觀察與思考。一如既往,大會將國產AI晶片新老勢力、核心生態鏈企業、投資機構代表匯聚一堂,集中輸出技術及產業乾貨,全景式解構AI晶片熱門發展方向。本屆峰會由智一科技旗下智猩猩與芯東西共同舉辦,以“AI大基建 智芯新世界”為主題,由主論壇+專題論壇+技術研討會+展覽區組成,覆蓋大模型AI晶片、架構創新、存算一體、超節點與智算叢集技術等前沿議題。AWE同時也是本次峰會的戰略合作機構。值得一提的是,多家AI晶片企業在會上放出猛料。例如,幾位資深投資人分享投資AI晶片企業所看重的條件,一家超節點創企成立幾個月就融資六七億,雲天勵飛正在研發新一代NPU Nova500,華為昇騰將在12月把CANN全量開源,曦望Sunrise下一代晶片的大模型推理性價比對標輝達Rubin GPU。在展覽區,超摩科技、奎芯科技、特勵達力科、Alphawave、芯來科技、Achronix、曦望Sunrise、矩量無限、AWE、晶心科技、芯盟科技等11家展商進行展示。▲展覽區一隅作為主辦方代表,智一科技聯合創始人、CEO龔倫常發表致詞。從2018年3月至今,全球AI晶片峰會共邀請了超過180位產學研大咖,分享行業趨勢與洞見,已成為AI晶片領域唯一一個持續舉辦且具有廣泛影響力的產業峰會,也是瞭解國內外AI晶片動態的重要窗口。▲智一科技聯合創始人、CEO龔倫常龔倫常還預告了將於今年11月底在深圳舉辦的2025中國具身智慧型手機器人大會,歡迎大家參會交流。註:本文整理了主論壇與大模型AI晶片專題論壇的精華總結。更多相關報導將在後續發佈。01.IEEE Fellow王中風教授:解讀AI晶片三大前沿方向應對模型規模“超摩爾”增長、傳統架構“記憶體牆”、應用場景日趨多元化三大挑戰,中山大學積體電路學院院長、IEEE/AAIA Fellow王中風教授探討了AI晶片設計的三大前沿方向,為行業的發展提供了寶貴的見解和指導。一是模型驅動的高效晶片設計,在模型尺寸增長的趨勢下,讓硬體深度適配AI模型特性,而非讓模型發展受限於硬體資源。王中風教授團隊提出的Transformer硬體加速架構設計工作,是首個完整解決Attention計算加速挑戰的方案,獲得了IEEE 2020年片上系統年會(SOCC)最佳論文獎;N:M稀疏Transformer推理加速框架,可快速實現任意N:M稀疏比例的Transformer模型開發和硬體部署,同時能保持精度穩定;粗粒度-細粒度混合精度量化,搭配專用多核加速器來處理差異計算,能夠實現更靈活的調度。二是應用驅動的AI晶片創新,注重模型的落地與應用,兼顧能效和靈活性的探索。架構創新沒有唯一解,只有更合適的解。結合可重構硬體架構(動態適配不同演算法需求)、領域專用架構(在垂直場景實現超過通用架構的能效)、Chiplet等先進封裝技術(提高設計靈活性、降低成本、縮短上市周期),以應用驅動為核心的AI晶片設計,將是未來值得重點探索的研究方向。三是基於存算一體的晶片設計,從存算架構根源降低能耗,平衡性能與功耗。存算一體架構是晶片設計範式轉移的一個重要方向。數字存算架構的優勢是高精度、高穩定性、生態更成熟,但存在高能耗、高硬體開銷、低儲存密度等問題;模擬存算架構具有低能耗、高儲存密度、低硬體開銷等優勢,但精度較低、對工藝要求高、生態不成熟。王中風教授團隊研究的基於SRAM的數字存內計算架構大模型加速器,支援多種資料精度,相比於傳統馮諾依曼架構,能效比可提升數十倍。上述三條路徑並非孤立,而是相互支撐,共同推動AI晶片從“通用適配”走向“精準定製”。▲中山大學積體電路學院院長、IEEE/AAIA Fellow王中風教授王中風教授總結說,當前AI晶片發展呈現三大關鍵趨勢:一是從通用計算走向領域專用的“專用化”,二是演算法與軟硬體共同進化的“協同化”,三是通過新型計算打破性能瓶頸的“一體化”。以AI計算專用架構SRDA(系統級極簡可重構資料流)為例,通過分佈式3D記憶體控制技術、可重構資料流計算架構、系統級精簡軟硬體融合設計等創新,在大模型智算場景可以大幅提升AI算力利用率與性能,驅使未來基於國產工藝的AI算力晶片也可以實現不亞於國外更先進工藝製程的GPGPU性能。下一代計算範式的發展,首先是軟體、演算法、硬體的共生,實現全環節協同進化;其次是實現無處不在、高效且可信的智能計算,在雲端實現支援AGI訓練的巨型超算系統,在邊緣實現自主機器人的即時決策大腦,在端側實現超低功耗的Always-On感知晶片。此外,高效支援智能計算,還需要促進新興技術融合,實現光子計算、量子計算、AI晶片的潛在結合。王中風教授呼籲開放標準,推動介面、互聯、指令集等的開放,降低創新門檻;注意產學研深度合作,共同攻克量智融合、存算一體、新材料、新工藝、新器件等領域的技術難題;注重人才培養,培養兼具演算法、架構、底層電路及軟體開發等技能的交叉型人才。02.高端對話:大模型下半場引爆國產算力,AI晶片IPO潮將更具想像高端對話以《⼤模型下半場,中國AI芯⽚的破局與突圍》為主題,由智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁主持,和利資本合夥⼈王馥宇、普華資本管理合夥⼈蔣純、BV百度風投董事總經理劉⽔、IO資本創始合夥⼈趙佔祥四位嘉賓進行分享。張國仁談道,大模型的下半場不僅是技術競賽,更是生態競爭,期待中國即將誕生“晶片+場景+演算法”的垂直整合者,出現更多的單項冠軍。▲智一科技聯合創始人、智車芯產媒矩陣總編輯張國仁1、DeepSeek擴大算力池後,投資AI晶片企業看什麼?王馥宇認為,DeepSeek的出現意味著中國出現了“Leading Customer”,好的科技公司會向晶片公司提出需求。蔣純進一步補充道,DeepSeek最大的意義是讓中國有了一套自有大模型體系,讓國產晶片有了用武之地。這些資深投資人會傾向於投資什麼樣的AI晶片團隊?幾位投資人均看重企業的技術路線是否收斂。趙佔祥尤其關注技術路線是否有提升及創新。劉水提到百度風投不單純以商業化衡量項目價值。蔣純說:“小孩子才做選擇,成年人我都要。”他表示成熟技術和創新技術都在投資。王馥宇將市場分為兩類,一類是相對確定的市場,考驗團隊的積累和執行力,第二類是靠技術驅動市場發展。展望晶片企業的未來機遇,蔣純認為,碳基文明被矽基文明取代之前,算力的市場機會看不到頭,市場前景無窮大,現在的技術體系並不是終局。2、一家超節點創企,成立幾個月融資六七億王馥宇稱,很多大廠同樣在建構非全家桶方式的網路架構,未來百花齊放,企業要保持開發、敏感。在蔣純看來,對中國企業面臨的現實情況而言,“小米加步槍”的scale out路線和超節點所代表的scale up路線至少是同樣重要。趙佔祥透露,IO資本最近在看的一個超節點創業公司,成立幾個月就融資六七億,但在超節點機遇背後,網路的可靠性、故障率要求仍面臨挑戰。BV百度風投曾投資不少具身智能企業。據劉水分享,具身智能是個新興賽道,晶片作為核心硬體支撐,目前還在迭代期,真正能完美匹配各類複雜物理互動場景的成熟晶片產品,行業內仍在探索。現階段,很多企業選擇x86 CPU加AI晶片的組合來搭建基礎算力平台,這是行業在技術演進過程中非常自然的過渡性選擇,能快速驗證產品邏輯、跑通初步場景。而這種 “過渡性” 也正是產業的機會所在——未來無論是更適配具身特性的專用晶片研發,還是基於現有硬體的算力效率最佳化,只要能解決實際場景中的痛點,就是產業發展的機會點。3、寒武紀一度登頂A股,“寄託了全村人的希望”幾位投資人雖然主要看一級市場,但也聊到對二級市場的觀察。他們普遍認為,接下來要IPO的AI晶片公司會比登陸2019年科創板的那批國產替代概念晶片公司更有想像力。今年,寒武紀一度超越貴州茅台登頂A股“股王”。在蔣純看來,寒武紀的暴漲背後可能“寄託了全村人的希望”。與上一波晶片企業上市潮相比,當時國產替代概念市場有限,但現在AI市場的需求是無限的。劉水補充說,AI需求正為計算基礎設施建設注入強勁動力。當前,不少國產晶片企業積極推進IPO處理程序,這本身是行業加速成長的體現——借助資本市場的力量,企業能更好地投入研發、擴充產能,為技術突破和規模化交付奠定基礎。不過,上市只是發展的新起點,最終能否站穩市場,關鍵仍在於技術的成熟度、產能的穩定供給以及客戶的深度認可。從長遠來看,企業需要以持續的技術創新和紮實的商業化能力,真正實現產業價值與市場價值的同步兌現。03.瞄準大模型高效推理,做好生態開源開放面向持續爆發的大模型推理需求,如何在晶片架構、開源開放、高速互連、超節點等方向探索創新?在上午主論壇期間,來自雲天勵飛、華為昇騰、行雲積體電路、奎芯科技、探微芯聯、新華三的產業嘉賓分別發表主題演講,分享了他們的觀察與思考。1、雲天勵飛陳寧:國產AI推理晶片迎歷史性機遇雲天勵飛董事長兼CEO陳寧談道,在“政策+需求”雙重驅動下,國產AI推理晶片正迎來絕佳發展機遇。根據灼識諮詢報告,中國NPU市場規模短期預計新增規模339.3億元,長期預計新增規模1092億元。高效Token生成是衡量推理晶片性價比的關鍵指標。11年來,雲天勵飛已研發五代NPU,打造相關指令集、專用算子、存算一體架構、低位元混合量化等晶片硬體技術。其“算力積木”架構是基於國產工藝的D2D Chiplet & C2C Mesh大模型推理架構,具有可擴展性強、靈活性強、即時性高等特點。雲天勵飛提供“深穹”、“深界”、“深擎”三大AI推理晶片系列,分別面向大模型推理算力中心/超節點/一體機/加速卡、邊緣閘道器/邊緣盒子/家庭主機、及機器人/無人機/無人車等AI推理等應用。目前,雲天勵飛正在研發新一代NPU Nova500,並基於Nova500推出多款性能更強的AI推理晶片。▲雲天勵飛董事長兼CEO陳寧2、華為昇騰王曉雷:公佈全面開放原始碼的三個關鍵節點華為昇騰處理器產品總經理王曉雷談道,輝達的軟體開發人員是硬體的兩倍,我們作為生態的後來者,要做好開源開放,跟客戶與夥伴一起,把晶片和解決方案做得更好。晶片方案多種多樣,如何把它用好,是一件非常複雜的事情。AI計算領域,矩陣執行過程需要保證資料到位,而整個資料搬移過程是計算最佳化的核心。處理器跟底軟團隊需要與演算法和業務專家聯合最佳化,才能發揮出處理器的高性能。王曉雷現場公佈了昇騰未來進一步全面開放原始碼的關鍵節點,包括9月30日算子庫全部開源、12月30日CANN全量開源、2026年起解決方案配套產品上市即開源。▲華為昇騰處理器產品總經理王曉雷3、⾏雲積體電路季宇:10萬元跑滿血版DeepSeek⾏雲積體電路創始⼈&CEO季宇拋出一個問題:誰困住了AI產業?他的答案是大型機投資回報率。超節點化、大型機化的成本門檻巨大,但隨著大模型記憶體需求接近DDR/LPDDR的甜點,高品質模型的硬體系統平民化曙光已現。其概念原型產品大模型一體機“褐蟻”採用5090級算力+TB級高頻寬DDR5,能以10萬元成本運行DeepSeek R1/V3 671B FP8,對話速度超過20TPS,20K上下文prefill在18秒以內。叢集概念驗證方案“蟻群”可將超過40台“褐蟻”機器組合作為decode節點,prefill節點採用4根SSD替代DDR,總成本為300萬~500萬元,以約1~2台8卡超算的價格,實現20倍於1~2台超算的並行能力,提供接近DeepSeek公有雲的性價比。行雲希望通過其原型概念產品,呈現DDR/Flash滿足大模型推理需求的潛力,並通過晶片產品,將頂配大模型的硬體成本降低到萬元甚至千元級價位,推動AI普惠。▲⾏雲積體電路創始⼈&CEO季宇4、奎芯科技唐睿:Chiplet將加快國產晶片研發當前AI革命與過往網際網路產業有明顯差異,利潤高度向硬體環節傾斜。奎芯科技聯合創始⼈兼副總裁唐睿談道,隨著模型尺寸不斷變大,算力需求飆升,為了爭奪AGI領域的勝利,科技企業的CAPEX大幅增長且逐漸取代OPEX成為主流趨勢。AI領域存在晶片設計周期遠跟不上算力及模型發展需求的矛盾。在唐睿看來,基於Chiplet的設計能加快晶片研發迭代。2021年-2030年處理器預計研發項目數量年化增長約9%,但基於Chiplet的設計年化增長率高達44%,預計2030年佔比超一半。對此,奎芯打造了基於UCle標準介面IP的國產化完整解決方案,研發了兩代UCle IP,第一代為16GT/s,第二代為32GT/s,且在標準封裝實現。這些IP具有高性能、低功耗、靈活性等優勢,能為晶片快速迭代提供支援。▲奎芯科技聯合創始⼈兼副總裁唐睿5、探微芯聯劉學:國產超節點如何實現異構互聯?探微芯聯創始人、清華⼤學類腦計算研究中心劉學分享說,類腦計算與AI同源異流,天生具備超大規模計算系統的通訊基因,與智算超節點的發展趨勢十分吻合。探微將類腦叢集技術遷移至GPU智算平台,打造面向AI晶片的Scale-up完整互聯方案,實現了覆蓋通訊協議、交換晶片/網內計算、軟體棧/集合通訊庫、RAS機制與可維護機制、路由演算法、超節點平台、性能建模和異構互聯等關鍵技術。不過,劉學認為,超節點通訊不只是技術堆疊。通訊協議具有較強生態屬性,需要廣泛的應用場景和生態支援才能推廣。從類腦叢集體系結構的大量工程經驗積累,到探微通訊互聯關鍵技術的不斷迭代,探微方案實現從底層到高層的計算和通訊的全方位打通,能夠為智算超節點生態夥伴提供Scale-up通訊協議系統級解決方案、異構融合及智算超節點萬卡叢集工程方案。▲探微芯聯創始人、清華⼤學類腦計算研究中心劉學6、新華三劉善⾼:超節點是AI系統工程巔峰新華三集團AI伺服器產品線研發部總監劉善⾼談道,大模型技術趨勢給算力基礎設施帶來了算力牆、視訊記憶體牆、通訊牆等挑戰,打造AI超節點成為必然趨勢。這需要異構計算協同最佳化、高速網際網路絡、精密結構設計等基礎設施的深度整合,對軟硬協同要求高,是AI系統工程的巔峰。新華三設計了兩款超節點產品:整機櫃超節點H3C UniPoD S80000和靈活部署超節點H3C UniPoD F80000。S80000實現櫃內卡間全互聯通訊,互聯頻寬提升8倍,單機櫃訓練性能相較於單節點最高可提升10倍,單卡推理效率提升13倍;F80000基於傳統AI伺服器即可靈活擴展Scale-up網路,能夠實現MoE大規模訓練性能提升35%以上。未來,AI加速卡將更加百花齊放,高頻寬低延遲的卡間高速網際網路絡也將是必然趨勢。▲新華三集團AI伺服器產品線研發部總監劉善⾼04.資料流、低精度、稀疏化、全國產、Chiplet,AI晶片走向多路創新在下午的大模型AI晶片專題論壇上,上海交通大學電腦學院教授、上海期智研究院PI冷靜文分享了資料流體系架構如何成為新一代的大模型加速引擎。隨後,來自曦望Sunrise、愛芯元智、墨芯人工智慧、江原科技、邁特芯、智源研究院、北極雄芯、Alphawave的產業嘉賓分別發表主題演講,分享創新的技術路徑與最新進展。1、上海交通大學冷靜⽂教授:資料流能提高大模型推理效率上海交通大學電腦學院教授、上海期智研究院PI冷靜文認為,資料流體系架構是大模型高效執行研究的重要方向,它通過數值壓縮與計算流調度的最佳化,提升推理性能。低位寬數值類型可顯著降低儲存開銷,提高計算效率;而向量量化有望幫助大模型突破4bit的表示極限。冷靜⽂教授團隊研發了面向多元素量化的計算引擎VQ-LLM,通過三級快取機制和以碼本為中心的計算流程最佳化,實現性能與精度的雙重提升。新一代GPU架構正在逐漸DSA化,程式設計難度不斷增加。其團隊已經在探索一種“Kernel Free”的程式設計模型、用“Register Pooling”降低共用記憶體帶來的開銷,並使用動態平行機制,最終形成基於程式碼塊的資料流抽象機模型。項目成果未來將開源發佈。▲上海交通大學電腦學院教授、上海期智研究院PI冷靜文2、曦望陳博宇:國產AI晶片破局,極致推理目標1分錢/百萬Token曦望Sunrise研發副總裁陳博宇認為,大模型發展進入下半場,雲端訓練算力向高效推理傾斜。AI晶片高效推理是一場長期價值競賽,降成本、降能耗,性價比的窪地亟待填平。曦望的下一代晶片採用單晶片高配比低精度計算單元,大模型推理性價比對標輝達Rubin GPU。在主流測試集中,NVFP4精度下運行DeepSeek-R1的表現已接近FP8,低精度資料格式能顯著擴巨量資料吞吐,提升推理效率,從而降低每Token成本。曦望晶片軟體生態通用性良好。算子庫、工具鏈、通訊庫均為全端自研,主體功能模組與CUDA對齊,支援各類主流開源模型的推理部署,支援CUDA程式碼無縫遷移和工作。曦望晶片的應用形態分為一體機和超節點,是Scale-up/Scale-out互聯架構原生支援超節點產品。超節點支援PD分離和大EP部署、All-to-All互聯、面向千億級或兆級參數的多模態大模型推理。▲曦望Sunrise研發副總裁陳博宇3、愛芯元智劉建偉:AI應用(大模型)需要重新設計原生AI晶片愛芯元智聯合創始⼈、副總裁劉建偉分享道,過去端側AI晶片主要跑傳統CNN模型,場景明確,大模型的興起則提升了AI上限,應用場景更廣泛,有望引發成本驅動型生產力革命。在他看來,當AI程序規模足夠大時,現有運行架構不是最高效的,值得重新設計適合跑AI程序的原生處理器。端側和邊側長期受成本、功耗剛性約束,對高能效比AI處理器需求迫切。這驅使愛芯元智選擇從端側和邊緣側入手做AI基建。設計原生AI處理器,需關注算子指令集和資料流DSA架構,兩者相輔相成。採用可程式設計資料流微架構可提升能效比。異構多核處理器要保證由硬體來調度,以降低客戶開發與使用成本。愛芯元智已打造了從工具鏈到晶片的完整軟硬體體系,推動建構邊緣智能共同體。▲愛芯元智聯合創始⼈、副總裁劉建偉4、墨芯人工智慧曾昭鳳:稀疏化讓AI計算“更聰明”墨芯人工智慧解決方案總監曾昭鳳談道,傳統硬體架構面臨性能提升困境,通過軟硬一體方案來解決算力瓶頸已是業內公認的發展方向,稀疏化有望成為破解算力瓶頸的突破口。稀疏計算是一種“更聰明”的AI計算方式,如人類大腦一般,僅啟動計算所必需的神經元,減少冗餘重複,提升有效性能。基於這一認知,墨芯提出了“權重稀疏化+啟動稀疏化”的雙稀疏技術,在相同硬體資源下實現高達32倍的稀疏率,並協同設計了配套的軟體方案。從演算法與軟體出發,墨芯打造了相應的硬體與架構,開發的計算卡已能在雲端推理場景中加速CV、NLP及知識圖譜等多類任務。▲墨芯人工智慧解決方案總監曾昭鳳5、江原科技王永棟:建構全國產化AI晶片產業鏈江原科技已建構貫通EDA工具、晶片IP、晶片設計、晶片製造、封裝測試的全國產化AI晶片產業鏈。江原科技聯合創始⼈兼CTO王永棟認為,全國產路線已經成為行業共識,核心挑戰集中在工藝和生態上。他從工藝、架構、生態層面探討了國產晶片的突圍路徑。工藝維度,國內AI晶片企業唯一的道路就是擁抱全國產,具體路徑包括基於國內工藝特點進行協同最佳化、系統整合創新。架構維度,需要向AI定製傾斜,通過拆解AI演算法將其中佔比高、對效率影響大的部分進行硬體最佳化。生態維度,從降低客戶使用門檻、發揮本土化優勢打造性能長板、擁抱開源切入。▲江原科技聯合創始⼈兼CTO王永棟6、邁特芯李凱:突破端側大模型晶片三個關鍵痛點在邁特芯主任工程師李凱看來,端側AI場景正從“離身智能”向“具身智能”進化,這離不開端側晶片的支援。端側大模型晶片(LPU)需要滿足低功耗、高token數、低成本,這正是痛點所在。邁特芯LPU採用的3D-DRAM解決方案可大幅提升頻寬,以滿足端側大模型需求。該方案採用了針對大模型算子最佳化的DSA設計和自研立方脈動陣列架構,基於多項技術最佳化,實現計算利用率和記憶體頻寬利用率最大化。演示中,基於邁特芯LPU推理卡可實現大語言模型端到端部署,頻寬利用率75%、性能75tokens/s,性能和能效達到國際領先水平。邁特芯針對泛端側大模型硬體產品、端側大模型硬體產品和推理一體機三類場景佈局產品,三個市場的總空間可達兆級。▲邁特芯主任工程師李凱7、智源研究院鄭楊:統一編譯器給OpenAI Triton語言補短板北京智源⼈⼯智能研究院AI編譯器專家鄭楊分享說,OpenAI的Triton語言已成為業內公認的、繼CUDA後第二大流行的AI算子開發語言,但其也有明顯弱勢:需要在開發效率和性能之間權衡,跨晶片的可移植性和性能不足,治理與生態面臨侷限性,以及版本分散等。為此,智源建構了面向多元AI晶片的統一編譯器——FlagTree。FlagTree基於硬體感知進行了編譯指導最佳化,允許程式設計師通過註釋嵌入硬體最佳化提示flagtree_hints,具有使用成本低、生態相容好、可移植性強等特點。同時,該編譯器在C++執行階段進行了最佳化,提供從C++呼叫Triton核心的方法,從而節省Wrapper耗時,整體降低80%以上,與CUDA接近。▲北京智源⼈⼯智能研究院AI編譯器專家鄭楊8、北極雄芯徐濤:大模型推理落地有效降本迫在眉睫截至2025年6月,中國日均tokens消耗量突破30兆,比2024年增長300+倍,且依然處於高速增長期。而大模型應用商業化閉環任重道遠,一方面C段訂閱付費較難,B端API呼叫收費與美國相比有數量級的差距,另一方面國內算力成本並不優於美國。北極雄芯聯創、副總裁徐濤談道,當前中國大模型應用落地商業化,解決成本問題至關重要。而受制於各類制裁,面對高速增長的算力、儲存容量、記憶體頻寬的“不可兼得三角”,國內上下游企業亟需共同開展架構創新。在雲端推理場景,北極雄芯將在近期推出面向Decode環節的專用加速方案,通過Chiplet+3D堆疊的近存計算技術大幅降低推理成本至少一個數量級,相比主流GPU晶片提升10倍以上性價比。在端側AI領域,北極雄芯的啟明935系列芯粒通過Chiplet靈活組合應用,為主機廠提供AI Box、艙駕一體、高階智駕等不同擋次應用的解決方案。▲北極雄芯聯創、副總裁徐濤9、Alphawave鄧澤群:高速連接市場猛增,Chiplet是變革路徑Alphawave戰略客戶銷售經理鄧澤群談道,高速連接的市場規模2023年接近100億美元,預計2026年接近180億美元,年複合增長率達到20%。這背後的推動力就是資料中心建設,其對資料的傳輸、儲存、處理需求爆炸,資料頻寬每2~3年翻一倍。生成式AI正在重新定義計算和連接。他預測ChatGPT背後下一代模型的參數規模或達到百兆等級,促使雲服務商建設更高規格的資料中心。鄧澤群認為,新計算技術的變革路徑是Chiplet,以及為雲服務商進行定製,以滿足大語言模型的需求。伴隨AI產業發展,Alphawave的業務體系已經從IP供應擴展到高速連接技術的垂直整合方案。▲Alphawave戰略客戶銷售經理鄧澤群05.結語:國產AI晶片掀開落地新篇章8年來,智東西、芯東西持續對AI晶片全產業鏈進行追蹤報導,見證了AI晶片產業及智能革命浪潮的發展,以及許多AI晶片團隊的厚積薄發。多個知名市場調研機構的資料顯示,2024年中國AI晶片出貨量顯著提升,華為昇騰、阿里平頭哥、崑崙芯、寒武紀、摩爾執行緒、燧原科技、中昊芯英、壁仞科技、沐曦股份、太初元碁等企業的AI晶片均已走向量產交付,並在性能方面縮短與國際先進水平的差距。龐大的國內AI基建市場,正向國產AI晶片敞開大門。與此同時,國產AI晶片正迎來政策紅利期。今年8月,國務院印發《關於深入實施“人工智慧+”行動的意見》,在強化基礎支撐能力方面,提到強化智能算力統籌,支援AI晶片攻堅創新與使能軟體生態培育,加快超大規模智算叢集技術突破和工程落地。在AI產業趨勢、地緣博弈等複雜因素的影響下,AI晶片自主可控勢在必行,國產模型與國產晶片的適配有望進一步增強,AI晶片及算力基礎設施技術仍有巨大的創新空間和市場前景。 (智東西)