中國的算力晶片領域,正在悄然發生變化。
在2025年華為全連接大會上,華為發佈了多款重磅晶片新品,包括昇騰950系列、960以及970等AI晶片,並公佈了未來三年的昇騰AI晶片產品路線圖。
其中,950系列採用了兩個不同的後綴——PR(Prefill & Recommendation,預填充與推薦)、DT(Decoder & Training,推理解碼與訓練)。
傳統AI晶片在處理大模型推理時面臨資源爭搶問題,而在網際網路平台企業中,其推薦演算法推理模型所需的記憶體容量也巨大。如何在算力、記憶體容量和記憶體頻寬之間取得平衡,是提升投入產出比的關鍵。
華為的“P/D分離”設計就是嘗試通過為不同應用場景配置不同的算力、記憶體容量和頻寬來實現這一目標。
這種設計正是針對中國AI市場面臨的現實挑戰:能夠運行DeepSeek滿血版幾乎成為國內衡量AI計算系統的試金石。然而,要承載671B的參數,僅僅是採用不同版本Memory這一項的成本差異就可達數萬美金。
可以說,中國AI產業的市場化需求,倒逼了國產晶片的產品創新。
從產品角度看,發佈會上的這一最大看點,也是一個強烈的行業訊號:
1)以DeepSeek為代表的應用與基礎模型產業方,在持續不斷且深度推動著中國AI晶片的發展;更進一步,受益於中國龐大的資料中心基礎設施規模與未來需求,“華為-海光-其他”的生態格局基本形成;
2)時代亟需一個具備技術背景、但又對市場應用嫻熟於心、同時又具有平衡取捨之道的產品經理人才梯隊;
3)AI產業的繁榮與領先,是AI晶片突破與創新的前提。
從近期華為主動發出的訊號,以及作者作為多年從業者獲得的行業資訊,華為的產能約束基本上得到了緩解。
資料中心的三大基石是計算、通訊(網路互連)和儲存,這是分析算力系統必須牢記的前提。在AI算力系統中,影響計算性能的,也可以劃分為三個部分,設計算力值、計算(算力)核之間高速互聯以及儲存頻寬。
在《軟銀投資20億,英特爾成為全球高端製造業最大變數》中,筆者曾經提到算力的大小和工藝製程強相關,而這種高端工藝製程的主要體現就是Fab的高端產能與先進封裝。
為華為提供類CoWoS封裝的企業,今年已經出現產能盈餘並向外釋放,說明在7nm節點附近,華為的需求已基本得到滿足。
再來看高速互聯。
WAIC期間,超節點是AI基建的重頭戲。其中,華為的CloudMatrix384成為了亮點,它的顯著特徵是其點對點、全互聯、超高頻寬的網路,通過 UB 協議連接所有的 NPU 和 CPU。
CloudMatrix384通過Ultra-High-Performance Networking實現了 CPU、NPU、記憶體、網路卡(NICs)以及其他資源的完全點對點解耦與池化,其點對點硬體架構,包含用於超節點內擴展的超高頻寬統一匯流排(UB)、用於超節點間通訊的 RDMA ,以及用於與資料中心網路整合的虛擬專有雲(VPC)。這再次證明,通訊技術本就是華為的核心優勢。
再來看記憶體頻寬。
華為本來在通訊領域有深厚積累,可以說高速互聯技術是華為的“老本行”。
再來看記憶體頻寬。
這次的發佈會上,華為發佈了950、960、970系列產品,其中最為引人注目的950系列推出了兩個版本,從應用上看這標誌著PD分離在硬體層面的解偶,但從結果來看,記憶體頻寬也跟了上來。
計算、高速互聯與儲存頻寬這些硬體上都有了大的突破,產能問題得到解決的華為,需要攻克的下一個堡壘就是產品的生態了。
2022年,當業內開始注意到CUDA生態之於輝達的意義時,建構生態似乎成了老生常談。
生態的本質是生意。
intel建構了X86生態,輝達建構了CUDA生態,那怕蘋果、小米、騰訊都有各自的生態。其共同點,正是依附於這一生態中的每一家企業、機構、開發者,都可以在其中找到自己的生態位、並在其中商業變現、進而獲利。
總不能指望,當一家企業舉起了生態大旗,就有許多企業不求回報地進行資源的投入。無利不起早,才是商業世界的常態。
具有生意(潛力)是生態建立的基礎。
那麼,傳統的華為可能就面臨著(也在進行著)模式的轉變,從封閉到開放,從肥水不流外人田到利益共享。Intel和輝達作為帶頭大哥走過的路,華為也要走一遍。
這條路上華為並不孤獨,因為還有,海光。
地緣政治的風險裡,孕育了自主可控的機遇。作為技術國產化成功的典範,海光憑藉X86架構的優勢,其CPU在信創領域和國產化市場中所向披靡。隨著資本的積累日漸豐盈,其技術實力與產品涉足領域也與日俱增。除了CPU之外,AI算力晶片、RAID Controller、高速網路晶片也日漸成熟,在資料中心的重要晶片上,海光在一步步地攻城略地。
2025年5月下旬,海光宣佈將會合併曙光。而在更早,這兩家兄弟公司已經在生態層面開始協同,重新對旗下各家企業進行定位,通過讓渡市場的措施,實現同國內伺服器廠商和其他產業鏈上企業的合作,建構系統層面的生態。
可以說,“華為-海光-其他”的格局基本形成。
基於這個觀察,可以進一步推演:
上文提到,本次發佈的950系列之所以受到關注,核心就在於其PR和DT兩個不同型號,這正是業界探索已久的“P/D分離”。
這又是一個類似於DeepSeek發佈時的解碼遊戲。
為瞭解釋清楚這個概念,需要看一下大模型的演進路程和中國AI算力面臨的實際挑戰。
大模型的參數量是從Billion(十億)等級起跳,百億千億是常態,直至兆級規模。這些參數需要容量非常大的空間進行儲存,且由於計算時需要極高速訪問這些儲存器,就需要極高的頻寬。這就催生出了HBM這種既有大容量又有高頻寬的新型儲存器。
在進行計算時,算力的大小也決定著計算的效率,因此一顆AI晶片的目標設計算力也會做得儘量大。
然而,很少有產品經理在設計中深入思考算力與儲存頻寬的最佳配比關係。畢竟,除了輝達和Broadcom為大平台訂製的AI晶片之外,能用起來已經是了不起的存在了。
但是,一個現實問題是,HBM的成本實在是太貴了,單GB容量的HBM是DDR的近乎10倍、甚至更高。對於中國的AI晶片公司來說,不僅成本壓力大,而且想要獲得足夠的產能、甚至是穩定的供應都是一個挑戰。
一個優秀的產品經理、架構師,之所以稱為合格、優秀,就是要會最佳化、取捨,Trade-Off。做好最佳化與取捨的前提,是要對應用場景有深刻的理解與洞察。
在AI的應用場景中,對資源需求最高的的,除了模型的訓練過程,一個是大家耳熟能詳的大語言模型,一個是每一家網際網路公司的主要利潤來源——推薦演算法。
在大模型推理中,常用以下兩項指標評估性能:
當 Prefill 和 Decode 在同一塊AI晶片上執行階段,由於兩階段的計算特性差異,會導致 TTFT 和 TPOT 之間的資源爭搶。若優先處理 Prefill 階段以降低TTFT,Decode 階段的性能(TPOT)可能下降。若選擇提升 TPOT,則會增加 Prefill 請求的等待時間,導致 TTFT 上升。
這次華為的兩個型號,採用不同的記憶體容量和記憶體頻寬,應該是採取了PD分離思路,正是為了打破這一矛盾。
可以運行DeepSeek滿血版,幾乎成為國內衡量一個AI計算系統的試金石。
然而,要放得下671B的參數,僅僅是採取不同版本HBM這一項的成本差異就可達數萬美金。而在網際網路平台企業中,其推薦演算法推理模型所需的記憶體容量也頗為巨大。如果可以在算力、記憶體容量和記憶體頻寬間取得最佳化、取捨與平衡,投入產出比(ROI)就會提高。
時代呼喚專業的AI晶片產品經理。
事實上,在國內的晶片企業中,真正具備產品經理經理能力的人才非常稀缺。在曾經晶片主要還是由外企壟斷的時代,一家晶片企業的Product Marketing 或 Product Line Manager是產品線的核心管理崗位,一般是由在總部的極少數人擔任,隨著中國市場的需求和美國出現了一定程度的不同,才有中國大陸人逐步躋身這一崗位。
而在中文語境下,“市場經理”常被理解為負責市場傳播(Marcom)或市場推廣(Business Development)的角色。在今天的國內AI晶片企業中,目前仍然是研發崗在定義產品。
從DeepSeek的滿血版提出的要求,到FP8資料精度的國產化需求,直至這次P/D分離,隱隱中可以看到模型應用提出需求進而驅動產品定義這一趨勢在中國已然發生。那麼理所應當地,一個具備技術背景、但又對市場應用嫻熟於心、同時又具有平衡取捨之道的產品經理,將成為下一階段定義和推動算力晶片和系統發展的主導力量。
這個趨勢,是AI晶片與AI系統專業化、精細化的開端,是產品營運上了新台階的標誌。
這個趨勢,是“需求決定供給”這一經濟學規律在AI的中國市場中的再次體現。
正因為此,我們必須旗幟鮮明地說:不能為了發展AI晶片,而拖累放緩了AI產業的發展。
AI產業的繁榮與領先,是AI晶片突破與創新的前提。
AGI和可控核聚變是人類文明當前面對的兩座生產力高峰。在當前的地緣格局下,大國的競爭圍繞這兩座高峰而展開。而企業之間的競爭,都在力圖確保自己一直能留在牌桌上,不被時代甩在後面。
正如在戰爭一樣,不能僅憑著熱血和口號,但使用落後的武器裝備去攻佔戰略高地,我們應該利用一切可以獲得的優勢資源去確保戰爭的勝利。
在通訊行業、在電力行業、在大基建行業,正是由於我們市場規模大、終端產業繁榮,一步步倒逼上游的技術突破與產品創新,最終在全行業上下游實現各環節的突破。
在AI產業的競爭中,首先要確保在競爭中留在牌桌上、甚至成為其中最為領先的佼佼者。正如這一次次的案例說明、也正如經濟學規律所揭示的一樣,只要AI產業我們處於世界領先水平,其所引領的趨勢、提供的豐富場景和明確需求、以及最重要的資本與人才、行業know-how積累,最終都會推動我們的AI晶片、算力系統取得突破,這只是個時間問題。
不過,網路上有句流傳很廣的話:成年人不做選擇,我都要。
作為一個超大規模經濟體的中國,在行業豐富度、產業協同度和資本積累程度上,當前基本具備“都要”的實力。也就是說,在市場化經營的情況下,既有著使用世界頂級算力設施去沖頂的基礎與必要性,也有著扶持AI國產算力所需要的資源與意願。
努力奮鬥的目的,正是為了可以爭取更多的選擇空間,於個人、於國家,皆如是。
經過各領域國人同胞們多年不懈的奮鬥與多方面積累,我們身處產業變革與飛速發展的時代,這是理性者的福音,是魄力者的機遇,更是每一個普通奮鬥者可能的逆襲之路。 (騰訊科技)