#晶片H20
阿里全新AI晶片曝光:重要參數與H20相當!
9月16日晚間,央視《新聞聯播》節目報導了“中國聯通三江源綠電智算中心項目建設成效”,其中就披露了阿里旗下平頭哥最新研發的面向人工智慧的PPU晶片,其各項主要參數指標均超越了輝達A800,與H20相當。在該報導當中,央視介紹了阿里平頭哥、沐曦股份、摩爾執行緒、壁仞科技、中昊芯英、太初元碁、燧原科技等多個國產AI晶片品牌的已簽約或擬簽約情況。其中,已簽約項目包括:阿里云:總計1024台裝置、16384張平頭哥算力卡、算力達1945P;中科院:總計512台裝置、4096張沐曦算力卡、算力達984P;北京京儀:總計83台裝置、1328張壁仞算力卡、算力達450P;中昊芯英:總計128台裝置、算力達200P。已簽約項目共計:1747台裝置、22832張算力卡,總算力達3479P。此外,擬簽約項目總的算力為2002P,包括了太初元碁、燧原科技、摩爾執行緒的算力卡。而根據央視曝光的一幅關於“國產卡與NV卡重要參數對比”畫面顯示,平頭哥PPU的視訊記憶體為96GB的HBM2e,高於輝達A800的80GB HBM2e,與輝達H20的視訊記憶體容量一致,不過H20整合的是HBM3,領先一代;片間互聯頻寬高達700GB/s,也高於A800的400GB/s,略低於H20;介面方面則支援PCIe 5.0×15,也優於A800的PCIe 4.0×16,與H20一致;在功耗方面,則保持了與輝達A800一致為400W,低於H20的550W。而與其他國產AI晶片相比,平頭哥PPU在這些指標方面也大多處於領先地位。不過,對於平頭哥PPU的具體計算性能,央視曝光的畫面中並未披露,猜測有可能略低於H20。如果關於阿里自研PPU晶片應用於輕量級AI模型的訓練的消息屬實的話,那麼也足以反應其綜合性能已經達到了可以部分替代輝達H20的程度。其實,早在今年8月底之時,《華爾街日報》就曾報導稱,阿里巴巴正在開發一款新的面向人工智慧的PPU晶片,意在填補輝達在中國市場的空白。這款晶片已進入測試階段,主要面向更廣泛的AI推理任務,並與輝達的架構相容。近期還有報導稱,阿里自今年初以來已將自研PPU晶片應用於輕量級AI模型的訓練,部分替代了部分輝達的GPU晶片。 (芯智訊)
美股 輝達 盤後突發,股價急跌!
據美股投資網消息,輝達已通知部分元件供應商,暫停其專為中國市場定製的 AI晶片H20的相關生產工作!但兩日前有兩位知情人士表示,輝達正研發一款全新的AI晶片,專門針對中國市場。這款晶片基於公司最新的 Blackwell 架構,性能將超過目前的 H20。美國總統川普上周曾表示,不排除允許更先進的輝達晶片進入中國市場的可能性。但消息人士指出,美國Z府的審批依舊存在高度不確定性,華盛頓方面對於中.國獲取過多美國 AI 技術的擔憂依然根深蒂固。據悉,這款新晶片暫定名為 B30A,採用單晶片(single-die)設計,其算力預計約為輝達旗艦加速卡 B300 雙晶片版本的一半。單晶片設計意味著積體電路的主要部分都位於同一塊矽片上,而不是分散在多塊晶片中。該晶片將搭載高頻寬記憶體和輝達 NVLink 技術,實現處理器之間的高速資料傳輸,這些特性在上一代 Hopper 架構的 H20 晶片中也有所體現。雖然新晶片的規格尚未完全敲定,但輝達希望最早在下個月就能向中國客戶交付樣品進行測試。知情人士還透露,輝達還在準備推出另一款基於 Blackwell 架構 的中國專供晶片,主要面向 AI 推理任務。這款晶片型號為 RTX6000D。售價將低於 H20,因其規格更弱、製造工藝更簡化。RTX6000D 採用常規 GDDR 記憶體,記憶體頻寬為 1,398 GB/s,剛好低於美國在 4 月出台的 1.4 TB/s 性能門檻,該門檻正是導致 H20 被禁售的原因之一。據悉,輝達計畫在今年 9 月向中國客戶交付小批次 RTX6000D 樣品。輝達在一份聲明中強調:“我們會評估多種產品並納入未來路線圖,以確保在Z府允許的範圍內保持競爭力。所有產品均經過相關監管部門批准,且僅用於合法的商業用途。”美國商務部長 Howard Lutnick 表示:“當然,(黃仁勳)希望能把新晶片賣到中國。”他還多次稱讚黃仁勳,並補充說:“我確信他一直在向總統推介。我親耳聽過,而總統也會傾聽我們偉大科技公司的聲音,最後由他來決定。但黃仁勳推銷新晶片這件事,本身並不令人意外。” (美股投資網)
獨家觀察:美國如何給晶片安“後門”
前幾天,國家網際網路資訊辦公室就H20算力晶片漏洞後門安全風險約談輝達公司。輝達在隨後的自辯聲明中提到,晶片沒有“後門”,他們還專門提到了“Clipper晶片”事件。||輝達公司於2025年8月5日發表聲明稱:晶片不存在“後門”、終止開關和監控軟體。1992年,美國電話電報公司(AT&T)面向美國的商務人士推出了一款硬體裝置,它可以對電話的語音傳輸進行加密,確保資訊安全。這引發了美國政府的不滿。很快,他們就要求美國電話電報公司(AT&T)在這個裝置中換入一款新的微晶片——“Clipper晶片”。它採用美國國家安全域(NSA)的加密演算法,由美國政府指定的承包商生產,包含一個“加密後門”。這個“加密後門”,讓美國政府可以“解碼”裝置上的通訊資訊。“Clipper晶片”推出後,受到各方的抵制,不到三年這個項目就宣告終止。而美國政府也吸取了教訓,對於“加密後門”這種事,開始只做不說。但就在今年,美國政府又開始堂而皇之地把“加密後門”這種事,拿到桌面上來講。既然美國人這麼說了,我們就得從技術層面起底一下,美國如何給晶片安“後門”。今年5月,美國眾議員比爾·福斯特(Bill Foster)牽頭提出一項法案,要求美國商務部強制美國晶片企業在受出口管制的晶片中加入“後門”。比爾·福斯特是物理學博士,曾經有過晶片設計的工作經驗,所以他十分篤定地說,相關的技術十分成熟,完全可以實現。比爾·福斯特想要實現的,總結起來就是兩件事,一個是“追蹤定位”,一個是“遠端關閉”。譚主從專業人士處瞭解到,比爾·福斯特的判斷是精準的,這兩項功能,從技術上完全可以實現。“後門”主要分為兩種,硬體“後門”和軟體“後門”。||硬體“後門”是晶片在設計或製造時留下的物理裝置,主要是具有“後門”功能的邏輯電路。||軟件“後門”可以理解為在軟體中植入具有“後門”功能的指令,通過運行軟體來對使用者的系統造成破壞、竊取機密等。拿輝達H20晶片舉例。單從硬體“後門”角度考慮,就完全可以實現“遠端關閉”等功能。H20晶片上有多個元件,包括:GPU核心、電源管理模組等。只要在H20晶片的電源管理模組中植入“遠端關閉”電路,設定相應的觸發機制,就能在不依靠外部條件的情況下實現這一功能。當晶片滿足以下條件:||啟動時間達到提前設定的指標;||溫度、電壓等物理條件符合提前設定的指標。H20晶片的電源管理模組就可以執行相應操作,包括:直接切斷晶片核心電源;將電壓調整到不穩定區域,導致晶片功能異常等。比如,最簡單直接的操作就是,賣給中國的晶片可以定時,設定用滿500個小時就自動關閉。這樣一來,晶片直接無法使用,毫不誇張地說,所有的投入都相當於打水漂了。另一種實現“遠端關閉”的硬體“後門”,是修改H20晶片的韌體啟動載入器。當晶片啟動時,啟動載入器會檢查特定條件(如地理位置資訊、授權狀態等),如果條件不滿足,就可以拒絕晶片啟動、啟動時停用部分高級功能或限制晶片性能等。目前H20幾乎是專供中國的,如果晶片裡設定了“後門”,那麼“後門”的功能就具有高度的定向性,一旦啟動基本不會有“誤傷”。奇安信威脅情報中心安全專家告訴譚主,從技術層面上來說,在生產階段,特定拒絕服務功能的硬體“後門”較好實現,但其實,這種方式的成本和代價都相對較高,通過軟體設定或者軟硬體配合的方式安“後門”,才是最靈活的。而利用軟體啟動“後門”,有一個很重要的抓手,就是CUDA。CUDA(Compute Unified Device Architecture,統一計算裝置架構),它不是一個產品,而是一種生態系統。全球有超過400萬開發者在使用CUDA,它覆蓋了全球90%的人工智慧研究機構。過去近20年間,它形成了一種正向循環:越多開發者使用CUDA,就會催生出越多基於CUDA的應用程式,這些程序又吸引更多開發者和使用者加入CUDA。也就是說,當你想使用CUDA的最新功能,就需要把更新的軟體導進系統裡。在這個更新驅動程式的環節中,晶片所在的系統,就有可能被加入啟動“後門”的指令,這個安“後門”的方式可以實現很多功能。如果網際網路連接存在,通過動態地接收資料解密執行,就能實現“追蹤定位”功能,甚至更常規的檔案收集、擊鍵記錄、螢幕擷取等“後門”功能也可以實現。也就是說,軟硬體“後門”配合下,資訊洩露輕而易舉。||“追蹤定位”功能與英特爾管理引擎中的遠端識別功能類似。2018年,這一功能引發了電腦“後門”安全性的討論奇安信威脅情報中心安全專家告訴譚主,美國塑造人工智慧霸權的抓手,一個是硬體,一個是軟體生態系統。對於其他國家來說,不僅要從硬體層面努力做到替代,也要建設起自主可控的軟體生態系統。為了完成上述的這些佈置,美方曾經系統設計過一個機制——片上治理機制。這個機制就提到,美國政府需要成立相關的部門,來協調晶片設計、生產、製造的各個環節,包括協調企業和盟友,來達到對人工智慧晶片的控制。片上治理機制,能實現以下幾種功能:||一是許可鎖定。若發現違規情況,廠商將立即停止簽發新的許可證,晶片則因無法更新而失效。||二是追蹤定位。目標晶片與多個地標伺服器互動的響應速度,可以反映其大致位置。晶片本身能實現主動查詢,只限制在特定地理區域運行。||三是使用監測。內建硬體能夠記錄晶片狀態、訓練任務、計算量等關鍵資訊,要求使用者驗證晶片使用方式,確保開發符合美國的監管要求。||四是使用限制。片上治理機制限制晶片在大型叢集電腦和超級電腦中的使用,保護敏感資料訪問,並只允許晶片運行經過批准的程式碼或模型。在一份詳細介紹“片上治理機制”的報告中提到,輝達的人工智慧晶片其實已經廣泛部署了片上治理所需的大部分功能,只不過有些還沒有啟動而已。||新美國安全中心報告《安全、可管控的晶片——使用片上治理機制來管理人工智慧和高級計算的國家安全風險》,報告中提到,片上治理所需的許多功能已在各類晶片上廣泛部署,包括尖端的人工智慧晶片。AMD、蘋果、英特爾和輝達等領先企業銷售的晶片就具備上述諸多政策所需的功能。而如果晶片上還沒有這些功能,報告也特別提到,美國及其盟友掌握著最先進人工智慧晶片的產業鏈,因此,美國只需要“協調”好這些盟友,確保這些晶片都內建硬體,還是可以實現控制。為了獲得晶片企業的配合,報告還建議,採取一些“激勵”措施,比如“預先市場承諾”——如果企業配合,滿足美國政府設定“後門”的要求,那美國政府可以將其排除在出口管制之外。其中就特別提到,放寬對“中國低風險客戶”的出口。結合這條資訊,再看美國政府允許輝達出口H20到中國,不免有些細思極恐。無論從那個角度講,H20對於中國來說,都算不上是一款安全的晶片。除了不安全,H20也不先進。根據相關機構資料,相比於H20的標準版——H100,H20的整體算力只有約20%,其GPU核心的數量比H100減少41%,性能降低28%,這也導致H20無法滿足兆級大模型訓練需求。除了不先進,H20也不環保。去年7月,國家發展改革委聯合有關部門印發了一個名叫《資料中心綠色低碳發展專項行動計畫》的檔案。《行動計畫》中提到,到2030年底,全國資料中心平均電能利用效率、單位算力能效和碳效達到國際先進水平。一般來說,對於採用14nm以下工藝的伺服器GPU,節能水平的能效比需達到0.5TFLOPS/W,先進水平需達到1.0TFLOPS/W。根據相關機構測算,H20的能效比大約為0.37TFLOPS/W,不滿足0.5TFLOPS/W的節能水平。我們都知道,算力某種程度上也是電力,人工智慧的發展會新增大量的能源需求。而這些新增的需求,也需要符合中國綠色轉型的節奏。從這個角度來講,H20,當然不是一個好選擇。當一款晶片,既不環保,也不先進,更不安全時,作為消費者,我們當然可以選擇,不買。 (玉淵譚天)