2011年9月,英特爾開發者論壇(IDF)的最後一天,英特爾首席技術長賈斯汀-拉特納(Justin Rattner)在長達一小時的演講中,抽出了大約一分鐘的時間介紹了一項革命性的技術-HMC(Hybrid Memory Cube,混合記憶體立方體)。
這項技術由美光和英特爾共同合作開發,雖然被一筆帶過,但它的重要性,其實並不比處理器架構迭代要差多少,因為這是內存產業又一次的革命,有望徹底解決過往DDR3所面臨的頻寬問題。
實際上,早在IDF開始前的8月,美光研究員兼首席技術專家Thomas Pawlowski就在Hot Chips 上詳細介紹了HMC,當時雖然沒有透露與英特爾的合作,但他表示,HMC是一種三維集成電路創新,它超越了三星等公司展示的處理器-記憶體晶片堆疊技術,是一種全新的記憶體-處理器介面架構。
對美光來說,HMC就是反殺三星海力士兩大韓廠最有力的武器。
記憶體革命
在介紹HMC的時候,Pawlowski 對當時DRAM標準的落後提出了質疑,他認為,出於繼續增加頻寬並降低功耗和延遲以滿足多核心處理的需求,對記憶體的直接控制必須讓位於某種形式的記憶體抽象,DRAM廠商總是需要一個產業標準機構(例如JEDEC)就用於指定DRAM 的約80 個參數達成一致,從而產生「最低公分母」解決方案。
他的言下之意就是,美光不打算繼續一起慢吞吞地坐下來協商了,既然內存頻寬吃緊,那就開發一種全新的高頻寬標準,拋開JEDEC那堆框框架架的束縛,自己另立一個山頭,而盟主呢,自然就是美光了。
在Pawlowski所發表的全新HMC 標準中,從處理器到記憶體的通訊是透過高速SERDES 資料鏈路進行的,該連結會連接到DRAM 堆疊底部的本地邏輯控制器晶片,IDF 上所展示的原型裡,4 個DRAM 透過矽通孔(TSV)連接到邏輯晶片,也描述了多達8 個DRAM 的堆疊,值得一提的是,原型裡的處理器沒有整合到堆疊中,從而避免了晶片尺寸不匹配和散熱問題。
HMC本質上其實是一個完整的DRAM 模組,可以安裝在多晶片模組(MCM) 或2.5D 被動插接器上,從而更加貼近CPU,除此之外,美光還介紹了一個"遠存儲器"的配置,在這以配置中,一部分HMC 連接到主機,而另一部分HMC 則透過串列連結連接到其他HMC,以此來形成記憶體立方體網路。
以今天的目光來看,HMC不可謂不先進,而Pawloski也頗感自豪,他表示HMC無需使用複雜的內存調度程序,只需使用一個薄仲裁器即可形成淺隊列,HMC從架構上就消除了複雜的標準要求,時序約束不再需要標準化,只有高速SERDES 介面和外形尺寸才需要標準化,而這部分規範完全可以透過客製化邏輯IC 進行調整以適應應用,大容量DRAM 晶片在眾多應用中都是相同的。
在許多人擔心的延遲問題上,Pawlowski也表示,雖然HMC的串列連結會略微增加系統延遲,但整體的延遲反而是顯著降低的,尤其是它的DRAM 週期時間(tRC) 在設計上較低,較低的佇列延遲和較高的儲存體可用性也進一步縮短了系統延遲。
他同時也展示了第一代HMC 原型的具體數據,美光同英特爾合作,透過將1Gb 50nm DRAM 陣列與90nm 原型邏輯晶片相結合構建了第一代27mm x 27mm HMC 原型,其在每個立方體上使用4 個40 GBps(每秒十億位元組)鏈路,每個立方體的總吞吐量為160 GBps,DRAM 立方體的總容量為512MB,由此產生的效能比下一代DDR4 顯著提高了約3 倍的能效(以pj/bit 為單位)。
HMC解決了傳統DRAM的頻寬問題,一時之間成為了大家的新寵兒,但實質上是集不斷發展的矽通孔(TSV)技術於大成,並不能全然歸功於美光和英特爾。
什麼是TSV呢?TSV全稱為Through Silicon Via,是一種新型三維堆疊封裝技術,主要是將多顆晶片(或晶圓)垂直堆疊在一起,然後在內部打孔、導通並填充金屬,實現多層晶片之間的電連接。相較於傳統的引線連接多晶片封裝方式,TSV能夠大幅減少半導體設計中的引線使用量,降低製程複雜度,進而提升速度、降低功耗、縮小體積。
早在1999年,日本超尖端電子技術開發機構(ASET)就開始資助採用TSV技術開發的3D IC晶片專案“高密度電子系統整合技術研發”,也是最早研究3D積體電路的機構之一,之後的2004年,日本的爾必達也開始自己研發TSV,並於2006年開發出採用TSV技術的堆疊8顆128Mb的DRAM架構。
快閃記憶體產業先一步實現了3D堆疊的商業化,東芝在2007 年4 月推出了具有8 個堆疊裸片的NAND 快閃記憶體晶片,而海力士則是在同年9 月推出了具有24 個堆疊裸片的NAND快閃記憶體晶片。
而記憶體產業相對稍晚一點,爾必達在2009年9月推出了第一款採用TSV的DRAM晶片,其使用8顆1GB DDR3 SDRAM堆疊封裝而來,2011年3月,SK海力士推出了使用TSV 技術的16 GB DDR3 記憶體(40 nm等級),同年9 月,三星推出了基於TSV 的3D 堆疊32 GB DDR3(30 nm等級)。
集合了最新TSV技術的HMC,不僅榮獲了2011年The Linley Group(《微處理器報告》雜誌出版商)所頒發的最佳新技術獎,還引發了一眾科技公司的興趣,包括三星、Open -Silicon、ARM、惠普、微軟、Altera和賽靈思在內的多家公司與美光組成了混合記憶體立方聯盟(HMCC),美光開始磨拳霍霍,準備開始一場更徹底的記憶體技術革命。
JEDEC的反擊
前面提到了美光技術專家Pawlowski對於舊內存標準的抨擊,尤其是JEDEC機構,似乎成了一個十惡不赦的壞蛋,彷彿是因為它的存在,內存技術才遲遲得不到改進。
那麼JEDEC又是何方神聖呢?
JEDEC固態技術協會(Solid State Technology Association)是固態及半導體工業界的標準化組織,最早歷史可追溯至1958年,由電子工業聯盟(EIA)和美國電氣製造商協會(NEMA)共同成立的聯合電子設備工程委員會(Joint Electron Device Engineering Council,JEDEC),其主要職責就是製定半導體的統一標準,而在1999年後,JEDEC獨立成為行業協會,確立了現在的名字並延續至今。
作為一個行業協會,JEDEC 制定了DRAM 組件的封裝標準,並在20 世紀80 年代末制定了內存模組的封裝標準。「 JC-42及其小組委員會制定的標準是我們能夠如此輕鬆地升級PC 內存的原因,」自20 世紀70 年代以來一直擔任JEDEC 志願者的Mark Bird 說道,「我們對各個組件配置、SIMM、它們所在的插槽以及每個設備的功能進行了標準化。”
雖然說做DRAM的廠商,肯定離不開JEDEC所訂定的標準,但JEDEC本質上並不具備強制性,其第一大原則就是開放性與自願性標準,所有標準都是開放性、自願性的,不會偏袒某一個國家與地區而歧視其他國家或地區,擁有近300家會員公司的它還奉行著一家公司一票與三分之二多數制的製度,從而降低了標準制定程序被任何一家或一批公司所把控的風險。
不管是美光也好,三星海力士也罷,它們並沒有能力去干涉JEDEC標準的製定,即使DRAM廠商早已屈指可數,但標準的話語權並不由三巨頭所掌握,只有大家真正認可,才會最終被推行為正式標準。
這時候問題來了,產業還在JEDEC所製定的標準下前行,美光卻要單獨跳出來自己幹,還組建了屬於自己的聯盟,這聽起來有點像蘋果才會做的事,如同火線接口、早期雷電接口和Lighting接口等,東西是好東西,但是獨此一家別無分號。
要是美光這HMC技術夠先進也就罷了,領先JEDEC四五年,也能像蘋果一樣賺筆小錢,也能和韓國廠商分庭抗禮了,只可惜這技術只領先了一兩年左右,甚至可能還沒有這麼久。
在美光公佈HMC的2011年,JEDEC就公佈了關於Wide IO 的JESD229 標準,作為一項3D IC 記憶體介面標準,其正是為了解決DRAM頻寬而來,基本概念是使用大量引腳,每個引腳的速度相對較慢,但功率較低。
2012年1月,該標準正式通過,其中規定了4 個128 位元通道,透過單數據速率技術連接到以200MHz 頻率運作的DRAM,總頻寬為100Gb/S,雖然還是無法與HMC的頻寬相媲美,但也從側面證明了JEDEC的標準並非一直原地踏步和一無是處。
當然,如果只有Wide IO也就算了,畢竟HMC的理念夠先進,雖然價格也很昂貴,但是總會有一部分高頻寬需求的產品來買單,前景還是挺光明的。
但到了2013年,又殺出了一個程咬金——AMD和海力士宣布了它們共同研發的HBM,其使用了128 位寬通道,最多可堆疊8 個通道,形成1024 位接口,總頻寬在128GB/s 至256GB/s 之間,DRAM 晶片堆疊數為4 至8 個,且每個記憶體控制器都是獨立計時和控制的。
就成本和頻寬而言,HBM 是一個看似中庸的選擇,既不如Wide I/O 便宜,頻寬也比不上HMC,但中庸的HBM卻透過GPU確定了自己的地位,AMD和英偉達先後都選擇了HBM來作為自家顯示卡的記憶體。
而給了美光HMC致命一擊的是,HBM剛推出沒多久,就被定為了JESD235的行業標準,一個是業界主要科技公司都在內的大組織,一個是美光自己拉起來的小圈子,比賽還沒正式開始,似乎就已經分出了勝負。
HMC的末路
2013年4月,HMC 1.0規範正式推出,根據該規範,HMC 使用16 通道或8 通道(半尺寸)全雙工差分串行鏈路,每個通道有10、12.5 或15 Gbit/s串行解串列器,每個HMC 封裝被命名為一個cube,它們可以透過cube與cube之間的連結以及一些cube將其連結用作直通鏈接,組成一個最多8 個cube的網路。
當然,在HMC 1.0發佈時,美光依舊是信心滿滿,美光DRAM 營銷副總裁Robert Feurle 表示:“這一里程碑標誌著內存牆的拆除。” “該行業協議將有助於推動HMC 技術的最快採用,我們相信這將徹底改進計算系統,並最終改進消費者應用程式。”
而在2014年1月舉行的「DesignCon 2014」上,美光首席技術專家Pawlowski表示JEDEC並沒有在DDR4 之後做出任何新的努力,「HMC需要的只是一個SerDes(串行器/解串器)接口,其具有簡單指令集,不需要所有細節,未來的趨勢是HMC取代DDR成為DRAM的新標準。」他說到。
事實真的跟美光說的一樣嗎?
當然不是,HMC看似強大的頻寬,是建立在昂貴成本之上的,從2013年第一版規範開始算起,真正採用了HMC技術的產品,也只有天文學項目The Square Kilometer Array (SKA) 、富士通的超級電腦PRIMEHPC FX 100、Juniper的高效能網路路由器和資料中心交換器以及英特爾的Xeon Phi 協處理器。
看到英特爾也別太興奮,據美光公司稱,雖然Xeon Phi 協處理器的內存解決方案採用與HMC 相同的技術,但它專門針對集成到英特爾的Knight's Landing 平台中進行了優化,沒有標準化計劃,也無法提供給其他客戶,什麼意思呢?就是英特爾沒完全遵循HMC,自己另外搞了一套標準。
而且,別說普通消費者了,連英偉達和AMD的專業加速卡都與HMC無緣,HBM已經足夠昂貴了,HMC比起它還要再貴一些,美光雖然沒有公佈過具體的費用,但我們相信,這個價格一定會是大部分廠商所不能承受之重,內存頻寬重要是不假,但過於昂貴的成本,只會勸退客戶。
值得一提的是,三星和海力士雖然也一度加入過HMCC聯盟中,但它們並不是主要推動者,甚至沒有大規模量產過HMC產品,2016年之後,兩家都專注於HBM了,除了幾個鐵哥們願意支持一下美光,HMCC的成員更多的是重視參與。
時間來到2018年,HMC早就沒有了2011年時的風光,用門可羅雀來形容也不過分,人工智慧在這一年開始興起,高頻寬成為了記憶體產業的重心,但背後的市場幾乎都被HBM招徠走了,主推該標準的海力士與三星成了大贏家。
Objective Analysis 首席分析師 Jim Handy 在2018年1月接受媒體採訪時對美光發出了警告:「英特爾未來也會從HMC變體轉向HBM,考慮到二者間沒有太大區別,如果美光必須轉型,損失也不會太大。”
還好美光沒有執迷不悟,在2018年8月宣布正式放棄HMC,轉而追求具有競爭性的高性能存儲技術,也就是HBM,但大家都準備搞HBM2E了,美光此時再入場,不論是吃肉還是喝湯都輪不到它,只能慢慢追趕。
2020年3月,美光的HBM2也就是第二代HBM才姍姍來遲,其最新量產的HBM也止步於HBM2E,明顯落後於兩家韓廠,而市場也忠實反饋了這一差距,根據TrendForce 的最新數據,SK 海力士佔據全球HBM 市場50% 的份額,位居第一;三星緊隨其後,佔據40% 的份額;而美光位居第三,僅佔10% 的份額。
不過有趣的是,美光似乎對HMC並未完全死心。
2020年3月,美光公司高級運算解決方案副總裁Steve Pawlowski 表示,美光是HMC技術最早且最強的支持者之一,如今的重點在於該架構如何能夠滿足特定用例(包括人工智慧(AI))的高頻寬記憶體需求,事實上在HMC 最初構想時,人工智慧(AI) 並不存在,「我們怎麼能在低功耗、高頻寬方面獲得最大的性價比,同時能夠為我們的客戶提供更具成本效益的封裝解決方案?」他說到。
Pawlowski 也表示,美光繼續透過「探路計畫」來探索HMC 的潛力,而不是遵循最初的規格更新計劃,從性能角度來看,HMC 是一個出色的解決方案,但客戶也在尋求更大的容量,新興的人工智慧工作負載更注重頻寬,因此這正是HMC 架構的潛力所在。
「HMC 似乎仍有生命力,它的架構可能適用於最初構想時並不存在的應用,」Pawlowski 說,「HMC 是領先於時代的技術的一個極好例子,它需要建立一個生態系統才能被廣泛採用,我的直覺是,HMC 風格的架構就屬於這一陣營。"
遙遙落後的美光
如今是2024年初,HBM已經火爆了一整年,SK海力士、三星和美光無不以下一代HBM3E乃至HBM4為目標,努力確保自家的技術領先,尤其是美光,為了改善自己在HBM市場中的被動地位,它選擇了直接跳過第四代HBM即HBM3,直接升級到了第五代。
2023年9月,美光宣布推出HBM3 Gen2(即HBM3E),後續表示計劃於2024 年初開始大批量發貨HBM3 Gen2 內存,同時透露英偉達是主要客戶之一,美光總裁兼首席執行官Sanjay Mehrotra 也在公司財報電話會議裡表示:“我們的HBM3 Gen2 產品系列的推出引起了客戶的濃厚興趣和熱情。”
但對於美光來說,科技迎頭趕上只是第一步,更重要的是能不能在標準上掌握話語權,2022年1月,JEDEC發布了最新的HBM3標準,其主要貢獻者就是美光老對手,也是HBM的創造者之一-SK海力士,而現在被普遍認可的HBM3E這個名稱,同樣來自SK海力士。
成為標準貢獻者有啥好處呢?那就是SK海力士所推出的HBM3E可以大方宣稱自己的向後相容性,即使在沒有設計或結構修改的情況下,也能將這一產品應用於已經為HBM3準備的設備上,不管是英偉達還是AMD,都可以輕鬆升級原有的產品,滿足更多客戶的需求。
而根據Business Korea報道,英偉達已經與SK海力士簽訂HBM3E優先供應協議,用於新一代B100計算卡,雖然美光和三星都向英偉達提供了HBM3E的樣品,完成驗證測試後就會正式簽約,但有業內人士預計,SK海力士仍然會率先取得HBM3E供應合同,並從中獲得最大的供應份額。
先前我們談過,儲存巨頭們一直夢想著一件事情,就是擺脫傳統的半導體週期,過上更安穩的日子,HMC曾是美光的一個夢想,用新標準取代舊標準,用封閉生態代替開放生態,希望憑藉它來成為DRAM技術領導者,但它卻陷入到一個怪圈當中:HMC價格更昂貴——客戶缺乏意向——成本增加導致價格上漲——流失更多潛在客戶。
目前來看,HBM是一個更好的切入口,它在新型DRAM的市場和利潤間取得了一個微妙平衡,而SK海力士就是三巨頭裡走得最遠的一家,考慮到未來AI晶片的性能很大程度受到HBM的放置和封裝方式的影響,SK海力士很有可能成為第一個跳出週期的廠商。
美光技術專家Pawlowski在2011年的Hot Chip上大力批判了落後的內存標準,但他絕對不會想到的是,看似先進的HMC最終會被納入JEDEC標準的HBM所擊敗,美光空耗了六七年時間,最終甜美果實卻被韓廠摘走,讓人感動。(半導體產業觀察)
參考資料:
Beyond DDR4: The differences between Wide I/O, HBM, and Hybrid Memory Cube——extremetech
HBM Flourishes, But HMC Lives——eetimes
'기술' 타이밍놓치면순식간'몰락'… 설자리잃은'마이크론'——newdaily