專訪原粒半導體:用「芯粒」方法重構AI晶片解決大模型推理算力需求

2022 年底 ChatGPT 的發佈帶來生成式 AI 的飛速發展,大模型應用領域已經從自然語言對話等文字生成拓展到綜合了文字、語音、圖像、視訊等多種媒介的多模態生成式 AI 場景。

傳統上,大模型的訓練和推理都在雲端資料中心完成,全球各個大模型巨頭公司都投入了重金在資料中心建設上。今年 5 月下旬以來,國內的雲端大模型推理服務價格跳水,大模型進入“白菜價”時代,降價之後各種領域的 AI 應用將“遍地開花”。

大模型應用普及的同時,也給 AI 大模型服務提供商帶來了巨大的成本壓力。推理價格的降低,必然要求服務提供商們能夠同步降低他們的推理成本,服務商們不可避免地需要從早期不計成本地的客戶爭奪,向“降本增效”過渡,用更低成本的大模型推理硬體提供更多的大模型推理服務,是贏得“大模型大戰”的重要支撐。

與此同時,大模型推理計算的場景正在從雲端向邊緣端延伸。借助雲端資料中心進行大模型推理計算,存在資料傳輸延遲、伺服器端負載漲落等影響使用者體驗的因素,同時使用者的資料隱私保護也是一個難以解決的問題。在一些對即時性以及隱私保護要求很高的場景,如智能座艙、自動駕駛、AI PC、具身智能等眾多領域,通過將大模型部署在邊緣端進行推理計算可以很好地彌補雲端推理的不足,實現對使用者資料更加安全和即時性更高的本地處理,大幅提升使用體驗。

傳統的單晶片 AI 加速器晶片以及 AI SoC 設計方法,目前已經遇到了包括晶圓製造工藝限制、研發製造成本高昂以及研發周期漫長等多方面的制約,難以跟上大模型的發展速度。作為半導體行業未來發展的新興力量和熱點,芯粒(Chiplet)技術在提高晶片算力、降低成本、提供靈活性和擴展性等方面具有天然優勢,能夠在雲端和邊緣端等各種應用場景下提供靈活的算力組態,為大模型的多場景部署提供廣泛支援。

“大模型浪潮下,‘雲、邊、端’算力需求激增,大模型的爆發首先帶動的是對雲端訓練算力的需求,隨後,雲端以及邊緣端推理的算力需求也開始激增。芯粒技術為解決大模型爆髮帶來的算力需求瓶頸帶來了更好的解決方案。”原粒(北京)半導體技術有限公司(簡稱原粒半導體)聯合創始人原鋼告訴「問芯」。

原粒半導體成立於 2023 年 4 月,是一家基於芯粒技術佈局 AI 算力硬體的公司,專注於多模態 AI 處理器架構設計和芯粒算力融合技術,設計和生產低成本、高能效的通用 AI 芯粒產品,並配合來自合作夥伴的 CPU/SoC 芯粒等推出滿足多模態大模型推理需求的 AI 晶片、AI 算力模組和加速卡等。


圖|原粒半導體(來源:受訪者)


基於芯粒的方法重構 AI 晶片

談及創立原粒半導體的初衷,原鋼表示,主要是看到 AI 加速晶片領域出現了一些新的需求尚未得到滿足,同時芯粒技術的發展會帶來全新的市場機會。“此前,AI 推理晶片主要還是聚焦於滿足摺積神經網路(CNN)的計算需求,而從 2022 年起 AI 晶片的研發熱點逐漸開始轉向以 Transformer 為核心的多模態模型,包括自然語言處理和圖像生成模型等。然而,傳統的 AI 晶片架構並不一定適用於高效的大模型推理計算,需要一些新的設計方法創新,例如研發專門針對大模型推理最佳化的 AI 計算架構以及使用芯粒技術實現靈活的算力擴展等。我們在去年創立了原粒半導體,希望基於芯粒技術,為市場提供性價比更高的多模態大模型推理解決方案。”他介紹說。

區別於傳統的單矽片(monolithic)晶片的將所有核心元件放在同一個矽片(die)的設計範式,基於芯粒技術的計算晶片或 SoC 的設計理念是預先設計製造好具有特定功能、可組合整合的一系列矽片,並在封裝製造過程中把它們整合起來。通過將原本整合在一整塊晶片上部分核心處理器 IP 按功能拆分成一個個獨立單元,可以按需求進行搭配組合,實現“即插即用”。


圖|芯粒技術示意(來源:受訪者)


“原粒半導體的核心產品是通用的多模態 AI 芯粒,然後根據目標場景不同的算力需求,通過組合不同規格和不同數目的芯粒,來為雲邊端提供最合適的算力解決方案。”原鋼指出。

產品佈局方面,原粒半導體根據不同行業客戶的需求,以 AI 芯粒為核心推出不同形態的算力產品,包括 AI 芯粒(Known Good Die)、AI 晶片(比如和第三方 SoC 芯粒合封的晶片)、邊緣端模組以及推理加速卡等。原鋼表示:“未來,原粒會圍繞大模型推理業務層面的需求,以及芯粒技術的發展趨勢,包括互聯介面標準,以及先進封裝技術的演進等,不斷為市場推出創新的 AI 大模型推理算力產品。”

事實上,Chiplet 也並非是一個全新的概念,其設計理念最早源於 1970 年代誕生的多晶片模組,而在這兩年芯粒技術突然升溫,在原鋼看來,是由於隨著摩爾定律因為物理極限而逐漸走向終結,伴隨著頂尖先進工藝晶片的研發和製造成本高昂,傳統的單矽片設計方法學提供的晶片演進速度已經難以跟上快速演進的大模型等新興應用發展的腳步。而芯粒技術是解決晶片算力密度、研發製造成本以及算力靈活性等問題的最佳方案。

“以消費級 SoC 產品為例,過去 10 年來,市場上主流 SoC 產品的晶片製程工藝不斷迭代演進,從 65um、40nm 直到目前最先進的 3nm。然而製程工藝尺寸縮小終究會到達物理極限,並且隨著製程工藝逐漸接近極限,製造成本呈指數級上升,流片成本從 65nm 的數十萬美元增加到 3nm 的數千萬美元。生產製造一顆採用頂級工藝的 SoC 的研發製造成本,大概只有蘋果和高通這類有著龐大銷售基數和毛利水平的公司能承受。”他說道。

“傳統的單一矽片 SoC 會在一顆晶片上整合 CPU、GPU、NPU 等全部核心模組,每顆 SoC 晶片的研發都需要走一遍耗時且昂貴的流程,包括 IP 採購、前/後端設計、晶圓生產以及封測等等,開發一顆高性能 SoC 的成本是非常高的。而對於邊緣端來說,AI 大模型的應用場景是十分多變的,不同垂直場景下往往需要不同的 SoC 功能和 AI 算力組態。如果用傳統 SoC 的設計方法為每個應用場景提供最適合的算力,以及具備最佳性價比的 AI 晶片方案,很可能需要設計和生產很多規格的 AI SoC,導致研發成本很高。但是由於每個特定規格的 AI SoC 晶片銷量又不一定能確保晶片廠商收回研發成本,這就給 AI SoC 產品的算力規劃帶來了一些困難。”原鋼表示。

“用傳統 SoC 的設計方法去滿足大模型時代的 AI 算力需求有著諸多問題,而基於芯粒的方法可以把 AI 計算部分作為一個獨立的可擴展選項,使用傳統 SoC 和單獨的 AI 芯粒在晶片封裝設計層面進行整合。SoC 和 AI 芯粒可以分開設計和演進,通過搭配不同規格、數量的芯粒,滿足不同場景不同算力需求。”他指出。

在資料中心領域,計算密度是一個很重要的指標,計算密度體現了在單位佔地面積下資料中心的伺服器能處理多少資料。對客戶而言,在一個固定空間內能容納的計算能力越高,其所需要承擔的購買或租用物理空間的價格就越低。國際頂級資料中心晶片巨頭如輝達、英特爾以及 AMD 等都在想辦法提高單顆 CPU 和 GPU 的計算性能,提高計算密度。提高單晶片計算密度的傳統方法是把晶片儘量做大,比如輝達的頂級 GPU,基本都把光罩(reticle)的有效面積用到了極致,所製造出的晶片 Die size 接近常規製造工藝物理極限。

“這種做法的缺點就是龐大的研發費用和比較低的生產良率,因此Xilinx在將近10年之前就用芯粒的方法來製造超大容量的 FPGA,而 AMD 也在很早之前就開始採用芯粒的方法來製造超多核數的伺服器端 CPU,這些基於芯粒來提高計算密度的做法取得了巨大的商業成功,同時很好地控制了研發成本。”原鋼說道,“我們看到,輝達在它最新的 Blackwell 產品中終於也採用了芯粒技術來進一步提高 GPU 的計算密度。”


圖|AMD MI300,採用 Chiplet 技術整合了 1460 億個電晶體,AMD 史上最大晶片(來源:amd-cdna-3-white-paper)


“目前,國內的晶片製造工藝受到了一些限制,還處於努力追趕國際先進製程技術的過程中。就國內而言,現階段想要提升算力密度,採用芯粒的方法是一條切實可行的技術路線。從封裝級、板級和系統級提高算力密度,能夠部分降低對於先進製程工藝的依賴,同時降低流片成本。”他指出。

“目前大模型的部分推理計算需求正在從雲端向邊緣端遷移,類似於 AMD、英特爾、高通等廠商目前正在力推的AI PC就是一個典型的例子,我們認為未來邊緣端大模型推理計算的需求會非常旺盛。”原鋼說道。

“然而,目前市面能夠為多模態大模型推理提供足夠算力的 SoC 還非常少。我們的策略是選擇從芯粒切入,與研發 SoC 的合作夥伴開展合作。比如,將我們的 AI 芯粒與其他公司的 SoC 芯粒進行合封或是 PCB 級互聯來推出完整的 AI 方案。整體而言,對比傳統的 AI SoC 設計方法,基於芯粒方法的解決方案在研發成本、生產成本、算力靈活性、能效比、以及實現自主可控等方面都更具優勢。”他總結道。


圖|原粒半導體的 AI 芯粒配合 SoC 實現大模型端側推理(來源:受訪者)


為大模型推理專門最佳化實現更佳能效比和成本控制

原粒半導體自成立以來已經完成了多個方面的里程碑。據介紹,融資方面,公司已經完成種子輪、天使輪兩輪融資,投資方包括英諾天使、中關村發展集團、中科創星、一維創投、清科創投、華峰集團、水木清華校友種子基金等。

“目前我們的核心 AI IP 研發進展順利,設計基本完成,正處於全面驗證階段。AI 芯粒產品也會在明年和大家見面。”原鋼介紹道,“目前大模型的應用場景正處於爆發前夜,我們希望在合適的時間準備好合適的大模型算力硬體,為智能座艙、具身智慧型手機器人、AI PC 以及資料中心等眾多領域提供完善的解決方案。中國人的想像力非常豐富,未來大模型的應用場景和落地產品也一定會十分豐富。”

技術層面,原粒半導體聚焦於研發兩項關鍵技術,多模態AI計算核心(CalCore)和 AI 算力融合架構(CalFusion)。具體而言,CalCore 可適應當前多樣性的 AI 演算法發展趨勢,除了針對多模態大模型等新興演算法進行深度最佳化,也保持了對傳統 CNN 等演算法的良好支援。CalFusion 能夠支援多層次靈活的計算核心融合和擴展,可以利用多顆CalCore 芯粒或晶片在封裝基板層面以及 PCB 層面進行堆疊和擴展,建構不同算力的 AI 解決方案,滿足不同規格和成本需求的各種應用場景。


圖|CalCore 和 CalFusion(來源:受訪者)


圍繞基於芯粒方法的 AI 算力晶片,原粒半導體提出了“積木式架構”。“所謂積木式架構,就是原粒的 AI 芯粒產品可以根據不同客戶的不同功能、算力、功耗、成本等需求進行組合,實現一個較為靈活的組態。”原鋼解釋說,“大模型時代對於算力需求越來越多樣化,從邊緣端來講,積木式架構能夠很好的契合各種應用場景,推出多種靈活的算力組態方案,有效控製成本,實現一個最優的解決方案。”

在原鋼看來,架構創新是原粒半導體的核心競爭優勢之一,原粒專門為大模型的推理應用進行最佳化的 AI 計算核心和互聯架構,能夠實現更高的性能和更低的成本,這會是原粒半導體呈現給客戶的核心價值。“同時,相比國外巨頭,我們可能也更親民。”原鋼表示,“全球 AI 應用層面創新還得看中國,國內有非常龐大的消費市場,要服務好這個市場,AI 晶片公司需要滿足國內市場的各種嚴苛要求,比如對於特異化功能、低成本、周邊配套器件適配等的各種需求。在這些方面,國內晶片廠商往往更具優勢,本地化的技術支援和快速的市場響應會給客戶終端產品的開髮帶來不少便捷。”

訪談接近尾聲,原鋼總結說:“展望未來,大模型應用會持續演進,最終會無處不在。原粒半導體的 AI 芯粒產品也將順應潮流不斷迭代,基於技術趨勢和市場反饋進行及時的調整最佳化,緊跟客戶對於演算法、算力、成本、功耗、以及應用領域的需求。我們希望未來在雲邊端等任何一個需要 AI 算力的場景,原粒都能做到用更低的成本提供更高的性能,給客戶和 AI 產業帶來價值。” (問芯)