官方認證
RexAA
全球科技產業觀察者
Google新出的量子晶片Willow,真的能逆天改命嗎?
Willow在量子糾錯和隨機電路採樣(RCS)方面達到了同類最佳性能。Google認為RCS應作為評判所有量子電腦的指標,而IBM、霍尼韋爾等其他科技巨頭採用量子體積作為評判標準。Willow晶片的規格表中,並沒有提到量子體積。 Google剛剛宣佈了其最新的量子計算晶片Willow,在全球科技界引起了巨大的轟動。 官方宣稱,這塊小小的晶片,能在五分鐘內完成超級電腦需要億萬年才能搞定的計算任務。消息一出,連馬斯克都驚嘆一聲“哇塞” ! 聽起來是不是有點科幻?但這就是量子計算的魅力所在。 01 Google稱霸量子界? 與之前Google聲稱其量子電腦Sycamore實現“量子霸權”不同,Google沒有宣稱Willow實現了“量子霸權”,而是強調了其在“超越經典計算”方面的成就。 2019年,Google公開亮相其上一代量子電腦Sycamore,並宣傳它僅用200秒就完成了一項計算,而這項計算理論上需要當時世界上最快的超級電腦10000年才能完成。 Willow晶片擁有105個量子位元,這使得它在量子糾錯和隨機電路採樣(RCS)方面達到了同類最佳性能。 在RCS基準測試中,Willow晶片在不到5分鐘的時間內完成了一項標準計算,而這項計算對於目前最快的超級電腦來說,需要超過10^25年——不僅遠超宇宙的年齡,也遠遠超出了我們對傳統計算能力的理解。 02 一場RCS和量子體積的較量 Google試圖強調RCS的性能應該是評判所有量子電腦的指標。根據Google量子人工智慧的創始人Hartmut Neven的說法,“這是一個起點。如果你們在隨機電路採樣上不能取勝,那麼在任何其他演算法上也不能取勝。” 他補充說,RCS“現在在量子計算領域被廣泛用作標準”。 然而,包括IBM和霍尼韋爾在內的其他公司,採用量子體積作為評判標準。量子體積表示可以在系統上執行的最大等寬度深度的隨機電路,操作保真度越高,量子體積就越大。 它們聲稱,量子體積能夠通過考慮量子位元之間的相互作用,更全面地理解機器的能力。遺憾的是,在Google分享的Willow晶片的規格表中,並沒有提到量子體積,這導致技術之間的比較變得困難。 03 低於閾值的錯誤率 最令人印象深刻的是,根據Google的最新聲明,Willow是首個在增加量子位元數量的同時能夠降低錯誤率的量子系統。 迄今為止,困擾所有建構實用量子電腦嘗試的問題是,它們所基於的量子位元難以控制。它們僅能保持量子狀態幾秒鐘的一小部分,而且加入系統的量子位元越多,產生錯誤的可能性就越大。 然而,Google表示,隨著向系統中新增更多量子位元,他們已經找到了減少錯誤的方法。據Google稱,Willow是第一個實現這一點的系統。 “作為第一個低於閾值的系統,這是迄今為止建構的最令人信服的可擴展邏輯量子位元原型。這是一個強有力的跡象,表明確實可以建構出實用的、大型的量子電腦,”Neven說,“Willow讓我們更接近於運行那些在傳統電腦上無法複製的實用、商業相關的演算法。” 04 Willow能幹啥? 儘管Willow晶片在理論上展示了驚人的計算能力,但Google也承認,要實現這些能力在實際應用中的轉化,還有更多的工作要做。 Neven表示,Willow晶片的糾錯能力和超越經典的計算能力使我們更接近一個可以提供商業應用的系統。這些應用包括幫助發現新藥、設計更高效的電動汽車電池,以及加速核聚變和新能源替代的進展。 (硬AI)
太震撼了!美國Sora新版本發佈,留給“中國Sora”們的時間不多了
“改變世界的產品”來了。 鈦媒體AGI獲悉,台北時間12月10日凌晨,美國OpenAI公司推出 AI 文生視訊模型Sora的新版本Sora Turbo,稱其比2月預覽的Sora模型更快,可生成最高1080p解析度、最長20秒視訊,支援使用者輸入文字或上傳圖像,並上線全新UI介面,以便對生成視訊進行修改、建立、擴展、循環、混合,或用文字生成全新的內容。 水母在天空中飛翔(圖片來源:sora官網) OpenAI稱,Sora Turbo將免費提供給ChatGPT Plus和Pro使用者,Plus使用者每月最多可以生成50個480p解析度視訊,每月20美元(約合人民幣145元);Pro訂閱者則最多可生成500個視訊,並支援20秒時長、1080p解析度,可下載無水印版視訊,對應每月費用200美元(約合1450元)。 作為OpenAI的重要世界模擬器,你可以看到,上面這組Sora演示畫面能夠實現一致性和動作連貫性,流暢度也比之前Sora預覽版高很多。 OpenAI CEO奧爾特曼(Sam Altman)表示,“視訊對 OpenAI 來說很重要,我想分享三點:首先,我們熱衷於為創作者打造工具。這種創造文化對我們至關重要,也是我們希望人類利用 AI 的方式之一。在早期測試者中,我們觀察到一種新型的協作創作動態,這不僅有趣,而且顯示了 AI 創意工具的潛在使用模式;第二,我們不希望這個世界只是科技。如果 AI 系統主要通過文字來與人互動,我認為我們錯過了一些重要的東西。我們希望我們的 AI 能理解並生成視訊,我認為這將深刻改變我們使用電腦的方式;第三,這對我們的AGI路線圖至關重要。視訊將是一個重要的環境,我們或AI將在這裡學習到很多關於如何實現我們在世界上所需的目標。” 國內對於此次Sora Turbo的發佈看法不一。 多位 AI 行業人士向鈦媒體App表示,這是改變下一個 AI 視訊生成領域的新契機。也有 AI 視訊領域技術專家王海(匿名)對鈦媒體App坦言,“此前先機都已經被OpenAI‘清零’,今天對於國產AI視訊生成行業來說可能是一場‘噩夢’。” 事實上,隨著Sora預覽版公佈,過去300多天引爆了全球 AI 視訊創業熱潮,國外Runway、Pika、HeyGen都曾聲稱可以超越Sora,字節、快手、阿里、騰訊等網際網路科技巨頭也紛紛公佈 AI 視訊產品,使用者超過百萬;智譜、生數、愛詩科技、智象未來等AI 視訊初創公司則已經開始從產品轉向商業化。AI 短劇導演陳坤曾透露,AI使得的製作周期從通常的3-6個月縮短到了2個月,成本達到傳統製作流程的1/4以下。 生數科技聯合創始人、CEO唐家渝早前向鈦媒體App表示,“整體上來講,我們(中國)追趕Sora肯定比追趕GPT-4容易一些。今年一定能達到Sora目前版本的效果,很難說是三個月還是半年(笑),但這件事我們的信心還是非常足的。” 一場與Sora的中美 AI 視訊生成競爭已經爆發。 生成一個視訊0.75元、市場規模將超180億,視訊大模型正加速競賽 “為什麼AI視訊生成這種產品,優愛騰(優酷、愛奇藝、騰訊視訊)和B站不做,卻被快手可靈做了出來?” 早前一場私下討論中,有投資人對一位即將做 AI 視訊生成的創業者進行上述質詢。他認為,這輪 AI 視訊生成的機會已經與傳統網際網路視訊領域有很大不同,優酷、愛奇藝、騰訊視訊都不再做 AI 視訊領域,但影視行業卻看到了發展需求。 2024年2月,OpenAI發佈視訊生成模型Sora,首次由 AI 生成了長達1分鐘的多鏡頭長視訊,輸入寥寥數語便能生成效果炸裂視訊,鏡頭感堪比電影,震驚全球。 隨後,全球掀起了一場關於Sora的討論風暴,猶如兩年前的ChatGPT爆火,大量 AI 公司以做“中國版Sora”為目標,眾多企業、教授、網際網路大廠都下場參與其中。 清華大學電腦科學與技術系博世AI教授、生數科技創始人兼首席科學家朱軍,曾任字節跳動AI Lab總監、愛詩科技創始人王長虎,前京東集團副總裁、加拿大工程院外籍院士、智象未來創始人梅濤,新加坡國立大學校長青年教授、潞晨科技創始人尤洋等人都已進入 AI 視訊這一“紅海”賽道當中創業。 事實上,紅杉資本2023年發佈的一篇關於生成式 AI 發展處理程序的預測報告中表明,在歷經文生文、文生圖的升級迭代後,底層大模型技術迭代放緩,因此,視訊方向將是 AI 領域需要重點關注的方向之一,因為視訊雜糅了文字、語音、圖像等多維度內容,有更多的想像空間。 所謂生成式 AI 視訊生成,就是通過電腦視覺、機器學習、ViT架構等多種AI技術手段,可實現視訊內容生成過程的自動化。 無論是文生視訊,還是圖生視訊、視訊生視訊,AI 驅動的視訊生成工具的使用不斷增加,將有助於增強視訊製作工作流程,為影視、遊戲、培訓與教育、行銷與廣告、社交媒體等領域發展提供更多增長空間。 據Fortunebusinessinsights資料,2024年,全球 AI 視訊生成市場規模預計達6.148億美元,預計到2032年,整個市場規模將超過180億元,增至25.629億美元(約合人民幣186.36億元),年複合增長率19.5%,市場前景廣闊。 早在Sora發佈之前,2023年1月起,Runway、Genmo、輝達、Pika等海外公司都迅速公佈 AI 視訊生成和多模態技術產品。而隨著Sora爆火,AI+視訊技術和產品正在迅猛升級迭代,諸如電影、廣告、視訊剪輯、視訊串流媒體平台、UGC 創作平台、短影片綜合平台等眾多行業有望受益。 截至目前,國內 AI 視訊生成參與方主要分為三類: 智譜、生數科技(清華系)、愛詩科技、智象未來HiDream(中科大系)等初創公司和產業鏈上下游企業; 快手、字節跳動、騰訊、阿里等擁有短影片和 AI 技術的網際網路科技龍頭; TeleAI、智源等央國企搭建的AI研究院和新型研發機構。 在這其中,智譜、生數、愛詩科技、智象未來這些初創公司都已經從技術迭代轉向了商業化變現,而快手、騰訊、阿里都已逐步為C端提供服務,像騰訊已表達“不急於商業化”的態度。 商業化層面,AI視訊生成提供To C端、To B端服務兩種。如今,不少AI產品已經開始進軍海外,並且推出了較為完備的會員付費體系,快速進行商業化變現。 C端層面,快手可靈、字節即夢、智譜清影、生數Vidu都提供每月的付費服務,或者是有一定限額免費生成AI視訊;而B端層面,快手可靈、字節即夢(火山引擎)、生數Vidu、愛詩科技、智象未來等都提供API介面和相關解決方案服務。 以愛詩科技為例。 愛詩科技銷售負責人王平(化名)告訴鈦媒體App,其主要售賣長達5秒的PixVerse V3和V2.5版本,V2.5版本價格低至每次呼叫API價格為0.75元/張,一次生成5張左右,也就是3.75元;V3版本提供2倍的價格,即每次呼叫API價格為1.5元/張,也是一次生成5張,也就是7.5元一次,如果有新功能價格則增加一倍。 同時,愛詩科技需要與企業簽訂電子版合作協議,預付費價格包括1.5萬元/3萬元/12萬元幾個檔位,最高可享受8折優惠,如果有新功能價格則增加一倍,當然這也包括一些合同時間限制。 王平強調,愛詩科技這種價格檔位是行業裡面最低的,低於其他競爭對手(生數、可靈)的報價,但性能效果和其他同行差不多。 唐家渝透露,目前生數Vidu To B版本向每位客戶(API)的每月使用費可以從10萬到100萬元,大部分是預付費方式,客戶包括影視、網際網路、行銷廣告等領域;而To C端,Vidu提供免費版和3種收費機制,按月度訂閱,標準版、高級版、尊享版價格依次為19.99美元、59.99美元、199.99美元(約合人民幣145.22元、435.80元、1452.83元),按年訂閱價格95.99美元起,可去水印和商用,並且擁有更多新功能。 同樣是清華系的智譜AI,公佈支援生成6秒時長的 AI 視訊生成產品“清影”,目前也已經公開測試和開源,付費模式層面,如果加速時間,付費5元,解鎖一天(24小時)的高速通道權益;付費199元,解鎖一年的付費高速通道權益。 然而,由於技術尚未足夠成熟,目前市面上的文生視訊模型仍然存在一些缺陷。 例如,生成視訊在畫質、細節、真實感等方面仍與真實視訊存在差距,且使用者對視訊生成過程的控制能力有限,只能通過修改文字提示來間接影響視訊生成效果,而文字與視訊的語義匹配度不足,也會導致生成效果不及使用者預期。 此外,國內 AI 視訊生成產業鏈依然不成熟,面臨算力稀缺、資料需要多輪訓練等情況。而且,AI 視訊成本也很高,整個經濟下行導致市場需求低於預期,很多企業已經把商業化轉向了KA級大客戶和大項目,但這種大型項目回款較難,所以生數、智譜等 AI 企業都在其中尋找“商業化平衡”。 鈦媒體App則瞭解到,有一家國內 AI 視訊生成公司於去年成立,就已經從企業客戶處獲得4000萬元的收入,今年預計該公司銷售收入將超過1億元,原因是他們盯上了一塊更大的蛋糕:AI 短劇市場。 短劇近年來太火,打開App Store應用程式商店,榜首基本被短劇應用霸佔。使用者就愛這種幾分鐘的“快餐”,劇情快,看著過癮。市場規模方面,2023年,短劇就已經到了373.9億元,比前年暴增267.65%,這一數字已經頂得上電影票房的七成了,今年預計還要突破500億,直逼電影市場。 有行業人士私下向鈦媒體AGI解釋稱,越南等東南亞市場擁有大量短影片和短劇市場需求,很多連續劇需要配音翻譯、非事實性視訊輸出,這些都已需要 AI 視訊技術的加持,目前AI短劇單一訂單價格基本在數億元規模。 多位 AI 領域行業人士表示,目前初創企業對於項目的商業“轉化率”要求越來越高,而且對於商業化訴求極為強烈,有一些 AI 視訊生成企業甚至進入到上游算力賽道、下游影視公司賽道進行議價,通過“打包”方式獲得更大的機會點。 AI生成視訊仍無法徹底替代影視行業 “為什麼美國的網際網路大廠,沒有每個人都做一個視訊生成模型,而中國的騰訊、字節卻在做?”最近,一位AI視訊行業人士向鈦媒體App吐槽稱,國內 AI 視訊生成領域也開始“卷”起來了,價格戰、輿論戰、銷售戰都在爆發,但微軟、Google、Meta這些美國科技巨頭卻沒有任何視訊模型產品。 很顯然,從算力、演算法和資料成本角度考量,中國網際網路巨頭進入 AI 視訊大模型領域,加速商業化,尋找落地場景,已經與美國 AI 視訊領域出現不同的“打法”。 智譜AI CEO張鵬則認為,AI生成視訊無法徹底替代影視行業,真正進入電影尚需時日。“AI行業對多模態模型的探索還處於初級階段。” 但 AI 視訊“替代”之路正無限接近成為現實。 12月4日晚,GoogleDeepMind團隊發佈大型基礎世界模型Genie 2,聲稱可以生成各種一致的世界,可玩時間長達一分鐘,無論是視訊生成效果,還是表現形式,都超出了普通AI視訊生成的水平。 事實上,相對於OpenAI、Luma AI這些視訊模型、多模態模型平台,Google、Meta等巨頭都在瞄準一個 AI 未來的賽道:世界模型,而非多模態技術。而Google在今年5月發佈的AI視訊模型Veo如今已經開始內測。 此外,作為AI領域影響力最大的女性華人之一,斯坦福大學教授李飛飛於當地時間12月2日公佈了其首個創業項目World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。 在World Labs網站的演示裡,由AI生成的場景均通過瀏覽器即時渲染而成,使用者可以使用箭頭鍵或鍵盤(WASD)鍵移動,然後點選並拖動滑鼠實現互動,從而自由探索場景。World Labs的AI工具配備了可操控的滑塊來調節模擬景深(DoF)與模擬推拉變焦(dolly zoom),當使用者將景深效果調至越強時,背景中的物體便會越發模糊,為整個視覺體驗增添了更多層次感與真實感。 如今,AI 視訊取代傳統影視製作的潮流已勢不可擋。 今年6月,繼好萊塢編劇在大罷工中要求限制AI撰寫劇本之後,代表好萊塢演員權益的美國演員工會-美國電視和廣播藝人聯合會(SAG-AFTRA)表示,AI 在影視行業確有用武之地,但必須在演員同意並付費的前提下使用,譬如在電腦生成的動作、表情捕捉畫面上,“AI應該是輔助、增強人類,而不是取代人類”。 因此,美國演員工會認為,應該在影視製作中約束 AI 的使用,以便保護好“人類員工”。就在今年12月,好萊塢級AI視訊《Dream Machine》預告片公佈,引發關注。 回到國內,今年12月3日,騰訊混元大模型宣佈上線文生視訊(text-to-video)能力,基於130億參數,成為國內規模最大AI視訊模型,並聲稱模型效果擊敗Runway Gen-3、Luma 1.6等;同日,中國電信公佈文生視訊產品。 如今,隨著 Sora Turbo的發展,AI 視訊生成這一新興市場競爭將更為激烈。 留給“中國版Sora”們趕超的時間真的不多了。 (鈦媒體AGI)
先進封裝,台積電最新分享
在人工智慧和機器學習(AI/ML)對計算性能要求呈指數級增長的推動下,使用 2.5D 和 3D 先進封裝技術進行晶片整合的需求激增。本文回顧了這些先進的封裝技術,並強調了高頻寬晶片互連的關鍵設計考慮因素,這對高效整合至關重要。我們探討了與頻寬密度、能效、電遷移、電源完整性和訊號完整性相關的挑戰。 為避免功耗開銷,晶片組互連架構設計得儘可能簡單,採用帶有前向時鐘的平行資料匯流排。然而,要實現高產製造和強勁性能,仍需要在設計和技術協同最佳化方面做出巨大努力。儘管存在這些挑戰,但在強大的晶片組生態系統和新穎的 3D-IC 設計方法的推動下,半導體行業有望實現持續增長和創新。 引 言 對人工智慧(AI)和機器學習(ML)技術的需求正以前所未有的速度增長,遠遠超過了摩爾定律所預測的速度。如圖 1 所示,自 2012 年以來,用於人工智慧訓練的計算量以每年 4.1 倍的速度呈指數增長,超過了摩爾定律每 24 個月翻一番的預測。深度學習模型參數數量的增加提高了模型的靈活性和潛在性能,推動了模型複雜度的快速增長。然而,這種擴張速度在經濟上(訓練成本)、技術上(電腦叢集規模)和環境上(碳足跡)都變得不可持續。 為了部分滿足不斷升級的計算需求,必須關注演算法效率和半導體擴展方面的進步,不僅要實現更高的計算性能,還要實現高能效的計算性能。人工智慧工作負載需要大量平行矩陣乘法和累加運算,這些運算由平行計算核心叢集執行。這些工作負載需要大量記憶體容量和高互連頻寬。為了滿足這種計算需求,如今典型的 xPU/加速器晶片可能由許多計算、記憶體和 IO 晶片組成,並採用先進的封裝技術進行整合。每個晶片都是在光刻機的光掩膜限制(即網罩尺寸(photomask limit or reticle size),26 x 33 平方毫米)內設計的。 圖 1. 訓練 ML 模型所用計算量的變化趨勢 晶片的使用有幾個顯著的優點。通過將大型單片晶片分解為更小、良率可控的晶片,設計人員可以定製不同的工藝技術,以最佳化特定功能,例如,使用最先進的工藝節點製造計算晶片,而使用老一代工藝節點製造以模擬為中心的 IO 晶片和儲存器晶片。這種模組化方法不僅簡化了製造流程,還有利於快速系統整合,尤其是在使用標準化晶片介面時。通過利用現成的晶片,這種方法有望大大降低製造成本和設計周期。 隨著基於晶片的封裝系統規模和複雜性的增長,三維整合和晶圓級系統整合將帶來卓越的能效、優異的性能和更高的成本效益。然而,設計人員在每一代產品中都熟悉的幾個關鍵問題,在當今更大、更複雜的晶片系統中仍然構成重大挑戰。這些挑戰包括熱設計功率(TDP)、功率傳輸網路(PDN)損耗、機械和熱應力、網路拓撲和路由演算法、互連吞吐量、能效、延遲、可製造性、冗餘和可修復性、可測試性等。應對這些挑戰對於確保先進半導體解決方案的性能和良率至關重要。 本文結構如下。第二節概述了先進的封裝技術。第三節討論大型 CPU/GPU 擴展系統中各種封裝技術的晶片到晶片互連。第四節深入探討晶片組互連設計的實際問題,如序列介面與平行介面、晶片組 I/F 訊號、通道路由和訊號完整性、凸點圖規劃、時鐘方案、缺陷修復、ESD 路線圖和電源傳輸。第五部分介紹了全面的 3DIC 設計流程。最後,第六部分探討了未來的發展趨勢。 先進封裝技術與新能力 總統而言,先進封裝技術可分為 2D、2.xD(包括 2.1D、2.3D 和 2.5D)和 3D 封裝技術。 根據這一分類,如果晶片直接放置在封裝基板上,則被視為 2D 封裝。如果使用中介層,如薄膜、橋接器或無源中介層,則屬於 2.xD 類別。具體來說,如果中間層是帶有硅通孔(TSV)的有源晶片,則屬於 3D 封裝。 雖然這種分類很直觀,但也有一定的隨意性。隨著封裝技術的不斷髮展,這些類別之間的界限可能會變得越來越模糊。為了簡化討論,大多數 2.xD 中間技術通常被歸入 2.5D 類別。此外,2D、2.5D 和 3D 整合技術也有可能在先進封裝解決方案中並存,廣義上的 3D-IC 就是指這些解決方案。無論如何區分,主要重點仍然是利用這些技術實現半導體器件的卓越性能、效率和功能。 圖 2 展示了台積電不斷髮展的 3DFabric技術組合。作為廣泛採用的先進封裝技術的一個例子,3DFabric 是一套全面的整合技術,可將多個晶片整合在一起,物理距離更近,互連密度更高,而且全部由單一供應商提供。這種整合技術可實現更小的外形尺寸、更好的電氣性能和更高的資料頻寬。更重要的是,這些技術允許系統設計人員將以前的單片系統晶片分割成晶片組,並在封裝內建構功能更強大的系統。不同的 3DFabric 封裝選項保持了一致性。這種一致性是有益的,因為 3D-IC 的複雜性要求與可製造性有關的設計規則在大批次製造之前是相容和一致的。 圖 2. 台積公司 3DFabric 技術組合 不同的應用領域產生了兩種不同的封裝平台。第一個是片上基板(CoWoS)平台,該平台自 2012 年起投入生產,主要用於高性能計算。它有 3 個子系列。CoWoS-S 具有硅中介層(silicon interposer),允許使用非常密集的金屬線(W/S = 0.4/0.4µm)。CoWoS-R的再分佈層(RDL)嵌入在有機中介軟體中,布線密度較粗(W/S = 2/2µm)。CoWoS-L  結合了 -R 和 -S 的優點:局部硅互連 (LSI) 可實現高布線密度,有機基板中的再分佈層 (RDL) 可實現更好的電氣性能。其中,CoWoS-S或CoWoS-L選項還在硅互聯器或橋中嵌入了深溝去耦電容(DTC:deep-trench decoupling capacitors),以增強功率傳輸。 第二種是整合風扇輸出(InFO)平台。InFO 自 2016 年起開始量產,最初是受具有成本效益的移動應用驅動。InFO 封裝上封裝(InFO-PoP)是首個使用細間距銅 RDL 將 SoC 與儲存器封裝整合的 3D Fan-Out 晶圓級封裝。由於其成本、外形尺寸和更好的訊號完整性,InFO 技術已發展出許多變體,並在很大程度上擴展了 HPC 應用中更多功能晶片的整合。InFO 平台還具有先進的選項,如用於更細間距金屬布線的本地硅橋,以及用於卓越功率傳輸的嵌入式去耦電容器。InFO 是一種晶片優先(chips first)方法,晶片面朝下放置在臨時載體上,然後在其周圍建立 RDL。 另一方面,CoWoS 是一種晶片後置(chips last)方法,首先製造晶片,然後將其放置到硅中介層上,再將中介層連接到基板上。製造步驟的這種區別會影響整合密度和熱管理。具體來說,在晶片先行方法中,硅將在隨後的周期中經歷熱循環。後期步驟缺陷的成本也明顯高於晶片後置法。 三維堆疊技術已廣泛應用於記憶體產品,包括高頻寬記憶體(HBM)和 NAND 快閃記憶體,並被晶片製造商採用以提高計算密度和資料頻寬。整合晶片系統(SoIC)就是用於這種三維晶片堆疊。它包括帶有微凸塊的 SoIC-P(間距為 18 至 25 微米)和帶有高級鍵合的 SoIC-X(間距為 3 至 9 微米或以下)。 SoIC 實現了垂直堆疊組態中多個晶片的無縫整合,為系統設計和性能最佳化提供了新的可能性。 此外,SoIC 還可與 CoWoS 或 InFO 結合,形成功能更強大、更靈活的電腦系統。 晶片製造商和外包半導體組裝與測試 (OSAT) 提供商提供了一系列先進的封裝技術 ,每種技術在訊號完整性、互連密度、可製造性和熱管理方面都有獨特的(不)優勢和權衡。例如,英特爾的嵌入式多晶片互連橋接器(EMIB)和 AMD 的高架扇出式橋接器(EFB),都採用了無 TSV 的高密度無源橋接器,並輔以額外的 RDL 來增強電源完整性。特定封裝技術的選擇取決於具體的應用要求和所需的性能特徵,尤其是在高性能計算中,速度和能效至關重要。這也給互連設計帶來了限制和挑戰,下文將對此進行探討。 Die to Die互連應用 圖 3 顯示了從凸點間距擴展的角度來看晶片封裝的演變過程,從傳統的 2D 標準封裝類型或凸點間距為 110~130µm 的多晶片模組 (MCM),到間距為 ~40µm 的 2.5D 高級封裝類型(如 CoWoS/InFO),再到間距小於 9µm 的 3D 晶圓上晶片或晶圓上晶片類型(如 SoIC)。隨著凸塊間距的減小,在給定面積內晶片到晶片訊號的數量會以四倍的速度增加,從而提高頻寬密度。 在間距縮放的背景下,電路架構的選擇在很大程度上取決於可達到的範圍、頻寬、能效和延遲等因素。例如,MCM 封裝中通常使用工作頻率約為 56/112Gbps 的高速序列器/解串器(SerDes),以最大限度地提高每個引腳的資料傳輸率。相比之下,2.5D 中介層通常採用高速平行資料匯流排,因為它們具有更高的能效和面積效率。與此同時,先進的 3D 堆疊技術最受益於簡單、低速的資料匯流排,這種匯流排使用最少的 CMOS 緩衝器(buffers)和觸發器(flip-flops),沒有均衡器(equalizer)或校準電路(calibration circuits),從而實現了最佳的面積頻寬密度和能效。 圖 3. 凸塊間距縮放透檢視(XSR(extreme short reach):極短距離,UCIe(Universal Chiplets Interconnect Express):通用晶片互連快線) 圖 4 描述了多個晶片用於人工智慧應用的計算性能擴展和縮小的示例。Chiplet之間的die-to-die互連可分為四種類型:1) 計算到計算和計算到 IO:採用 CoWoS/InFO 技術的 UCIeTM PHY,2) 計算到記憶體:(在CoWoS技術上的HBM PHY) 3) 計算到 SRAM:採用 SoIC 技術的 3D 堆疊;以及 4) IO chiplet 到外部 IO:採用標準封裝技術的 XSR-Serdes。 圖 4. Die-to-die 的互連應用 目前最廣泛使用的人工智慧加速器都採用這種拓撲結構,以最大限度地提高計算性能和記憶體訪問頻寬。晶圓級系統等競爭技術讓我們看到了未來計算系統的可能候選者。這些系統的互連和網路拓撲結構也需要相應發展,以滿足系統性能需求。 Chiplet互連設計考慮因素 A. Chiplet互連設計目標和 DTCO 將以前的單片 SoC 分解為多個 chiplet,由高頻寬晶片組互連連接,可實現更靈活的系統分區,提高良率,並利用現成的晶片組縮短周轉時間。Chiplet介面的標準化是一個重要的里程碑,UCIe就是一個例子。 在此之前,業界採用了幾種晶片介面來滿足晶片系統的要求,強調高頻寬密度、低延遲和高能效。著名的例子包括高級互連匯流排(AIB:Advanced Interconnect Bus)、束線(BoW:Bunch of Wires)、開放式高頻寬介面(OpenHBI:Open High Bandwidth Interface)和 Lipincon(台積電專有)。 圖 5 全面概述了多方面的設計和技術協同最佳化 (DTCO),旨在滿足基於 2.5D 或 3D 晶片的系統中高速互連的性能和製造目標。DTCO 的範圍涵蓋了廣泛的考慮因素,包括但不限於以下方面: 1、器件級最佳化:重點是提高電晶體頻寬和噪聲性能,從而提高 IO 能效。 2、封裝最佳化:通過平衡線間距、層厚度和通孔封裝等關鍵參數來最佳化中介軟體上的封裝設計規則,對電源完整性(PI)、訊號完整性(SI)、可布線性和可製造性至關重要。 3、ESD:在晶片系統的 ESD 保護和 ESD 建模方面出現了新的挑戰。必須仔細評估先進封裝的 ESD 額定值,以確保 ESD 面積和電容開銷不會妨礙 IO 能效。 4、電源傳輸網路 (PDN):這需要管理電遷移(EM)和紅外電壓降、電壓驟降以及源於電源傳輸的串擾。 5、熱管理:主要挑戰包括精準模擬熱點,緩解熱循環引起的問題,如時序漂移、機械應力和電遷移。這涉及在設計階段[51]或執行階段[52]實施解決方案,將器件保持在安全溫度範圍內,從而保持性能、可靠性和使用壽命。 6、設計可測試性、可修復性和可靠性:確保這些方面有助於實現有效的短期測試和長期使用壽命,這對產品的成功至關重要。 7、設計簽核流程:高效的人工智慧輔助 EDA 工具和流程對於提高生產率和最佳化越來越重要。 圖 5. Chiplet 互連設計考慮因素 B. 序列與平行資料匯流排 採用標準封裝(MCM 或 2D)時,訊號凸塊和金屬線的間距較粗。如圖 6-a 所示,人們不得不使用帶差分訊號的序列鏈路(如 PCIe-32/64Gbps、CEI-112/224Gbps),最大限度地提高每個引腳的資料頻寬密度。 先進的封裝技術(2.5D)允許在每個訊號引腳上使用較低的資料傳輸速率,而在單位幾何尺寸上使用更多的平行單端訊號,以最大限度地提高海濱頻寬密度或區域頻寬密度(如 4-32Gbps 的 UCIe x64)。平行介面(圖 6-b)在幾個方面非常突出。 首先,平行介面有一個用於抖動和偏移跟蹤的前向時鐘,無需每線路時鐘資料恢復(CDR)機制,從而降低了系統的複雜性和延遲。其次,平行介面的較低資料速率運行意味著系統受通道損耗、抖動和串擾的影響較小。所需的通道均衡(EQ)更少,從而消除了電路開銷,實現了更高的頻寬密度和更高的能效。 對於三維堆疊,在訊號密度(間距 P ≤ 9μm)下,三維互連電路面積應小於凸塊面積(P2),以最大限度地提高互連效率(頻寬密度*能效)。在這種情況下,平行資料匯流排的速度限製為 5Gbps,以簡化時序。無需校準和適配,從而有效降低了功耗、延遲和面積開銷。UCIe-3D 具有這種精神(圖 6-c)。 圖 6. Die-to-die的互連應用 C. 晶片到晶片的互連訊號 先進的封裝技術使晶片之間的距離更近,減少了互連負載,提高了訊號完整性、資料傳輸速率和能效。非回零 (NRZ:Non-return to zero) 和 4 級脈衝幅度調製 (PAM4) 訊號可能適用於不同的運行速度。在圖 7 中,核心電源(如 Vdd=0.75V)上通常使用 SST(源串聯端接)驅動器,以獲得最佳眼緣和阻抗匹配。有人採用 NFET-NFET 驅動器在低 VDDQ(如 <0.3 伏)下工作,以降低功耗 。然而,在路由資源稀缺的情況下,這種額外的功率域可能並不理想。 當 PAM4 奈奎斯特(Nyquist)頻率比 NRZ 奈奎斯特頻率有顯著的插入損耗優勢時,PAM4 就具有優勢,但它在中間電平消耗直流電流,因此不太適合低損耗高級封裝通道。另一種低功耗驅動器選擇是交流耦合,它可以降低驅動器強度和訊號擺幅,從而降低功耗。同時雙向(SBD)資料傳輸也能使給定海濱的資料頻寬增加一倍。 圖 7. Die-to-die互連訊號:(a)SST 驅動器(b)低 VDDQ NRZ 驅動器(c)交流耦合 [54] (d)同時雙向 [56]。 D. 通道路由性和完整性分析 對於高布線密度(例如,最小間距為 0.4µm),需要適當的訊號間遮蔽,以實現充分的串擾隔離和更好的訊號完整性。 如圖 8 所示,晶圓代工廠內部的通道最佳化涉及許多指標,如介質厚度、金屬間距、金屬厚度、可用金屬層、通孔外殼、堆疊規則等。每種先進技術的中介層都要進行設計和技術的共同最佳化,這通常涉及到推動設計規則,以保持可製造性、可布線性和訊號完整性(SI,包括插入損耗和串擾,如圖所示)之間的良好平衡。 圖 8. 通道路由性和訊號完整性最佳化 圖 9 展示了 UCIe D2D 路由設計的兩個示例,採用兩種不同的代表性封裝和不同的遮蔽方式。InFO(硅橋)具有 2 微米厚金屬的局部硅互連,InFO(有機基板)具有 2.3 微米厚金屬的 RDL。兩者都有 4 層金屬用於訊號路由,另有 1 層用於電源網。前者的金屬寬度/間距粒度更小。由於兩種情況的訊號間距都是 8 微米,前者的金屬遮蔽更寬,訊號與訊號之間的間距稍大。因此,對於 x64 UCIe 外形,前者能夠以 32Gbps 的速度運行,而後者由於串擾更嚴重,只能以 16Gbps 的速度運行 x32 資料通道。 圖 9. 通道最佳化 E. 2.5D 和 3D 外形 一定的互連模組外形尺寸,包括模組幾何形狀、訊號順序、凸塊間距、多模組堆疊等,對於確保不同chiplet供應商之間的整合相容性至關重要。 雖然這種標準化給晶片生態系統帶來了僵化,但卻簡化了 IP 開發--只需支援 IP 的有限變體。不過,需要注意的是,就面積、功耗和成本而言,特定的外形尺寸不一定總是最佳的。 以 UCIe 為例:最初發佈的是 x64(64 Tx + 64 Rx)外形尺寸,隨後又發佈了 x32(32 Tx + 32 Rx)外形尺寸,用於 RDL 層數較少的低成本高級封裝。最初的 10 列模組採用 45 微米凸點間距。為了進一步提高面積效率,該聯盟後來推出了適用於較小凸點間距(<38µm)的 16 柱模組和適用於較大凸點間距(>50µm)的 8 柱模組。這些連續的調整在成本和性能之間取得了平衡,以適應不同應用的不同要求。 當前的 UCIe 協議支援對稱雙向資料收發,是同構 xPU 晶片間資料通訊的典型方式。 相比之下,晶片生態系統的重要組成部分--高頻寬記憶體(HBM)介面卻顯示出非對稱的記憶體訪問(讀/寫)頻寬。為了在不引起嚴重訊號完整性問題的情況下擴展介面頻寬,即將推出的 HBM4 將雙向資料 IO 數量翻了一番,從 1024 個增加到 2048 個。擴展 HBM 以提高頻寬通常會受到路由擁塞和訊號完整性問題的限制。通過將基礎晶片邏輯過渡到先進工藝節點,我們可以縮短互連線路,提高訊號完整性和速度。另外,利用類似 UCIe 的 SerDes IO 作為 HBM 介面,可以用更少的訊號路由實現更高的通道速率,在提高訊號完整性的同時保持相同的頻寬密度。 資料轉換器和邏輯處理器之間的介面是晶片組的另一個重要應用。JESD204D 是定義資料轉換器高速序列介面的最新標準。它包括 ADC(模數轉換器)的資料接收介面和 DAC(數模轉換器)的資料傳送介面。這些標準適用於 PCB 級或多晶片模組晶片整合。不過,用於高級封裝中資料轉換器的晶片組標準尚未制定。 雖然可以設想制定一個通用的晶片組標準,以解決三種獨特類型的系統--同構雙向核心對核心介面、非對稱記憶體訪問介面和單向資料轉換器介面--但每個系統仍需要不同的外形尺寸,以實現最佳性能和效率。 三維堆疊是實現更高能效的自然選擇,這主要是因為較短的晶片間路由大大降低了晶片間資料移動所需的能量。三維互連叢集對於形成具有固有時序穩健性的硬 IP 塊至關重要,如圖 6-c 所示。這種內建的時序穩健性允許模組化時序簽核,確保三維堆疊中每個晶片的時序驗證都能以獨立和自足的方式進行。 在圖 10 中,我們提出了一種 AB|BA 模式的三維叢集結構,其中模式 A 代表發射器(TX),模式 B 代表接收器(RX),反之亦然。正方形的 A/B 圖案可根據系統要求組態成不同大小,如 4x4、8x8 或 20x20。RX 和 TX 時鐘位於各自區域的中心,為每個 I/O 引腳和整個晶片實現了最佳平衡。電源和地線在 IP 叢集內對稱分佈。這種組態的優勢在於,設計具有特定多柵極方向的單個 IP 塊時,假定邏輯級引腳重對應可在Chiplet級輕鬆實現,則該 IP 塊可適應任何Chiplet方向。 圖 10. 通用三維凹凸貼圖外形尺寸 這種結構有助於輕鬆實現 SoC 級可擴展性,通過跨 SoC 的 IP 實例化實現各種chiplet-to-chiplet的堆疊方案。我們為面對面(F2B)和面對面(F2F)連接中的 SoC 級可擴展性提出了四種選擇:X 方向鏡像或階躍,Y 方向鏡像或階躍。 圖 11 展示了兩個整合示例: 1. 案例 1:"X-鏡像/Y-鏡像/D2D 之間的鏡像"--該組態支援所有 F2F 和 F2B die-to-die 堆疊方案。 2. 情況 2:"X-階躍/Y-階躍/D2D 之間無鏡像"--此設定具有跨裸片的相同凸塊對應。它支援 F2F 堆疊,但要求 F2B 堆疊時旋轉 90 度。 圖 11. 支援任意三維晶片堆疊(F2F/F2B 或旋轉)的 SoC 級可擴展性。 這些靈活的整合方法可確保 IP 叢集在各種晶片堆疊組態中得到有效利用,從而提高 SoC 設計的可擴展性和效率。 F. 通道偏移和時鐘對齊 在平行資料匯流排和轉發時鐘拓撲結構的基礎上,還需要對齊資料通道和時鐘通道,從而最大限度地減少通道間的偏移。在凹凸圖規劃中,通過 Tx 和 Rx 之間的反鏡像物理對稱來實現車道與車道之間的匹配。但是,當要連接兩種不同的外形尺寸時,物理對稱性就不成立了。例如,8 列 UCIe 與 10 列 UCIe 介面時,通道本質上是不匹配的。 此外,隨機電路失配和片上/封裝(on-die/on-package)線失配也會增加額外的偏斜。我們需要在葉時鐘樹(eaf clock tree)上為每個通道分配足夠的偏斜調整範圍,以便在發射器和/或接收器上實現每個通道的偏斜校準。接收器上的資料採樣時鐘進一步調整到 Rx 資料眼的中心,以獲得最佳的左眼和右眼余量。 圖 12 展示了用於生成前向時鐘的兩種時鐘拓撲結構。邊緣對齊拓撲(圖 12-a)的資料轉換和時鐘轉換是對齊的;在 Rx 中採用本地 DLL 生成 90 度相移的時鐘,對 Rx 資料眼進行採樣。邊緣對齊拓撲旨在減少電路和提高能效,但它對溫度或電壓漂移引起的不匹配很敏感,因此只適合資料速率較低的應用(如 20Gbps 以下)。延遲匹配拓撲(圖 12-b)在 Tx 端生成 I/Q 時鐘(使用 DLL 或 PLL 和相位中介層),I 時鐘進入資料路徑,Q 時鐘轉發到 Rx。時鐘和資料路徑在結構上相匹配,以保持良好的抖動跟蹤和延遲跟蹤。 圖 12. 邊緣對齊結構與延遲匹配結構的對比 在大多數情況下,傳送die和接收die採用獨立的 PLL 和時鐘域。為了在兩個 PLL 域之間實現穩健的時鐘域交叉,通常需要先進先出 (FIFO) 資料緩衝器,這會產生額外的功耗和延遲(圖 13-a)。對於像核心到記憶體連接這樣的介面,在兩個堆疊晶片之間強制使用單一時鐘域是可行的。在圖 13-b 中,我們提出了一種在兩個裸片之間實現單時鐘域的替代方案,即 PLL1 的主時鐘從主裸片轉發到副裸片,然後再返回主裸片。這樣,3D 晶片到晶片介面就可以在沒有先進先出器的情況下傳輸/接收資料。在第一個捕獲 DFF 邊界處,可以保留與圖 13-a 相同的時序余量。在主晶片的 Rx DFF 之後重新捕獲資料的時序裕量會受到兩個轉發時鐘路徑延遲的輕微影響,但這是可以控制的。 圖 13. 有無 FIFO 的資料同步Fig. G. 冗餘和可修復性 冗餘性和可修復性是微處理器領域廣泛研究的課題。確定了三種不同的冗餘策略: 1、元件級冗餘:這涉及多個平行功能單元,如多個 CPU 核心。在這種安排下,一個或多個核心的故障不會影響系統的整體功能。 2、陣列冗餘:這種類型的冗餘增加了備用結構,可以替代有缺陷的結構。陣列冗餘的常見應用是在高速緩衝儲存器中,用備用元素替代故障元素,以保持性能。 3、動態佇列冗餘:這種方法要求能夠動態地標記和停用有缺陷的元素,從而防止它們的使用並保持系統的完整性。 通過利用這些冗餘策略,處理器可以實現更高的可靠性和更簡易的可修復性,即使在出現故障時也能確保穩定的性能。 由於die-to-die之間是通過密集的微凸塊或高級鍵合連接的,因此缺陷檢測和修復對於保證晶片封裝後的良品率至關重要。上述三種策略都適用於chiplet互連。 圖 14 是使用 "移位和切換修復 "(Shift and Switch Repai)概念修復三個故障通道的示例,硬體開銷僅為十分之一的冗餘。基於二項分佈的機率計算表明,這種 30+3 聯合修複方法的故障率比 3 個獨立的 10+1 組低 1000 倍。 圖 14. 冗餘和修復( Redundancy and repair) 對於汽車等關鍵任務應用,人工智慧/ML 正在形成,處理器故障的風險很高,因此採用動態可靠性管理技術是有益的,在這種技術下,處理器可以對不斷變化的應用行為做出響應,以保持其壽命可靠性目標。 要在可修復性和訊號完整性之間取得平衡,就必須進行戰略性權衡。例如,分離電源和接地凸塊有利於防止永久性短路故障 。不過,這種方法可能會增加面積開銷或影響訊號完整性。 H. ESD 遷移 隨著業界推動更高頻寬的發展,ESD 結構必須相應擴展,以防止 ESD 二極體的大尺寸和高電容成為擴展瓶頸。如果不能解決這一問題,IO 能效將受到限制。我們需要制定一個積極的 ESD路線圖。圖 15 強調了 ESD 電容和面積擴展的趨勢,同時還顯示了行業支援的電荷器件模型 (CDM) 電壓的降低。 圖15.ESD路線圖Fig. 15. ESD roadmap I. 電力傳輸 以 UCIe 10 列高級封裝為例:在 32Gbps 運行速度和 0.6pJ/bit 能效(0.75 伏)條件下,基於 388.8 微米 x1000 微米的 x64 通道模組尺寸,電流密度可達 4.1A/mm² 以上。在如此高的電流密度下,我們觀察到電源/接地凸點存在嚴重的電磁 (EM) 可靠性問題,其值比設計規則允許的電磁限制高出三倍。通過改變凸點材料,這一問題得到了緩解,但我們還必須增加更多的電源/接地凸點,並更新 UCIe 凸點圖,以提高可靠性和性能。 此外,UCIe 規範還支援時鐘門控模式。從空閒模式進入任務模式會引入最壞情況下的動態電流 (di/dt),導致電壓大幅下降。由於時序和電壓裕量減少,這將導致更高的位元誤差。降低 di/dt 的最有效方法是依靠晶片或封裝上的去耦電容器來抑制噪聲紋波。去耦電容策略包括從上到下(見圖 16-a)的利用,例如 A) 通常在 µF 範圍內的封裝上分立去耦電容器 (OPD),B) 封裝內去耦電容器,如 Si-interposer 上的嵌入式深溝電容器 (eDTC),電容密度大於 1000nF/mm2、 C) 片上去耦電容器,包括電容密度約為 50 nF/mm² 的超高密度 MIM 電容器 (SHDMIM) 和電容密度約為 10 nF/mm² 的器件電容器。位於頂模上或頂模附近的電容器串聯電阻較低,但電容密度也較低。隨著與頂模距離的增加,串聯電阻也會增加。因此,在確定最佳去耦電容器策略時,必須考慮各種因素,包括技術、成本、面積和噪聲規格。 圖 16. 電力輸送網路的去耦電容器策略 圖 16-b 顯示了功率阻抗最佳化示例和電壓紋波分析結果。 不同的電容器用於抑制相應頻率範圍內的功率阻抗。OPD 可增強 1MHz~100MHz 範圍內的功率阻抗。片上 SHDMIM 可抑制 200MHz 以上的高頻部分。而額外的封裝內 eDTC 可以進一步抑制阻抗,使頻率範圍更低,甚至達到 40MHz。使用 eDTC 後,電壓紋波從 102.4mVpp 抑制到 32.07mVpp,接近目標規格 30mVpp。 最後,如果系統超出了電壓下降容限,則必須實施全面的系統級策略,以滿足低誤位元率的要求。潛在的解決方案包括 a) 通過車道交錯來降低 di/dt,即每次將車道從空閒狀態過渡到空閒狀態。雖然這種方法可以緩解電壓下降,但其缺點是會增加鏈路延遲。 b) 通過在時鐘門控期間增加背景電流來降低 di/dt。這可以通過保持部分或全部空閒通道處於啟動狀態來實現。這種方法雖然有效,但功耗較高。 c) 通過降低運行資料速率來降低 di/dt,這雖然有助於管理電壓下降,但會導致系統性能下降。 全面的 3DIC 設計流程 如圖 17-a 所示,先進的封裝架構包含多種封裝選項。這些選項包括改變每個層面的die數量,以及整合各種無源器件,如深溝槽電容器 (DTC) 和整合無源器件 (IPD)。該架構還支援不同類型的水平連接,包括硅中介層和有機中介層,以及各種垂直連接,如硅通孔(TSV)、中介層通孔(TIV)和模具通孔(TMV)。此外,它還提供多種介面類型,包括高級鍵合、微凸塊和 C4 凸塊,以及不同的堆疊方向,如面朝下、面朝上、面對面和面對背。 圖 17. (a) 豐富的 3DIC 架構選擇 (b) 3Dblox 統一基礎設施。 單個或多個供應商提供的各種封裝技術,再加上眾多可能的組合,使設計過程變得非常複雜。此外,各種物理整合和驗證任務需要不同的 EDA 工具,涉及多個 IP 和工具供應商。當前的 EDA 工具、工作流程和方法已經發生了顯著變化,以滿足複雜 3D 整合的需求。 為了應對 3D-IC 設計中的挑戰,3Dblox 開放標準已經建立並獲得了業界的廣泛認可。如圖 17-a 所示,3Dblox 採用模組化方法,將三維封裝中的每個物理元件分類並抽象為特定模組。設計三維繫統時,需要將這些模組實例化,使用高級程式語言建立相互連接的對象,並按層次組織,類似於傳統的 SoC。 3DBlox 的主要特點見圖 17-b。為了簡化設計流程,我們將斷言直接整合到語言中,從而實現了自頂向下、逐層正確構造的設計方法。分層實例化功能增強了晶片的重複使用,提高了設計效率。隨著主要 EDA 供應商和半導體製造商採用 3Dblox,由於互操作性的提高,晶片整合變得更加無縫和高效。這種整合將進一步加快 3D-IC 生態系統的發展和成熟。 未來發展趨勢 A. 設計模組化 針對支援 4 至 32 Gbps 資料傳輸速率的高級封裝,定義了六種 UCIe 外形。圖 18 (a) 顯示了這些外形尺寸的一個示例。由於凸點間距、列數、資料速率和技術節點各不相同,智慧財產權(IP)的開發成為一個耗時耗力的過程。為了緩解這一挑戰,我們採用了模組化概念和編譯器相容方案,如圖 18(b) 所示。 圖 18. (a) UCIe 2.0 bumpmap 示例 (b) Chiplet 輸入/輸出的模組化設計。 在這種方法中,晶片與晶片之間的互連被劃分為可重複塊(如 IO 通道)和常用共享塊(包括 DLL、PLL、DCDL 和校準電路)。特定的平面圖元素(如時鐘樹)可以定製和編譯,以滿足不同的目標規格。 B. 頻寬和能效擴展 頻寬密度和能效仍然是下一代晶片組互連的重點。 封裝凸點間距和技術節點對頻寬密度有重大影響。圖 19 展示了根據我們使用實際工藝和封裝技術縮放因子進行的一階估算得出的面積頻寬密度趨勢。要提高頻寬密度,可以提高鏈路資料速率和/或減小互連凸點間距。然而,更高的資料速率需要更強的電路驅動強度和校準,從而導致更大的電路面積。因此,可能需要調整凸塊間距。例如,對於 N7 技術,45 微米的凸塊間距 (P45) 可支援 16Gbps 速率,而 24Gbps 和 32Gbps 速率則分別需要 55 微米 (P55) 和 65 微米 (P65),導致 16Gbps 速率之後的區域頻寬密度下降。相比之下,N4/N5(4 納米/5 納米)技術可提高頻寬密度,資料傳輸率可達 24Gbps。N3 允許進一步提高頻寬。設計和技術協同最佳化可能會稍微改變趨勢線,但總體而言,N3(3 納米)等更先進的技術可實現更高的面積/岸線頻寬密度和能效。 圖 19. 技術和頻寬縮放(註:P30/C16 指 30µm 凸塊間距,UCIe 16 列外形尺寸) 從海岸線頻寬密度(shoreline bandwidth density)的不同角度來看,上述研究基於 UCIe 凸點圖約束,結果是較高的資料速率與較高的海岸線頻寬密度相關。這與文獻中的評估形成鮮明對比,後者在 x 和 y 兩個方向上都使用了間距縮放。在保持凹凸受限的情況下,凹凸間距隨資料傳輸速率降低而縮放,因此海岸線頻寬密度保持不變。在這種情況下,由於電路複雜性降低,較低的資料速率有望提高能效。相反,技術擴展可以支援更複雜的設計,並提高給定凸點間距的資料速率,從而提高岸線頻寬(例如,從 1.5 Tb/s/mm 提高到 2 Tb/s/mm),如圖 20 所示。 圖 20. 擴大規模,提高能效 C. 大型系統 由於視網膜尺寸的限制,最近人工智慧/ML 發展的趨勢是在晶圓級擴大規模(圖 21)。通過結合 3DFabric(或同類產品)提供的解決方案,我們可以有效地利用 SoIC(用於整合 SRAM+CPU 和 HBM+GPU)、LSI(用於整合 CPU+GPU(高密度/近距離))、LSI(用於將 xPU 整合到 I/O 晶片)、無源 LSI(用於 eDTC(用於封裝上解耦以降低電源噪聲))以及 RDL(用於大規模整合的電源傳輸和更遠距離的資料傳輸)。這種晶圓級封裝可減輕視網膜尺寸限制所帶來的制約,同時在不久的將來,晶圓上的網路和異質(序列和平行)[18]或混合(光和電)連結對於 xPU 與 xPU 之間的高效互連也是必要的。 除晶圓級封裝外,扇出面板級封裝(FOPLP)也即將問世,有望提高封裝吞吐量、降低成本,並有可能在面板級實現更大的整合系統,而在整個封裝過程中,翹曲控制仍是一項重大挑戰。 圖 21. 系統級晶片放大(資料來源:台積電) 與此同時,對更高互聯資料頻寬密度的渴求仍在繼續,例如,UCIe 聯盟正在制定 48/64Gbpsie 間互聯提案。對於系統的升級和擴展,封裝光波導和共封裝光引擎仍然對業界具有吸引力。 更大的系統需要採用整合磁性元件的垂直電源傳輸,以實現有效的電壓調節。CPU、GPU、HBM、SerDes、光學引擎和電壓調節器的大規模整合是一項重大任務,超越了現有的一些工程技術[。要實現這一目標,需要各行業合作夥伴通力合作,管理技術堆疊的不同方面,以實現高性能,同時確保卓越的能效、訊號完整性、熱管理和結構穩健性。 隨著晶片生態系統變得更加強大和 3D-IC 設計方法的進步,新的可能性和更大的創新將會出現。 致謝本文作者:Shenggao Li, Sr. Member, IEEE, Mu-Shan Lin, and Wei-Chih Chen, Chien-Chun Tsai (半導體行業觀察)
哈佛大學最新研究,常吃巧克力,或降低糖尿病風險,並降低多種死亡風險
糖尿病是一種慢性疾病,影響全球超過5.4億人。隨著生活和飲食習慣的改變,糖尿病已經成為影響人類健康的第三大因素。在中國,成年人有超過1.14億糖尿病患者,佔全世界糖尿病患者四分之一,且這一數字仍在繼續上升。 巧克力,是一種非常受歡迎的食品,富含多酚。黑巧克力中含有三種主要黃烷醇,原花青素、兒茶素和表兒茶素。早期研究發現,較高的膳食黃烷醇可以降低全因死亡風險、心血管疾病風險等。 題圖 | Pixabay 2024年12月4日,哈佛大學孫琪(Sun Qi,音譯)等研究人員在國際頂尖期刊《英國醫學雜誌》(The BMJ)上發表了一篇題為" Chocolate intake and risk of type 2 diabetes:prospective cohort studies "的研究論文。 研究顯示,經常吃巧克力,或降低糖尿病風險,尤其是黑巧克力。與不吃巧克力的人相比,每周吃超過5份黑巧克力與糖尿病風險降低21%相關。每周每多吃一份黑巧克力,2型糖尿病的風險降低3%。(每份為28克) 在這項研究中,研究人員分析了美國三項大型前瞻性佇列研究的資料,包括NHS、NHS II和HPFS,共納入192208名參與者,基線時未患2型糖尿病、心血管疾病或癌症,通過問卷形式收集了巧克力攝入量,包括總巧克力、黑巧克力、牛奶巧克力,分析了巧克力與2型糖尿病風險之間的關聯。 在長達30年的隨訪期間,共發現18862人患有2型糖尿病。 結果發現,較高的巧克力攝入量有助於降低糖尿病風險。 對總巧克力攝入量分析發現,與不吃巧克力相比,每周吃超過5份(每份為28克)任何巧克力,與糖尿病風險降低10%相關,但這種關聯並不顯著(P=0.07)。 對不同類型的巧克力分析發現,這種關聯在黑巧克力中更明顯,與不吃巧克力的人相比,每周吃超過5份黑巧克力,與糖尿病風險降低21%相關。每周每多吃一份黑巧克力,2型糖尿病的風險降低3%。 黑巧克力攝入量與糖尿病關聯 劑量分析發現,黑巧克力攝入量與2型糖尿病風險之間存線上性劑量反應關係。而牛奶巧克力的攝入量與降低2型糖尿病風險無關。 劑量反應關係 此外,研究人員還發現,增加牛奶巧克力攝入量,與長期體重增加有關,而增加黑巧克力攝入量與體重隨時間變化無關。 研究人員表示,儘管黑巧克力和牛奶巧克力的卡路里和飽和脂肪含量相似,但黑巧克力中豐富的多酚似乎可以抵消飽和脂肪和糖對體重增加和糖尿病的影響。這是一個有趣的差異,值得進一步探索。 研究人員指出,黑巧克力中的黃烷醇可能有助於改善胰島素敏感性和葡萄糖代謝,從而對2型糖尿病有一定的預防作用。 儘管如此,研究人員強調,觀察性研究可以顯示關聯,但不能明確證明因果關係。 值得一提的是,巧克力還有助於降低多種原因的死亡風險。 此前,中國科學技術大學包巍等人在《營養與營養學學會》雜誌上發表了一篇題為" Chocolate Consumption in Relation to All-Cause and Cause-Specific Mortality in Women:The Women’s Health Initiative "的研究論文。 研究顯示,經常吃巧克力,有助於降低全因死亡、心血管死亡、痴呆死亡風險。 具體來說,與不吃巧克力相比,每周吃1-3份(每份28g),全因死亡風險降低7%,心血管死亡風險降低12%,痴呆症死亡風險降低11%。 參考文獻: https://doi.org/10.1136/bmj-2023-078386 https://doi.org/10.1016/j.jand.2022.12.007 聲明:本文僅做學術分享,不構成任何建議。 ( 醫諾維 )
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題