#晶片競爭
晶片競爭已經是一場華人內戰
作為全球科技領域金字塔頂尖的產業,如今的“全球晶片五巨頭”全都由華人掌管。隨著英特爾新CEO走馬上任,陳福陽、黃仁勳、陳立武、蘇姿丰、魏哲家分別主導博通、輝達、英特爾、AMD和台積電五大巨擘。如果將參考範圍再繼續放大,包括IC設計領域的聯發科、韋爾股份,封測翹楚日月光、長電科技、通富微電,代工賽道的中芯國際、 聯華電子、華虹,全都是華人面孔。按照目前的行業歷史闡述,積體電路最初是由傑克·基爾比和羅伯特·諾伊斯發明,兩人借此創辦了大名鼎鼎的德州儀器、仙童和英特爾。此後整個產業西風東漸,日韓台晶片產業相繼崛起,成為世界科技領域舉足輕重的參與者。晶片產業發跡於美國加州聖塔·克拉拉谷(矽谷),此後這股火苗開始向東半球蔓延,韓國的京畿道,台灣省的新竹科學園區,日本東京、九州島,馬來西亞檳城州,中國大陸,整個產業一路向東。晶片之外,也有越來越多的華裔憑藉出眾的智商、勤奮努力的秉性,以及超強的適應能力和抗壓力,在各類科技企業中嶄露頭角,甚至成為全球人工智慧領域的主導力量之一。全球華人對於全球高科技產業的參與度已經遠超中國人的想像。無論是相對傳統的積體電路行業,還是人工智慧、機器人等各種新興科技領域,基本上都已經變成了一場不折不扣的“華人內戰”。01. 東方力量3月18日,英特爾管理層開啟新一輪大換血,馬來西亞華裔資深半導體專家陳立武擔任首席執行官。至此,博通、輝達、英特爾、AMD和台積電五大行業巨頭都進入了華人執掌的時代。圖源:第一財經因先後錯失移動和AI紅利,昔日的晶片之王英特爾已有日薄西山之勢。去年其巨虧188億美元,股價也由歷史巔峰期腰斬。陳立武擔任CEO的消息一經公佈,便帶動英特爾股價跳升16%,足見資本市場對這位華裔企業家的重視和期待。陳立武出生於馬來西亞的一個華人家庭,成長學習於新加坡,在新加坡南洋理工大學期間進修物理專業,後來到美國,拿到了麻省理工學院核工程碩士學位,以及舊金山大學工商管理碩士學位。他曾創辦過風投公司華登國際,親自參與了包括中芯國際、美團、大疆、賽靈思等投資項目,其中不少被投企業都成長為半導體巨頭。2004年他加入鏗騰電子董事會,5年後出任CEO,他通過收購關鍵技術、強化客戶關係,將鏗騰從傳統EDA工具商轉型為系統級解決方案提供商。經此一役,鏗騰電子扭虧為盈,股價更是在其任職的12年裡飆升40多倍,陳立武功成名就。此後,他持續聚焦半導體、AI和量子計算等前沿領域的投資。2022年,陳立武以“半導體復興顧問”身份加入英特爾董事會,協助時任CEO帕特·基辛格,但後來雙方分歧與日俱增。英特過去四任CEO先後錯失智慧型手機晶片、錯過先進製程飛躍、放棄5G基帶晶片、轉型代工失敗。上一任帕特·基辛格未能力挽狂瀾,黯然離職。陳立武有成功的經營經驗,又有豐富的產業資源和投資案例儲備,不論是在研發還是收購方面都有足夠能力。因此,資本對於這位“東方救世主”頗為期待,也願意投入真金白銀。英特爾之外,如今稱霸全球的AI晶片雙雄也都由華裔執掌——風頭正盛的輝達創始人黃仁勳出生於台灣台南市,祖籍浙江青田縣,70年代移居美國。在度過了一段並不太幸福的少年時光後,黃仁勳於16歲時考上了俄勒岡州立大學,主修電子工程。此後,他又進入了斯坦福大學深造。1993年,黃仁勳在丹尼餐廳與兩位摯友克里斯·馬拉科夫斯基和柯蒂斯·普里姆萌生創業夢想。32年後,“黃教主”已成為攪動世界科技風雲的大鱷。巧合的是,AMD的CEO蘇姿丰也出生在台南市,還被曝出和黃仁勳是表舅和表外甥女的關係。博士畢業後,她從德州儀器、IBM、飛思卡爾再到AMD,一路晉陞為最炙手可熱的矽谷女性企業家。尤其強悍的是,接手AMD時,這家CPU領域的“千年老二”正如流星般墜落,年營收下降近 40%,市場份額慘遭腰斬,股價不足2美元。而十年之後,“蘇媽”帶領AMD起死回生並修煉成黃仁勳的最強對手——這也是資本對英特爾換帥積極樂觀的一個原因。無獨有偶,博通CEO陳福陽也出生在馬來西亞華人聚集地檳城,早期移民美國。1971年,天資聰穎的陳福陽前往麻省理工學院(MIT)求學。加入安華高後,他便啟動了超級併購戰車,先後以66億美元、370億美元收購儲存晶片公司LSI以及博通。如今,“新博通”已經飆升為全球第三大IC設計企業。梳理全球前十大IC設計企業,有8家企業都與華人有關:輝達、聯發科、邁威、聯詠、瑞昱、韋爾等6家都由華人創辦,AMD、博通由華裔掌舵,“華人內戰”的格局已經十分明顯。02. 風雲際會你去Anthropic、OpenAI或DeepMind的走廊裡轉一圈,會看到很多AI研究人員,他們都來自中國。他們非常出色,能做出卓越成果並不令我意外。剛剛結束的台北國際電腦展上,黃仁勳對中國AI人才的崛起絲毫不吝嗇讚美之詞。他甚至說:“全球50%的AI研究人員是中國人,你無法阻止他們。”作為上游晶片提供者,黃教主此番言論自然有其商業考量,也可能摻雜較多的溢美之詞。但事實的情況也是,隨著華人和中國企業在IC設計、晶片代工和封測領域的積累,專業人才優勢已逐漸向AI產業蔓延。目前技術含量較低的封測行業幾乎已經全部由大陸和台灣企業把持,TOP10中有4家中國大陸公司——包括長電、通富微電、華天科技、智路封測,市佔率提升到28.5%,遠超美國僅存的獨苗安靠。加上台灣的日月光、力成、京元電子、南茂科技,共有八家企業來自中國。在技術門檻最高的製造領域,台積電獨佔鰲頭。但中芯國際、華虹也在奮力追趕,合肥晶合更是上升到世界第九。加上台灣聯電、世界先進、力積電,中國企業正在搶佔韓國三星、美國格羅方德的市場份額。某種程度上來講,AI是晶片技術量變到質變的產物,正是晶片領域的積累讓華人群體在AI行業大展身手。2月18日,埃隆·馬斯克帶著他的“地表最強AI”Grok 3亮相。發佈會直播現場,他特意將C位留給了兩位華人科學家——吉米·巴(Jimmy Ba)和吳宇懷。馬斯克則化身“點頭機器”,表示“自己什麼都沒幹”。翻看x.AI公司的創始團隊,其中三分之一是土生土長的華人科學家。吳宇懷是地地道道的杭州人,張國棟和Deepseek創始人梁文鋒是浙大同學,楊格是出生於湖南的數學天才,曾在哈佛大學攻讀本科和碩士學位,戴子航本科畢業於清華大學。就連撬開AGI大門的OpenAI,其團隊中也有不少華人的身影。GPT-4o團隊中就有六位華人,本科均畢業於清北、上海交大和中科大等國內頂尖高校。ChatGPT研發團隊中就有9名華人,佔據總人數的十分之一以上,他們推動了文生視訊大模型Sora等顛覆性產品的問世。美國矽谷聯合投資公司發佈的《2024矽谷指數》中,指出在矽谷從事技術類職業的人中,中國大陸出生的人才佔比已經有16%。此外還有斯坦福大學AI實驗室主任、DeepLearning.AI創始人吳恩達,“AI教母”李飛飛,Lepton AI創始人賈揚清、哥大常務副校長、電腦科學家周以真等等,一連串名字非常直觀地展示出華人在全球科技產業中的卓然地位。03. 產業遷徙世界積體電路發展史,本身就是一幅“由西向東”的遷徙圖景。最初從美國發軔,先後經歷了日本、韓國的崛起,台灣仰仗代工的後來居上,如今中國大陸企業如雨後春筍般不斷湧現。這期間,企業相互爭鬥廝殺,合縱連橫、成王敗寇的商業故事,就像一部跌宕起伏的商戰大片。1958年-1959年,傑克·基爾比‌和羅伯特·諾伊斯製造出世界上首塊晶片原型,並解決了量產難題。自此,奠定了德州儀器(TI)和仙童在世界半導體領域鼻祖地位。十年後,“仙童八叛逆”分崩離析,諾伊斯、摩爾帶著葛羅夫脫離仙童公司自立門戶,創辦了後來享譽全球的英特爾。仙童“八叛逆”到60年代,日本電氣(NEC)、日立先後通過美國企業的技術授權,獲得了關鍵的晶片技術,這奠定了日本晶片產業大發展的根基。到1970年,NEC把技術開放給富士通、東芝、三菱,最終形成了龐大的產業叢集。1988年全球晶片行業的銷售份額中,日本企業獨佔一半以上,TOP10企業中六家來自日本。彼時,日本晶片企業如日中天,安迪·格魯夫領導的英特爾甚至開了一個會,大家半開玩笑地討論了好幾次——英特爾該如何體面地破產。一位經理笑稱:“也許明天早上你就會在報紙上看到,日本人一擲千金,買下了瀕臨倒閉的英特爾。”但日本企業的輝煌沒有持續多久。和日本經濟整體情況類似,美國通過各種非市場政策強勢施壓,並脅迫其簽訂《美日半導體協議》。同時,美國企業扶持韓國三星,試圖以“養狼”遏制日本,最終,日本半導體企業份額急速萎縮,如今已不到10%。日本企業風光無限的同時,韓國三星開始默默發育。1983年2月,三星集團創始人李秉喆宣佈正式進軍半導體產業,韓國政府更是舉全國之力攻克技術難關,提供研發費用。經過近十年的鏖戰,三星於1992年超越日本NEC,晉陞為世界第一大DRAM儲存製造商,並在其後33年連續蟬聯世界第一。如今,三星+SK海力士在儲存賽道幾乎可以說是佔據壟斷地位,兩者合計瓜分了一半以上的市場蛋糕。可以說,全球儲存都要看韓國的臉色。東南亞半導體產業則以馬來西亞最為亮眼,得益於優越的地理位置、工程師紅利及更低的製造成本,馬來西亞在世界半導體中的作用越來越突出。早在50多年前,英特爾就在檳城開設子公司,如今,馬來西亞是全球第六大半導體出口國,佔到全球晶片貿易總額的7%,封測則達13%。如今大國博弈日益加深的背景下,馬來西亞晶片大廠中樞跳板的作用日益顯著。2022年的馬來西亞GDP中,有四分之一源自半導體產業。半導體出口已經佔據馬來西亞電子產品出口的62%。隨著AI興起,雲端伺服器、邊緣計算、碳化矽帶動先進封裝需求,馬來西亞又迎來一波“吸金潮”。英特爾、德州儀器、博世、英飛凌都開始啟動在當期的新一輪投資。馬來西亞借此宣佈了一項雄心勃勃的計畫,預計未來5-10年撥款53億美元,培養6萬名本地半導體工程師,將自己塑造為世界半導體中心。在這種人才激勵的戰略推動下,馬來西亞華人在全球科技界的影響力也將再度抬升——當然這也是全球晶片華人內戰的其中一部分。04. 寫在最後可以預見的是,未來全球AI領域中的中國面孔會越來越多。這種格局的形成,與歷史上的人口遷移、產業遷移、技術轉移以及華人群體的文化、智力特質密不可分。甚至可以說,正是華人文化圈強大的主觀能動性、強大的攻堅能力決定了全球晶片產業能夠發展到怎樣的規模。黃仁勳、蘇姿丰、陳福陽、周以真、李飛飛都是美籍華人,其中一些在祖輩就已經離開中國大陸,這意味著其中的立場問題卻始終存在。儘管全球華人的體貌特徵區別仍然不大,但終究都代表著各自所在國家、所在企業的利益。其中最典型的就是李飛飛,她從刷盤子到進入普林斯頓,再到“AI教母”的經歷,已經被包裝成典型的“美國夢”,成了美國招攬全球尤其是華人科技精英的霓虹燈。當國家利益產生衝突、企業利益出現矛盾之時,每個不同企業的華人科技領袖,都會作出屬於自己的選擇,這場科技領域的“華人內戰”,恐怕還將繼續深入下去。 (巨潮WAVE)
晶片新貴,集體轉向
在AI晶片這個波瀾壯闊的競技場上,一度被奉為「技術聖杯」的大規模訓練,如今正悄悄讓位給更低調、但更現實的推理市場。Nvidia仍在訓練晶片市場一騎絕塵,Cerebras則繼續孤注一擲地打造超大規模運算平台。但其他曾在訓練晶片上爭得面紅耳赤的玩家——Graphcore、英特爾Gaudi、SambaNova等——正在悄悄轉向另一個戰場:AI推理。這一趨勢,並非偶然。AI訓練作為一個重資本、重算力、重軟體生態的產業,Nvidia的CUDA工具鏈、成熟的GPU生態與廣泛的框架相容性,使其幾乎掌握了訓練晶片的全部話語權。而Cerebras雖然另闢蹊徑,推出了超大晶片的訓練平台,但仍限於科學研究機構和極少數商業化應用場景。在這種格局下,新晉晶片企業在訓練市場幾乎沒有生存空間。 “訓練晶片的市場不是大多數玩家的競技場”,AI基礎設施創業者坦言,“光是拿到一張大模型訓練訂單,就意味著你需要燒掉數千萬美元——而且你未必贏。”正因如此,那些曾在訓練晶片上「正面硬剛」Nvidia的新創公司,開始尋求更容易進入、更能規模化落地的應用路徑。推理晶片,成為最佳選項。Graphcore:推理成救命稻草成立於2016年的英國AI晶片獨角獸Graphcore一度是Nvidia最具挑戰性的對手之一,其IPU(Intelligence Processing Unit)主打用於神經網路訓練的平行處理架構。根據Graphcore介紹,IPU是一種專為人工智慧和機器學習工作負載設計的處理器,與傳統的CPU或GPU相比,IPU 在結構和處理方式上都有所不同,旨在更有效率地執行AI 模型訓練和推理任務。隨著全球對人工智慧晶片需求的持續飆升,Graphcore迅速崛起,並在短時間內吸引了大量投資者的關注,2020年,Graphcore 發布的Colosual MK2 GC200 IPU,採用台積電7奈米製程,據稱已接近NVIDIA A100 的表現,估值,其以28 億美元的年度有了2.2 億美元的新創公司籌集了2.22 億美元的新創公司。在Graphcore技術負責人Simon Knowles看來,與輝達展開全面競爭並不明智。他在The Robot Brains Podcast上分享了核心創業準則:絕不生產大公司現有產品的強化版,因為大公司擁有龐大市場基礎,新創公司難以直接抗衡。他認為AI將存在於人類未來技術的各個領域,而不同產業需求無法由單一架構支援,Graphcore只需在特定領域讓IPU優於GPU,即可在這個快速成長的市場分得一杯羹。由於架構的特殊性,IPU特別適合處理目前CPU和GPU無法最優運行的高效能運算任務,尤其是"稀疏資料"處理。分子就是典型應用案例-分子排列不規律,行為複雜且體積小,而IPU的大規模平行結構適合處理這類不規則資料結構。在應用領域,IPU在化學材料和醫療領域表現突出,曾用於冠狀病毒研究。 2020年,微軟的Sujeeth Bharadwaj將IPU內置於Azure系統中用於識別新冠胸部X光片,他表示:“Graphcore晶片可在30分鐘內完成輝達傳統晶片需5小時的工作。”商業模式上,Graphcore將IPU整合於「pods」系統中,打包銷售給雲端運算和伺服器廠商。最令人矚目的無疑是2019年11月,微軟與Graphcore簽署了採購處理器的協議,這對於一家新創公司來說,無異於天上掉下了一塊吃不完的餡餅。只可惜,現實是殘酷的,隨著市場對訓練平台的門檻不斷拔高,Graphcore的IPU系統在大型AI訓練項目中難以撼動Nvidia的地位,2021年春季,隨著微軟終止與Graphcore的合作,這家初創企業就開始走向了衰落,為了削減成本,Graphcore在2022年9月宣佈關閉奧斯2023年,Graphcore被曝在北美大幅裁員、關閉美國業務,同時放棄了IPO計劃,創始人Simon Knowles在一次內部講話中承認:“訓練市場太集中,我們需要轉向能帶來收入的實際落地場景。”2024年7月,日本軟銀集團宣佈完成對Graphcore的收購,開始將重心轉向企業AI部署中的高效推理任務,其重新優化了Poplar SDK,推出輕量級模型推理加速方案,並面向金融、醫療和政府等場景,強調「高吞吐、低功耗」的AI推理解決方案。對Graphcore來說,推理或許就是它最後的救命稻草。英特爾Gaudi:不再死磕GPU創立於2016年的Habana Labs,一度也是以色列的明星公司之一,旗下產品主要針對AI的推理預測與訓練。 2018年,Habana Labs推出旗下第一款產品-Goya推理處理器,主要用於AI推理與預測。而在2019年推出的Gaudi,主要用於AI訓練,在被收購前,其已經在AI晶片的訓練、推理兩端初步形成了完整產品線。2019年,英特爾以20億美元的價格高調收購了Habana,而Gaudi也順勢成為了其AI訓練策略中的重要拼圖。 2022年5月,英特爾正式發表了採用了7nm製程得Gaudi2 和Greco 深度學習加速器,根據英特爾介紹,其對比Nvidia的A100 GPU 的吞吐量效能提高了2 倍。儘管在部分性能參數上,英特爾Gaudi系列足以挑戰Nvidia,但從後續的市場回饋來看,即使在雲端廠商中,Gaudi訓練平台的採用率也始終低迷。一位前英特爾高層坦言:『從收購Habana的那一刻起,英特爾內部始終無法理解為何同時經營兩個開發競爭架構的部門-Habana和GPU部門。"Habana前員工則將英特爾的官僚效率視為嚴重障礙。一位前Habana員工對比道:"在Habana,五分鐘的走廊交談就能做出決定;而在英特爾,同樣的決定需要三次會議,數十人參與,卻毫無進展。"直到2022年,英特爾一直雙線並行-一邊銷售Gaudi處理器,一邊開發競爭產品Ponte Vecchio GPU。然而,隨著ChatGPT等生成式AI模式崛起,輝達的市場主導地位日益穩固,英特爾再次面臨顧客負面回饋。2023年中期,英特爾宣佈將Gaudi併入新成立的AI加速產品線,並將Gaudi 3的重點轉向“訓練+推理並重”,其中推理性能和性價比成為新賣點。Gaudi 3在2024年初發佈時,英特爾重點宣傳的是其在推理場景下對大語言模型的加速表現——例如在運行Meta Llama 2等模型時,相比Nvidia A100實現了更低的延遲和更高的能效。更重要的是,英特爾大力宣傳Gaudi在成本端的優勢,其「每美元推理吞吐量」高於同類GPU晶片近30%。最終,英特爾開始嘗試整合業務,將Habana與GPU部門合併,並開發名為Falcon Shores的新型AI處理器——一款結合GPU(類似輝達)和CPU(英特爾專長)的混合晶片。 Habana員工對此舉表示質疑,甚至自嘲道:"突然間,他們想起我們了。"今年年初,英特爾除了公佈令人失望的財務業績外,還宣佈其下一代Habana 處理器Falcon Shores 收到了客戶的負面回饋,因此不會進行商業化銷售。此前,大約六個月前,英特爾曾宣佈Gaudi 未能達到2024 年實現5 億美元營收的預期。因此,英特爾決定不再開發Gaudi 3 之後的下一代產品。截至目前,Gaudi 3被打包進入Supermicro等廠商的AI伺服器中,面向企業部署大模型、建構私有化語意搜尋、檔案摘要、客服機器人等場景。對於希望「部分替代公有雲推理API」的中大型企業客戶而言,Gaudi正在成為一個價格友善選擇。對英特爾來說,包括Gaudi在內的GPU業務的重要性正在不斷削弱,其未來可能也會更傾向於推理而非訓練。Groq:以速度換市場同樣是新創AI晶片的公司的Groq,其故事起點可以追溯到Google 內部。其創辦人Jonathan Ross 是Google 第一代TPU(Tensor Processing Unit)晶片的首席架構師。在目睹了TPU在深度學習訓練和推理上的突破後,Ross於2016年離開Google,成立了Groq,試圖打造一個比TPU更快、更可控的「通用AI處理器」。Groq的核心技術是自研的LPU(Language Processing Unit) 架構。這種架構拋棄了傳統的亂序執行和動態調度機制,採用靜態調度、資料路徑固定、執行流程可預測的「確定性設計」(deterministic design)。 Groq 宣稱,這種設計可以實現極低延遲和高吞吐率,非常適合大規模推理任務。一開始,Groq也曾押注訓練市場,其在早期嘗試將LPU推向大模型訓練市場,宣稱其架構可提供比GPU更高的利用率和更快的訓練周期。但現實卻是殘酷的:Nvidia的CUDA生態障礙幾乎無法撼動,訓練市場的競爭邏輯更多拼的是「大生態+ 大資本+ 大客戶」。對於晶片新創公司而言,很難獲得主流AI實驗室和雲端廠商的認可。同時,Groq的架構對主流AI框架(如PyTorch、TensorFlow)的相容性有限,也缺乏成熟的編譯工具鏈支撐,使得訓練任務的遷移成本極高。這些現實逼迫Groq重新思考其市場切入點。從2023年下半年開始,Groq明確轉向推理即服務(Inference-as-a-Service)方向,打造一個完整的「AI推理引擎平台」-不僅提供晶片,更向開發者和企業開放超低延遲的API介面,強調「文字輸入後幾毫秒出結果」的極致回應。Groq在2024年展示了其係統運行Llama 2-70B 模型時,實現了每秒超過300個Token的生成速度,遠超主流GPU系統。這項優勢讓Groq迅速吸引到一群對延遲敏感的垂直產業用戶,如金融交易系統、軍事資訊處理、以及語音/視訊同步字幕生成。此外,Groq將產品定位從“AI晶片”擴展為“AI處理平台”,透過GroqCloud平台向開發者提供API訪問權限,與LangChain、LlamaIndex等生態整合,試圖把自己變成一個專注速度優化的大模型推理雲。目前,Groq正在與多家新創AI應用公司合作,作為其低延遲後端推理服務提供方,在小型助理、嵌入式互動設備和高頻問答系統中獲得初步部署落地。對Groq而言,專注推理速度讓它在一眾新創AI晶片公司中脫穎而出。SambaNova:從系統即服務到推理即服務SambaNova是少數幾家不靠「賣晶片」而是「賣系統」的AI晶片新創公司。其Reconfigurable Dataflow Unit(RDU)晶片架構採用資料流運算方式,以高吞吐量為賣點,曾在訓練大型Transformer模型時展現優越性。SambaNova曾非常重視在其硬體上訓練模型,他們發布過關於如何在其硬體上訓練的文章,炫耀自己的訓練性能,並在官方檔案中提及訓練,許多分析師和外部觀察者都認為,能夠用一款晶片同時處理訓練和推理市場,是SambaNova相較於Groq等競爭對手的一大優勢,而Groq是最早轉向推理的新創公司之一。這家公司也投入了大量時間和精力來實現高效率的訓練功能。在2019年至2021年左右,SambaNova的工程師花了相當多的時間為NAdam優化器實現內核程式碼,這是一種常用於訓練大型神經網路的基於動量的優化器。其軟硬體特性都被設計並優化用於訓練,無論是對內或對外的訊息傳達中,而訓練也始終是SambaNova價值主張的重要組成部分。然而,自2022年起,SambaNova的銷售重點已悄悄改變。公司推出了「SambaNova Suite」企業AI系統,不再強調訓練模式能力,而是聚焦「AI推理即服務」(Inference-as-a-Service)。使用者無需擁有複雜硬體或AI工程團隊,只需呼叫API即可完成大模型推理工作,SambaNova在後台提供算力與最佳化模型。而在今年四月下旬,SambaNova Systems大幅轉變了最初的目標,其宣佈裁員15%,並將重點完全轉向AI推理,幾乎放棄了先前主打的訓練目標。據介紹,其係統特別適用於私有化模型部署需求強烈的領域—如政府、金融、醫療。在這些領域,資料敏感、合規嚴格,企業更傾向於自己掌控模型運作環境。 SambaNova為其提供了「大模型交鑰匙工程」式方案,主打易部署、低延遲、符合合規的推理平台。SambaNova目前與多個拉丁美洲金融機構、歐洲能源公司建立了合作,提供多語言文字分析、智慧問答和安全審計等大模型推理服務,商業化路徑逐漸清晰。在經歷各種挫折之後,SambaNova也在推理AI市場中找準了自己的定位。推理,更吃香了在一篇報導中,有分析師指出,要有效率地完成訓練,你需要複雜的記憶體層級結構,包括片上SRAM、封裝內HBM和片外DDR。而AI新創公司難以取得HBM,更難將HBM整合進高性能係統-所以像Groq和d-Matrix這樣的許多AI晶片就不具備足夠的HBM或DDR容量或頻寬來高效訓練大型模式。推理則沒有這個問題。在推理過程中,無需儲存梯度,啟動值也可以在使用後丟棄。這極大減少了推理任務的記憶體負擔,也降低了僅支援推理的晶片所需的記憶體系統複雜度。另一個挑戰是晶片間的網路通訊。在訓練中產生的所有梯度需要在所有參與訓練的晶片之間同步。這意味著你需要一個大型、複雜的全互聯網來有效率地完成訓練。相比之下,推理是一個前饋操作,每個晶片只需與推理鏈中的下一個晶片通訊。許多新創公司的AI晶片網路能力有限,不適合用於訓練所需的全互聯架構,但對推理工作負載卻綽綽有餘。 Nvidia則很好地解決了AI訓練中記憶體和網路的雙重挑戰。而目前就而言,Nvidia的優勢過於明顯。得益於CUDA賦予GPU的多功能性,Nvidia的硬體能夠完成訓練和推理所需的全部運算。而在過去十年中,Nvidia不僅致力於建立針對機器學習工作負載高度優化的晶片,還在優化整個記憶體和網路架構以支援大規模訓練和推理。每顆晶片上搭載大量HBM,使得Nvidia硬體能夠輕鬆且有效率地快取每一步訓練產生的梯度更新。再加上NVLink等規模擴展技術以及InfiniBand等叢集擴展技術,Nvidia硬體能夠勝任每一步訓練後對整個大型神經網路權重進行全域更新所需的全互聯網絡。像Groq和d-Matrix這樣的僅推理晶片在記憶體和網路能力上都無法與Nvidia在訓練方面競爭。而且事實證明,Nvidia在訓練表現上的優勢不僅僅是HBM和網路。他們在低精度訓練方面投入了巨大努力,而頂級AI實驗室也相應地在演算法超參數調優上做了大量工作,以適配Nvidia低精度訓練硬體的複雜細節。若要從Nvidia轉向其他晶片進行訓練,就需要將極其敏感的訓練程式碼遷移到一個全新的硬體平台上,並處理一整套新的「坑」。對於一個GPT-4規模的大模型來說,這種遷移成本和風險極高。AI推理並不新鮮,但當越來越多晶片公司「集體轉身」擁抱它,它便不僅是一個市場趨勢,更是一次策略轉向。在推理市場,贏家可以是個懂用戶需求的小團隊,也可以是專注於邊緣運算的新創公司。未來的AI晶片競爭,將不再只圍繞浮點運算和TOPS展開,而是進入更貼近「真實世界」的階段——一個講究成本、部署、可維護性的時代。對AI晶片企業而言,從訓練到推理,不是放棄技術理想,而是走向產業現實。 (半導體產業觀察)
計算的未來:輝達王冠正搖搖欲墜
需求整合、定製晶片和分佈式訓練將影響輝達領先地位。大模型浪潮來襲後,2023 年輝達資料中心的 GPU 出貨量總計約 376 萬台,較之上一年的 264 萬台增長 100 多萬台,並成為歷史上規模增長最快的硬體公司。據估計,2025 年輝達銷量將達到 650 萬至 700 萬塊 GPU。目前情況來看,輝達在 GPU 上的壟斷局面仍在持續,然而,其長期持久性(>6 年)的問題仍在被持續熱議。當前,以Google、微軟、亞馬遜和 Meta 為代表的海外巨頭正在積極整合 AI 需求,力爭成為 NPU 的主要消費者,與此同時,他們也正在自研具有競爭力且高度可靠的晶片。此外,計算需求的規模之大也觸及了資本支出、電力供應和基礎設施建設的極限,這正在推動行業轉向分佈式、垂直整合和協同最佳化的系統(晶片、機架、網路、冷卻、基礎設施軟體、電源),而輝達對此準備不足。基於此,輝達可能會失去有利地位,影響將波及 AI 堆疊的各個層面——從晶圓廠和半導體,到基礎設施、雲端、模型開發者和應用層。1 巨頭加速晶片競爭據輝達方面介紹,2025 財年第四季度,其共交付了 110 億美元 Blackwell 晶片,Blackwell 主要賣給雲巨頭,這部分收入佔輝達資料中心業務收入的半成左右。不過,業內判斷,雲巨頭的份額將縮小,此外,由於過度購入並被迫虧損出售的小/短期GPU租賃廠商的利用率和投資回報率也均較低。同時,由於規模化的前沿模型成本更低、性能和泛化能力更佳,尤其是在有效的 RAG 和廣泛可用的微調機制之下,大多數使用特定資料訓練專有模型的公司價值點尚不明確,這些長尾買家的需求並不穩固。此外,部分小型獨立雲廠商如 Coreweave、Lambda、Crusoe、Runpod 等的未來不夠明晰,輝達過往偉減少雲巨頭帶來的衝擊給予他們資金和 GPU 支援,但其仍舊缺乏產品多樣性、基礎設施和人才能力。相比之下,雲巨頭的需求則增長迅速,外部開發者面臨著長期資源短缺,交付周期長達數月,而內部需求也加劇了這一趨勢,50-70% 的總計算量用於前沿訓練和重大成果(例如 Copilot、Gemini 和 Meta AI)的推理。儘管各大雲服務提供商每年的資本支出都超過 200 億美元,但所有主要雲平台都已滿負荷運轉。憑藉規模和基礎設施經驗,雲巨頭最有能力攤銷折舊和停機成本,同時提供他們也提供了很強的靈活性、安全性和可靠性,由此帶來高 AI 服務利潤率和客戶信任度。當 GPU 支出數億時,輝達在主導驅動平行 AI/ML 工作負載方面的平衡是可控的,如今,這種情況已不復存在。在一些超大規模資料中心,資本支出已超過毛利潤的 25%,GPU 佔基礎設施支出的一半,並佔資料中心 TCO 約 80%。此外,與軟體不同,推理是邊際成本結構的核心。來源:John Huber隨著未來訓練(50 億美元以上)支出受限,定製化和資本效率對於最大限度地擴展計算能力、訓練最佳模型和保持競爭力至關重要。雖然替代輝達並不容易,但巨頭們均在尋找機會點:Meta 用 ASIC 取代了輝達處理其一些最大的 DLRM 工作負載,Google也用同樣的方法處理了 YouTube 的關鍵視訊編碼工作負載。亞馬遜早在 2012 年就用 Nitro 取代了虛擬機器管理程序,並用 Graviton 取代了大量英特爾 CPU。雲巨頭以及 Marvell、Broadcom、Astera、Arista 和 AIchip 等主要設計合作夥伴已經投入了大量資金和工程人才,以削弱輝達的壟斷。定製計算市場和Marvell收入坡道的增長預測以Google為例,自 2013 年以來,他們一直在內部開發 TPU,雖然開發周期長達數年,但在預算、人才和架構都有限的情況下,TPU v1 從啟動到部署僅用了 15 個月。並且歷屆 TPU 論文中與對應的 GPU 相比都有性能和能耗上的優勢。比如,TPU 第 4 代和輝達的 A100 是同等製程的,在這一情況下,單看半導體利用率,TPU 的技術和架構及設計方案會比 GPU 有 3-5 倍的性能提升。現階段,也有許多頭部廠商在採用 TPU,如 Anthropic 使用 TPU v5e 進行推理,蘋果則曾選擇在 TPU V4 和 V5p 的混合體上訓練其 SOTA 3B 參數本地模型。發展至第六代,TPU Trillium 已經將能效和 HBM 容量提高一倍,峰值性能提高三倍以上。而Google也在迭代其軟體堆疊,由 TensorFlow 過渡到 JAX 用於處理編譯和低級部署最佳化,TPU 和 JAX 的組合幾乎完全取代了Google內部用於 AI 工作負載的輝達 GPU。本月初,Google又發佈了第七代 TPU“Ironwood”,作為Google首款面向 AI 推理時代的 TPU,單晶片峰值算力可達4614 TFLOPs。據介紹,Ironwood 可擴展至 9216 片晶片叢集,性能是第六代 TPU Trillium 的 2 倍,並且能效較之於第一款 Cloud TPU 高出近 30 倍。此外,HBM 頻寬也有所提升,單顆 Ironwood 晶片的記憶體頻寬達 7.2Tbps,是 Trillium 的4.5倍,Ironwood 晶片間互聯(ICI)頻寬則為 1.2Tbps,是 Trillium 的1.5倍。除Google外,亞馬遜也正在加速晶片開發,自 2015 年收購 Annapurna Labs 後,他們推出了第二代 Inferentia 和新的 Trainium 晶片,預計到 2026 年,支出將達到 25 億美金。第一代運行 Alexa 的後端,而第二代則專注於 LLM 價格和性能的最佳化。Anthropic 也已選擇了亞馬遜作為主要算力供應商,並與其一同研發下一代晶片。微軟則推出了自研 AI 晶片 Maia 100 晶片和相關的 Cobalt 100 CPU。在軟體方面,微軟推出了相容 Pytorch 的編譯器 Maia SDK,依靠 Open AI 的 Triton 框架來取代 CUDA。另外,還推出了一種新的資料格式(MX v1.0)以使跨提供商的量化標準化,這將使自研和第三方晶片無縫互操作,為開發者提供完整的可移植性。Meta 也在佈局 ASIC,早期,Meta 晶片主要為 Instagram 和 Reels 提供 DLRM,隨著第二代 MTIA 晶片發佈和支援定製軟體堆疊,其已開始在 Facebook 和 Instagram 的新聞推送推薦系統中使用推理晶片。Meta 還在合成資料生成方面擴大晶片使用,此前,Llama 3.1 就使用了這些晶片進行監督微調和資料提煉,以預訓練較小的模型。上月,據外媒報導,Meta 已經在小規模部署測試其首款用於 AI 訓練的自研晶片。當前,AI 的工作負載偏向於訓練,即使在微軟,訓練也約佔算力需求的六成,理論上來講,由於訓練受限於記憶體且對空間限制較為敏感,會限制 ASIC 的可行性,但隨著重心由訓練轉向推理,輝達的壓力也正在增大。業內分析認為,在許多情況下(尤其是對於中型模型),上一代 A100 的性價比都高於 H100,而 AMD 也正在成為更具競爭力的替代品,甚至從長遠來看,尤其是對於小模型而言,基於 CPU 的推理或為最佳選擇。2 分佈式帶來的挑戰當然,也有人會反駁稱,就單晶片性能而言,輝達 B100 的性能相當於 3 個 Trillium TPU,但有觀點認為,單晶片性能並不重要:雲巨頭能夠垂直整合併利用其規模和專業打造總體上更經濟、性能更高的分佈式系統,對於輝達而言,這將會是難以競爭或適應的結構性趨勢。隨著登納德縮放定律(Dennard scaling)的失效和 SRAM 邏輯尺寸的縮小,電晶體小型化的回報下降,新節點成本卻一路飆升,硬體增益(密度、性能和成本)將越來越多地來自系統技術的協同最佳化,以及互聯、晶片、冷卻、電源、機架和資料中心的智能設計。這在很大程度上得益於先進的封裝技術(例如晶片、增加的封裝內 HBM)和更大的基板。而更大的增益則來自於資料中心營運商、供應商和系統整合商有意識地根據超大規模需求定製設計的努力。來源:微軟研究以微軟的資料中心設計為例,他們規劃了自己的電信光纖網路,並推出新的 ColorZ 可插拔光收發器 + DSP,以支援長距離(<80 公里)資料傳輸,通過連線據中心有效提高峰值叢集性能。為了支援海量資料流,微軟計畫開發用於交換機和收發器的封裝內、並最終實現晶片光學器件。目前搭載 Maia 晶片的機架擁有更高的垂直整合度,通過使用定製配電、高頻寬乙太網路協議和專用的機架內“sidekicks”來實現閉環液體冷卻,且在提高晶片密度的同時,降低了互連要求和成本。重要的是,這些伺服器整合到現有的微軟資料中心基礎設施後,可以在現有空間內實現動態功耗最佳化、更輕鬆的管理以及更大的計算能力,這是擴展訓練運行的必要條件。Google所見略同,他們放棄了大型晶片,轉而採用體積更小、成本更低、且具有深度互連的 ASIC 叢集。在機架層面,所有 TPU 都具有相同的組態,無需支援不同的環境。此外,它們在機架中整合的伺服器主機板也更少,這提高了機架密度,並進一步降低了硬體部署的複雜性。並且Google使用 ICI 而非 NVLink,這讓他們能通過無源銅纜,以非常低的成本連接 64 個 TPU 的切片。與輝達的不同之處還在於,Google在資料中心及其他方面均進行了大量的定製化:TPU 設計為在 4096 個晶片的艙內運行,使用定製光學開關(Apollo)代替普通的電子分組交換機,與輝達相比,大大降低了功耗和停機時間。在整個資料中心中,TPU 採用環形網路拓撲結構而非 CLOS 架構,改善了延遲和局部性,並結合專有的雲網路硬體和軟體 (Jupiter)實現跨資料中心組織大規模 TPU 叢集,繼而實現比競爭對手低近 30% 的性能/TCO(主要得益於晶片成本、停機時間和基礎設施支出的降低)。更重要的是,結合更小的批次大小、資料驗證技巧和高級分區,這意味著Google可以在多個連接的資料中心訓練像 Gemini Pro 1.5 這樣的前沿模型。這最大限度地降低了未來訓練基礎設施的功耗和尺寸要求,並且在提高了硬體模組化的同時,延長了舊晶片/裝置的使用壽命。Google資料中心衛星照片基礎設施正在變得愈發分佈式,以 Meta 為例,Llama 3 的訓練就並非集中於單一資料中心。值得一提的是,由於需要去在包括 AWS、Oracle 等雲上做訓練,所以 Meta 也正在通過與 HammerSpace 合作將多雲多資料中心的資料完全統一起來。微軟也正在為 OpenAI 連接遍佈全國的叢集。當前,海外巨頭都在積極探索實現真正的非同步分佈式訓練。分佈式基礎設施是繼續擴展和計算新 OOM 的唯一途徑。目前,算力仍舊是前沿模型發展的最大制約因素,而多資料中心訓練允許使用規模較小、互聯互通的資料中心,這不僅降本而且提高了吞吐量。同時,也加速了基礎設施的建設:小型資料中心更容易進行設計、獲得土地使用權/許可證、環境影響評估 (EIA) 審批、供應商/總承包商 (GC) 以及建設輸電和電壓變壓器;互聯叢集則可以幫助克服電網滿負荷運行的電力限制,單個資料中心很快就會達到規模極限(例如,10GW 叢集約佔美國電力的 1%)。來源:Edward Conard互聯園區和跨區域聯網叢集能夠擺脫單一端點,當前,海外還僅限於使用乙太網路(<40公里)區域內的資料中心,但也正在計畫利用電信光纖,連接遠至約 500 公里外的資料中心。如微軟已開始深入研究,並已與 Lumen 等光纖網路提供商斥資超過 100 億美元。雖然還需要幾年時間才能部署,但將提供 1-5Pbit 的頻寬和 <1 秒的權重交換,足以實現多區域訓練。這些區域分佈式訓練系統將持續擴展並成為常態,從而實現更經濟、更快速的基礎設施建設,同時推動單次運行(x-xxGW)的峰值功率/計算能力。不過,雖然分佈式系統為非傳統但資金雄厚的參與者創造了一些機會,但基礎設施專業知識至關重要,巨頭必須不斷擴展以訓練出更優秀的模型。長期來看,關鍵區別在於訓練將在 x00MW-xGW 資料中心的“小型”聯網園區中進行,而不是在 xxGW 級的單體資料中心中進行。基於前述趨勢,業內分析認為,輝達將很難在性能或成本上競爭,其既無法與雲深度整合,也無法定製硬體,除非他們發展出規模較小的客戶,輝達本身並不適合服務於跨叢集或百億億次級的情況。DGX 100伺服器(8 A100s)的網路佈局舉例來看,輝達的 Infiniband 網路基礎設施並非旨在支援 10 萬以上的 GPU 叢集,根據設計,每個 GPU 僅連接到單個 NIC(Network Interface Card,網路介面卡),並且每個封包都必須以相同的順序傳輸。由於模型規模龐大且權重分佈不均,單個 NIC、GPU 或光模組故障就可能導致整台伺服器癱瘓,迫使資料重新傳輸,而隨著新機架的出現,節點規模也隨之增大,這種情況會更加嚴重,即使頻繁設定檢查點,也會將 MFU 拖累數個百分點。此外,儘管輝達正在推動向 800 Gbps 網路的過渡,但他們面對資料通訊領域由超大規模引領的大規模轉型表現出措手不及,未來會越來越多地使用可插拔 ZR 光模組來支援連線據中心所需的超高頻寬光纖連接,還將獲得新的 DSP 和支援電信硬體(放大器、多路復用器、轉發器等)。這會破壞輝達的網路堆疊,並且使 Coherent、Lumentum、Inphi、Cisco 和 Nokia 等供應商受益。值得一提的是,輝達還面臨著一個最緊迫的問題——容錯,在訓練過程中處理多個故障點時,容錯能力是確保可靠性和高利用率的關鍵。規模較小的客戶依賴於開源框架,但對於規模非常大的叢集,輝達的網路設計和硬體選擇並未提供內建保護。如今,許多巨頭依賴於內部解決方案:Google的 Pathways 比其他解決方案在邊緣情況和故障類型方面表現更優,同時能夠靈活處理同步和非同步資料流。Pathways 還擅長檢測和修復幾乎無法察覺的、繞過 ECC 的 GPU 記憶體問題,而輝達的診斷工具 (DCGM) 可靠性要低得多。輝達也難以提供具有競爭力的分區和叢集管理軟體,其 BaseCommand 系統(基於 Kubernetes 建構)旨在實現跨平台,並相容異構系統。然而,其他廠商擁有更完善的專有整合解決方案,如Google的 Borg和微軟的 Singularity 能夠更好地處理規模化的虛擬機器/容器管理、透明遷移以及 GPU 工作負載的調度/管理。Google甚至還通過 MegaScaler 在單個園區內外的 TPU Pod 之間同步劃分工作負載。較之輝達,雲巨頭在半導體、基礎設施和模型層面的垂直整合,能夠提升其系統級理解、可觀察性、協同最佳化和故障分析能力。當前輝達也已在通過 Blackwell 和 GB200 解決結構性問題。在硬體層面,安裝了機架寬的銅纜連接背板,並採用液冷技術來提高密度、能效和總體擁有成本 (TCO),並推出了基於乙太網路的資料中心級網路解決方案 Spectrum-X。在軟體方面,輝達正在積極更新 DCGM 軟體,並推出專用的可靠性、可用性和可維護性 (RAS) 引擎,旨在通過感測器級晶片資料預先向營運商發出故障警報,從而幫助緩解持續存在的 NIC/Infiniband 故障。然而,綜合來看,這還不夠。如前文所述,幾乎所有關鍵基礎設施軟體的內部都存在更好的版本,超大規模資料中心也早已實現了規模化和垂直整合。以冷卻為例,早在輝達強制使用液冷前,Google於 2018 年就通過 TPU v3 部署強制使用液冷,Google的 TPU v3 部署每千瓦時用水量比微軟的輝達資料中心少 2 倍,PUE(電源使用效率)為 1.1,而微軟的 PUE 則>1.4。這意味著輝達在每個超大規模資料中心損失了 30% 的有效電力和 50% 的佔地面積。輝達意識到了這一點,並通過佈局 DGX Cloud、NGC 等努力提升價值鏈,也前瞻性收購了 Mellanox,但未來正朝著大型園區和雲的方向發展,而輝達卻主要在資料中心層面進行最佳化,其正面臨著前所未有的長期挑戰。 (AI科技評論)
“晶片鐵幕”前夜, 中國半導體工業存在另一種可能性
【導讀】4月14日,美國聯邦政府發佈公報,川普政府正在發起對半導體進口的調查,調查包括了半導體基板和裸晶片、傳統晶片、尖端晶片、微電子元件以及含有半導體的下游產品等,基本上涵蓋了此前在4月11日豁免的“對等關稅”產品部分。而4月11日,中國半導體行業協會發佈的《關於半導體產品“原產地”認定規則的緊急通知》,建議“積體電路”無論已封裝或未封裝,進口報關時的原產地以“晶圓流片工廠”所在地為準進行申報,引發廣泛關注。隨著半導體產品“原產地”成為關稅戰的焦點,中國究竟需要做什麼,又能怎麼做?本文提出,中國要堅持在傳統晶片行業形成競爭優勢,而不僅是關注先進晶片領域的攻關突破。因為對中國而言,傳統晶片的擴產不僅是應對美國封鎖的反制手段(如2024年對美晶片禁令的強硬回應),更是建構本土產業鏈的關鍵。中國在傳統晶片領域的迅速擴張已經成為技術戰爆發至今的最大“變數”。在過去一段時間內,成熟製程的傳統晶片常常被人詬病為“落後產能”,長期受到忽視,中國在傳統晶片上的技術與產能突破也長期被視為“內卷化競爭”。本文指出傳統晶片的重要戰略價值表現在:其一,技術潛力被低估。傳統晶片雖採用成熟工藝,但在設計、封裝環節仍存在創新空間。其二,市場規模決定技術演進。傳統晶片佔據全球70%的晶片消耗量,覆蓋汽車、消費電子等核心產業,其龐大的應用規模為後發者提供了技術迭代的“練兵場”。其三,歷史經驗驗證路徑可行性。日本在20世紀80年代通過計算器晶片積累的CMOS技術和製造能力,最終反超美國儲存晶片市場,證明傳統領域是後進者能力躍遷的跳板。‍‍‍‍‍中國在傳統晶片領域有巨大競爭潛力,美國在先進晶片“卡脖子”,中國也可以對等在傳統晶片“卡脖子”。在之前的晶片戰中,美國因難以兼顧高利潤的先進晶片與低成本的傳統晶片市場,為中國留下戰略缺口。中國通過傳統晶片的規模化生產,既推動了能支援自主技術進步的本土產業鏈的成長完善,又以成本優勢倒逼國際企業合作(如歐洲意法半導體與華虹合作生產40nm MCU晶片)。這使得中國能夠依託全球最大半導體需求市場,將傳統晶片的產能優勢轉化為技術話語權,最終為突破先進晶片封鎖積蓄能力。正如日本教訓所示,放棄市場主導權追求技術“先進性”將導致衰退,而中國選擇以傳統晶片為“根據地”,正書寫一條迥異於“矽谷模式”的產業崛起路徑。中國為什麼要在傳統晶片上形成競爭優勢?面對美國發動的技術戰,中國半導體工業在扛住早期的打壓之後還取得了很大的進步。對於這些進步,目前的相關討論大多聚焦於先進晶片領域的攻關突破,往往忽略了另一個重大進展——中國企業在傳統晶片領域進行了迅速擴張,其增長勢頭不僅使中國一躍成為全球第二大晶片出口國,而且有望成為全球最大的晶片製造國。但是,由於傳統晶片往往被認為技術落後和缺乏財務效益,這一進展的性質和意義至今沒有得到充分的討論,甚至被錯誤地認為是一種導致產能過剩的行業內卷。圖片來源:Federal Register美國聯邦政府公報本文從技術進步和工業發展的視角出發,證明中國在傳統晶片領域的擴張實際上有著極為重要的意義。傳統晶片雖然採用相對成熟的製造工藝,但同樣存在著大量的技術創新機會,而且在應用規模上遠超先進晶片。因此,在領先者主導著先進晶片領域的情況下,發展傳統晶片能夠使後進者發展出獨特的競爭能力。國際半導體工業的歷史經驗則進一步證明,成功的後進者(無論是國家還是企業)往往是通過在傳統晶片領域持續擴張而成長起來的。對於中國而言,在傳統晶片上形成競爭優勢不僅是對美國在先進晶片領域“卡脖子”的戰略反制,更是發展本土產業鏈和自主發展技術的關鍵環節。在美國再次對中國半導體工業極限施壓的背景下,中國絕不能“自縛手腳”地限制傳統晶片的擴產。▍發展傳統晶片對於技術進步的重要性傳統晶片是最近幾年才興起的一個概念,泛指以相對成熟的製造工藝而生產的積體電路,也被稱為“成熟製程晶片”。相對於採用最先進世代的製造工藝生產的先進晶片,傳統晶片往往被認為是不重要的:第一,傳統晶片並不處於製造工藝的最前沿,在技術上顯得“落後”;第二,傳統晶片的市場價格遠低於先進晶片,在經濟上顯得效益低下。因此,在美國發動技術戰之後的很長一段時間,無論是中國還是美國的相關討論都缺乏對傳統晶片的關注。然而,這種認識實際上低估了傳統晶片的技術潛力和產業價值。傳統晶片並不等於技術落後,只是產品形式比較穩定,而且仍然存在著大量的技術創新機會。從產品和技術的互動關係出發,每一種產品都可以被視為由若干技術(以零部件或工藝的形式)組成的系統。但產品的性能特性(例如功能、成本、形狀等)並不是由任何一項技術所單獨決定,而是同時取決於其他技術的性質,以及定義了技術如何發揮作用的產品架構。對於半導體工業而言,開發和生產晶片在總體上需要經過設計、製造、封裝測試三個主要環節,製造工藝只是晶片技術的部分內容,而不是全部。因此,即使採用成熟的製造工藝,傳統晶片仍然在設計環節和封裝測試環節有著開發和應用先進技術的空間。在工藝節點給定不變的情況下,通過採取新的材料、裝置乃至新的加工技術,同樣可以改進傳統晶片的質量和成本。換言之,所謂的傳統晶片和先進晶片只是存在不同的技術特徵和演進方式,但在產品層面並沒有絕對的先進和落後之分。更重要的是,相對於先進晶片,傳統晶片的一個獨特優勢是具有更為龐大和穩定的應用規模。作為一種工業中間品,晶片的應用規模大小在很大程度上決定了技術進步的機會大小。雖然一些關鍵技術領域必須使用先進晶片,但傳統晶片恰恰由於製造工藝穩定和市場價格較低的特徵,而被廣泛應用於汽車、消費電子和機械裝置等重要經濟部門,每年需要消耗全球晶片產量的70%才能滿足需求。這些下游工業部門的技術變化,往往為傳統晶片的技術進步創造了更為廣泛的市場機會。例如,汽車工業的智能化和電動化趨勢正在帶動傳統晶片的新一輪技術創新,特別是大量採用碳化矽等第三代半導體材料。正是因為傳統晶片的產業價值遠遠高於表面上的財務價值,即使是領先者也不願意徹底放棄傳統晶片市場,例如幾乎壟斷了全球先進晶片代工業務的台積電仍然保持著相當比例的成熟製程產能。但傳統晶片也是領先者難以兼顧的薄弱環節,因為傳統晶片和先進晶片在產品性質和市場需求上存在巨大差異。由於先進晶片的市場價格高且應用規模有限,所以領先者可以在生產成本較高的情況下以相對較小的生產規模實現盈利;傳統晶片的市場價格低,但應用規模龐大,必須以較低的生產成本進行更大規模的生產才能有利可圖。如果借用美國創新學者提出的概念,將企業圍繞產品開發和應用而構成的巢狀商業系統視為一個特定的“價值網路”,那麼經常發生的一種情況是:由於價值網路反映了使用者對產品性能特性的優先偏好(例如是成本優先還是性能優先),而領先者的能力是基於先進晶片的價值網路不斷強化的,所以它們往往無法及時發現和利用來自傳統晶片的市場需求和技術變化。因此,在先進晶片市場往往被領先者“鎖定”而缺乏應用機會的情況下,發展傳統晶片實際上為後進者提供了一個持續發展自身競爭能力的成長路徑:一方面,後進者可以基於下游應用的特定需求,重新定義晶片的性能特性,從而推動在晶片設計、封裝測試或材料與裝置環節的技術創新,由此形成領先者所不具備的獨特技術能力;另一方面,通過參與以低成本和大規模生產為核心特徵的市場競爭,最終獲勝的後進者往往可以發展出比領先者更為強大的製造能力。在國際半導體工業的發展歷史上,許多成功的後進者都是在傳統晶片領域發展出趕超領先者所需的能力基礎,一個典型例子就是日本。雖然日本半導體工業在20世紀80年代對美國的趕超發生在先進的儲存晶片領域,但它所依靠的技術能力和製造能力卻是在傳統的消費電子晶片領域建立起來的。在20世紀60~70年代,日本最重要的消費電子產品是計算器,但計算器所需的晶片大量依靠從美國進口。然而,美國半導體廠商更為關注用於大型電腦的先進晶片,有些“看不上”市場競爭激烈和價格低廉的計算器晶片。日本計算器企業獲得的晶片質量參差不齊,還要承擔高昂的合作成本,這迫使它們開始與本國半導體廠商進行合作開發。隨著市場競爭的加劇,日本計算器企業不斷要求供應商降低晶片價格、加快產品型號迭代和壓縮交付周期,日本半導體廠商由此被逐漸“倒逼”發展出注重產品良率、生產成本和大批次製造的生產能力。同樣在這一過程中,日本半導體廠商形成了不同於美國的技術路線。當時,美國廠商的主流是面向早期儲存晶片產品的NMOS技術,而不是有一定風險的CMOS技術。但日本廠商發現,CMOS技術的低功耗特徵能夠顯著提升可攜式電子裝置的使用價值,新技術的風險和成本則可以由市場規模的擴張所抵消,於是開始在計算器和其他消費電子產品的晶片上開發和應用CMOS技術。隨著日本廠商在傳統晶片領域的持續成長,不斷改進的CMOS技術逐漸形成對NMOS的成本優勢,而其中絕大部分的技術知識掌握在日本廠商而非美國手中。最終,當日本半導體廠商大舉進入儲存晶片領域時,美國廠商發現它們的日本同行居然能夠以遠低於自己可承受的市場價格提供質量更高的晶片。美國人起初認為日本人使用了不正當的傾銷手段,但後來的事實證明並非如此——日本的晶圓製造廠不僅實現了自動化大規模生產,而且在生產良率上高出美國一大截,這使得日本廠商在持續擴大產量的同時,能夠充分利用規模經濟降低生產成本。因此,在1983~1984年全球半導體市場需求激增的情況下,日本廠商能夠通過迅速擴產和改進產品來響應客戶需要,而美國廠商只能將市場拱手讓人。同時,隨著儲存晶片的電晶體密度不斷上升,具有低功耗特徵的CMOS開始體現出對於NMOS的性能優勢,日本廠商由此得以加快產品的更新迭代,美國廠商則不斷遭遇挫折。面對市場優勢和技術優勢被逆轉的雙重打擊,美國半導體工業在80年代中期陷入了前所未有的困境,最終美國廠商幾乎悉數退出儲存晶片領域。到1986年,日本廠商已經取得全球儲存晶片市場的絕對主導地位。日本也成功超越美國,一舉成為全球最大的半導體生產國。頗為戲劇性的是,日本半導體工業在進入20世紀90年代之後突然陷入了一場持續近20年的衰退。發生這一變化的原因是複雜的,但總體而言日本半導體工業後來走上了一條與其崛起過程相反的道路——極度注重技術指標的先進性,反而忽視了外部快速變化的市場需求,特別是傳統晶片領域的變化。當韓國和台灣地區乃至歐洲地區分別在消費電子、工業電子、汽車電子和面向個人電腦與移動通訊產品的晶片領域形成衝擊的時候,日本半導體工業沒有做出及時回應,最終導致其全球市場份額的持續下滑和產業鏈的持續收縮。無論如何,後進者的歷史經驗足以證明一個道理:發展傳統晶片的戰略本質,是在技術落後條件下建立起自己的能力基礎。因此,當中國在先進晶片領域被美國“卡脖子”的時候,發展傳統晶片為中國半導體工業的技術進步提供了一個重要的發展路徑:以傳統晶片為“根據地”發展出獨特的競爭能力(無論這種能力體現為成本、規模還是某種獨特的技術積累),從而為發展先進晶片提供能力支援。▍中國“主導”傳統晶片的戰略意義對中國而言,在傳統晶片領域形成競爭優勢不僅有著技術層面的合理性,更重要的是存在著戰略層面的重大意義。理解這一點需要從半導體技術戰的形勢演變說起。正如前文所說,傳統晶片對於經濟增長和工業發展的作用絲毫不弱於先進晶片,由此產生的問題是:為什麼美國沒有從一開始就全面扼殺中國半導體工業,而只是對先進晶片“卡脖子”?事後來看,根本原因在於全球半導體工業當時的供給和需求格局。從供給端看,中國企業在傳統晶片領域的市場份額極其有限。2020年,中國本土企業(總部設在大陸)生產的晶片只佔全球總產量的5%。儘管美國企業生產的傳統晶片也不多,但絕大部分的全球市場份額由美國的盟友掌握,來自美國、歐洲和日本的廠商則常年壟斷全球半導體裝置和材料市場。因此,那時中國的傳統晶片產業對美國而言不足掛齒。從需求端看,中國從2005年開始就一直是全球最大的單一半導體市場,並且從2020年起成為全球最大的半導體裝置市場和第二大半導體材料市場。美國及其盟友的半導體企業非常需要來自中國的龐大需求,而且它們的創新和技術進步也依賴於在中國市場的應用。因此,一旦徹底“打死”中國半導體工業,那麼美國半導體工業同樣將遭受異常沉重的打擊——減少投資、裁員、股價大跌,進而導致華爾街的恐慌等連鎖反應,而這些影響在技術戰初期就已經顯現。這也是美國半導體企業在早期一直對美國政府的激進措施表示不滿的主要原因。於是,隨著技術戰的演進以及政府與企業之間的相互妥協,美國逐漸形成了一種企圖“魚和熊掌兼得”的戰略:一方面是在先進晶片領域“卡脖子”,通過出口管制和市場管制等方式打擊中國企業;另一方面是在傳統晶片領域“開口子”,使得美國及其盟友的企業能夠繼續主導中國市場。因此,在中國半導體工業需要進口的先進技術和裝置被斷供的同時,所有對中國執行美國政府禁令的企業都在努力擴大其傳統晶片和相關裝置、軟體在中國的市場份額。例如,在2020年前後美國出口管制影響中國晶片代工廠擴產的背景下,台積電、三星、聯電等企業紛紛計畫在中國新建或擴建成熟製程產能;荷蘭光刻機企業阿斯麥決定在中國擴建升級技術服務基地,以擴大低端光刻機的業務規模;全球前三大晶片設計軟體(EDA)企業則繼續在中國佔據主要的市場份額;等等。但這些市場恰恰是中國半導體工業成長所必需的——如果沒有市場需求,技術就不可能在應用中得到改進,企業就不可能對技術研發進行持續的高強度投資。不難想像,假如當時的工業格局保持到今天,那麼中國半導體工業的各個環節就會繼續被國際廠商主導,技術戰的結果就很可能是美國大獲全勝。然而,當時間來到2020~2021年,在全球受到疫情影響和中國電動汽車開始崛起的背景下,全球半導體工業出現了大規模的晶片短缺,最大的產能缺口就發生在傳統晶片。面對“突然”出現的空前市場需求,中國的本土企業抓住機會在傳統晶片領域迅速擴產。僅在2021年,中國的晶片產量就比上年增長了近40%。雖然2022年下半年全球半導體市場迅速從短缺轉為過剩,但本土企業也沒有放緩擴產的步伐。在2023年,中國的晶片產能繼續以12%的增長幅度“狂飆”,達到全球平均增幅的兩倍以上,而且這一增長勢頭延續到了2024年。已經有研究機構指出,如果保持當前的增速,那麼中國的晶片產能將在2025年與領先國家持平,並在2026年成為全球最大的晶片製造國。值得指出的是,即使經歷了2023年的低價競爭,作為擴產主力的本土企業不僅仍然處於營收和利潤同時增長的狀態,而且保持著很高的產能利用率。例如,中芯國際2024年第三季度營收相比2020年同期翻了一番,淨利潤同比增長超過56%,產能利用率超過90%;華虹半導體(華虹集團旗下的上市公司)2024年第三季度營收相比2020年同期也翻了一番,相比上年同期實現大幅扭虧為盈,產能利用率達到105.3%;晶合整合2024年前三季度營收同比增長超過35%,淨利潤同比增長771%。上述三家企業(計入華虹集團的整體產能)已經躋身全球前十大晶圓代工企業的行列,而且都在持續提升製造工藝。這足以證明在傳統晶片領域的擴產是建立在製造能力持續成長的基礎之上的,而不是所謂的“內卷競爭”。如果硬要說中國的做法導致了“產能過剩”,那麼過剩的對象也不是這些具有競爭優勢的新增產能,而是那些處於劣勢的“落後”產能。除此之外,傳統晶片的擴產還帶動了本土半導體裝置、材料和EDA企業的空前成長。由於中國市場長期由國外晶片廠商主導,中國企業在生產晶片所需的裝置、材料和EDA環節同樣處於邊緣地位,本土市場份額普遍只有10%乃至更低。雖然技術戰使這些上游環節的中國國產替代成為業界共識,但在既有產線上進行替代存在很大的技術風險和生產成本,同時需要晶片使用者的認證許可,因此最初幾年的中國國產替代仍然受阻。在這一背景下,無論是為了盡快投產以搶佔市場,還是為了避免受到美國追加制裁的影響,中國企業在擴產過程中大幅增加了對本土供應商的採購比例,創造出關鍵的市場成長空間。在裝置領域,中國最大企業北方華創的營收規模從2020年開始以每年50%的幅度迅速增長,2024年前三季度營收已經追平2023年全年,幾乎是2017年的10倍。在材料領域,以西安奕斯偉和上海新昇為代表的半導體矽片企業同樣進行了產能擴張,其中奕斯偉在全球12英吋半導體矽片產能的佔比已經增長至7%,而中國在2020年之前還無法大規模生產該產品。在EDA領域,中國最大企業華大九天2023年營收首次超過10億元人民幣,是2019年的4倍。在營收飆升的支撐下,這些本土企業不斷加大技術研發投入和拓展產品線。於是,本土裝置、材料和EDA企業的成長同樣為先進晶片的突破提供了有力支援。由此,中國半導體工業已經發生了一個重大的結構性變化:過去在各個產業環節“各自為戰”的本土企業之間開始建立起較強的供需聯絡,形成了一個支援自主技術進步的本土產業鏈雛形。但這種變化並不會導致讓一些人聞之生畏的“與全球產業生態脫鉤”,反而會促使國際企業更加積極地與中國的上下游企業合作——只不過它們如今需要採取更加平等的姿態,否則中國同行就會將它們淘汰出中國市場。最新的例子是歐洲的半導體巨頭意法半導體(ST)宣佈與華虹半導體合作在中國生產40奈米的MCU晶片,其CEO的表態則是對合作原因的最好解釋:“如果你不在那裡(中國市場),你就無法及時做出反應……如果我們把在中國的市場(份額)讓給另一家在工業或汽車領域工作的公司,即中國企業,它們將主導自己的市場。而且它們的中國市場如此巨大,這將是它們與其他國家競爭的絕佳平台。”到底怎麼做才能最有效地“加強國際合作”,不言而喻。美國顯然也感受到了中國半導體工業的變化,所以在2024年底實施的新一輪出口管制中大幅加強了對中國企業的打擊範圍和強度,而且明確將“削弱中國本土半導體生態系統”列為核心目標。中國的回應也變得前所未有的“強硬”。不僅中國商務部宣佈禁止軍民兩用物項對美國軍事使用者或軍事用途出口,而且中國網際網路協會、中國半導體行業協會、中國汽車工業協會和中國通訊企業協會一致聲明“美國晶片產品不再可靠,不再安全”,呼籲中國企業“審慎選擇採購美國晶片”。中國能夠強硬“反擊”的一個重要原因,無疑是中國已經能大量生產本國工業體系所需的傳統晶片,極大減輕了對進口晶片的依賴程度。因此,中國在傳統晶片領域的迅速擴張已經成為技術戰爆發至今的最大“變數”。假如這一擴張趨勢能夠持續下去,那麼中國將在戰略上獲得自主發展技術的主動權:既然美國在先進晶片“卡脖子”,那麼中國也可以對等在傳統晶片“卡脖子”,形成戰略反制;中國還可以傳統晶片為基礎持續做大本土產業鏈,龐大的本土市場需求將為中國企業的技術進步創造出比美國更強的投資能力和應用機會,由此中國將以更快的技術進步速度趕超美國。▍中國還需要做什麼目前,中國已經具備了在傳統晶片上形成競爭優勢的所有條件。經過七十多年的發展,中國半導體工業不僅在各個主要環節都有參與市場競爭的本土企業,而且這些企業在傳統晶片擴產的帶動下正在形成本土產業鏈。中國擁有的全球規模最大和門類最齊全的工業體系一方面創造出了全球最大的半導體市場需求,另一方面提供了最為齊全的裝置、材料和設計軟體等生產資料供給。中國建立起的全球最大的理工科教育體系,則為半導體工業的發展提供了豐富的科技人力資源。繼續保持這些有利條件並使之壯大,無疑是中國半導體工業保持增長勢頭的必要前提。但是,能不能使這些條件充分發揮作用,仍然取決於中國半導體工業自身能不能持續擴張,特別是在傳統晶片的發展勢必引發更大外部遏制的情況下。在這樣的歷史關頭,阻礙後進者的最大因素往往不再是客觀條件,而是後進者在戰略層面的判斷和選擇——到底是發展“到頭”了,還是相信“彼可取而代也”?日本半導體工業在20世紀90年代迅速由盛轉衰的一個關鍵因素,就是國家首先在戰略上選擇了退縮。面對美國在80年代中期發起的貿易戰,日本政府連續簽訂了兩個不平等的“半導體協議”,不僅要求國外晶片在日本市場的佔比至少達到20%,甚至限定了日本晶片的價格,不允許以低成本進行競爭。在美國對日本晶片課以重稅的同時,日本卻不得對美國晶片加稅。在此之後,隨著美國半導體工業開始復甦,以及韓國和台灣地區在美國扶持下開始進入儲存晶片和晶片代工製造環節,“自縛手腳”的日本半導體工業走向了追求技術先進性和“獨門絕技”的道路。但是在丟掉市場之後,再先進的技術也有被追上的一天。於是,日本先是失去了在儲存晶片的主導地位,接著又丟掉了消費晶片和製造環節,最後只能退守依靠“獨門絕技”的裝置和材料領域——目前看來也不一定能守住。當然,日本對美國的政治和軍事“依附”讓它們很難有別的選擇,但仍然足以表明在戰略上選擇退縮的結果只能是失敗。實際上,中國對發展傳統晶片的負面評價,反映了因長期技術落後而造成的社會心理狀態。這種落後心理的行為體現,就是中國在半導體領域長期存在的“跟隨模式”——不僅將領先者的技術指標和發展軌跡視為發展工業的唯一正確道路,而且不斷懷疑自主發展的可能性。在這種語境下,國際企業的擴張是合理的市場競爭,中國企業的擴張就是擾亂行業秩序的“內卷”;美國禁止本國企業採購中國生產的晶片是不對的,所以中國也不應該管制本土市場,甚至還要不加原則地開放;美國指責中國半導體企業從矽谷偷竊技術和人才,所以中國的發展是有“原罪”的——殊不知美國當年也是拿這種伎倆來對付日本的。實際上,中國在2020年前後出現的半導體投機潮也是跟隨模式的產物。面對美國來勢洶洶的斷供威脅,中國社會當時的關注重點不是放在推動本土企業的產品開發和市場擴張,而是在很大程度上模仿所謂“矽谷模式”,依靠對所謂新技術和新產品的風險投資來“彎道超車”,而且美國有什麼,中國就要投資什麼。但是,半導體工業的技術進步從來不是僅靠投融資就能自動實現的,而是必須將資本持續投入到開發和改進產品的長期過程中,通過市場競爭而獲取利潤。因此,當中國將注意力轉向本土產業規模的持續擴張之後,資本投機浪潮就迅速銷聲匿跡,而進入行業的金融資本只能選擇成為長期支援企業進行產品開發和市場擴張的產業資本,否則不可能在市場競爭中全身而退。正是在這樣的歷史背景下,中國能否在政策和戰略上堅定發展決心,將在根本上決定中國半導體工業的發展前景。中國沒有義務屈從美國的利益,所以不能“自縛手腳”:第一,中國不能自我限制傳統晶片的擴產,而是應當以獲得市場主導地位為戰略目標,堅定支援本土產業鏈的持續擴張和進入全球市場,至於傳統晶片發展的“上限”則交給市場競爭決定;第二,在美國市場實質上對中國晶片禁入的情況下,中國需要敢於對本土市場進行對等管制,不允許支援禁令的美國企業反過來擠壓本土企業的市場空間。只要中國在政治上堅持獨立自主,在產業上堅定採取“兩條腿走路”的方式,在堅持自主發展先進晶片的基礎上,支援本土企業在傳統晶片上形成競爭優勢,那麼中國半導體工業的技術趕超和全面崛起將只是時間問題。 (文化縱橫)
兩岸晶片競爭加劇:台灣成熟晶片行業面臨挑戰!
近年來,隨著中國大陸晶片產業的迅速崛起,台灣傳統晶片行業正面臨前所未有的競爭壓力。這一趨勢不僅促使拜登政府發起調查,也給台灣工業界敲響了警鐘。 2015年,台灣力晶半導體與合肥達成協議,建立一個新的晶片代工廠,希望借此更好地進入中國市場。然而,9年後,形勢發生了巨大變化。在中國政府推動晶片國產化的背景下,力晶半導體不得不放棄了一度利潤豐厚的為中國平板製造積體電路的業務。與此同時,其在中國大陸的代工企業Nexchip已成為力晶半導體在傳統晶片領域最大的競爭對手之一。 在價值563億美元的傳統或成熟節點晶片產業中,中國大陸晶圓代工廠迅速贏得了市場份額。華虹(Hua Hong)和中芯國際(SMIC)等中國晶圓代工廠通過大幅降價和激進的產能擴張計畫,對力晶、聯華電子(UMC)和先鋒國際(Vanguard International)等台灣企業在汽車和顯示面板晶片市場長期佔據的主導地位構成了威脅。台灣的晶圓代工廠因此被迫撤退,或追求更先進、更專業的工藝。 “像我們這樣的成熟節點代工廠必須轉型;否則,中國的降價將使我們進一步陷入困境。”力晶投資控股及其上市子公司力晶製造半導體公司(Powerchip Manufacturing Semiconductor Corporation)董事長黃崇仁(Frank Huang)表示。聯華電子對路透表示,全球產能擴張給該行業帶來了“嚴峻挑戰”,該公司正與英特爾合作開發更先進、更小的晶片,並在傳統晶片製造之外實現多元化。