#研究報告 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#研究報告

機器人“大腦”將如何演進？大摩人形機器人研究報告

《人形機器人的訊號：機器人“大腦”將如何演進？》核心內容：一、發展路徑：VLA為主流，世界模型為前沿，中國廠商務實推進當下，人形機器人“大腦”的主流走向是VLA（視覺 - 語言 - 動作）模型。此架構具有徑直嫁接大語言模型以及多模態視覺模型的能力，機器人能夠領會自然語言指令，進而對應為具體動作，讓其擁有比傳統分層模型更強的互動能力和泛化潛力。具有代表性的玩家涵蓋Figure、Physical Intelligence、Galbot、X Square Robot等。然而，VLA可不是終點。報告表明，Nvidia的Jim Fan等專家對VLA提出過質疑，認為其本質依舊是“語言優先”，對物理世界的建模能力不夠，致使機器人在複雜物理互動裡表現欠佳。所以，研究機構著手探索世界模型等新型架構，像Nvidia的DreamZero、1X的世界模型、Robbyant的LingBot VA。這類模型，借助對物理世界動態之規律的學習，具備“想像”未來狀態之舉，進而提升泛化能力以及任務適應性。在國內市場範疇之內，廠商選取了更為講求實際的路線：短期內持續對VLA予以最佳化，借由強化基礎模型（像阿里的RynnBrain）、引入推理模組、融合強化學習等途徑逐步提升能力；長期則著重於世界模型等前沿方面，不過更側重於“場景逐個實現突破”——先於具體任務當中部署機器人，憑藉真實資料回饋模型迭代，建構起“硬體迭代+資料積累+模型最佳化”的正向循環。這種漸進式智能化路徑更貼合當前技術約束，也更具落地可行性。二、核心瓶頸：資料稀缺與算力不足，制約模型能力躍遷具身智能規模化落地面臨兩大硬約束，一是資料質量和規模不足，二是邊緣算力瓶頸。資料瓶頸是阻礙VLA模型發展的最大難題。不同於LLM能夠借助網際網路文字資料，機器人訓練所需的是“視覺-狀態-動作-獎勵”相互對齊的多模態資料，而這種資料的採集成本極其高昂。存在三條主要的當前資料來源路徑，一是遙操作，其資料質量高，然而效率低且成本高；二是模擬資料，其數量大，不過存在Sim2Real gap，因接觸物理、感測器噪聲等致使難以完美建模；三是人類視訊，其資料廣度大，可是與機器人控制不對齊，並且缺乏力覺、深度等資訊。報告提出了“資料金字塔”概念，即越高品質的資料越稀缺，真實世界運算元據是難以獲取的“金礦”。此行業正於多個方面尋求突破困局：其中，模擬最佳化（像Nvidia Isaac Sim這般）會使之對真實資料的依賴得以減少；資料工廠（於中國諸多地方所建立的狀況）借由規模化遙操作來採集具備高品質的資料；跨本體資料通用性（例如Nvidia GR00T N1.6能夠支援多種型號機器人的情形）可實現資料復用率的提高；高精度動捕加第一視角視訊（就如Paxini那樣）會促使資料採集效率獲得提升標點符號。算力瓶頸，同樣是十分嚴峻的情況。人形機器人，需要進行即時互動，沒辦法依賴於雲端大模型推理。縱然Nvidia最新Thor晶片能提供2070 TFLOPS算力，還是被多家廠商認定為不足以去支撐複雜模型推理。因而，在短時間之內，機器人模型參數的規模依舊會被控制在百億等級的範圍之內，也就是大約在~10B這個數值以內，而這同樣表明了通用智能的“湧現”還需要一段時日。三、未來格局：規模遊戲開啟，頭部優勢持續放大報告針對未來格局作出的判斷為，人形機器人會逐漸演變成一場“規模遊戲”，並且結構性優勢會使領先者和追趕者之間的差距被拉大。資料飛輪效應促使頭部玩家加快勝出的速度。那些擁有大規模佈局機器人的廠商，能夠拿來更多發生在真實世界裡互動所需資料，並據此塑造出更為優質高端先進完備的策略模型，進而對產品自身性能予以提升，從而吸引到更多的客戶，最終形成一種正向的循環。與此同時，模擬這類預訓練以及世界模型，是需要大規模算力來進行投入的，頭部公司具備的在算力以及資料方面的結構性優勢，將會持續不斷地被放大。模型供給端會分化成兩類玩家，一類是獨立模型提供商，也就是類似機器人界的“Android”，它們由科技巨頭主導，會提供通用機器人作業系統以及模型介面，另一類是全端整合者，它們依靠自有大規模機器人叢集形成資料閉環，進而持續最佳化模型能力。報告覺得，2026年在這一方向上會看到更多進展，不過依舊處於早期階段。總結：具身智能所處的階段是在“由VLA主導，在接下來的三到五年時間裡，行業將會呈現出“具有漸進式智能化的態勢，頭部加速朝著集中方向發展，模型供給出現分化。於從業者來講，資料採集能力以及算力部署能力會成為核心競爭力。(TOP行業報告)

來自“2028年6月的研究報告”：當AI超越預期，經濟卻崩了，股市大跌

CitriniResearch與Alap Shah一份“來自未來的宏觀備忘錄”提出一個虛構的命題：AI多次超越樂觀預期並不必然利多資產與經濟，相反，充沛的機器智能可能通過擠壓勞動收入與消費循環，觸發一場由“生產率繁榮”引出的需求收縮與金融再定價。在這份以“2028年6月”為時間錨點的思想實驗中，美國失業率升至10.2%，較預期高0.3個百分點，資料公佈後市場下跌2%，標普500從“2026年10月高點”累計回撤38%。備忘錄稱，交易員對衝擊已趨於麻木，六個月前類似資料本可能觸發熔斷。報告將危機路徑拆解為兩條相互強化的鏈條：一條發生在實體經濟，AI能力提升推動白領崗位被替代，實際工資增速塌陷，消費佔比高的“以人為中心”的經濟萎縮，形成“沒有自然剎車”的負反饋回路，市場一度只看AI、但經濟本身開始變形，催生所謂“Ghost GDP”，即產出計入國民帳戶卻難以在真實經濟中循環。另一條發生在金融體系，收入預期的結構性受損開始侵蝕私募信貸與住房按揭等建立在白領現金流之上的資產定價，並迫使監管與政策討論加速，但報告同時強調，政策響應持續滯後，公眾對政府“救援能力”的信心下降，正在放大通縮螺旋風險。或許，正如Citrini所言，“當機器產生的輸出等同於1萬名白領，卻不消耗一分錢的社會服務時，這不叫經濟奇蹟，這叫經濟瘟疫。”利潤率好看，不等於經濟健康：錢不再穿過家庭部門在設定裡，2026年初“人類過時”帶來的第一波裁員非常符合股市偏好：成本下降、利潤率上升、盈利超預期，股價上漲。到2026年10月，標普500一度逼近8000點、納指突破3萬點。企業利潤又被回灌到AI算力，形成加速器。宏觀表層同樣“漂亮”：名義GDP多次錄得年化中高個位數增長，單位小時實際產出增速達到作者稱“自1950年代以來未見”的水平——AI代理不睡覺、不請病假、也不需要醫保。但備忘錄強調，財富主要流向“算力的所有者”，而勞動力收入端塌陷。真實工資增長轉負、白領被迫下沉到更低薪崗位，消費這個佔當時GDP約70%的“人類中心引擎”開始萎縮。作者用一句很直白的反問把邏輯釘死：機器在可選消費上花多少錢？答案是零。SaaS先中槍：當“自己寫一個”成為採購的常規選項這條鏈條的第一塊多米諾骨牌來自軟體。作者把拐點放在2025年末：代理式程式設計工具能力出現“台階式躍升”。一個合格開發者配合Claude Code或Codex，幾周內就能復刻一個中端SaaS產品的核心功能——不完美，但足以讓CIO在50萬美元年費續約面前多問一句：我們能不能自己做？由於企業財年預算多在前一年四季度鎖定，2026年年中復盤成了第一次“帶著真實可用性”做採購決策的窗口。文中給出一段談判細節：一家財富500強的採購經理告訴作者，他用“正在與OpenAI討論由forward deployed engineers用AI工具替代供應商”作為籌碼，把續約談成了30%折扣；而Monday.com、Zapier、Asana這類“長尾SaaS”處境更差。更關鍵的，是這種“自建成為選項”如何改變行業結構：差異化被AI加速開發與迭代抹平，價格戰變成“與老對手和新挑戰者同時打的刀戰”，護城河不再是功能，而是成本與融資耐力。被AI威脅的公司，反而最激進：反身性循環從這裡開始備忘錄最想強調的一個“不同於歷史教科書”的點是：2026年的被顛覆者沒有選擇“抵抗”。作者拿柯達、百視達、黑莓那套路徑做對照，認為AI衝擊下，許多公司“不能慢慢死”，只能快刀自救。情景裡，ServiceNow在2026年三季報出現明顯訊號：淨新增ACV增速從23%降到14%，同時宣佈15%裁員、股價當日下跌18%。原因並不神秘：它賣的是座席數，客戶裁掉15%員工，就會機械性取消15%許可；而客戶之所以裁員，正是因為AI帶來的效率提升。於是出現備忘錄所稱的“集體理性、整體災難”：公司裁員省下的錢繼續投入AI工具，AI能力提升又讓下一輪裁員成為可能。每一家公司的動作都說得通，疊加起來卻把剎車拆掉了。“摩擦”歸零後，中介層開始塌：從訂閱、佣金到卡組織費率到2027年初，作者設定LLM使用變成默認配置，很多人“像使用自動補全一樣”在用AI代理，甚至不自知。隨後，Qwen的開源“代理式購物助手”成為催化劑，各家助手迅速整合代理式電商功能；模型蒸餾讓代理能跑在手機和筆記本上，推理邊際成本下降。最讓作者不安的是：代理不需要被喚起，它在後台按偏好持續運行。到2027年3月，美國普通個體日均消耗約40萬tokens，較2026年底增長10倍。交易不再是一連串人的離散決定，而變成24/7的連續最佳化。這直接打擊了過去五十年建立在“人類有限性”上的租金層：訂閱自動續費、試用後悄悄漲價、品牌熟悉度替代比價勤奮……這些靠摩擦賺錢的模式，被代理改造成“可被談判的挾持局”。文中列出一串“最先倒下”的中介：旅行預訂平台、依賴續保惰性的保險、財務顧問、報稅、常規法律工作。甚至房地產經紀也沒能靠“關係”倖免：在AI代理獲得MLS訪問和歷史交易資料後，美國主要都會區買方佣金中位數從2.5%-3%壓縮到1%以下，越來越多交易買方端不再需要人類經紀。當代理掌控交易後，它會繼續找更大的“回形針”：機器對機器交易裡，2%-3%的卡組織交換費變得刺眼。作者設定不少代理改用Solana或以太坊L2上的穩定幣結算，成本接近“幾分之一美分”。在這一段裡，Mastercard被寫成“不可逆的拐點”：管理層在財報中提到“代理驅動的價格最佳化”和“可選消費承壓”，股價下跌；風險進一步外溢到更依賴交換費與獎勵體系的發卡行與單一信用卡機構，AmEx受“雙殺”最重（白領客戶被裁 + 費率被繞開）。這不是“行業景氣”問題：白領服務經濟的需求端被槓桿化擊穿2026年裡，市場還把負面影響噹作軟體、諮詢、支付等“類股故事”。備忘錄反駁的抓手很直接：美國是白領服務經濟，白領約佔就業的50%，卻驅動約75%的可選消費。更尖銳的資料在後面：作者強調消費集中度——美國收入最高的10%人群貢獻超過50%的消費，前20%貢獻約65%。因此，只要衝擊集中在高收入白領，即便失業人數佔比不誇張，對可選消費也是“以小博大”的打擊。文中用一個量級示例說明槓桿：白領就業下滑2%，可能對應可選消費下滑約3%-4%；而且白領有儲蓄緩衝，衝擊滯後出現，一旦出現更深。就業端的拐點訊號被寫得很具體：2026年10月JOLTS職位空缺跌破550萬、同比下降15%；白領崗位塌陷而藍領相對穩定。債市先交易消費衝擊，10年期美債收益率從4.3%下行到3.2%。與此同時，AI投資並未因需求走弱而放緩，因為作者將其定義為“OpEx替代”而非傳統CapEx周期：企業把原本花在人工上的1億美元逐步挪到AI預算上，總支出下降但AI支出倍增。於是出現一種刺眼背離：AI基礎設施鏈條仍在高景氣——輝達收入創新高、台積電利用率95%+、超大規模雲廠商季度資料中心資本開支仍有1500-2000億美元；而被替代的消費端開始失血。作者還把這種凸凹差異延展到國家層面：韓國作為“純凸”受益方大幅跑贏；印度IT服務出口（文中給出的規模為年超2000億美元）因“AI編碼代理的邊際成本接近電價”而遭遇合同取消加速，盧比在四個月內對美元貶值18%，到2028年一季度IMF已與新德里進行“初步討論”。私募信貸並不“封閉安全”：壽險負債把它拖進聚光燈金融層的第一根導火索來自私募信貸。備忘錄給出規模變化：私募信貸從2015年的不足1兆美元增長到2026年的超過2.5兆美元，其中相當部分投向軟體與科技LBO，前提是假設SaaS收入可以“長期穩定地複利增長”。當AI把ARR的“可持續性”打穿，問題不是虧損本身，而是損失被承認的那一刻。文中安排了幾次關鍵事件：2027年4月穆迪一次性下調14家發行人、合計180億美元的PE支援軟體債務；2027年三季度起軟體支援貸款開始違約。Zendesk被寫成“冒煙的槍”：其ARR支撐的50億美元直貸設施被標記到58美分，成為“紀錄級”的私募信貸軟體違約案例。如果只停在這裡，作者承認“本該可控”——私募信貸多是封閉式、鎖定期限，理論上沒有擠兌式的強制賣出。但“永久資本”在情景裡露出了另一面：大型另類資管通過收購壽險公司，把年金負債變成了私募信貸的融資底盤（文中點名了Apollo/Athene、Brookfield/American Equity、KKR/Global Atlantic）。當軟體違約擴散，保險監管層開始收緊這些資產的風險資本計提，迫使機構補充資本或賣資產，而市場環境又不允許它們在合理價格成交。穆迪將Athene財務實力評級置於負面展望後，Apollo股價兩日跌22%，衝擊外溢至同類機構。作者還補了一層“讓人更害怕的複雜性”：離岸再保險與SPV結構把損失歸屬變得高度不透明，短時間內甚至難以回答“到底是誰在承擔虧損”。情景中的2027年11月暴跌，被寫成市場認知從“周期性回撤”轉向“系統性鏈條”的時刻；FOMC緊急會議上（情景設定裡）聯準會主席華許用了一句評價：這是一串“押注白領生產率增長的相關性雛菊鏈”。真正的大雷在按揭：貸款當初是好貸款，世界後來變了備忘錄把“更難定價、也更致命”的問題留給住房按揭。美國住宅按揭市場規模約13兆美元，承銷假設是借款人未來很長時間（往往30年）會維持大致穩定的就業與收入。情景裡，風險的可怕之處在於：這不是2008式的“貸款從一開始就壞了”。相反，借款人是780+ FICO、首付20%、收入可驗證、信用記錄乾淨的“模型基石”。問題在於，AI導致白領收入預期發生結構性下修後，原本“基石”的未來現金流不再可置信——人們借的是一個他們越來越不敢相信的未來。作者給出了一組“先於違約”的壓力跡象：HELOC動用、401(k)提前支取、信用卡債務上升，但按揭仍保持按時償付；隨後，在舊金山、西雅圖、曼哈頓、奧斯汀等地開始出現拖欠抬頭。到2028年6月，Zillow房價指數同比：舊金山-11%、西雅圖-9%、奧斯汀-8%；房利美提示技術/金融就業佔比超過40%的高端（jumbo為主）郵編區域出現更高的早期拖欠。作者刻意保留邊界：情景裡“尚未進入全面按揭危機”，拖欠水平仍明顯低於2008，但風險在“軌跡”。如果按揭在當年下半年真正裂開，作者預計股市回撤可能接近全球金融危機的57%，標普或指向約3500點——接近2022年11月“ChatGPT時刻”之前的水平。政策最大的敵人是時間：稅基建立在人類時間上備忘錄對政策的判斷很不客氣：傳統工具（降息、QE）可以救金融引擎，卻很難修復實體引擎，因為實體的病因不是“錢太貴”，而是“人類智能更不值錢”。更具體的約束在財政端。作者用一句話概括稅基：聯邦政府收入本質上是對人類時間的徵稅——人工作、企業付薪、政府抽成。到情景中的2028年一季度，聯邦財政收入較CBO基線低12%。生產率在飆升，但收益更多流向資本與算力所有權，不再經由家庭部門回流到所得稅與薪資稅。勞動收入佔GDP的長期下行被當作背景板：從1974年的64%降到2024年的56%；而在AI指數級改善後的四年裡進一步降到46%，作者稱之為“有記錄以來最陡的一次”。於是財政面對一個結構性悖論：需要向家庭轉移更多資金，同時從家庭收到的稅卻更少。情景裡政府開始討論“Transition Economy Act”（以赤字+對AI推理算力徵稅為資金來源的直接轉移），以及更激進的“Shared AI Prosperity Act”（對“智能基礎設施回報”建立公共索取權，類似主權基金或AI產出特許權，用分紅支援轉移）。政治分歧被寫得尖銳：右派把轉移稱為馬克思主義、擔憂算力稅讓位於中國；左派擔心稅制被 incumbents 寫成監管俘獲；財政鷹派強調赤字不可持續，鴿派拿GFC後的過早緊縮當反例。社會層面的摩擦也被擺上檯面：情景裡“Occupy Silicon Valley”示威者封鎖Anthropic和OpenAI舊金山辦公室入口長達三周，媒體關注度甚至蓋過失業資料。作者的結論是，制度變化速度追不上技術變化速度，反饋鏈會替政治做決定。“智力溢價”回撤：舊世界的現金流假設需要重算備忘錄最後把這一切歸因到一個更底層的定價變化：現代經濟史裡，人類智能一直是稀缺要素，勞動力市場、按揭承銷、稅制、乃至企業護城河，都圍繞這一稀缺性搭建。現在機器智能成為可替代品且持續變便宜，“智力溢價”開始回撤，金融系統只能痛苦地重定價。作者也留了餘地：重定價不等於必然崩潰，經濟可能找到新均衡；難點是“能否趕在反饋鏈寫完下一章之前”搭出新框架。站在寫作時點的2026年2月，標普仍在高位、負反饋尚未啟動，作者的提醒更像給投資者留一道自檢題：自己的資產和現金流，有多少其實押在“摩擦不會消失、白領收入會穩定、家庭部門會繼續做需求引擎”這些假設上。最後一句話也點了題：金絲雀還活著。 (華爾街見聞)

突發！阿里發佈：金融大模型發展趨勢深度研究報告！2026

山不讓塵，川不辭盈。2024 年是網際網路進入中國的第 30 個年頭，中國金融行業也走過了金融科技和數位化的 10 個年頭。科技金融這篇大文章正方興未艾，智能金融隨著大模型日新月異發展突然按下了加速鍵。如果將過去一年大模型的發展比作《三體》中描述的“技術爆炸”，正形象地展現出了 AI 領域前所未有的快速變革。這種爆炸式增長不僅僅是技術參數的簡單膨脹，更是整個技術生態、商業應用以及社會影響層面深刻變化的綜合體現。在這個發展過程中，我們看到了如浪潮般湧現的新技術核心要素與傳統 IT 發展規律的交織：●摩爾定律的延伸與挑戰：雖然摩爾定律近年來面臨物理極限挑戰，但通過創新架構（如 GPU、TPU）、分散式運算以及演算法最佳化，讓大模型的發展有機會遵循類似的加速發展軌跡，變革性實現計算效率和模型規模的雙重躍升。● 安迪 - 比爾定律的演變：在大模型場景下，這一規律體現為模型規模和複雜度的增加，不斷驅動著對更強大算力和儲存的需求，同時也激發了雲端運算的快速發展，以確保基礎設施能跟上 AI 應用的需求步伐。今年以來，走遍中華大地拜訪過上千家金融機構，我們發現，金融行業並不缺乏大模型應用的場景，但是有限的算力、持續迭代的大模型開源和商業化生態，加上金融行業對資料安全、風險控制、合規性以及精準決策有著極高的要求，使得金融行業的大模型之路進入前所未有的選擇陷阱。金融行業正處於數位化轉型和採用雲原生技術的關鍵時期，這一過程中，大模型的引入無疑增加了額外的複雜性，但也帶來了前所未有的機遇。在過去的一年，大模型加持的金融程式碼能力、金融多模態能力、金融資訊閱讀理解能力、金融資訊抽取分類加工能力、金融風險管理能力在金融行為學、金融市場與投資學、零售金融、公司金融、財富資管、大健康、大投研等等各個金融數位化領域都有了星星之火一樣的嘗試。隨著大模型技術的成熟，從基於資料集的開發轉向基於大規模預訓練模型的應用工程體系，我們可以想像未來大模型通過 API 化與雲原生環境下的金融業務流程與技術架構的深度整合，從而解決一些從前我們不敢想像的融合問題，比如金融模型應用的成本效率與穩定性，金融知識的精準及專業性、金融合格的嚴謹可解釋性等。不僅如此，雲原生和大模型融合的新範式，非常需要新的大模型應用平台降低從特定領域到廣泛場景到 AI 應用的門檻。此文拋磚引玉，希望與業內的各位朋友一同探討如何積極擁抱並運用大模型技術，以應對和駕馭不斷變化的市場環境，實現科技金融持續穩定的提質增效和創新發展，攜手開啟金融大模型未來新篇章。01大模型發展的趨勢大模型是數字轉型（DT）時代的產物，標誌著人工智慧技術的一次重大突破，尤其是在自然語言處理（NLP）、圖像識別、推薦系統等領域。這些大模型，如 OpenAI 的 GPT 系列、Meta的 Llama、Google的Gemini，基於Transformer架構，通過消化海量資料集進行預訓練，獲得了對人類語言、圖像等資料的深入理解和處理能力。AI 大模型：人類知識儲存、傳承和使用方式的一次重構在數字轉型時代，大模型為企業提供了前所未有的機遇，使其能夠通過高效的資料分析和決策，實現業務流程的智能化、最佳化客戶體驗和創新產品服務。從金融行業的智能投顧和欺詐監測，到醫療行業的智能診斷和藥物發現，再到零售行業的個性化推薦，大模型的應用正深刻改變著傳統行業的運作模式和價值鏈。在《全域資料“觀”》一書中，我們曾斷言：“資料的下一站是智能，資料最終會走向與業務系統的數智融合”，資料消費正在由“人”變成“系統”。未來資料技術將與雲原生和智能化全面融合，形成“雲數智一體化”服務。雲原生技術堆疊，為企業帶來了資源彈性、異構算力、容器和微服務等技術手段，為業務創新和系統建設提供了高效、敏捷以及成本低、可擴展的解決方案；資料中台的興起，讓企業將資料庫裡“不會說話”的表格，轉換成指標、標籤、因子、特徵等資料資產形態，並直接用於分析與業務決策。現如今，AI 大模型正在以驚人的速度重構各行各業的業務流程與系統產品，一方面雲原生為大模型訓練與推理提供了資源保障，資料中台為大模型應用提供高品質語料和結構化知識；另一方面在大模型全面“智能湧現”能力的驅動下，將傳統偏零散化的資料能力進一步體系化和智能化，加快 BI+AI 的融合，實現從“洞見”到“決策”，推動企業加速走向“雲數智一體化”的終極形態，最終為客戶帶來更為全新的產品服務體驗。大模型發展的趨勢趨勢一：“Cloud+AI” 大模型與雲的結合日益緊密在資訊技術領域，無疑地，雲端運算和人工智慧（AI）大模型的快速發展正日益成為推動現代社會進步的兩大驅動力。特別是在中國和美國，這兩種技術不僅誕生並蓬勃發展，還持續引領著全球技術革命的浪潮。隨著時間的推移，大模型與雲端運算的結合日益緊密，這種融合在推動著科技界走向新的里程碑。首先，觀察全球技術發展格局可以發現，中國和美國無疑是雲技術和 AI 大模型誕生與創新的兩大中心。這兩個國家不僅擁有領先的技術研發實力，還具備廣闊的市場應用場景和成熟的產業生態，促進了雲端運算和 AI 大模型技術的飛速發展，並在全球範圍內形成了巨大的影響力。進一步而言，大模型的迭代進化主要發生在雲端。這是因為雲端運算提供了高度可擴展的計算資源，使得研究人員和開發者能夠在無需自建龐大物理基礎設施的情況下，進行模型的訓練和部署。雲平台上的彈性資源和高效管理工具為大模型的開發和最佳化提供了理想的環境，極大地加速了 AI 大模型的迭代周期，使得模型能夠更快地進化和最佳化，更好地適應各種複雜的應用需求。而且，大模型所遵循的規模定律（Scaling Law）規模定律正重塑著算力基礎設施。隨著模型規模的不斷擴大，其對計算資源的需求也呈指數級增長，這一現象催生了對更高性能、更高效率算力基礎設施的需求。雲端運算平台通過部署先進的硬體技術、最佳化計算資源分配和加強資料處理能力來應對這一需求，進而推動了算力基礎設施的快速進化。這種進化不僅滿足了當前大模型對算力的高需求，也為未來 AI 技術的持續創新和應用提供了堅實的支撐。大模型與雲端運算的緊密結合，不僅體現在中國和美國這兩個技術強國的快速發展上，更在於雲端成為大模型迭代進化的主戰場，以及大模型對算力基礎設施的重新塑形。這種趨勢預示著，未來科技的進步將在這樣的融合與互動中繼續加速，推動人類社會進入一個全新的智能時代。趨勢二：“AI Everywhere” 大模型無處不在，成為企業數位化標配在當今的數位化時代，大模型技術以其強大的資料處理能力和智能化水平，正逐步成為企業數位化轉型的標配。其廣泛的應用不僅僅侷限於傳統的計算中心，更是與小模型、新終端以及資料中台結合，共同構築起一個多元化部署與互聯互通的新生態，極大地深化了對資料資源的挖掘與運用能力。首先，大模型與小模型的結合體現了模型部署的多元化。大模型因其強大的學習和預測能力，成為許多複雜任務的首選。然而，針對一些對即時性、資源消耗有嚴格要求的場景，小模型以其輕量級、高效率的特性，更為適合。通過將大模型預訓練的強大認知能力與小模型的靈活部署結合，企業能夠更高效、更經濟地解決廣泛的業務問題，實現智能決策和操作的最佳化。接著，大模型與新終端的結合拓展了模型連結的多元化。隨著物聯網 (IoT) 的蓬勃發展，智能終端遍佈生活的每一個角落。大模型不再侷限於伺服器端的運算，而是通過雲端運算和邊緣計算下沉至各種智能終端，如智慧型手機、智能家居、自動駕駛車輛等。這種變化使得大模型的應用場景得到極大拓展，為使用者帶來更加豐富、便捷、個性化的智能服務。最後，大模型與資料中台的緊密結合，促進了圖像、音視訊、文字等資料集的多元化。資料中台作為企業資料管理和營運的核心平台，為大模型提供了豐富、高品質的資料支援。通過有效地聚合和整合企業內外的各類資料資源，大模型可以在更加多元化的資料基礎上進行訓練和最佳化，能夠處理和理解更加複雜多變的業務場景，如圖像識別、語音視訊處理、語言應用等，從而極大地提高了企業的業務處理能力和使用者互動體驗。大模型正逐步滲透到企業數位化建設的各個層面，與小模型、新終端以及資料中台等多元化的元素相結合，進一步拓寬了其應用範圍，提升了處理效率和智能水平。大模型無處不在，已經成為推動企業數位化轉型的關鍵力量。趨勢三：“AI Native SaaS Rise” 大模型企業級市場崛起，向深度化、產業化、垂直化方向發展大模型技術的崛起已成為推動企業級市場向深度化、產業化、垂直化方向發展的關鍵動力。企業正越來越傾向於將這一技術作為核心驅動力，深入挖掘其在特定行業中的應用價值和潛力，進而實現智能化升級與業務創新。首先，大模型在企業級市場中的深度化應用成為一種不可逆轉的趨勢。它們不僅被應用於最佳化傳統的資料處理和分析流程，更在預測分析、個性化服務、自動決策制定等領域中展現出強大的能力。這種深度化應用的背後，是企業對於資料價值認知的提升以及對於操作效率和決策質量改進的需求。“小切口，大縱深”的發展策略，正加速大模型在特定行業中的垂直化和產業化落地。企業通過聚焦於行業的細分領域，利用大模型深耕特定的痛點和需求，不僅提升瞭解決方案的適配性和有效性，也推動了整個行業的智能化水平。這種策略的實施，充分顯示了大模型在解決複雜行業問題時的獨特優勢，促進了技術與行業深度融合，實現了產業升級。企業間的開放新形態，特別是在金融領域湧現的新的 Open Banking 模式，為大模型技術的應用開闢了更加廣闊的舞台。Open Banking 帶來的資料共享和 API 開放不僅有利於現有金融服務的增值，還為金融科技創新和跨行業合作打開了大門。這為大模型技術的應用和發展提供了更加廣闊的舞台和應用場景。大模型技術在企業級市場的崛起，不僅預示著企業對於資料和智能的更深層次應用和挖掘，也引領了向產業化、垂直化方向的戰略發展。趨勢四：“AI API First” 大模型功能性能力突破性增長近段時間以來，大模型正在經歷功能性能力的快速增長和重大突破，其中多模態、Agent模式以及 Assistant API 成為了推動這一處理程序的關鍵力量。這些技術革新不僅擴展了大模型在不同領域的應用範圍，還為人機互動和應用開發帶來了新的可能。多模態技術的出現和成熟拓展了大模型的廣度，讓機器能夠同時處理和理解文字、圖像、音訊等多種類型的資料，實現了對人類溝通方式的更全面理解。這標誌著 AI 從處理單一類型資料向綜合理解不同資料類型的重大進步。多模態大模型在提升資訊獲取的全面性和精準性方面展示了巨大潛力，極大地豐富了 AI 在自動化內容創作、跨媒體資訊檢索、以及增強現實等方面的應用場景。Agent 模式的崛起，成為人類與 AI 協作的一種重要方式。在這種模式下，AI 可以作為一個個體（agent），擁有自我學習和自主決策的能力，在特定的環境中根據既定的目標執行任務。這不僅表明了 AI 的工作模式正變得更加智能化和個性化，也為人類提供了強大的助手，從簡單的資料分析到複雜的決策制定，AI Agent 能夠有效地輔助人類完成各種任務，推動人機協作進入新的階段。Assistant API 的推出，為開發者提供了全新的能力，大幅降低了開發門檻。通過簡單的API 呼叫，開發者可以輕鬆地將大模型的強大功能整合到自己的應用或服務中，無需深入瞭解模型內部的複雜機理，即可搭建出智能化程度高、使用者體驗好的應用產品。這種開放的、低門檻的開發方式，不僅加速了創新應用的推出，也讓更多企業和個人能夠享受到 AI 技術帶來的紅利。趨勢五：“AI Cyber Security” 大模型更重視隱私和資料安全隨著大模型的廣泛應用，對隱私和資料安全的重視程度日益增強。企業和研究機構正在通過實施一系列措施，來加強對使用者資料的保護，確保資訊安全和隱私被妥善處理。這些措施的核心在於建構一個有效、可靠的資料管理及隱私防護框架，確保大模型安全評估體系的全面性，並解決 AI 工作的可解釋性問題。有效的資料分類分級制度成為奠定資料管理及隱私防護框架的基礎。通過對資料進行系統的分類和分級，明確不同類別資料的處理要求和安全標準，可以更加有針對性地制定保護措施。這種方法不僅有助於提升資料處理的效率和精準度，也有利於識別和保護那些最敏感和價值最高的資料，從而有效減少資料洩露和濫用的風險。建構一套全面的安全評估體系對於大模型體系至關重要。這套體系應涵蓋大模型訓練、部署、應用生命周期的各個階段，從資料的收集、儲存、使用到銷毀等，每個環節都應進行嚴格的安全審查和評估。通過定期進行安全審計、漏洞掃描和風險評估等活動，可以及時發現和修復安全漏洞，強化系統的安全防護能力，減輕外部攻擊和內部洩露的風險。隨著大模型應用到越來越多的場景，其工作的可解釋性問題越來越受到重視。大模型，特別是 transformer 的架構被認為是“黑盒”，難以解釋其決策邏輯和過程。增強 AI 工作的可解釋性不僅有助於建立使用者對 AI 決策的信任，也是確保模型公平、無偏見的關鍵。通過開發和應用新的解釋性技術和方法，讓 AI 的決策過程更加透明，可以有效提升模型的公正性和安全性，減少錯誤決策和偏差帶來的風險。 (AI雲原生智能算力架構)

2025-2026年中國半導體產業年度深度研究報告：周期築底回升、算力結構性躍遷與國產化體系重構

1. 全球半導體產業宏觀圖景與中國市場韌性在全球科技演進的宏觀敘事中，2025年被確立為半導體產業從“周期性調整”向“結構性擴張”過渡的關鍵元年。根據最新的行業統計資料，全球半導體市場規模在2024年達到6,591億美元的基礎上，預計2025年將增長至7,893億美元，增速表現出顯著的加速態勢 [1]。這一增長的核心動能已從傳統的智慧型手機與PC消費驅動，深化為以人工智慧（AI）基礎設施、高性能計算（HPC）以及汽車電動化為核心的多維驅動架構 [2]。中國半導體市場作為全球產業鏈中增長潛力最強、市場腹地最深的區域，其發展節奏與全球步調既有共振亦有差異。2024年中國半導體市場規模為1,769億美元，而2025年預計將達到2,067億美元，年度同比增長率約16.8%，增速保持在全球均值的高位區間 [1]。這一增速背後的底層邏輯，不僅在於終端需求的復甦，更在於國家戰略引領下的“全產業鏈自主可控”處理程序進入了從量變到質變的突破階段 [3]。資料來源：綜合整理自 [1, 4]。從產業周期視角來看，2025年標誌著半導體行業打破了傳統的“四年小周期”規律。受人工智慧算力需求的強力支撐，半導體行業有望迎來長達六年的上行增長周期 [2]。在這一宏觀背景下，中國半導體產業在裝置端（北方華創、中微公司等）、製造端（中芯國際、華虹半導體等）以及功率與儲存等細分賽道，均展現出了極強的盈利彈性與技術進化速度。2. 半導體裝置環節：國產替代進入“深水區”與平台化擴張在半導體產業鏈的最上游，裝置環節的自主化率被視為衡量一國半導體實力的硬指標。2025年，中國本土半導體裝置企業在資本支出保持高位的背景下，實現了營收與淨利潤的雙重突破，產品線正從單一環節向平台化、全覆蓋方向加速演進。2.1 北方華創 (NAURA)：全產業鏈平台化的領軍效應北方華創作為國內產品線最為齊全的半導體裝置龍頭，其在2025年的表現充分印證了“平台化戰略”的協同優勢。2025年前三季度，北方華創實現營業收入273.0億元，同比增長33.0%；歸母淨利潤達到51.3億元，同比增長15.0% [5]。通過深度拆解其財務資料可以發現，北方華創在2025年表現出明顯的“庫存換增長”特徵。截至2025年第三季度末，公司存貨規模達到302.0億元，同比大幅增長30.0% [5]。在半導體裝置行業，高額存貨往往對應著下游晶圓廠的高意向訂單和處於交付前夕的在產品。同時，公司經營活動產生的淨現金流在三季度轉正，金額達6.3億元，顯示出隨著前期大規模投入逐步進入收穫期，企業的經營現金流狀況正得到實質性改善[5]。北方華創的業務已覆蓋刻蝕、薄膜沉積（PVD/CVD）、清洗、熱處理、氧化、擴散等核心工藝環節。儘管2025年前三季度的綜合毛利率為41.4%，受新品確認及客戶結構變化影響同比略降2.8個百分點，但在關鍵工藝的市佔率提升，為其2026年的持續盈利打下了堅實基礎 [5]。2.2 中微公司 (AMEC)：刻蝕技術的高精尖突圍與北方華創的平台化不同，中微公司展現了在特定高門檻領域的極深造詣。公司專注於電漿體刻蝕裝置（CCP/ICP）和MOCVD裝置，技術水平已躋身國際第一梯隊 [6]。2025年前三季度，中微公司實現營收80.63億元，同比增長46.40% [6, 7]。資料來源：[6, 7]。中微公司的盈利邏輯在於對研發的極端重視。2025年前三季度研發支出達25.23億元，同比增長63.44%，這一投入規模即便在國際半導體巨頭中也極具競爭力 [6]。這種高強度投入直接轉化為了其薄膜裝置類股的爆發式增長，尤其是ALD（原子層沉積）裝置的國產替代處理程序在2025年出現了突破性進展。2.3 拓荊科技 (Piotech) 與華海清科 (Hwatsing)：細分賽道的隱形冠軍拓荊科技作為國內薄膜沉積裝置的龍頭，在2025年實現了業績的加速跑。前三季度營業收入達42.20億元，同比大幅增長85.3%；歸母淨利潤5.57億元，增長105.1% [8]。其PECVD、ALD等先進製程裝置已在主流晶圓廠實現量產放量，且公司在合同負債（預收款）端表現強勁，截至三季度末達48.94億元，同比近乎翻倍，預示其在2026年仍將保持高速增長態勢 [8]。華海清科則穩守化學機械拋光（CMP）領軍地位。隨著12英吋先進製程對拋光步驟要求的幾何倍增，華海清科不僅實現了CMP裝置的全面突破，更通過擴展減薄裝置和耗材業務，建構了更寬的護城河。盛美上海（ACM Research）則憑藉在清洗裝置領域的差異化競爭力（如SAPS/TEBO兆聲波清洗技術），成功向電鍍、拋光等領域延伸，成為多元化裝置陣營的重要一極。3. 晶圓代工與製造：百萬片產能里程碑與成熟製程復甦晶圓代工是半導體產業鏈的中樞，連接著上游設計與下游應用。2025年，中國大陸晶圓代工業不僅在產能規模上實現了跨越，更在產能利用率與特色工藝上展現了極強的防禦性。3.1 中芯國際 (SMIC)：月產百萬片的歷史躍遷中芯國際作為中國大陸先進製程與規模化的雙重標竿，在2025年三季度迎來了一個標誌性時刻：其月產能（折合8英吋）首次突破100萬片大關，具體達到102.28萬片[9]。相較於2024年同期的88.43萬片，中芯國際在一年內新增了約13.85萬片產能，且增量幾乎全部集中在更具盈利能力的12英吋產線上 [9]。在財務與營運端，中芯國際2025年第二季度銷售收入為22.09億美元，雖然毛利率因前期裝置計入折舊及新品推廣略有波動，但其產能利用率在三季度攀升至95.8% [9, 10]。CEO趙海軍指出，公司目前的訂單量已經超過了實際產出能力，這種“供不應求”的局面主要由模擬晶片（快充、電源管理）、CIS圖像感測器以及車規級產品的強勁需求驅動 [10]。3.2 華虹半導體 (Hua Hong)：超負荷運轉下的特色工藝盈利華虹半導體的2025年可以用“滿負荷”來形容。第二季度，華虹的產能利用率達到了驚人的108.3% [10]。儘管由於無錫新產線的折舊成本上升（物業及裝置折舊同比增加33%），導致其短期毛利率受壓，但從長遠來看，產能利用率的飽和證明了其在功率器件（超級結、IGBT）及嵌入式儲存器領域的工藝領先地位 [11]。資料來源：[10, 12]。華虹的另一重大看點在於產業整合。公司正籌備收購上海華力微電子股權，這一潛在交易若成功實施，將使華虹集團在成熟製程與准先進製程（28nm/14nm）之間形成更緊密的工藝矩陣 [11]。3.3 晶合整合 (Nexchip) 與積塔半導體：垂直賽道的專業化代工晶合整合在2025年穩固了其在全球顯示驅動晶片（DDIC）代工領域的霸主地位。上半年營收達51.98億元，歸母淨利潤同比大幅增長77.61% [13]。晶合整合的成功揭示了一個盈利邏輯：在LCD/OLED驅動、車載CIS等細分垂直市場做到極致，可以有效規避一線Foundry的價格戰，並享受規模經濟帶來的邊際效益提升 [13, 14]。積塔半導體則在汽車電子和功率器件代工賽道狂奔。隨著汽車架構向域控製器轉化，對高可靠性、高電壓工藝的需求爆發，積塔半導體作為擁有車規級全鏈條驗證能力的Foundry，其訂單可見度已排至2026年以後。燕東微（YDME）則通過多條生產線的協同，在軍事、工業等老牌製造領域保持了深厚的基本盤。4. 儲存晶片：從技術追趕到全球份額重構儲存晶片是半導體行業中產值佔比最高（約24%）且周期性最強的類股 [15]。2025年，中國儲存“雙子星”——長江儲存（YMTC）與長鑫儲存（CXMT）在全球市場的份額及技術影響力均實現了跨越。4.1 長江儲存 (YMTC)：3D NAND 的突圍與成長作為中國唯一的3D NAND快閃記憶體廠商，長江儲存在經歷“實體清單”調整後，展現了頑強的生命力。2025年一季度，長江儲存營收突破10億美元，全球市場份額提升至8.10% [16]。隨著長存三期產能的逐步釋放，行業普遍預測其市場份額將最終衝向15% [15, 17]。長江儲存的技術優勢在於其獨創的Xtacking架構，這使得其在實現高層數（如232層及以上）堆疊的同時，能夠保持較小的晶片面積和極高的I/O速度。這種技術領先性使其在全球固態硬碟（SSD）市場，尤其是高性能消費級和企業級市場，具備了與三星、美光一較高下的實力。4.2 長鑫儲存 (CXMT)：DRAM 產能的倍數級增長長鑫儲存在DRAM領域的追趕速度同樣驚人。2025年一季度其全球市場份額增至4.10% [16]。根據Counterpoint的預測，2025年長鑫儲存的出貨量將同比增長50%，整體出貨份額預計從年初的6%增至年底的8% [17]。長鑫儲存的戰略核心在於“產能規模化”。摩根士丹利預測，長鑫有望在2025年達到36萬片/月的產能水平，這將顯著降低其單位成本，使其在PC、移動端DRAM及利基DRAM市場更具競爭力 [15]。同時，隨著AI應用對LPDDR5及HBM（高頻寬儲存）的需求激增，長鑫的先進製程研發也將成為2026年的關鍵盈利看點。5. 功率半導體與IDM：新能源浪潮下的紅利挖掘在汽車電動化與太陽能儲能的加持下，功率半導體成為了中國半導體行業盈利確定性最高的細分領域之一。5.1 士蘭微 (Silan Micro)：IDM模式的經營典範士蘭微在2025年交出了一份令人矚目的成績單。上半年公司實現營業收入63.36億元，歸母淨利潤扭虧為盈達到2.65億元，同比增幅超1100% [18]。其成功的關鍵在於“深耕汽車與太陽能市場”以及“規模效應攤薄成本”。•汽車業務：2025年上半年應用於汽車的IGBT和SiC產品營收同比增長80%以上，公司成功切入比亞迪、吉利、特斯拉等頭部車企供應鏈 [18]。•SiC突破：其第IV代平面柵SiC-MOSFET性能已接近溝槽柵水平，且晶片良率超90%，顯著高於國際85%的平均水平[18]。•太陽能優勢：士蘭微在太陽能領域的IGBT單管市佔率超40%，逆變器用MOSFET全球市佔率達9.8%，僅次於英飛凌 [18]。資料來源：[18]。5.2 安世半導體 (Nexperia) 與華潤微 (CR Micro)：全球視野下的中國力量聞泰科技旗下的安世半導體在2025年表現出極強的韌性。第三季度半導體業務收入43.00億元，同比增長12.2%，毛利率高達34.56% [19, 20]。即便面臨地緣政治風波，其在中國市場的收入佔比仍升至49.29%，汽車業務收入增長超26% [19]。安世半導體的盈利能力證明了在全球功率分立器件市場，中國企業已具備成熟的IDM管理能力和全球管道優勢。華潤微作為國內領先的IDM巨頭，在2025年上半年實現營收52.18億元。雖然在利潤增速上略遜於爆發期的士蘭微，但其資產結構的穩健性和在消費電子、工業控制領域的滲透深度，使其保持了極高的市場佔有率 [18]。6. 2026年中國半導體發展趨勢與預測站在2025年的業績高峰迴望，2026年的中國半導體產業將呈現出從“單點突破”向“生態閉環”跨越的特徵。6.1 AI 基礎設施的“第二波”爆發與國產算力重構2026年，AI驅動的半導體增長將進入深水區。IDC預測，到2026年，資料計算類股的半導體營收將首次超過總營收的50% [2]。這一趨勢對中國而言意味著兩個層面的機會：1.AI伺服器晶片的高速增長：包括GPU、邏輯ASSP/ASIC以及配套的電源管理晶片。預計2026年AI加速卡市場規模將年增78% [4]。2.網路與儲存的補完：AI算力不僅看晶片性能，更看互聯速度。資料中心網路晶片（如高端乙太網路交換晶片）和高頻寬儲存（HBM）將在2026年迎來國產化高峰，預計相關市場年增27% [2, 4]。6.2 晶圓代工市場的全球份額再平衡預測顯示，到2026年，中國IC設計企業的產值佔全球市場份額將從2025年的40%進一步提升至45%，確立在該領域的全球領先地位 [4]。與之相對應的是，中國晶圓廠在國產替代政策驅動下，成熟製程的產能利用率將持續保持在90%以上的高檔水位 [4]。在製程演進上，全球主流Foundry正邁向2nm工藝，而中國本土Foundry在2026年的重點將是利用芯粒（Chiplet）和矽光子等專用技術，在現有先進製程受限的情況下，通過先進封裝技術實現性能上的“曲線救國” [2]。6.3 細分賽道的盈利關鍵與結構性機會資料綜合自 [4, 21, 22]。7. 盈利能力分析與投資洞察2025-2026年，中國半導體產業的盈利能力呈現出“馬太效應”與“成本分化”並存的格局。7.1 成本管控與規模效應的博弈士蘭微的案例深刻揭示了IDM模式在下行周期結束後的爆發力。通過自主晶圓線的滿負荷運轉，單位分攤成本的降低（12英吋IGBT晶片單片固定成本降至0.8元，遠低於代工模式的1.5元）是盈利提升的核心秘密 [18]。2026年，隨著更多國產12英吋產線度過折舊高峰期，行業整體的盈利中樞有望抬升。7.2 研發投入的“資產化”回報北方華創和中微公司極高的研發支出（佔營收10%-30%不等）在短期內壓縮了淨利潤，但從長遠看，這是建構長期盈利壁壘的唯一途徑[5, 6]。2026年，隨著多款新品（如ALD、先進刻蝕裝置）從驗證期進入大規模採購期，這些裝置企業的研發邊際成本將迅速下降，淨利潤彈性將遠高於營收增速。7.3 地緣政治與供應鏈重組的避險2026年，地緣政治引發的供應限制仍是最大變數。然而，美銀報告指出，AI基建的升級是強結構性的，甚至可以抵消部分總額經濟的不確定性 [21]。中國企業通過建立“本土供應閉環”，在成熟製程及特色工藝（如汽車級、工業級半導體）中正形成一種“內循環”式的盈利保障。8. 結論與展望綜上所述，2025年中國半導體產業已基本完成了從“逆風防守”到“順風進攻”的姿態轉換。北方華創、中微公司等裝置領軍者通過全產業鏈佈局夯實了基礎；中芯國際、華虹半導體則通過百萬片產能量級實現了規模經濟；士蘭微、聞泰安世等IDM廠商則利用新能源紅利實現了盈利的質變。展望2026年，人工智慧將不再是一個孤立的概念，而是滲透進從算力卡到電源管理、從HBM儲存到先進封裝的每一個半導體細胞中。盈利的關鍵點將聚焦於三點：第一，在先進製程受阻下通過Chiplet和3D封裝實現的性能突破；第二，在功率器件領域對第三代半導體良率與規模的絕對掌控；第三，在半導體裝置領域從“能用”向“好用”的跨越。中國半導體產業在2026年有望實現全球產值佔比的新高，其背後是中國日益成熟的產業鏈叢集效應。儘管波折難免，但技術自主化與需求智能化雙向奔赴的大趨勢，正引領中國半導體行業邁向一個更具生命力的兆級未來。 (YAH VS HYA)

突發！新物種！AI盡頭是空間智能深度洞察研究報告！2025

前言：AI的“空間轉向”與新物種誕生的必然性1.1 前言2025年，人工智慧產業迎來歷史性轉折點——以大型語言模型（LLM）為代表的通用AI技術在文字互動、圖像生成等領域的突破已觸及天花板，而“空間智能”作為連接虛擬算力與物理世界的核心載體，正成為AI技術演進的終極方向。史丹佛大學教授李飛飛在《從語言到世界：空間智能是AI的下一個前沿》中明確指出，當前AI系統困於“語言的世界”，缺乏對現實空間、物理規律與因果關係的真正理解，而空間智能將實現AI從“理解語言”到“理解世界”的跨越，成為AI攀登的下一座高峰。這一轉向不僅催生了“AI+空間”融合的產業新物種，更重塑了全球算力產業鏈的競爭格局與需求結構。本報告聚焦2025年AI與空間智能融合發展的核心議題，核心研究內容包括：空間智能的技術架構與“新物種”產業形態界定；全球及中國算力產業鏈的全景對比（上游晶片、中游算力服務、下游應用）；空間智能驅動下的算力需求分層分析（行業、場景、算力形態）；技術瓶頸與風險挑戰；未來發展趨勢與產業機遇。報告依託2025年最新行業資料、政策檔案及企業實踐案例，兼具技術深度與產業指導價值，旨在為產業鏈參與者、投資者及政策制定者提供全景式洞察。1.2 核心結論預覽1. 技術演進：空間智能是AI的“終極形態”，其核心是建構融合幾何、物理與動態規則的“世界模型”，實現從被動分析到主動規劃的跨越，當前已進入技術突破與規模化應用的臨界點。2. 產業新物種：催生三大類新物種形態——技術層的“空間大模型”、產品層的“具身智慧型手機器人”、服務層的“空間即服務（SPaaS）”，2025年全球相關市場規模已突破1.2兆元。3. 算力格局：全球智能算力規模2025年達1980 EFLOPS，中國佔比37.8%（748 EFLOPS），算力結構從訓練主導向推理驅動切換，邊緣算力增速（CAGR 50%-60%）遠超雲端。4. 產業鏈競爭：國外形成輝達、AMD雙寡頭格局，國內“一超多強”態勢顯現，國產晶片替代率2025年達41%，沐曦、壁仞等企業加速資本化處理程序。5. 需求驅動：智慧城市、工業智能空間、自動駕駛是核心需求領域，生物醫藥、AR/VR等細分場景算力需求增速超200%，端側AI裝置出貨量2025年破5億台。6. 挑戰與機遇：技術瓶頸集中於晶片製程、叢集互聯效率，地緣政治與能源約束加劇供需失衡；未來機遇在於異構算力協同、綠電算力基建及跨行業場景滲透。第一章概念界定：AI與空間智能的融合演進1.1 空間智能的核心定義與技術內涵空間智能（Spatial Intelligence）是指機器對物理空間進行感知、建模、推理、規劃並實現互動的綜合能力，其核心是將多模態感知資料轉化為對空間關係、物理規律與因果邏輯的理解，實現虛擬算力與物理世界的精準對應。與傳統AI技術相比，空間智能具有三大核心特徵：一是多模態融合感知，整合LiDAR、攝影機、UWB、地理資訊等多源資料，實現釐米級定位與毫米級建模精度；二是動態世界建模，建構兼具語義與幾何屬性的3D動態場景，支援物理規則模擬與未來狀態預測；三是具身互動能力，依託“感知-決策-行動”閉環，實現與物理空間的自主協同互動。從技術架構來看，空間智能的實現需建構“五層技術堆疊”：第一層底層為算力支撐層（雲端+邊緣+終端異構算力）；第二層為感知硬體層（LiDAR、毫米波雷達、高畫質攝影機等）；第三層為資料處理層（空間資料清洗、融合與標註）；第四層為核心演算法層（3D生成模型、物理引擎、具身智能演算法）；頂層為應用場景層（智慧城市、工業、自動駕駛等）。其中，核心演算法層的“世界模型”是空間智能的技術核心，需突破現有LLM的範式侷限，實現語義關係與物理規律的統一理解。1.2 AI向空間智能演進的邏輯必然性AI技術的演進遵循“能力升級-場景拓展-需求倒逼”的邏輯，向空間智能轉向是技術發展與產業需求共同作用的必然結果。從技術層面看，當前以LLM為代表的通用AI存在三大核心侷限：一是缺乏空間認知能力，即使是最新的多模態大模型，在估算距離、方向、大小等基礎空間屬性時表現不及隨機水平；二是物理規律認知缺失，無法穩定預測物體運動軌跡、碰撞關係等基本物理規則；三是動態連貫性不足，生成的視訊內容往往在幾秒內失去空間邏輯連貫性。這些侷限使得AI難以真正賦能需要與物理世界互動的場景，成為技術演進的“天花板”。從產業需求來看，數字經濟與實體經濟的深度融合對AI提出了“落地物理世界”的迫切需求。智慧城市需要全域空間感知與智能調度，工業製造需要數字孿生與即時最佳化，自動駕駛需要高精度空間定位與動態決策，這些場景均要求AI具備空間認知與互動能力。據測算，2025年全球需要空間智能支撐的產業規模已達5兆美元，佔數字經濟總量的28%，需求倒逼成為AI向空間智能轉向的核心驅動力。從認知本質來看，空間智能是人類認知建構的“腳手架”，驅動著想像、創造與推理能力的形成。李飛飛團隊的研究表明，空間智能是連接感知與行動的核心能力，人類通過空間認知實現停車測距、人群穿行等日常動作，其本質是“想像-感知-行動”的一體化過程。AI作為模擬人類智能的技術體系，向空間智能演進是其逼近甚至超越人類認知能力的必然路徑，也是實現從“弱人工智慧”向“強人工智慧”跨越的關鍵環節。1.3 空間智能的“新物種”形態界定AI與空間智能的融合催生了三類具有顛覆性的產業新物種，這些新物種打破了傳統產業邊界，重構了價值創造模式：1. 技術層新物種：空間大模型。區別於傳統LLM，空間大模型以“空間資料”為核心訓練素材，融合地理資訊、3D點雲、物理規則等資料，具備空間建模、動態預測與場景生成能力。例如，史丹佛大學World Labs研發的世界模型可在語義與幾何層面理解複雜3D場景，推理物理屬性與互動關係，並生成連貫可探索的虛擬空間。2025年，國內外已有12款空間大模型實現商用，其中GPT-5空間版、百度文心空間大模型等在建築設計、城市規劃領域的應用精準率達93.6%。2. 產品層新物種：具身智慧型手機器人。依託空間感知與互動能力，具身智慧型手機器人實現了從“固定場景作業”到“全域自適應作業”的跨越，可在動態空間中自主規劃路徑、規避障礙並完成任務。典型案例包括亞馬遜倉庫智能分揀機器人（空間定位精度±2cm）、特斯拉Optimus人形機器人（具備家庭空間互動能力）、醫療微創手術機器人（空間操作精度±0.1mm）。2025年全球具身智慧型手機器人出貨量達120萬台，同比增長210%。3. 服務層新物種：空間即服務（SPaaS）。將空間智能能力封裝為標準化服務，通過API介面向千行百業輸出，實現“空間能力的按需呼叫”。例如，華為盤古空間服務平台可提供城市全域空間建模、動態交通預測等服務，已接入200余個智慧城市項目；GoogleEarth Engine空間服務平台為農業、環保領域提供土地利用監測、災害預警等服務，全球使用者超500萬。2025年全球SPaaS市場規模達2000億元，預計2030年突破1.2兆元。1.4 空間智能的發展階段與2025年關鍵節點空間智能的發展可劃分為四個階段：技術探索期（2015-2020年）、技術突破期（2021-2025年）、規模化應用期（2026-2030年）、成熟普及期（2030年後）。2025年正處於“技術突破期”向“規模化應用期”過渡的關鍵節點，呈現三大標誌性特徵：1. 技術突破節點：3D生成模型、物理引擎與具身智能演算法實現融合，空間大模型的場景理解精準率突破90%，邊緣算力支援毫秒級空間響應（延遲≤10ms）。例如，UWB+LiDAR復合定位技術市場滲透率達35%，實現釐米級定位精度；液冷技術普及使智算中心PUE降至1.1以下，支撐單機櫃算力密度達5P Flops。2. 產業落地節點：核心應用場景實現規模化落地，智慧城市試點項目覆蓋全國89%地級市，北京、上海、深圳等超大城市完成全域智能空間基礎設施建設；工業數字孿生工廠覆蓋率突破60%，生產線綜合效率（OEE）平均提升18個百分點；全屋智能滲透率達12.3%，華為鴻蒙生態與小米AIoT平台連接裝置突破8億台。3. 政策與資本節點：全球主要經濟體出台空間智能專項政策，中國《智能空間產業發展行動計畫（2025-2030）》明確培育30家以上獨角獸企業，組建國家級智能空間創新中心；美國《晶片與科學法案》投500億美元用於算力基建，重點支援空間智能相關晶片研發；歐盟“數字羅盤計畫”建100個百億億次超算節點，支撐空間智能場景落地。資本市場熱度攀升，2025年國內算力晶片企業迎來上市潮，摩爾線程、沐曦股份等相繼登陸科創板，融資規模超40億元。第二章技術架構：空間智能的核心技術體系與算力支撐2.1 核心技術堆疊：從感知到互動的全鏈路拆解2.1.1 感知層技術：多模態融合與高精度定位感知層是空間智能的“眼睛”，核心目標是獲取物理空間的多維度資料，實現高精度、高可靠的空間感知。當前主流技術方向為多模態感測器融合，整合LiDAR、毫米波雷達、高畫質攝影機、UWB、IMU（慣性測量單元）及地理資訊系統（GIS）資料，彌補單一感測器的侷限性。例如，LiDAR具備高精度3D測距能力，但受天氣影響較大；攝影機可獲取豐富語義資訊，但測距精度不足；UWB適合室內短距離定位，室外表現較差。通過多模態融合演算法，可實現“全天候、全場景、高精度”的空間感知。關鍵技術突破包括：一是LiDAR技術的成本下降與性能提升，2025年車規級LiDAR單價降至500美元以下，探測距離突破300米，點雲密度達300萬點/秒；二是UWB+LiDAR復合定位技術，結合兩者優勢，實現室內外無縫切換定位，精度達±2cm，2028年市場滲透率預計達68%；三是多模態資料融合演算法，基於Transformer架構的融合模型可有效處理異構資料，提升感知精準率，在複雜交通場景中目標識別精準率達99.2%。2.1.2 建模層技術：3D動態場景與數字孿生建模層是空間智能的“大腦中樞”，核心是將感知資料轉化為結構化的空間模型，實現對物理世界的精準對應。技術方向分為靜態建模與動態建模兩類：靜態建模聚焦空間幾何結構的重建，如建築、道路、地形等；動態建模聚焦空間中物體的運動狀態與互動關係，如車輛、行人、裝置等。數字孿生是建模層的典型應用，通過“物理實體-虛擬模型-資料鏈路-服務應用”的閉環，實現物理空間與虛擬空間的即時同步。關鍵技術突破包括：一是3D生成模型，基於擴散模型與Transformer的融合架構，可快速生成高保真3D場景，例如史丹佛大學Marble平台允許創作者無需傳統3D建模工具，快速建立和編輯完整的虛擬世界；二是動態場景預測演算法，結合物理引擎與深度學習，可預測空間中物體的運動軌跡，預測準確率達95%以上，為自動駕駛、機器人導航提供支撐；三是輕量化建模技術，針對邊緣端裝置算力有限的問題，提出輕量化3D模型架構，模型體積壓縮70%以上，可在手機、邊緣閘道器等裝置上即時運行。2.1.3 決策層技術：空間推理與具身智能演算法決策層是空間智能的“決策核心”，核心是基於空間模型進行推理、規劃與決策，實現從“理解空間”到“利用空間”的跨越。核心技術包括空間推理演算法、路徑規劃演算法與具身智能決策演算法。空間推理演算法聚焦空間關係的邏輯判斷，如“物體A在物體B的左側”“路徑C比路徑D短20米”等；路徑規劃演算法聚焦動態環境下的最優路徑選擇，如自動駕駛中的避障路徑規劃、機器人的倉儲分揀路徑規劃；具身智能決策演算法聚焦“感知-行動”閉環，使智能體能夠根據空間環境變化調整行動策略。關鍵技術突破包括：一是空間大模型的推理能力提升，GPT-5空間版、文心空間大模型等可基於3D場景進行複雜推理，如建築結構安全性評估、城市交通流量最佳化；二是強化學習在路徑規劃中的應用，通過模擬海量空間場景訓練模型，使智能體在動態環境中（如擁堵路段、突發障礙）快速找到最優路徑，規劃效率提升40%以上；三是人機協同決策技術，結合人類經驗與AI推理能力，在醫療手術、工業操作等高精度場景中實現“人機互補”，降低操作風險。2.1.4 互動層技術：無感化與人機協同互動層是空間智能的“輸出介面”，核心是實現智能體與物理空間、人類的高效互動。技術方向分為兩類：一是智能體與物理空間的互動，如機器人的機械臂操作、自動駕駛汽車的轉向與制動；二是智能體與人類的互動，如語音互動、手勢互動、腦機介面等。當前發展趨勢是“無感化互動”，即智能體通過感知人類行為、情緒等訊號，主動提供服務，無需人類主動觸發。關鍵技術突破包括：一是手勢與姿態識別技術，基於電腦視覺的即時姿態捕捉精度達98%，可實現對機器人的手勢控制、智能座艙的姿態互動；二是語音互動的空間化，結合空間聲學技術，實現多區域語音識別，區分不同位置的說話人，在智慧辦公場景中支援多人同時語音指令；三是腦機介面技術，在高端辦公、醫療場景中實現腦電波控制，2029年商用化率預計突破15%。2.2 算力支撐體系：雲端-邊緣-終端的異構協同空間智能的全鏈路技術落地離不開算力支撐，其算力需求具有“高並行、低延遲、異構化”的特徵：高並行源於多模態感測器的海量資料（如LiDAR每秒產生數十GB資料）；低延遲源於即時互動需求（如自動駕駛需≤10ms的決策延遲）；異構化源於不同任務對算力的差異化需求（如建模需GPU的平行計算能力，推理需ASIC的高能效比）。為此，空間智能建構了“雲端-邊緣-終端”三級異構算力協同體系，各層級功能與算力形態如下：2.2.1 雲端算力：大規模訓練與全域調度雲端算力是空間智能的“核心算力底座”，主要承擔空間大模型訓練、全域空間資料處理、跨區域調度等重算力任務。2025年全球雲端智能算力佔比70%-75%，單叢集算力達50 EFLOPS，可支撐萬卡級GPU叢集進行空間大模型預訓練。例如，GPT-5空間版的訓練需萬卡級GPU叢集，單次訓練成本超千萬美元，訓練過程消耗算力達100 EFLOPS·天。雲端算力的核心技術方向是異構計算與叢集互聯最佳化。異構計算整合GPU、CPU、NPU、TPU等多種晶片，發揮不同晶片的優勢；叢集互聯技術通過高速互聯匯流排（如輝達NVLink、國產昇騰高速互聯匯流排）提升叢集通訊效率，當前萬卡級叢集互聯效率達60%-70%，仍是算力擴展的主要瓶頸。為支撐雲端算力需求，全球智算中心建設加速，中國“東數西算”工程建成8大算力樞紐，2025年新增算力60%以上集聚國家樞紐節點，新建大型資料中心綠電佔比超80%。2.2.2 邊緣算力：即時推理與本地決策邊緣算力是空間智能的“即時響應核心”，部署於靠近物理空間的邊緣節點（如基站、智能路側裝置、工業閘道器），主要承擔即時推理、本地資料處理、低延遲決策等任務。邊緣算力的核心優勢是低延遲，可將資料傳輸與處理延遲控制在毫秒級，滿足自動駕駛、工業即時控制等場景需求。2025年邊緣算力佔比約15%-20%，2030年將升至30%-35%，2025-2030年CAGR達50%-60%，邊緣AI晶片市場規模達150億美元。邊緣算力的核心技術方向是高能效比晶片與輕量化演算法。邊緣裝置通常受限於功耗與體積，需要高能效比的專用晶片（如ASIC、NPU）；同時，通過模型輕量化（剪枝、量化、蒸餾）降低推理算力需求。例如，華為昇騰310B邊緣晶片能效比達200 TOPS/W，可支撐智能路側裝置的即時目標識別；特斯拉D1晶片專為自動駕駛邊緣計算設計，單晶片算力達362 TOPS，滿足車載即時決策需求。2.2.3 終端算力：本地感知與輕量化互動終端算力是空間智能的“末端感知核心”，部署於終端裝置（如智慧型手機、智能手錶、小型機器人），主要承擔本地感知資料預處理、輕量化互動等任務。終端算力的核心需求是低功耗與小型化，滿足移動裝置的續航與體積要求。2025年終端算力佔比約5%-10%，智慧型手機AI算力達10 TOPS以上，車載計算平台增速超40%。終端算力的核心技術方向是整合化晶片與低功耗演算法。整合化晶片將CPU、GPU、NPU等功能整合於單一晶片（如手機SoC），提升整合度與能效比；低功耗演算法通過最佳化計算流程，降低資料處理的功耗。例如，蘋果A18 Pro晶片整合神經網路引擎，算力達35 TOPS，可支撐手機端3D場景掃描與AR互動；小米澎湃C2晶片專為智能穿戴裝置設計，能效比達150 TOPS/W，滿足長期續航需求。2.2.4 異構協同技術：算力資源的高效調度雲端-邊緣-終端的算力協同是空間智能高效運行的關鍵，核心技術是統一調度平台與高速通訊網路。統一調度平台通過算力感知、任務拆分與資源分配，實現“任務在最合適的算力節點運行”：重算力任務（如模型訓練）分配至雲端，即時任務（如自動駕駛推理）分配至邊緣，輕量化任務（如本地感知）分配至終端。高速通訊網路是協同的基礎，5G-A網路支撐的毫秒級空間感知系統實現釐米級定位精度，光互聯技術升級推動CPO市場2025-2027年CAGR達78%，OCS CAGR達120%。當前異構協同的關鍵突破是“算力網路”技術，通過軟體定義網路（SDN）、網路功能虛擬化（NFV）等技術，將分散的算力資源整合為“算力池”，實現跨區域、跨層級的算力調度。例如，中國電信“天翼算力網路”已接入20個省級算力樞紐，實現算力資源的按需調度；中國移動“算力網路”支撐智慧城市場景下的邊緣-雲端算力協同，降低資料傳輸成本30%以上。2.3 2025年技術突破與瓶頸：從可用到好用的差距2.3.1 關鍵技術突破清單1. 感測器技術：車規級LiDAR單價降至500美元以下，探測距離突破300米；UWB+LiDAR復合定位精度達±2cm；高畫質攝影機影格率突破240fps，低光照環境識別精準率達98%。2. 建模技術：3D生成模型生成效率提升10倍，高保真3D場景生成時間從小時級降至分鐘級；動態場景預測準確率達95%以上，預測時長從1秒擴展至5秒。3. 演算法技術：空間大模型參數規模突破兆級，場景理解精準率達93.6%；輕量化模型體積壓縮70%以上，邊緣端推理延遲≤10ms。4. 算力技術：晶片製程推進至3nm/2nm，輝達B200性能較H100翻倍；國產晶片（昇騰910B、寒武紀590）替代率達41%；液冷技術普及使PUE降至1.1以下，能耗降40%。5. 通訊技術：5G-A網路實現10Gbps下行速率，毫秒級傳輸延遲；CPO技術實現光電器件與晶片的整合，通訊頻寬提升5倍。2.3.2 核心技術瓶頸1. 晶片技術瓶頸：晶片製程逼近物理極限，2nm以下製程成本指數級上升，性能提升放緩；高端晶片受地緣政治影響供給受限，全球GPU供需缺口15%-20%。2. 叢集互聯瓶頸：萬卡級叢集互聯效率僅60%-70%，成為算力擴展的主要障礙；儲存頻寬與算力增長不匹配，CXL協議普及尚需時間，資料傳輸延遲影響大規模訓練效率。3. 演算法泛化瓶頸：空間大模型的場景泛化能力不足，在陌生環境中的精準率下降20%-30%；動態場景中突發情況（如交通事故、極端天氣）的預測能力薄弱。4. 資料質量瓶頸：空間資料標註成本高，3D資料標註單價是2D資料的5倍以上；多源資料格式不統一，資料融合難度大；隱私保護要求提升，空間資料採集與使用受限。5. 能源約束瓶頸：智算中心能耗激增，2026年資料中心IT電力需求達96GW，配套電力設施建設壓力大；邊緣與終端裝置功耗控制仍需突破，影響續航能力。第三章全球算力產業鏈全景分析：競爭格局與技術路線3.1 算力產業鏈結構：從上游核心硬體到下游應用算力產業鏈圍繞“算力生產-算力服務-算力應用”形成完整生態，分為上游核心硬體、中游算力服務、下游應用三大環節，各環節相互支撐、協同發展。上游核心硬體是算力生產的基礎，中游算力服務是算力流通的載體，下游應用是算力需求的來源，三者共同構成“硬體支撐-服務賦能-應用驅動”的產業閉環。2025年全球算力產業鏈規模達6.5兆美元，其中上游硬體佔比45%，中游服務佔比35%，下游應用佔比20%。3.1.1 上游核心硬體：算力的“物理基礎”上游核心硬體包括晶片、伺服器、感測器、光模組、儲存裝置等，其中晶片是核心中的核心，佔上游硬體成本的50%以上。晶片環節分為通用晶片（CPU、GPU）、專用晶片（ASIC、NPU、TPU）、可程式設計晶片（FPGA）三類，分別適用於不同算力場景：GPU主導訓練場景，2027年市場規模達5000-6000億美元；ASIC在推理場景優勢擴大，2027年市場規模280億美元，佔AI晶片市場35%；NPU/TPU等專用晶片快速滲透，2025年市場規模850億美元。伺服器環節聚焦智算伺服器，搭載多顆AI晶片，支援大規模平行計算，2025年全球智算伺服器市場規模達1200億美元，同比增長45%。感測器環節是空間智能的專屬硬體，LiDAR、毫米波雷達等空間感知感測器市場規模達300億美元，同比增長60%。光模組環節支撐高速通訊，2025年CPO市場規模達50億美元，OCS市場規模達20億美元。儲存裝置環節聚焦高速儲存（如HBM、SSD），HBM3E記憶體頻寬達19.6TB/s，2025年市場規模達150億美元。3.1.2 中游算力服務：算力的“流通載體”中游算力服務包括算力基礎設施（智算中心、邊緣節點）、算力營運服務（雲算力、邊緣算力租賃）、算力賦能服務（模型訓練、資料處理）等。智算中心是中游核心基礎設施，2025年全球智算中心數量達1200個，中國佔比40%，“東數西算”工程8大算力樞紐集聚60%以上新增算力。算力租賃服務是當前最熱門的細分領域，受益於大模型訓練與推理需求爆發，2025年全球算力租賃市場規模達800億美元，同比增長80%。算力賦能服務聚焦專業化算力解決方案，為下遊客戶提供定製化的模型訓練、資料處理服務，頭部企業包括亞馬遜AWS、微軟Azure、阿里雲、騰訊雲等。此外，算力網路服務快速發展，通過整合分散算力資源，實現算力的跨區域調度，2025年全球算力網路服務市場規模達300億美元。3.1.3 下游應用：算力的“需求來源”下游應用分為空間智能專屬應用與通用AI應用兩類，其中空間智能專屬應用是核心增長引擎，包括智慧城市、工業智能空間、自動駕駛、AR/VR、智能醫療等。2025年空間智能相關應用佔算力需求的35%，其中智慧城市佔比最高（12%），工業智能空間次之（8%），自動駕駛（7%）、AR/VR（4%）、智能醫療（4%）緊隨其後。通用AI應用包括網際網路內容生成、金融風控、生物醫藥研發等，佔算力需求的65%，其中網際網路行業佔算力採購的60%，阿里、騰訊等頭部企業未來三年AI投資超5000億。3.2 國外算力產業鏈：雙寡頭主導與技術引領3.2.1 美國：全產業鏈主導，技術壁壘高築美國是全球算力產業鏈的領導者，在晶片、伺服器、算力服務等核心環節佔據主導地位，形成“晶片-軟體-服務-應用”的全產業鏈優勢。晶片環節，輝達、AMD形成雙寡頭格局，佔據全球AI晶片市場的70%以上份額。輝達2025年推出Blackwell B200晶片，採用“單封裝雙芯粒”路線，算力密度和記憶體頻寬達行業極致，性能較H100翻倍，並拋出2026–2027路線圖，Vera Rubin與Rubin Ultra即將推出，Rubin推理峰值50 PFLOPS、HBM4記憶體288GB，FP4稀疏算力是B200的2.5倍。AMD採用Chiplet思路，MI350系列採用CDNA4架構、台積電第二代3nm工藝，配備288GB HBM3E記憶體，峰值2.3 PFLOPS，與B200直接競爭，2026年的MI400將邁入2nm，配備432GB HBM4記憶體，目標直指Rubin。算力服務環節，亞馬遜AWS、微軟Azure、GoogleCloud佔據全球雲算力市場的65%份額，其中AWS的Trainium晶片專為模型訓練設計，Inferentia晶片專為推理設計，形成“自研晶片+雲服務”的閉環；微軟Azure與輝達深度合作，推出Azure ND H100 v5虛擬機器，支援萬卡級叢集訓練；GoogleCloud推出TPU v5e晶片，能效比提升2倍，支撐空間大模型訓練。應用環節，美國在自動駕駛、AR/VR、生物醫藥等空間智能相關領域領先，特斯拉Autopilot採用自研D1晶片與多模態感知技術，自動駕駛Level 4等級的測試里程突破10億英里；Meta的Quest 3 VR裝置搭載空間感知晶片，實現高精度空間定位與虛擬場景融合；OpenAI與生物醫藥企業合作，利用空間大模型加速藥物研發，分子結建構模效率提升10倍。政策與資本支援方面，美國《晶片與科學法案》投500億美元用於算力基建，重點支援AI晶片研發與智算中心建設；國防部、能源部等部門持續投入資金支援空間智能相關技術研發；資本市場對算力企業的估值溢價顯著，輝達市值突破3兆美元，成為全球市值最高的企業之一。3.2.2 歐盟：政策驅動，聚焦協同與綠色歐盟算力產業鏈以政策驅動為核心，聚焦算力協同與綠色低碳，試圖通過“聯合創新”突破美國技術壟斷。晶片環節，歐盟缺乏具有全球競爭力的晶片企業，主要依賴輝達、AMD等美國企業，同時通過“歐洲晶片計畫”投入430億歐元支援本土晶片研發，目標2030年本土晶片產能佔全球20%。重點發展方向為專用晶片，如用於工業智能空間的ASIC晶片、用於自動駕駛的邊緣晶片。算力基礎設施環節，歐盟“數字羅盤計畫”提出建設100個百億億次超算節點，支撐空間智能、氣候變化、生物醫藥等領域的科研與應用；推動“歐洲算力聯盟”（EUC）建設，整合成員國算力資源，實現跨區域算力協同。2025年歐盟已建成20個超算節點，其中芬蘭LUMI超算、德國JUWELS超算躋身全球前十，支援工業數字孿生、城市空間規劃等場景。應用環節，歐盟聚焦智慧城市與工業4.0，推出“智慧城市和社區創新夥伴關係”計畫，支援200個智慧城市試點項目；德國“工業4.0”戰略推動工業智能空間落地，西門子數字孿生工廠覆蓋率達70%，生產線效率提升20%以上；法國在智能交通領域領先，巴黎建成全域智能交通管理系統，交通擁堵率下降30%。綠色算力是歐盟的核心特色，提出2030年資料中心全生命周期碳排放量較2020年下降50%，新建智算中心綠電佔比超90%；推廣液冷、風能、太陽能等綠色技術，芬蘭LUMI超算採用水力發電，PUE降至1.05以下，為全球最低之一。3.2.3 其他國家：差異化佈局，依附核心市場日本聚焦機器人與智能感測領域，索尼、松下等企業在LiDAR、毫米波雷達等感測器技術上具有優勢，索尼Vision-S電動概念車搭載28個感測器，實現高精度空間感知；軟銀集團投資大量具身智慧型手機器人企業，推動空間智能在服務機器人領域的應用。政策方面，日本《數字社會推進基本法》投入200億美元支援算力基建，目標2025年智能算力規模達100 EFLOPS。韓國聚焦晶片與終端裝置，三星電子在晶片製造領域具有優勢，2025年實現3nm製程量產，為輝達、AMD提供代工服務；SK海力士在HBM記憶體領域佔據全球40%份額，支撐高端AI晶片的記憶體需求；三星Galaxy S25手機搭載自研NPU晶片，算力達40 TOPS，支援AR空間互動。其他開發中國家主要依附歐美核心市場，通過承接算力服務外包、引進技術等方式發展，如印度、東南亞國家聚焦算力服務外包，為歐美企業提供資料標註、模型訓練輔助服務；巴西、南非等國家推動智慧城市試點，引進歐美成熟技術與裝置。3.3 中國算力產業鏈：自主可控加速，“一超多強”格局顯現3.3.1 上游核心硬體：國產替代加速，突破關鍵瓶頸晶片環節，中國形成“一超多強”的格局，昇騰系列晶片扮演“頭雁”角色，搭建“晶片-框架-叢集-應用”的四級閉環，已支援建造多個萬卡級叢集，2025年推出384卡超節點新形態，最大算力可達300 PFLOPS，配備創新的高速互聯匯流排，大幅提升大模型訓推效率。寒武紀聚焦AI專用晶片，2024年四季度首次實現單季度盈利，2025年前三季度營收46.07億元，同比增長2386.38%，歸母淨利潤16.05億元，核心產品寒武紀590替代率達15%。國產GPU“四小龍”（摩爾線程、沐曦股份、壁仞科技、燧原科技）加速崛起，2025年迎來上市潮：摩爾線程12月5日登陸科創板，上市首日股價躋身A股Top 3，市值3595億元，業務覆蓋AI智算、圖形渲染和智能座艙SoC晶片等領域；沐曦股份12月17日登陸科創板，總募資規模約41.97億元，核心產品曦雲C600性能介於A100和H100之間，實現全流程國產供應鏈閉環，2026年上半年正式量產；壁仞科技港股IPO獲備案，聚焦高性能通用GPU，公開融資總額超50億元；燧原科技啟動上市輔導，擬在科創板上市。其他硬體環節，中國在伺服器、光模組、感測器等領域具有全球競爭力：伺服器領域，浪潮資訊、華為佔據全球智算伺服器市場的25%份額，浪潮AI伺服器出貨量全球第一；光模組領域，中際旭創、天孚通信在CPO、OCS等技術上領先，2025年全球市場份額達30%；感測器領域，華為、大疆創新在LiDAR領域突破，車規級LiDAR單價降至800元以下，國內市場份額達20%。3.3.2 中游算力服務：基建領先，服務生態完善算力基礎設施方面，中國“東數西算”工程成效顯著，建成8大算力樞紐、10個國家資料中心叢集，2025年新增算力60%以上集聚國家樞紐節點，新建大型資料中心綠電佔比超80%。截至2025年3月底，中國智能算力規模達748 EFLOPS，預計2026年達1460.3 EFLOPS，2028年達2781.9 EFLOPS。頭部智算中心包括華為昇騰AI計算中心、阿里達摩院智算中心、騰訊智算中心等，其中華為昇騰AI計算中心已在全國建成20個節點，總算力達500 EFLOPS。算力服務方面，阿里雲、騰訊雲、百度智能雲、華為雲佔據國內雲算力市場的80%份額：阿里雲推出“飛天智算平台”，支援萬卡級大模型訓練，服務超10萬家企業；騰訊雲推出“混元智算平台”，整合自研晶片與輝達晶片，提供彈性算力租賃服務；百度智能雲“千帆大模型平台”聚焦空間大模型服務，已接入百度文心空間大模型等20餘款行業大模型；華為雲“盤古算力平台”依託昇騰晶片，提供全端國產化算力服務。算力網路方面，中國營運商牽頭推動算力網路建設，中國電信“天翼算力網路”、中國移動“算力網路”、中國聯通“智慧算力網路”已實現全國主要城市覆蓋，支援算力的按需調度與跨省互聯。2025年國內營運商算力投資增20%以上，算力核心產業規模2026年達2.6兆元，帶動相關產業超12兆元。3.3.3 下游應用：場景豐富，規模化落地加速中國空間智能應用場景豐富，智慧城市、工業智能空間、智能家居、自動駕駛等領域均實現規模化落地：智慧城市領域，試點項目覆蓋全國89%地級市，北京、上海、深圳等超大城市完成全域智能空間基礎設施建設，城市治理響應速度提升70%，能耗管理效率提高45%；工業智能空間領域，數字孿生工廠覆蓋率突破60%，基於邊緣計算的即時最佳化系統使生產線OEE平均提升18個百分點；智能家居領域，全屋智能滲透率達12.3%，華為鴻蒙生態與小米AIoT平台連接裝置突破8億台；自動駕駛領域，百度Apollo、小鵬汽車、理想汽車等企業的Level 3等級自動駕駛車型實現量產，Level 4等級在特定區域試點營運。政策支援方面，中國出台多項專項政策推動算力與空間智能產業發展：《智能空間產業發展行動計畫（2025-2030）》明確培育30家以上獨角獸企業，組建國家級智能空間創新中心，完成73項行業標準制定；《“十四五”數字經濟發展規劃》要求2025年智能家居市場滲透率達到40%；《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上，存量建築改造率不低於60%。3.4 國內外產業鏈對比：差距與優勢並存3.4.1 核心差距：高端晶片與生態建構1. 高端晶片技術差距：國外晶片製程已推進至2nm，輝達B200、AMD MI350等產品性能領先，國內最先進製程為3nm，昇騰910B、沐曦C600等產品性能介於A100和H100之間，與最新產品存在一代差距；晶片架構設計能力不足，國外企業擁有成熟的GPU架構（如輝達CUDA架構），國內架構生態尚在建構。2. 軟體生態差距：國外形成“晶片-框架-應用”的完整生態，輝達CUDA生態擁有數百萬開發者，支援各類AI框架與應用；國內生態較為分散，昇騰MindSpore、百度飛槳等框架的開發者數量與應用覆蓋度不足，跨框架相容性差。3. 高端感測器差距：LiDAR、毫米波雷達等高端感測器的核心元器件（如雷射發射器、探測器）依賴進口，國內企業在精度、可靠性等方面存在差距，車規級LiDAR的國外品牌市場份額達80%。3.4.2 中國優勢：市場規模與政策支援1. 龐大的市場需求：中國是全球最大的算力與空間智能應用市場，2025年智能算力規模佔全球37.8%，智慧城市、工業製造等場景的需求規模全球領先，為本土企業提供了廣闊的試錯與迭代空間。2. 強有力的政策支援：國家層面出台多項專項政策，從算力基建、技術研發、標準制定到應用推廣全方位支援，“東數西算”工程、新基建戰略等為產業發展提供了充足的資金與資源保障。3. 完善的製造業基礎：中國擁有全球最完整的電子資訊製造業產業鏈，在伺服器、光模組、終端裝置等硬體製造領域具有全球競爭力，可支撐算力產業鏈的本地化生產與成本控制。4. 快速的迭代速度：本土企業在應用場景落地方面迭代速度快，能夠快速響應客戶需求，在智慧城市、工業智能空間等細分場景形成差異化優勢。3.4.3 未來競爭焦點：異構算力與生態協同未來全球算力產業鏈的競爭焦點將集中在異構算力協同與生態建構：一是異構算力晶片的研發，整合GPU、CPU、NPU等多種晶片優勢，提升算力能效比；二是統一調度平台的建設，實現雲端-邊緣-終端的算力協同；三是開放生態的建構，通過開源框架、開發者社區等吸引全球開發者，擴大應用覆蓋度；四是綠色算力的突破，通過液冷、綠電等技術降低能耗，提升產業可持續性。第四章算力需求分析：空間智能驅動的分層需求與增長邏輯4.1 算力需求總體特徵：規模爆發與結構分化2025年全球算力需求呈現“規模爆發式增長”與“結構差異化分化”的雙重特徵。從規模來看，全球智能算力規模達1980 EFLOPS，較2023年增長5倍，其中空間智能相關算力需求達693 EFLOPS，佔比35%，成為核心增長引擎。IDC測算2025年全球AI模型訓練與推理算力需求650 EFLOPS，多模態模型貢獻60%算力增量，而空間智能是多模態模型的核心應用場景。從結構來看，算力需求呈現三大分化趨勢：一是訓練與推理分化，訓練算力2025-2027年CAGR 25%-30%，主要用於GPT-5等兆級空間大模型預訓練；推理算力同期CAGR 90%-100%，為訓練的近4倍，2028年規模超訓練，成為算力增長主力，主要源於空間智能應用的規模化落地（如自動駕駛推理、智能路側感知）。二是算力形態分化，雲端算力佔比70%-75%，但邊緣算力增速（CAGR 50%-60%）遠超雲端，終端算力穩步增長，形成“雲端重訓練、邊緣重推理、終端重感知”的格局。三是行業需求分化，網際網路行業仍佔主導（60%），但金融、醫療、自動駕駛、工業模擬等場景增速超行業平均，生物醫藥AI模型訓練需求同比增210%。算力需求的增長邏輯可總結為“技術驅動-場景牽引-政策護航”三大核心要素：技術驅動方面，空間大模型參數規模從千億級邁向兆級，GPT-5級空間模型訓練需萬卡級GPU叢集，單次訓練成本超千萬美元，倒逼算力規模提升；場景牽引方面，智慧城市、自動駕駛等場景的規模化落地，帶來海量即時推理需求，Token消耗激增，中信證券預計2030年全球Token消耗為2025年的100-340倍，推理算力規模為2025年的65-220倍；政策護航方面，全球主要經濟體出台算力基建支援政策，中國“東數西算”、美國《晶片與科學法案》、歐盟“數字羅盤計畫”等為算力需求增長提供保障。4.2 分行業算力需求：核心場景與量化分析4.2.1 智慧城市：全域感知與智能調度的算力盛宴智慧城市是空間智能的核心應用場景，算力需求源於全域空間感知、數字孿生建模、智能調度決策三大環節，2025年算力需求達180 EFLOPS，佔空間智能總算力的25.9%。具體場景包括智能交通、智能安防、智能市政、智慧能源等：1. 智能交通：核心需求是即時交通感知與動態調度，單條智能路側裝置（含LiDAR、攝影機、雷達）每秒產生10GB資料，需邊緣算力進行即時處理（目標識別、軌跡預測），單路裝置推理算力需求達10 TOPS；城市級智能交通調度平台需雲端算力進行全域最佳化，一線城市（如北京、上海）調度平台的雲端算力需求達5 EFLOPS。2025年智能交通領域算力需求達80 EFLOPS，同比增長70%。2. 智能安防：核心需求是全域視訊監控與異常行為識別，超大城市的視訊監控點位超10萬個，單個點位需0.5 TOPS推理算力，邊緣端總算力需求達5 EFLOPS；雲端需進行視訊資料回溯分析與模型訓練，算力需求達2 EFLOPS。2025年智能安防領域算力需求達15 EFLOPS，同比增長50%。3. 數字孿生城市：核心需求是全域3D建模與動態模擬，超大城市全域數字孿生建模需處理PB級空間資料，訓練算力需求達10 EFLOPS；動態模擬需即時更新城市狀態，推理算力需求達5 EFLOPS。2025年數字孿生城市領域算力需求達30 EFLOPS，同比增長100%。4. 智慧能源：核心需求是電網、管網的空間監測與最佳化調度，城市級電網數字孿生需處理海量感測器資料，推理算力需求達3 EFLOPS；能源調度最佳化模型訓練需1 EFLOPS算力。2025年智慧能源領域算力需求達8 EFLOPS，同比增長60%。政策驅動是智慧城市算力需求增長的核心動力，中國《智能空間產業發展行動計畫（2025-2030）》要求2025年前完成200個智慧城市試點建設，配套財政補貼規模超800億元；住建部《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上。 (AI雲原生智能算力架構)

野村研究判斷：2026年，中國人形及四足機器人行業的量產進度將趕超特斯拉

如果說2025是人形機器人和四足機器人的元年，那麼即將到來的2026年，這個產業的格局會發生那些重要變化？日前，野村證券發佈研究報告指出，全球人形及四足機器人市場仍處萌芽階段，行業頭部玩家格局清晰：人形機器人領域以特斯拉和Figure AI為主，四足機器人領域則以波士頓動力領跑。但在2026年，中國人形及四足機器人行業的量產進度將趕超特斯拉。野村認為，這主要得益於中國多數企業的產品設計策略——為實現更快量產及更低成本，主動捨棄了高擬人化性能，如採用輪式底盤、非靈巧手方案等。Part.01 特斯拉Optimus：明年預計量產6-8萬台全球人形及四足機器人市場仍處萌芽階段，受供應鏈複雜度高、技術壁壘突出等因素影響，量產進度整體慢於初期預期。從應用進展來看，特斯拉推進速度最為顯著，截至2025年末，其Optimus機器人已在工廠小範圍執行實用性任務。儘管如此，特斯拉自身發展規劃仍存諸多不確定性：第三代Optimus的最終設計方案仍在迭代，量產節奏尚未完全敲定，且供應鏈份額爭奪已進入白熱化階段，長期來看Optimus供應商的供貨規模與份額均無明確預期。據野村從供應鏈企業處獲取的資訊測算，這家頭部機器人企業或將於2026年3月後啟動產能爬坡，2026年預計交付6萬-8萬台Optimus，到2026年下半年周產能有望達到1000-2000台。若要達成這一目標，核心供應商需具備非中國地區產能。特斯拉方面表示，初期Optimus將優先部署於自有工廠，承擔重複性任務以快速提升生產效率，同時持續迭代技術，計畫2027年實現更大範圍商業化落地。Part.02 中國人形機器人：2026年量產提速野村認為，2026年中國人形及四足機器人行業的量產進度將趕超特斯拉，這主要得益於中國多數企業的產品設計策略——為實現更快量產及更低成本，主動捨棄了高擬人化性能（如採用輪式底盤、非靈巧手方案）。據高工產研資料，中國多家頭部企業已披露明確量產規劃，2026年人形及四足機器人合計年產能有望達5萬-10萬台，其中優必選、宇樹科技、智元機器人、傅里葉智能、深之藍推進力度最大，2026年已能形成可觀出貨量。但中國機器人供應鏈呈現高度封閉且碎片化的特徵：部分廠商選擇垂直整合模式，或優先採購高性價比零部件（如減速器、電機、滾珠絲槓等），且幾乎每家企業的機器人都採用專屬機械架構，難以實現零部件層面的標準化，進而限制了供應商的盈利空間。據野村測算，2026年優必選、宇樹科技、靈動科技、智元機器人、傅里葉智能、深之藍這六家企業將引領行業產能釋放，基準情景下合計出貨量可達11萬-20萬台（含四足機器人）。初期大批次應用將集中於變現快、監管門檻低的商業服務場景，包括倉儲/庫存巡檢、安防巡邏、資料採集以及酒店/零售場景的迎賓導覽等。Part.03 2026年機器人投資策略2026年人形機器人市場的結構性增長仍受制約，量產節奏的時間節點、頭部企業（如特斯拉第三代Optimus）的最終產品設計、供應鏈份額分配均存變數，短期內難以對產業鏈企業業績形成實質性貢獻。因此，對於特斯拉產業鏈標的，野村更青睞核心非機器人業務具備強勁且明確增長動能的企業，其人形機器人業務應被視為高彈性長期期權，2027-2028年才有望兌現業績，而非2026年的盈利驅動項。對於中國機器人產業鏈，野村看好兩類企業：一是具備真實技術護城河的企業，二是在關鍵子系統領域佔據主導地位的企業——這類企業將在2026年國內機器人市場迎來20萬台以上出貨浪潮時，獲取超額收益，且隨著當前主流機型（人形、輪式底盤、非靈巧手方案）啟動量產，它們將成為直接受益者。整體而言，野村對核心業務增長紮實且細分領域具備競爭優勢的企業持選擇性樂觀態度。野村重申對雙環傳動的買入評級，其已確認進入Optimus供應鏈，同時同軸產品增長加速，2026年消費領域業務也將實現可持續擴張。奧比中光依然是野村在機器人領域的結構性首選標的，其在機器視覺領域佔據主導地位，且2026年3D列印及支付業務增長前景超預期。 (智通財經APP)圖表：人形及四足機器人企業量產規劃

麥肯錫全球研究院:《智能體、機器人與我們：AI時代的技能協作》研究報告

隨著人工智慧技術的指數級躍遷，關於技術替代人類的焦慮在全球範圍內擴散。然而，麥肯錫全球研究院（MGI）於2025年11月發佈的重磅報告《智能體、機器人與我們：AI時代的技能協作》（特工、機器人和我們：AI時代的技能夥伴關係）），為防疫技術變革提供了極為緊張和具建設性的視角。長達 60 頁的研究報告簡單重複“機器換人”的陳詞濫調，但卻提出了一個核心論斷：未來的工作範式將是人類、AI 智能體（智能體）與機器人（機器人）三者之間的深度協作。報告指出，這種價值協作的重構，非巧妙的自動化替代方案，才是解鎖巨大經濟的關鍵。根據麥肯錫的預測，到2030年，在自動化採用的中點情景下，僅在美國，通過密集工作流程實現的人機協作每年可以釋放約2.9兆美元的經濟價值。這個數字不僅揭示了技術紅利的規模，更預示著勞動力市場即將經歷一場從“任務執行”到“系統編排”的深刻轉變。自動化邊界的拓展與七大職業原型麥肯錫在報告中將自動化技術的主體訊號劃分為兩類：執行任務的“智能體”和處理邏輯任務的“機器人”。隨著大模型推理能力的提升和多模態技術的發展，這兩類技術的邊界正在迅速拓展。報告中通過嚴謹的模型測算資料，現有的技術能力理論上已經可以實現自動化當前美國約57%的工作時長。但並未著手於57%的工作陣地將消失。麥肯錫的研究團隊強調，這是一個關於工作內容“重組”的過程。根據對約800種職業的深入分析，報告建構了七種全新的工作原型，描述以未來勞動力的構成形態。此類工作約佔美國當前就業崗位的34%，包括註冊護士、操作員和消防員等。由於這些角色高度依賴複雜的社交情感技能或非結構化的物理互動，當前技術難以有效介入，因此此類工作的核心仍將由人類主導。另一端是“以智能體為中心”（Agent-centric）的職業，約佔勞動力的30%，典型代表如會計師、軟體開發人員和律師。這些職位涉及大量的資訊處理和邏輯推理，智能體在這些領域表現出的效率已逐漸超越人類，未來這些角色的工作重心則將大幅向機器定位、人類退居監督和校驗的位置。間歇之間是更為複雜的混合形態，如“人-智能體”協作型（People-agent），頂尖教師、工程師和金融專家；以及極少數的“人-智能體-機器人”全要素協作型。這種分類打破了傳統藍領與白領的二元對立，揭示了一個更為精細的未來圖景：在稀疏職業中，人類都不會離場，必須但學會與非人類的“協作”共處。值得注意的是，物理機器人在製造和物流領域取得了長足的進步，但報告顯示，涉及精細運動技能和非調理環境的物理工作（佔美國工作時長的35%）在短期內仍難以完全自動化。儘管這解釋了為什麼一些低技能的服務性工作（如護理助理、廚師）反而比某些高薪白領工作更能抗自動化。技能變移指數：從單一專長到AI流利度為了確定技術對具體技能的衝擊，麥肯錫開發了“技能變化遷移指數”（Skill Change Index，SCI）。該指數基於對數百萬份招聘啟事和工作任務的分析，揭示了一個反直覺的現象：在未來五年內，受自動化影響最大的往往是那些高度專業化、規則明確的硬技能，而最“安全”的那些紮根於人性的軟技能。報告顯示，數字技能和資訊處理技能位於變革指數中位列榜首。例如，程式語言（如SQL）和會計流程等技能正面臨極高的自動化風險。相比之下，指數底部的技能——如輔導、談判、領導力和客戶關係——普遍對意識形態和同理心的高度依賴，不僅難以被替代，其價值反而會在人機衝突中凸顯。這一趨勢直接導致了勞動力市場需求的脈搏。根據麥肯錫對2023年至2025年間美國招聘資料的追蹤，僱主對“AI流利度”（AI流暢度）的需求激增近七倍，從而成為增長最快的技能類別。AI流利度又指編寫程式碼的道德能力，更關鍵的是指利用AI工具進行日常工作、管理團隊以及理解AI混合與監管的能力。同時，傳統的“基礎技術知識”和“常規寫作研究”技能的需求提及率正在下降。並不意味著這些技能不再重要，而是它們的使用方式發生了根本性轉變。報告分析指出，約72%的現有技能既可用於自動化工作，也可用於非自動化工作。以“寫作”為例，未來的寫作不再是從零開發，而是更多地繼承對AI生成內容的提示工程、編輯潤色和加密邏輯。這種轉變管理者和教育機構重新思考人才培養的邏輯。未來的職場精英不再掌握單一領域深知識的專家，而是能夠指揮智能體團隊針對、跨越學科邊界解決複雜問題的“編排者”（Orchestrator）。管理者的角色也指揮員工考勤和任務進度，轉向設計工作流程、AI模型訓練以及機器處理解決的異常情況。工作流高峰：釋放兆級價值的真正機會麥肯錫報告的一個核心洞見提出，它只指出了當前企業在AI應用上的主要誤區：過分關注單個任務（Task）的自動化，而關注整個工作流程（Workflow）的各個流程。報告認為，在現有流程中插入AI工具（例如給員工配備一個聊天機器人）帶來邊際間的提升，真正的生產力飛躍來自於圍繞人、智能體機器人和重新設計業務。報告分析了美國經濟中的190個關鍵業務工作流程，發現約60%的潛在經濟價值集中在行業的特定垂直領域。在製造業，這意味著供應鏈管理的標準化；在醫療領域，是臨床診斷與病人護理流程的重構；在金融業，這意味著合規與風險管理的自動化閉環。通過詳實的這種案例研究，報告了瘧疾展示了“地下室”的實際形態。以一家全球生物製藥公司為例，傳統的臨床研究報告撰寫的是一個運行數周的人力密集型過程。通過引入生成式AI平台工作，該公司重構了這一流程：AI智能體負責從海量非結構化資料中合成草稿、應用合規範本並進行了初步糾錯；醫學作家的角色則從繁重的撰寫轉變為對AI的臨床判斷、邏輯驗證和最終把關。結果顯示，該流程使初稿的人工接觸時間減少了近60%，錯誤率降低了50%，顯著加速了新藥上市的處理程序。類似的變革也發生在銀行業的程式碼遷移和公益事業的客戶服務中。在這些案例中，人工智慧不再是輔助工具，而是成為工作流的“一級公民”。智能體負責處理80%的常規事務，人類專家則專注於處理那20%的高價值、高風險或高情感參與的情況。這種模式不僅提升了效率，更重要的是，人類從重複性勞動中解放出來，從而能夠專注於重新啟動和戰略性的工作。然而，這種價值的釋放並不是自動發生的。報告警告稱，儘管近 90% 的企業聲稱已投資於人工智慧，但只有不到 40% 的企業報告了可衡量的收益。這種脫節是因為大多數企業仍停留在“技術爭論”階段，未能從組織架構、人才和流程設計等方面進行層面的系統性變革。領導力的試金石：文化、信任與制度適應由智能體和機器人驅動的變革，麥肯錫報告最終將目光投向了領導力技術。只是催化劑，能否平穩渡過這一轉型期，取決於商業領袖和政策制定者的選擇。對於企業領導者而言，最大的挑戰在於如何在追求效率與保持以人為本之間找到平衡。報告提出了一系列積極的問題：你是在利用人工智慧修復舊流程，還是在為未來的價值重構業務？你正在建立一種激勵實驗和是否包含錯誤的文化？你是否為員工提供了適應新角色的技能路徑？未來的管理人員必須具備“雙重雙語”能力——既懂業務邏輯，又懂機器語言。他們不再是簡單發號施令的長官，而是人機混合團隊的訓練。隨著自動化程度的提高，傳統的績效評估系統（基於工時或簡單量）將失效，新的評估系統必須能夠簡化人類對AI輸出的最佳化程度以及關鍵決策中的判斷力。此外，信任與安全成為不可迴避的議題。當決策鏈條中引入了不可解釋的AI黑盒時，如何確保合規、避免偏見並維持客戶信任，將是企業治理的核心問題。報告強調，最有效的領導者不會將AI視為IT部門的項目，而是將其視為核心的業務轉型戰略，由最高消防直接推動。在宏觀層面，報告要求現代教育和公共部門進行同步革新。工業革命催生了公共教育體系，而人工智慧革命則要求建立終生學習的基礎設施。未來的教育不應只關注知識灌輸，更應批判性思維培養、適應力以及與智慧型手機器協作的能力。技能認證體系也需要從“學位導向”轉向“技能導向”，以促進勞動力在不同行業間的靈活流動。麥肯錫全球研究院的報告最終傳達了一個審慎樂觀的訊號：人工智慧帶來了變革的方向，但工作本身不會消失。通過合理的規劃與適應，我們正將人類的能力被技術放大而不是新時代的替代。在這個時代，最大的風險不是被機器取代，而是未能及時學會如何與機器共舞。對於所有市場參與者而言，理解並擁抱這種“技能協作”，將是通向2030年經濟繁榮的唯一入口。 (歐米伽未來研究所2025)

最新！AI大模型全鏈路生態技術深度研究報告！2025

我們正處在一個由人工智慧定義的偉大時代。大語言模型如同一場技術海嘯，以前所未有的力量，重塑著世界的每一個角落。程式碼的編寫方式、軟體的互動形態、企業的運作模式，乃至我們對"智能"本身的理解，都在被徹底顛覆和重構。這場變革的深度和廣度，遠超過去任何一次技術革命，它不僅改變著技術的邊界，更在重新定義人類與機器的關係，以及我們創造價值的根本方式。這種能力的平民化，正在釋放全人類巨大的創造潛能。然而，另一方面，技術堆疊的爆炸式增長、知識的快速迭代，也讓我們每個人都深陷於"生怕錯過"（FOMO）的焦慮之中。本文可以能夠幫助您看清全域、理解深度、預見未來的專業報告。在這份白皮書中，我們作為您的行業分析師，系統性地梳理了從全球技術趨勢到中國本土實踐，從底層算力基礎設施到上層應用落地，從核心技術堆疊到開發者生態的全景畫面。第一章：全球AI大模型發展現狀與趨勢進入2025年，人工智慧（AI）的發展浪潮以前所未有的速度和深度重塑著全球科技格局與產業生態。本章節將立足於2024年6月至2025年9月的最新動態，從全球市場概覽、中美技術路線分化和關鍵技術突破三個維度，深度剖析AI大模型發展的宏觀現狀與未來趨勢，為中國的AI開發者和行業從業者提供一幅清晰、權威且具前瞻性的全景圖。1.1 全球AI大模型市場概覽1.1.1 市場規模與增長預測：邁向兆美元的確定性兆美元賽道前景明朗根據國際資料公司（IDC）在2025年9月發佈的最新《全球人工智慧支出指南》，2024年全球在AI領域的IT總投資規模（包括軟體、硬體和服務）已達到3,159億美元。報告以極為樂觀的預期指出，這一數字將在2029年增至12,619億美元，五年復合年增長率（CAGR）高達31.9%。這一預測標誌著AI正從一個前沿技術領域，穩步成長為驅動全球數字經濟的核心引擎，一個兆美元級的龐大產業賽道已然形成。各大研究機構的預測也印證了這一趨勢，儘管由於統計口徑和預測模型的不同，具體數值存在差異，但對市場將維持超高速增長的判斷高度一致。這種共識本身就構成了市場信心的重要來源。表1-1 不同機構對全球AI市場規模的預測中國市場的戰略地位與增長潛力在全球AI版圖的擴張中，中國市場的角色日益凸顯，成為推動全球增長的關鍵力量。根據中國資訊通訊研究院（CAICT）的資料，截至2025年9月，中國AI核心產業規模已突破9000億元人民幣，約佔全球核心產業規模的10%，相關企業數量超過5300家。IDC預測，到2029年，中國在AI領域的總投資規模將達到1,114億美元，五年複合增長率為25.7%，增速持續領先全球主要經濟體。中國市場的獨特優勢在於其龐大的使用者基數、豐富的應用場景和強大的政策支援：區域發展格局：多極化趨勢顯現這種多極化的發展趨勢，使得全球AI生態更加豐富和多元，也為不同地區的開發者和企業帶來了新的合作與競爭機會。1.1.2 技術迭代加速：從"能力"到"可用性"的進化如果說市場規模的增長是AI發展的"量"的積累，那麼技術性能的迭代則是"質"的飛躍，是驅動整個生態發展的根本動力。2025年，AI大模型的技術迭代呈現出明顯的加速態勢，其核心特徵是從單純追求基準測試分數的能力（Capability）提升，轉向更加注重模型在真實世界中的可靠性、安全性和實用性的"可用性"（Usability）進化。這一轉變的標誌性事件便是OpenAI於2025年8月7日正式發佈的GPT-5模型。GPT-5的"智能湧現"：重新定義性能天花板GPT-5的官方發佈資料更為具體地展示了這種飛躍。這些基準測試的設計，旨在評估模型在真實世界中解決複雜問題的能力，而非簡單的模式匹配：表1-2 GPT-5與GPT-4在部分關鍵基準上的性能對比從"能力"到"可用性"的進化：更可靠的AI儘管在基準測試上的"屠榜"令人印象深刻，但2025年技術迭代更核心的趨勢，是各大模型廠商將研發重點從單純提升理論性能，轉向解決實際應用中的核心痛點。OpenAI在發佈GPT-5時就反覆強調，其在"減少幻覺、提升指令遵循能力、減少阿諛奉承"等實用性方面取得了重大進展：這種從"能力"到"可用性"的進化，預示看大模型正從一個充滿驚喜但時常犯錯的"天才少年"，向一個知識淵博、邏輯嚴謹、態度誠懇的"專家助手"轉變。這為大模型在各行各業的規模化、關鍵性業務中的落地應用，掃清了最核心的障礙，也為開發者基於大模型建構可靠、可信的商業應用提供了堅實的基礎。1.1.3 投資熱潮回歸與結構變遷趨勢一：AI Agent（智能體）成為最大風口如果說大模型是AI的"大腦"，那麼AI Agent就是連接這個"大腦"與數字世界乃至物理世界的"手和腳"。具備自主理解、規劃、記憶和工具呼叫能力的AI Agent，被普遍認為是將大模型的潛力從"對話方塊"中徹底釋放出來、實現其全部價值的關鍵。因此，AI Agent在2025年當之無愧地成為了全球資本追逐的最大風口。市場研究機構MarketsandMarkets在其最新報告中預測，全球AI Agent市場規模將從2024年的5.1億美元，以高達44.8%的年複合增長率，增長到2030年的47.1億美元。資本的流向準確地印證了這一趨勢。2025年的明星融資案例幾乎都與Agent相關：資本之所以狂熱追捧AI Agent，是因為它看到了一個清晰的商業模式演進路徑：從提供基礎能力的PaaS（平台即服務），走向提供完整解決方案的SaaS（軟體即服務），最終實現按效果付費的"結果即服務"（Outcome-as-a-Service）。趨勢二：垂直行業應用與"模型+應用"一體化隨著通用大模型能力的普及，單純提供基礎模型API的商業模式面臨著日益激烈的同質化競爭和價格壓力。因此，資本和創業者的注意力開始轉向能夠解決特定行業痛點的垂直應用。這些應用通常基於通用大模型進行深度微調和最佳化，並與行業知識、業務流程深度繫結，從而建立起更高的競爭壁壘和客戶價值。垂直行業解決方案：這些應用具有更清晰的商業模式和更高的客戶付費意願。"模型+應用"一體化策略：在國內市場，一種"模型+應用"一體化的發展模式尤為突出。以智譜GLM、月之暗面、MiniMax等為代表的AI獨角獸，從創立之初就堅持自己研發底層大模型，並直接面向C端或B端使用者推出創新的應用產品。趨勢三：AI基礎設施（AI Infra）與工具鏈持續火熱隨著模型規模的指數級擴大和應用的多樣化，對高效、低成本、易於使用的AI基礎設施和工具鏈的需求日益增長。AI Infra是支撐上層模型和應用創新的"底座"，其重要性愈發凸顯，成為投資的另一大熱點。這個領域的投資可以細分為幾個層面：核心硬體與算力：除了對NVIDIA、AMD等晶片巨頭的持續追捧，資本也開始關注AI晶片領域的初創公司，特別是那些致力於開發新型架構（如存內計算、光子計算、模擬計算）或針對特定工作負載（如稀疏計算、圖神經網路）進行最佳化的公司。此外，隨著國產化替代處理程序的加速，與華為升騰、寒武紀等國產異構算力適配的軟體和工具鏈，在中國市場獲得了巨大的投資機會。模型最佳化與部署平台：提供模型量化、剪枝、蒸餾等最佳化技術，以及Serverless推理服務的公司備受青睞。這些平台的核心價值在於幫助企業以更低的成本、更快的速度部署和運行AI模型。例如，國外的OctoML、Together AI，國內的無問芯穹、中科算網、矽基流動等公司，通過提供跨雲廠商、跨硬體的AI模型部署和加速平台，可以幫助企業將AI推理成本大幅度的降低，極大地推動了AI應用的普及。資料與MLOps平台：高品質的資料是訓練高性能模型的基礎。因此，提供資料標註、資料清洗、資料合成、資料管理服務的公司（如Scale AI, Snorkel AI）持續獲得高額投資。同時，覆蓋AI開發全生命周期的MLOps（機器學習維運）平台，如Weights & Biases, Comet, Arize AI、國產開源Cube-studio等，也成為企業AI團隊不可或缺的工具。它們提供了從實驗跟蹤、模型版本管理到生產環境監控和性能最佳化的全套解決方案，將AI開發從"手工作坊"模式帶向了標準化的"工業化生產"模式，其市場滲透率在2025年大幅提升。企業AI投資的全面復甦這一模式的戰略優勢在於：這種策略的本質，是在AI時代延續美國在傳統軟體和網際網路時代的平台霸權，通過掌控最核心的智能生產資料，在全球AI產業鏈中佔據高附加值的頂端。中國的"開源浪潮"與生態突圍戰略與美國的策略形成鮮明對比，中國幾乎所有頭部的AI廠商和研究機構，包括阿里巴巴（通義千問Qwen系列）、DeepSeek（深度求索）、智譜AI（GLM系列）、零一萬物（Yi系列）、月之暗面（Kimi系列）、騰訊（混元系列）、華為（盤古系列）、元象（Llama中文社區版）等，都在2025年堅定地擁抱了"開放權重"（Open Weights）的開源策略。它們不僅發佈詳細的技術報告，更將訓練好的、性能強大的模型權重向學術界和產業界開放，允許全球的開發者和企業免費下載、在本地部署、進行二次開發和微調。這一策略的背後，是基於中國當前市場環境、技術發展階段和國際競爭格局的深思熟慮，是一場旨在實現"非對稱優勢"和"換道超車"的戰略抉擇：這場開源與閉源的路線之爭，本質上是兩種不同發展哲學和商業模式的博弈。閉源生態追求的是深度、控制和利潤最大化，而開源生態追求的是廣度、活力和生態共榮。短期內，最頂尖的閉源模型在通用能力上仍可能保持微弱的領先；但從長遠看，開源生態的快速迭代、群體智慧和更廣泛的應用滲透，可能催生出更具韌性和多樣性的創新，最終在整體上形成更強的產業競爭力。對於開發者而言，開源意味著更高的自主性、更低的成本和更靈活的定製空間，但也需要更強的技術能力來駕馭和最佳化模型，這對中國的AI人才培養提出了新的要求。1.2.2 開發者生態對比：全球化社區VS本土化平台開發者社區是AI生態的靈魂和活水之源，是技術傳播、知識分享、項目協作和人才成長的核心載體。2025年，中美兩國也形成了風格迥異但同樣充滿活力的開發者生態。美國主導的全球化社區，如GitHub和Hugging Face，為全球AI發展設定了基礎框架和協作模式；而中國崛起的本土化平台，如魔搭（ModelScope）、升思（MindSpore）社區，則在服務本土開發者、適配國產軟硬體方面展現出獨特的價值和強大的生命力。美國主導的全球化社區：以GitHub和Hugging Face為核心美國在AI開發者生態中的領導地位，主要通過兩個全球性的超級平台來體現：GitHub：AI世界的"程式碼基石"：作為全球最大的程式碼託管平台，GitHub是整個AI乃至整個軟體世界的基礎設施。幾乎所有重要的AI框架（如Google的TensorFlow、Meta的PyTorch）、核心工具庫（如Hugging Face的Transformers、LangChain）、前沿演算法實現和學術研究程式碼都在此首發和迭代。其生態特點是：基礎性與前沿性：這裡是AI領域最底層、最核心的軟體和演算法創新的主要陣地。全球化協作：全球數千萬開發者在此共同協作，遵循著一套成熟的開源協作規範（如Pull Request、Issue跟蹤），形成了強大的網路效應和集體智慧。研究導向：大量的學術論文都會附上GitHub程式碼連結，使其成為連接學術研究與產業實踐的最重要的橋樑。對於全球開發者而言，GitHub是學習最新技術、追蹤前沿動態、參與頂級開放原始碼專案不可或缺的平台。Hugging Face：AI民主化的"模型廣場"：如果說GitHub是AI的"程式碼庫"，那麼Hugging Face就是AI的"模型庫"、"資料集市"和"應用展示空間"。它極大地降低了開發者獲取、使用、訓練和分享模型的門檻，是近年來推動AI技術民主化的最大功臣。其社區文化開放、活躍，以分享和協作為主導，核心價值在於：海量模型與資料集：託管了超過100萬個預訓練模型和20萬個資料集，覆蓋了自然語言處理、電腦視覺、音訊處理等幾乎所有領域。標準化工具鏈：其Transformers庫已成為載入和使用預訓練模型的事實標準，Diffusers庫統一了文生圖模型的介面，極大地簡化了開發流程。線上演示與部署：通過Spaces功能，開發者可以輕鬆地為自己的模型建構一個可互動的線上演示應用（Demo），並與全球使用者分享。Hugging Face還提供推理端點（Inference Endpoints）服務，簡化了模型的生產部署。中國崛起的本土化平台：以魔搭（ModelScope）和升思（MindSpore）為代表。面對美國主導的全球社區，中國AI產業也積極建構符合自身國情和開發者需求的本土化平台，其中最具代表性的是阿里巴巴的"魔搭"和華為的"升思"：魔搭（ModelScope）：中國開發者的"模型超級市場"：由阿里巴巴達摩院牽頭推出的ModelScope社區，在短短幾年內迅速成長為中國規模最大、最活躍的AI模型社區。其核心定位是"模型即服務"，致力於為中國開發者提供一站式的模型發現、體驗、開發和部署服務。相比Hugging Face，魔搭社區的特點更加"親民"，更側重於模型的"應用性"和"易用性"：國產模型大本營：社區不僅彙集了通義千問系列等阿里自家的王牌模型，也吸引了幾乎所有國內主流AI公司（如智譜AI、零一萬物、百川智能等）和頂尖研究機構的模型入駐，形成了國內最全的中文模型庫。極致的中文友好體驗：平台提供全中文的介面、詳盡的中文文件、豐富的入門教學和視訊講解，極大地降低了國內初級開發者的學習曲線。完善的工具鏈與雲服務整合：魔搭社區提供了從模型線上體驗（Playground）、程式碼線上運行（Notebook）到一鍵部署到阿里雲PAI平台的完整工具鏈。開發者可以在一個平台上完成從模型選型到應用上線的全過程，實現了與雲端運算服務的無縫銜接。升思（MindSpore）：國產算力的"靈魂引擎"：由華為推出的升思社區，則是一個戰略意圖更加清晰的平台，其核心目標是為基於華為升騰（Ascend）AI硬體生態的開發提供全端式的軟體框架、模型庫和工具鏈。升思社區的最大特點是"軟硬協同"，旨在通過框架、編譯器和模型的聯合最佳化，將升騰晶片的硬體性能發揮到極致，為開發者提供一個在國產算力上進行高效AI開發和部署的最優解。其生態價值在於：為國產算力"造魂"：升思AI框架針對升騰硬體的架構特點（如達文西架構的矩陣計算單元）進行了深度最佳化，能夠最大化硬體利用率。建構自主可控的技術體系：在升思社區，從底層的AI框架（MindSpore）、AI編譯器（CANN），到上層的模型庫和開髮套件（MindKit），構成了一套完全自主可控的全端AI技術體系，這對於保障國家AI產業安全具有重要的戰略意義。表1-3 全球與中國主流AI開發者社區對比（2025年）總而言之，中美開發者生態呈現出互補與競爭並存的格局。GitHub和Hugging Face定義了全球AI開發的基礎設施和通用範式，而魔搭、升思等本土平台則在應用落地、服務本土開發者和建構自主算力生態方面，展現出強大的生命力和不可替代的價值。對於中國開發者而言，既要積極擁抱全球社區，站在巨人的肩膀上；也要充分利用本土平台的優勢，將先進技術與中國的市場需求和產業場景相結合，創造出真正的價值。1.2.3 技術特色對比：通用與垂直的殊途同歸中美技術路線的分化，最終體現在模型能力的技術特色和演進路徑上。2025年，這一差異愈發明顯：美國頭部模型在追求"通用人工智慧"（AGI）的道路上越走越遠，致力於打造一個無所不能的"超級大腦"；而中國的AI大模型發展則呈現出更強的"實用主義"和"場景驅動"色彩，通過在垂直行業的深度耕耘，走出了一條"自下而上"、與實體經濟深度融合的特色路徑。儘管起點和路徑不同，但兩者都在以自己的方式，探索著通往更高等級人工智慧的未來，可謂"殊途同歸"。美國的技術路徑：追求通用能力的"自上而下"中國的技術路徑：場景驅動的"自下而上"相比之下，中國的AI大模型發展呈現出更強的"實用主義"和"場景驅動"色彩，走的是一條"自下而上"的道路。除了在通用能力上奮力追趕，中國廠商將大量資源投入到金融、醫療、製造、電商、教育等具體垂直行業的應用開發中，強調模型與產業知識、業務流程的深度融合。代表模型：阿里的通義千問、智譜GLM、百度的文心一言、騰訊的混元、華為的盤古等。核心理念：AI的價值最終體現在解決真實世界的問題上。從具體的應用場景出發，利用場景中產生的真實資料和反饋，來倒逼和牽引底層模型能力的迭代和最佳化。生態打法：將大模型與其在各自優勢領域的產業生態深度繫結。例如，阿里的通義千問與其電商和辦公生態（釘釘）深度融合；百度的文心大模型與其在自動駕駛、工業質檢等領域的積累相結合，形成了獨特的"雲智一體"優勢。這種路徑的優勢在於商業模式更清晰，更容易在短期內創造可衡量的經濟價值，並且能夠建構起基於行業Know-how和專有資料的護城河。其挑戰在於如何避免應用過於"碎片化"，並在深耕垂直領域的同時，保持對通用能力前沿的跟進。中國AI的垂直行業深度賦能案例（2025年）中國的"自下而上"策略，在多個關乎國計民生的關鍵垂直行業取得了顯著成效，展現出AI技術與實體經濟深度融合的巨大潛力。這些案例不僅是技術的展示，更是商業價值的證明。1. 智能製造：從"中國製造"到"中國智造"2. 智慧金融：安全、效率與普惠的革命3. 普惠醫療：緩解資源不均，提升診療水平4. 自動駕駛：大模型驅動的"端到端"革命中國複雜多變的交通路況和海量的駕駛資料，為自動駕駛技術的快速迭代提供了全球獨一無二的"訓練場"。2025年，中國自動駕駛技術路線正在經歷一場由大模型驅動的範式革命。這些來自不同行業的案例充分說明，中國AI產業正通過與實體經濟的深度融合，在解決國計民生和產業升級的重大問題中尋找應用場景、創造真實價值，並反過來用真實世界的複雜資料和反饋來驅動AI技術的持續迭代。這條場景驅動、資料反哺的路徑，形成了一條極具韌性和生命力的、具有中國特色的技術發展道路。1.3 2025年關鍵技術突破：協同演進，邁向通用智能在市場需求、產業應用和全球競爭的三重驅動下，2025年的AI大模型技術在多個方向上取得了關鍵性、非線性的突破。這些突破不再是單一維度的線性提升，例如單純的參數增長或在某個孤立任務上的性能最佳化，而是多個技術方向協同演進、相互促進，共同推動AI系統向更通用、更自主、更高效、更可靠的終極目標邁進。多模態能力從可選變為標配，混合專家（MoE）架構的普及解決了規模與成本的矛盾，基於強化學習的深度推理能力讓模型學會了"思考"，而AI Agent（智能體）的商業化爆發則將這一切能力整合，使其成為能夠自主執行任務的數字員工。這四大趨勢共同定義了2025年大模型技術的新高度，並深刻地影響著未來十年AI技術和應用的發展軌跡。1.3.1 多模態成為標配：從"拼接"到"原生"的全感官智能如果說2024年是多模態大模型的"萌芽之年"，其能力主要體現在圖文理解上，那麼2025年則是其"普及與深化之年"。單一的文字處理能力已不再是衡量一個模型先進與否的標準，同時理解和生成文字、圖像、音訊、視訊、3D模型、感測器訊號等多種模態資訊，並實現它們之間的無縫轉換和融合推理，成為了頂級模型的入門門檻。這一轉變的意義，不亞於從黑白電視到彩色電視的飛躍，它標誌著AI正在從一個只能"閱讀"的"書生"，進化為一個能聽、能看、能說、能感受的"全感官"智能體。技術演進：從"拼接"到"原生"的架構革命2025年多模態技術的核心突破，在於架構層面實現了從"拼接式多模態"（Stitched Multimodality）向"原生多模態"（Native Multimodality）的根本性演進。理解這一轉變，是理解當前多模態技術水平的關鍵。舊範式：拼接式多模態早期的多模態模型，如CLIP和DALL-E的早期版本，通常採用多個獨立的、針對特定模態的編碼器（Encoder）。例如，使用一個預訓練好的視覺模型（如ViT）來編碼圖像，使用一個語言模型（如BERT）來編碼文字，然後通過一個輕量級的"連接層"（Projection Layer）將它們的特徵向量對應到同一個語義空間進行對齊和融合。這種方式雖然在當時取得了不錯的效果，但存在明顯的技術缺陷：資訊瓶頸（Information Bottleneck）：不同模態的資訊在各自的編碼器中被高度壓縮，在"連接層"進行融合時已經丟失了大量原始的細節資訊，導致跨模態理解不夠精細和深入。互動膚淺（Shallow Interaction）：模型只能進行表層的、全域的對齊（例如判斷"這張圖片和這段文字描述的是同一個物體"），但難以理解模態內部和模態之間的複雜、局部關係（例如，無法精準理解"圖片左上角的男人正在對右下角的狗低聲說話"這一包含空間、行為和聲音資訊的複雜場景）。擴展性差（Poor Scalability）：每增加一種新的模態（如視訊、音訊），就需要設計一個新的編碼器和相應的連接方式，整個架構會變得越來越臃腫，訓練也變得異常複雜。新範式：原生多模態以Google Gemini系列、OpenAI GPT-5以及國內的通義千問Qwen2.5-VL為代表的新一代模型，在架構層面就實現了根本性的統一。它們採用統一的Transformer架構和共享的向量空間來處理所有模態的資料。其核心思想是"萬物皆可Token化"：統一Token化：無論是文字、圖像、聲音還是視訊，都會被一個統一的"分詞器"（Tokenizer）或多個協同工作的分詞器，轉換成一系列離散的"語義令牌"（Semantic Tokens）。例如，圖像被切分成小塊（Patches），每個圖像塊被編碼成一個Token；音訊波形被切分成短時幀，也被編碼成Token。這些來自不同感官的Token，與文字的Token一起，被送入同一個模型中，擁有了統一的"語言"。端到端深度融合訓練：在統一的Transformer架構中，來自不同模態的Token通過自注意力機制（Self-Attention）進行無差別的、深度的互動和融合。模型在包含海量多模態資料的預訓練過程中，端到端地（End-to-End）學習所有模態的內在規律以及它們之間錯綜複雜的對應關係。模型不再是先理解圖像，再理解文字，而是在同一個思考過程中，同時處理和關聯所有的感官資訊。這種原生多模態架構帶來了幾個革命性的優勢：更強的跨模態推理能力：模型能夠真正理解不同模態資訊之間的深層邏輯和因果關聯。例如，它不僅能識別出一張圖片裡有一隻貓和一張桌子，還能根據貓的姿勢、眼神以及桌上的食物，推理出"這隻貓可能準備跳上桌子偷吃東西"，甚至能結合背景聲音（如遠處傳來的主人腳步聲），進一步推理出"這隻貓的行為具有風險，可能會被即將到來的主人發現"。這種能力是實現高級場景理解和自主決策的基礎。更靈活的模態轉換與生成（Any-to-Any）：由於所有模態在底層被統一表示，模型可以輕鬆地實現任意模態到任意模態的轉換和生成。例如：輸入一段複雜的文字描述（"一個賽博朋克風格的雨夜城市，霓虹燈在濕漉的街道上投下斑斕的倒影，一個穿著風衣的偵探在追逐一個一閃而過的神秘黑影"），可以直接生成一段包含相應場景、動態效果、環境音效和緊張旁白的短影片。輸入一段哼唱的旋律，可以生成完整的樂譜、多種樂器編配的成品音樂，甚至配上AI生成的虛擬歌手演唱。輸入一段產品設計草圖，可以直接生成可用於3D列印的CAD模型。更低的開發與部署成本：統一的架構意味著更少的模型元件和更簡化的訓練與部署流程。開發者不再需要為不同的多模態任務去尋找和組合不同的模型，一個強大的原生多模態模型即可應對多種應用場景，這極大地降低了多模態應用的開發和維護成本。行業影響與未來展望多模態能力的普及，正在對各行各業產生顛覆性的影響，其深度和廣度遠超純文字AI：內容創作與傳媒：AIGC正在從單一的文案、圖片生成，走向完整的視訊、電影、遊戲內容的自動化和半自動化生產。這將極大地改變媒體、廣告和娛樂行業的內容生產方式，催生"AI導演"、"AI編劇"、"AI遊戲關卡設計師"等新職業，同時也對內容版權、真實性驗證提出了新的挑戰。教育與培訓：AI可以根據學生的學習進度和薄弱環節，動態生成包含圖示、動畫、語音講解和互動實驗的個性化多媒體課件，實現真正的因材施教。未來的課本將是"活"的、可互動的、全方位調動學生感官的沉浸式學習體驗。工業與醫療：在工業領域，多模態AI能結合裝置運行的聲音、振動頻率、紅外熱成像和高畫質視覺圖像，實現比任何單一感測器都更準確的故障預警和壽命預測。在醫療領域，它能同時分析CT影像、病理報告、基因序列和患者的口述病史，為醫生提供更全面、更準確的診斷建議，成為"超級診斷專家"。人機互動革命：未來的互動介面將不再侷限於鍵盤、滑鼠和螢幕。使用者可以通過最自然的語音、手勢、眼神甚至腦電波與AI進行互動，AI也能通過分析使用者的表情、語氣和生理訊號來理解其真實意圖和情感狀態，實現更具共情能力和預見性的溝通。這將為AR/VR眼鏡、智能座艙、具身智慧型手機器人、可穿戴裝置等領域帶來革命性的體驗提升。科學發現：多模態AI能夠理解科學論文中的圖表、公式和文字，觀看實驗視訊，分析實驗資料，幫助科學家更快地吸收知識、發現不同領域研究之間的關聯，並提出新的科學假設。2025年，多模態已經不再是一個"加分項"，而是基礎大模型不可或缺的核心能力。它將AI從一個強大的語言工具，提升到了一個初級的"世界模擬器"和"全能感知體"，為通往更高等級的人工智慧鋪平了道路。1.3.2 MoE架構普及：兆參數的"經濟適用"之道隨著模型能力的提升，參數規模的增長似乎是通往更強智能的必經之路。然而，訓練和推理一個數兆參數的稠密模型（Dense Model）——即在每次計算中所有參數都參與運算——所帶來的巨大算力成本、記憶體開銷和能源消耗，是任何一家公司都難以承受的。這形成了一個阻礙AI發展的"不可能三角"：即無法同時實現頂尖的性能、巨大的規模和可控的成本。為了打破這一桎梏，混合專家模型（Mixture of Experts, MoE）架構在經歷了多年的學術探索後，於2025年得到了大規模的工業化普及，成為建構前沿大模型的首選架構。它為通往兆乃至十兆參數的道路，提供了一條經濟適用的、可行的工程路徑。技術原理：稀疏啟動的"集體智慧"MoE的核心思想，源於一個簡單的分工理念：與其讓一個"通才"吃力地解決所有問題，不如培養一群各有所長的"專家"，在遇到問題時，聰明地選擇並啟動最相關的幾位專家來協同解決。在模型架構中，這意味著將一個龐大的前饋神經網路（FFN）層，取代為兩個核心元件：多個專家子網路（Experts）：這些是相對獨立的、規模較小的神經網路（通常是FFN）。每個專家在訓練過程中會逐漸學習並擅長處理某一類特定的輸入模式或知識領域（例如，一個專家可能擅長處理與程式設計相關的Token，另一個則擅長處理與生物化學相關的Token）。一個"門控網路"（Gating Network）：這是一個輕量級的路由網路。對於每一個輸入的Token，門控網路會快速計算一個權重分佈，決定應該將這個Token傳送給那些專家進行處理。通常，它會選擇權重最高的Top-k個專家（k通常為1、2或4），然後將這些被啟動的專家的輸出結果，根據門控網路的權重進行加權融合，作為最終的輸出。通過這種方式，MoE模型實現了所謂的"稀疏啟動"（Sparse Activation）。儘管模型的總參數量可以做得非常巨大（例如，通過堆疊數百個專家網路達到兆等級），但在處理任何一個Token時，實際參與計算的只是被門控網路選中的少數幾個專家，即"啟動參數量"遠小於"總參數量"。這就帶來了巨大的優勢：在保持巨大模型容量（代表其潛在知識的豐富程度）的同時，大幅降低了單次推理的計算量（FLOPS），從而實現了性能與效率的解耦。表1-4 採用MoE架構的部分代表性模型（2025年）技術深化：從"粗放路由"到"智能調度"MoE架構在2025年的普及，不僅僅是應用範圍的擴大，更伴隨著一系列技術深化和創新，解決了早期MoE面臨的訓練不穩定、負載不均衡、推理延遲高等諸多挑戰。智能路由演算法：早期的MoE模型在分配任務給"專家"時，採用簡單的Top-k門控機制，容易出現"贏家通吃"的現象——即少數專家被過度使用，而大多數專家長期處於閒置狀態。這不僅導致模型容量的巨大浪費，也使得訓練過程非常不穩定。2025年的先進MoE模型，如DeepSeek-V2和智譜GLM-4，採用了更複雜的路由演算法：負載平衡損失（Load Balancing Loss）：在訓練的目標函數中加入一個額外的損失項，專門用於懲罰不均衡的專家分配。這會激勵門控網路在選擇專家的同時，也考慮讓所有專家都得到"雨露均霑"的訓練，從而最大化模型容量的利用率。噪聲路由（Noisy Routing）：在門控網路的輸出上增加隨機噪聲，以增加路由的探索性，避免模型過早地鎖定在少數幾個專家上，有助於提升模型的泛化能力。專家能力建模：一些更前沿的研究開始讓門控網路不僅考慮輸入與專家的"相關性"，還動態地建模每個專家的"能力"和"專長"，從而實現更準確的"因材施教"式路由。專家融合與協作：新的MoE架構不再將專家視為完全獨立的、互不通訊的單元。一些模型引入了"共享專家"或"層級化專家"結構。例如，在模型的底層，可能設定一些所有任務都會用到的通用基礎知識專家（如負責基礎語法和語義理解），而在高層，則設定更專業的"領域專家"（如"法律專家"、"程式碼專家"、"數學專家"）。還有一些模型則在專家之間引入了橫向連接或額外的注意力機制，允許它們在計算過程中相互交流和協作，共同解決需要跨領域知識的複雜問題。這使得MoE模型不再是簡單的"專家混合"，而是真正的"專家會診"。稀疏訓練與推理最佳化：MoE模型的稀疏啟動特性，也催生了一整套專門的分佈式訓練和推理最佳化技術，這是軟體和硬體協同設計的典範。訓練層面：由於MoE模型的總參數量巨大，無法裝入單個計算裝置，因此必須進行平行訓練。業界發展出了"專家平行"（Expert Parallelism）策略，即將不同的專家分佈在不同的GPU上，同時結合"資料平行"（Data Parallelism）來處理輸入資料。這需要高效的All-to-All通訊來完成Token在不同GPU之間的路由和分發，對網路頻寬提出了極高要求。推理層面：MoE的推理最佳化是2025年的一大技術熱點。VLLM、TensorRT-LLM、S-LoRA等推理引擎都針對MoE進行了深度最佳化。其核心挑戰在於，如何高效地處理動態的、不可預測的專家啟動模式，並最大限度地減少從海量總參數中載入專家權重到計算核心所帶來的延遲。關鍵技術包括：專家權重快取（Expert Weights Caching）：將最常被啟動的專家權重快取在GPU的快取記憶體（SRAM）或HBM中。投機性載入（Speculative Loading）：根據歷史模式或門控網路的初步計算，提前預測那些專家可能被啟動，並預先將其權重從主存載入到GPU記憶體中。計算與通訊重疊：通過精巧的調度，將Token的路由通訊、專家權重的載入與實際的計算過程進行流水線式的重疊，隱藏延遲。產業影響：重塑AI算力版圖MoE架構的普及，正在深刻地改變AI硬體和雲端運算產業的發展方向和競爭格局：對AI硬體提出新要求：MoE架構的"稀疏計算，密集儲存"特性，對AI晶片的設計理念提出了新的要求。過去，AI晶片設計更注重峰值計算能力（FLOPS）。而現在，記憶體頻寬和容量的重要性被提到了前所未有的高度。因為MoE模型在推理時需要從海量的總參數中快速載入被啟動的專家權重，"記憶體牆"（Memory Wall）成為了比"計算牆"（Compute Wall）更主要的瓶頸。這直接推動了高頻寬記憶體（HBM）技術的加速迭代（從HBM3到HBM3e再到HBM4），並使得擁有更大HBM容量的AI晶片（如NVIDIA的B200擁有192GB HBM3e，AMD的MI300X擁有192GB HBM3）在市場上更具競爭力。此外，MoE模型在多節點部署時，專家間的通訊需求也對伺服器的片間/節點間互聯技術（如NVIDIA的NVLink、CXL）提出了更高要求。可以說，軟體層面的架構創新正在反向定義硬體的發展方向。對雲端運算廠商的挑戰與機遇：對於AWS、Azure、GCP以及中國的阿里雲、騰訊雲等雲廠商而言，MoE模型的流行帶來了新的挑戰和機遇。挑戰在於，如何為客戶提供能夠高效運行超大規模MoE模型的、具有高頻寬網路和海量記憶體的計算叢集，這對資料中心的基礎設施提出了極高的要求。機遇在於，雲廠商可以憑藉其在基礎設施、系統最佳化和平台軟體上的綜合優勢，為客戶提供比自建資料中心更具性價比的MoE模型訓練和推理服務，這成為雲服務商新的增長點。例如，Google就憑藉其在TPU上的優勢，宣稱其雲平台是運行超大MoE模型的最佳選擇。而中國的雲廠商則在適配國產算力、為國產MoE模型提供最佳化服務方面，構築自己的獨特優勢。總而言之，MoE架構是2025年大模型技術領域最核心的使能技術之一。它巧妙地繞過了暴力計算的物理極限，為建構更大、更強的AI模型提供了一條可持續的工程路徑，使得"兆參數"不再是少數巨頭的專利，而是成為了更多創新者可以企及的目標，極大地推動了AI技術的普及和應用深化。1.3.3 強化學習增強推理：從"模仿"到"創造"的認知飛躍如果說海量資料的預訓練賦予了AI大模型廣博的"知識"，使其成為一個無所不知的"資訊檢索和模式匹配"大師，那麼在2025年取得關鍵突破的強化學習（RL）應用，則正在教會模型如何運用這些知識進行深度的"思考"，實現從"模仿"到"創造"的認知飛躍。這一轉變，標誌著AI正從一個被動的"知識容器"向一個主動的"問題求解器"和"思想引擎"邁進，是通往通用人工智慧（AGI）道路上最關鍵、最深刻的一步。範式轉變：從RLHF到"過程-結果"雙重監督與自我對弈2025年，強化學習在大模型領域的應用，實現了從單一的、旨在"對齊人類偏好"的RLHF，到旨在"提升內在推理能力"的更複雜範式的演進。這個新範式結合了過程監督、結果監督和自我對弈，為模型打開了"無監督學習"和"自我進化"的大門。舊範式：RLHF（Reinforcement Learning from Human Feedback）的侷限：RLHF在過去幾年中對於提升模型的安全性、有用性和遵循指令能力方面取得了巨大成功。其核心是讓模型學習模仿人類的偏好。通過讓人類對模型的不同輸出進行排序（例如，那個回答更禮貌、更安全），訓練一個"獎勵模型"（Reward Model），然後用這個獎勵模型作為訊號，通過強化學習演算法（如PPO）來微調大模型。然而，RLHF的本質是"外在的"和"模仿性的"，它教會了模型"說什麼樣的話更討人喜歡"，但並沒有真正教會模型"如何獨立地思考並得出正確的結論"。其天花板受限於人類標註者的認知水平和偏好，模型很難通過RLHF學會創造出超越人類已有知識的、新穎的解決方案，尤其是在數學、科學、程式設計等需要嚴謹邏輯推理的領域。新範式：結合過程與結果監督的深度推理（Process & Outcome-Supervised RL）為了讓模型真正學會"思考"，2025年的前沿技術將監督訊號從模糊的"偏好"轉向了更明確的"過程"和"結果"：結果監督（Outcome Supervision）：對於那些有明確正確答案的問題（如數學題、程式碼編譯結果），模型可以獲得一個清晰、客觀的獎勵訊號。如果答案正確，則獲得正獎勵；如果錯誤，則獲得負獎勵。這比人類的主觀偏好要可靠得多。過程監督（Process Supervision）：然而，僅僅獎勵最終結果是不夠的。一個複雜的推理任務包含很多步驟，模型可能因為某一步的"運氣好"（例如，兩個錯誤相互抵消）而得到正確答案，但這並不意味著它掌握了正確的解題方法。過程監督的核心，是讓人類（或更強的AI）去審查和獎勵模型生成的"思維鏈"（Chain of Thought）中的每一步。如果某一步推理是正確的、有邏輯的，就給予獎勵。這種對"思考過程"的監督，能夠更有效地引導模型學習到可泛化的、魯棒的推理能力。OpenAI提出的"過程獎勵模型"（Process-based Reward Models, PRM）就是這一思想的典型實現。通過結合這兩種監督方式，模型不僅知道要達到什麼"目標"，也學會了"如何一步步地、正確地達到目標"。當面對一個複雜問題時（如多步驟的數學題、複雜的程式碼偵錯），模型不再是直接"猜"一個答案，而是會先生成一個詳細的思考鏈或解題計畫，然後逐步執行和修正，最終得出答案。這個過程類似於人類的深思熟慮，極大地提高了模型在複雜任務上的精準性和可靠性。OpenAI在GPT-5發佈時重點介紹的"擴展推理能力"（extended reasoning）和"思考模式"（thinking mode），正是這一趨勢的體現。前沿探索：自我對弈強化學習（Self-Play RL）更進一步，借鑑DeepMind在AlphaGo上取得的巨大成功，AI研究者們正在將"自我對弈"的思想引入到大模型的推理訓練中。其核心思想是，讓模型自己為自己創造學習環境和目標，在沒有或極少有人類輸入的情況下進行自我博弈和提升。在解決一個複雜的數學問題時，模型可以同時扮演三個角色：出題者（Proposer）：從一個基本概念出發，自己生成無數個難度遞增、形式各異的新問題。解題者（Solver）：嘗試用多種不同的"思維鏈"或"思維樹"來探索這些問題的解法。驗證者（Verifier）：通過邏輯一致性檢查、與已知公理比對、或將問題簡化後驗證答案等方式，自己判斷解法的正確與否，並對正確的解題路徑進行"自我獎勵"。通過數百萬次甚至數十億次這樣的自我對弈循環，模型能夠探索出人類從未想過的新穎解題技巧和策略，其能力不再受限於訓練資料中已有的人類知識。2024年9月12日，OpenAI發佈的O1推理模型被認為是這一方向的里程碑，其採用的"Self-play RL"範式，讓模型能夠通過自我對弈和探索，不斷髮現更優的解題策略。這標誌著AI正從一個知識的"消費者"和"整理者"，轉變為一個知識的"發現者"和"創造者"。行業影響：重定義"專家級"任務由強化學習驅動的、可解釋、可驗證的深度推理能力，正在重定義許多過去被認為是人類頂尖專家專屬的"認知型"任務，其影響的深度和廣度將遠超之前的自動化浪潮：科學研究（AI for Science）：AI已經開始在數學定理證明、蛋白質結構預測（如AlphaFold 3）、新材料發現、高能物理資料分析等領域扮演關鍵角色。過去，AI在科學領域的應用更多是作為強大的資料分析工具。而現在，具備推理能力的AI有望成為科學家的"研究夥伴"或"靈感催化劑"。它可以幫助科學家梳理文獻、發現不同領域知識之間的隱藏關聯、提出全新的科學假設、設計複雜的實驗方案，甚至獨立完成部分理論推導，從而極大地加速科學發現的處理程序。軟體工程（AI for Software Engineering）：這是推理能力最先展現出顛覆性潛力的領域之一。具備強大推理能力的AI Agent，將能夠承擔從理解模糊的自然語言需求、進行系統架構設計、編寫高品質和可維護的程式碼，到設計測試用例、自動偵錯、乃至最終的部署和維運的全流程軟體開發工作。這可能會極大地改變軟體行業的生產模式，將人類程式設計師的角色從"程式碼工人"提升為"AI架構師"和"產品思想家"，同時也對軟體工程的教育和培訓提出了全新的要求。金融與法律：在金融領域，AI可以進行更複雜的宏觀經濟預測、金融衍生品定價和全天候的風險建模，而不僅僅是基於歷史資料的模式識別。在法律領域，AI可以處理更複雜的案件分析、證據鏈梳理和合同審查，甚至進行一定程度的法律推理，為法官和律師提供決策支援。這要求相關領域的從業者必須學會如何與這些"AI法律助理"和"AI金融分析師"進行高效協作。教育：具備推理能力的AI家教，不僅能判斷學生的答案是否正確，更能理解學生的解題思路錯在了那裡，並能像一個有經驗的老師一樣，循循善誘地、一步步地引導學生掌握正確的思維方法。這為實現大規模、高品質的個性化教育提供了可能。總而言之，強化學習增強推理能力的突破，是2025年AI技術發展中最具變革性的力量。它讓AI開始擁有真正的"智力"而非僅僅是"知識"，使其能力邊界從模式匹配和資訊檢索向複雜問題求解和自主規劃拓展。這是AI發展史上的一個分水嶺，也是邁向更通用、更強大人工智慧的關鍵一步。1.3.4 AI Agent爆發：從"工具"到"員工"的社會變革當大模型具備了強大的多模態感知能力、基於MoE架構的高效海量知識、以及由強化學習驅動的深度思考和規劃能力後，將這一切能力整合起來，並賦予其與外部世界互動、自主設定目標並執行任務的能力，便誕生了人工智慧體——AI Agent。如果說之前的AI是需要人來"使用"的"工具"，那麼AI Agent就是一個可以被"僱傭"來自主完成任務的"數字員工"。在經歷了前兩年的概念驗證和技術探索後，2025年被業界普遍認為是AI Agent的商業化元年和"應用爆發之年"。這不僅是一項技術的成熟，更是一場深刻的生產力革命和社會變革的序幕。AI Agent的"三位一體"核心架構一個典型的AI Agent框架，無論其具體實現如何，通常都包含一個由"感知-規劃-行動"（Perception-Planning-Action）構成的核心循環，並輔以"記憶"和"工具使用"兩大關鍵能力，形成一個"三位一體"的智能系統：感知（Perception）：這是Agent與世界互動的入口。得益於2025年成熟的原生多模態技術，Agent的感知能力已經遠超文字。它可以"看到"螢幕上的介面、圖表和視訊，"聽到"使用者的語音指令和環境聲音，並閱讀海量的文件、程式碼和網頁。這種全方位的感知能力是其理解複雜任務和環境的基礎。規劃與思考（Planning & Reasoning）：這是Agent的"大腦"和"中樞神經"。當接收到一個複雜、高層次的目標（例如，"幫我規劃一次為期五天的北京家庭旅行，預算一萬元"）後，Agent的核心推理引擎（通常由具備深度推理能力的大模型擔當）會啟動：任務分解（Task Decomposition）：將模糊的大目標分解為一系列具體的、可執行的子任務（例如：1. 確認家庭成員和出行偏好；2. 搜尋往返機票和酒店；3. 規劃每日行程和景點；4. 估算餐飲和交通費用；5. 形成最終方案並徵求使用者意見）。自我反思與修正（Self-Reflection and Refinement）：在執行過程中，Agent會不斷地對自己的計畫和行為進行評估。如果發現某一步走不通（例如，預訂的酒店滿房），它會分析失敗的原因，並自主修正後續的計畫（例如，更換酒店或調整行程日期）。這種"反思"能力是其區別於簡單自動化指令碼的關鍵。行動（Action）：這是Agent影響和改變世界的出口。Agent的行動並非預設的固定程序，而是根據其規劃動態生成的。其核心能力在於工具呼叫（Tool Use）。技術堆疊成熟：從開源框架到商業化平台AI Agent在2025年的爆發，直接得益於其背後技術堆疊的快速成熟和標準化。以LangChain、LlamaIndex、AutoGen、CrewAI、MetaGPT等為代表的開源框架，為Agent的核心能力（規劃、記憶、工具呼叫）提供了標準化的、模組化的實現，極大地降低了開發者建構Agent應用的門檻。開發者不再需要從零開始實現複雜的邏輯，而是可以像"搭樂高"一樣，快速組合這些框架提供的元件來建構自己的Agent。2025年，我們看到這些開放原始碼專案開始向更成熟的"Agent平台"演進。這些平台不僅提供開發工具，還提供了一系列商業化的服務，形成了一個完整的生態系統：應用爆發：從個人助理到企業自動化成熟的技術堆疊催生了Agent應用的全面爆發，覆蓋了從個人生產力到企業級自動化的廣泛場景：AI軟體工程師：這是2025年最引人注目的Agent應用方向。以Cognition AI的Devin為代表，這類Agent能夠端到端地完成軟體開發任務。使用者只需用自然語言描述需求，Devin就能夠自主學習不熟悉的技術、編寫程式碼、修復bug、進行測試，並最終完成部署。它在SWE-bench基準上解決問題的能力，已經超過了許多人類初級工程師。這預示著軟體開發這一複雜的人類智力活動，正在被AI重塑。AI市場分析師與研究員：這類Agent能夠自動監控全網的新聞、報告、社交媒體和市場資料，根據設定的主題（例如，"分析2025年中國新能源汽車市場的競爭格局"）進行資訊的抓取、清洗、整理和深度分析，並最終自動生成一份結構完整、圖文並茂、包含資料洞察和趨勢預測的深度研究報告。自主的個人助理：AI助理不再是被動地回答問題，而是能夠主動地、跨應用地為使用者完成任務。例如，使用者只需說一句"幫我安排下周三和張總的會議"，Agent就會自動檢查雙方的日曆、協調空閒時間、傳送會議邀請、預訂會議室，並在會前自動整理好相關的背景資料傳送給使用者。企業自動化工作流（Hyperautomation）：這是AI Agent在B端最具想像力的應用。通過將企業內部的OA、ERP、CRM等多個獨立的IT系統通過Agent打通，可以實現跨系統的、端到端的業務流程自動化。例如，一個"銷售訂單處理Agent"可以在CRM中收到新訂單後，自動去ERP中檢查庫存、在物流系統中安排發貨、在財務系統中生成發票，並自動給客戶傳送包含物流單號的確認郵件。這比傳統的RPA（機器人流程自動化）更加靈活和智能。"智能體經濟"（Agent Economy）的黎明AI Agent的商業化，正在催生一個全新的"智能體經濟"。在這個經濟體中，AI不再僅僅是工具，而是作為獨立的經濟參與者，提供服務、創造價值並參與分配。新的商業模式正在湧現：訂閱制"數字員工"：企業可以像僱傭人類員工一樣，按月或按年訂閱一個"財務分析Agent"、"客戶支援Agent團隊"或"初級程式設計師Agent"。這些"數字員工"可以7x24小時不間斷工作，成本遠低於人力，且不會疲勞、不會犯重複性錯誤。結果導向付費（Outcome-based Pricing）：使用者不再為Agent的計算過程或使用時長付費，而是為其創造的商業價值付費。例如，一個"銷售線索挖掘Agent"可以根據其最終帶來的有效銷售線索數量來收費；一個"廣告投放最佳化Agent"可以根據其提升的廣告轉化率來分享收益。這種模式將AI服務商與客戶的利益深度繫結。Agent應用程式商店（Agent Store）：類似於蘋果的App Store或Salesforce的AppExchange，未來將會出現面向AI Agent的"應用程式商店"。開發者可以開發出各種功能的、面向特定場景的Agent並上架銷售，個人使用者和企業可以根據自己的需求，購買、組合不同的Agent來打造個性化的"超級助理"或自動化工作流。平台則從中抽取分成，形成一個繁榮的開發者生態。AI Agent的爆發，標誌著AI的角色正在從一個被動的"資訊提供者"轉變為一個主動的"任務執行者"和"價值創造者"。它將徹底改變人機互動的方式，並有望重塑軟體行業、服務行業乃至整個社會的生產力組織形式。當然，這也將對現有的商業模式和勞動力市場帶來顛覆性的衝擊，並引發關於AI倫理、責任歸屬、安全治理和社會公平的更深層次的社會討論，這些都將是未來幾年需要全社會共同面對和解決的重大課題。1.3.4 AI Agent爆發：從"工具"到"員工"的社會變革AI Agent的技術架構深度解析2025年，AI Agent的實現已經從概念驗證走向了工程化和產品化。一個生產級的AI Agent系統通常採用分層架構，各層之間通過標準化介面解耦，確保了系統的可擴展性和可維護性：1. 感知層（Perception Layer）感知層負責將多模態輸入轉換為統一的內部表示。2025年的先進Agent不再侷限於文字對話，而是整合了：視覺感知模組：基於Qwen-VL或GPT-5 Vision等原生多模態模型，能夠解析使用者上傳的截圖、圖表、照片，並理解介面元素和視覺上下文。這在自動化UI操作、視覺問答等場景中至關重要。語音感知模組：整合CosyVoice或Whisper等SOTA語音識別模型，支援流式語音輸入和即時轉錄，延遲可控制在300ms以內。結構化資料感知：通過Function Calling機制，Agent能夠呼叫API獲取JSON、XML等結構化資料，並將其自然語言化。2. 認知核心層（Cognitive Core）這是Agent的"大腦"，通常由一個或多個大語言模型構成，負責推理、規劃和決策。2025年的最佳實踐包括：雙模型策略：使用一個強大的"規劃模型"（如GPT-5或Qwen-Max）進行任務分解和策略制定，再使用一個更快的"執行模型"（如Qwen-Plus或DeepSeek-V2）處理具體的子任務，在成本與性能間取得平衡。思維鏈工程：通過精心設計的System Prompt，強制模型在輸出最終答案前，先輸出結構化的思考過程，包括：目標分析、子任務列表、工具選擇理由、風險評估等。這不僅提升了透明度，也便於偵錯和最佳化。自我糾錯機制：引入"批判性反思"步驟，讓Agent在完成一個子任務後，主動評估結果質量，若發現缺陷則觸發回退或重試邏輯。3. 行動執行層（Action Layer）執行層負責將認知層的決策轉化為實際的操作。關鍵技術包括：工具呼叫協議：2025年已初步形成了標準化的Agent工具呼叫協議（如OpenAI的Function Calling、Anthropic的Tool Use），使得不同廠商的Agent框架能夠相容使用第三方工具。瀏覽器自動化：通過Playwright、Selenium等瀏覽器自動化工具，Agent可以模擬人類操作網頁，完成從資訊檢索到線上交易的完整流程。Cognition AI的Devin就展示了在真實GitHub倉庫中自主建立PR、修復CI錯誤的能力。程式碼執行沙箱：為Agent提供安全的程式碼執行環境（如Jupyter Notebook、Docker容器），使其能夠進行資料分析、檔案處理等複雜操作，同時實現嚴格的權限隔離和資源限制。4. 記憶管理層（Memory Management）長期記憶是Agent處理複雜多輪任務的關鍵。2025年的主流方案是混合記憶架構：短期記憶：利用LLM的上下文窗口（最高可達200萬token）儲存當前對話歷史和近期任務資訊，實現快速訪問。長期語義記憶：使用向量資料庫（如Milvus、Pinecone）儲存歷史互動、成功經驗、領域知識，支援基於相似度的檢索。情景記憶：以鍵值對形式儲存特定任務的執行軌跡（Observation-Action-Observation），供未來類似任務參考學習。企業級AI Agent的實施挑戰與解決方案儘管技術日趨成熟，但將AI Agent規模化部署到企業生產環境仍面臨嚴峻挑戰：挑戰1：可靠性與一致性LLM的機率性輸出導致Agent行為難以完全預測，可能出現"幻覺"或執行錯誤。2025年的解決方案包括：確定性規劃層：在LLM之上增加一個基於規則或符號邏輯的驗證層，對關鍵操作（如支付、資料刪除）進行強制性規則檢查。人類在環（Human-in-the-Loop）：在高風險決策點設定人工稽核節點，Agent提交執行計畫供人類批准後方可執行。沙盒測試：在隔離環境中對Agent工作流進行自動化測試，驗證其在各種邊界條件下的表現，覆蓋率需達到95%以上。挑戰2：成本與性能最佳化複雜任務可能觸發數十次LLM呼叫，成本高昂且響應慢。最佳化策略包括：快取機制：對重複的子任務結果（如常見函數程式碼）進行快取，命中率可達60-80%。模型路由：根據任務複雜度自動選擇大小模型，簡單查詢用小模型（如Qwen-Slim），複雜推理用大模型，可降低30-50%成本。平行化執行：對於獨立的子任務（如同時查詢多個資料庫），採用非同步並行執行，總耗時從線性疊加降為最慢子任務耗時。挑戰3：安全與合規賦予Agent訪問敏感資料和系統的權限帶來巨大安全風險。2025年的企業級Agent必須實現：最小權限原則：Agent僅被授予完成特定任務所需的最小權限集，權限動態授予、用後回收。可審計性：完整記錄Agent的所有操作日誌，包括決策過程、工具呼叫參數、結果狀態，滿足SOX、GDPR等合規要求。對抗性魯棒性：對輸入進行過濾和清洗，防範提示注入（Prompt Injection）和工具劫持（Tool Hijacking）攻擊。第二章：AI大模型開發核心技術堆疊：從框架到部署的全景解析引言：建構未來智能的"開發者軍火庫"在AI大模型技術浪潮席捲全球的背景下，開發者作為這場技術革命的核心推動力量，其手中的"軍火庫"——即AI大模型開發的核心技術堆疊——的演進與迭代，直接決定了創新的速度、應用的深度和生態的廣度。2025年，AI開發技術堆疊經歷了從"手工作坊"式的探索到"工業化"生產體系的深刻變革。這一體系，上承模型演算法的創新，下接千行百業的應用落地，是連接理論與實踐、驅動AI價值釋放的關鍵樞紐。本章將為開發者和AI從業者提供一份詳盡的、面向2025年的AI大模型開發核心技術堆疊圖譜。我們將系統性地梳理和解析構成這一技術堆疊的四大核心支柱：基礎開發框架：從深度學習的基石PyTorch、TensorFlow和JAX，到引爆應用層創新的AI Agent框架（如LangGraph、AutoGen），我們將剖析其技術演進和選型考量。模型訓練與微調技術：我們將深入探討分佈式訓練的平行策略、參數高效微調（PEFT）的革命（特別是LoRA與QLoRA），為開發者在不同資源和場景下選擇最優訓練方案提供指南。推理最佳化與部署技術：我們將揭示以vLLM和TensorRT-LLM為代表的高性能推理框架如何通過PagedAttention等技術實現吞吐量的飛躍，並系統介紹模型量化、算子融合等核心最佳化手段。AI程式設計輔助工具：從GitHub Copilot到國產的通義靈碼，我們將評測這些"AI結對程式設計師"如何重塑開發流程，提升程式碼生產力。本章旨在通過對上述核心技術堆疊的全面解析，為開發者提供一個清晰的導航圖，幫助他們理解各種工具的內在邏輯、適用場景與最佳實踐，從而在建構下一代AI應用的征程中，能夠"選對兵器，打贏戰爭"。2.1 基礎開發框架：奠定AI創新的基石基礎開發框架是AI技術堆疊的"作業系統"，它為上層演算法的實現、模型的訓練和應用的部署提供了底層的計算抽象和工具集。2025年，AI開發框架的版圖呈現出清晰的"雙層結構"：下層是以PyTorch、TensorFlow和JAX為代表的"深度學習基礎框架"，它們是建構和訓練神經網路的核心引擎；上層則是以LangChain、CrewAI、AutoGen等為代表的"AI Agent開發框架"，它們專注於編排和調度大模型的能力，是引爆應用層創新的催化劑。理解這兩層框架的特點與分工，是開發者建構現代AI應用的第一步。2.1.1 深度學習基礎框架：三足鼎立，PyTorch王者地位穩固深度學習基礎框架是AI開發者的"主戰武器"，它們直接決定了研究和開發的效率、靈活性與性能。經過多年的激烈競爭，2025年的市場格局已然清晰：PyTorch憑藉其靈活性和強大的社區生態，在學術界和工業界都佔據了絕對的主導地位；TensorFlow憑藉其在生產部署和移動端上的優勢，仍在特定領域保有一席之地；而JAX則以其高性能和獨特的函數式程式設計範式，在頂尖研究和大規模計算領域異軍突起，成為不可忽視的新生力量。PyTorch：當之無愧的王者由Meta AI研究院主導開發的PyTorch，在2025年已經成為絕大多數AI研究者和開發者的首選框架。根據Papers With Code等學術平台的統計資料，2024年至2025年間新發表的AI論文中，使用PyTorch實現的比例已經超過70-80%，形成了事實上的"學術壟斷"。其成功主要歸功於以下幾點：動態計算圖（Dynamic Computational Graph）：這是PyTorch最核心的特性，也被稱為"Define-by-Run"。計算圖在程式碼實際執行階段才被建構，這意味著開發者可以使用標準的Python控制流（如if語句、for循環）和偵錯工具（如pdb）來建構和偵錯模型。這種所見即所得的程式設計體驗極大地降低了學習門檻，提高了開發和實驗的效率。相比之下，TensorFlow早期的靜態圖模式在偵錯時需要複雜的Session機制，學習曲線陡峭。簡潔直觀的API設計：PyTorch的API設計遵循"Pythonic"的哲學，與NumPy的介面高度相似，使得熟悉Python資料科學生態的開發者可以快速上手。其模組化的設計（如nn.Module、torch.optim）使得建構、訓練和評估模型的過程非常自然和清晰。例如，定義一個神經網路只需要繼承nn.Module並實現forward方法，這種物件導向的設計非常符合開發者的直覺。強大的社區與生態系統：PyTorch擁有全球最活躍、最龐大的AI開發者社區。這不僅意味著海量的開放原始碼專案、預訓練模型和第三方庫（如Hugging Face Transformers、PyTorch Lightning、fast.ai），也意味著開發者在遇到問題時可以快速找到解決方案。Hugging Face生態與PyTorch的深度繫結，更是極大地推動了其在NLP領域的普及。2025年，幾乎所有新發佈的重要模型都會第一時間提供PyTorch版本。無縫的生產部署過渡：通過TorchScript（將動態圖模型轉換為靜態圖）和TorchServe（官方模型服務庫），PyTorch彌補了早期在生產部署上的短板。特別是PyTorch 2.0版本後引入的torch.compile功能，通過與Triton等先進編譯器的整合，實現了"一次編寫，處處加速"，在保持開發靈活性的同時，獲得了接近靜態圖的推理性能，打通了從研究到生產的"最後一公里"。torch.compile使用即時編譯（JIT）技術，能夠自動融合算子、最佳化記憶體訪問模式，在Transformer模型上可實現1.5-2倍的推理加速。TensorFlow：堅守工業界，專注生產部署由Google開發的TensorFlow是歷史上第一個被廣泛採用的深度學習框架。儘管在靈活性和社區活躍度上逐漸被PyTorch超越，但憑藉其在工業級生產部署和Google強大生態系統中的深厚根基，TensorFlow在2025年依然是許多大型企業和特定場景下的重要選擇。靜態計算圖（Static Computational Graph）：TensorFlow 1.x時代的核心特性是"Define-and-Run"，即先定義完整的計算圖，再執行。這種模式雖然開發和偵錯較為繁瑣，但非常有利於進行圖最佳化、跨平台部署和分佈式訓練。儘管TensorFlow 2.x引入了Eager Execution（類似於PyTorch的動態圖模式）作為默認模式，但其骨子裡仍然保留了強大的靜態圖能力，這使其在追求極致性能和穩定性的生產環境中備受青睞。靜態圖可以在部署前進行全域最佳化，如常數摺疊、算子融合、記憶體預分配等。完善的部署工具鏈（TensorFlow Extended - TFX）：Google為TensorFlow打造了一套名為TFX的端到端機器學習平台，覆蓋了從資料準備、模型訓練、驗證、部署到監控的全生命周期。其中的TensorFlow Serving在處理大規模、高並行的推理請求方面表現出色，而TensorFlow Lite則是在移動和嵌入式裝置上部署AI模型的行業標準。這種"全家桶"式的解決方案對於需要標準化、可擴展和可維護的MLOps流程的大型企業具有很強的吸引力。TFX的各個元件（Transform、Trainer、Evaluator、Pusher）可以整合到Apache Airflow或Kubeflow Pipelines中，實現自動化的CI/CD。Google生態深度整合：作為Google的"親兒子"，TensorFlow與Google Cloud Platform（GCP）、TPU硬體以及Android生態系統深度整合，能夠為使用這些平台和裝置的開發者提供最優的性能和最便捷的開發體驗。例如，在TPU上訓練時，TensorFlow可以通過XLA編譯器生成高度最佳化的TPU指令，性能遠超PyTorch。JAX：高性能計算的"核武器"同樣由Google開發的JAX，是一個相對較新的框架，但它憑藉其獨特的設計理念和驚人的性能，在高性能計算（HPC）和前沿AI研究領域迅速崛起，被認為是PyTorch和TensorFlow未來最強有力的挑戰者。JAX的核心並非一個傳統的深度學習框架，而是一個專注於高性能數值計算和大規模機器學習的Python庫。其核心競爭力源於幾個關鍵的函數變換：grad：自動微分：JAX提供了強大且靈活的自動微分功能，可以對任意複雜的Python函數（包括循環、分支、遞迴）進行求導，支援高階導數和複雜的梯度操作。其自動微分系統基於稱為"autograd"的技術，能夠自動追蹤所有操作並建構計算圖用於反向傳播。jit：即時編譯：通過@jax.jit裝飾器，JAX可以將Python函數編譯成針對CPU、GPU或TPU最佳化的XLA（Accelerated Linear Algebra）程式碼，從而消除Python直譯器的開銷，獲得接近原生程式碼的運行速度。XLA是Google開發的領域特定編譯器，能夠生成高度最佳化的機器碼。vmap：自動向量化：vmap可以自動地將一個處理單個資料點的函數，轉換為能夠平行處理一批（a batch of）資料的函數，而無需開發者手動修改函數來處理額外的批處理維度。這使得編寫可批處理的程式碼變得異常簡單和優雅。例如，如果你有一個計算單個向量范數的函數，vmap可以自動將其升級為計算矩陣中每一行向量范數的函數。pmap：自動平行化：pmap則可以將計算自動地平行到多個裝置上（如多個GPU或TPU核心），是實現資料平行的利器。它在多個裝置間自動處理通訊和同步，開發者無需編寫複雜的分佈式程式碼。JAX的函數式程式設計範式（函數無副作用）和這些強大的函數變換組合在一起，使得研究者可以用非常簡潔和優雅的程式碼，實現極其複雜的、高性能的分佈式訓練。DeepMind等頂級研究機構已經將JAX作為其主要的內部研究框架，許多需要超大規模計算的前沿模型（如大規模Transformer、科學計算模型）都優先選擇使用JAX實現。然而，JAX相對陡峭的學習曲線和尚在發展中的生態系統，也使其在普通開發者中的普及率暫時不及PyTorch。表2-1 三大深度學習基礎框架對比（2025年）對於中國的開發者而言，PyTorch無疑是當前進入AI領域的最佳選擇，其豐富的中文教學和活躍的國內社區（如PyTorch中文網）也為學習提供了便利。同時，隨著國產AI晶片生態的成熟，TensorFlow和PyTorch都在積極適配華為升騰、寒武紀等國產硬體，而JAX的函數式和可編譯特性也使其在適配新型AI硬體時具有獨特的優勢。2.1.2 AI Agent開發框架：引爆應用創新的"編排層"如果說深度學習基礎框架是製造AI"大腦"即大模型本身的工廠，那麼AI Agent開發框架就是為這個"大腦"安裝"神經系統"和"四肢"的裝配車間。它們不關心模型底層的數學原理，而是專注於一個更高層次的問題：如何有效地編排和調度大模型已經具備的各種能力（如語言理解、推理、程式碼生成），並將其與外部工具和資料來源連接起來，以完成複雜、多步驟的任務。2025年，Agent框架已經從早期LangChain"一家獨大"的探索階段，演變為一個百花齊放、更加成熟和細分的生態系統。這些框架共同構成了AI技術堆疊中至關重要的"編排層"（Orchestration Layer），是推動AI從"聊天機器人"走向"數字員工"的核心引擎。演進趨勢：從"鏈式"呼叫到"圖"與"多智能體"協作早期（2023-2024年）的Agent框架，以LangChain為代表，其核心思想是"鏈"（Chain）——將對大模型的多次呼叫與工具的使用像鏈條一樣串聯起來。例如，一個典型的ReAct（Reason+Act）流程就是"思考->行動->觀察->思考..."的線性循環。這種模式對於解決簡單問題非常有效，但隨著任務複雜度的提升，其侷限性也日益凸顯：缺乏狀態管理：線性鏈條難以維護複雜的上下文狀態和記憶。控制流僵化：難以實現複雜的條件分支、循環和並行。可偵錯性差：一旦鏈條出錯，很難定位到具體是那個環節出了問題。為了克服這些挑戰，2025年的主流Agent框架不約而同地向兩個方向演進：圖（Graph）結構和多智能體（Multi-Agent）協作。圖結構：用"圖"來代替"鏈"，將Agent的工作流建模為一個有向無環圖（DAG）或狀態機。圖中的每個節點代表一個計算步驟（如呼叫大模型、執行工具、檢索資料），而邊則代表了節點之間的依賴關係和控制流。這種模式允許開發者建構任意複雜的、具有循環、分支和並行能力的Agent工作流，並提供了更好的可視化、偵錯和狀態管理能力。LangChain的後續演進產品LangGraph就是這一趨勢的典型代表。LangGraph使用狀態機理論，將Agent的狀態顯式地定義為節點間的轉移，使得複雜的對話管理和任務編排變得清晰可控。多智能體協作：借鑑人類社會的分工協作模式，將一個複雜的任務分解給多個具有不同角色和專長的Agent來共同完成。例如，一個"軟體開發項目"可以由"產品經理Agent"、"程式設計師Agent"和"測試工程師Agent"組成的團隊來協作。這種模式不僅提升瞭解決複雜問題的能力，也使得Agent系統的行為更加可解釋和可控。微軟的AutoGen和CrewAI是這一方向的引領者。AutoGen將Agent互動抽象為"群聊"概念，而CrewAI則提供了更結構化的角色、任務、流程定義。主流Agent框架全景解析（2025年）2025年，開發者面臨著豐富的Agent框架選擇，它們在設計哲學、核心能力和適用場景上各有側重。1. LangChain & LangGraph：從"瑞士軍刀"到"手術刀"LangChain：作為最早普及的Agent框架，LangChain以其全面的功能和豐富的元件被稱為"AI開發的瑞士軍刀"。它提供了與數百種大模型、工具和資料來源的整合，並封裝了從Prompt範本、記憶管理到鏈式呼叫的各種標準元件。對於初學者和快速原型驗證而言，LangChain依然是快速上手的首選。但其高度的封裝和複雜的繼承體系也使其在定製化和生產部署時顯得較為笨重。LangGraph：為瞭解決LangChain在複雜流程控制上的不足，其團隊推出了LangGraph。LangGraph完全擁抱了"圖"的思想，讓開發者可以用顯式的狀態機來定義Agent的行為。這使得建構需要長期運行、具備自我修正能力、並且行為可追溯的複雜Agent成為可能。例如，一個需要與使用者進行多輪互動、並根據反饋不斷修改方案的旅行規劃Agent，就非常適合用LangGraph來建構。LangGraph標誌著LangChain生態從一個通用的工具集，向一個更專注於生產級、可控Agent工作流的"手術刀"式解決方案的演進。2. AutoGen & CrewAI：多智能體協作的雙雄AutoGen：由微軟研究院推出的AutoGen，其核心是"可對話的"多智能體系統。它將Agent之間的互動建模為一場群聊。開發者可以定義多個具有不同系統提示（System Prompt）和工具集的Agent，並將它們放入一個"聊天室"中。當一個任務被提出後，一個"管理員Agent"會根據任務進展，自動選擇下一個應該"發言"的Agent。這種模式非常適合模擬人類團隊的工作流程，特別是在軟體開發等需要多個角色（如產品經理、程式設計師、程式碼審查員）來回溝通的場景中表現出色。CrewAI：CrewAI在多智能體協作的理念上與AutoGen類似，但提供了更高級、更結構化的協作模式。它明確引入了"角色"（Role）、"任務"（Task）和"流程"（Process）的概念。開發者可以為每個Agent清晰地定義其角色、目標和可使用的工具。CrewAI還內建了精細的流程控制機制（如順序流程、層級流程），可以編排Agent的協作順序。相比AutoGen的"自由聊天"，CrewAI更像是為Agent團隊設定了一套嚴謹的Scrum敏捷開發流程，使其協作更高效、結果更可控。3. LlamaIndex：專注RAG，資料為王與上述框架不同，LlamaIndex從創立之初就專注於一個核心問題：如何將大模型與私有資料或外部資料進行高效、可靠的連接，即檢索增強生成（RAG）。它提供了一整套圍繞RAG的、從資料攝取、索引建構、到高級檢索策略的全生命周期工具。當其他框架還在將RAG作為Agent的一個"工具"時，LlamaIndex已經將RAG本身做成了一門"科學"。其核心優勢在於：高級資料索引：支援從簡單的向量索引，到更複雜的樹狀索引、關鍵詞索引、知識圖譜索引等多種結構化索引，以適應不同的資料類型和查詢需求。高級檢索策略：提供了從簡單的Top-k檢索，到更複雜的融合檢索（Hybrid Search）、查詢轉換（Query Transformations）、後處理（Post-processing）等一系列高級策略，以提升檢索結果的精準性和相關性。查詢引擎與Agent整合：LlamaIndex的查詢引擎可以輕鬆地作為一個強大的工具，被整合到LangChain或CrewAI等其他Agent框架中，專門負責"資料檢索和問答"這一環節。對於任何需要建構企業知識庫、文件問答、客戶支援等資料密集型AI應用而言，LlamaIndex都是不可或缺的核心元件。4. Dify & PromptAppGPT：低程式碼/無程式碼的民主化浪潮為了讓非程式設計師也能參與到AI應用的創造中，一系列低程式碼/無程式碼平台應運而生，其中Dify和PromptAppGPT是傑出代表。Dify：它提供了一個可視化的拖曳式介面，使用者可以通過連接不同的節點（如"開始"、"大模型"、"知識庫"、"程式碼執行"）來設計一個AI應用的工作流。Dify內建了完整的後端服務和營運管理功能，支援一鍵發佈成可獨立使用的Web應用。它極大地降低了建構標準AI應用（如客服機器人、內容生成工具）的技術門檻，特別適合企業內部的業務人員快速搭建滿足其特定需求的AI工具。PromptAppGPT：這是一個更加輕量級的、以Prompt為中心的快速開發框架。其核心思想是"用自然語言來程式設計"，開發者只需在一個YAML檔案中，用結構化的提示語來描述Agent的目標、工具和工作流程，框架就能自動將其編譯成一個可運行的Web應用。這種模式極大地提升了從想法到原型的開發速度。中國本土框架的崛起：以Qwen-Agent為例除了上述國際主流框架，中國的AI廠商也在積極佈局Agent框架生態。阿里巴巴推出的Qwen-Agent就是一個典型。它與通義千問大模型深度整合，充分利用了Qwen系列在中文處理和多模態能力上的優勢。同時，Qwen-Agent針對國內開發者常用的工具和服務（如釘釘、高德地圖、阿里雲服務）進行了預整合，為建構符合中國市場需求的Agent應用提供了便利。字節跳動推出的扣子（Coze）商業化閉源平台則更為廣泛地被使用，隨後在2025年7月份進行了基礎平台功能的開源。該平台與旗下豆包大模型深度打通，充分發揮了其在對話互動與場景化適配方面的技術積累。同時，Coze針對國內使用者高頻使用的平台和服務（如抖音、飛書、今日頭條等）進行了原生適配，並提供豐富的外掛生態，大大降低了建構符合中國市場使用習慣的AI智能體應用的門檻。表2-2 主流AI Agent開發框架對比（2025年）總而言之，2025年的AI Agent開發框架生態已經高度繁榮和分化。開發者在進行技術選型時，應從任務的複雜度、對流程控制的要求、是否涉及多智能體協作、以及對外部資料的依賴程度等多個維度進行綜合考量。對於大多數開發者而言，通常需要組合使用這些框架——例如，使用CrewAI來定義多智能體協作流程，其中每個Agent內部使用LangGraph來管理其自身的狀態，並呼叫LlamaIndex作為其強大的資料檢索工具。掌握這些框架的組合與應用，是現代AI應用開發者的核心競爭力所在。2.2 模型訓練與微調技術：釋放AI潛能的藝術如果說基礎框架是AI開發的骨架，那麼模型訓練與微調技術就是賦予其血肉與靈魂的工藝。正是這些技術，將海量的無結構資料轉化為蘊含知識和智能的龐大參數網路，並使其能夠適應千變萬化的下游任務。2025年，隨著模型規模邁入兆參數時代，傳統的訓練方法已難以為繼。為了應對"算力牆"、"記憶體牆"和"成本牆"帶來的巨大挑戰，一系列創新的訓練與微調技術應運而生並迅速普及。分佈式訓練技術的發展使得訓練兆模型成為可能；參數高效微調（PEFT）技術則極大地降低了模型定製化的門檻；而混合精度與低位元訓練技術，則在性能與成本之間取得了精妙的平衡。掌握這些技術，是AI開發者駕馭大模型、釋放其全部潛能的關鍵所在。2.2.1 分佈式訓練：駕馭兆參數模型的"合力之術"訓練一個兆參數等級的大模型，其計算量和記憶體需求是任何單一計算裝置（即使是最強大的GPU）都無法承受的。因此，分佈式訓練——即利用成百上千個GPU組成的計算叢集來協同完成訓練任務——成為了前沿大模型開發的唯一可行路徑。這門被譽為"合力之術"的技術，其核心在於如何將龐大的模型和海量的資料巧妙地切分開，分配到叢集的各個計算節點上，同時最大限度地減少節點間通訊所帶來的開銷。2025年，以資料平行、張量平行、流水線平行和專家平行（作為模型平行的一種高級形式）為核心的"3D+1D"混合併行策略，已成為業界訓練超大規模模型的標準範式。資料平行（Data Parallelism）：最簡單直接的擴展方式資料平行是最基礎、最易於理解的平行策略。其核心思想是"模型複製，資料切分"：工作原理：將完整的模型複製到叢集中的每一個GPU上。然後，將一個大訓練批次（Batch）切分成多個小的子批次（Micro-batch），每個GPU獨立地使用自己的子批次資料進行前向和後向計算，得到各自的梯度（Gradients）。最後，通過一個All-Reduce通訊操作，將所有GPU上的梯度進行聚合（通常是求平均），並用聚合後的梯度來更新每個GPU上的模型副本，從而保證所有副本的參數保持同步。優勢：實現簡單，幾乎所有主流訓練框架（如PyTorch的DistributedDataParallel，DDP）都提供了開箱即用的支援。在GPU視訊記憶體足以容納整個模型的前提下，它能夠非常有效地擴展計算能力，加速訓練過程。劣勢：記憶體冗餘。每個GPU都需要儲存一份完整的模型參數、梯度和最佳化器狀態，這使得其記憶體開銷巨大。當模型大到單個GPU無法容納時，單純的資料平行便無能為力。程式碼示例（PyTorch DDP）：import torchimport torch.distributed as distfrom torch.nn.parallel import DistributedDataParallel as DDP# 初始化分佈式環境dist.init_process_group(backend='nccl')local_rank = int(os.environ["LOCAL_RANK"])torch.cuda.set_device(local_rank)# 模型載入到當前GPUmodel = MyLLM().to(local_rank)model = DDP(model, device_ids=[local_rank])# 訓練循環（每個處理程序處理不同的資料分片）for batch in dataloader: output = model(batch) loss = output.loss() loss.backward() # 反向傳播計算梯度# DDP自動同步所有處理程序的梯度 optimizer.step() # 所有處理程序參數保持同步張量平行（Tensor Parallelism）：在矩陣乘法層面"劈開"模型當模型巨大到單個GPU的視訊記憶體無法容納時，就需要將模型本身進行切分。張量平行就是其中一種"模型平行"（Model Parallelism）的策略。它作用於模型內部的單個算子（Operator），特別是Transformer模型中計算量最大的矩陣乘法（MatMul）。工作原理：以一個Y = XA的矩陣乘法為例，可以將權重矩陣A按列切分成[A1, A2]，分別放到兩個GPU上。輸入X被覆制到兩個GPU上，各自計算Y1 = XA1和Y2 = XA2。最後，通過一個All-Gather通訊操作將Y1和Y2拼接成最終的結果Y = [Y1, Y2]。對於Transformer中的多頭注意力機制（Multi-Head Attention），也可以將不同的"頭"分配到不同的GPU上平行計算。NVIDIA開發的Megatron-LM框架是張量平行的經典實現。優勢：能夠有效減少單個GPU上的記憶體佔用，使得訓練更大的模型成為可能。它將通訊開銷巧妙地隱藏在計算過程中，因為矩陣乘法計算本身耗時較長，通訊可以與計算重疊。劣勢：通訊開銷巨大。由於在模型的前向和後向傳播過程中都需要進行All-Reduce或All-Gather操作，張量平行對GPU之間的互聯頻寬要求極高，通常只適用於節點內（Intra-node）具有高速互聯（如NVLink）的多個GPU之間，不適合跨網路節點使用。流水線平行（Pipeline Parallelism）：像工廠流水線一樣組織模型層流水線平行是另一種重要的模型平行策略，它將模型的不同層（Layers）分配到不同的GPU上，形成一條計算流水線。工作原理：將一個大模型（如一個60層的Transformer）按順序切分成多個階段（Stages），例如，將1-15層放在GPU 0上（Stage 1），16-30層放在GPU 1上（Stage 2），以此類推。一個訓練批次的資料被進一步切分成多個微批次（Micro-batches）。第一個微批次在Stage 1完成計算後，其輸出被傳送到Stage 2，同時Stage 1開始處理第二個微批次。通過這種方式，所有Stage可以像工廠流水線一樣平行工作。優勢：極大地降低了單個GPU的記憶體佔用，因為每個GPU只需儲存模型的一部分層。其通訊開銷相對較低，只發生在相鄰的Stage之間，因此非常適合跨網路節點（Inter-node）擴展。劣勢：存在"流水線氣泡"（Pipeline Bubble）問題。在流水線的啟動和排空階段，部分GPU會處於空閒等待狀態，造成計算資源的浪費。為了減小氣泡，需要使用大量的微批次，但這又可能影響模型的收斂性。GPipe、PipeDream和PyTorch的PipelineParallel模組是其典型實現。專家平行（Expert Parallelism）：為MoE架構量身定製隨著混合專家（MoE）架構在2025年的普及，一種專門為其設計的、更高級的模型平行策略——專家平行——應運而生。工作原理：在MoE模型中，巨大的參數量主要來自於大量的"專家"網路。專家平行的核心思想，就是將這些專家分佈到叢集中的不同GPU上。當一個Token需要由某個專家處理時，它會被通過網路路由到儲存該專家的GPU上進行計算，計算完成後再將結果返回。這本質上是一種更動態、更稀疏的模型平行。優勢：能夠以極高的效率擴展模型的總參數量，是訓練兆級MoE模型的關鍵技術。劣勢：對網路的All-to-All通訊能力提出了極致的要求，因為每個Token都可能需要與叢集中的任何一個專家進行通訊。同時，動態的路由和負載平衡問題也為訓練帶來了新的複雜性。混合併行：集大成者的"3D+1D"策略在實踐中，單一的平行策略往往無法滿足訓練超大規模模型的需求。因此，2025年的業界標準做法是採用"混合併行"策略，將上述多種平行方式組合起來，取長補短。一個典型的尖端訓練系統（如微軟的DeepSpeed或NVIDIA的Megatron-LM）通常採用如下的"3D+1D"混合策略：節點內（Intra-node）採用張量平行：在一個伺服器節點內部的8個GPU之間，利用高速的NVLink互聯，進行張量平行，共同承載一個巨大的模型層。節點間（Inter-node）採用流水線平行：在多個伺服器節點之間，利用相對較慢的網路（如InfiniBand），進行流水線平行，將模型的不同階段分佈在不同節點上。全域採用資料平行：在上述平行設定的基礎上，將整個混合併行單元（例如，一個由32個GPU組成的、能夠承載一個完整模型的單元）複製多份，進行資料平行，以進一步擴展計算規模。在MoE模型中，額外疊加專家平行：將MoE層中的專家分佈到全域所有的資料平行副本上。此外，以ZeRO（Zero Redundancy Optimizer）為代表的記憶體最佳化技術，作為資料平行的"威力加強版"，也得到了廣泛應用。ZeRO不僅切分資料，還巧妙地將模型參數、梯度和最佳化器狀態這三部分巨大的記憶體開銷，也切分開分佈到資料平行的所有GPU上，從而使得每個GPU的記憶體負擔都大幅降低。ZeRO-3階段甚至可以做到讓每個GPU上不儲存完整的模型參數，實現了資料平行與模型平行某種程度上的統一。表2-3 主流分佈式訓練平行策略對比（2025年）對於開發者而言，雖然直接從零實現這些複雜的平行策略難度極高，但幸運的是，以微軟的DeepSpeed和NVIDIA的Megatron-LM為代表的開源框架，已經將這些複雜的平行技術封裝成了易於使用的介面。開發者只需在配置檔案中進行簡單的設定，就可以為自己的模型啟用這些強大的混合併行能力。在國產算力生態方面，寒武紀的分佈式通訊庫（CNCL）針對大規模場景進行了專項最佳化，新增HDR/DBT等Allreduce通訊演算法，優先提升大規模條件下的通訊頻寬，對Alltoall操作進行深度最佳化，使其大規模擴展性達到與國際主流競品相當的水平。特別是通過在Kernel支援RoCE網路卡的RDMA操作（類IB GDA），顯著最佳化了大規模專家平行場景下的ALL2ALL通訊延遲，提升了MoE類模型推理任務的端到端吞吐。這些最佳化使得國產算力在支撐萬卡級大模型訓練時具備了與國際先進水平相當的通訊性能。掌握如何使用這些框架，並根據自己的硬體環境和模型特點來選擇和組合最合適的平行策略，是每一位致力於大模型訓練的AI工程師的必備技能。2.2.2 參數高效微調（PEFT）：讓大模型"飛入尋常百姓家"的革命如果說分佈式訓練是少數巨頭才能參與的"登月計畫"，那麼參數高效微調（Parameter-Efficient Fine-Tuning, PEFT）技術，就是一場將大模型能力"民主化"、使其"飛入尋常百姓家"的深刻革命。在PEFT出現之前，讓一個巨大的預訓練模型去適應一個特定的下游任務，通常採用"全量微調"（Full Fine-tuning）的方式，即調整模型中所有的參數。這種方式不僅成本高昂（需要大量的GPU資源和時間），儲存開銷巨大（每個任務都需要儲存一個完整的模型副本），還常常面臨"災難性遺忘"（Catastrophic Forgetting）的風險——模型在學習新任務的同時，可能會忘記在預訓練階段學到的通用知識。PEFT的出現徹底改變了這一局面。其核心思想是：在微調過程中，凍結絕大部分預訓練模型的參數（這些參數蘊含了寶貴的通用世界知識），只引入或修改一小部分（通常<1%）的額外參數來適應新任務。這種"四兩撥千斤"的策略，帶來了革命性的優勢：極低的計算成本：由於可訓練的參數量急劇減少，微調所需的計算資源和時間大幅降低，使得在單張消費級GPU上微調百億級大模型成為可能。極低的儲存成本：對於每個下游任務，只需儲存和分發那一小部分被修改的參數（通常只有幾十兆字節），而非整個數十GB的模型副本。避免災難性遺忘：由於99%以上的原始模型參數被凍結，模型能夠很好地保持其強大的泛化能力。性能媲美全量微調：大量研究和實踐證明，在許多工上，精心設計的PEFT方法可以取得與全量微調相當甚至更好的性能。2025年，PEFT已經成為大模型定製化的主流範式。在眾多PEFT方法中，以LoRA（Low-Rank Adaptation）及其變體QLoRA最為耀眼，它們憑藉其出色的效果和普適性，成為了事實上的行業標準。LoRA：在模型權重中注入低秩之魂由微軟研究員提出的LoRA，其背後有一個深刻的洞察：大型語言模型雖然參數維度極高，但它們在適應下游任務時，其權重的變化矩陣（即"微調後的權重"減去"原始權重"）本質上是"低秩"（Low-Rank）的。這意味著這個巨大的變化矩陣，可以用兩個小得多的矩陣相乘來近似表示。基於此，LoRA的實現方式堪稱優雅而高效：凍結原始權重：在微調時，原始的預訓練權重矩陣W（例如，Transformer中Attention層的查詢Q或鍵K的權重矩陣）保持不變。注入低秩介面卡：在W旁邊，並聯一個"低秩介面卡"（Low-Rank Adapter）。這個介面卡由兩個小矩陣A和B組成。A是一個隨機初始化的高瘦矩陣，B是一個零初始化的矮胖矩陣。它們的秩（Rank，r）遠小於原始權重的維度。只訓練介面卡：在微調過程中，只訓練矩陣A和B的參數，W始終被凍結。模型的總前向傳播變為 h = Wx + BAx。無縫合併部署：在推理部署時，可以將訓練好的BA矩陣與原始的W矩陣直接相加，得到一個新的權重矩陣 W' = W + BA。這意味著LoRA在推理時不會引入任何額外的計算延遲，這是其相比其他PEFT方法（如Adapter-Tuning）的巨大優勢。LoRA的秩r是一個關鍵的超參數，它控制了介面卡的容量。r越大，可訓練的參數越多，模型的擬合能力越強，但計算和儲存開銷也相應增加。在實踐中，r通常被設定為8、16或64這樣的小值，就已經能在大多數任務上取得優異的效果。QLoRA：將"平民化"推向極致LoRA極大地降低了微調的計算成本，但它仍然需要將完整的模型載入到視訊記憶體中進行前向和後向傳播，對於百億級模型，這依然需要數十GB的視訊記憶體，超出了大多數消費級GPU的承受範圍。為瞭解決這個"最後的堡壘"，華盛頓大學的研究者們在LoRA的基礎上，結合了激進的量化技術，提出了QLoRA（Quantized LoRA），將大模型微調的平民化推向了極致。QLoRA的核心創新在於"用4-bit的精度來儲存和計算凍結的預訓練模型，同時用16-bit的精度來訓練LoRA介面卡"，其關鍵技術包括：4-bit NormalFloat（NF4）量化：這是一種理論上資訊最優的新的4-bit資料類型。研究者發現，對於呈常態分配的預訓練模型權重，NF4相比傳統的4-bit整數或浮點數量化方法，能夠更好地保留資訊，減少量化誤差。雙重量化（Double Quantization）：為了進一步節省記憶體，QLoRA對量化過程本身產生的"量化常數"（Quantization Constants）進行第二次量化，平均每個參數可以再節省約0.5位元的儲存空間。Paged Optimizers：利用NVIDIA統一記憶體（Unified Memory）的特性，將那些在GPU視訊記憶體不足時可能導致程式當掉的最佳化器狀態（Optimizer States）自動地從GPU視訊記憶體分頁到CPU記憶體中，從而避免了OOM（Out of Memory）錯誤。通過這套組合拳，QLoRA成功地將微調一個650億參數模型（如LLaMA-65B）所需的視訊記憶體從驚人的780GB降低到了僅48GB，使得在單張專業級GPU（如A100 80GB）上微調超大模型成為現實。更令人振奮的是，後續的開源社區實踐進一步表明，通過QLoRA，在24GB視訊記憶體的消費級顯示卡（如RTX 3090/4090）上微調70億甚至130億參數的模型也完全可行。其他PEFT方法概覽除了LoRA家族，PEFT領域還存在其他幾種重要的技術路線：Adapter-Tuning：這是最早的PEFT思想之一。它在Transformer的每個Block中串聯地插入一個非常小的、被稱為"介面卡"（Adapter）的瓶頸狀神經網路模組。微調時只訓練這些介面卡的參數。其缺點是在推理時會引入額外的計算延遲。Prefix-Tuning & Prompt-Tuning：這類方法不改變模型本身的任何權重，而是在輸入層或每一層的注意力機制前，加入一小段可訓練的、連續的向量序列（即"軟提示"或"前綴"）。通過只最佳化這些前綴向量，來引導模型的行為以適應下游任務。這種方法對模型的侵入性最小，但表達能力相對有限。表2-4 主流參數高效微調（PEFT）技術對比（2025年）綜上所述，以LoRA和QLoRA為代表的PEFT技術，已經成為2025年AI開發者進行模型定製化的必備技能。它們不僅極大地降低了技術和資源門檻，也催生了一個繁榮的開源模型微調社區。對於這樣的平台而言，提供對LoRA/QLoRA的一站式支援，包括便捷的訓練指令碼、預最佳化的環境和豐富的微調模型案例，將是服務廣大AI開發者的核心價值所在。通過這些技術，無數中小企業和個人開發者得以站在巨人的肩膀上，用大模型解決自己領域內的具體問題，從而真正開啟了AI應用的"寒武紀大爆發"。2.3 推理最佳化與部署技術：從"能用"到"好用"的最後一公里如果說模型訓練是十年磨一劍的"鑄劍"過程，那麼推理最佳化與部署就是將這把"神劍"送上戰場、使其能夠大規模、低成本、高效率地"殺敵"的"出鞘"之術。一個未經最佳化的百億參數大模型，其推理過程不僅速度緩慢（生成一個詞可能需要數秒），而且對硬體資源（特別是視訊記憶體）的消耗也極為驚人，這使得其在真實世界的應用中成本高昂、體驗不佳。因此，推理最佳化與部署技術，成為了決定大模型能否從實驗室走向千家萬戶、從"能用"變為"好用"的最後一公里，也是AI應用商業化成敗的關鍵所在。2025年，大模型推理面臨的核心挑戰，已從單純的計算密集（Compute-bound）轉變為更棘手的記憶體頻寬密集（Memory-bound）。在自回歸（Auto-regressive）的生成過程中，每生成一個token，都需要將整個龐大的模型權重從視訊記憶體中完整地讀取一遍。相比於GPU強大的計算能力，視訊記憶體的讀寫速度成為了嚴重的瓶頸。此外，如何高效地管理和利用視訊記憶體，特別是儲存每個請求上下文的鍵值快取（KV Cache），以及如何在高並行場景下最大化GPU的吞吐量，都是推理最佳化需要解決的核心難題。為了應對這些挑戰，一個由演算法、軟體和硬體協同構成的、高度複雜的推理最佳化技術堆疊應運而生。本節將深入解析構成這一技術堆疊的兩大核心部分：關鍵最佳化技術：我們將剖析包括FlashAttention、PagedAttention、模型量化（Quantization）、KV快取最佳化（MQA/GQA）和投機解碼（Speculative Decoding）在內的核心演算法與技術，揭示它們如何從根本上緩解記憶體頻寬瓶頸和提升計算效率。主流推理框架：我們將對以vLLM和TensorRT-LLM為代表的業界頂級推理引擎進行全景式掃描，分析它們如何將上述最佳化技術工程化、產品化，為開發者提供開箱即用的高性能推理服務。2.3.1 關鍵最佳化技術：演算法與工程的協奏曲高性能推理的實現，是一場演算法與底層硬體精妙配合的協奏曲。2025年，一系列關鍵技術的突破與普及，從根本上改變了大模型推理的效率和成本結構。FlashAttention：重塑注意力計算，告別記憶體牆標準的自注意力機制（Self-Attention）是Transformer模型的核心，但也是其主要性能瓶頸之一。在計算過程中，它需要生成一個巨大的N×N（N為序列長度）的注意力得分矩陣（Attention Matrix），並將其寫入和讀出高頻寬記憶體（HBM）。隨著序列長度N的增加，這個矩陣的大小呈平方級增長，很快就會耗盡視訊記憶體頻寬，成為瓶頸。由史丹佛大學研究者提出的FlashAttention，通過一種"IO感知"的演算法設計，巧妙地解決了這個問題。其核心思想是避免將完整的注意力矩陣物化（materialize）到HBM中：工作原理：FlashAttention將輸入序列切分成多個小塊（Tiles），並載入到GPU核心上速度極快的SRAM中。它在SRAM內部完成一小塊注意力矩陣的計算、Softmax操作和與Value矩陣的乘積，然後只將最終的輸出寫回HBM。通過精巧的線上Softmax技巧，它可以在不看到完整注意力矩陣的情況下，正確地計算出最終結果。這個過程就像"流式處理"一樣，極大地減少了對HBM的讀寫次數。效果：FlashAttention將注意力計算的複雜度從O(N²)的記憶體訪問，降低到了O(N)。FlashAttention-2版本進一步最佳化了平行計算效率，相比標準注意力實現，可以帶來2-4倍的端到端推理加速和顯著的記憶體節省。到2025年，FlashAttention已成為所有主流推理框架的標配。特別是對於長上下文模型（如支援200萬token的Kimi），FlashAttention幾乎是不可或缺的。PagedAttention：像作業系統一樣管理KV快取在多使用者、高並行的推理服務中，對KV快取（KV Cache）的管理是另一個巨大的挑戰。每個使用者的請求序列長度不同，導致其KV快取大小也各不相同且動態變化。傳統的實現方式是為每個請求預分配一塊連續的視訊記憶體空間來儲存其KV快取，這會導致嚴重的記憶體碎片化問題：內部碎片：為請求預留了過多的空間，造成浪費。外部碎片：雖然總的空閒視訊記憶體很多，但沒有一塊足夠大的連續空間來滿足新請求，導致請求失敗。由vLLM團隊首創的PagedAttention，借鑑了現代作業系統中"虛擬記憶體"和"分頁"的思想，完美地解決了這一難題。工作原理：PagedAttention將每個請求的KV快取空間分割成固定大小的"塊"（Blocks），這些塊在物理視訊記憶體中可以非連續儲存。系統維護一個"塊表"（Block Table），為每個請求記錄其邏輯塊到物理塊的對應關係。當需要為序列擴展KV快取時，只需分配新的物理塊並更新塊表即可，無需進行昂貴的記憶體複製和重排。更妙的是，對於多個請求之間共享的前綴（例如，多輪對話中的歷史記錄），PagedAttention可以實現塊等級的記憶體共享，進一步節省視訊記憶體。例如，在批次處理100個關於同一文件的問答請求時，它們共享的文件前綴KV快取只需儲存一份，而不是100份。效果：PagedAttention將視訊記憶體利用率提升了2-4倍，使得在相同的硬體上，系統的吞吐量（每秒處理的token數）可以提升2-4倍。這一技術是vLLM等現代推理框架取得極致吞吐量的核心秘訣。KV快取最佳化：從架構層面"瘦身"除了管理方式的最佳化，直接從模型架構層面減小KV快取的大小，是另一種有效的最佳化路徑。標準的多頭注意力（Multi-Head Attention, MHA）為每個注意力頭都配備了一套獨立的Key和Value投影，這導致KV快取的尺寸與頭的數量成正比。多查詢注意力（Multi-Query Attention, MQA）：MQA提出，讓所有的注意力頭共享同一套Key和Value投影。這樣做雖然在理論上會損失一定的模型表達能力，但在實踐中發現，對於大型模型而言，這種性能損失微乎其微，卻可以極大地減小KV快取的大小和生成每個Token時所需的記憶體頻寬。分組查詢注意力（Grouped-Query Attention, GQA）：GQA是MHA和MQA之間的一個折中方案。它將注意力頭分成若干組，組內的頭共享同一套Key和Value投影。例如，一個有32個頭的模型，可以設定8個KV組，每4個查詢頭共享一套KV。GQA在模型性能和推理效率之間取得了更好的平衡，已成為2025年許多新發佈模型（如Llama 2/3）的標配架構。表2-5 核心推理最佳化技術概覽（2025年）模型量化：用更少的位元表示更多的知識模型量化是一種通過降低模型權重和/或啟動值的數值精度，來壓縮模型大小、減少記憶體佔用和加速計算的技術。2025年，針對大模型的量化技術已經非常成熟，主流的"權重量化"（Weight-Only Quantization）方法可以在幾乎不損失模型性能的前提下，將模型大小壓縮2-4倍。GPTQ（Generalized Post-Training Quantization）：GPTQ是一種訓練後量化方法，它通過逐層分析和量化權重，並對量化誤差進行補償，可以在4-bit精度下保持很好的模型性能。其核心思想是貪婪地選擇權重進行量化，並動態調整剩餘權重以補償量化誤差。AWQ（Activation-Aware Weight Quantization）：AWQ觀察到，並非所有權重對模型性能都同等重要。它通過分析啟動值的分佈，識別出那些對模型性能影響最大的"顯著權重"（Salient Weights），並為它們保留更高的精度（如FP16），而將其他權重進行更大力度的壓縮（如INT4）。這種方法在極低位元（如3-bit甚至更低）的量化上表現出色，且不需要反向傳播，量化速度極快。SmoothQuant：這是一種啟動-權重協同量化方法。它通過一個數學上等價的變換，將量化難度從啟動值（通常異常值較多）平滑地遷移一部分到權重上，使得兩者都更容易被量化，從而在INT8量化等場景下獲得更好的性能。投機解碼（Speculative Decoding）：讓"小模型"為"大模型"開路投機解碼是一種巧妙的加速技術，它利用一個小的、速度極快的"草稿模型"（Draft Model）來輔助大的"目標模型"（Target Model）進行生成。工作原理：在生成每個token時，首先用草稿模型快速地生成一小段候選序列（例如5個Tokens）。然後，將這5個候選Tokens一次性地輸入到大的目標模型中，進行平行的驗證。如果目標模型驗證通過（即它自己本來也會生成這些Tokens），那麼就一次性地接受這5個Tokens作為最終輸出，相當於用一次大模型的計算換來了5個Tokens的生成，極大提升了速度。如果驗證失敗，則以目標模型的輸出為準，並用它來指導草稿模型的下一次生成。 (AI雲原生智能算力架構)