#LLM
Andrej Karpathy:完整LLM wiki 建構提示詞! 基於Obsidian+AI Agent的個人知識庫完整建構指南
這是一篇很有意思的文章。Andrej Karpathy兩天前剛提出了備受關注的以Obsidian+AI建構個人知識庫的模式,這個路徑是非常明確的,Obsidian筆記軟體在本地管理了以md為格式的知識文件,提供了知識庫建構所需要的各種目錄索引組織功能, Andrej提出的設計模式讓AI Agent來接管Obsidian,讓人們從整理原始素材的繁瑣工作中解脫出來,讓大家真正擁有一個自主整理資料乃至分析提煉的AI助手。所以Anredj其實是提出了一種區別於傳統對話機器人的全新個人知識庫建構範式。而今天,Andrej更是直接給出了詳細方法,這文章實就是直接給AI Agent看的完整建構指南。為了讀者看完就能直接上手操作,本文在關鍵步驟加入了 💡【手把手實操註釋】。讀者可以把它當作一份“實戰搭建指南”。建構個人 LLM Wiki(大語言模型維基)的設計模式作者:Andrej Karpathy這是一個“概念檔案(Idea File)”,它的設計初衷是讓你直接複製貼上給你的 LLM Agent(例如 OpenAI Codex、Claude Code、OpenCode / Cursor / Pi 等)。本文的目的是傳達高層次的理念,而你的 AI 助手將會和你一起協作,建構出具體的實現細節。💡 【實操註釋:第一步該怎麼做?】Karpathy 的意思是,你不需要自己從零寫程式碼。你可以直接把這篇中文版,喂給具備“讀取本地檔案”能力的 AI 工具。告訴 AI:“閱讀這篇文章,理解 LLM Wiki 的理念,以後你就是我的 Wiki 維護員了。”核心理念 (The core idea)大多數人使用 LLM 處理文件的體驗類似於 RAG(檢索增強生成):你上傳一堆檔案,當你提問時,LLM 檢索出相關的文字塊,然後生成答案。這種方法能用,但問題是:LLM 每次回答新問題時,都在“從零開始”重新發現知識。沒有任何知識沉澱。 如果你問一個需要綜合五份文件的複雜問題,LLM 每次都得重新去尋找並拼湊相關碎片。NotebookLM、ChatGPT 的檔案上傳功能,以及大多數 RAG 系統都是這樣工作的。這裡的理唸完全不同。LLM 不再是在你提問時才去原始文件裡檢索,而是持續建構並維護一個持久的 Wiki(維基庫)——這是一個由相互連結的 Markdown 檔案組成的結構化集合,它介於你和原始資料之間。當你加入一份新資料時,LLM 不是簡單地建立索引留待後用。它會主動閱讀它,提取關鍵資訊,並將其整合到現有的 Wiki 中——更新實體頁面,修改主題摘要,標註新資料與舊觀點的衝突之處,強化或挑戰正在演變的綜合結論。知識被“編譯(compiled)”一次後就會保持更新,而不是每次提問都重新推導。這是最關鍵的區別:Wiki 是一個持久的、具備複利效應的產物。 交叉引用已經存在了,矛盾之處已經被標記了,總結結論已經反映了你讀過的所有內容。你加入的資料越多、問的問題越多,這個 Wiki 就越豐富。你永遠(或極少)需要自己動手寫 Wiki——LLM 會負責編寫和維護這一切。你的職責是尋找資料、探索發現、以及提出好問題。 LLM 則負責所有的“苦力活”——總結、交叉引用、歸檔、記帳,正是這些枯燥的工作讓一個知識庫隨著時間推移變得真正有用。在實際操作中,我會在螢幕一邊打開 LLM Agent,另一邊打開 Obsidian(一款本地筆記軟體)。LLM 根據我們的對話修改檔案,我則即時瀏覽結果——點選連結跳轉、查看知識圖譜(graph view)、閱讀更新後的頁面。Obsidian 是開發工具(IDE),LLM 是程式設計師,而你的 Wiki 就是程式碼庫。適用場景 (Examples)這套模式適用於多種情境:個人管理:追蹤你的目標、健康、心理、自我提升——將日記、文章、播客筆記歸檔,隨著時間推移建構一個結構化的“自我畫像”。深度研究:花費數周或數月深入研究一個主題——閱讀論文、文章、報告,並逐步建構一個包含演進論點的全面 Wiki。閱讀書籍:邊讀邊將每一章歸檔,為人物、主題、情節線索建立頁面,記錄它們之間的關聯。讀完後,你就會擁有一個內容豐富的伴讀 Wiki。(想想類似《指環王》粉絲建立的維基百科,成千上萬個連結頁面,現在你可以用 LLM 自己建一個)。商業/團隊:一個由 LLM 維護的內部 Wiki,資料來源可以是 Slack 聊天記錄、會議記錄、項目文件、客戶通話。競品分析、盡職調查、旅行規劃、課程筆記、愛好鑽研——任何需要隨著時間推移積累知識,且希望知識井然有序而不是散落一地的場景。系統架構 (Architecture)整個系統分為三個層級:原始資料層 (Raw sources):你收集的原始文件庫。文章、論文、圖片、資料檔案。這些是不可變(immutable)的——LLM 只能讀取它們,絕不能修改它們。這是你的事實真相源(Source of truth)。Wiki 層 (The wiki):由 LLM 生成的 Markdown 檔案目錄。包括摘要、實體頁面、概念頁面、對比表格、概覽和綜合分析。LLM 完全擁有這一層。它負責建立頁面、更新內容、維護交叉引用並保持一致性。你負責讀,LLM 負責寫。約束架構層 (The schema):一個配置檔案(例如 Claude Code 的 CLAUDE.md 或 Codex 的 AGENTS.md),用於告訴 LLM 這個 Wiki 的結構是什麼、命名約定是什麼,以及在提取資料、回答問題或維護 Wiki 時要遵循什麼工作流。你和 LLM 會隨著時間的推移不斷最佳化這個檔案。💡 【實操註釋:普通使用者如何在電腦上建立這個架構?】你只需要在電腦桌面上新建一個資料夾,比如叫 My_AI_Wiki,然後在裡面建三個子資料夾/檔案:📁 Raw_Sources (你把下載的 PDF、網頁文字扔這裡,別讓AI改)📁 Wiki_Pages (讓 AI 在這裡面自由建立和修改 .md 筆記)📄 Agents.md (這是給AI看的規則說明書)操作方式:用你的AI Agent軟體打開這個 My_AI_Wiki 資料夾,你就可以直接在聊天框裡讓 AI 讀取Angets.md, 它就開始幹活了。日常操作 (Operations)攝入資料 (Ingest):你把一份新資料扔進原始資料庫,然後叫 LLM 處理它。例如:LLM 讀取資料,跟你討論核心觀點,然後在 Wiki 中寫一頁摘要,更新目錄索引,更新各個相關的實體和概念頁面,最後在日誌裡寫下一筆。一份資料可能會觸及 10-15 個 Wiki 頁面。我個人傾向於每次只攝入一份資料並保持參與感——我會閱讀摘要、檢查更新、引導 LLM 強調那些內容。你也可以建立自己的工作流並寫在 schema 規則裡。💡 【實操註釋:讓AI Ingest的有效提示詞(Prompt)舉例】"請閱讀 Raw_Sources 資料夾中剛放入的《2024新能源報告.pdf》。讀完後:1. 在 Wiki_Pages 建立該報告的摘要頁面;2. 如果報告提到了電池技術,去更新已有的 固態電池.md 頁面;3. 更新總目錄 index.md。"查詢 (Query):你向 Wiki 提問。LLM 會搜尋相關頁面,閱讀它們,並附上引用來源生成答案。答案可以是 Markdown 頁面、對比表、幻燈片或圖表。最重要的見解是:高品質的答案應該作為新頁面存回 Wiki 中。 你要求做的橫向對比、分析、發現的關聯——這些都是有價值的,不應該消失在聊天記錄裡。讓你的探索像原始資料一樣在知識庫中產生複利。程式碼審查/健康檢查 (Lint):定期讓 LLM 對 Wiki 進行健康檢查。尋找:頁面之間的矛盾、被新資料推翻的舊觀點、沒有外部連結的“孤兒頁面”、提到了但沒有專屬頁面的重要概念、缺失的交叉引用等。這能讓 Wiki 在膨脹時保持健康。索引與日誌 (Indexing and logging)有兩個特殊檔案能幫助 LLM(以及你)在 Wiki 不斷增長時進行導航:index.md (內容目錄):它是 Wiki 中所有內容的目錄。每個頁面都有一個連結、一句話摘要,也許還有日期或來源數量等中繼資料。按類別組織。LLM 在每次攝入新資料時都會更新它。LLM 回答問題時,會先看 index 找到相關頁面。在中等規模下(~100 份資料,數百個頁面),這種方法出奇地好用,無需搭建複雜的向量檢索(RAG)基礎設施。log.md (操作日誌):它是按時間順序記錄的。這是一個“只能追加(append-only)”的記錄,記錄了何時發生了什麼(攝入、查詢、檢查)。小技巧:如果每條記錄都以一致的前綴開頭,日誌就能用簡單的工具進行解析。這能讓 LLM 瞭解最近做了什麼。💡 【實操註釋:為什麼這兩個檔案極其重要?】因為目前 AI 的“上下文窗口”是有限的。如果不建索引,AI 無法瞬間看清幾百個檔案的全貌。index.md 就像是一張全域地圖,每次 AI 接到任務,你讓它先看地圖,再決定去修改那個具體的本地檔案。可選:命令列工具 (Optional: CLI tools)隨著 Wiki 變大,你可能需要幫助 LLM 更高效操作的工具。最明顯的就是搜尋引擎。在小規模時 index.md 就夠了,但做大後你需要真正的搜尋。qmd 是個不錯的選擇(一個本地 markdown 搜尋引擎)。你也可以自己讓 LLM 幫你寫一個簡單的搜尋指令碼。(註:對於普通小白使用者,直接使用 Obsidian 自帶的搜尋,或者 Cursor 的 Codebase 檢索功能即可,無需折騰複雜的命令列工具。)技巧與竅門 (Tips and tricks)Obsidian Web Clipper:一個瀏覽器外掛,能把網頁文章轉換成 Markdown。非常適合快速把資料抓進你的 Raw_Sources。把圖片下載到本地:在 Obsidian 中設定快速鍵將引用的圖片下載到本地。這樣 LLM 可以直接查看本地圖片,而不是依賴隨時會失效的網址連結。Obsidian 知識圖譜 (Graph view):這是查看 Wiki 形狀的最佳方式——什麼連接著什麼,那些是核心樞紐,那些是孤島。Marp 幻燈片:一種基於 Markdown 的 PPT 格式。Dataview 外掛:如果你讓 LLM 在頁面開頭加上 YAML 中繼資料(如標籤、日期),Dataview 外掛能幫你生成動態表格。Git 版本控制:Wiki 只是一個包含 Markdown 檔案的資料夾(git repo)。你可以免費獲得歷史版本和防呆備份。就算 AI 把檔案改亂了,你也可以一鍵回撤。為什麼這種模式有效 (Why this works)維護一個知識庫最繁瑣的部分不是閱讀或思考,而是“記帳(bookkeeping)”。更新交叉引用、保持摘要最新、留意新舊資料的衝突、在幾十個頁面間保持一致性。人類之所以會放棄維護 Wiki,是因為維護的負擔增長得比它帶來的價值快得多。但是,LLM 不會覺得無聊,不會忘記更新連結,並且一次操作就能修改 15 個檔案。因為維護成本接近於零,所以 Wiki 能夠一直保持良好的狀態。人類的工作是精選資料、指導分析、提出好問題,並思考這一切的意義。LLM 的工作是搞定剩下的一切。 (Web3天空之城)
V4 發佈前的 DeepSeek:特質、組織和梁文鋒的獨特目標
有人離開,更多人留下。DeepSeek 正處在一個變化的關口,從 2025 年下半年至今,明確已離開、找到新去處的 DeepSeek 成員有:去年底被騰訊姚順雨挖走的王炳宣,他是 DeepSeek LLM(DeepSeek 第一代大語言模型)的核心作者,此後參與歷代模型訓練。約在春節前後離開的魏浩然,他是 DeepSeek-OCR 系列的核心作者,可能會入職某大廠。近期正式離職的郭達雅,他是 DeepSeek-R1 的核心作者,可能會入職某大廠。以及 2025 年早些時候離職進入退休狀態的阮翀,他在今年 1 月官宣加入自動駕駛創業公司元戎啟行;阮翀是從幻方時期就加入的老成員,是 Janus-Pro 等 DeepSeek 多模態成果的核心貢獻者。DeepSeek 此前並未融資,沒有明確的公司估值。當其它 AI 公司市值或估值高漲,梁文鋒正在想辦法回答團隊成員的疑問:公司到底值多少錢?這關係著員工簽的期權協議到底價值幾何。從 2025 年秋天起,梁文鋒也開始更多提產品化和商業化。DeepSeek 已有小數十人的產品團隊,但尚未涉足 AI 程式設計、通用 Agent 等熱門應用方向,在 C 端仍只有典型的 Chatbot 產品。梁文鋒的新課題還有管理規模。DeepSeek 的人數已超過幻方,是他管過的最大的組織。籠罩以上多重變化的是,DeepSeek V4 仍未正式發佈。其實在 26 年 1 月左右,V4 的一個小參數版本已給到了一些開源框架社區開始做適配。按此前相對樂觀的預期,大參數版的 V4 原本可能在 2 月中旬春節前後發佈和開源。據瞭解,DeepSeek V4 有可能會在 4 月發佈。有人離開,更多人選擇留下。DeepSeek 在調整,但也有諸多不變的特質。它是全球僅有的 “不卷” 的核心 AI Lab。當 Google、OpenAI、xAI、字節跳動等中美公司的核心 AI 開發人員每周工作 70~80 小時時,平日裡 DeepSeek 的多數員工會在下午 6 點~7 點左右離開公司,他們早上也不打卡。梁文鋒認為,一個人一天能高品質輸出的時間很難超過 6~8 小時。DeepSeek 沒有明確的績效考核和 DDL(截止時間)。這個精簡而人才密度極高的組織依然延續 “自然分工”,研究員可自由組隊或獨自鑽研一些新想法。“除了主線之外,DeepSeek 也有人在做一些可能一年都不會有成效的長期研究。”“DeepSeek 是一個真心想做研究的人,在國內,甚至全球能找到的最好的地方。” 有接近 DeepSeek 的人士說。當然,DeepSeek 還有一個特點:神秘。尤其 2025 年之後,除了公開發佈技術報告外,從創始人梁文鋒到團隊成員集體 “沉默”,在 AI 從業者活躍的社交媒體或社區裡很難聽到他們的聲音。這篇報導裡,我們呈現了從各種管道瞭解到的 DeepSeek 的特點、工作重心、組織運轉方式,和這個不到 200 人的組織正在發生的變化。這一切的源頭,都是梁文鋒為 DeepSeek 設立的獨特目標。梁文鋒其人:做少數事,做到極致梁文鋒的 AI 目標遠早於 DeepSeek 成立的 2023 年。2016 年,AGI 的提出者、DeepMind 創始人哈薩比斯曾組建量化交易團隊,試圖給當時想從 Google 獨立的 DeepMind 創收,結果沒賺到錢。同一年,浙大本碩畢業的梁文鋒做量化投資已經 8 年。他在 2015 年創立幻方,2016 年開始用 GPU 跑深度學習實盤交易,在 2017 年底實現 “幾乎所有交易策略 AI 化”,在 2019 年開始建立幻方的第一個算力叢集,有 1100 張 GPU 的 “螢火 1 號”。也是 2019 年,幻方 AI(幻方人工智慧基礎研究有限公司)正式註冊成立。現在在小米負責 AI 的羅福莉和近期加入元戎的阮翀都是在這之後加入幻方,後在 2023 年轉入 DeepSeek。作為一個不到 30 歲就財富自由的人,梁文鋒的生活簡單而神秘。在周圍人的印象中,他會好多天穿同一件衣服。他在杭州曾長期住酒店,在多數 DeepSeek 研發人員所在的北京則租房住。他身材精瘦、有運動習慣,被人所知的愛好是徒步等戶外運動。黃仁勳會邀請輝達員工去家裡做客,喝小酒、聊家常,開心地展示跑車。而梁文鋒不參與季度團建活動,很少和成員聚餐,年底大團建也只在講話時露面,不會參與全程。2022 年,幻方一位員工 “一隻平凡的小豬” 個人向慈善機構捐助 1.38 億元。後來很多人猜這只小豬就是梁文鋒。幻方工作人員的回覆是:“員工捐款均是匿名,公司內部也不知道小豬的真實身份。”在工作範疇裡,梁文鋒只做少數事。他不做多數初創公司 CEO 做的一些事,如融資。2023 年,梁文鋒小範圍見過一些投資人。但據我們瞭解,他提出了一個不常規的要求:類似 OpenAI 與微軟的投資協議,梁文鋒希望投資方接受一個回報上限。這一輪見下來,沒有機構投資 DeepSeek。之後兩年,中國大模型融資洶湧,頻現數億美元大單輪,梁文鋒卻不再見投資人了,甚至不建立新的聯絡。即使不在融資窗口,大部分創始人也不會拒絕認識一下一線機構合夥人,而梁文鋒拒絕了多數此類請求。梁文鋒幾乎把所有時間投入到他認為應該聚焦的少數事上,做得細緻、做到極致。DeepSeek 此前成功的關鍵之一是 “力出一孔”,明確以語言模型為更高優先順序,沒有做多模態生成等熱門方向。在選定的主線上,梁文鋒會 “hands on” 地深入細節。他從不同背景的團隊成員身上學習演算法、架構、Infra、資料的知識,會自己參與模型和產品的細節討論。見過梁文鋒的不少人提到,他沒有 CEO 或所謂天才的 “氣場”,更像一個研究員,他和人談論最多的是具體技術問題。綠洲資本創始合夥人張津劍曾在《那些活出來的人中》分享了一個小故事,他問自己投資的 MiniMax 創始人閆俊傑:“有比你更專注的人嗎?” 閆俊傑說有一次約一位沒見過的朋友吃飯,到早了,看到一位穿 T 恤的小哥,以為是助理。對方開始沒有自我介紹,問了閆俊傑很多技術問題。過了半小時,閆俊傑說:“梁總什麼時候來?” 對方說:“我就是梁文鋒”。DeepSeek 組織:扁平、交叉分工、不加班與梁文鋒的風格相應,DeepSeek 的組織極其扁平、各環節交叉分工、謹慎擴張規模、不加班。創立幻方時,梁文鋒有合夥人,而 DeepSeek 沒有二把手,尤其在研究團隊,只有梁文鋒和其他研究員兩個層級。梁文鋒做重大決定,承擔最多結果。這部分研究團隊現在約有 100 多人,它像一個大型實驗室。主要在 2000 年前後出生的 DeepSeek 研究員們習慣稱 1985 年出生的梁文鋒為 “梁老闆”。這個老闆更接近導師:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。梁文鋒本人參與最多的是基模架構團隊,會與團隊深入討論後確定每一代基模的架構定版。這個團隊有小幾十人,他們是預訓練的主力。與基模架構密切相關的是 Infra 和資料團隊,各有小幾十人。Infra 團隊在一些公司裡更像完成演算法需求的 “內部乙方”, 而 DeepSeek 的 Infra 團隊會在模型訓練前的定版階段就參與討論、給出建議。這幾個模組間的緊密合作使 DeepSeek 的團隊界限沒那麼涇渭分明,形成了 “交叉分工”。這其實是最符合模型訓練特點的協作形式,因為在模型實驗和定版階段,就要考慮資料選擇和 Infra 實現。梁文鋒是串起這些不同模組的探測器和粘合劑,他會出席每一個團隊各自的會議,瞭解全域進度和卡點。DeepSeek 大部分團隊的周會也向其它團隊的人開放,可跨組參會。深入細節的一號位風格和自發形成的緊密協作都很難在大組織裡實現。所以 DeepSeek 會很謹慎地擴大核心研發團隊的規模。在全球 AI 圈都非常特異的一點是,DeepSeek 不加班。他們不打卡、沒有明確的績效考核,平日多數成員會在 6 點~7 點左右離開公司。DeepSeek 給員工免費提供一些下班後福利,如球類課程、運動場地報銷等。梁文鋒認為:一個人每天能高品質工作的時間很難超過 6~8 小時。加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源,得不償失。在人員構成上,DeepSeek 此前幾乎不社招,以應屆生和實習生留任為主。2025 年初,《晚點》曾梳理當時參與過 DeepSeek 三代模型(LLM、V2、V3&R1)的 172 名研究者(包括實習生),並找到了其中 84 人的履歷:超 7 成的人是本科生和碩士生,超 7 成的人小於 30 歲。在 V3 和 R1 之前,DeepSeek 是以大廠約 1/10 的人數,約 1/2 的人均工作時間,以極高的專注和聚焦,躋身全球大模型第一梯隊。但隨著觸達頂尖 AI 能力需要探索的方向越來越多,繼續保持這種組織規模、溝通方式和協作氛圍已越來越難。過去 15 個月,DeepSeek 繼續做自己,而外部世界急劇變化2025 年初 V3 和 R1 爆火後,DeepSeek  並沒有乘勝追擊放大招,而是沿著他們專注的方向繼續研發,已經公開的成果大致有三類:一是效率最佳化:極致壓榨 GPU 算力,提高單位算力能產出的智能。這包括 DeepSeek 在 2025 年初的開源周釋放的一整套訓練與推理 Infra,涵蓋推理 kernel、通訊庫、矩陣乘法庫和資料處理框架。(註:kernel 是在 GPU 上執行最底層計算的程式碼,用來實現矩陣乘法等核心運算。)還有對 “注意力機制” 的持續改進:如 25 年初的 NSA(原生稀疏注意力)和後續的 DSA(動態稀疏注意力)。加上更早時 V2 中的 MLA(多頭潛在注意力),它們的共同目標,是在不大幅增加算力的前提下處理更長的上下文。從 25 年 9 月底更新的 DeepSeek-V3.2 中還可以看到,DeepSeek 甚至把底層的算子庫從主流的 CUDA 和 Triton 語言換成了 TileLang。CUDA 是輝達提供的最底層語言,Triton 由 OpenAI 開源,TileLang 則是北京大學楊智團隊發起的開放原始碼專案。二是模型架構改進,如 26 年初發佈的 mHC(流行約束超連接),旨在提升大規模訓練中的穩定性;和在模型之外建構長期記憶的 Engram。外界普遍認為,mHC 會被用到 V4 的訓練中。三是一些 “非主流” 探索,如把文字轉成圖片,再輸入給模型的 DeepSeek-OCR,這個思路是讓模型按更接近人類 “看文字” 的方式理解段落與層級,提升對複雜文件的理解力。在 DeepSeek 內部,還有更多進行中的此類嘗試,包括持續學習、自主學習等。梁文鋒還在 2025 年招募了一些神經科學和腦科學背景的顧問,想探索更接近人腦的學習機制。而同期,外部 AI 環境在 2025 年至今急劇變化,最受關注的競爭主線有兩條:一是以 coding 能力為基礎的 Agentic 模型和應用。這是 Anthropic 和 OpenAI 目前競爭最激烈的主戰場,形成了 Opus 4.6 vs GPT-5.4 兩個最新模型,和 Claude Code vs Codex 兩個產品的對陣。年初至今爆火的 OpenClaw 小龍蝦也是 Agentic 應用的最新形態。二是多模態生成,這個領域因 “魔法效果” 屢次出圈:2025 年春天的 OpenAI GPT-4o ,秋天的 Google NanoBanana,再到 2026 年春節前的字節 Seedance 2.0。而視訊生成也與一個更前沿的方向有關,即 “世界模型”。DeepSeek 首先沒怎麼投入多模態生成,因為梁文鋒認為多模態生成不是智能的主線。在 Agent 方向上,DeepSeek-V3.2 強化了 Agent 能力,但 DeepSeek 的整體迭代頻次低於 R1 之後一度深感焦慮其它小虎。2025 年初至今,智譜、MiniMax、Kimi 分別已更新了 5 版、4 版和 3 版模型,針對 Agent 或 coding 強化。據 OpenRouter 資料,過去 30 天(2 月 24 日-3 月 26 日),通過 OpenRouter 呼叫的 OpenClaw 應用的模型 token 消耗前 10 中,6 個模型來自中國,DeepSeek-V3.2 排在第 12。(註:OpenRouter 更反映個人和中小開發者的使用情況,只能作為整體 Token 消耗的參考。)DeepSeek 的目標不是最主流的,有人離開、有人留下DeepSeek 的 “特立獨行”,和梁文鋒認同的 AGI 目標有關,除了追求大模型的智能上限外,他認為還有兩個很重要的工作:一是基於國產生態來做大模型。DeepSeek 會投入對國產 GPU 的適配,以解決高性能 GPU 供給受限的現實。比如他們在去年 8 月更新 V3.1 後提及,DeepSeek 採用的 UE8M0 FP8——這是一種資料壓縮格式——“是針對下一代國產晶片設計”。前文提到的用國產開放原始碼的 TileLang 替代 Triton 也是這類工作,能在基礎層更有主動權。在與 AI 從業者交流時,梁文鋒也曾提過這樣的假設:“能不能用現存的一部分算力,就實現現在所有的智能?”二是 “原創式創新”,做一些大廠或其它創業公司不會去試,不願去試的方向。比如 2024 年下半年,DeepSeek 就開始了 Janus 系列,嘗試統一多模態的理解和生成。DeepSeek 也做過 Prover 系列,探索形式化證明。還有 25 年的 OCR,以及內部在繼續做的持續學習和仿生人腦的探索。作為創始人,梁文鋒最在意的,不僅是模型效果本身,也包括追求效果的路上那些更本質、原創的發現。但這與外界現在對 DeepSeek 的部分期待並不匹配:一些人希望 DeepSeek 每次出手都像 R1 那樣石破天驚,這有些強人所難,也不符合技術規律。梁文鋒可以不在意外部期待,但他必須面對和處理內部期待。對更多年輕的研究員來說,做更多前沿研究,也需要承擔更多不確定性。更保險的路,是持續參與業界最強模型,在那些被關注的技術報告上署名,以及能有豐富的 GPU 資源支撐實驗和探索。除了榮譽和影響力,外界對 DeepSeek 成員的吸引力還有高額的財富承諾。DeepSeek 的絕對薪資不低,但外面給的更高。一些獵頭告訴我們,競爭對手開出了 “難以拒絕的數字”,“翻 2 到 3 倍問題不大”,“其他公司開出 8 位數(算股票或期權)總包”。新變化還有,MiniMax 和智譜上市、股價高漲,階躍、Kimi 的 IPO 也提上日程。這也讓一些 DeepSeek 成員對手中那份沒有明確標價的期權產生更多疑問。面對巨額邀約,更多人選擇留下。他們認可梁文鋒追求 AGI 的方式,願意做並非競爭驅動的探索;也習慣了 DeepSeek 相對寬鬆、從容的研究氛圍。近期外界的一些傳聞並不精準,DeepSeek 團隊雖有變化,但並沒有成組流失。“留下的人多少還是有些理想的。” 有接近 DeepSeek 的人士說,梁文鋒覺得在提升模型效率和性能的主線外,需要做一些當下回報不明確的方向,因為 “國外那些算力更多的公司,如 Google、OpenAI,內部肯定在試各種方向”。至今,DeepSeek 相對小的團隊和成立以來的透明、扁平的氛圍,讓成員之間依然可以自然分工:有時開始一個新方向,就是因為有三五個人都覺得一個 idea 不錯,然後就一起做了。這與梁文鋒 2024 年接受《暗湧》採訪時的描述相呼應:“我們一般不前置分工”,“每個人有自己獨特的成長經歷,都是自帶想法的,不需要 push 他……不過當一個 idea 顯示出潛力,我們也會自上而下地去調配資源。”“DeepSeek 是一個真心想做研究的人,在國內,甚至是全球能找到的最好的地方。” 有接近 DeepSeek 的人士說。改變世界,也被世界改變對 AGI 目標的獨特認知和拆解,是 DeepSeek 的可貴之處,也是它如今面臨內部張力的原因。因為梁文鋒看重的生態建設和原創探索,與業界普遍把 “保持最強” 視為第一優先順序,是重合但並非完全一致的目標。而且大模型發展到今天,“強” 和 “原創性” 的標準越來越模糊而主觀。Benchmark 分數已不能完全衡量模型水平。尤其進入 Agentic 模型競爭後,產品觸手及其帶來的長尾使用案例與多樣化資料變得更重要了,這恰恰是專注於模型研發的 DeepSeek 此前沒有太多投入的地方。即將發佈的 V4,大機率仍是開源最強模型,但很難是碾壓級的強。因為現在不同場景的不同開發者和使用者對 “強” 的標準和體感已越來越多元。什麼是原創的、有價值的新探索,則向來眾說紛紜,取決於不同研究者的經驗、判斷和直覺,所謂 “技術品味”。驗證品味的方式是實驗,而實驗的數量和規模又受限於 GPU 資源。相對於同行,DeepSeek 並沒有那麼多算力。最後,不管是大模型的生態基礎,還是在追求模型效果的過程中,探索其它團隊不一定會試的方向,這些梁文鋒看重的工作的回報都極不明確。前沿研究本該承擔這種不確定性,但它與算力資源有限的事實,與外界對 DeepSeek 能持續驚豔甚至 “碾壓” 的期待不完全匹配。梁文鋒意識到了要改變,近期他開始想辦法給公司估值,給團隊成員更多確定的預期。DeepSeek 也將更多投入產品。我們梳理了 DeepSeek 一位 HR 在社交媒體上從 2024 年 12 月至今發佈的所有招聘啟示,在今年 3 月中旬的最新招聘中,DeepSeek 第一次提及其它具體產品的名稱,要招募 Agent 方向 “模型策略產品經理”:持續跟蹤行業前沿,熟悉並深度使用過 Claude Code、OpenClaw、Manus 等知名 agent……接下來,肯定會看到 DeepSeek 在 Agent 產品上的更多動作。2025 年初,DeepSeek 以慷慨的開源精神和以小博大的奇蹟,震撼了中國和世界,也改變了世界:讓一批同行投入更多精力到模型技術本身,啟發了 Kimi K2 和 K2-thinking 等後續模型,也直接催生了一些新團隊,如陳天橋出資支援的 MiroMind。奇蹟之所以是奇蹟,就是因為它不常發生,是小機率事件。在中國這個崇尚競爭和結果說話的環境裡,敢於追求獨特目標的 DeepSeek 的存在本身,是一個令人驚喜的小機率事件。接觸梁文鋒的人評價:“他是一個特別抗噪音的人。”2025 年 R1 爆火後,梁文鋒顯示了對追捧的淡然。而現在,他面臨另一種情形的考驗:在外部競爭加劇時,分辨噪音與訊號,堅持該堅持的,改變要改變的。“低頭做事的人也許不一定能在浮躁的市場洪流裡笑到最後,但是只有更多 DeepSeek 這樣的公司出現,中國科技才有從 ‘復刻’ 到領跑的可能。” 一位從業者說。這是屬於梁文鋒和 DeepSeek 的工作。而曾被這家公司震動過的更多人,能做的很簡單:卸下爽文敘事,用更多平常心去看待一家公司和技術創新。 (晚點LatePost)
Google公開全新極限壓縮演算法:LLM提速8倍、記憶體佔用狂降6倍,精度零損失
Google帶來了一套有深厚理論基礎的全新量化演算法。這套演算法的出現,直接瞄準了當前AI領域的兩大痛點:大模型極其吃記憶體的鍵值快取(KV Cache),以及高維向量搜尋的算力瓶頸。直接把大模型推理中最燒錢的那塊記憶體砍掉六分之五,同時推理速度提升最高8倍,精度還沒有任何下降。說人話就是如果這個演算法真的有效,記憶體價格將有望大幅降低,也不要那麼多的GPU來訓練大模型了,當然根據傑文斯悖論,記憶體和GPU可能又會迎來一波更大的需求。這組演算法叫 TurboQuant,將在 ICLR 2026 正式發表。(實際上論文的預印本2025年就發了)記憶體瓶頸卡在那裡要理解 TurboQuant 解決的問題,先得搞清楚大模型推理時最貴的東西是什麼。大模型處理資訊的方式,本質上是把一切轉化成向量——一串數字。維度越高,向量能承載的資訊越複雜,也越精確。但高維向量極其耗記憶體。推理過程中有一個叫 KV Cache(鍵值快取)的機制,相當於模型的臨時記事本,把之前算過的結果存起來,避免重複計算。模型上下文越長,這個記事本佔的空間越大,記憶體很快就被撐滿了。解決思路自然是壓縮向量。但傳統的向量量化方法有一個隱藏成本:壓縮時需要存一批次化常數,這些常數本身又要佔掉1到2個位元,部分抵消了壓縮的效果。TurboQuant 就是衝著這個隱藏成本來的。TurboQuant 分兩步走第一步是 PolarQuant——處理主體壓縮。傳統量化用的是直角坐標系,相當於告訴你往東走3步、往北走4步。PolarQuant 改用極坐標,變成沿某個角度走5步。這樣一來,向量被拆成兩個量:半徑(代表資料的強度)和角度(代表資料的方向/含義)。極坐標有一個好處:角度的分佈規律是已知的、高度集中的,像一個固定的圓形網格,而不是邊界隨時在變的方形網格。不需要再額外算一遍資料歸一化,量化常數這個記憶體開銷就被徹底消掉了。第二步是 QJL——用1個位元處理殘餘誤差。第一步壓縮之後,還會留下一點點誤差。QJL 用 Johnson-Lindenstrauss 變換處理這個殘差:把每個數壓縮成一個符號位,+1 或 -1,記憶體開銷為零。關鍵是 QJL 用了一個特殊的估計量,把高精度的 query 和低精度的壓縮資料組合起來,使得最終計算注意力分數時誤差不會累積偏移。兩步合在一起,TurboQuant 用大部分位元做高品質的主體壓縮,再用1個位元做誤差修正,整體實現了零額外開銷。實驗資料Google在多個標準長上下文基準上做了測評,包括 LongBench、Needle In A Haystack、ZeroSCROLLS、RULER 和 L-Eval,使用 Gemma 和 Mistral 兩個開源模型。主要結論:TurboQuant 把 KV Cache 壓縮到 3 位元,不需要任何訓練或微調,模型精度沒有任何下降。在長上下文針尖大海撈針任務中,壓縮比達到至少6倍,結果依然滿分。在速度上,4位元的 TurboQuant 在 H100 GPU 上計算注意力 logits 的速度是原始32位元未量化版本的8倍。在向量檢索任務上,TurboQuant 在 GloVe 資料集上的1@k召回率超過了 PQ 和 RabbiQ 等當前最優方法,而後者還用了更大的碼本和針對資料集的專項調優。意義在那裡這套極限壓縮技術的出現,不僅直接解決了Gemini等大模型的鍵值快取瓶頸,更將深刻改變現代搜尋的格局。如今的搜尋引擎正在從關鍵詞匹配進化為理解意圖和含義,這離不開在數十億級向量庫中尋找最相似內容的向量搜尋技術。借助TurboQuant,以最小的記憶體、幾乎為零的預處理時間建構和查詢超大型向量索引成為可能,且精度達到當前最高水平。隨著AI技術全面融入各類產品,這類基礎級的向量量化突破將爆發出前所未有的威力。Google研究人員強調,這三個演算法不只是工程最佳化,背後有完整的理論證明,性能接近理論下界,因此在大規模系統中具有可信賴的魯棒性。TurboQuant、QJL 和 PolarQuant 的論文將分別在 ICLR 2026 和 AISTATS 2026 正式亮相。 (AI寒武紀)
AI的下一步:智能體
人的智能有三個方面:資訊的收集、資訊的處理產生認知、基於認知的行動。大語言模型目前主要的應用形態是ChatGPT這樣的聊天機器人(Chatbot),能力集中在前兩個方面。但更加有用的機器智能不只停留在“理解”和“說話”,如果能像一個或一群優秀的人才那樣幫我們“做事”,顯然能創造更大的價值。這就需要AI智能體(Agent)。智能體是能做事的AI。LLM是近幾年AI領域最重要的發展。已經在語言理解與生成、對話互動以及知識整合等方面展示出超凡能力,但它是“缸中大腦”——擅長思考、分析與回答問題,卻並不能真正地做事情。而在真實世界,大多數認知活動並不止於“給出答案”,而是要有完整的“認知-行動”閉環:我們要求AI得能夠自主的拆解複雜需求,規劃流程,呼叫工具和資源,實現從感知到決策再到執行的完整循環;進一步我們還希望AI的行動能夠超出電腦和網際網路領域,在物理世界中為我們做事情,則需要AI能夠感知物理世界的訊號,進行匹配具身的思考,通過裝置/機器人把決策轉化為執行,對現實環境產生直接影響。打個比方,LLM像是“未出山前的諸葛亮”,善於分析,以“隆中對”和劉備對談,出謀劃策,但限於“紙上談兵”;智能體則是“出山後的諸葛亮”,掌握全域情報,運籌帷幄,組織資源、調兵遣將,親自率軍北伐。智能體以LLM為代表的前沿模型作為大腦,通過軟體工程令其可以在高階目標驅動下完成複雜任務。可以說未來大部分的複雜AI應用都會以Agent為載體。事實上,我們在科幻作品中所看到的AI形象,比如《鋼鐵人》中的賈維斯或《2001:太空漫遊》中的HAL 9000,正是創作者對以Agent為載體的未來AI的直觀想像。只是和物理世界交換的AI本身就極為重要和複雜,現在習慣上把這部分單獨放在具身智能/機器人領域討論。智能體能力的構成為了在各行各業的應用中發揮出顯著價值,理想中的智能體需要具備幾個關鍵條件。首先,智能體應具備強大的目標理解和規劃能力來體現智能的自主性。理想狀態下,人類只需給出抽象目標,智能體便能理解目標、拆解任務、規劃行動,並在儘量少的人工干預下完成執行閉環。就像影《星際穿越》中的機器TARS,在緊急情況下能夠根據"拯救宇航員"這一目標,自主判斷局勢、制定和調整行動策略,甚至做出犧牲自己資料的決定來完成使命。這要求機器智能有深度“理解/思考”能力(推理、規劃、決策),能夠敏銳的決策,能夠基於執行結果與環境反饋動態調整任務規劃,而不是僵化的執行既定路徑。其次,我們希望智能體能“動手”做事:執行和互動能力。這就意味著它能夠使用工具、執行操作,並能與外部環境發生直接互動。在數字世界中,智能體可以模擬人類操作,通過鍵盤輸入、點選螢幕的方式來完成任務;也可以通過其他程序或系統介面來呼叫工具;還可以發揮模型特長,通過編寫和執行程式碼來達成目的。在物理世界中,智能體則需要與各類控制系統和裝置相連接,通過下達指令來操控物理對象,將智能決策轉化為現實行動。第三,我們希望智能體具備出色的記憶與學習能力。記憶和狀態管理能力是完成長程、複雜任務的前提。在面向消費者的場景中,例如個性化的日程管理或長期服務支援,智能體需要跨會話地記住使用者偏好、歷史互動與長期狀態,才能減少重複溝通、提升服務質量;在企業級應用中,如跨周期項目管理、複雜業務流程推進等,則需要智能體記住任務進度、中間結果與關鍵決策依據,確保任務在長周期、多階段執行中保持連貫性,不中途偏離既定目標。學習能力的意義是我們希望智能體能持續提升,像人類員工一樣可以從職場小白通過經驗積累和吸收新知進化成專家。最後,智能體還需要有很強的可靠性、可控性,才能規模化的帶來價值。這既體現在智能體能否穩定、魯棒的完成任務,也體現在其行為是否始終與人類的真實意圖與價值觀保持一致。在《2001:太空漫遊》中,AI為完成任務選擇犧牲人類乘員,正是目標函數與人類價值未能有效對齊的極端後果。隨著智能體智能水平與自主性的提升,這類對齊失敗帶來的風險可能會被進一步放大。如何建構智能體有了理想的標竿,我們怎麼建構智能體?基本邏輯很簡單:以可獲取的最“聰明”、理想的模型為核心(大腦),通過軟體工程來搭建一個系統,彌補模型的不足,儘量逼近理想智能體的形態。大模型是目前智能體大腦的最優選擇,因為大模型的兆參數壓縮了人類積累的海量知識,擁有強大的模式識別和生成能力,是處理包括語言在內的多種非結構化資料的萬能介面,擁有不錯的泛化能力構成處理各類任務的基礎。而以OpenAI o1/DeepSeek R1為代表的新一代推理模型為智能體的發展進一步助推:加強的推理能力帶來更強的任務分解和規劃,更好的自檢和糾錯,也令智能體對工具的使用可以更加精準。大模型有一些結構性弱點,直接限制了智能體在真實業務中的應用價值,因此智能體工程的一大核心工作,就是在模型外圍,用工程手段補齊短板、設定邊界、約束行為。首先,大模型本身沒那麼可靠:存在無法根除的幻覺問題、知識時效性問題,任務拆解和規劃經常不合理,也缺乏面向特定任務的系統性校驗機制。這樣一來,以其為“大腦”的智能體使用價值會大打折扣:智能體把模型從“對話”推向“行動”,錯誤不再只是答錯問題,而是可能引發實際操作風險;而真實業務任務往往是跨系統、長鏈路的,一次小錯誤會在鏈路中層層放大,令長鏈路任務的失敗率居高不下(例如單步成功率為95%時,一個20步鏈路的整體成功率只有約36%)。為此,智能體工程通常通過以下幾類手段給大模型加“外骨骼”以改善可靠性:引入檢索與知識庫(RAG)以降低幻覺和知識陳舊的影響;預先設計和約束工作流,而不是完全自由的“自治智能體”,以此限定可接受的執行路徑;通過多次回答、自一致性檢查或模型間交叉驗證,識別並過濾高風險輸出;在關鍵鏈路節點上設定人工審批,讓人類對高風險動作“最後拍板”。其次,大模型的記憶能力有缺陷:大模型在訓練時“記住”了大量知識,但訓練完成後並不會在使用中持續學習、“記住“新知識;每次推理時,它只能依賴有限長度的上下文窗口來“記住”當前任務的資訊(不同模型有不同上限,超過窗口的內容就會被遺忘),而無法像人一樣自然地維持穩定、長期的個體記憶。但在真實業務中,我們需要機器智能有強大的記憶能力,比如一個AI老師,需要持續記住學生的學習歷史、薄弱環節和偏好,才能在後續的講解與練習中真正做到“因人施教”。針對這些記憶缺陷,智能體工程通常採取以下手段進行增強:建構外部記憶庫將使用者偏好、業務知識、歷史互動等儲存在資料庫中,智能體在需要時通過檢索機制按需提取相關資訊,應對長期記憶缺陷;對過長的上下文進行摘要和壓縮,保留核心資訊,釋放Token空間,來應對資訊過載導致的短期記憶遺忘。除了補短板,因為智能體要行動、要和環境互動,需要有感知和執行。首先,大模型本身無法主動感知,只能對輸入被動響應。智能體需要用外部感知元件來主動獲取環境資訊。對於數字世界的任務,通過智能體工程可以建立基於時間的觸發器,定期檢查日誌、郵件、股價變動等;或基於事件的訂閱、監聽,接收API推送的事件通知,或當資料庫發生變更時自動喚醒記錄資料。在物理世界中,智能體還可以通過感測器、攝影機、麥克風等裝置採集視覺、聽覺、觸覺等訊號。其次,大模型沒有天然的執行能力,需要輔以智能體工程來將意圖轉化為實際操作。工具呼叫是當前最主流的方式,大模型根據任務需求,生成結構化的函數呼叫指令,由智能體框架解析後執行相應操作,比如呼叫天氣API、資料庫查詢、傳送郵件等;另一種方式是模擬人類操作,通過視覺識別和模擬操作來“看螢幕、點按鈕、填表單”來完成任務,近期大火的豆包手機就是這樣完成智能體操作;對於更複雜的任務,智能體還可以配置程式碼直譯器(Code Interpreter / Sandbox),讓模型程式設計運行,這可以極大的擴展智能體的行動邊界。當下智能體的能力邊界剛剛過去的2025年被不少AI從業者和科技媒體稱作“智能體元年”。這個觀察是較為準確的,得益於以下幾個條件的成熟,過去一年左右的智能體發展進入快車道:首先是大模型的持續進步,主要體現在推理模型的出現提供了更強的任務理解、規劃能力,以及多模態模型的發展為智能體能夠處理和生成更複雜的資訊提供了基礎。其次是基礎設施和生態的成熟,包括LangChain、AutoGPT等開源框架經過兩年的迭代,已經形成了一套標準化的開發範式,極大地縮短了開發周期;Dify、Coze(扣子)等低程式碼/無程式碼平台的普及,讓不懂程式碼的業務人員也能通過拖拉拽快速生成一個專用智能體;值得一提的是2025年Anthropic發佈的MCP(模型上下文協議)和skills(技能系統)給智能體生態提供了重要的標準和啟發:MCP作為一個開源協議標準,令大模型與外部資料來源或工具之間的互動更統一、便捷,Skills則是把人類設計的完成某類任務所需的能力/工作流打包起來,讓Agent在這類任務上可以更穩定的工作,雖然技術含量不高,但在當下有很強的實用性。再次,學術界和產業界都有大量的人才、資源投入到智能體領域,以ACL(國際計算語言學協會年會)2025為例,有超過230篇論文和智能體相關,為歷年最高,涵蓋規劃、工具使用、多智能體協作與評估等多個方向。在能力的提升、生態的健全、資源的投入影響下,各行各業正在嘗試把智能體真正的用起來。根據麥肯錫2025年全球調研顯示,約62%的受訪組織已在部分業務中嘗試智能體(23%為至少一個場景的規模化部署,39%為試驗性應用);但從業務職能的具體採用資料來看,產業對智能體的應用還處於早期階段:根據該調查,對於智能體應用最多的職能依次是IT、知識管理、行銷和服務,以應用最多的IT為例,僅有2%和8%的受訪企業IT部門全面規模化(Fully Scaled)和規模化(Scaling)的應用智能體,以及6%和7%的企業IT部門試點(Piloting)和試驗(Experimenting)的應用。造成這種規模化應用水平較低的原因有兩方面,一是前面討論的智能體能力問題,雖然在快速進步,但離全面的實用性還有距離;二是各行各業的企業應用者要把智能體用好還需要一些自身條件的配合。第一方面,除了短任務鏈條的資料分析、生成、檢索等方面的應用,智能體現在規模化應用場景大體可以概括為兩類,一是在程式設計領域,程式設計是智能體最理想的"練兵場",環境隔離、容錯率高,目標明確、目前規劃能力能應對,程序可執行,還有即時的執行反饋。這令其成為智能體第一個大規模、商業化的突破口。二是在各行各業的各種業務(銷售、客服、人力等)的專用智能體可以集合成一個大類,有一個共同點:目前主要是工作流自動化類型,其實這也是應對智能體深度理解(規劃、決策)能力不足的權宜之計,通過把智能體的任務的開放性降低、給出參考工作流程、定義可用的有限工具集等來提高智能體在這些任務上的工作質量。智能體進一步的規模化應用需要其能力進化,為企業能夠帶來切實的價值。第二方面,企業要用好智能體需要組織和資源上的匹配。根據Anthropic 2026年的最新調研,46%的受訪者表示與現有系統的整合是智能體部署的主要障礙,43%和42%的受訪者分別指向實施成本和資料的可及性/質量,40%和39%的受訪者表示安全/合規和員工的學習成本/抵制是重要障礙(中小企業尤其擔心學習成本,51%的受訪者指向這一點)。對於企業的顧慮,成本、安全等問題和技術進步的關係較大,但資料問題、整合問題、學習或人才問題都是需要企業通過組織變革、進一步數位化和全員的學習來提升。總結與展望未來,智能體將會是我們在各行各業、各種場景應用人工智慧的主要載體。可以預見,隨著模型能力和智能體工程的進步,企業資料治理和組織適配的提升,智能體會逐步成為每家企業極有競爭力的數字員工,和我們人類員工競爭與協作。從路徑上看,前面提到現在智能體規模化應用集中在程式設計和工作流自動化方面,隨著機器智能深度理解水平的提升,可以預期智能體的應用會不斷拓展邊界,能承擔更抽象、複雜的任務,更多的自主規劃和決策,來把人類的意圖轉化為結果。當然,突破不等於拋棄工作流。在企業高風險場景裡,工作流/權限/審計會變成“護欄”,用來限制智能體的行動空間,以確保應用的安全。在相當長的時間內,人類的審批、審計在智能體工作的閉環中可能都是不可缺少的。智能體發展的另一個關鍵方向,是成為人類的“個人助手”或“智能代理”。與其他類型的智能體相比,這一方向的門檻更高,因為它需要更強的個性化能力、長期記憶、跨場景泛化能力以及更嚴格的安全邊界。個人助手型智能體有潛力重塑人類與世界的互動方式——無論是購物、社交,還是資訊獲取——並可能對很多產業的商業邏輯產生顛覆性影響。過去一年中,“豆包手機”的推出,以及2026年年初爆火的“OpenClaw”,讓我們看到了助手型智能體的一些早期探索,令人振奮。前者代表了裝置級智能體的嘗試:它將智能體能力深度嵌入作業系統,通過模擬人類操作以調取各類App,為使用者完成任務。後者則是一種始終線上的解決方案,能夠主動觀察與執行任務,並通過本地部署獲取豐富的個性化資料和軟體控制權,初步體現了個人助手型Agent的一些核心特徵。根據IDC的預計,活躍智能體的數量將從2025年的約2860萬,攀升至2030年的22.16億。這意味著五年後,能夠幫助企業或個體執行任務的數字勞動力數量將是現在的近80倍,年複合增長率139%;任務執行的數量將從2025年的440億次暴漲至2030年的415兆次,年複合增長率高達524%;Token的消耗將從2025年的5000億激增至2030年的1.5兆億,年複合增長34倍。IDC的預測未必精準,但趨勢非常明顯,每一家企業都要為此做好準備。 (FT中文網)
大國競爭背景下的AI浪潮(下)AI科技
大模型鏈:從“模型數量賽跑”到“範式與效率之爭”(一)產業結構與關鍵指標:從“參數規模”到“國家—產業雙集中”從產業結構來看,大模型鏈可以粗分為三層:底層:語料與資料(通用語料、產業資料、合成資料)、算力與訓練架構;中層:通用基礎大模型(LLM、VLM、多模態模型),包含閉源「前沿模型」與開源權重模型;上層:產業/版本(金融、製造業模式、零售模型、零售模式與建築)、結構與建築)、建築、製造模型、零售模型(金融、製造模型)。這鏈條的幾個關鍵「集中度」特徵,基本可以用幾組數字來刻畫:1.「模型數量」層面的中美集中-中國信通院參與的《2024全球數位經濟白皮書》數據顯示:截至2024年一季度,全球AI大模型數量約1,328個,其中中國佔比約36%,位列全球第二,僅次於中國。 2025年世界人工智慧大會(WAIC)揭露的最新數據則顯示:全球已發布大模型累計3,755個,其中中國發布1,509個,位居世界第一,佔比超過40%。這意味著,從「模型數量」和「參與者數量」角度看,中美已經形成明顯的雙中心結構,中國在絕對數量上開始反超,但美國仍然掌握了更多「前沿模型」。 2.「前沿模型品質與產地」-美國仍是性能高地。史丹佛HAI發表的《2025AI Index》對「notable models(具代表性的前沿模型)」做了單獨統計:2024年,美國機構發布的「notable models」數量為40個,中國為15個,歐洲(主要是法國)為3個,美國依然是高性能模型最主要的國家。同一報告指出,2024年近90%的「notable models」由產業界發布,而2023年這一比例還是60%,模型研發重心已經基本從大學和實驗室全面轉向頭部科技公司。從效能收斂趨勢來看,AI Index的總結顯示,在公開評測榜上,前十名模型之間的Elo得分差距在一年內從約11.9%縮小到5.4%左右,頭部模型之間進入「你追我趕」的膠著狀態,而不再是某一兩家絕對壓制。 3.資本投向-生成式AI和大模型仍是投資「主戰場」。 AI Index統計:2024年美國民間AI投資達1,091億美元,中國約93億美元,美國約為中國的12倍;其中生成式AI相關的私人投資在2024年達到339億美元,年比+18.7%,佔全部AI私募投資的20%以上,仍是資本最集中的賽道之一。整體來看,大模型鏈已從早期的「單純參數軍備競賽」轉向「少數國家掌握前沿模型+產業資本高度集中在少數頭部實驗室+各國圍繞本土模型生態展開制度競爭」的階段。(二)美國:前沿閉源模型+超高資本密度在大模型鏈上,美國的優勢集中體現在「前沿閉源模型+高資本密度+全球開發者心智」三個面向。 1.前沿模型集中在少數實驗室-從「notable models」的統計可以看出,OpenAI、Google(Gemini)、Anthropic、Meta等少數幾家機構,貢獻了2024年美國大部分前沿模型。這些模型往往具備幾個共同特徵:參數規模和訓練算力處於行業天花板;多模態(文本、圖像、音頻、視頻)能力強,逐步向“agent + tool use”演進;採用嚴格的對齊與安全策略,以閉源API、企業服務為主要商業化方式。 2.資本投向高度集中-AI Index的經濟章節顯示:2024年美國私部門AI投資總額1,091億美元,約為中國的12倍、英國的24倍;生成式AI相關的私人投資339億美元,佔全球AI投資超過五分之一,其中相當部分流向了上述前沿實驗室。這意味著,「前沿模型」既是美國技術優勢的象徵,也是資本市場的集中押注標的——透過閉源API、雲端服務、企業訂閱等模式回收巨額算力投資。 3.制度與安全框架先行-在大模型安全、透明度和監管方面,美國在G7、OECD等多邊框架中發揮重要作用,同時透過本土行政命令和行業自律規範,對frontier models的訓練、部署和評估提出要求。這既是在國內政治環境下的“風險防控”,也是在國際競爭中為自身前沿模型設定規則門檻的一種方式。(三)中國:模型數量第一+開源與效率路線與美國「少而強、重前沿閉源」不同,中國的大模型發展更呈現出「數量多、參與主體廣+重視開源與效率+強監管門檻」的綜合特徵。 1.模型數量和服務數量「雙高」-白皮書數據顯示,截至2024年第一季全球大模型1,328個,中國約佔36%;2025年WAIC上公佈的數據進一步顯示:全球累計發布大模型3,755個,中國發布1,509個公佈,數量位居全球第一,佔比超過40%。在應用服務層面,截至2024年底,中國境內已正式備案的生成式AI服務達302項,其中2024年新增238項;到2025年一季度,這一數字進一步增至346項。此外,網信部門與工信部的統計顯示,到2024年底,中國註冊使用生成式AI服務的用戶數量已超過6億人,顯示出較高的C端滲透率。 2.開源模型與「效率路線」-在大模型開源領域,中國近一兩年呈現明顯加速:MIT與HuggingFace聯合研究指出,在「開放權重模型」下載量方面,中國開發者和模型已經超過美國,約佔全球下載量的17%,而美國代表性約為15.8%,項目包括DeepSeek、通義(Qwen)、千川等。 DeepSeek系列模型(包括DeepSeek-V3、DeepSeek-R1等)在國內外開源社群的下載和復現度顯著提高。社群梳理顯示,DeepSeek-V3.2採用MoE(混合專家)結構,在接近GPT-5級別表現的前提下,據稱訓練成本控制在數百萬美元量級,引發了全球對「低成本高性能訓練路徑」的討論。在高階GPU受限的背景下,中國廠商普遍更重視模型壓縮、蒸餾和算力利用效率,在「以較少算力逼近前沿模型性能」的路線下逐步形成差異化優勢。 3.監管驅動下的「有證經營」模式-自《生成式人工智慧服務管理暫行辦法》實施以來,中國對面向公眾開放的生成式AI服務實施備案製,要求企業在模型安全、資料來源和內容治理方面進行自評和申報。截至2024年底、2025年初的備案數量和用戶規模顯示,這一模式在一定程度上形成了「統一監管門檻+多元商業探索」的格局:一方面壓實安全責任,另一方面也使得合規模型形成「准入壁壘」。(四)小結:美系“少而強”vs中系“多點開花”綜合來看,大模型鏈中中美的相對優勢可以概括為:美國——在「前沿模型數量+性能+投資強度」上仍然明顯領先;模型更多以閉源API、企業服務形態輸出,強調安全與對齊;少數頭部實驗室掌控了參數規模、評測標準和生態心智,形成技術與資本的雙重高地。中國在模型總數量、開源模型下載量、註冊服務數量以及C端用戶體積上佔據優勢;在算力受限背景下走出“低成本、高效率”的技術路線,湧現出一批以DeepSeek等為代表的高性價比模型;在監管框架下,透過備案和標準體系推動“有證經營”,逐步構建本土生態。一句話概括為,美國的大模型優勢更多體現在“少而強的前沿閉源模型+高資本密度”;中國則通過“數量優勢+開源與效率路線+大規模應用”,在大模型鏈上形成了另一種“多點開花”的競爭路徑。軟體應用鏈:從“試點計畫”到“生產系統重構”(一)產業結構與關鍵指標:高滲透率vs價值兌現分化軟體應用鏈主要承接大模型在組織與個人層面的落地,大致可分為三類:通用辦公室與生產力工具-辦公室套件、搜尋、程式碼助理、內容產生;產業應用-金融風控、行銷自動化、客服與營運、研發/設計、醫療與教育等;智慧體與工作流程重構-基於大模型的agent、自動化工作流程、決策支援系統。從全球視角來看,過去兩年這條鏈呈現出「採用率很高,價值兌現不均衡」的典型特徵。 1.採用率快速上升-AI Index報告指出:2024年全球78%的組織報告“已經在業務中使用AI”,而2023年這一比例為55%,一年內提升超過20pcts。麥肯錫2024年全球AI調查顯示,約65%的受訪企業已經在「定期使用」生成式AI,比例在10個月內幾乎翻倍;其中約40%的企業在兩個以上業務職能中部署了生成式AI。 2025年最新一版《State of AI》調查進一步指出,接近9成受訪企業表示“定期使用AI”,但在業務重構程度、效率提升與風險管理等指標上差異較大。 2.價值兌現與ROI仍顯分化——BCG 2024年報告給出的結論相對冷靜:約74%的企業尚未能從AI項目中獲得“可量化的經濟價值”,只有少數“AI領先者”實現了可觀收益。報告同時指出,這些領先者在過去三年內實現了約1.5倍的營收成長、1.6倍的股東回報和1.4倍的投入資本回報,體現出明顯的「強者恆強」效應。 Gartner對資料基礎的評估則更加悲觀:預計到2026年,缺乏「AI-ready data」的組織將放棄60%的AI項目,原因主要在於資料品質、治理與整合能力不足。整體來看,軟體應用鏈已經從「試點/PoC階段」進入「大規模部署+系統性重構但價值實現高度分化」的階段。(二)美國等已開發經濟體:知識工作流程與企業軟體“AI原生化”在美國及其他部分已開發經濟體,軟體應用鏈的主戰場主要在白領知識工作流程和企業軟體「AI原生化」上,典型特徵包括:1.「辦公室+編碼+銷售/客服」三大高頻場景-綜合AI Index、麥肯錫和多家產業報告的拆分,目前生成式AI在企業側最集中的應用包括:程式碼輔助與軟體開發(DevOps、測試自動化等);客服與銷售(智慧客服、郵件產生、銷售線索管理);辦公室自動化(文件起草、分析總結、會議記錄與行動項目產生)。這些場景的共同點在於:資料相對結構化、流程可標準化、易於透過API插入現有SaaS系統。 2.企業軟體「AI-first」策略-頭部辦公與企業軟體廠商(雲端辦公、CRM、ERP、DevOps平台等)普遍採用「AI-first」或「Copilot」式路線:將LLM能力封裝成“助手/共駕”,以插件或側邊欄形式嵌入原有產品;不改變企業現有系統的主幹架構,而是用AI對人機交互和知識檢索進行升級;收費模式往往是“在原有訂閱之上疊加AI附加費”,提高ARPU。 3.治理與合規成為關鍵約束-在隱私保護、資料跨境、安全責任認定以及員工技能再培訓方面,歐美企業普遍面臨更嚴格的監管與社會輿論審視,這在一定程度上放緩了高風險場景(如自動決策、敏感資料處理)下的全面落地。整體上,美國在軟體應用鏈上的優勢是:依托成熟的SaaS生態和高價值知識工作流程,把大模型快速嵌入已有企業軟體體系,實現對高收入群體和關鍵業務流程的「優先重構」。(三)中國:C端超級入口+B端工業智慧化與美國偏向知識工作場景不同,中國的軟體應用鏈更呈現出「C端超級入口+B端工業和政務場景」並重的特徵。 1.C端:生成式AI服務用戶規模全球領先-網信部門與權威媒體的統計顯示,截至2024年底,中國生成式AI服務註冊用戶已超過6億人,依託的是搜尋、短視頻、即時通訊和支付等超級入口。正式備案的生成式AI服務在2024年底達到302項,其中2024年新增238項;到2025年3月底,這一數字進一步上升到346項。這意味著,中國在C端呈現出「以平台型應用為載體的大規模試用與迭代」:透過搜尋、短視頻、社交、電商和支付等入口,把文本生成、圖像/視頻生成、對話助手、AI翻譯等能力大規模分發。 2.B端:製造業與基礎設施中的“隱性AI”,與部分已開發經濟體相比,中國在To B與To G領域的AI應用更偏製造業與基礎設施。媒體和研究報告顯示:在製造業領域,家電、鋼鐵、水泥等行業龍頭已在產線調度、品質檢測、設備預測性維護等環節部署“AI工廠大腦”,透過視覺檢測+機器人協同顯著降低人力需求。在港口、物流和能源系統中,以天津港等為代表的樞紐已在堆場調度、集卡路徑規劃和排班中引入AI系統,實現了接近「無人值守」的運作模式。這類應用往往不以「聊天機器人」的形式呈現,而是嵌入生產控制系統、MES、SCADA等底層軟體中,對應的是「隱性AI」:對終端用戶不可見,但對產能、能源效率和安全指標有實質影響。 3.產業規模與結構-應用層正在放大,多家機構測算顯示:到2024年,中國AI產業總規模已超過2,000億元人民幣,近幾年保持年均20%以上增速;工信部及研究機構預計,2029年產業規模可望突破1兆元,2035年可望達到1.7兆元,複合成長約15.6%,其中具身智慧、多模態系統和產業應用被視為主要成長點。從結構來看,基礎設施、模型平台和產業應用三個子類股2024年營收分別實現約54%、18%和13%的年成長,應用層雖起步較晚,但在整體規模中的佔比正逐步提升。(四)小結:應用層的「落地路徑」差異從軟體應用鍊看,中美之間的主要差異可以壓縮為三點:落地點不同-知識工作vs.工業與民生,美國等已開發經濟體的增量更多來自知識工作流程和企業軟體,強調提升白領生產力、重構辦公與開發工具;中國在此基礎上,更大力度押注於工業、基礎設施和公共服務,透過「隱性AI+顯性大模型應用」並行,製造業與城市升級與城市基礎設施升級。商業模式路徑不同——SaaS附加vs.平台內嵌,美國更側重於在成熟SaaS訂閱模式上疊加“AI加價包”,形成“單用戶價值提升”;中國則更多透過平台型應用(電商、支付、社交、短視頻、超級App)將大模型能力“內嵌”為基礎功能,通過閉環與廣告、金融、現流量服務與廣告、金融、現流服務與廣告、金融、現流服務與廣告、金融、現在治理節奏不同-自律框架vs.准入制與備案,美國在企業和行業層面更依賴企業自律與行業標準補充政府監管,強調創新與安全的平衡;中國則透過「備案+標準+專項治理」的組合方式對C端應用進行統一門檻管理,在一定程度上提高了合規成本,但也為本土企業提供了相對明確的政策預期。用一句話概括軟體應用鏈的格局:在應用層,美國依托成熟的企業軟體與知識工作流,把大模型變成「白領工位上的標配工具」;中國則依托超級平台和工業/政務場景,把大模型和AI嵌入龐大的C端流量和實體經濟系統。兩條路徑疊加起來,構成了「大國競爭」中軟體應用鏈的雙重樣態。2026年全球AI端側應用投資展望:人形機器人、智慧駕駛、AI手機、AI眼鏡、AI製藥與AI醫療診斷AI端側應用已從概念示範邁入商業化落地關鍵期,成為衡量AI產業鏈價值的核心指標。全球產業呈現「美國定標準、中國促進落地」的雙極格局-美國以科技原創與生態能力佔據高端話語權,中國依托供應鏈縱深與場景優勢快速追趕。 2026年將是端側AI走向業績兌現的拐點,人形機器人、智慧駕駛、AI手機、AI眼鏡、AI製藥、AI醫療診斷六大領域將迎來關鍵突破。本章節將聚焦這六大核心領域,從市場預期、中美產業格局、核心差距及未來催化因素四個構面展開分析,為2026年投資決策提供參考。(一)人形機器人:量產前夜,中美競速開啟市場預期:2026年量產關鍵驗證期,兆市藍圖浮現2026年將是人形機器人從原型機驗證邁向規模化量產的關鍵拐點。特斯拉的Optimus將在2026年開啟量產進程,中國頭部機器人企業2026年的訂單同樣呈現5~10倍的成長。高工機器人產業研究所口徑顯示,2026年全球人形機器人市場規模預計超過20億美元,並在2030年達到200億美元,對應複合成長78%,這意味著產業將進入接近指數級增長的爆發期。 2026年人形機器人成本下降與技術成熟將形成共振,推動產業實現真正意義上的量產,其長期全球潛在市場規模可望突破兆級。目前,人形機器人產業雖已就2026年實現量產達成共識,但在具體規模上卻存在明顯分歧,這直接構成了新一年的核心觀察焦點。海外投行對於量產規模的預測差距甚大,在1萬台~10萬台不等。這一落差根源在於市場對於技術成熟度與商業化節奏的假設不同,一部分觀點相信整機廠的產能擴張能迅速拉動產業鏈成熟,而謹慎的觀點則更加現實地考慮了核心零部件產能瓶頸以及機器人實際工作效率仍遠低於人類等硬約束。因此,2026年與其簡單稱為量產年,不如更精確地定義為驗證訂單與產能爬坡並行的年份。由特斯拉和國內領軍企業所釋放的實質訂單與穩定的出貨節奏,將成為判斷產業走向最具含金量的訊號。產業格局:美國技術引領,中國量產突圍當前全球人形機器人領域呈現出清晰的中美雙極格局。美國依託其深厚的技術積累,形成了硬體創新與平台賦能兩條發展主線,美國企業正在定義產業的技術標準與發展方向。同時,中國展在明確的產業政策引導下,本土企業正以驚人的速度推進產品迭代和產能建設,透過快速規模化搶佔市場,並在應用實踐中持續優化技術。隨著2026年量產節點的臨近,全球市場的競爭態勢與融合路徑將深刻重塑全球產業鏈。01 美國:研發驅動與雙軌生態並行美國在人形機器人領域的產業格局呈現出典型的研發驅動和巨頭引領特徵,其核心優勢在於完善的政策支援體系、深厚的技術累積以及成熟的產學研生態。在此背景下,美國形成了兩條平行的發展路徑:一是硬體本體廠商的技術深耕,二是科技巨頭的平台化賦能。在硬體本體層面,美國頭部企業憑藉著先發優勢和技術壁壘,佔據了產業制高點。特斯拉(Tesla)依託其在電動車領域累積的強大AI和視覺處理能力,將其FSD系統復用於Optimus人形機器人,實現了技術的快速遷移和迭代,目標是替代人類從事危險、重複或枯燥的工作。波士頓動力(Boston Dynamics)的Atlas機器人憑藉領先的液壓驅動技術和動態控制演算法,在高機動性、爆發力及複雜地形適應性方面處於全球頂尖水平,是技術探索的標竿。 Figure AI作為新興力量,透過與寶馬集團的合作,將其Figure 02機器人成功部署於實際生產線,驗證了其技術的商業化可行性,為該行業樹立了清晰的應用標竿。同時,一個更強大的技術賦能生態正在輝達、OpenAI等科技巨頭的推動下形成。與硬體製造商不同,它們從底層技術切入,建構了差異化的競爭路徑。輝達透過提供從硬體到軟體的全端解決方案,打造了一個開放協同的開發生態:開源Isaac GR00T基礎模型與Omniverse平台,降低研發門檻;提供從Jetson計算硬體到Newton物理引擎的軟硬體深度優化方案,奠定產業標準化基礎;並透過投資Figure AI等企業,建構緊密的產業地位,建立緊密的產業地位。本質上,輝達正將AI領域的技術優勢延伸至機器人產業,以底層基礎設施賦能整個產業。OpenAI則聚焦於提升機器人的認知與決策能力。利用GPT系列大模型賦予機器人更深度的語言理解、環境推理與自主決策能力;透過投資Figure AI、1X Technologies等公司,推動大模型與具身智能的融合;OpenAI採取的「大模型+投資賦能」路徑,旨在為機器人注入高階智能,攻克長期存在的決策瓶頸。這類技術賦能生態展現出獨特的競爭優勢,能夠高效整合資源、加速技術迭代、易於建構技術壁壘,並營造多方協同的產業環境。02 中國:全產業鏈配套與群聚式發展中國的產業格局則體現出鮮明的政策領航與全速產業化特徵。國家層級將具身智能提升至未來產業的戰略高度,2025年《政府工作報告》首次將其納入培育方向。工信部發布的《人形機器人創新發展指導意見》明確提出2025年實現整機批量生產的目標,為產業發展設定了清晰的時間表。地方政府迅速跟進,上海、重慶、杭州等地密集出台支持政策,例如上海張江為具身智慧產業提供單一項目最高可達億級的資金支持,大大激發了市場活力。截至目前,本土整機企業數超過百家,形成全球最密集的產業集聚,解決方案差異化突出,量產節奏加快,小批量交付與場景驗證持續推進。智元機器人計畫在2025年實現數千台年產量,並於2026年將目標提升至數萬台。優必選也制定了清晰的產能爬坡計劃,預計到2026年,其工業人形機器人年產能將達到5000台,2027年再翻一番至10000台。包括宇樹科技在內的多家國內頭部企業,均將2026年實現數萬台層級的量產規模作為核心策略目標。中國企業在快速推進量產的同時,也致力於建構自主可控的供應鏈。在靈巧手、觸覺感測器、輕量化材料等領域實現技術突破,並積極推動諧波減速器、無框力矩馬達等核心零件的國產化,產業生態正在快速形成。03 核心差異中國機器人產業與美國相比的差距並不反映在產業規模或落地速度上,而是集中存在於少數高價值、決定長期競爭力的關鍵環節。從整體格局來看,中國在機器人製造規模、供應鏈完整度以及應用落地速度方面已處於全球領先位置,而美國的優勢更多體現在底層技術原創、具身智能演算法、算力與生態控制力上。這種差距不是“全面落後”,而是一種結構性分工差異,也決定了兩國產業所處的價值鏈位置不同。在最核心的「智慧大腦」層面,中美差距最為明顯。美國機器人產業在具身智慧、強化學習和端到端控制框架上長期領先,強調讓機器人透過大模型與數據學習形成通用認知與決策能力,追求跨場景泛化與自我進化能力。特斯拉、Figure AI 等公司的技術路線,本質上是把自動駕駛中累積的感知、決策和控制能力遷移到人形機器人上,由演算法先行,再反向定義硬體能力邊界。相較之下,中國機器人更依賴工程驅動與任務導向的控制方式,強調場景拆解、規則設計和快速部署,在特定環境中效率很高,但在跨任務、跨場景的通用智慧層面仍然偏弱。這種差距不是短期產品能力的差異,而是對「機器人究竟該如何獲得智慧」這個核心問題的理解路徑不同。在算力和晶片層面,中美有明顯差距。美國不僅掌握高階AI晶片設計能力,也控制從硬體架構、軟體框架到開發生態的完整體系,使得機器人訓練和迭代效率具有天然優勢。算力資源的充裕直接決定了模型規模、訓練頻率和演算法演化速度,這在通用機器人時代尤其關鍵。中國雖然在專用晶片、邊緣運算和成本控制方面進步顯著,但在高階訓練晶片和生態相容性上仍受限制,這使得機器人在學習能力和長期進化速度上存在客觀差距。在系統級創新能力上,兩國也呈現明顯不同的產業氣質。美國更擅長從系統層面提出全新範式,透過少數突破性架構形成代際領先,而中國的優勢在於工程整合能力和規模化能力,能夠把已經驗證的技術快速優化、降本並推向大規模應用。這導緻美國機器人產品往往數量不多、價格高,但技術路線前瞻,而中國機器人產品更新快、型號多、成本低,更容易在真實商業場景中形成規模優勢。在關鍵零件領域,中美差距正在縮小,但在高階環節差距仍然存在。中國在伺服馬達、減速器、感測器等核心零件上的國產化率持續提升,中階性能已能滿足大部分工業和服務機器人需求,但在極高精度、長期可靠性和壽命穩定性方面,與日本和歐美頂級廠商仍有差距。不過,這一領域更多是時間與累積的問題,而非能力天花板,隨著規模化應用與持續迭代,差距正在快速壓縮。從全球價值鏈位置來看,美國機器人產業更多佔據高利潤、高話語權的上游環節,包括演算法、作業系統和事實標準的製訂,而中國則在中下游的製造、整合和應用端形成壓倒性規模優勢。這種結構與智慧型手機、新能源車等產業早期階段高度相似,中國往往先在規模和成本上取得領先,但在標準制定和生態主導權上相對被動。最長期、也是最難彌補的差距,體現在全球標準與生態影響。美國公司更容易形成被全球開發者、科學研究機構和資本接受的技術標準,從而在無形中鎖定未來演進方向。中國機器人企業的生態影響力目前仍以本土市場為主,出海更多依賴性價比和交付能力,而不是規則和平台的主導權。這一差距並不會在短期內消失,但一旦中國企業在具身智慧或系統架構上形成原創突破,生態格局也可能隨之重塑。綜合來看,中國機器人產業並不存在「做不出來」的問題,而真正的挑戰在於「誰來定義機器人未來的智慧形態和技術標準」。在未來三到五年內,中國很可能繼續在機器人量產、人形機器人落地和商業應用規模上保持領先,而更長期的競爭關鍵,則取決於中國是否能夠誕生具備全球影響力的底層平台型企業,在演算法、系統和標準層面真正進入美國的優勢區。2026年展望展望2026,市場的焦點將集中在幾個方面:一是標竿產品的技術高度,特斯拉Optimus Gen3的實際性能與小規模生產進展將成為行業技術標尺;二是中國產業化的速度,以宇樹、智元為代表的企業能否兌現其萬台級量產目標,將檢驗中國供應鏈的實力;三是商業落地的廣度,更多類似Figure在寶馬工廠的實際應用案例亟待,以驗證其經濟價值下降,以驗證其經濟價值的變化是零度的成本斜率下降。儘管中美兩國發展路徑各異,但整個產業共同面臨兩大根本挑戰:軟體與資料是目前最大瓶頸,高品質訓練資料的稀缺限制了演算法能力的提升;硬體自主可控則是另一大課題,以減速器為代表的核心零件,其效能、成本與供應穩定性仍是產業發展的關鍵。未來,隨著供應鏈成熟帶動成本下降、關鍵技術持續突破、以及應用場景從工業向服務業不斷拓寬,人形機器人產業有望迎來關鍵的商業化拐點,為智慧化未來開啟新的篇章。(二)自動駕駛:商業化奇點,Robotaxi規模落地市場預期:2026年開啟主流化,2030年規模達2,000億美元智慧駕駛市場正迎來高階功能滲透率的爆發期,L3級以上自動駕駛成為核心成長引擎。工銀國際預測,自2026年起,L3以上自動駕駛的滲透率將從5%的基數開始快速躍升。華為的展望更為積極,預計到2027年,L3級的滲透率可望突破20%。作為關鍵功能的自動導航輔助駕駛(NOA)已展現強勁成長勢頭,預計到2030年,L2及以上智駕功能的滲透率將全面超過90%。技術上,產業正全面轉向由數據驅動的端到端架構,大模型成為核心。以理想、元戎啟行為代表的VLA架構,以及華為ADS 4.0採用的WEWA架構,都致力於擺脫對複雜人工規則的依賴,透過海量資料驅動模型自學習、自進化。此外,高階智駕的普及離不開核心硬體的成本優化,其中光達是關鍵。其單顆成本已從早期的數萬元降至2025年的1,200元水平,為大規模前裝量產鋪平了道路。Robotaxi作為終極應用場景,其商業化正迎來成本轉折點。生成式模擬技術突破大幅降低測試成本,東西方協作帶來供應鏈成本下降,以及全球監理政策的漸進支持。領先企業將跨越技術驗證與小範圍測試,在更多城市部署無人化車隊,真正開啟出行服務的商業變現。預計到2026年,Robotaxi的單公里營運成本將下降至與傳統計程車相當,具備了與現有旅遊服務競爭的商業化基礎。產業格局:中美雙線並行,商業模式分化從整體格局來看,中美自動駕駛產業已經形成了高度分化但相互映射的雙中心結構。美國在自動駕駛領域長期佔據技術原創與範式定義的優勢地位,尤其是在演算法、晶片、基礎軟體和頂層技術路線選擇上擁有先發優勢;而中國則在應用落地、量產能力、場景豐富度以及產業鏈完整性方面迅速崛起,形成了全球規模最大的自動駕駛試驗與商業化土壤。在技​​術路線上,美國產業更強調「通用智慧優先」的路徑,以特斯拉和Waymo為代表,普遍採用端到端或高度整合的演算法體系,透過大規模真實道路資料訓練統一模型,追求在複雜環境中的泛化能力。特斯拉堅持純視覺路線,將自動駕駛視為通用人工智慧的一部分;Waymo則在多感測器融合基礎上,注重高安全冗餘與演算法可靠性,已率先實現L4級的無人駕駛商業化運作。相較之下,中國產業更偏向「場景驅動、工程優先」的路徑,車企與科技公司多從L2+、L2++漸進式向高階智慧駕駛演進,借助複雜交通環境加速系統成熟。比亞迪、華為、小鵬等企業透過將高階智駕下放到中階車型,推動了技術快速普及。 2024年中國乘用車中具備自動駕駛能力的車型滲透率已超過50%,預計2025年將進一步提升至約65%。商業化路徑上,美國以Robotaxi和無人駕駛服務為核心,Waymo、Cruise等企業圍繞城市級無人運營展開,推進節奏謹慎而路徑清晰;中國則採用多線並進模式,一方面以Robotaxi作為L4技術試驗場,如百度Apollo Go已在多城規模化運營,另一方面透過量產乘用車推動高階智駕快速落地,使自動駕駛成為產品競爭力的重要組成部分,形成真實的商業閉環與數據反哺。從產業鏈結構觀察,美國在晶片、作業系統、核心演算法及軟體工具鏈等高價值環節優勢明顯,輝達、高通、Google、特斯拉等企業在算力平台與生態建構上掌握主導權;中國則在感測器整合、整車製造、供應鏈協同與成本控制方面表現突出,能夠將新功能迅速推向大規模市場。政策環境上,美國透過判例與監管框架逐步明確責任邊界,更注重安全與法律可解釋性;中國則依托政策試點與地方支持,形成「先試行、再推廣、邊跑邊改」的模式,顯著加快了技術迭代與商業驗證速度。2026年展望2026年,自動駕駛產業的核心看點將從技術演示轉向商業化營運數據的驗證。市場焦點不再侷限於技術參數比拼,而是深入至車隊規模擴張速度、日均訂單量、單位里程成本控制及獲利能力等實際營運指標。特斯拉Cyber​​cab的量產成本、Waymo的跨城市營運效率、文遠知行的無人化營運安全數據等,都將成為檢驗商業模式可行性的關鍵試金石。同時,法規演進仍是影響產業發展的關鍵變量,特別是完全無人駕駛事故責任認定法律框架的明確化,將直接左右資本投入與市場信心。若中美兩國能在2026年推出更清晰的監管政策,將為產業突破提供重要支撐,加速Robotaxi從試驗走向普及。(三)AI手機:範式初現,靜待花開市場預期:滲透率即將達到關鍵節點AI手機正從概念導入期邁向規模化普及階段。根據Canalys的預測,全球AI手機出貨量佔比將在2026年達到45%的關鍵滲透率節點,並於2029年佔據57%的市場。這一趨勢清晰表明,AI功能正從高階旗艦的專屬賣點,向全系標配快速演變。聚焦中國市場,IDC預計到2027年,新一代AI手機的出貨量將達到1.5億台,市佔率超過50%,領先全球平均。產業格局:蘋果生態築牆,中國安卓陣營差異化突圍目前,全球主流AI手機廠商在技術佈局上呈現出清晰的共通性與差異。共通性在於,各方均致力於將AI能力從應用層下沉至作業系統層,透過軟硬體協同優化,提升AI運算效率與使用者體驗。硬體層面,具備強大NPU算力的SoC晶片、大容量高頻寬記憶體(LPDDR5X)已成為高階機型的標準配置。然而,在生態路徑和商業模式演進上差異顯著。美國AI手機產業格局由蘋果絕對主導。蘋果透過Apple Intelligence將AI能力與自研晶片(A系列/M系列)、作業系統(iOS/macOS)和硬體終端深度綁定,建構「硬體-軟體-服務」整合的封閉護城河。這種模式提供了高度一致、流暢且安全的跨裝置體驗,形成了強大的使用者黏性。 Apple Intelligence的技術精髓在於其本地AI+私有雲運算的混合架構,旨在平衡強大的AI功能與極致的用戶隱私保護。其核心功能包括多模態能力(文字、圖像生成)、智慧寫作、優先通知、跨應用操作和增強版Siri。同時,蘋果的AI策略突顯隱私保護,大部分AI任務利用設備端強大的自研晶片進行本地處理。對於需要更強算力的複雜請求,系統會將其傳送至專門建置的私有雲處理。蘋果的封閉生態策略以隱私和跨裝置無縫體驗為核心,透過Apple Intelligence強化其高階市場定位和使用者黏性。中國市場則呈現百花齊放的多元化格局,並分化出兩條路徑:一是以華為、小米為代表的手機廠商,依托自研大模型和操作系統,構建軟硬一體化的全場景生態;二是以字節跳動(豆包)與中興合作為代表的互聯網技術與硬體技術公司,通過“AI技術賦能+硬體合作模式,解耦能碼與硬體技術公司,通過“AI技術賦能+硬體合作”模式,解耦能碼與硬體的新設施。以vivo、華為、小米為首的手機廠商,發揮深度綁定軟硬一體優勢,基於自身優勢探索差異化路徑。華為憑藉Harmony Intelligence建構全場景協同能力,鞏固其在多設備用戶中的優勢;小米則透過「人車家全生態」策略,利用其龐大的IoT設備基礎,主打萬物互聯的用戶心智;vivo則持續深耕AI影​​像,吸引對攝影有專業需求的用戶群。這種多元化競爭格局,使得安卓陣營在滿足細分市場需求和快速迭代方面具備優勢,但也面臨生態碎片化的長期挑戰中國廠商普遍採取靈活策略,透過模型精簡優化技術,加速AI手機向大眾市場的滲透。以字節跳動為代表的網路科技公司,也正透過與硬體廠商合作的模式切入市場,與手機廠商自主研發路徑形成互補。字節跳動旗下豆包與中興努比亞達成首個OS級合作,推出搭載豆包AI手機助手的nubia M153工程樣機。該合作打破了傳統預裝模式,實現了AI與作業系統的深度整合,由字節跳動提供核心AI大模型,中興負責硬體。豆包AI手機助理具備跨應用執行、複雜步驟規劃及情境記憶能力,支援多模態喚醒,並可透過模擬點擊完成操作。其功能涵蓋多平台比價、一站式旅行規劃等,展現了互聯網科技公司與手機廠商合作,透過能力解耦實現技術優勢互補的新典範。2026年展望真正的AI手機,必須是系統深度整合且體驗優秀的新一代產品。目前發展的核心瓶頸並非硬體能力,而是軟體層面尚未出現真正實現深度整合、賦予AI系統級權限的成熟作業系統。這意味著,AI手機需要的不是功能疊加,而是一個能從根本上理解並執行使用者複雜意圖的「智慧大腦」。 AI手機系統級深度整合的終極目標是重構人機互動範式,推動手機從「應用驅動」向「意圖驅動」的智能體(Agent)演進。展望2026年,競爭的關鍵將不再是AI功能的堆砌,而是誰能率先打造出真正懂用戶、能執行複雜任務的系統級智能體,這將徹底改變消費者的使用習慣,並重塑AI手機的商業模式。隨著AI手機普及與體驗升級的關鍵轉折點,投資脈絡也日益清晰,或將帶動大規模換機需求,為整個產業鏈創造顯著的增量空間。 AI手機市場的投資機會關鍵在於掌握三大趨勢。首先,硬體升級是確定性主線,AI對算力、儲存的需求將持續拉動SoC晶片、高頻寬記憶體(LPDDR)和快閃記憶體(NAND) 的需求。其次,商業模式正從硬體銷售轉向「基礎免費+高級訂閱」的軟體服務,AI應用商店和垂類模型優化商具備高成長潛力。最後,擁有深厚用戶基礎、能建構開放生態的平台廠商將掌握定義體驗的主動權,應專注於具備生態建構能力和在關鍵零件領域實現技術突破的廠商。(四)AI眼鏡:從0到1突破,開啟千萬級出貨時代市場預期:2026年邁入千萬級體量,年複合成長率超50%全球AI眼鏡賽道將在2026年迎來從前沿概念到規模化放量的關鍵爆發期,多家權威機構的預測數據形成高度共識,指向千萬級出貨量和百億級美元市場規模。IDC 10月發布的報告預計,2026年全球AI眼鏡出貨量將突破2368.7萬台,較2025年的350萬台實現跨越式增長,標誌著市場正式邁入千萬級體量。中國市場的成長同樣強勁。高盛預計2025年中國AI眼鏡市場將迎來爆發,出貨量預計從2024年的數十萬級躍升至百萬級,全球市場則向千萬級邁進IDC預測到2026年,中國廠商的AI眼鏡出貨量將佔據全球市場的45%,成為全球核心供應方。這項成長不僅來自消費級市場,工業、醫療等產業應用的規模化落地也將提供重要支撐,2025年國內已出現多起百萬級產業訂單,驗證了AI眼鏡在特定場景的實用價值。產業格局:美國定義產品,中國主導製造與放量從整體格局來看,中美AI 眼鏡產業已經形成了非常清晰的分工結構。美國主導的是產品定義、底層AI 能力與全球消費級標桿,中國主導的是供應鏈、產品形態快速迭代、規模化落地速度。在美國市場,AI 眼鏡的核心推動者是少數頭部科技公司,產品路徑相對集中且克制。以Meta為代表的RayBan Meta智慧眼鏡,是目前全球範圍內唯一實現規模化銷量的AI眼鏡產品,其成功並不依賴顯示或AR,而是聚焦拍攝、音頻與語音AI助理的「無顯示」輕量化路線。 Meta的優勢在於模型能力、系統級AI體驗和全球社交生態,透過語音互動、即時拍攝、內容總結等功能,把AI眼鏡定義為“始終在線的隨身AI入口”,而不是AR設備。谷歌與蘋果在美國的角色更偏向下一階段的定義者,Google已明確計畫在2026年推出AI驅動的智慧眼鏡,強調多模態AI與Android生態協同;蘋果則保持一貫的審慎節奏,更關注隱私、系統級體驗與Vision系列的協同,而非快速鋪量。與美國相比,中國AI眼鏡市場呈現出完全不同的景象,大量廠商同時入場快速試錯,形成百鏡大戰的格局。網路公司、手機廠商、AR新創公司、汽車廠商幾乎同時參與,使得中國成為全球AI眼鏡產品形態最豐富、迭代最快的市場。阿里夸克、小米、華為、百度、理想,以及雷鳥、Rokid、INMO等AR廠商,均已推出或正在密集迭代AI 眼鏡產品,覆蓋拍攝型、音頻型、AI+AR 融合型等多種路線。在技​​術路徑上,中美分歧同樣明顯。美國更強調“AI 能力優先、硬體極簡”,主流產品刻意壓制顯示模組,以降低功耗和佩戴負擔,把AI 眼鏡當作語音與感知的延伸終端。中國廠商則更激進,往往在同一代產品中同時嘗試AI 拍攝、即時翻譯、資訊提示、輕量顯示等多種功能,那怕犧牲部分續航和佩戴舒適度,也希望盡快探索出新的「殺手級場景」。這使得中國在產品創新速度和功能豐富度上明顯領先,但在體驗穩定性和系統成熟度上仍參差不齊。產業鏈角度來看,中國在AI眼鏡上的優勢更加明顯。光學模組、攝影機、音訊元件、電池、整機製造幾乎全部集中在中國,這使得中國廠商能夠快速壓低成本、快速改版、快速鋪貨。美國廠商即便在產品定義上領先,也高度依賴中國供應鏈完成量產。正因如此,全球AI 眼鏡出貨量的快速成長,很大一部分實際上是由中國製造體系所支撐的,而中國市場本身也正在成為全球成長最快的需求來源。商業化階段上,美國已經跑出了確定性路徑,而中國仍處於密集探索期。RayBan Meta 已經驗證了無顯示AI 眼鏡在真實消費者中的可行性,並貢獻了當前全球AI 眼鏡銷量的絕大部分,這使美國在產品正確性上領先一步。中國雖然產品眾多,但真正形成全國性、持續性銷售爆發的單一型號仍然有限,更依賴通路鋪設、生態綁定和價格優勢推動出貨。這也意味著,中國市場短期內仍將經歷一輪淘汰與收斂。綜合來看,中美AI 眼鏡格局的本質差異在於定位不同。美國把AI 眼鏡當作下一代運算平台的入口級設備,強調長期用戶習慣、生態綁定與系統體驗;中國則更像是在把AI 眼鏡當作一個高速演進的新硬體品類,透過規模、場景和供應鏈優勢,尋找最先跑通的商業模式。短期內,美國在產品定義和全球影響力上仍佔優勢,而中國在出貨量成長、產品多樣性和成本控制上更具爆發力。真正的分水嶺,將出現在誰能率先把AI 眼鏡變成日常剛需,而不是技術展示品。2026年展望2026年將是AI眼鏡從早期嚐鮮走向規模化普及的關鍵一年。其發展將主要取決於兩大驅動力:持續深入的消費者市場教育,以及以Meta、蘋果、Rokid、雷鳥創新為代表的中美龍頭企業的產品放量與生態建構。消費者的認知與接受度,將直接決定市場滲透的速度;而頭部廠商能否推出兼具實用性與性價比的爆款產品,則是產業跨越鴻溝、實現放量的核心。然而在邁向普及的過程中AI眼鏡也面臨挑戰:1) 技術升級:當前產品在續航、重量、顯示效果與交互自然度上仍有不足,若下一代產品未能顯著改善,將影響大眾接受度。 2) 內容體驗:殺手級應用缺失、各系統間生態封閉可能導致使用者體驗割裂,限制設備使用頻率與價值。 3) 成本與競爭風險:供應鏈降本速度若不及預期,將延緩普及進程。 4)隱私與監理風險:作為全天候配戴的感知設備,資料安全與使用者隱私保護將面臨嚴格檢視,相關法規的演變可能影響產品功能設計與市場推廣。(五)AI製藥:逆轉Eroom定律的希望,臨床轉化迎來考驗市場預期全球AI製藥市場近年快速擴大,中國市場起步略晚但成長速度明顯更快。Global Market Insights在2025年發布的報告顯示,全球AI製藥市場在2024年的規模約為36億美元,預計2025年將增至約46億美元,並在2034年達到約495億美元,對應2025年至2034年年均複合增長率約30%。隨著AI深度賦能藥物研發,市場預期2030年前後全球相關產業規模可望邁入數百億美元量級,AI製藥將從早期試點走向產業化放量階段。 2019年至2024年中國AI驅動藥物市場規模從0.7億元成長至7.3億元,年均複合成長率約57.4%。在國家政策支持和技術進步的共同推動下,未來五年中國AI製藥市場預計將維持接近70%的年均成長速度,市場規模到2028年達到約58.6億元,國內市場空間加速擴張。AI相關計畫和基礎科學突破正在成為推動製藥產業深度變革的關鍵力量。2010年全球AI介入的新藥研發項目數量不足10個,而2021年已增至158個。 2022年底,全球已有約80個由AI參與研發的藥物管線進入臨床階段,其中41個處於Ⅰ期,接近30個處於Ⅱ期。 AlphaFold等里程碑式技術突破推動AI深入生物醫學領域,2020年發布的AlphaFold2解決了蛋白質結構預測這一長期難題,為大分子藥物設計提供了新的技術路徑。 2024年發表的AlphaFold3進一步將預測對象擴展到蛋白質與核酸及小分子配體等複合體相互作用結構,使結構生物學資訊更直接服務於藥物標靶結合與先導優化。整體來看,未來幾年AI可望席捲製藥全鏈條,從標靶發現到臨床試驗各環節實現顯著提速降本,市場規模和產業影響力都有望倍增。產業格局美中兩國在AI製藥領域形成此消彼長的競爭格局,美國在原始創新和商業模式成熟度方面仍佔上風,中國依托龐大市場和醫療數據正在加速追趕並形成後發優勢。整體來看,美國憑藉起步更早、產學研體系完備以及跨國藥企與AI新創公司深度合作,在演算法、藥物化學和臨床轉化上更成熟;中國在政策扶持、資本投入和專利佈局的推動下,正通過平台化+管線化路徑快速補齊短板,未來在部分細分方向存在實現超車的可能,但短期內繼續超越高階藥物差距。美國在AI製藥上的優勢主要體現在創新生態和商業轉化環節。 2010年代起,Recursion、Exscientia、BenevolentAI等科技新創公司逐步崛起並成功登陸資本市場,多家大型製藥企業主動式佈局AI,與上述公司建立了穩定合作關係,全球已有超過800家知名藥廠以不同方式參與AI製藥專案。依托這一生態,美國在分子生成與篩選演算法、小分子和大分子設計能力以及臨床試驗設計和數據整合上積累深厚經驗,商業模式以專利授權、合作研發和里程碑分成為主,形成「AI初創+製藥巨頭」雙輪驅動的格局,在原始創新和全球業務拓展方面明顯領先。中國在AI賦能新藥研發上起步較晚,但近年來受惠於政策支持與資本投入,追趕速度非常快。國內已出現近百家相關企業,既包括晶泰科技、英矽智能等專注AI的新藥公司,也包括恆瑞醫藥、石藥集團等傳統藥企透過股權投資和聯合研發引入AI能力,依托臨床資源和本土需求推動創新藥從「Me-too」「Fast Follow」轉型為「First-in-class」。中國企業普遍採用「平台+管線」模式,一方提供藥廠AI演算法、算力和工具服務,另一方面自建或共建創新管線以增強自身議價能力和估值彈性。在這種路徑下,中國憑藉政府支持、海量醫療數據和快速試錯環境,在應用落地和成本效率上具有優勢,有機會在特定靶點、特定適應症或新型分子類型上形成差異化競爭,但在基礎研究積累、全球註冊經驗和高價值原創管線數量上仍明顯落後於美國。核心驅動與挑戰AI賦能製藥的核心驅動力在於大幅提升研發效率和成功率,進而緩解新藥研發投入高和周期長的結構性痛點。製藥領域長期存在倒摩爾定律(Eroom定律),即研發成本約每9年翻倍,新藥開發平均耗資高達20億美元到30億美元,耗時往往超過10年。人工智慧和機器學習結合大數據分析可望逆轉這一趨勢,加速早期研發決策。已有統計顯示,應用AI可將藥物發現周期縮短約40%,將臨床試驗時間縮短50%到60%,將新藥臨床成功率從12%提高到約14%。尤其在標靶挖掘和先導化合物優化等環節,演算法能夠更全面地搜尋化學空間並預測生物活性,取代大量人工反覆試誤。各國監管政策也逐步為AI開路,美國FDA和中國NMPA已經多次釋放支持利用AI提升研發效率的訊號,其中FDA針對AI演算法用於藥物設計和臨床試驗給予指導原則,提質增效和政策利多共同推動AI製藥從概念階段走向實際應用。AI賦能製藥在快速推進的同時也面臨一系列挑戰和瓶頸。高品質生物醫藥資料取得難度較大,產業存在資料孤島現象,關鍵實驗資料往往集中在少數大型藥企且對外保密,限制了AI模型的訓練與驗證。 AI演算法對藥物作用機理的解釋能力有限,監管部門和科學研究人員對黑箱決策仍有顧慮,新藥研發關乎安全性,需要更嚴謹的驗證機制。目前AI發現的候選藥物在實際成功率上尚未出現決定性突破,截至2025年仍然沒有任何由AI設計的新藥完成3期臨床或獲得上市批准,一些AI製藥公司在臨床階段遇到挫折後被迫調整戰略,市場仍在等待可以真正驗證AI價值的標誌性新藥。跨學科人才缺口和投入成本高企也在一定程度上限制了AI在醫藥領域的大規模應用。整體來看,技術進步與現實約束並存,AI正以前所未有的速度重塑製藥流程,但要實現2026年前後較為樂觀的預期,仍需在數據獲取、監管框架和臨床轉化等方面持續攻關,確保AI工具在嚴謹的科學體系中經受充分檢驗。2026年展望面向2026 年,AI 製藥可望進入由個案驗證走向體系化落地的關鍵階段。預計到2026 年,全球將有更多由AI 參與發現或優化的候選藥物進入Ⅱ 期甚至Ⅲ 期臨床試驗,部分計畫有望公佈中期結果,為市場提供更具說服力的臨床證據。若能出現一批在安全性和有效性上表現優於傳統同類藥物的品種,AI 對製藥成功率的邊際貢獻將更充分認可。在監管層面,FDA 與NMPA 預計會進一步完善針對AI 輔助藥物研發的技術指南,例如對虛擬篩選、體外模擬實驗和數位孿生模型提出更清晰的合規要求,為企業使用AI 工具提供更明確的操作空間。2026 年中國AI 製藥生態可望在平台成熟度和專案廣度上同步提升。國內AI 製藥公司預計將與更多創新藥廠和跨國藥廠建立聯合研發關係,形成以共建管線和里程碑分成為核心的合作模式。本土大型藥廠也將更有系統地將AI 融入研發流程,從先導化合物篩選延伸到臨床試驗設計和真實世界證據分析。隨著中國創新藥在全球註冊進程中的推進,部分由中國團隊主導、引入AI 技術的候選藥物預計將在境外重要市場啟動臨床試驗,為本土AI 製藥積累國際經驗。整體而言,2026 年可望成為檢驗AI 製藥價值和中美差距變化的關鍵觀察點,成功案例與失敗教訓都將對後續產業路徑產生深遠影響。(六)AI醫療診斷:多模態賦能臨床,邁向體系化落地階段市場預期醫療診斷領域正在掀起新一輪人工智慧浪潮,全球市場規模維持快速成長且前景看好。 Precedence Research測算,2024年全球醫療診斷人工智慧市場規模達到約13億美元,並在2034年增至約145億美元,10年複合成長率約27.4%。成長動力主要來自醫療體系對快速精準診斷的迫切需求,以及慢性病高發和人口老化帶來的龐大疾病負擔,這些結構性因素共同催生出更有效率和智慧的診斷解決方案,推動資本和產業持續加碼這條賽道。中國醫療人工智慧診斷市場同樣呈現爆發式成長態勢,體量和成長速度在全球都具有代表性。2024年中國人工智慧醫學影像市場規模約39億元,預計2025年將大幅升至57億元,2026年進一步成長到約88億元;疊加「健康中國2030」及「新一代人工智慧發展規劃」等政策利多,各地試點計畫正在陸續落地,人工智慧輔助診斷預計在2027年前後帶動中國醫療人工智慧整體市場突破100億元人民幣,從局部試點走向全國範圍的規模化應用,為全球醫療診斷AI市場貢獻越來越重要的增量。產業格局美國在AI醫療診斷產業上佔據先發主導地位,已經形成從基礎研究到臨床應用的完整生態。美國產業生態較為完善,既有Google、IBM、微軟等科技巨頭長期深耕醫療AI基礎研發,也有GE醫療、西門子醫療等傳統醫療設備企業全面整合AI技術。此外,大批專業化醫療AI公司在美國湧現,例如卒中診斷領域的Viz.ai、病理AI領域的PathAI、醫學影像領域的Zebra Medical等,形成了豐富的創新集群和多樣化商業模式。美國監管體系較為成熟,也為產業發展提供了穩定環境,2015 年FDA 僅核准6 款AI 醫療設備,而到2024 年底數字已突破1,000 款。根據FDA 最新公開清單及第三方統計,截至2025 年5 月底已共有1247 款AI 驅動醫療設備獲得FDA 授權,雙邊政策研究機構BPC 進一步估算,截至2025 年7 月已超過1250 款,顯示美國在AI 醫療器材臨床轉換上的顯著領先優勢。中國在AI醫療診斷領域以後來居上的姿態加速追趕,依托龐大的醫療需求和數位轉型浪潮持續釋放潛力。眾多中國醫療AI公司迅速崛起,尤其在醫學影像輔助診斷領域成果突出,代表企業包括專注眼底影像AI並於2021年在港交所上市的鷹瞳科技,被市場稱為中國醫療AI第一股,以及在肺部CT智能診斷領域已向科創板遞交招股書的推想醫療和專注心血管影像的科亞醫療等。此外,平安好醫師、好大夫線上等網路醫療平台也開發了智慧問診和診斷系統,將AI用於分診和疾病風險篩檢。中國監管部門積極回應創新步伐,自2018年以來已有多款AI醫療軟體取得第三類醫療器材註冊證。國家藥監局在2025年11月公開答覆中揭露,已累計核准超過110款基於深度學習的第三類AI醫療器材獨立軟體產品,AI醫療器材從試驗走向常態化應用。隨著審批提速,一批AI影像產品例如胸部CT結節檢測和DR糖尿病視網膜病變篩檢系統已經在全國數百家醫院落地應用,AI閱片功能在放射科逐步普及。一些地方衛生系統也將AI輔助診斷納入基層醫療,用於提升鄉村和社區醫生的診斷水平,中國模式在政府引導、試點示範和公立醫院深度參與方面表現出鮮明特色。中美在AI醫療診斷領域的競爭與合作格局正逐步成型,整體來看各自優勢與短板都十分清晰。美國在核心演算法研發、產品成熟度和國際市場份額等方面目前仍領先中國,這一優勢來自長周期科研累積、產業資本投入和完善的標準體系。中國正在發揮數據體量和應用場景優勢,在政策扶持和數位基礎設施完善的背景下,預計在影像輔助診斷和智慧問診等具體場景實現局部超越,例如在眼科和胸部疾病早篩領域,中國AI產品已經在大規模人群篩檢中展現出較高的實用價值。未來誰能在這領域取得更大話語權,將取決於持續的技術突破、監管體系對創新的適配程度以及商業模式的成熟度。可以預見,美中兩國企業將在全球市場同台競爭,同時也會在部分領域透過合作與數據共享推動AI診斷技術更快走向成熟,為全球患者提供更高品質的診斷服務。核心驅動與挑戰未來AI在醫療診斷領域將邁向智能水平更高和融合程度更深的新階段。第一個重要趨勢是大模型技術在醫療場景中的加速應用,隨著通用人工智慧的進步,各國科技公司紛紛研發面向醫療的超大規模預訓練模型。中國在這方向上動作頻繁,2023年被不少機構稱為醫療大模型元年,平安、百度、阿里巴巴等企業先後推出醫療版大語言模型,用於輔助問診和診斷決策支援。億歐智庫預測,2025年中國醫療大模型市場規模可望接近20億元,並以超過140%的年平均成長率擴張,到2028年形成數百億元的新興市場。這類醫療智能助理預計在2024年至2026年逐步進入臨床實踐,例如協助醫生書寫病歷、解讀檢驗結果,並在安全可控前提下根據患者主訴提出初步鑑別診斷建議。第二個趨勢是多模態AI診斷技術的快速發展,未來的AI不再局限於讀取單一醫學影像或數據類型,而是綜合分析影像、病理、基因組和電子病歷等多源數據,提供更全面和精準的診斷支持。例如,透過融合放射影像和病理影像,AI可以提高對腫瘤早期識別和分型的準確率,結合基因資訊和臨床數據則有助於預測患者對特定治療方案的反應。中美研究團隊已經在這一方向上進行探索,預計到2026年將出現多模態診斷AI的標誌性成果並開始商業化落地。AI診斷效能和醫療效率將出現顯著提升,這一趨勢已在多項臨床研究和真實世界試點中得到初步驗證。近年來大量研究表明,AI與醫生協同工作可以顯著提高診斷準確率和工作效率,例如史丹佛大學的一項實驗顯示,在醫生參考AI建議後,綜合診斷準確率提升了約10個百分點。國內有三甲醫院在乳癌篩檢中引入影像AI系統後,將早期篩檢準確率從82%提高到94%,漏診率從12%降至3%。隨著演算法模型持續迭代和算力條件不斷改善,預計到2026年前後,主流AI診斷產品在準確率和敏感度方面將進一步逼近甚至在部分標準化程度較高的場景中超越有經驗的專科醫生。例如在眼底影像和皮膚疾病影像辨識等領域,AI可望承擔大規模初篩工作,醫師更負責結果覆核、複雜病例判斷和最終決策,從而形成更有效率的人機協同診斷流程。產業監管和臨床認可度的提高將成為AI診斷從局部試點走向大規模應用的重要前提。目前AI診斷的一個現實挑戰是部分醫護人員對自動化工具仍然持保留態度,不少臨床醫師對AI給出的診斷結論缺乏充分信任,需要更多臨床證據和明確的責任邊界。隨著更多前瞻性臨床試驗數據和真實世界研究結果發布,以及針對AI診斷演算法的品質控制標準陸續出台,醫護人員對AI工具的接受度有望明顯提升。例如,美國放射科醫師學會已經啟動以影像AI為導向的驗證平台,用於系統性評估不同演算法的安全性和有效性。中國國家藥品監督管理局也在2024年提出要求醫療AI產品在說明文件中清晰標註演算法性質與診斷結論用途,為臨床使用提供明確邊界。到2026年,AI診斷可望在若干高價值應用場景中被納入臨床指引或健保報銷試點,從制度層面推動其走向常規化使用。綜合來看,未來2年至3年將是醫療AI從輔助工具走向關鍵生產力的窗口期,大模型驅動的智能問診、跨模態融合的精準診斷以及更加成熟的行業規範都將成為值得重點關注的亮點。同時仍需正視資料隱私保護、安全與倫理治理等挑戰,產業各方與監管部門需要協同推進,確保技術演進始終服從於提升醫療品質與病患福祉這一根本目標。2026年展望面向2026 年,醫療診斷AI 可望從單點技術驗證階段進入系統性落地和規模化擴張階段。影像AI 產品在三級醫院的滲透率預計將進一步提升,並向區域醫療中心和基層醫療機構下沉,胸部CT 結節篩檢、腦中風急診影像識別和糖尿病視網膜病變篩檢等場景有望成為首批實現常規化使用的應用領域。多模態診斷系統有望在腫瘤和複雜疑難疾病領域率先實現商業部署,為醫生提供跨影像、病理和基因的綜合決策支援。若相關項目能夠在真實世界數據中證明對減少漏診、縮短住院時間和降低總體成本具有顯著作用,醫療機構和支付方對AI 診斷的接受度將顯著提高。2026 年中國醫療診斷AI 生態可望在示範計畫和政策配對上取得實質進展,進一步鞏固在應用場景落地的優勢。預計到2026 年,中國將形成若干具有全國示範意義的智慧醫院和區域影像中心,這些項目將在影像閱片、病理診斷、檢驗分析和隨訪管理等多個環節全面嵌入AI 工具。部分省市可能推動將AI 輔助診斷納入按病種付費或按人頭付費系統的試點,以探索透過技術手段提升效率和控費的路徑。若相關政策順利推進,醫療診斷AI 在中國的商業模式將逐步從一次性設備和軟體銷售轉向以服務為核心的長期合作模式,為產業鏈上下游帶來更穩定的收入預期。整體來看,2026 年將成為醫療診斷AI 在中美兩國從關鍵應用走向體系化建設的重要節點,技術成熟度、政策環境和支付機制的協同演進將決定這一領域能否真正邁入永續發展階段。總結(一)結論整體來看,大國競爭下的AI浪潮正在形成技術高地與產業廣度並存的雙中心結構,投資主線逐漸收斂到算力、電力、端側硬體和高價值應用場景四個方向。美國在高階晶片、大模型與基礎軟體等技術高地上維持領先,並透過雲端平台和訂閱模式加速商業化落地。中國在電力成本、資料中心建置、製造能力和場景豐富度上形成規模優勢,透過效率路線和工程能力縮小與技術高地之間的效能差距。端側硬體和產業組織模式呈現美國負責產品定義和標準輸出、中國負責規模化製造和降本增效的格局,人形機器人、智慧駕駛、AI手機和AI眼鏡等領域的分工已經比較清晰。醫藥和醫療服務開始成為AI賦能的重要落地方向,從藥物發現、影像診斷到院內營運管理都有望受益於算力成本下行和演算法迭代。中長期看,更有潛力的資產往往同時具備技術護城河、供給約束和產業協同三類優勢,並能在中美競爭的框架下持續獲得資源和需求的雙重支撐。美股科技在各個維度已跨越從0到1的初始階段,從能源到端側發展主要聚焦於優化與探索期。(二)標的配置方向在可選標的層面,可以按照電力基礎設施、美股算力與平台、美股與全球機器人及端側硬件、A股算力與硬體鏈以及醫藥與AI結合標的五個方向進行梳理,以下羅列部分代表性個股與ETF以供跟踪參考。電力基礎設施A股與美股的電力設備龍頭及發電側新技術領導者:思源電氣(002028.SZ):高壓電力設備出海核心標的。金盤科技(688676.SH):深耕乾式變壓器,提供北美資料中心中壓變壓器及SST(固態變壓器),已取得相關訂單。伊戈爾(002922.SZ):資料中心移相變壓器(巴拿馬電源核心零件)供應商,已切入海外頭部客戶供應鏈。陽光電源(300274.SZ):全球儲能係統龍頭,海外出貨佔比高。阿特斯(688472.SH / CSIQ.O):北美大儲市場的重要參與者,美國出貨佔比高。西門子能源(ENR.DF):全球電力設備龍頭,在燃氣渦輪機、電網技術等領域優勢顯著,訂單可見度高。伊頓(ETN.N):全球電氣化巨頭,受惠於電網現代化、資料中心配電需求。通用電氣(GEV.N):燃氣渦輪機主要製造商之一,訂單高速成長。Vertiv (VRT.N):資料中心關鍵基礎設施(供電、溫控)全球領導者。Bloom Energy (BE.N):固態氧化物燃料電池(SOFC)的全球龍頭,已獲得甲骨文等資料中心訂單,直接受惠於資料中心備用/分散式電源需求。Oklo (OKLO.N):小型模組化核反應器(SMR)的先驅。全球基礎設施/清潔能源ETF:例如iShares Global Infrastructure ETF (IGF)、Invesco Global Clean Energy ETF (PBD),其中包含多家全球電力設備及新能源營運商。美國工業ETF:例如Industrial Select Sector SPDR Fund (XLI),涵蓋通用電氣、伊頓等工業及電氣巨頭。美股算力與平台標的美股算力與平台方向主要包括全球級晶片龍頭及雲端平台公司。輝達(NVDA.US)是目前AI訓練和推理GPU的核心供應商,資料中心業務收入佔比已成為公司營收的重要來源之一。超微半導體(AMD.US)在通用GPU和CPU領域形成差異化競爭格局,在AI訓練和推理伺服器中持續提高市場份額。博通(AVGO.US)在客製化加速晶片和高速互連晶片上具備優勢,同時受惠於雲端廠商自研ASIC外包需求。微軟(MSFT.US)透過Azure雲端平台與自研大模式加速企業級AI落地,在算力供給與應用層均具備重要地位。Alphabet(GOOGL.US)依託搜尋、廣告和雲端業務,將AI能力深度嵌入各類產品中,對生成式AI和基礎模型保持高強度投入。Meta Platforms(META.US)在大模型開源和AI推理基礎設施領域保持較強投入,並透過社群和廣告場景驗證AI商業化能力。VanEck半導體ETF(SMH.US)透過集中持有全球半導體龍頭公司,對AI算力晶片及配套產業形成一籃子敞口。安碩半導體ETF(SOXX.US)持有美國及全球主要半導體公司,在晶片周期和AI景氣上提供相對分散的配置方式。Invesco納指100ETF(QQQ.US)透過持有納斯達克100成份股,對美國大型科技平台公司和AI應用形成廣泛敞口。機器人與端側硬體標的機器人與端側硬體方向主要涵蓋自動駕駛、電動車、人形機器人和精密醫療設備等高工程密集度賽道。特斯拉(TSLA.US)在電動車和自動駕駛軟硬體一體化平台上具有先發優勢,是智慧駕駛與車載AI算力的重要載具之一。Intuitive Surgical(ISRG.US)透過達文西手術機器人切入微創手術領域,在醫療機器人和高端設備資料沉澱方面具有長期優勢。Global X機器人與人工智慧ETF(BOTZ.US)集中投資全球機器人與AI相關公司,對人形機器人、工業自動化和服務機器人形成組合曝險。安碩機器人與人工智慧多元ETF(IRBO.US)透過分散持有多家機器人、自動化和AI公司,為機器人和端側硬體賽道提供相對均衡的配置工具。小鵬汽車(9868.HK)在智慧駕駛與整車電子電氣架構上持續加強研發投入,是中國智慧電動車與車載AI的重要參與者之一。比亞迪股份(1211.HK)透過垂直一體化模式降低關鍵零件成本,在電動車和動力電池放量過程中為車載AI和智慧座艙提供硬體基礎。A股算力與硬體鏈標的A股算力與硬體鏈方向主要涵蓋伺服器、晶片、光模組及相關主題ETF。浪潮資訊(000977.SZ)長期深耕伺服器整機和AI伺服器市場,在國內算力集群建設中佔據較高出貨份額。中科曙光(603019.SH)在高效能運算和資料中心基礎設施方面具有較強競爭力,受益於東數西算等工程帶來的算力需求成長。中際旭創(300308.SZ)在高速光模組領域具備領先優勢,是AI資料中心內部高速互連的重要供應商之一。海光資訊(688041.SH)在伺服器CPU和配套晶片上推進國產替代佈局,是國內通用算力和AI算力的重要備選方案。半導體ETF(512480.SH)主要投資A股半導體設計製造公司,對AI晶片和功率元件景氣提供高彈性敞口。晶片ETF(159995.SZ)圍繞著本土晶片設計、製造和封測企業建構組合,在半導體全產業鏈上提供相對分散的投資工具。電腦ETF(512720.SH)追蹤中證電腦指數,持有覆蓋軟體、網路安全和部分AI應用公司,是國內AI軟體與電腦類股的重要指數工具。人工智慧ETF(515980.SH)以人工智慧主題指數為績效比較基準,聚焦A股AI演算法和應用相關公司,為AI主題提供集中敞口。醫藥與AI結合標的醫藥與AI結合方向主要涵蓋醫療服務、CRO和醫藥製造中對演算法和算力依賴度較高的公司以及相關醫藥ETF。Intuitive Surgical(ISRG.US)在手術機器人和數位化手術數據領域將持續受益於AI演算法優化和器械迭代。Teladoc Health(TDOC.US)在網路醫療和遠距醫療服務中累積了大量結構化和非結構化數據,是將AI用於追蹤管理和慢病管理的代表性公司之一。藥明康德(603259.SH)在小分子和生物藥CRO服務中積極佈局AI輔助藥物發現和研發流程數位化,有望在效率提升中放大平台優勢。藥明生物(2269.HK)在生物藥CDMO領域佔據全球較高份額,透過大規模製程數據累積為製程優化和品質控制中的AI應用提供基礎。泰格醫藥(300347.SZ)在臨床CRO領域具有較強全球專案管理經驗,臨床試驗數位化和智慧化推進可望為AI輔助試驗設計和數據分析提供情境。易方達滬深300醫藥ETF(512010.SH)追蹤滬深300醫藥衛生指數,透過集中持有A股醫藥龍頭公司,對醫藥類股整體景氣提供一籃子敞口。廣發中證全指醫藥衛生ETF(159938.SZ)追蹤中證全指醫藥衛生指數,相比產業龍頭更偏向全產業覆蓋,對中小市值醫藥公司也提供一定權重。華寶中證醫療ETF(512170.SH)追蹤中證醫療指數,持倉結構更偏向醫療服務和醫療器械,對醫藥中游服務和高端設備有相對較高暴露。 (諾亞精選)
Palantir AIP案例:花旗財富(Citi Wealth)
1、Use Case 名稱基於 AIP 的理財顧問智能作業平台(AI-Powered Financial Advisor Copilot)所屬行業:財富管理 / 私人銀行2、業務目標核心商業問題:理財顧問每天花費超過 60% 的時間處理瑣碎的文書工作、研報解讀和合規審查,導致服務客戶的數量受限,且響應速度慢。核心指標 (KPI):(1)效率:縮短從研報發佈到生成客戶建議書的時間(從小時級縮短至分鐘級)。(2)創收:通過更高頻、高品質的互動,提升資產管理規模(AUM)。價值對齊:通過 AIP,花旗旨在將理財顧問從資料搬運工轉變為戰略分析師,直接影響損益表中的非利息收入部分。3、場景描述Who:私人銀行理財顧問、合規官、投資分析師。Context:面對動盪的市場(如利率變動或地緣政治),理財顧問需要迅速識別那些客戶受影響,並給出個性化的投資建議。痛點:(1)資料孤島:客戶畫像在 CRM,資產組合在記帳系統,市場研報在 PDF 庫。(2)決策鏈斷裂:分析師寫好研報 -> 郵件發給理財顧問 -> 理財顧問手動篩選受影響客戶 -> 手動撰寫建議郵件 -> 合規審批。這個鏈路在沒有 AIP 時長達數天。4、資料來源結構化資料:客戶投資組合、交易記錄、風險偏好評分、內部合規評級。非結構化資料:長篇宏觀經濟研究報告(PDF)、市場即時新聞、過往溝通電郵記錄、複雜的監管法規文字。5、關鍵能力Ontology:建構了財富管理數字孿生。AIP Logic:通過 LLM 解析研報,並根據本體規則自動匹配資產組合。Workshop:為理財顧問打造的一站式作業台。AIP Chat:允許理財顧問用自然語言詢問:那些客戶目前對美債的敞口過高?6、流程步驟接入:整合多源系統資料進入 Foundry。語義解析:AIP Logic提取研報中的核心觀點(如:看好科技股,看淡能源股)。本體對應:將研報觀點自動與投資組合對象關聯。智能篩選:AI 識別出資產配比不符合新研報觀點的客戶名單。生成建議:LLM 呼叫客戶過往風格,生成個性化溝通初稿。合規預審:系統自動對照合規規則檢查。執行寫回:理財顧問點選傳送,記錄自動存入CRM。7、輸出成果Smart Inbox:每日自動推送優先順序最高的客戶行動建議。Automated Research Summary:一鍵生成研報精華摘要。Pre-filled Action Items:預填寫的交易指令或郵件範本。8、角色使用者:理財顧問(快速響應市場)。資料管理員:負責維護投資策略和合規準則本體。決策者:財富管理部門主管(監控全行層面的資產敞口風險)。9、成功指標研報處理效率:分析數千頁文件並匹配客戶的速度提升了約 20 倍。客戶覆蓋率:單個理財顧問能服務的活躍客戶數顯著增加。10、本體架構還原這是花旗案例的靈魂所在。Palantir 將現實的銀行業務抽象為以下對象:(1)關鍵對象客戶 (Client):屬性包括風險承受力、國籍、總資產。資產組合 (Portfolio):屬性包括現金流、各版塊百分比、歷史收益。持有頭寸 (Position):具體的股票、債券、基金。研報 (Research Report):屬性包括發佈日期、覆蓋行業、投資評級(買入/賣出)。合規限制 (Compliance Rule):具體的地緣政治禁令或洗錢防禦規則。(2)屬性與關聯[客戶] 擁有 -> [資產組合][資產組合] 包含 -> [持有頭寸][持有頭寸] 關聯 -> [行業/類股][研報] 影響 -> [行業/類股](3)多面體屬性在這個本體中,資產組合 是一個動態實體。它不僅包含靜態的帳面價值,還整合了:即時流資料:當前市場行情即時計算即時估值。邏輯屬性:根據 AIP Logic 計算出的偏離度(即:當前配置與專家建議的差距)。11、AIP Logic 與決策流LLM 的角色:高級分析員+文案翻譯官。LLM 負責把非結構化的研報(PDF)轉化為本體中的結構化對象(屬性提取)。推理模式:理財顧問問:如果日元加息,那些客戶面臨最大風險? AIP Logic 邏輯:遍歷本體 -> 尋找持有 [日元資產] 或 [對日出口企業股票] 的 [資產組合] -> 關聯到 [客戶] -> 過濾出 [中高風險承受度] 以外的群體。邏輯函數:花旗將複雜的金融模型(如:Var 風險價值計算)封裝為 Typescript 函數,LLM 在需要時呼叫這些函數,而非讓 LLM 自己做數學計算。人機協同:嚴禁 AI 直接下單。AI 僅生成建議和郵件草案,理財顧問必須點選Review & Send,這一步被嚴格記錄在審計日誌中。12、閉環行動與工程實現Action 觸發:通過 AIP Actions,系統可以一鍵將生成的投資摘要寫回到花旗內部的 CRM 系統,並觸發下游的交易審批流。工程棧:AIP + 內部專有金融模型 + 企業級 LLM 部署(確保資料不出行)。安全治理:利用 Purpose-Based Access Control (PBAC)。AI 無法訪問它無權查看的客戶隱私資訊。即使是 LLM,也只能在使用者權限範圍內檢索本體資料。13、架構洞察與啟發(1)底層哲學Palantir 的核心哲學是 模型不等於產品。在花旗案例中,LLM 本身並不值錢,值錢的是將 LLM 掛載到定義清晰的本體(Ontology)上。如果沒有本體,LLM 只是在胡言亂語;有了本體,它就成了精通花旗業務邏輯的專家。(2)對開發者的啟發解耦計算與推理:不要讓 LLM 算帳,讓它呼叫封裝好的業務函數。本體是知識的錨點:在建構 AI Agent 時,先定義清楚你的核心對象和關係。AI 的強大程度取決於你對業務實體建模的顆粒度。Action 閉環是關鍵:AI 如果只能聊天,價值有限。必須要有寫回能力,直接觸達 CRM、ERP 或交易系統,才能真正實現 ROI。 (壹號講獅)