#定義
算力三國:GPU、TPU、LPU 誰將定義 2026?
核心洞察在人工智慧浪潮席捲全球的當下,算力已成為驅動技術革命的核心引擎。在這場激烈的算力競賽中,圖形處理器(GPU)、張量處理器(TPU)與語言處理器(LPU)等專用晶片扮演著不可或缺的關鍵角色。GPU 憑藉輝達的 CUDA 生態,從圖形渲染領域完成華麗轉身,穩穩奠定 AI 訓練的基石地位;TPU 源於Google對內部算力危機的前瞻性佈局,以專用架構重塑了 AI 計算效率的行業標竿;LPU 則由前 TPU 核心團隊再創業而生,精準切入推理市場,以創新性的確定性執行架構挑戰傳統計算範式。這三款晶片的誕生與演進,共同譜寫了 AI 硬體從通用到專用、從訓練到推理的技術史詩,並將在未來持續定義 AI 技術的邊界,塑造行業發展新格局。一、回顧歷史:AI 晶片的誕生與初心1、GPU:從圖形處理到 AI 基石的華麗轉身黃仁勳的遠見:CUDA 生態的建構在人工智慧浪潮席捲全球之前,輝達的核心業務聚焦於為電子遊戲提供高性能圖形處理器。然而,公司創始人兼 CEO 黃仁勳的遠見卓識,早已超越圖形渲染的侷限。他敏銳洞察到,計算的未來在於平行處理,並堅信 GPU 的平行計算能力有望突破遊戲領域,拓展至更廣泛的科學計算場景。早在 2010 年代初期,黃仁勳便大力推廣 “加速計算” 理念,著手建構圍繞 GPU 的完整生態系統。這一戰略的核心是 CUDA(Compute Unified Device Architecture,統一計算裝置架構)—— 一個允許開發者使用 C 語言等高級程式語言,編寫在 GPU 上運行的平行計算程序的軟體平台。“CUDA 的出現,讓原本專用於圖形處理的 GPU 實現‘通用化’,搖身一變成為能夠執行各類複雜數學運算的‘通用圖形處理器’。”AlexNet 的引爆點2012 年,AlexNet 模型在 ImageNet 圖像識別競賽中取得壓倒性勝利,成為 GPU 在深度學習領域崛起的標誌性事件。在此之前,深度學習雖已在學術界引發關注,但受限於計算資源,發展始終較為緩慢。AlexNet 的成功,不僅印證了深度學習在圖像識別領域的巨大潛力,更向學術界和工業界充分展示了 GPU 在加速深度學習訓練中的獨特優勢,直接推動 GPU 成為 AI 訓練的主流硬體。2、TPU:Google的 “未雨綢繆” 與內部創新算力危機:語音搜尋帶來的挑戰Google的張量處理器(TPU),源於對公司未來算力需求的深刻危機感與前瞻性思考。2013 年,Google工程師進行了一項驚人測算:若當時全球每位Android使用者每天僅使用三分鐘語音搜尋服務,Google就需將整個資料中心的容量擴充一倍,才能滿足激增的算力需求。這場潛在的算力危機不僅是技術層面的挑戰,更是戰略層面的警醒。它讓Google高層深刻認識到,AI 將成為公司未來所有產品與服務的核心驅動力,而算力正是這場變革的基石。脈動陣列:打破馮・諾依曼瓶頸Google工程師意識到,要從根本上提升 AI 計算效率,必須突破傳統計算模式的束縛。他們需要一種能夠最大限度減少記憶體訪問、將計算與資料流緊密結合的創新架構。最終,Google將目光投向了一種古老卻極具潛力的架構 —— 脈動陣列(Systolic Array)。該概念最早於 1970 年代末提出,設計思想是讓資料像血液在心臟中流動般,在處理器陣列中有節奏地循環流動,從而大幅提升計算效率。3、LPU:Groq 的 “推理革命”前 TPU 團隊的再創業在Google TPU 項目取得巨大成功後,其核心技術團隊成員喬納森・羅斯(Jonathan Ross)選擇離開Google,創立了名為 Groq 的新公司,並推出全新晶片概念 —— 語言處理單元(Language Processing Unit, LPU)。LPU 的設計理念,是在 TPU 基礎上實現進一步 “專用化”。如果說 TPU 是為 “張量處理” 而生的通用 AI 加速器,那麼 LPU 便是為 “語言處理” 這一特定 AI 應用場景量身打造的超專用加速器。“AI for Everyone” 的理念Groq 及其 LPU 的背後,蘊含著與科技巨頭略有不同的哲學理念 —— 推動 “AI for Everyone”(人人可用的 AI)。他們認為,當前 AI 的開發與部署成本依然高昂,尤其是對中小型企業而言,建構和維護高性能 AI 推理基礎設施是一項巨大挑戰。“LPU 通過採用‘確定性執行’架構,旨在為每一次推理請求提供可預測、極低延遲的響應。”二、立足當下:晶片架構、性能與生態1、核心架構解析:從通用到專用晶片架構演進示意圖plaintext三大晶片架構核心特徵GPU 架構:CUDA 核心 + Tensor Core 平行處理架構數千個通用 CUDA 核心,支援多工平行計算專用 Tensor Core,高效處理矩陣運算搭載 NVLink 高速互聯技術,提升多晶片協同效率TPU 架構:脈動陣列(Systolic Array)專用設計256x256 MAC 單元陣列,聚焦矩陣運算最佳化資料在陣列內部循環流動,減少記憶體訪問延遲65,536 個 ALU 平行計算,算力密度高LPU 架構:確定性執行可程式設計流水線軟體優先編譯器調度,實現指令高效執行傳送帶式資料流設計,保障處理穩定性片上 SRAM 高速儲存,提升資料讀取速度2、性能對比與主流模型適配主流模型適配分析3、生態系統:軟體、框架與開發者社區NVIDIA CUDA:成熟生態構築護城河擁有 cuBLAS、cuDNN、TensorRT 等豐富工具鏈深度支援 PyTorch、TensorFlow 等主流 AI 框架全球開發者社區龐大,技術資源豐富Google TPU:與自研框架深度融合搭載 XLA 編譯器最佳化,提升計算效率提供端到端 AI 解決方案,簡化開發流程與 Google Cloud 深度整合,支援雲端部署Groq LPU:新興生態加速崛起推出 GroqCloud API,降低使用門檻採用軟體定義硬體模式,靈活適配需求編譯器驅動架構,最佳化指令執行效率三、資本與合作:AI 晶片市場的博弈1、TPU v7 的影響:Google的 “反擊”性能突破:對標 NVIDIA 旗艦晶片Google於 2025 年 11 月發佈的第七代 TPU(代號 Ironwood),是其對 NVIDIA 在 AI 晶片市場主導地位發起的最強有力 “反擊”。TPU v7 在性能上實現巨大突破,單 pod 聚合計算能力據稱達到 NVIDIA 最大 NVL72 機架配置的約 40 倍。這一驚人的性能優勢,讓 TPU v7 成為全球 AI 晶片市場的焦點。其成功不僅體現在單晶片性能上,更源於卓越的系統架構設計。市場策略:從自用到對外銷售TPU v7 的發佈,標誌著Google AI 晶片市場策略的重大轉變。在此之前,TPU 主要供Google內部使用,或通過 Google Cloud 向少數客戶提供服務;而 TPU v7 推出後,Google開始積極將其作為商品化硬體產品,向更廣泛的外部客戶銷售。潛在大客戶:Meta(數十億美元交易)、Anthropic(採購 100 萬 + TPU 晶片)、xAI 等科技公司市場目標:搶佔 NVIDIA 10% 的 data center 收入份額2、輝達與 Groq 的合作:強強聯合合作背景:補齊推理市場短板儘管 NVIDIA 在 AI 訓練市場佔據絕對統治地位,但在推理市場,其優勢並不突出。推理任務對延遲、成本和能效的要求更高,這正是 GPU 等通用計算晶片的短板。Groq 的 LPU 恰好彌補了這一缺口 —— 憑藉專為推理最佳化的架構,LPU 在延遲、吞吐量和能效方面表現出色,完美適配推理場景需求。重磅合作:200 億美元的戰略佈局據報導,NVIDIA 與 Groq 的合作協議價值高達 200 億美元,充分彰顯了 NVIDIA 對 Groq 技術價值與市場潛力的高度認可。這一合作將進一步鞏固 NVIDIA 在 AI 晶片市場的領導地位,通過整合 Groq 的推理技術,NVIDIA 可向客戶提供從訓練到推理的端到端解決方案,建構更完整的技術閉環。四、展望未來:2026 年的 AI 晶片格局1、技術趨勢:專用化、高能效與異構計算專用化趨勢ASIC 晶片市場份額預計到 2026 年將突破 30%,專用晶片向細分場景深度滲透:TPU:聚焦大規模矩陣運算最佳化LPU:深耕即時推理場景邊緣 AI 專用晶片:適配終端裝置需求高能效發展“綠色 AI” 成為行業關鍵指標,性能功耗比優先成為研發核心:採用 3nm、2nm 先進製程工藝創新架構設計,減少無效計算液冷散熱技術普及,提升散熱效率異構計算多晶片協同工作成為主流架構,各晶片各司其職、優勢互補:GPU:主導模型訓練環節TPU:負責大規模推理任務LPU:支撐即時互動場景AI 晶片技術演進時間線2、市場格局:競爭與合作並存雲端運算巨頭的自研晶片之路現有佈局:Google(TPU v7 及後續產品)、亞馬遜(Trainium 和 Inferentia)、微軟(Maia 晶片)、蘋果(Neural Engine)2026 年預期:自研晶片性能與 NVIDIA 正面抗衡,與雲服務、軟體生態深度繫結,提供一站式 AI 解決方案,減少對第三方供應商依賴初創公司的機遇與挑戰Groq 的成功證明了細分領域創新的可能性,但初創公司仍面臨多重挑戰:機遇:邊緣 AI 市場快速增長、低功耗推理需求旺盛、細分場景創新空間廣闊挑戰:研發成本高昂、巨頭生態競爭壓力大、供應鏈受地緣政治影響3、應用前景:從雲端到邊緣大模型推理普及化隨著 TPU、LPU 等專用晶片的發展,LLM 推理成本將大幅下降,應用場景全面拓寬:智能客服:實現自然高效的人機互動教育領域:提供個性化學習輔導醫療健康:輔助疾病診斷與治療邊緣 AI 興起物聯網裝置普及推動邊緣 AI 成為新熱點,低功耗晶片賦能終端智能:自動駕駛:即時處理感測器資料智能家居:提供個性化場景化服務智能裝置:實現本地 AI 功能,降低雲端依賴AI 晶片跨行業滲透與融合製造業:智能質檢、智慧物流最佳化金融業:智能風控、量化交易加速醫療健康:影像診斷輔助、新藥研發提速自動駕駛:高等級自動駕駛功能落地結語從 GPU 的平行計算革命,到 TPU 的專用架構創新,再到 LPU 的確定性執行突破,AI 晶片的發展史是技術創新與市場需求相互成就的演進史。展望未來,AI 晶片市場將呈現多元化、專業化的發展格局。專用化、高能效、異構計算將成為技術發展的主旋律,市場競爭也將從單一性能比拚,轉向技術、資本與生態的全方位較量。在這場 AI 算力革命中,無論是科技巨頭、初創公司,還是各行各業的企業,都將找到自身定位,共同推動 AI 技術向更高效率、更廣泛應用、更可持續的方向發展。 (大行投研)
《從地方到世界 慈濟永續年會激發青年社會創新》慈濟基金會結合「青年公益實踐計畫」與「國際青年永續年會」,於2025年12月6日在臺北市松山文創園區盛大舉辦「From Dream to Impact|未來的樣子由你定義」活動。活動以「從夢想到行動、從地方到世界」為主題,匯集青年行動者、社會創新團隊與永續實踐者,共同分享如何運用創新思維回應社會挑戰,並以具體行動描繪永續藍圖。慈濟基金會顏博文執行長在會中勉勵青年站出來,並強調今年的活動特別著重「夢想與行動的連結」,許多青年團隊在過去一年中,從構想、培力到發表,逐步將理念化為具體成果,累積社會影響力。他呼籲:「地球的未來應該由年輕人來定義!」。「From Dream to Impact」不僅是成果展覽,更是一個行動平台。現場透過展覽,觀眾可近距離認識國際青年及第八屆「青年公益實踐計畫」團隊的年度成果,並與團隊互動交流,深入了解其社會影響力。公益導師敏迪選讀也帶來議題短講,從地方行動出發,連結全球議題,激發青年以國際視野思考社會問題。此外,活動規劃跨界共創座談,聚焦聯合國永續發展目標(SDGs)三大核心面向—People、Planet、Prosperity,探索永續的多元道路。第八屆團隊以三分鐘簡報分享一年的努力與成果,現場更設有人氣票選活動,鼓勵觀眾支持心目中的最佳團隊。慈濟基金會多年來持續透過多元計畫支持青年。第八屆「青年公益實踐計畫」共培育13組團隊,提供業師一對一輔導、60小時工作坊及新台幣1,500萬元行動獎助金,協助青年將理念化為具體行動。另有「慈悲科技創新競賽」吸引20組團隊、「Young善行動」支持52團595位青年、「慈濟獎學金」鼓勵22位學生等多項計畫,從環保、慈善、醫療到教育全面支持青年發展。在國際面向,「國際青年人才培育計畫」培訓35人,並推動跨國伴學計畫,深化跨國合作與人文交流。活動共同推動者 Impact Hub Taipei 共同創辦人張士庭感謝基金會的支持,並勉勵青年:「每一個看似微小的行動,都在為未來埋下重要的種子。真正的創新,本來就從不完美開始,而你們願意一次次站起來的那個瞬間,就是成長的開始。」慈濟表示,青年行動者從農業、教育、環境到社會關懷提出多元解方,展現智慧與勇氣,象徵青年以夢想為起點,以行動推動社會前進。
雷軍疑似惱羞成怒,親自下場手撕黑粉
今時不同往日。雷軍震怒,連續發文怒懟網友、自證清白雷軍態度突然變了。一天內,雷軍連發3條微博,回應“小米汽車好看比安全重要”的質疑,態度強硬,語氣嚴肅,一改以往儒雅親和的形象。雷軍表示,自己早在2023年起,就屢次強調小米汽車安全高於一切。圖源:微博圖源:微博圖源:微博他在回覆網友的評論中表示:“網上有不少人斷章取義、歪曲抹黑”“安全是基礎,安全是前提”;“安全高於一切”。圖源:微博評論區也炸鍋了,不少人冷嘲熱諷。“雷總,你需要顏值的時候說顏值是第一位,現在不需要了,又變成安全是第一位了”;“安全是做出來的,不是說出來的”。圖源:微博也有網友大力支援雷軍。圖源:微博一切的導火索,源於2023年4月的一次採訪,當時雷軍在談論產品定義時表示“一輛車,好看是第一位的”。圖源:抖音這句話結合具體場景,其實沒有什麼特殊,然而,一旦被單獨擷取並傳播,就變味了。雷軍確實不止一次在公開場合強調:安全是基礎,安全是前提,安全高於一切。那麼,為什麼會把小米和“不重視安全”扯上了呢。究其根本原因,是公眾對於今年以來新能源汽車傷亡事故的不信任累積。先是3月的安徽銅陵高速事故,一輛小米SU7標準版在開啟NOA(導航輔助駕駛)狀態下,以116公里/小時的速度行駛至施工路段時,系統檢測到障礙物後發出提醒並開始減速。但車輛仍以約97公里/小時的速度撞上水泥護欄,隨即爆燃起火,車內三名大學生不幸遇難。自那之後,公眾對於對於新能源汽車輔助駕駛、隱藏式門把手、以及車輛應急安全機制的詰問,從來沒有停止過。再是上個月,成都天府大道一輛小米SU7 Ultra在行駛中失控,先與綠化帶髮生碰撞,隨後翻滾至對向車道並起火。現場多段行車記錄儀視訊顯示,事發前車輛行駛狀態已顯異常,速度預估超過100km/h。起火後,多名路人施以援手,但他們徒手、用工具砸車窗,車門始終緊閉。後經檢測,車主涉嫌酒駕,但公眾的質疑仍不少落在了車輛速度和門把手設計上。圖源:微博由此,不信任情緒進一步堆積,一發不可收拾。本質上,這種不信任感,並非僅由單一品牌或單一事件引發,而是源於對整個新能源汽車行業安全底線的一種普遍憂慮。2025年,除小米外,特斯拉、蔚來、問界等多個品牌也相繼被報導發生了交通事故甚至起火事件。一系列事件疊加,不斷衝擊著公眾的心理防線,使得任何一起新的安全事故都可能成為壓垮信任的“最後一根稻草”。小米SU7的事故足夠典型,積壓已久的不安情緒終於找到了一個具體的投射對象,將對行業的普遍擔憂,轉化為對小米“顏值即正義”理念的集中拷問。小米公關要換人了就在同一天,另一條消息傳開:小米公關要換人了。圖源:財聯社答案浮出水面,不少人推斷:或許這是雷軍態度大變的原因——小米準備改公關策略了。最近小米汽車爭議不斷,公關應對也是一直被吐槽的對象。作為小米公關一號位,王化可以說是僅次於雷軍的對外“知名IP”,在無數小米高峰和低谷時刻,王化都代表小米出面進行回應。自2015年加入小米,王化一路從普通崗升到公關一把手,跟著小米走了10年,如今突然變動,小米內部公關策略大調整的動向,可以窺知一二。不過,現在大家最關心的:新任公關負責人會是誰?能接住小米這波公關壓力嗎?但本質上,小米最大的公關是雷軍本人,最大的敘事是雷軍的IP。截至2025年11月初,雷軍抖音粉絲從10月13日的4479萬降至約4380萬,日均掉粉超1萬。圖源:抖音曾幾何時,雷總的一條吃豆漿油條早餐視訊就能輕鬆登上熱搜。有資料估算,雷軍強大的個人IP每年為小米節省行銷費用超10億元。IP的影響力過於強大,導致一系列事件發生後,公眾的自然反應不是等待小米公司的官方說明,而是直接要求雷軍本人表態。這便是硬幣的另一面。在這個擅長造神又熱衷毀神的時代,造神時,外宣和IP是錦上添花,一旦進入逆風局,則是越描越黑。但現在說雷軍“人設徹底崩塌”還為時尚早,碎片化的時代,網際網路的記憶正在指數級縮短。真正的改變不是否定過去,而是有勇氣超越成功的路徑依賴。當小米不再只是“雷軍的小米”,而真正成為“科技的小米”,或許便是雷軍口碑翻盤的時刻。速度崇拜,該停停了除了顏值,小米汽車還有一個飽受爭議的點——零百加速度。近一年來,網路上頻繁出現使用者分享小米汽車撞入綠化帶、沖上路沿、甚至失控漂移的視訊。小米SU7“綠化帶戰神”這個名字便是由此得來。圖源:小紅書這張新能源汽車零百加速排行榜,排名靠前的除了小米汽車外,還有位居第一的昊鉑SSR,以及極氪001 FR、特斯拉Model S等。圖源:AutoLab“零百加速時間在3秒內”什麼概念?紅燈起步後3秒時間內,一口氣能衝出去將近100米距離。當前中國高速公路最高限速為120km/h,城市道路限速多為60-80km/h,幾乎不存在需要5秒內乃至3秒內完成百公里加速的實際場景。車企不斷刷新的加速紀錄、新能源汽車行業普遍存在的“參數競賽”已經偏離實際使用需求。此外,在這個榜單中,還有一個很值得一談的因素——價格。拋開保時捷、蓮花跑車、法拉利這種傳統超跑,榜單裡不少車型的價格壓到了50w以內。價格的降低,意味著使用門檻下壓以及出貨量的增加,這一點,現在看來,並不是好事。資料顯示,小米SU7車主中50%年齡在25-35歲之間,30%為首次購車使用者,多數此前僅駕駛過10-15萬元等級的普通家轎。雷軍也在直播時表示,“(小米SU7)這批車主的平均年齡大多集中在三十四五歲左右,其中女性車主的比例接近20%。”網上有不少人調侃,小米SU7使用者刻板印象是“鬼火少年”,一定程度上驗證了這一點。這種“超跑級動力”與“家用級經驗”之間的巨大落差,進一步構成了潛在的使用風險。好在,約束也來了。近日,公安部組織完成了《機動車運行安全技術條件》國家標準的徵求意見稿(下稱“《條件》”)。其中明確提及了限速要求:乘用車每次啟動後,應處於百公里加速時間(0~100km/h)不少於5秒的默認狀態,駕駛員需通過主動操作才能切換至運動模式。法規的出台不是終點,車企更應該負起責任。畢竟,在安全面前,再極致的顏值和參數,都不及“一路平安”四個字來得珍貴。 (網際網路頭條)
與OpenAI平行,微軟AI CEO:回到常識,把人放在中心
2025年11月6日,微軟宣佈成立 MAI 超級智能團隊(MAI Superintelligence Team)。這個團隊直屬 Microsoft AI CEO Mustafa Suleyman 領導,不依賴 OpenAI 模型,自研超級智能。沒有發佈會,沒有演示。這支被稱為世界上最好的 AI 研究團隊之一的組織,只做了一件事:定義智能邊界。(微軟 AI CEO:為什麼要給超級智能劃邊界?)在對話中,Suleyman 明確表示:我們永遠不想要一個擁有這三種能力的系統:自我改進、完全自主、獨立設定目標。當 ChatGPT、Claude、Gemini 的競爭日趨激烈,他卻選擇畫出紅線。微軟並未終止與 OpenAI 的合作,仍然保持著主要投資方和模型部署平台的角色。但 MAI 團隊的成立,意味著微軟正式走上一條平行但獨立的研發路線。(《財富》頭條:微軟不再完全依賴 OpenAI,正式加入“超級智能”競賽)與 OpenAI 追求通用平台不同,微軟的方向是:不求更強,但求更穩;不求泛化,但求可控。那麼,Suleyman 所說的把人放在中心,到底是什麼?安全、落地、邊界,是否真能成為超級智能下半場的主導邏輯?第一節 | 微軟為什麼另起團隊?Mustafa Suleyman 沒有用技術術語開場,而是開門見山地宣告了微軟開發超級智能的核心原則。我們永遠不想要一個系統,它不僅比我們任何一個人都聰明,甚至比我們所有人加在一起還聰明,並且還具備三種能力:自我改進、完全自主、獨立設定目標。換句話說,微軟要避免打造一個最終會失控、脫離人類掌控的系統。這是立場,不只是技術路線。很多公司都在研究如何訓練出能力更強的 AI,然後通過對齊機制確保它不傷人類。Suleyman 不認同這種做法,他認為應該在一開始就避免那種可能脫離人類掌控的路徑。控制、遏制和對齊,是我們從第一天就寫進這個項目裡的三個基礎。這是微軟成立 MAI 團隊的出發點:不再依賴外部通用模型,而是自己建立一條更穩妥、更受控的超級智能研發路線。與 OpenAI 的合作並未中斷,但 Suleyman 給出的訊號很明確:微軟需要掌握自己對超級智能的設計權和控制權。因為行業裡並不是所有人都同意這一點。有人相信,只要 AI 和人類價值觀保持一致,那怕它擁有完全自主權,也依然可以被信任。但在 Suleyman 看來,這種想法太過樂觀:“我認為這是一個非常非常重要的區別。微軟的選擇,是基於一種不同的風險觀念:不把安全寄託於事後補救,而是從源頭就規避不可預測的風險。”這看法的背後非常明確:不是 AI 會不會出問題,而是當問題出現時,人類有沒有剎車可踩。所以,微軟另起爐灶,不是因為 OpenAI 不夠強,而是因為這套超級智能必須從安全可控開始,就寫在“說明書”的第一頁。第二節 | 與其造萬能大腦,不如先落地三件事微軟的新團隊 MAI,把注意力集中在三件事上:醫療、日常助手、安全護欄。為什麼是這三個方向?Suleyman 說:“我們是一個平台的平台,很多人會使用我們建構的模型。我們的任務,是提前思考那些未來的用途必須通過那些測試,才能被信任地使用。”他用“橡膠正在接觸路面”來形容這個轉變:AI 不再停留在實驗室和概念層,而要進入現實使用場景。一、醫療:比醫生更快,但必須可解釋在訪談裡,Suleyman 把醫療診斷放在首位。這個領域既能體現超級智能在高精度、強計算、處理不確定性上的價值,也最容易出事。微軟的目標不是讓 AI 取代醫生,而是讓醫生能看懂 AI 的思路。AI 可以從海量影像中發現早期癌變,也能在藥物組合上給出方案,但每一個推薦,都要能被追溯、能被解釋。安全並非空談,它代表三個核心:系統必須可理解、可解釋、受約束。二、日常助手:幫人做決定,而不是替人生活Suleyman 說,AI 應該成為使用者的助手,而不是主角。微軟希望開發的,是那種能理解你需求、記得你偏好、給出合適建議的智能助理,但它永遠不會越界。我們想要的,是能加速人類潛力的智能,而不是取代人類互動。 這類 AI 會記得你的行程、幫你整理資料、甚至協助創作,但它的設計原則是:幫助不主導,理解不干預。三、安全護欄:先把防線建起來談到安全,Suleyman 指出了一個尷尬的現實:航空、汽車、能源行業都花了幾十年建立起層層安全機制,而 AI 領域目前幾乎空白。“今天我們在 AI 中真的沒有多少這樣的機制。”MAI 團隊正在研究如何提前發現風險,比如通過紅隊測試、設定蜜罐來誘導異常行為、反覆訓練模型在極端情況下的反應。這些手段的根本目的,是將最終控制權牢牢置於人類手中。微軟要讓智能變強之前,先變穩。在 Suleyman 看來,AI 不該成為一個你完全不懂的黑盒,而要成為一個能解釋、能被糾錯的幫手。它是一種更穩的智能,永遠被人類遏制和對齊。這也是他口中人本超級智能的真正含義:先落地服務人,再談超越人。第三節 | 功能靠後,解釋優先Mustafa Suleyman 對那種無限堆砌算力的技術演進路徑表達了質疑。他說:“我們願意放棄某些模型能力提升,只為優先確保人類能理解它在做什麼。”這聽起來幾乎是逆行業潮流的。別的公司都在追更強模型、更高吞吐量、更複雜架構,Suleyman 卻說,不是做不到,而是不該那樣做。為什麼?因為他關注的不只是 AI 能力,而是人類是否還能看懂它,並始終參與其中,保持控制。 控制的核心,是讓 AI 使用我們能理解的語言和方式來溝通。Suleyman 警惕的,是所謂向量到向量的 AI 內部交流方式。模型之間可能用高維數學表達互相溝通,但人類卻無法解釋中間過程。微軟不接受這種不可追蹤的交流。所以他明確提出: AI 之間的通訊,必須使用我們能理解的語言。這並不是效率最優的做法。Suleyman 也承認,讓 AI 用自然語言交流,確實會犧牲部分運行效率。但他堅持,這才是對人類負責的做法。更深一層的擔憂在於:誰來監督負責安全的 AI?如果所有監督都交給另一個 AI,這就只是把問題從一個黑盒轉給另一個黑盒。換句話說,不能讓 AI 管 AI,然後告訴人類一切盡在掌握。OpenAI 追的是多模態通用平台,而微軟關注的是:企業使用者如何敢用、政府如何能監管、人類如何隨時踩住剎車。Suleyman 的態度很堅決:我們不能不惜一切代價前進,那將是一個瘋狂的自毀任務。從語言協議、通訊透明,到性能讓位於可控,微軟要的不只是模型,而是人類有解釋權的智能工具。在技術邊界尚顯模糊的當下,微軟必須主動為此劃清紅線。結語 | 不是靠爭第一,而是定邊界這不是一場模型之爭。微軟不是不追前沿,而是更早意識到:超級智能的門票,不是參數數量,而是控制能力。MAI 團隊的設立,是為了在模型越來越強時,先設規矩、保可控、劃邊界。在 Suleyman 看來,AI 的落點不是接管世界,而是留在可控邊界內,把現實的三件事先做好:醫療別出錯,助手別越界,系統別脫控。這聽起來克制審慎,但正因為稀缺,才更重要。超級智能不是未來某一天突然爆發的成果,而是我們現在選擇怎麼建它、怎麼約束它、怎麼使用它。這一次,Suleyman 不是在爭誰更快,而是在提醒:別忘了我們要去那。 (AI深度研究員)
比特幣找到了新的用途,接下來會發生什麼?
比特幣自2013年進入公眾視野以來,便以其獨特的理念吸引了無數人的想像:一種無需銀行支援的數字貨幣,可以實現即時且匿名的支付。當年,比特幣的價格從約13美元飆升至747美元,成為全球金融領域的熱門話題。十二年過去,比特幣的價格已突破12萬美元。無數個人財富因比特幣而誕生,也有不少在價格波動中化為泡影。然而,儘管關於比特幣走向主流的討論從未間斷,它並未真正威脅到傳統貨幣的地位。人們仍然難以用比特幣購買日常用品、汽車,甚至跨境匯款——一個原本被視為比特幣可以顛覆的領域。推動比特幣價格攀升至新高的原因,與支付功能關係不大。比特幣如今已被主流金融視為一種超級替代資產,與股票、債券、房地產和黃金齊肩。越來越多的“比特幣百萬富翁”讓投資者躍躍欲試,迫使投資顧問為客戶提供比特幣的投資管道。大型金融機構也開始推出比特幣交易所交易基金(ETF),將其作為分散投資組合和避險通膨風險的工具。這一轉變得到了美國政府的支援。親加密貨幣的總統Donald Trump推動國會通過了一系列立法,為比特幣和其他虛擬貨幣的監管鋪平了道路。然而,主流金融擁抱比特幣的同時,也帶來了重要問題。例如,銀行如何負責任地推薦一種除了稀缺性外沒有任何內在價值的資產?如果比特幣的價格僅靠更多人購買的希望來維持,那麼當最後一家金融機構完成佈局時會發生什麼?比特幣的定義與價值:從稀缺性到金融工具比特幣是一種數字貨幣,運行在區塊鏈網路上,這是一個用於記錄交易的數字帳本。比特幣的加密特性使得偽造幾乎不可能,這也是它能夠在沒有中央機構擔保的情況下保持價值的原因。2008年,一位或一組化名為Satoshi Nakamoto的人發佈了一份白皮書,提出了比特幣的概念。儘管虛擬貨幣早已存在,比特幣的關鍵創新在於區塊鏈技術——一個公開透明且匿名的線上帳本,用於記錄使用比特幣的交易。比特幣的價值主要源於其有限的供應量。根據其協議,比特幣的總量不會超過2100萬枚。此外,每四年新增比特幣的發行速度會減半,這意味著供應增長會隨著時間減少,無論需求如何變化。支持者認為,這種稀缺性使比特幣成為傳統貨幣的替代品,尤其是在央行通過印鈔刺激經濟時,傳統貨幣可能貶值。金融機構的擁抱:比特幣為何成為投資者的新寵?比特幣的價格在2025年再次飆升,部分原因是川普政府通過立法為區塊鏈資產提供了更清晰的監管框架。這些法規減少了金融機構投資加密貨幣的法律不確定性,同時增加了投資者的選擇。如今,財富管理公司如BlackRock和Fidelity已推出與比特幣掛鉤的ETF,使投資者能夠在傳統交易所輕鬆參與比特幣市場。此外,BNY Mellon、Goldman Sachs和Standard Chartered等金融機構也開始提供比特幣託管和交易服務。然而,這種轉變也帶來了矛盾。JPMorgan首席執行官Jamie Dimon曾將比特幣斥為“炒作騙局”,卻在今年接受比特幣ETF作為貸款的抵押品。儘管對比特幣的態度複雜,華爾街正逐步將其納入主流金融體系。風險與未來:比特幣的擁抱是否過於激進?隨著比特幣被越來越多的機構納入資產組合,其價格波動的影響可能不再侷限於加密貨幣領域。如果比特幣再次經歷類似2022年的暴跌,影響可能波及傳統金融機構,例如養老金基金,這些機構此前對加密貨幣的波動性較為隔絕。此外,比特幣的高風險權重也使其成為銀行直接持有的昂貴選擇。根據巴塞爾銀行監管委員會的規定,銀行持有比特幣等加密貨幣需面臨高達1250%的風險權重,這意味著銀行需要持有大量資本以應對潛在損失。儘管如此,比特幣支持者希望機構投資者的加入能夠減少價格波動,同時增加市場流動性。機構帶來的風險管理工具和避險策略或許能夠緩解比特幣的劇烈波動。比特幣的未來仍充滿未知。它從一種顛覆性資產轉變為金融體系的重要組成部分,但這種轉變可能帶來更多系統性風險。隨著金融機構加速擁抱比特幣,它的命運不僅關乎加密貨幣市場,更可能影響全球經濟的穩定性。 (區塊網)
下一代AI能設計晶片、治癒疾病?Sam Altman的最新技術預言
引言Snowflake Summit 2025首日,Sam Altman受邀與Snowflake CEO Sridhar Ramaswamy展開對話,在Sarah Guo(Conviction創始人兼管理合夥人)的主持下,深入探討了AGI時間線、下一代AI能力,以及AI如何重塑企業營運的方方面面。Snowflake作為全球領先的雲資料平台公司,服務著成千上萬家企業,從初創公司到財務500強,都依賴其平台處理關鍵業務資料。Snowflake Summit是其一年一度的旗艦大會。在AI與資料深度融合的時代背景下,這場被業界戲稱為"資料界搖滾音樂會"的盛會,已經成為觀察AI如何重塑企業資料處理和決策流程的重要窗口。這不僅僅是一場技術分享,更像是對AI在企業級應用中真正落地的深度預言。(image generated by ChatGPT)一、企業AI戰略2025:從實驗到生產的轉折點"Just do it"——這是Sam Altman給所有企業領導者最直接的建議。在談到2025年企業AI策略時,Altman強調了一個關鍵觀點:快速迭代比完美計畫更重要(這跟前幾日分享的吳恩達關於AI創業秘訣之一“速度”不謀而合)。他指出,在技術快速變化的時代,能夠最快迭代、降低犯錯成本、提高學習效率的公司往往是最終的贏家。更值得注意的是,Altman透露了一個重要轉折點:相比去年,他對大企業的建議發生了根本性變化。如果說2024年他還會建議大企業"可以實驗,但這可能還沒完全準備好投入生產使用",那麼現在他的態度是:這項技術已經為主流應用做好了準備。Snowflake的Sridhar Ramaswamy也從實踐角度印證了這一點。他回憶起2020年使用GPT-3進行抽象摘要實驗的經歷——讓模型將1500字的部落格壓縮成三句話描述,這在當時是一個"啊哈時刻",讓他意識到了AI的巨大潛力。關鍵洞察:- 快速迭代是核心競爭力:在技術快速變化的時代,迭代速度決定了企業能否抓住AI機遇- 好奇心被嚴重低估:企業需要主動實驗,發現傳統方法不再適用的領域- 實驗成本已經極大降低:OpenAI和Snowflake等公司已經讓小規模實驗變得非常容易- 技術成熟度質的飛躍:ChatGPT現在能夠智能呼叫網路搜尋來獲取最新資訊,可靠性(reliability)大幅提升二、記憶與檢索:下一代AI的核心能力在討論AI系統的記憶和檢索能力時,Sridhar Ramaswamy提出:"搜尋就像是為模型設定注意力的工具"。這句話該如何理解?讓我們用一個簡單的類比:想像你在一個巨大的圖書館裡尋找資訊。如果沒有目錄和索引系統,你就必須漫無目的地翻閱每一本書,這效率極低。但有了圖書館的分類系統和檢索工具,你就能快速定位到最相關的書籍和章節。對AI模型來說,搜尋系統就扮演著類似的角色:- 無搜尋的AI:像一個博學但沒有重點的學者,什麼都知道一點,但缺乏針對性- 有搜尋的AI:像一個配備了精準資料檢索系統的專家,能夠快速找到最相關的資訊來回答特定問題舉個具體例子:當你問ChatGPT"今天的股市表現如何"時,模型會意識到這需要即時資訊,自動觸發網路搜尋來獲取最新資料,而不是依賴訓練時的過時資訊。這就是"為模型設定注意力"——讓它知道應該關注什麼、從那裡獲取資訊。從技術演進角度看,檢索增強生成(RAG)技術已經從早期的實驗性功能發展為現在AI系統的核心元件。三、智能體(Agents):從實習生到資深工程師的進化Sam Altman分享了一個讓他"感受到AGI"的時刻:OpenAI剛剛發佈的程式設計代理Codex。他描述道:"你可以給它一堆任務,它在後台工作,非常聰明,能夠處理這些長期任務,然後你只需要坐在那裡對某些結果說'是',對另一些說'不',再試一次。"智能體(Agents)能力演進軌跡:- 現在:像實習生一樣工作幾個小時-不久的將來:像經驗豐富的軟體工程師一樣連續工作數天- 終極目標:擴展到各種工作類別Altman預測,明年我們將開始看到能夠幫助發現新知識或解決重要商業問題的代理系統。目前代理主要用於自動化重複性認知工作,但隨著能力擴展到更長時間範圍和更高層次,我們最終可能會看到AI科學家(AI Scientists)——能夠自主發現新科學的AI智能體(AI Agents)。四、AGI定義的哲學思辨:重要的是進步速度而非標籤"如果你能回到2020年,向人們展示今天的ChatGPT,我認為大多數人會說這就是AGI。"Sam Altman的這句話引發了深刻思考。他認為,AGI的具體定義並不重要,重要的是我們過去5年看到的年度進步速度應該在未來至少5年內繼續保持。無論你在2024年、2026年還是2028年宣佈AGI勝利,無論你在2028年、2030年還是2032年宣佈超級智能勝利,都遠不如這條"長期、美麗、令人震驚的平滑指數曲線"重要。Altman對AGI的實用定義:- 能夠自主發現新科學的系統- 或者成為如此出色的工具,使得全世界的科學發現速度提升四倍Sridhar Ramaswamy用了一個絕妙的類比:"潛水艇會游泳嗎?" 從某種程度上說這很荒謬,但當然它會游泳。他認為這些模型具備的能力,任何從2030年回望的人都會宣稱"那就是AGI",但正如Altman所說,2020年的人看2025年的技術也會有同樣的感受。更重要的是,我們應該從歷史中學到樂觀的一課:就像電腦在國際象棋中擊敗了世界冠軍,但人們依然熱愛下棋,chess.com的使用者甚至比以往任何時候都多。AI的超越並不意味著人類能力的貶值,而是為人類開闢了新的可能性空間。五、下一代模型:令人屏息的能力飛躍"未來一到兩年的模型將令人屏息。"Sam Altman的這句話透露了OpenAI內部的信心。他描述了未來模型的能力:- 解決企業最困難的問題:如果你是晶片設計公司,可以說"給我設計一個比以前可能擁有的更好的晶片"- 生物技術突破:如果你是試圖治癒某種疾病的生物技術公司,可以說"就為我研究這個"- 全面的上下文理解:模型能夠理解你想提供的所有上下文,連接到每個工具、每個系統- 深度推理能力:真正出色的推理,並返回答案- 自主工作能力:足夠的魯棒性,讓你可以信任它們獨立完成一些工作Altman的技術願景——"柏拉圖式理想模型":- 極小的模型尺寸但具備超人推理能力- 運行速度極快- 一兆token的上下文- 訪問所有可能想像的工具為什麼稱為"柏拉圖式理想"?在柏拉圖的哲學中,"理想型"(Forms)代表著事物的完美、永恆的本質——比如"完美的圓"或"絕對的正義"。Altman用這個概念來描述AI模型的終極形態:一個在概念上完美的推理引擎,不受物理限制,能夠處理任何可能的任務。這種模型不需要作為資料庫使用("將這些模型用作資料庫有些荒謬——這是一個非常慢、昂貴、非常有問題的資料庫"),而是作為推理引擎,能夠處理企業或個人生活的所有可能上下文,以及任何需要的工具。六、千倍算力的終極想像當被問及如果擁有千倍算力會做什麼時,Sam Altman的回答既meta(用工具來改進工具的哲學思路)又務實:Meta答案:讓AI專注於AI研究,建構更好的模型,然後詢問那個更好的模型我們應該如何使用所有計算資源。實用答案:現在我們已經看到測試時計算的真實回報——讓模型推理更多,在困難問題上嘗試更多次,你能得到更好的答案。願意為最困難的問題或最有價值的事情投入更多計算資源的企業將獲得驚人的結果。Sridhar Ramaswamy則提出了一個更具人文關懷的願景:RNA組計畫——就像20多年前的DNA測序項目,但專注於弄清楚RNA表達,這控制著我們體內蛋白質的工作方式。在這方面的突破可能解決大量疾病,極大推動人類進步。番外:Google競爭壓力下的"積極推銷"分析突然發現,最近文章的含Sam/OpenAI量有些高,恰好也看到這個視訊下方有使用者評論指出Google最近發佈對OpenAI的影響,令Sam Altman更積極“推銷”自家產品。這個觀察有一定道理。1.Google Gemini 2.5的強勢表現:Google在I/O 2025上發佈的Gemini 2.5系列被業界認為是"分水嶺時刻",在多個benchmark上表現優異(來源於blog.google)2.市場份額的博弈:雖然ChatGPT仍然領先(Sam Altman提到日活使用者超10億),但Gemini已經積累了4億月活使用者,競爭愈發激烈3. 技術路徑的分化:Google憑藉其完整的技術堆疊(晶片、資料中心、作業系統、瀏覽器、生產力工具)展現出獨特優勢從這次談話可以看出,Altman確實比以往更加主動地推廣OpenAI的優勢,這在某種程度上反映了來自Google等競爭對手的壓力。雖然在這次談話中Altman沒有直接提及ChatGPT-5,但從他對"未來一到兩年模型將令人屏息"的描述,以及業界普遍預期,我們可以對ChatGPT-5的能力飛躍,比如在推理能力、多模態整合、上下文長度、Agents的原生支援等方面有合理期待。結語:AI的平滑指數曲線與人類未來Sam Altman在Snowflake Summit 2025的分享,為我們描繪了一個AI能力持續指數級增長的未來:從企業應用的成熟到智能體的崛起,從AGI定義的哲學思辨到千倍算力的終極想像,在Google、OpenAI、Anthropic等巨頭激烈競爭的背景下,技術進步的速度可能會進一步加快。正如Altman所說,重要的不是我們何時達到AGI,而是這條"長期、美麗、令人震驚的平滑指數曲線"能否持續下去。從目前的趨勢來看,答案似乎是肯定的。 (JER學家)
信任與背叛:蘋果三星十年恩怨背後的千億博弈與生死競合
2007年,當史蒂夫·賈伯斯手握初代iPhone,以“重新定義手機”的姿態顛覆行業時,他或許未曾料到,這場革命的最大受益者竟會是一個看似忠誠的夥伴——三星。這場始於技術互助、終於法庭廝殺的商業史詩,不僅揭示了科技巨頭間複雜的競合關係,更成為全球商業史上關於“信任代價”的殘酷註腳。蜜月期:技術聯姻與暗流湧動21世紀初,蘋果與三星的合作堪稱“天作之合”。蘋果急需可靠的供應鏈夥伴為其初代iPhone提供核心元件:三星的處理器代工能力、快閃記憶體技術和液晶螢幕生產線,成為賈伯斯實現產品野心的關鍵。2005年,雙方簽署協議,三星為蘋果獨家供應A4晶片,甚至允許蘋果工程師深度介入生產線最佳化。這一時期,蘋果的訂單讓三星半導體業務營收暴漲,而蘋果則借助三星的製造實力,將iPhone推向市場巔峰。然而,合作的蜜糖中早已埋下毒刺。三星在代工過程中,不僅掌握了蘋果的晶片設計邏輯,更通過頻繁的技術交流,窺見了iPhone從硬體到軟體的全套創新框架。一份三星內部檔案顯示,工程師被要求“逆向分解iPhone的互動邏輯”,而高管則在會議中直言:“我們必須讓Galaxy看起來像iPhone的孿生兄弟”。背叛與宣戰:從盟友到死敵2010年,三星Galaxy S的發佈成為轉折點。這款手機幾乎復刻了iPhone 3GS的圓角矩形設計、主螢幕圖示網格和滑動解鎖功能,甚至Home鍵的弧度都與蘋果專利圖紙如出一轍。賈伯斯在內部會議上震怒:“這是赤裸裸的盜竊!我要用盡一切法律手段摧毀Android,那怕發動熱核戰爭!” 2011年4月,蘋果正式起訴三星,指控其侵犯包括“橡皮筋滾動效果”“連按兩下縮放”在內的7項核心專利,索賠25億美元。法庭攻防戰中,蘋果提交的證據堪稱“致命”:三星工程師的郵件中寫道“調整Galaxy的邊框弧度,讓它更像iPhone”;產品對比圖顯示,二者連圖示間距誤差都小於1毫米;甚至三星高管在內部報告中承認“消費者會將Galaxy誤認為iPhone”。2012年8月,美國陪審團裁定三星需賠償蘋果10.5億美元,創下設計專利侵權案的歷史紀錄。七年鏖戰:法律勝利與市場潰敗儘管蘋果在法庭上大獲全勝,現實卻充滿諷刺。三星憑藉機海戰術和低價策略,在2012年登頂全球智慧型手機銷量榜首,而蘋果的市場份額從2011年的23%下滑至2015年的14%。更微妙的是,雙方的合作從未真正中斷:iPhone 4的視網膜屏、iPhone X的OLED面板仍依賴三星供應,僅2014年蘋果便向三星支付96億美元採購費,佔其供應鏈總支出的37%。法律戰的拉鋸同樣戲劇化。2015年,賠償金被削減至5.48億美元,三星隨即上訴至最高法院,質疑“以整機利潤計算外觀專利賠償”的合理性。2016年,美國最高法院罕見受理此案,大法官羅伯茨直言:“手機的價值不只在於圓角設計,晶片和系統同樣重要。”最終,最高法院推翻原判,要求重審賠償標準。這場判決動搖了美國延續131年的設計專利法體系,甚至引發Google、微軟等科技巨頭聯名聲援三星,警告“過度保護設計將扼殺創新”。和解之後:競合悖論與行業啟示2018年,持續7年的訴訟以秘密和解告終。儘管具體條款未公開,但雙方默契地維持了“對抗中合作”的平衡:蘋果繼續採購三星螢幕,三星則通過Galaxy系列與iPhone爭奪高端市場。2023年,二者合計掌控全球80%的高端手機份額,卻仍需共享供應鏈命脈——蘋果的MicroLED技術研發屢屢受挫,三星的OLED螢幕仍是無可替代的選擇。這場千億博弈的啟示遠超商業範疇:創新的脆弱性:蘋果雖以專利築起護城河,卻難防合作夥伴的“創造性模仿”。即便贏得訴訟,市場已被對手瓜分。供應鏈的雙刃劍:深度技術合作必然伴隨知識外溢,三星憑藉代工積累反超,印證了“徒弟打敗師傅”的行業魔咒。法律與商業的錯位:專利制度在鼓勵創新的同時,也可能淪為巨頭博弈的工具。最高法院的干預,折射出傳統法條與科技複雜性的衝突。賈伯斯曾誓言“不惜一切摧毀Android”,但最終,商業的現實主義壓倒了復仇的理想主義。這場恩怨揭示的真理冰冷而深刻:在科技叢林,沒有永恆的盟友,只有永恆的利益。信任或許能開啟合作,但唯有對野心的警惕,才能守護創新的火種。十億美元的教訓?在生意上,不要相信任何人。今天的合作夥伴可能成為明天的競爭對手。保護你的想法。保護你的未來。因為忠誠會褪色,但野心永遠不會。 (慧眼財經)
OpenAI科學家揭秘:AI下半場驚天啟示!
本篇內容是提出ReAct、Tree of Thought等框架,定義SWE-bench等評測標準,推動Agent技術前沿的清華姚班、普林斯頓博士,OpenAI 科學家姚順雨,對於 AI 下半場的解讀,💡 目錄 💡01 我們正處於 AI 的半場時刻02 什麼是 AI 上半場03 AI 的有效配方04 歡迎來到 AI 下半場核心要點:1. AI發展進入“下半場• 階段轉變:從模型訓練(上半場)轉向問題定義與評估(下半場),標誌性事件是強化學習(RL)的泛化能力突破。• RL里程碑:過去RL僅限於單一任務(如AlphaGo),如今通過語言模態和推理能力,能解決軟體工程、數學解題、創意寫作等廣泛任務,實現多領域跨越。2. 上半場的核心:模型訓練主導**• 成功關鍵:演算法創新(如Transformer、GPT-3、AlexNet)推動AI進步,引用量遠超Benchmark(如Imagenet)。• 侷限性:任務定義簡單(直接轉化人類活動),依賴資料與算力堆砌,評價體系單一(以Benchmark表現為準)。3. 有效配方:RL的三大支柱•核心要素:① 演算法(如PPO、Actor-Critic)② 環境(複雜真實場景,如程式碼開發、數學推理)③ 先驗知識(語言預訓練、人類知識注入)• 成功邏輯:大規模預訓練 + 算力擴展 + 推理與行動結合,使RL突破泛化瓶頸。4. 下半場挑戰:重新定義AI範式• 評價體系 > 訓練:從“能否解決任務”轉向“如何定義有價值的問題”,需建構真實場景的評估標準(如使用者滿意度、商業價值)。• 環境與先驗被低估:RL需在複雜環境(如軟體開發、多步決策)中驗證,而非簡化模擬場景;先驗知識(如人類反饋)是泛化能力的關鍵。• 研究者思維轉變:需兼具產品經理視角,關注使用者需求與落地場景,而非僅追求模型性能。AI下半場是“定義問題”的戰爭,評價體系、環境複雜度、先驗知識將成為勝負手,而RL的泛化能力為這一轉型提供了技術基礎。以下為詳細內容01.我們正處於AI 的半場時刻We’re at AI’s halftime數十年來,AI 的核心一直在於開發新訓練方法和模型。這種路徑確實有效:打敗國際象棋和圍棋世界冠軍、在 SAT 和律師資格考試上超過大部分人、贏得 IMO(國際數學奧林匹克)和 IOI (國際資訊學奧林匹克)金牌,這些寫進 AI 歷史書裡的里程碑——DeepBlue,AlphaGo,GPT-4 和 o 系列,都來自底層訓練方法的創新,search,deep RL,scaling,reasoning。一切都在隨著時間持續進步。那麼現在到底有什麼變了?簡單來說,強化學習(reinforcement learning, RL)終於有效了。更確切地說,RL 終於有了泛化能力。經過幾次彎路,也跨過了一系列重要里程碑後,我們終於找到了正確的配方(recipe),能通過語言模態和推理能力來解決廣泛的強化學習任務。即便在一年前,如果你告訴大多數 AI 研究者,有一種 recipe 能同時應對軟體工程、創意寫作、IMO 等級的數學問題、滑鼠鍵盤操作以及長篇問答——他們只會嘲笑你在幻想。這些任務每一項都極其艱難,許多研究者整個博士期間只專注於其中一個細分領域。但今天這件事的確發生了。接下來會發生什麼?AI 的下半場——從現在開始——會從解決問題轉向定義問題。在這個新階段,Evaluation(模型評估) 會比 Training (模型訓練)更重要。我們不再只是問,“我們能不能訓練模型來解決 X ?” 而是開始問:“我們究竟應該訓練模型來做什麼,如何衡量真正的進展?”要想贏得 AI 的下半場,我們必須及時轉變心態和技能,也許要更像產品經理。02.什麼是 AI 上半場、The First half要理解 AI 上半場的意義,可以看看這個階段的 winners。先來想一個問題,你認為迄今最具影響力的 AI 論文有那些?我在 Stanford CS 224N 的課堂現場提出了這個問題,大家的答案並不意外:Transformer、AlexNet、GPT-3 等。這些論文的共同點在於它們提出了訓練更強模型的一些基礎性突破,但同時也在一些 benchmark 上展示了顯著的性能提升,從而得以發表。💡CS 224N 是 Stanford 深度學習與 NLP 主題的公開課,是過去十年 AI 領域的很多學生和學者入門 NLP 最好的課程之一。由 Chris Manning 教授主講。Chris Manning 是 Stanford 語言學和電腦科學系首任 Thomas M. Siebel 機器學習教授、人工智慧實驗室(SAIL)主任和以人為本人工智慧研究所(HAI)聯合創始人,他還是 ACM、AAAI 和 ACL 的 Fellow,並曾於 2015 年擔任 ACL 主席,是自然語言處理和機器學習領域的先鋒人物。這些經典論文還有一個潛在共性:它們幾乎都是訓練方法或模型,而不是 benchmark 或者 tasks。即便是被認為是最有影響力的基準資料集 ImageNet,它的引用量也不到 AlexNet 的三分之一。這種差距在其他案例中更加明顯。比如,Transformer 使用的主要 benchmark 是 WMT’14,WMT’14 的 workshop report 引用量大約為 1300 次,而 Transformer 本身的論文引用早已突破 16 萬次。這些對比形象地說明了 AI 上半場是關注於建構新的模型和訓練方法,evaluation 和 benchmark 則位於第二位,儘管對於學術發表體系而言,後者是十分必要的。為什麼會出現這種現象?一個重要原因是,在 AI 上半場,訓練方法比定義 tasks 更難也更令人興奮。從零開始發明一種全新的演算法或模型架構,比如反向傳播演算法、摺積神經網路(AlexNet),或是 GPT-3 所用的 Transformer,都需要非凡的洞察力和工程能力。相比之下,為 AI 定義 tasks 往往顯得更直接:我們只是把人類已經在做的事情,比如翻譯、圖像識別或下棋,轉化為 benchmark,這個過程幾乎不需要太多洞察,甚至不需要多少工程工作。訓練方法往往比具體任務更通用、適用範圍更廣,因此顯得格外有價值。比如,Transformer 架構最終推動了 CV、NLP、RL 等多個領域的進展,影響範圍遠遠超出最初驗證它效果的 WMT'14 這個翻譯資料集。一個出色的新訓練方法往往能在多個 benchmark 上取得較好效果,因為它足夠簡單、通用,它的影響也因此會超越某個具體任務。過去數十年來都是訓練方法論的創新先行,催生了許多改變世界的理念和突破,並通過在各個領域不斷提升的 benchmark 表現出來。那麼,為什麼今天這件事會發生改變?因為這些理念和突破的積累,在解決任務方面帶來了本質改變,造就了一套真正有效的 recipe。03.AI 的有效配方The recipe這套 recipe 到底是什麼?recipe 的關鍵成分並不讓人意外:大規模的語言 pre-training,資料和算力的 scaling,reasoning 和 acting 的理念。這幾個詞乍一聽很像今天出現頻率極高的 buzzwords。為什麼將這幾個詞稱為 recipe ?我們可以從 RL 的角度來看。RL 通常被認為是 AI 的“終極形態”,畢竟從理論上,它能夠保證在 game 中取勝,而在實踐上,幾乎所有 superhuman 水平的 AI 系統(比如 AlphaGo)都離不開 RL 的支撐。💡game:在博弈論中,game 指的是所有在封閉環境中,有明確輸贏的博弈任務。RL 領域有三個關鍵組成部分:演算法(algorithm)、環境(environment)和先驗知識(priors)。很長時間以來,RL 研究者主要關注演算法,比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等,也就是 agent 如何學習的這一核心機制。💡DQN:Deep Q-Network,即深度 Q 網路,是深度強化學習的一種重要演算法,使用深度神經網路來逼近Q 值函數,並通過最大化 Q 值來選擇最優動作,其中 Q 值計算的是 Agent 執行某個行動帶來的價值變化。TD-learning:Temporal difference learning,即時序差分學習,結合了動態規劃(Dynamic Programming)和蒙特卡羅方法(Monte Carlo)的優點。Actor-critic:即演員-評論家演算法,是一種結合策略梯度和時序差分學習的強化學習方法,包括演員(Actor,負責行動)和評價者(Critic,負責評價)用神經網路分工進行博弈。PPO:Proximal Policy Optimization,即近端策略最佳化,是 OpenAI 在 2017 年提出的一種強化學習演算法,被認為是目前強化學習領域的 SOTA 方法,也是適用性最廣的演算法之一。PPO 簡化了以前的策略梯度演算法,通過幾個關鍵技術提高了訓練的穩定性和效率。這是之前 RLHF 最常用的 RL 演算法,在 reasoning model 場景下 Deepseek 提出的 GRPO 演算法正在取代成為主流。TRPO:Trust Region Policy Optimization,即置信域策略最佳化,是一種用於強化學習的策略最佳化演算法。相比之下,環境(environment)和先驗知識(priors)往往被當作既定條件,或者被儘可能簡化處理。例如,Sutton 和 Barto 的經典教材幾乎講的都是演算法,對於環境和先驗知識幾乎隻字未提。但在深度強化學習時代,環境在實踐中的重要性凸顯:一個演算法的效果往往高度依賴於它所開發和測試的環境。如果忽視環境,可能會導致我們建構的最優演算法只在過於簡化的環境中有效。那麼,為什麼我們不先思考清楚真正想要解決的環境,再去尋找最適合它的演算法?OpenAI 最初就是這麼計畫的。OpenAI 先是打造了 Gym,一個用於各類 game 的標準 RL 環境,接著又推出了 World of Bits 和 Universe,試圖將網際網路或電腦變成一個 game。這個設計很好,一旦我們可以將所有數字世界轉化為 environment,再用 RL 演算法來解決問題,我們就能實現數位領域 AGI。💡Gym:Gym 是 OpenAI 在 2016 年 4 月發佈的一個用於開發和比較 RL 演算法的工具包,提供了多種預定義環境,以便研究者和開發者可以在相同的 benchmarks 下測試他們的演算法。World of Bits 和 Universe:OpenAI 的 World of Bits 是基於 Universe 的訓練平台,也是 Universe 項目的前身。Universe 發佈於 2016 年 12 月,是一個能在幾乎所有環境中衡量和訓練 AI 通用智能水平的開源平台,目標是讓 AI Agent 能像人一樣使用電腦。這個設計很好,但並不完全奏效。雖然 OpenAI 取得了巨大的進展,比如利用 RL 解決了 Dota、機器人手等問題,但還沒有解決 computer use 或 web navigation ,並且,在一個領域表現出色的 RL agent 並不能遷移到另一個領域。某些關鍵因素仍然缺失。直到 GPT-2 或 GPT-3 出現,我們才發現缺失的是先驗知識 (priors)。你需要進行大規模 pre-training,將常識和語言知識提煉到模型中,然後通過微調使其成為網路 agent(WebGPT)或聊天 agent(ChatGPT),從而改變世界。結果發現,RL 中最重要的部分可能甚至不是 RL 演算法或環境,而是先驗知識,而這些先驗知識的獲取方式與 RL 完全無關。語言模型的 pre-training 為對話類任務提供了良好的先驗知識,但在控制電腦或玩電子遊戲方面卻不夠理想。因為這些領域和網際網路的文字分佈相差很大,直接在這些領域上做 SFT 或 RL 的泛化效果很差。我是在 2019 年意識到的這個問題,當時 GPT-2 剛剛發佈,我在它的基礎上做了 SFT 或 RL 來解決基於文字的 game,最終做出了 CALM。CALM 是世界上第一個基於 pre-training 語言模型建構的 agent,但它要花費上百萬步的 RL,才能在單一 game 中取得進展,而且無法遷移到其他 game 上。雖然這正是 RL 的特點,對 RL 研究者來說並不意外,但我仍覺得很反常,因為人類可以輕鬆上手一款新遊戲,而且在零樣本的前提下做得比 agent 更好。這時,我迎來了人生中第一個頓悟時刻:人類之所以能泛化,是因為人類不僅能做“去 2 號櫃子”、“用 1 號鑰匙打開 3 號箱子”或“用劍殺死地牢怪物”這類操作,還能思考:“地牢很危險,我需要一件武器。附近沒有武器,我需要在鎖著的櫃子或箱子裡找,3 號箱子在 2 號櫃子裡,那我應該先去那裡把櫃子打開。”思考(thinking)或推理(reasoning)是一種很特殊的行為,它並不會直接改變外部世界,但卻擁有一個開放、無限組合的空間,我們可以想一個單詞、一句話、一段話,或者一萬個隨機英語單詞,但周圍環境不會立刻發生變化。在經典 RL 理論中,reasoning 是一個糟糕的存在,因為它會讓決策變得不可能。比如,一個人需要從兩個盒子中選一個,其中一個裝著 100 萬美元,另一個是空的,這個時候預期收益是 50 萬美元。現在如果我們往這個人面前放了無數個空盒子,那麼他的預期收益就變成了 0。但如果我們在  RL 環境的動作空間(Action Space)中加上 reasoning,我們就能利用語言模型 pre-training 中獲得的先驗知識進行泛化,並可以在不同的決策中靈活分配 test-time compute。💡動作空間:不同的環境允許不同種類的動作,在給定的環境中,有效動作的集合被稱為動作空間(Action Space)。在離散動作空間(Discrete Action Space),agent 的動作數量是有限的,在連續動作空間(Continuous Action Space),動作是實值的向量。這個過程很神奇,我會在未來專門寫一篇 blog 來講。可以通過 ReAct 這篇論文先瞭解我對 agent reasoning 的看法。💡ReAct:ReAct 是姚順雨在 ReAct: Synergizing Reasoning and Acting in Language Models 中提出的框架,到今天還在 agent framework 中佔有一席之地。當下,我對於這件事的解釋是:雖然一個人面前被放置了無數個空盒子,但他在此之前,他已經在各種 game 中見過這些盒子,之前的這些選盒子的經驗能幫助他更好地識別出那個盒子更可能裝著錢。用一句抽象的話來說:語言通過 agent reasoning 來實現泛化(language generalizes through reasoning in agents.)。一旦我們擁有了正確的 RL 先驗知識(語言 pre-training)和 environment(將語言推理作為行動),演算法可能是最微不足道的部分。現在我們有了 o 系列、R1、deep research、computer-using agent,未來還會有更多的成果。多麼諷刺的轉折!長期以來,RL 研究者更關心演算法,遠勝於關心 environment ,幾乎沒有人關注先驗知識——所有的 RL 實驗本質上都是從零開始的,但我們繞了幾十年的彎路,才意識到也許我們的優先順序應該反過來。但正如 Steve Jobs 所說:You can’t connect the dots looking forward; you can only connect them looking backward.04.歡迎來到 AI 下半場The second half這套 recipe 在徹底改變 AI 的遊戲規則,AI 上半場的遊戲規則是:• 我們開發出新穎的訓練方法或模型,在各種 benchmarks 上取得更好的成果。• 我們創造出更難的 benchmarks,並繼續這個循環。現在這個遊戲規則正在被徹底改變,原因在於:• 這套 recipe 本質上已經把攻克 benchmark 的過程標準化、流程化了,我們不再需要太多新的想法。並且因為這套 recipe 具有較好的 scaling 和泛化能力,你為某個具體任務設計的全新方法可能只能帶來 5% 的提升,而下一代的 o 系列模型即使沒有專門針對這個任務訓練,也能帶來 30% 的提升。• 即使我們設計出了更難的 benchmark,它們也往往會很快(而且越來越快)被這套 recipe 攻克。我的同事 Jason Wei 做了一張精彩的圖,直觀地展示了這個趨勢。那 AI 下半場應該做什麼?如果新的訓練方法不再必要,更難的 benchmark 也會被越來越快地攻克,我們應該怎麼做?我認為我們需要從根本上重新思考“評估”(evaluation),這不僅意味著設計更新、更難的 benchmarks,而是要徹底質疑現有的評估方法,創造新的評估方法,這樣才能迫使我們發明超越現有有效的 recipe 的新方法。但這很難,因為人類有慣性,人類很少去質疑最基礎的假設——你只是理所當然地接受它們,卻沒意識到它們其實只是“假設(assumptions)”,而不是“定律(laws)”。用一個例子來說明這種慣性,假如你基於人類考試,發明出了一種史上最成功的 AI 評估方法之一。在 2021 年這也許是一個突破性的想法,但到了 3 年後,這一方法已被很多人使用,屬於非常常規的評估方法。那麼你接下來會做什麼?很可能是再設計一套更難的考試。再比如,你已經成功解決了基礎的程式設計任務,那麼你接下來會做什麼?很可能是尋找更難的程式設計任務,直到達到 IOI 金牌的水平。慣性是一種很自然的現象,但問題也正出在這裡。AI 已經在國際象棋和圍棋上戰勝了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,達到了 IOI 和 IMO 金牌的能力,但至少從經濟或 GDP 的角度看,世界並沒有發生太大變化。我將這個稱之為“效用問題(utility problem)”,我認為這是當下 AI 領域最重要的問題。也許我們很快就能解決“效用問題”,也許還不能。但無論結果如何,這個問題背後的根源可能非常簡單:我們的評估方法在很多基本假設上與現實世界的設定不同。舉兩個假設為例:• 假設 1:評估應該是自動運行通常一個 agent 會收到一個任務輸入,自動完成任務,最後得到一個任務獎勵。但現實中,agent 往往需要在整個任務過程中持續與人類互動,比如你不會給客服發一條長資訊,然後等十分鐘,期待對方給出一條詳細答覆來解決所有問題。當我們質疑這種評估假設時,就催生出了新的 benchmarks,要麼將真實人類引入互動環節(例如 Chatbot Arena),要麼引入使用者模擬(例如 tau-bench)。•假設 2:被評估的任務應該是獨立同分佈(i.i.d.)的如果你有一個包含 500 個任務的測試集,評估的時候,你會將每個任務獨立運行,最後對結果取平均,得出整體評分。但現實中,任務往往是順序進行的,而不是平行的。一位 Google 的軟體工程師在逐步熟悉 google3 倉庫後,會越來越高效地解決問題,但一個軟體工程 agent 在同一個倉庫中解決多個問題,卻無法獲得這種熟悉度。我們顯然需要 long-term memory 的方法(事實上已經有一些相關嘗試),但學術界缺乏能合理體現這種需求的正確 benchmarks,甚至缺乏質疑 i.i.d. 這個被視為機器學習基礎假設的勇氣。💡獨立同分佈:Independent and identically distributed,即 i.i.d.,是機器學習中一個重要的假設,它表明訓練資料和測試資料遵循相同的機率分佈。這個假設確保了在訓練集上訓練的模型能夠有效地在測試集上進行泛化,從而在未知資料上保持良好性能。這些假設一直以來就是默認存在的。在 AI 上半場,基於這些假設來設計 benchmarks 是合理的,因為在智能水平較低時,提高智能通常就能提升效用。現在在這些假設下,那套通用 recipe 已幾乎被保證奏效。那麼 AI 下半場這個新遊戲的玩法會是:• 我們需要開發麵向現實世界效用的全新評估設定或 task;• 我們需要用 recipe 來攻克這些評估設定或 task,或用新元件來增強 recipe,然後重複這個循環。這個遊戲很難,因為它充滿了未知,但也格外令人興奮。AI 上半場的玩家專注於攻克電子遊戲和標準化考試,AI 下半場的玩家則通過把智能轉化為有用的產品,打造出數十億甚至兆美元的公司。上半場充斥著各種不斷迭代的訓練方法和模型,而下半場在某種程度上對它們進行了篩選。通用 recipe 會輕鬆碾壓你的漸進式改進,你創造出能打破這套 recipe 的新假設。那時,你就能做出真正改變遊戲規則的研究。歡迎來到 AI 下半場!(機構調研記)