#LLM
突發!新物種!AI盡頭是空間智能深度洞察研究報告!2025
前言:AI的“空間轉向”與新物種誕生的必然性1.1 前言2025年,人工智慧產業迎來歷史性轉折點——以大型語言模型(LLM)為代表的通用AI技術在文字互動、圖像生成等領域的突破已觸及天花板,而“空間智能”作為連接虛擬算力與物理世界的核心載體,正成為AI技術演進的終極方向。史丹佛大學教授李飛飛在《從語言到世界:空間智能是AI的下一個前沿》中明確指出,當前AI系統困於“語言的世界”,缺乏對現實空間、物理規律與因果關係的真正理解,而空間智能將實現AI從“理解語言”到“理解世界”的跨越,成為AI攀登的下一座高峰。這一轉向不僅催生了“AI+空間”融合的產業新物種,更重塑了全球算力產業鏈的競爭格局與需求結構。本報告聚焦2025年AI與空間智能融合發展的核心議題,核心研究內容包括:空間智能的技術架構與“新物種”產業形態界定;全球及中國算力產業鏈的全景對比(上游晶片、中游算力服務、下游應用);空間智能驅動下的算力需求分層分析(行業、場景、算力形態);技術瓶頸與風險挑戰;未來發展趨勢與產業機遇。報告依託2025年最新行業資料、政策檔案及企業實踐案例,兼具技術深度與產業指導價值,旨在為產業鏈參與者、投資者及政策制定者提供全景式洞察。1.2 核心結論預覽1. 技術演進:空間智能是AI的“終極形態”,其核心是建構融合幾何、物理與動態規則的“世界模型”,實現從被動分析到主動規劃的跨越,當前已進入技術突破與規模化應用的臨界點。2. 產業新物種:催生三大類新物種形態——技術層的“空間大模型”、產品層的“具身智慧型手機器人”、服務層的“空間即服務(SPaaS)”,2025年全球相關市場規模已突破1.2兆元。3. 算力格局:全球智能算力規模2025年達1980 EFLOPS,中國佔比37.8%(748 EFLOPS),算力結構從訓練主導向推理驅動切換,邊緣算力增速(CAGR 50%-60%)遠超雲端。4. 產業鏈競爭:國外形成輝達、AMD雙寡頭格局,國內“一超多強”態勢顯現,國產晶片替代率2025年達41%,沐曦、壁仞等企業加速資本化處理程序。5. 需求驅動:智慧城市、工業智能空間、自動駕駛是核心需求領域,生物醫藥、AR/VR等細分場景算力需求增速超200%,端側AI裝置出貨量2025年破5億台。6. 挑戰與機遇:技術瓶頸集中於晶片製程、叢集互聯效率,地緣政治與能源約束加劇供需失衡;未來機遇在於異構算力協同、綠電算力基建及跨行業場景滲透。第一章 概念界定:AI與空間智能的融合演進1.1 空間智能的核心定義與技術內涵空間智能(Spatial Intelligence)是指機器對物理空間進行感知、建模、推理、規劃並實現互動的綜合能力,其核心是將多模態感知資料轉化為對空間關係、物理規律與因果邏輯的理解,實現虛擬算力與物理世界的精準對應。與傳統AI技術相比,空間智能具有三大核心特徵:一是多模態融合感知,整合LiDAR、攝影機、UWB、地理資訊等多源資料,實現釐米級定位與毫米級建模精度;二是動態世界建模,建構兼具語義與幾何屬性的3D動態場景,支援物理規則模擬與未來狀態預測;三是具身互動能力,依託“感知-決策-行動”閉環,實現與物理空間的自主協同互動。從技術架構來看,空間智能的實現需建構“五層技術堆疊”:第一層底層為算力支撐層(雲端+邊緣+終端異構算力);第二層為感知硬體層(LiDAR、毫米波雷達、高畫質攝影機等);第三層為資料處理層(空間資料清洗、融合與標註);第四層為核心演算法層(3D生成模型、物理引擎、具身智能演算法);頂層為應用場景層(智慧城市、工業、自動駕駛等)。其中,核心演算法層的“世界模型”是空間智能的技術核心,需突破現有LLM的範式侷限,實現語義關係與物理規律的統一理解。1.2 AI向空間智能演進的邏輯必然性AI技術的演進遵循“能力升級-場景拓展-需求倒逼”的邏輯,向空間智能轉向是技術發展與產業需求共同作用的必然結果。從技術層面看,當前以LLM為代表的通用AI存在三大核心侷限:一是缺乏空間認知能力,即使是最新的多模態大模型,在估算距離、方向、大小等基礎空間屬性時表現不及隨機水平;二是物理規律認知缺失,無法穩定預測物體運動軌跡、碰撞關係等基本物理規則;三是動態連貫性不足,生成的視訊內容往往在幾秒內失去空間邏輯連貫性。這些侷限使得AI難以真正賦能需要與物理世界互動的場景,成為技術演進的“天花板”。從產業需求來看,數字經濟與實體經濟的深度融合對AI提出了“落地物理世界”的迫切需求。智慧城市需要全域空間感知與智能調度,工業製造需要數字孿生與即時最佳化,自動駕駛需要高精度空間定位與動態決策,這些場景均要求AI具備空間認知與互動能力。據測算,2025年全球需要空間智能支撐的產業規模已達5兆美元,佔數字經濟總量的28%,需求倒逼成為AI向空間智能轉向的核心驅動力。從認知本質來看,空間智能是人類認知建構的“腳手架”,驅動著想像、創造與推理能力的形成。李飛飛團隊的研究表明,空間智能是連接感知與行動的核心能力,人類通過空間認知實現停車測距、人群穿行等日常動作,其本質是“想像-感知-行動”的一體化過程。AI作為模擬人類智能的技術體系,向空間智能演進是其逼近甚至超越人類認知能力的必然路徑,也是實現從“弱人工智慧”向“強人工智慧”跨越的關鍵環節。1.3 空間智能的“新物種”形態界定AI與空間智能的融合催生了三類具有顛覆性的產業新物種,這些新物種打破了傳統產業邊界,重構了價值創造模式:1. 技術層新物種:空間大模型。區別於傳統LLM,空間大模型以“空間資料”為核心訓練素材,融合地理資訊、3D點雲、物理規則等資料,具備空間建模、動態預測與場景生成能力。例如,史丹佛大學World Labs研發的世界模型可在語義與幾何層面理解複雜3D場景,推理物理屬性與互動關係,並生成連貫可探索的虛擬空間。2025年,國內外已有12款空間大模型實現商用,其中GPT-5空間版、百度文心空間大模型等在建築設計、城市規劃領域的應用精準率達93.6%。2. 產品層新物種:具身智慧型手機器人。依託空間感知與互動能力,具身智慧型手機器人實現了從“固定場景作業”到“全域自適應作業”的跨越,可在動態空間中自主規劃路徑、規避障礙並完成任務。典型案例包括亞馬遜倉庫智能分揀機器人(空間定位精度±2cm)、特斯拉Optimus人形機器人(具備家庭空間互動能力)、醫療微創手術機器人(空間操作精度±0.1mm)。2025年全球具身智慧型手機器人出貨量達120萬台,同比增長210%。3. 服務層新物種:空間即服務(SPaaS)。將空間智能能力封裝為標準化服務,通過API介面向千行百業輸出,實現“空間能力的按需呼叫”。例如,華為盤古空間服務平台可提供城市全域空間建模、動態交通預測等服務,已接入200余個智慧城市項目;GoogleEarth Engine空間服務平台為農業、環保領域提供土地利用監測、災害預警等服務,全球使用者超500萬。2025年全球SPaaS市場規模達2000億元,預計2030年突破1.2兆元。1.4 空間智能的發展階段與2025年關鍵節點空間智能的發展可劃分為四個階段:技術探索期(2015-2020年)、技術突破期(2021-2025年)、規模化應用期(2026-2030年)、成熟普及期(2030年後)。2025年正處於“技術突破期”向“規模化應用期”過渡的關鍵節點,呈現三大標誌性特徵:1. 技術突破節點:3D生成模型、物理引擎與具身智能演算法實現融合,空間大模型的場景理解精準率突破90%,邊緣算力支援毫秒級空間響應(延遲≤10ms)。例如,UWB+LiDAR復合定位技術市場滲透率達35%,實現釐米級定位精度;液冷技術普及使智算中心PUE降至1.1以下,支撐單機櫃算力密度達5P Flops。2. 產業落地節點:核心應用場景實現規模化落地,智慧城市試點項目覆蓋全國89%地級市,北京、上海、深圳等超大城市完成全域智能空間基礎設施建設;工業數字孿生工廠覆蓋率突破60%,生產線綜合效率(OEE)平均提升18個百分點;全屋智能滲透率達12.3%,華為鴻蒙生態與小米AIoT平台連接裝置突破8億台。3. 政策與資本節點:全球主要經濟體出台空間智能專項政策,中國《智能空間產業發展行動計畫(2025-2030)》明確培育30家以上獨角獸企業,組建國家級智能空間創新中心;美國《晶片與科學法案》投500億美元用於算力基建,重點支援空間智能相關晶片研發;歐盟“數字羅盤計畫”建100個百億億次超算節點,支撐空間智能場景落地。資本市場熱度攀升,2025年國內算力晶片企業迎來上市潮,摩爾線程、沐曦股份等相繼登陸科創板,融資規模超40億元。第二章 技術架構:空間智能的核心技術體系與算力支撐2.1 核心技術堆疊:從感知到互動的全鏈路拆解2.1.1 感知層技術:多模態融合與高精度定位感知層是空間智能的“眼睛”,核心目標是獲取物理空間的多維度資料,實現高精度、高可靠的空間感知。當前主流技術方向為多模態感測器融合,整合LiDAR、毫米波雷達、高畫質攝影機、UWB、IMU(慣性測量單元)及地理資訊系統(GIS)資料,彌補單一感測器的侷限性。例如,LiDAR具備高精度3D測距能力,但受天氣影響較大;攝影機可獲取豐富語義資訊,但測距精度不足;UWB適合室內短距離定位,室外表現較差。通過多模態融合演算法,可實現“全天候、全場景、高精度”的空間感知。關鍵技術突破包括:一是LiDAR技術的成本下降與性能提升,2025年車規級LiDAR單價降至500美元以下,探測距離突破300米,點雲密度達300萬點/秒;二是UWB+LiDAR復合定位技術,結合兩者優勢,實現室內外無縫切換定位,精度達±2cm,2028年市場滲透率預計達68%;三是多模態資料融合演算法,基於Transformer架構的融合模型可有效處理異構資料,提升感知精準率,在複雜交通場景中目標識別精準率達99.2%。2.1.2 建模層技術:3D動態場景與數字孿生建模層是空間智能的“大腦中樞”,核心是將感知資料轉化為結構化的空間模型,實現對物理世界的精準對應。技術方向分為靜態建模與動態建模兩類:靜態建模聚焦空間幾何結構的重建,如建築、道路、地形等;動態建模聚焦空間中物體的運動狀態與互動關係,如車輛、行人、裝置等。數字孿生是建模層的典型應用,通過“物理實體-虛擬模型-資料鏈路-服務應用”的閉環,實現物理空間與虛擬空間的即時同步。關鍵技術突破包括:一是3D生成模型,基於擴散模型與Transformer的融合架構,可快速生成高保真3D場景,例如史丹佛大學Marble平台允許創作者無需傳統3D建模工具,快速建立和編輯完整的虛擬世界;二是動態場景預測演算法,結合物理引擎與深度學習,可預測空間中物體的運動軌跡,預測準確率達95%以上,為自動駕駛、機器人導航提供支撐;三是輕量化建模技術,針對邊緣端裝置算力有限的問題,提出輕量化3D模型架構,模型體積壓縮70%以上,可在手機、邊緣閘道器等裝置上即時運行。2.1.3 決策層技術:空間推理與具身智能演算法決策層是空間智能的“決策核心”,核心是基於空間模型進行推理、規劃與決策,實現從“理解空間”到“利用空間”的跨越。核心技術包括空間推理演算法、路徑規劃演算法與具身智能決策演算法。空間推理演算法聚焦空間關係的邏輯判斷,如“物體A在物體B的左側”“路徑C比路徑D短20米”等;路徑規劃演算法聚焦動態環境下的最優路徑選擇,如自動駕駛中的避障路徑規劃、機器人的倉儲分揀路徑規劃;具身智能決策演算法聚焦“感知-行動”閉環,使智能體能夠根據空間環境變化調整行動策略。關鍵技術突破包括:一是空間大模型的推理能力提升,GPT-5空間版、文心空間大模型等可基於3D場景進行複雜推理,如建築結構安全性評估、城市交通流量最佳化;二是強化學習在路徑規劃中的應用,通過模擬海量空間場景訓練模型,使智能體在動態環境中(如擁堵路段、突發障礙)快速找到最優路徑,規劃效率提升40%以上;三是人機協同決策技術,結合人類經驗與AI推理能力,在醫療手術、工業操作等高精度場景中實現“人機互補”,降低操作風險。2.1.4 互動層技術:無感化與人機協同互動層是空間智能的“輸出介面”,核心是實現智能體與物理空間、人類的高效互動。技術方向分為兩類:一是智能體與物理空間的互動,如機器人的機械臂操作、自動駕駛汽車的轉向與制動;二是智能體與人類的互動,如語音互動、手勢互動、腦機介面等。當前發展趨勢是“無感化互動”,即智能體通過感知人類行為、情緒等訊號,主動提供服務,無需人類主動觸發。關鍵技術突破包括:一是手勢與姿態識別技術,基於電腦視覺的即時姿態捕捉精度達98%,可實現對機器人的手勢控制、智能座艙的姿態互動;二是語音互動的空間化,結合空間聲學技術,實現多區域語音識別,區分不同位置的說話人,在智慧辦公場景中支援多人同時語音指令;三是腦機介面技術,在高端辦公、醫療場景中實現腦電波控制,2029年商用化率預計突破15%。2.2 算力支撐體系:雲端-邊緣-終端的異構協同空間智能的全鏈路技術落地離不開算力支撐,其算力需求具有“高並行、低延遲、異構化”的特徵:高並行源於多模態感測器的海量資料(如LiDAR每秒產生數十GB資料);低延遲源於即時互動需求(如自動駕駛需≤10ms的決策延遲);異構化源於不同任務對算力的差異化需求(如建模需GPU的平行計算能力,推理需ASIC的高能效比)。為此,空間智能建構了“雲端-邊緣-終端”三級異構算力協同體系,各層級功能與算力形態如下:2.2.1 雲端算力:大規模訓練與全域調度雲端算力是空間智能的“核心算力底座”,主要承擔空間大模型訓練、全域空間資料處理、跨區域調度等重算力任務。2025年全球雲端智能算力佔比70%-75%,單叢集算力達50 EFLOPS,可支撐萬卡級GPU叢集進行空間大模型預訓練。例如,GPT-5空間版的訓練需萬卡級GPU叢集,單次訓練成本超千萬美元,訓練過程消耗算力達100 EFLOPS·天。雲端算力的核心技術方向是異構計算與叢集互聯最佳化。異構計算整合GPU、CPU、NPU、TPU等多種晶片,發揮不同晶片的優勢;叢集互聯技術通過高速互聯匯流排(如輝達NVLink、國產昇騰高速互聯匯流排)提升叢集通訊效率,當前萬卡級叢集互聯效率達60%-70%,仍是算力擴展的主要瓶頸。為支撐雲端算力需求,全球智算中心建設加速,中國“東數西算”工程建成8大算力樞紐,2025年新增算力60%以上集聚國家樞紐節點,新建大型資料中心綠電佔比超80%。2.2.2 邊緣算力:即時推理與本地決策邊緣算力是空間智能的“即時響應核心”,部署於靠近物理空間的邊緣節點(如基站、智能路側裝置、工業閘道器),主要承擔即時推理、本地資料處理、低延遲決策等任務。邊緣算力的核心優勢是低延遲,可將資料傳輸與處理延遲控制在毫秒級,滿足自動駕駛、工業即時控制等場景需求。2025年邊緣算力佔比約15%-20%,2030年將升至30%-35%,2025-2030年CAGR達50%-60%,邊緣AI晶片市場規模達150億美元。邊緣算力的核心技術方向是高能效比晶片與輕量化演算法。邊緣裝置通常受限於功耗與體積,需要高能效比的專用晶片(如ASIC、NPU);同時,通過模型輕量化(剪枝、量化、蒸餾)降低推理算力需求。例如,華為昇騰310B邊緣晶片能效比達200 TOPS/W,可支撐智能路側裝置的即時目標識別;特斯拉D1晶片專為自動駕駛邊緣計算設計,單晶片算力達362 TOPS,滿足車載即時決策需求。2.2.3 終端算力:本地感知與輕量化互動終端算力是空間智能的“末端感知核心”,部署於終端裝置(如智慧型手機、智能手錶、小型機器人),主要承擔本地感知資料預處理、輕量化互動等任務。終端算力的核心需求是低功耗與小型化,滿足移動裝置的續航與體積要求。2025年終端算力佔比約5%-10%,智慧型手機AI算力達10 TOPS以上,車載計算平台增速超40%。終端算力的核心技術方向是整合化晶片與低功耗演算法。整合化晶片將CPU、GPU、NPU等功能整合於單一晶片(如手機SoC),提升整合度與能效比;低功耗演算法通過最佳化計算流程,降低資料處理的功耗。例如,蘋果A18 Pro晶片整合神經網路引擎,算力達35 TOPS,可支撐手機端3D場景掃描與AR互動;小米澎湃C2晶片專為智能穿戴裝置設計,能效比達150 TOPS/W,滿足長期續航需求。2.2.4 異構協同技術:算力資源的高效調度雲端-邊緣-終端的算力協同是空間智能高效運行的關鍵,核心技術是統一調度平台與高速通訊網路。統一調度平台通過算力感知、任務拆分與資源分配,實現“任務在最合適的算力節點運行”:重算力任務(如模型訓練)分配至雲端,即時任務(如自動駕駛推理)分配至邊緣,輕量化任務(如本地感知)分配至終端。高速通訊網路是協同的基礎,5G-A網路支撐的毫秒級空間感知系統實現釐米級定位精度,光互聯技術升級推動CPO市場2025-2027年CAGR達78%,OCS CAGR達120%。當前異構協同的關鍵突破是“算力網路”技術,通過軟體定義網路(SDN)、網路功能虛擬化(NFV)等技術,將分散的算力資源整合為“算力池”,實現跨區域、跨層級的算力調度。例如,中國電信“天翼算力網路”已接入20個省級算力樞紐,實現算力資源的按需調度;中國移動“算力網路”支撐智慧城市場景下的邊緣-雲端算力協同,降低資料傳輸成本30%以上。2.3 2025年技術突破與瓶頸:從可用到好用的差距2.3.1 關鍵技術突破清單1. 感測器技術:車規級LiDAR單價降至500美元以下,探測距離突破300米;UWB+LiDAR復合定位精度達±2cm;高畫質攝影機影格率突破240fps,低光照環境識別精準率達98%。2. 建模技術:3D生成模型生成效率提升10倍,高保真3D場景生成時間從小時級降至分鐘級;動態場景預測準確率達95%以上,預測時長從1秒擴展至5秒。3. 演算法技術:空間大模型參數規模突破兆級,場景理解精準率達93.6%;輕量化模型體積壓縮70%以上,邊緣端推理延遲≤10ms。4. 算力技術:晶片製程推進至3nm/2nm,輝達B200性能較H100翻倍;國產晶片(昇騰910B、寒武紀590)替代率達41%;液冷技術普及使PUE降至1.1以下,能耗降40%。5. 通訊技術:5G-A網路實現10Gbps下行速率,毫秒級傳輸延遲;CPO技術實現光電器件與晶片的整合,通訊頻寬提升5倍。2.3.2 核心技術瓶頸1. 晶片技術瓶頸:晶片製程逼近物理極限,2nm以下製程成本指數級上升,性能提升放緩;高端晶片受地緣政治影響供給受限,全球GPU供需缺口15%-20%。2. 叢集互聯瓶頸:萬卡級叢集互聯效率僅60%-70%,成為算力擴展的主要障礙;儲存頻寬與算力增長不匹配,CXL協議普及尚需時間,資料傳輸延遲影響大規模訓練效率。3. 演算法泛化瓶頸:空間大模型的場景泛化能力不足,在陌生環境中的精準率下降20%-30%;動態場景中突發情況(如交通事故、極端天氣)的預測能力薄弱。4. 資料質量瓶頸:空間資料標註成本高,3D資料標註單價是2D資料的5倍以上;多源資料格式不統一,資料融合難度大;隱私保護要求提升,空間資料採集與使用受限。5. 能源約束瓶頸:智算中心能耗激增,2026年資料中心IT電力需求達96GW,配套電力設施建設壓力大;邊緣與終端裝置功耗控制仍需突破,影響續航能力。第三章 全球算力產業鏈全景分析:競爭格局與技術路線3.1 算力產業鏈結構:從上游核心硬體到下游應用算力產業鏈圍繞“算力生產-算力服務-算力應用”形成完整生態,分為上游核心硬體、中游算力服務、下游應用三大環節,各環節相互支撐、協同發展。上游核心硬體是算力生產的基礎,中游算力服務是算力流通的載體,下游應用是算力需求的來源,三者共同構成“硬體支撐-服務賦能-應用驅動”的產業閉環。2025年全球算力產業鏈規模達6.5兆美元,其中上游硬體佔比45%,中游服務佔比35%,下游應用佔比20%。3.1.1 上游核心硬體:算力的“物理基礎”上游核心硬體包括晶片、伺服器、感測器、光模組、儲存裝置等,其中晶片是核心中的核心,佔上游硬體成本的50%以上。晶片環節分為通用晶片(CPU、GPU)、專用晶片(ASIC、NPU、TPU)、可程式設計晶片(FPGA)三類,分別適用於不同算力場景:GPU主導訓練場景,2027年市場規模達5000-6000億美元;ASIC在推理場景優勢擴大,2027年市場規模280億美元,佔AI晶片市場35%;NPU/TPU等專用晶片快速滲透,2025年市場規模850億美元。伺服器環節聚焦智算伺服器,搭載多顆AI晶片,支援大規模平行計算,2025年全球智算伺服器市場規模達1200億美元,同比增長45%。感測器環節是空間智能的專屬硬體,LiDAR、毫米波雷達等空間感知感測器市場規模達300億美元,同比增長60%。光模組環節支撐高速通訊,2025年CPO市場規模達50億美元,OCS市場規模達20億美元。儲存裝置環節聚焦高速儲存(如HBM、SSD),HBM3E記憶體頻寬達19.6TB/s,2025年市場規模達150億美元。3.1.2 中游算力服務:算力的“流通載體”中游算力服務包括算力基礎設施(智算中心、邊緣節點)、算力營運服務(雲算力、邊緣算力租賃)、算力賦能服務(模型訓練、資料處理)等。智算中心是中游核心基礎設施,2025年全球智算中心數量達1200個,中國佔比40%,“東數西算”工程8大算力樞紐集聚60%以上新增算力。算力租賃服務是當前最熱門的細分領域,受益於大模型訓練與推理需求爆發,2025年全球算力租賃市場規模達800億美元,同比增長80%。算力賦能服務聚焦專業化算力解決方案,為下遊客戶提供定製化的模型訓練、資料處理服務,頭部企業包括亞馬遜AWS、微軟Azure、阿里雲、騰訊雲等。此外,算力網路服務快速發展,通過整合分散算力資源,實現算力的跨區域調度,2025年全球算力網路服務市場規模達300億美元。3.1.3 下游應用:算力的“需求來源”下游應用分為空間智能專屬應用與通用AI應用兩類,其中空間智能專屬應用是核心增長引擎,包括智慧城市、工業智能空間、自動駕駛、AR/VR、智能醫療等。2025年空間智能相關應用佔算力需求的35%,其中智慧城市佔比最高(12%),工業智能空間次之(8%),自動駕駛(7%)、AR/VR(4%)、智能醫療(4%)緊隨其後。通用AI應用包括網際網路內容生成、金融風控、生物醫藥研發等,佔算力需求的65%,其中網際網路行業佔算力採購的60%,阿里、騰訊等頭部企業未來三年AI投資超5000億。3.2 國外算力產業鏈:雙寡頭主導與技術引領3.2.1 美國:全產業鏈主導,技術壁壘高築美國是全球算力產業鏈的領導者,在晶片、伺服器、算力服務等核心環節佔據主導地位,形成“晶片-軟體-服務-應用”的全產業鏈優勢。晶片環節,輝達、AMD形成雙寡頭格局,佔據全球AI晶片市場的70%以上份額。輝達2025年推出Blackwell B200晶片,採用“單封裝雙芯粒”路線,算力密度和記憶體頻寬達行業極致,性能較H100翻倍,並拋出2026–2027路線圖,Vera Rubin與Rubin Ultra即將推出,Rubin推理峰值50 PFLOPS、HBM4記憶體288GB,FP4稀疏算力是B200的2.5倍。AMD採用Chiplet思路,MI350系列採用CDNA4架構、台積電第二代3nm工藝,配備288GB HBM3E記憶體,峰值2.3 PFLOPS,與B200直接競爭,2026年的MI400將邁入2nm,配備432GB HBM4記憶體,目標直指Rubin。算力服務環節,亞馬遜AWS、微軟Azure、GoogleCloud佔據全球雲算力市場的65%份額,其中AWS的Trainium晶片專為模型訓練設計,Inferentia晶片專為推理設計,形成“自研晶片+雲服務”的閉環;微軟Azure與輝達深度合作,推出Azure ND H100 v5虛擬機器,支援萬卡級叢集訓練;GoogleCloud推出TPU v5e晶片,能效比提升2倍,支撐空間大模型訓練。應用環節,美國在自動駕駛、AR/VR、生物醫藥等空間智能相關領域領先,特斯拉Autopilot採用自研D1晶片與多模態感知技術,自動駕駛Level 4等級的測試里程突破10億英里;Meta的Quest 3 VR裝置搭載空間感知晶片,實現高精度空間定位與虛擬場景融合;OpenAI與生物醫藥企業合作,利用空間大模型加速藥物研發,分子結建構模效率提升10倍。政策與資本支援方面,美國《晶片與科學法案》投500億美元用於算力基建,重點支援AI晶片研發與智算中心建設;國防部、能源部等部門持續投入資金支援空間智能相關技術研發;資本市場對算力企業的估值溢價顯著,輝達市值突破3兆美元,成為全球市值最高的企業之一。3.2.2 歐盟:政策驅動,聚焦協同與綠色歐盟算力產業鏈以政策驅動為核心,聚焦算力協同與綠色低碳,試圖通過“聯合創新”突破美國技術壟斷。晶片環節,歐盟缺乏具有全球競爭力的晶片企業,主要依賴輝達、AMD等美國企業,同時通過“歐洲晶片計畫”投入430億歐元支援本土晶片研發,目標2030年本土晶片產能佔全球20%。重點發展方向為專用晶片,如用於工業智能空間的ASIC晶片、用於自動駕駛的邊緣晶片。算力基礎設施環節,歐盟“數字羅盤計畫”提出建設100個百億億次超算節點,支撐空間智能、氣候變化、生物醫藥等領域的科研與應用;推動“歐洲算力聯盟”(EUC)建設,整合成員國算力資源,實現跨區域算力協同。2025年歐盟已建成20個超算節點,其中芬蘭LUMI超算、德國JUWELS超算躋身全球前十,支援工業數字孿生、城市空間規劃等場景。應用環節,歐盟聚焦智慧城市與工業4.0,推出“智慧城市和社區創新夥伴關係”計畫,支援200個智慧城市試點項目;德國“工業4.0”戰略推動工業智能空間落地,西門子數字孿生工廠覆蓋率達70%,生產線效率提升20%以上;法國在智能交通領域領先,巴黎建成全域智能交通管理系統,交通擁堵率下降30%。綠色算力是歐盟的核心特色,提出2030年資料中心全生命周期碳排放量較2020年下降50%,新建智算中心綠電佔比超90%;推廣液冷、風能、太陽能等綠色技術,芬蘭LUMI超算採用水力發電,PUE降至1.05以下,為全球最低之一。3.2.3 其他國家:差異化佈局,依附核心市場日本聚焦機器人與智能感測領域,索尼、松下等企業在LiDAR、毫米波雷達等感測器技術上具有優勢,索尼Vision-S電動概念車搭載28個感測器,實現高精度空間感知;軟銀集團投資大量具身智慧型手機器人企業,推動空間智能在服務機器人領域的應用。政策方面,日本《數字社會推進基本法》投入200億美元支援算力基建,目標2025年智能算力規模達100 EFLOPS。韓國聚焦晶片與終端裝置,三星電子在晶片製造領域具有優勢,2025年實現3nm製程量產,為輝達、AMD提供代工服務;SK海力士在HBM記憶體領域佔據全球40%份額,支撐高端AI晶片的記憶體需求;三星Galaxy S25手機搭載自研NPU晶片,算力達40 TOPS,支援AR空間互動。其他開發中國家主要依附歐美核心市場,通過承接算力服務外包、引進技術等方式發展,如印度、東南亞國家聚焦算力服務外包,為歐美企業提供資料標註、模型訓練輔助服務;巴西、南非等國家推動智慧城市試點,引進歐美成熟技術與裝置。3.3 中國算力產業鏈:自主可控加速,“一超多強”格局顯現3.3.1 上游核心硬體:國產替代加速,突破關鍵瓶頸晶片環節,中國形成“一超多強”的格局,昇騰系列晶片扮演“頭雁”角色,搭建“晶片-框架-叢集-應用”的四級閉環,已支援建造多個萬卡級叢集,2025年推出384卡超節點新形態,最大算力可達300 PFLOPS,配備創新的高速互聯匯流排,大幅提升大模型訓推效率。寒武紀聚焦AI專用晶片,2024年四季度首次實現單季度盈利,2025年前三季度營收46.07億元,同比增長2386.38%,歸母淨利潤16.05億元,核心產品寒武紀590替代率達15%。國產GPU“四小龍”(摩爾線程、沐曦股份、壁仞科技、燧原科技)加速崛起,2025年迎來上市潮:摩爾線程12月5日登陸科創板,上市首日股價躋身A股Top 3,市值3595億元,業務覆蓋AI智算、圖形渲染和智能座艙SoC晶片等領域;沐曦股份12月17日登陸科創板,總募資規模約41.97億元,核心產品曦雲C600性能介於A100和H100之間,實現全流程國產供應鏈閉環,2026年上半年正式量產;壁仞科技港股IPO獲備案,聚焦高性能通用GPU,公開融資總額超50億元;燧原科技啟動上市輔導,擬在科創板上市。其他硬體環節,中國在伺服器、光模組、感測器等領域具有全球競爭力:伺服器領域,浪潮資訊、華為佔據全球智算伺服器市場的25%份額,浪潮AI伺服器出貨量全球第一;光模組領域,中際旭創、天孚通信在CPO、OCS等技術上領先,2025年全球市場份額達30%;感測器領域,華為、大疆創新在LiDAR領域突破,車規級LiDAR單價降至800元以下,國內市場份額達20%。3.3.2 中游算力服務:基建領先,服務生態完善算力基礎設施方面,中國“東數西算”工程成效顯著,建成8大算力樞紐、10個國家資料中心叢集,2025年新增算力60%以上集聚國家樞紐節點,新建大型資料中心綠電佔比超80%。截至2025年3月底,中國智能算力規模達748 EFLOPS,預計2026年達1460.3 EFLOPS,2028年達2781.9 EFLOPS。頭部智算中心包括華為昇騰AI計算中心、阿里達摩院智算中心、騰訊智算中心等,其中華為昇騰AI計算中心已在全國建成20個節點,總算力達500 EFLOPS。算力服務方面,阿里雲、騰訊雲、百度智能雲、華為雲佔據國內雲算力市場的80%份額:阿里雲推出“飛天智算平台”,支援萬卡級大模型訓練,服務超10萬家企業;騰訊雲推出“混元智算平台”,整合自研晶片與輝達晶片,提供彈性算力租賃服務;百度智能雲“千帆大模型平台”聚焦空間大模型服務,已接入百度文心空間大模型等20餘款行業大模型;華為雲“盤古算力平台”依託昇騰晶片,提供全端國產化算力服務。算力網路方面,中國營運商牽頭推動算力網路建設,中國電信“天翼算力網路”、中國移動“算力網路”、中國聯通“智慧算力網路”已實現全國主要城市覆蓋,支援算力的按需調度與跨省互聯。2025年國內營運商算力投資增20%以上,算力核心產業規模2026年達2.6兆元,帶動相關產業超12兆元。3.3.3 下游應用:場景豐富,規模化落地加速中國空間智能應用場景豐富,智慧城市、工業智能空間、智能家居、自動駕駛等領域均實現規模化落地:智慧城市領域,試點項目覆蓋全國89%地級市,北京、上海、深圳等超大城市完成全域智能空間基礎設施建設,城市治理響應速度提升70%,能耗管理效率提高45%;工業智能空間領域,數字孿生工廠覆蓋率突破60%,基於邊緣計算的即時最佳化系統使生產線OEE平均提升18個百分點;智能家居領域,全屋智能滲透率達12.3%,華為鴻蒙生態與小米AIoT平台連接裝置突破8億台;自動駕駛領域,百度Apollo、小鵬汽車、理想汽車等企業的Level 3等級自動駕駛車型實現量產,Level 4等級在特定區域試點營運。政策支援方面,中國出台多項專項政策推動算力與空間智能產業發展:《智能空間產業發展行動計畫(2025-2030)》明確培育30家以上獨角獸企業,組建國家級智能空間創新中心,完成73項行業標準制定;《“十四五”數字經濟發展規劃》要求2025年智能家居市場滲透率達到40%;《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上,存量建築改造率不低於60%。3.4 國內外產業鏈對比:差距與優勢並存3.4.1 核心差距:高端晶片與生態建構1. 高端晶片技術差距:國外晶片製程已推進至2nm,輝達B200、AMD MI350等產品性能領先,國內最先進製程為3nm,昇騰910B、沐曦C600等產品性能介於A100和H100之間,與最新產品存在一代差距;晶片架構設計能力不足,國外企業擁有成熟的GPU架構(如輝達CUDA架構),國內架構生態尚在建構。2. 軟體生態差距:國外形成“晶片-框架-應用”的完整生態,輝達CUDA生態擁有數百萬開發者,支援各類AI框架與應用;國內生態較為分散,昇騰MindSpore、百度飛槳等框架的開發者數量與應用覆蓋度不足,跨框架相容性差。3. 高端感測器差距:LiDAR、毫米波雷達等高端感測器的核心元器件(如雷射發射器、探測器)依賴進口,國內企業在精度、可靠性等方面存在差距,車規級LiDAR的國外品牌市場份額達80%。3.4.2 中國優勢:市場規模與政策支援1. 龐大的市場需求:中國是全球最大的算力與空間智能應用市場,2025年智能算力規模佔全球37.8%,智慧城市、工業製造等場景的需求規模全球領先,為本土企業提供了廣闊的試錯與迭代空間。2. 強有力的政策支援:國家層面出台多項專項政策,從算力基建、技術研發、標準制定到應用推廣全方位支援,“東數西算”工程、新基建戰略等為產業發展提供了充足的資金與資源保障。3. 完善的製造業基礎:中國擁有全球最完整的電子資訊製造業產業鏈,在伺服器、光模組、終端裝置等硬體製造領域具有全球競爭力,可支撐算力產業鏈的本地化生產與成本控制。4. 快速的迭代速度:本土企業在應用場景落地方面迭代速度快,能夠快速響應客戶需求,在智慧城市、工業智能空間等細分場景形成差異化優勢。3.4.3 未來競爭焦點:異構算力與生態協同未來全球算力產業鏈的競爭焦點將集中在異構算力協同與生態建構:一是異構算力晶片的研發,整合GPU、CPU、NPU等多種晶片優勢,提升算力能效比;二是統一調度平台的建設,實現雲端-邊緣-終端的算力協同;三是開放生態的建構,通過開源框架、開發者社區等吸引全球開發者,擴大應用覆蓋度;四是綠色算力的突破,通過液冷、綠電等技術降低能耗,提升產業可持續性。第四章 算力需求分析:空間智能驅動的分層需求與增長邏輯4.1 算力需求總體特徵:規模爆發與結構分化2025年全球算力需求呈現“規模爆發式增長”與“結構差異化分化”的雙重特徵。從規模來看,全球智能算力規模達1980 EFLOPS,較2023年增長5倍,其中空間智能相關算力需求達693 EFLOPS,佔比35%,成為核心增長引擎。IDC測算2025年全球AI模型訓練與推理算力需求650 EFLOPS,多模態模型貢獻60%算力增量,而空間智能是多模態模型的核心應用場景。從結構來看,算力需求呈現三大分化趨勢:一是訓練與推理分化,訓練算力2025-2027年CAGR 25%-30%,主要用於GPT-5等兆級空間大模型預訓練;推理算力同期CAGR 90%-100%,為訓練的近4倍,2028年規模超訓練,成為算力增長主力,主要源於空間智能應用的規模化落地(如自動駕駛推理、智能路側感知)。二是算力形態分化,雲端算力佔比70%-75%,但邊緣算力增速(CAGR 50%-60%)遠超雲端,終端算力穩步增長,形成“雲端重訓練、邊緣重推理、終端重感知”的格局。三是行業需求分化,網際網路行業仍佔主導(60%),但金融、醫療、自動駕駛、工業模擬等場景增速超行業平均,生物醫藥AI模型訓練需求同比增210%。算力需求的增長邏輯可總結為“技術驅動-場景牽引-政策護航”三大核心要素:技術驅動方面,空間大模型參數規模從千億級邁向兆級,GPT-5級空間模型訓練需萬卡級GPU叢集,單次訓練成本超千萬美元,倒逼算力規模提升;場景牽引方面,智慧城市、自動駕駛等場景的規模化落地,帶來海量即時推理需求,Token消耗激增,中信證券預計2030年全球Token消耗為2025年的100-340倍,推理算力規模為2025年的65-220倍;政策護航方面,全球主要經濟體出台算力基建支援政策,中國“東數西算”、美國《晶片與科學法案》、歐盟“數字羅盤計畫”等為算力需求增長提供保障。4.2 分行業算力需求:核心場景與量化分析4.2.1 智慧城市:全域感知與智能調度的算力盛宴智慧城市是空間智能的核心應用場景,算力需求源於全域空間感知、數字孿生建模、智能調度決策三大環節,2025年算力需求達180 EFLOPS,佔空間智能總算力的25.9%。具體場景包括智能交通、智能安防、智能市政、智慧能源等:1. 智能交通:核心需求是即時交通感知與動態調度,單條智能路側裝置(含LiDAR、攝影機、雷達)每秒產生10GB資料,需邊緣算力進行即時處理(目標識別、軌跡預測),單路裝置推理算力需求達10 TOPS;城市級智能交通調度平台需雲端算力進行全域最佳化,一線城市(如北京、上海)調度平台的雲端算力需求達5 EFLOPS。2025年智能交通領域算力需求達80 EFLOPS,同比增長70%。2. 智能安防:核心需求是全域視訊監控與異常行為識別,超大城市的視訊監控點位超10萬個,單個點位需0.5 TOPS推理算力,邊緣端總算力需求達5 EFLOPS;雲端需進行視訊資料回溯分析與模型訓練,算力需求達2 EFLOPS。2025年智能安防領域算力需求達15 EFLOPS,同比增長50%。3. 數字孿生城市:核心需求是全域3D建模與動態模擬,超大城市全域數字孿生建模需處理PB級空間資料,訓練算力需求達10 EFLOPS;動態模擬需即時更新城市狀態,推理算力需求達5 EFLOPS。2025年數字孿生城市領域算力需求達30 EFLOPS,同比增長100%。4. 智慧能源:核心需求是電網、管網的空間監測與最佳化調度,城市級電網數字孿生需處理海量感測器資料,推理算力需求達3 EFLOPS;能源調度最佳化模型訓練需1 EFLOPS算力。2025年智慧能源領域算力需求達8 EFLOPS,同比增長60%。政策驅動是智慧城市算力需求增長的核心動力,中國《智能空間產業發展行動計畫(2025-2030)》要求2025年前完成200個智慧城市試點建設,配套財政補貼規模超800億元;住建部《建築節能與智能化發展綱要》提出2030年新建建築智能化系統覆蓋率達90%以上。 (AI雲原生智能算力架構)
倒計時3周離職!LeCun最後警告:矽谷已陷入集體幻覺
【新智元導讀】LeCun不忍了,三周後從Meta「提桶跑路」,臨走前狠扇了矽谷所有人一巴掌:你們信奉的大模型全是泡沫,根本通往不了AGI!大模型是一條死路,無法通往AGI!在今天的最新一期深度訪談中,LeCun直言不諱指出:所謂的ASI路線——不斷訓練LLM,用更多合成資料喂模型,雇上幾千人在後訓練階段「管教」系統,再折騰出一些RL的新技巧。在我看來,完全是胡說八道!這條路根本行不通,而且永遠都不可能成功。任職12年,即將暴走Meta的65歲圖靈獎得主,在公眾場合的觀點愈加偏激了。這場近2小時的對談中,LeCun的觀點一針見血——矽谷對不斷「堆大」LLM的痴迷是一條死路;搞AI最難的問題在於,它依舊是「阿貓阿狗」的智能,而非類人的水平。如今,他正把一生的學術聲譽押注在一條截然不同的AI路線之上,即「世界模型」。訪談中,LeCun還分享了創業公司AMI(Advanced Machine Intelligence)正在建構的「世界模型」——在抽象表徵空間中進行預測,而不是簡單地像素級輸出。幾天前,LeCun在與GoogleDeepMind大佬Adam Brown一場激辯中,同樣提出他的經典論點:LLM沒那麼聰明,畢竟一隻貓或一個孩子僅用少得多的資料就能理解世界。Token預測全是泡沫,物理世界才是真相。有網友辣評道,「Meta在AI領域失敗,LeCun是罪魁禍首」。還有人表示,「LeCun很聰明,在Meta保持沉默現在開始發聲了」。65歲創業,再造一個FAIR播客開場,主持人問道,「從Meta這樣大公司跳出來,從0起步,是什麼感覺」?LeCun坦言,雖然他此前也參與過創業,但這次的AMI意義非凡。這次的獨特之處在於一種新現象,即投資者也願意為其買單。這要是放在以往,是不可能的。歷史上,像貝爾、IBM、施樂PARC這樣的大實驗室,都一同壟斷了企業的財力。如今,行業風向正在轉變。FAIR通過開源推動了生態的發展,但近年來越來越多實驗室選擇閉源,OpenAI、Google,甚至Meta也不例外。在LeCun看來,這種閉源趨勢,不利於真正突破性的研究。因此,他決定在Meta外部創辦AMI,專注於「世界模型」,並計畫延續開放研究的傳統。除非你把論文發表出來,否則就不能稱之為真正的研究。要不然,你很容易陷入一種自欺欺人的狀態。看得出,LeCun這番言論一定程度上,暗示28歲上司Alexandr Wang的做法——此前曾爆出,FAIR實驗室想要發論文,必須經過MSL批准後才可以。LeCun再次強調,「如果真的想要突破,需要讓你的員工發表論文。沒有別的辦法。這是目前很多行業正在遺忘的事情」。下一步,AMI的目標不僅是研究,還會打造實際的產品,比如與世界模型、規劃有關的,並成為智能系統的核心供應商。接下來的話題,又回到了LeCun老生常談的事情。LeCun放話:LLM走不通他明確表示,當前的LLM或基於LLM的AI智能體,處理語言尚可,但在可靠性、資料效率、多模態處理上遠遠不足。我已經說了快十年了,世界模型才是解決這一問題的「正確方法」。「世界模型」能夠預測一個動作或一系列動作的後果,然後系統通過最佳化得出一系列動作,即找出那一系列動作能最好地完成設定的任務,這就是「規劃」。因此,LeCun認為,智能的一個重要部分是能夠預測行動的後果,然後將其用於規劃。「世界模型」是設計用來處理,高維、連續和嘈雜的模態資料,LLM完全不行。真正有效的方法是,學習一個抽象的表示空間,消除關於輸入的不可預測的細節,並在表示空間中進行預測。這就是, JEPA(聯合嵌入預測架構)的想法。論文地址:https://arxiv.org/pdf/2509.14252將近有20年的時間,LeCun一直確信,建構智能系統的正確途徑是通過某種形式的「無監督學習」。他回顧了自己的研究歷程——早在2000年代初中期,便開始探索無監督學習,並嘗試通過自編碼器(Autoencoders)來學習表示,但發現表示包含關於輸入的所有資訊是個錯誤。後來,他意識到需要「資訊瓶頸」(Information Bottleneck),限製表示的資訊量。2015年,ResNet(殘差網路)出世,徹底解決了深層網路架構訓練問題,也是從這時起,LeCun開始重新思考:如何推動實現人類水平的AI?他意識到,強化學習等方法,基本上無法scaling,且樣本效率極低,於是開始聚焦「世界模型」。最初嘗試,他在像素級預測視訊,但發現這行不通,真正的突破在於表示層(Representation Level)進行預測。JEPA的發展克服了早期孿生網路(Siamese Networks)的模型坍塌(Collapse)的問題,通過Barlow Twins、VICReg最佳化表示空間。最近的Latent Euclidean JEPA,進一步推進了這一思路。論文地址:https://arxiv.org/pdf/2511.08544對於LLM侷限背後的原因,LeCun分享了資料質量方面的「苦澀的教訓」(Bitter Lesson)。訓出一個性能還不錯的LLM,需要網際網路上大約30兆Token(約10^14字節)的文字資料。LLM需要巨大的記憶體,來儲存這些孤立的事實。相較之下,這僅相當於大約15,000小時的視訊——YouTube上30分鐘的上傳量。一個4歲孩子醒著時看到的視覺資訊,大約是16,000小時。去年發佈的V-JEPA 2模型,就是在相當於一個世紀時長視訊資料上訓練的,雖然字節數更多,但視訊資料的冗餘性正是自監督學習所需的。現實世界資料的結構比文字豐富得多,這也是為什麼LeCun堅稱,只靠文字訓練永遠無法達到人類水平的AI。關於理想化的「世界模型」,LeCun回應了主持人對《星際迷航》全息甲板(Holodeck)的比喻:人們誤以為,「世界模型」必須重現世界所有的細節,這不僅錯誤,還會有害。「世界模型」是在抽象表示空間中的模擬器,只模擬現實中相關的部分。不僅如此,LeCun相信合成資料很有用。但有些基本概念是我們通過經驗習得的,而不是天生的。然而,LLM並不真正理解這些,只是被微調出來給出正確答案,更像是「反芻」而非真懂。炮轟矽谷單一文化針對矽谷LLM狂熱的文化,LeCun的批評尤為尖銳。他指出,AI行業存在一種危險的「羊群效應」——競爭太過激烈,大家都害怕走偏路線而落後,於是OpenAI、Google、Meta、Anthropic等科技巨頭幾乎都在做同一件事。那便是,瘋狂堆疊LLM。這導致,矽谷形成了「單一的文化」,甚至這背後多少帶著點優越感。LeCun警告,一旦深陷「戰壕」,就只能拚命往前衝,因為誰也承擔不起被競爭對手甩開的風險。但更大的風險是,被完全不同方向、出乎意料的一套技術顛覆,它甚至可能解決完全不同的問題。JEPA的理念,即所謂的「世界模型」,恰恰與這條主流路線完全不同,能處理LLM很難應付的資料。LeCun甚至毫不客氣地說——如果你不想變成矽谷口中「被LLM洗腦了」(LLM-pilled)的人,便不會相信這樣一條路徑:只要不停地訓練LLM,用更多合成資料,去授權更多資料,再雇上成千上萬的人來做後訓練,在強化學習(RL)上不斷加點新花樣,你就能一路走到ASI。我認為這完全是扯淡,這條路根本不可能成功!「沒錯,你必須逃離那種文化」。他還透露,即使在矽谷的各家公司內部,也有不少人心裡很清楚:這條路走不通!因此,擺脫這種單一文化,正是LeCun創辦AMI的動因之一。他透露,AMI這家公司是全球性的,總部將設在巴黎,其全球其他幾個地方,包括紐約設立分辦公室。AGI是胡扯「類人AI」還需5-10年當被問及AGI時間線,LeCun先澄清:不存在「通用智能」這種東西!這個概唸完全沒有意義,因為它是被設計用來指代人類水平的智能,但人類智能是超級專業化的。所以AGI這個概唸完全是胡扯。話又說回來,他還是認為,我們會擁有在所有領域都和人類一樣好或更好的機器。「但這不會是一個單一事件,這將是非常漸進的」。他樂觀地預測道,如果未來兩年,能在JEPA、世界模型、規劃等方向取得重大進展。我們可能在5-10年內,看到接近人類智能,也許是狗的智能水平的AI。但這已是極度樂觀。更現實的是,AI歷史上多次出現未預見的障礙,需要我們發明新概念實現超越。那可能需要20年,甚至更久。有趣的是,LeCun認為最難的部分不是從狗到人類,而是達到狗的水平——一旦你達到了狗的水平AI,你基本上就擁有了大部分要素。從靈長類動物到人類,除了大腦的大小差異之外,還缺的是「語言」。語言基本上由韋尼克區(Wernicke area)以及布羅卡區(Broca area)處理。而LLM已經在語言編碼/解碼上表現不錯,或許能充當大腦的韋尼克區和布羅卡區。LeCun稱,我們現在正在研究的是前額葉皮層,那是「世界模型」所在的地方。離職Meta,三周倒計時訪談中,LeCun還談及了Meta AI的重組。他表示,Alexandr Wang並非接替他的位置,而是統管Meta所有AI相關研發和產品,包括四個主要部門:FAIR(長期研究)GenAI Lab(專注前沿LLM建構)AI基礎設施模型轉化為實際產品的部門重磅的是,LeCun透露,自己將在Meta再待三個星期。(估計1月初,正式告別Meta了)FAIR現在由紐約大學Rob Fergus領導,正被推向「更短期的項目」——較少強調發表論文,更多專注於協助GenAI Lab進行LLM和前沿模型的研究。GenAI Lab也有一個首席科學家,專注於LLM,其他組織更像是基礎設施和產品。看得出,Meta重組重心完全放在了LLM,這也是LeCun選擇出來創業的部分原因。此外,LeCun還點評了一些大模型公司,包括SSI、Physical Intelligence、Thinking Machines等。Ilya創立的SSI,甚至包括他們的投資人,都不知道這家公司要做什麼。給年輕人的建議:別學CS訪談的最後,主持人問道,「如果你今天重新開始AI職業生涯,會專注那些技能和方向」?LeCun的回答直擊要害,學習那些「保質期長」(long shelf life)的知識,以及能讓你「學會如何學習」的東西。因為技術演變得太快了,你需要具備快速學習的能力。他開玩笑地說,「保質期長的東西,往往不是電腦科學」。所以,作為一個電腦科學教授,我勸大家別學電腦科學。不過,LeCun還是給出了一些具體的建議,其中包括:深入學習數學(微積分、線性代數、機率論)、建模基礎,尤其是能與現實世界聯絡的數學(工程學科中常見);電氣工程、機械工程等傳統工程專業,能提供控制理論、訊號處理、最佳化等對AI極有用的工具;物理學也是絕佳選擇:物理學的核心就是「如何表徵現實以建立預測模型」——這正是智能的本質;電腦科學只需學到能熟練程式設計和使用電腦的程度(即使未來AI寫程式碼,你仍需懂底層);別忘了學點哲學。LeCun強調,這些基礎能讓你在AI快速變化中始終站穩腳跟,而不是被短期熱點牽著鼻子走。 (新智元)
DeepSeek 與 Google 的暗戰:誰會最先找到通往 AGI 的鑰匙?
自從 2022 年 ChatGPT 3.5 橫空出世,讓世人領略到 AI 的非凡魅力;再到 2024 年底 DeepSeek 驚豔登場,給國人帶來了巨大的驚喜與自信。如今,各類大模型(LLM)及 AI 應用已經深刻地改變了我們的生活。AI 每天都在增強功能。昨天做不到的事,今天已經能做;前天做不好的題,今天已經可以輕鬆解決。我們彷彿回到了蒸汽機投入實用後的那段時間——新技術、新發明以肉眼可見的速度狂飆突進。然而,在這波 AI 浪潮的狂歡背後,科技界仍存爭議:LLM 真的是通往 AGI(通用人工智慧)的正確方向嗎? 或者說,僅靠當前的 LLM 就足夠了嗎?答案其實很清晰:不夠。Transformer 是一次偉大的突破,但要讓機器真正“理解世界”,我們仍需要更多類似 Transformer 等級的全新核心技術。凍結的知識快照不是智能我們知道,當前大模型的訓練方法,本質是讓 Transformer 在大量文字裡尋找“詞與詞的關係”,並基於這些統計關係預測下一個詞。訓練完成後,所有知識都被壓縮排最終的權重檔案裡,像一張凝固的“知識快照”。 但之後它不會自動學習新知識,除非重新訓練或微調。明天產生的新知識無法自動融入,換言之,LLM 本身沒有即時的學習能力。從上面你很快能就發現當前基於LLM的AI的兩個“死穴”:其一,LLM只是一個機率模型,它知道“E=mc²”後面大機率跟著“愛因斯坦”,也知道怎麼用這句話造句,但它不知道這公式是怎麼推匯出來的,也不知道如果光速改變了世界會怎樣。它學到的是知識的“投影”(文字),而不是知識的“本體”(邏輯與因果)。其二,它的知識是靜態的。正因為它沒有一個知識的生產過程,所以它不知道這些知識是如何產生的,為什麼會形成這個知識,這些知識為什麼對,為什麼錯。正如X上有某位大佬所言:“當前 AI 水平離真正的 AGI 還差好幾個 Transformer 等級的創新。” 但遺憾的是,現在還沒有可以取代Transformer的新架構。在這一點上,中美其實“站在同一片荒原上”,未來怎麼走,大家都在摸索。理解知識的積累過程,是智能的前提嗎?回想一下人類的學習方式:從小到大,知識是一點一滴積累的,對同一個知識點的理解也是層層遞進的。相比之下,LLM 生成即“凍結”,缺失了進化的過程,所以它“知道”,但它不“理解”。那麼,將知識的積累過程保留下來,會不會是通往 AGI 的一個方向?如果 AI 能復現人類對某個現象的認識過程,是否就能理解其背後的原理,從而舉一反三?至少,可以將這個認識過程當作一種“元模式”記錄下來,在處理新問題時按部就班地套用。當然,這個觀點也存在爭議。因為許多科學突破是“斷層式”的——先是天才的“靈光一閃”,後人再通過邏輯去填補證據。不過,從人類的普適經驗來看,模擬知識的積累過程,肯定有助於 AI 達到人類智能的平均水準。我們不指望 AI 頓悟成愛因斯坦,但達到專家的水平是完全可期的。這個過程可以從兩個角度來分析一是知識的層級性,高階知識依賴並建立在前導知識(基礎概念、技能)之上。比如說,一個人學習流體力學前,需掌握微積分與線性代數。二是學習的漸進性,對具體知識的理解和記憶,是一個從模糊、具體到清晰、抽象的動態過程。對於個人來說,對新概念的掌握,會從最初的生硬記憶,逐漸內化為可靈活運用的直覺。Google的思考:結構化與記憶針對第一個維度(層級性),Google 試圖將模型的知識結構化為不同時間尺度、相互巢狀的層級,提出了“巢狀學習”(Nested Learning)與記憶框架。(參見論文:https://abehrouz.github.io/files/NL.pdf)。“巢狀學習”的核心是將一個複雜的AI模型,視為一系列相互巢狀的最佳化問題。簡單來說,模型的不同部分可以像人的不同記憶一樣,以不同的“速度”學習和更新。簡單舉例,一般的LLM訓練,對於一個文字來說,可以理解成一個平面,從上而下,流式分佈。然後訓練過程相當於找出每個字之間的關係機率,因為處理窗口的關係,如果算到了後面的內容,往往與前面的文字關係就小了,計算時用的權重也就低了。如同一篇小說,即使作者費盡心機在結尾時回應了開頭處的一個梗,填了開始的一個坑,對於AI來說,也是拋媚眼給瞎子看。AI早就忘記了。而Google的巢狀學習,則是對同一篇文章,除正常的訓練方式外,還對文章先在不同的層次上進行預處理。比如先做一個文章梗概,先過一遍文章,把所有作者預埋的“坑”提取出來……,這樣一篇文字就變成了n篇不同維度文字,然後在訓練時,這些文字都參與訓練,可以平行處理,只是訓練參數和訓練方法不同。能根據性質選擇不同精度和速度的計算,而且訓練出的成果是可以疊加的,不再是單一固定的權重檔案。上面的圖就是一個例子,左邊是普通的深度學習訓練過程,而右邊則是巢狀學習的例子,你能看出對於同一個內容,根據進行多次訓練,只是廣度和精度各不相同。此外,Google 的 ReasoningBank 記憶框架(相關論文:https://arxiv.org/abs/2509.25140 )則更進一步。它的思路是讓AI智能體從以往的成功與失敗經驗中,主動提煉出結構化的“記憶項”。每個“記憶項”包含策略標題、描述和推理內容,本質上是對低級經驗的抽象總結。當面對新任務時,AI會檢索並應用這些抽象原則來指導行動,這模擬了人類專家運用已有知識框架去解決新問題的過程。DeepSeek的嘗試:多維感知與自驗證推理針對第二個維度(漸進性),DeepSeek 在感知與推理兩個層面都展現了對人類思維模式的深度模擬。首先在視覺感知層面,以 DeepSeek-OCR 為例,他們採用了一種獨特的“多解析度訓練”思路:不僅僅是對圖像進行簡單的向量化,而是試圖模擬人類的視覺認知過程——即 “從模糊到清晰” 的動態掃描。對同一張圖片(場景),模型會同時學習其低解析度的宏觀輪廓與高解析度的微觀細節(相關技術細節可參看此前的公眾號文章)。這種策略暗合了人類大腦處理視覺資訊的生物學模式:先建立全域印象,再填充局部細節。不僅在感知上發力,DeepSeek 更試圖在推理層面重現人類的“反思”能力。DeepSeek 不僅在基礎大模型上發力,向各個專家模型演進(如 DeepSeekMath-V2),更在某些領域嘗試模擬人類的“記憶狀態”。在 2025 年 11 月 27 日剛剛發佈的 DeepSeekMath-V2(論文:https://arxiv.org/pdf/2511.22570 )中,DeepSeek 引入了突破性的 “自驗證”(Self-Verification) 機制。這相當於讓 AI 進化出了“自我監考”的能力。傳統的模型像是一個只顧填答題卡的考生,只在乎最終答案是否命中;而 DeepSeekMath-V2 則像是一個嚴格的老師,它不僅檢查答案的對錯,更會一步步審視 解題過程(Process) 的邏輯鏈條。通過這種方式,模型不再是“蒙”對了一個答案,而是真正確信自己“理解”了這道題。這種從“結果導向”向“過程導向”的轉變,是 AI 邁向深度邏輯推理的關鍵一步。DeepSeek 的“自驗證”機制構成了一個自我完善的智能閉環:它不僅能評估解題過程,更能主動生成推理步驟並對其驗證。這模仿了人類的元認知與自我學習能力。古人倡導“吾日三省吾身”,而 AI 則可實現瞬時、高頻的自我審視與迭代最佳化。如下圖(論文中的附圖)所示,隨著驗證次數(最高達7次)的增加,模型解決問題的能力顯著提升,充分體現了通過“反覆自學”實現能力進化的潛力。雖然上述分別列舉了兩家公司的例子,但在技術演進的洪流中,它們並非孤立存在。Google 的巢狀學習涉及不同清晰度資料的處理,而 DeepSeek 的多專家系統(MoE)及多層次資料訓練,本質上也是在對知識進行結構化拆解。結尾:AGI的未來方向,也許正在悄悄顯現從 Google 到 DeepSeek,我們正在看到一個趨勢越來越明確:真正的智能,不是更大的模型,而是更“結構化”的學習過程。未來的 AI,可能會具備:能分層理解知識結構的能力能保持多時間尺度記憶的能力能自主總結“經驗規則”的能力能在模糊與清晰之間漸進切換的能力能記錄“知識的進化史”而不是只記錄結論這些能力加在一起,不是“下一代更大的 Transformer”,而是:一種能夠像人一樣“成長”的架構。我們或許距離 AGI 仍有數個重要突破,但路徑正在變得越來越清晰:不是簡單堆算力、堆資料,而是讓模型獲得“理解知識如何生成”的能力。或許,真正的智能不是一夜之間的奇蹟,而是一次又一次讓機器“重走人類認知之路”的漫長積累。而現在,我們正在走在這條路的最前面。 (亍雲旁觀)
AI的Scaling時代正在進入尾聲?
近期不管是Dwarkesh Podcast上Ilya的訪談,還是行業前沿一些最新的論文進展與NeurIPS 的最佳論文,似乎都在揭示一個真相就是AI的Scaling 時代正在進入尾聲?這屆 NeurIPS 的最佳論文名單,我看了一遍,似乎也並不是在說“Scaling 完全沒用了”,而是在給 2018–2025 這一輪“簡單堆大模型 + RLHF”的路線開一份“體檢報告”:哪些地方已經到 邊際收益遞減 / 隱患暴露期;哪些方向還存在 新的可擴展維度(結構、更深網路、訓練動力學)。結合 Ilya 在 Dwarkesh 訪談裡那句“It’s back to the age of research again, just with big computers”,這 7 篇論文確實在接近一個真相,就是“Scaling 時代”正在接近尾聲,要通過scaling獲得模型邊際性能的提升變得越來越難了。一、先把 7 篇論文拎成 3 條主線按主題而不是按官方獎項看,會更清楚:主線 A:對“無腦 Scaling + RLHF”的反思Artificial Hivemind(Best Paper)這對未來兩個東西都很要命:這篇論文在實證層面告訴你:繼續按照現在這套 RLHF + 合成資料流水線往前堆,遲早會撞到“資訊熵天花板”。創意 / 多樣性:LLM 越來越像一個“平均值人類”,長尾觀點全被削平。合成資料訓練:如果你再用這些“高度平均化”的 LLM 輸出去訓練下一代模型,訓練分佈的資訊熵會持續下降 → 相當於在做一個“生態等級的 mode collapse”。Intra-model:同一個模型對不同採樣、不同時間,回答非常像。Inter-model:不同家的 SOTA 模型(不同架構、不同實驗室)對開放問題的回答也高度相似。做了一個大規模開放式問答資料集 Infinity-Chat(26K 開放式問題 + 超 3 萬人類標註)。發現兩個層面的同質化:這種“人工蜂巢思維”很大一部分來自 RLHF / 對齊階段的 reward model 把“安全、無爭議、平均偏好”的那一塊分佈壓得特別重。2. Does RL really incentivize reasoning capacity?(Runner-up)這基本在幫 Ilya 把話說完:你不能指望一個表徵不夠好的基座,只靠後期 RL 就“解鎖智力上限”。RLVR 是在擠同一塊資訊海綿裡的最後一點水,而不是往海綿裡再灌海水。RL 更像是在隱空間裡學會“少走彎路、直接拿出自己已經會的解法”;但要讓模型學會真正 OOD 的邏輯結構,主戰場仍然是 pre-training 表徵質量。做了嚴格控參實驗,比較 base model 與 RLVR / CoT RL 後的模型。結論不是“RL 沒用”,而是:大部分提升來自“更會採樣”而不是“更會推理”。3. Superposition Yields Robust Neural Scaling(Runner-up)從這裡開始,Scaling 不再是“經驗公式”,而變成“有前提條件的物理定律”:前提不滿足(比如特徵太同質、資料熵不足、RLHF 拉平分佈),Scaling 的收益自然就塌了。Scaling Law 不是玄學,是網路在“塞越來越多特徵進去同一維度空間”時的統計結果;但一旦 superposition 太極端,也會帶來干擾、解釋性差等問題。做的是 toy model + 理論:解釋 Scaling Law 為何看起來像“物理定律”。觀點:網路不是“一維一個特徵”,而是在有限維度裡做了大量 非正交特徵疊加(superposition),在一定條件下可以推匯出類似 “loss ∝ 1/d” 這樣的反比關係。主線 B:從“堆大”轉向“改結構 / 改動力學”這裡是最貼近 Ilya 所說的“Age of Research”的部分:不是把模型做更大,而是在相似計算預算下,重寫 Recipe。4. Gated Attention for LLMs(Best Paper,阿里 Qwen)很小的改動:在 scaled dot-product attention 的輸出後面,加一個 head-specific 的 sigmoid gate。實驗:在 1.7B dense + 15B MoE 模型、3.5T tokens 上系統比較了 30 多種 gating 變體。給原本線性的 low-rank attention 對應加了一層非線性;按 query 自適應做稀疏門控,抑制不該擴大的殘差。結果:這個簡單門控能同時帶來:訓練更穩定、允許更大的學習率;更好的 scaling 性能;長上下文 extrapolation 更好,並且 緩解 attention sink(那種開頭 token 吃掉一堆注意力的現象)。本質上這類工作說明:架構級的小手術 + 訓練動力學的理解,可以在“不多加算力”的前提下,把 Scaling 繼續向前推一段。這就是 Ilya 所謂“回到 research,只不過有更大的電腦”。5.1000 Layer Networks for Self-Supervised RL(Best Paper)有點反轉:說明 “Scaling 結束” 不是全行業的,而是 “某種簡單 scaling 策略的天花板到了”;其他範式(RL + SSL + 具身智能)反而剛剛拉開帷幕。LLM 那邊大家在喊“Scaling 遇到瓶頸”;RL 這邊反而剛進入自己的 Scaling Moment(但靠的是深度 + 自監督,而不是僅僅加寬點 MLP)。傳統 RL policy 網路一般就 2–5 層,深了就梯度斷、訊號稀疏。這篇用 自監督目標 + goal-conditioned 無獎勵設定,把網路深度做到 1024 層,在 Locomotion / Manipulation 的目標達成任務上提升 2x–50x。更重要的不是數字,而是 qualitative change:深層表徵開始出現 “湧現的目標達成策略”,而不是簡單的局部最優。6. Why Diffusion Models Don’t Memorize(Best Paper)研究擴散模型在訓練過程中的 兩階段動力學:早期:迅速學到資料流形的結構 → 泛化能力主要形成於此;後期:緩慢開始記憶孤立樣本 → 過擬合主要在這個階段發生。把這個現象解釋為一種 隱式動力學正則化(implicit dynamical regularization):噪聲調度 + 損失景觀,讓模型更傾向學“結構”而不是“具體樣本”。這對現實世界有兩個含義:從理論上解釋了為什麼擴散模型在很多實驗裡 不太“死記硬背”訓練樣本;也給出了一個穩健操作建議:控制訓練時長 / 早停點,就可以在不改變結構的前提下獲得 better generalization。這裡的關鍵詞是:理解訓練動力學 → 調 recipe,而不是再堆參數。7. Optimal Mistake Bounds for Transductive Online Learning(Runner-up)這是純理論,把一個 30 年的 open problem(直推線上學習的 mistake bound)補完。配上上面幾篇,可以看出一個趨勢:Scaling 不再等於“加 labeled data + 加參數”,而是“利用 unlabeled / self-supervised 結構,把資訊效率榨滿”。給半監督 / 自監督學習的 “極限收益” 一個更清晰的下界;幫你回答“多利用 unlabeled data 到底理論上能好多少”。結論:在有大量未標註資料的情境下,可以把錯誤界從線性降到 √n 等級。主線 C:回到“生物與歷史”的兩塊基石Test of Time:Faster R-CNN10 年前的工作被授予時間檢驗獎,本質是在提醒大家:當年深度學習取代手工特徵工程(Selective Search 等)的邏輯,就是:“只要接上梯度,一切皆可學習”。和 Gated Attention 一起看,相當於在說:真正改變時代的架構創新,往往不是“多 10 倍參數”,而是“發現一個新的 end-to-end 可微組合方式”。Sejnowski-Hinton Prize:Random Synaptic Feedback / Feedback Alignment這篇 2016 年的工作證明:即使反向傳播的 feedback 權重是固定隨機的,前向權重也可以在訓練中“自動對齊”它們,從而逼近真正梯度。對今天的暗示:深度學習不必拘泥於“生物不可能實現 exact backprop,所以不 biologically plausible”;你可以探索 更鬆弛、但可實現的學習機制。配合 Ilya 現在在 Safe Superintelligence 做的事情,其實是在告訴你:下一階段的“Research”不僅是工程層面的 recipe,更是“理解大腦 / 理解學習規律”層面的基礎研究回歸。二、這 7 篇論文是如何給 Ilya 那句“Scaling 時代結束”做註腳的?把 Ilya 訪談裡的時間軸簡單整理一下:2012–2020:Age of ResearchCNN / RNN / attention / Transformer / RL breakthroughs。2020–2025:Age of Scaling大模型 + 巨量資料 + 大算力,“公式非常簡單、低風險”:堆 GPU 就是正解。2025 以後:Back to the age of research, just with big computers規模已經很大,再 100× 不會“質變一切”,必須重新在“方法 / 架構 / 理論”上做發現。NeurIPS 這幾篇獲獎論文剛好對應三個層面:1. Scaling 舊範式的“副作用清單”這幾篇一起,把“簡單繼續沿用過去 5 年的 scaling recipe” 的邊界畫出來了。Artificial Hivemind:過度對齊 + 合成資料 = 生態級 mode collapse 風險。RLVR 去魅論文:把 RL 當“神奇推理放大器”是不現實的;它更多是採樣器最佳化。Superposition Scaling:Scaling Law 只是某些結構下的“物理現象”,前提一旦被破壞,law 就不再適用。2. 新範式的“起點示例”博弈的重點,從 “再加多少 GPU” 變成 “在既有算力預算下,如何通過結構 + 動力學 + 理論把效率榨盡”。Gated Attention:通過理解 attention 動力學(attention sink、低秩對應),做最小結構改動,換來更穩定、更可擴展的訓練。1000-Layer Self-supervised RL:在 RL 場景裡把深度 scaling 打開,但必須配合自監督世界模型。Diffusion Dynamics:通過分析訓練動力學,給出“不 memorization” 的機制解釋和操作準則。Transductive Mistake Bounds:為“如何利用 unlabeled data 到極限”提供理論下界。3. 回到“世界怎麼工作的”這和 Ilya 現在的強調完全對應:模型已經“足夠大”,但 泛化比人差得多;下一個階段必須是理解“泛化的物理 / 生物機制”,而不是繼續盲目擴表。Faster R-CNN 與 Feedback Alignment 兩個獎項,某種意義上是在說:深度學習最強的時候,從來不是模型最大的時候,而是我們第一次找到“世界 / 視覺 / 大腦”真正規律的那些時刻。三、這個判斷在提醒什麼?換成很實在的視角:1. 資料與分佈:不要再把“更多樣本”當唯一武器合成資料 ≠ 免費午餐,如果源模型高度同質,我們只是把“平均人類”的偏見重複寫 N 遍;對於開放式任務,需要設計能衡量 輸出多樣性 / 長尾質量 / 個體偏好差異 的基準,而不只是平均分。真正的泛化很多時候來自訓練動力學(比如噪聲 schedule),而不是資料量超大;未來圍繞“資料版權 / 記憶與泛化邊界”的爭論,會越來越依賴這種動力學層面的理論。2. 模型與架構:規模相近的情況下,誰的 Recipe 更聰明?許多“訓練不穩 / sink token / 長上下文塌陷”的問題,可以通過 非常局部的結構改動 來解決;這類工作對工業界極具價值,因為它幾乎是“drop-in replacement”。在 RL 這種傳統上偏淺層的領域,深度本身就是一個還沒被用完的 scaling 維度;但要開啟它,你必須引入 自監督世界模型 / 輔助目標,否則梯度與訊號撐不住。如果把 2018–2025 的 LLM 熱潮比作一次“大煉丹”:這幾年我們已經證明:Scaling 非常有效,但不是無限有效。NeurIPS 2025 的這幾篇獲獎論文,在不同維度上給出了同一個答案:再往前走,不能再靠“多幾倍 GPU”來當默認路線了。 需要的是:理解分佈、理解架構、理解訓練動力學、理解泛化極限。換成 Ilya 的話就是:時代沒有從 Scaling 退回“什麼都沒有”, 而是從“只有 Scaling”回到了“Research + 大算力”並重。 (貝葉斯之美)
一、AI大模型基本原理
最近隨著資本做空輝達,巴菲特退休之前押注Google,國內阿里的QWen3-max推出,大模型應用在沉寂大半年之後又開始活躍。畢竟輝達是賣鏟子的,真正拿鏟子去耕種的還得是大模型基座以及基於大模型的應用開發。💡 本文會帶給你什麼是AI?AI大模型能做什麼大模型現階段落地情況綜述怎樣尋找企業中大模型落地場景大模型的通俗原理大模型技術的短板大模型應用技術架構DeepSeek本地部署和應用開始上課!什麼是 AI?「AI is bullshit。深藍沒用任何 AI 演算法,就是硬體窮舉棋步。」思考:「智能冰箱」是 AI 嗎?一種觀點:基於機器學習、神經網路的是 AI,基於規則、搜尋的不是 AI。AI大模型能幹什麼?大模型,全稱「大語言模型」,英文「Large Language Model」,縮寫「LLM」。現在,已經不需要再演示了。每人應該都至少和下面一個基於大模型的對話產品,對話過至少 1000 次。本課第一個專業要求:分清對話產品和大模型。但是,千萬別以為大模型只是聊天機器人。它的能量,遠不止於此。按格式輸出分類聚類持續互動技術相關問題可能一切問題,都能解決,所以是通用人工智慧 AGI用 AI,要用「用人思維」:機器思維:研發了什麼功能,就有什麼功能。用人思維:給 ta 一個任務,總會有些反饋,或好或壞,驚喜或驚嚇。劃重點:大模型就是一個函數,給輸入,生成輸出任何可以用語言描述的問題,都可以輸入文字給大模型,就能生成問題的結果文字進而,任意資料,都可以輸入給大模型,生成任意資料輝達 CEO 黃仁勳 2024 年 6 月 2 日在 Computex 上的演講提到各種模態資料的統一支援:大模型GPT時代:一切皆為向量AI驅動干行百業效率升級,大量行業場景應用價值仍待深挖大模型現階段落地情況綜述Killer App 沒有影,AI 原生待證明。手握場景不著急,內部提效暗暗行。Killer App 沒有影AI 沒有創造新的使用場景,只是舊場景的增強,所以沒有 Killer App 的土壤可以樂觀期待 Killer App,但別苦苦追求請忽略一切張嘴就是 Killer App 的人AI 原生待證明AI 原生,是指產品的核心功能是 AI,而不是 AI 作為輔助功能。典型特點是,有 AI 後才出現。助手類,打不過 Siri 們ChatGPTKimi Chat文心一言通義千問智譜清言……搜尋類,Google百度不會袖手旁觀Perplexity秘塔 AIDevv情感陪伴類,社交巨頭正謹慎觀察Character.AI(已被 Google 人才收購)星野Replika定製 Agent,商業模式探索中ChatGPT GPTs扣子DifyAI程式設計 ,目前最成功的AI應用CursorWindsurfInsCodemarscode手握場景不著急大玩家毫不落後,AI 帶來的市場格局變化不大。拍照答題GauthQuestion AI英語學習多鄰國有道 Hi Echo圖像處理美圖秀秀Adobe Firefly辦公WPS AICopilot for Microsoft 365釘釘魔法棒飛書智能夥伴騰訊會議智能助手程式設計GitHub Copilot全家桶GoogleMicrosoft字節跳動內部提效暗暗行很多企業將大模型和業務相結合,取得了或大或小的效果行銷AI 做行銷創意,人再加工AI 批次生產行銷素材多語言翻譯客服/銷售半 AI,適合本來有人做,AI 來提效全 AI,適合本來沒人做,AI 來補位辦公公文撰寫/總結/翻譯知識庫內部客服輔助決策情報分析BI產品研發創意、頭腦風暴IT 研發提效怎樣尋找企業中大模型落地場景1. 業務流程解構明確目標 :確定解構的目標是什麼,是否是提升效率、降低成本,還是增強產品或服務的質量。分析現有流程 :通過與相關部門和團隊溝通,瞭解當前的業務流程,使用流程圖、價值流圖等工具。收集資料 :收集與流程相關的資料,包括時間、資源、瓶頸等,識別出目前流程中的問題和改進點。識別關鍵環節:確定每個環節對業務結果的影響,識別那些環節最能推動價值產生,那些是浪費或低效的環節。2. 繪製企業價值流圖識別關鍵流程:將企業流程分為不同的關鍵環節,如供應鏈管理、生產流程、銷售等。標記價值增值活動:明確那些環節增加了實際價值,那些是純粹的支援性或非增值活動。流程中的浪費:識別流程中出現的浪費,如等待、過度處理、運輸、庫存、動作等。時間與資源:標註每個環節的時間、資源消耗,以及這些消耗如何影響最終的交付。改進方案:通過價值流圖,找到需要最佳化的環節,提出改善措施。3. 識別大模型應用場景資料驅動的決策:大模型可以幫助企業分析大量資料,提供更精確的決策支援,示例:通過AI分析客戶資料,最佳化市場行銷策略。自動化與智能化:大模型可以應用於自動化任務,如智能客服、語音識別、圖像識別等,減少人工成本並提升效率。個性化服務:通過大模型實現個性化推薦系統,基於使用者歷史行為或偏好為其推薦個性化的產品或服務,提高客戶滿意度和轉化率。預測與最佳化:利用大模型對歷史資料進行分析,預測未來趨勢,最佳化生產計畫、庫存管理等業務環節。業務流程改進:利用大模型分析當前業務流程中的瓶頸和效率低下的環節,提出改進措施,最佳化資源配置。實際應用案例:業務流程解構與企業大模型應用案例 1:智能客服系統最佳化1. 業務流程分析現有流程客戶通過電話或線上管道聯絡客服,人工客服接聽後處理問題。高峰時段,客服人員處理請求的速度較慢,且重複性問題佔比高。問題分析客服響應時間長,客戶體驗差。高重複性問題,人工客服效率低。客服人員壓力大,缺乏足夠的資源。2. 價值流圖繪製關鍵流程客戶請求 -> 人工客服接聽 -> 問題解決 -> 客戶反饋問題識別高峰期間等待時間長,人工客服需要處理大量重複問題,缺乏自動化支援。改進點引入自動化工具(如智能客服)減少人工干預,提升響應速度。3. 應用大模型自然語言處理(NLP)使用大語言模型(如GPT)建構智能客服系統,支援自然語言理解和生成,自動回答常見問題。工作流使用NLP識別客戶請求意圖並進行分類。常見問題通過智能問答系統自動解答。將複雜或不常見問題轉接給人工客服。結果客服響應時間減少50%,客戶滿意度提高。人工客服壓力減輕,更多精力投入到複雜問題處理上。案例 2:智能供應鏈與需求預測最佳化1. 業務流程分析現有流程企業生產與庫存管理依賴傳統的預測模型,按月或季度調整生產計畫,庫存管理不精確,容易造成庫存積壓或缺貨。問題分析生產計畫與實際需求不匹配,導致產能浪費或供應短缺。庫存管理不精準,影響現金流和營運成本。2. 價值流圖繪製關鍵流程需求預測 -> 生產計畫 -> 原材料採購 -> 產品生產 -> 倉庫管理 -> 客戶交付問題識別傳統需求預測精度低,庫存管理滯後,無法快速響應市場變化。3. 應用大模型機器學習模型利用歷史銷售資料、市場趨勢和季節性變化等因素,應用大模型提高需求預測精度。工作流使用AI進行資料分析和需求預測。自動調整生產排程和採購計畫。基於預測結果動態調整庫存管理策略。結果需求預測準確率提高20%,庫存積壓減少30%。生產和採購計畫更加精準,營運成本降低。案例 3:智能生產線質量控制1. 業務流程分析現有流程生產線上的產品質量由人工檢測,人工檢測存在判斷失誤和效率低的問題,特別是在高產量情況下,無法及時發現質量問題。問題分析質量檢測依賴人工,容易漏檢或誤判。高生產速度下無法保證每個產品都得到充分檢查,導致次品流入市場。2. 價值流圖繪製關鍵流程原材料入庫 -> 生產加工 -> 質量檢查 -> 產品包裝 -> 交付問題識別人工檢查的精準性和效率無法滿足生產需求,生產質量無法穩定控制。3. 應用大模型電腦視覺使用視覺大模型進行產品質量檢測,自動識別產品缺陷。工作流使用大模型對生產線上每個產品進行圖像識別,即時監控產品表面缺陷。對有缺陷的產品進行標記,及時移出生產線,避免流入市場。AI即時反饋生產資料給生產線控制系統,最佳化生產流程。結果質量檢測精度提升至99%,次品率減少80%。整體生產效率提升30%,減少了人工檢測的誤差和漏檢問題。總結這三個案例展示了如何通過大模型最佳化企業業務流程。智能客服、供應鏈最佳化和生產線質量控制是大模型應用的重要領域,通過自動化、預測和最佳化,企業能夠提高效率、降低成本,並提供更好的客戶體驗。通過結合大模型的強大能力,企業可以快速應對變化,提升競爭力。成功落地大模型五要素成功落地大模型五要素:業務人員的積極對 AI 能力的認知業務團隊自帶程式設計能力小處著手老闆的耐心如何找到落地場景找落地場景的思路:從最熟悉的領域入手儘量找能用語言描述的任務別求大而全。將任務拆解,先解決小任務、小場景讓 AI 學最厲害員工的能力,再讓 ta 輔助其他員工,實現降本增效思考:你的業務中,有那些問題可能 AI 能解決?工作機會在那裡?首先要知道:純大模型崗位幾乎是不存在的。可選:獨立開發者/創業有科技屬性的公司幾乎所有崗位傳統企業跑通 AI 工作流,找全端工程師定製化開發大模型是怎樣工作的?通俗原理其實,它只是根據上文,猜下一個詞(的機率)……OpenAI 的介面名就叫「completion」,也證明了其只會「生成」的本質。下面用程序演示「生成下一個字」。你可以自己修改 prompt 試試。還可以使用相同的 prompt 運行多次。from openai import OpenAIfrom dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())client = OpenAI()#prompt = "今天我很"  # 改我試試prompt = "下班了,今天我很"#prompt = "放學了,今天我很"#prompt = "AGI 實現了,今天我很"response = client.chat.completions.create(        model="gpt-4o-mini",        messages=[{"role": "user", "content": prompt}],        stream=True)# 處理並列印流式響應內容for chunk in response:print(f"\033[34m{chunk.choices[0].delta.content or''}\033[0m", end="")略深一點的通俗原理訓練和推理是大模型工作的兩個核心過程。用人類比,訓練就是學,推理就是用。學以致用,如是也。例如,有下面訓練資料:AI 正在改變我們的生活方式。AI 技術在醫療領域有廣泛應用。AI 可以提高企業的生產效率。AI 演算法能夠預測市場趨勢。AI 在自動駕駛汽車中扮演重要角色。AI 有助於個性化教育的發展。AI 機器人可以執行複雜的任務。AI 技術正在推動智能家居的普及。AI 在金融分析中發揮著關鍵作用。AI 技術正逐步應用於藝術創作。「AI」之後出現「技」的機率大於其它字。這些字之間的機率關係,就是大模型訓練時學到的。用不嚴密但通俗的語言描述原理:訓練:大模型閱讀了人類說過的所有的話。這就是「機器學習」訓練過程會把不同 token 同時出現的機率存入「神經網路」檔案。保存的資料就是「參數」,也叫「權重」推理:我們給推理程序若干 token,程序會載入大模型權重,算出機率最高的下一個 token 是什麼用生成的 token,再加上上文,就能繼續生成下一個 token。以此類推,生成更多文字Token 是什麼?可能是一個英文單詞,也可能是半個,三分之一個可能是一個中文詞,或者一個漢字,也可能是半個漢字,甚至三分之一個漢字大模型在開訓前,需要先訓練一個 tokenizer 模型。它能把所有的文字,切成 token1 個英文字元 ≈ 0.3 個 token。 1 個中文字元 ≈ 0.6 個 token。思考:AI 做對的事,怎麼用這個原理解釋?AI 的幻覺,一本正經地胡說八道,怎麼用這個原理解釋?再深一點點這套生成機制的核心叫「Transformer 架構」Transformer 是目前人工智慧領域最廣泛流行的架構,被用在各個領域機器學習 ≈ 機器自動找一個函數函數的參數找出函數的三步驟Transformer在做一個什麼事情?標量、向量、矩陣、張量的關係點——標量(scalar)線——向量(vector)面——矩陣(matrix)體——張量(tensor)Embedding是什麼?假設我們有一個句子:“The cat sat”Transformer核心:注意力機制注意力機制中的Q、K、V用好 AI 的核心心法OpenAI 首席科學家 Ilya Sutskever 說過:數字神經網路和人腦的生物神經網路,在數學原理上是一樣的。所以,我們要:把 AI 當人看把 AI 當人看把 AI 當人看凱文·凱利說了類似的觀點:「和人怎麼相處,就和 AI 怎麼相處。」用「當人看」來理解 AI用「當人看」來控制 AI用「當人看」來說服別人正確看待 AI 的不足當什麼人呢?學習時當老師工作時當助手休閒時當朋友這是貫徹整門課的心法,乃至我們與 AI 相伴的人生的心法。使用大模型的好習慣: - 使用大模型,不同的話題要開啟新的會話; - 明確指令和問題:儘量使問題或指令簡潔明確,避免多重含義或複雜結構,幫助模型更好理解和響應。 - 分步進行:如果問題複雜,可以將問題拆解成幾個小問題,逐步處理。這不僅能提高精準度,還能避免模型處理過於龐大的資訊。 - 上下文保留:在多個會話中,如果需要參考之前的對話,可以適當提及或複述關鍵點,避免丟失上下文。 - 分配優先順序:針對多個任務或問題,可以為每個話題分配優先順序,先處理最重要或最緊急的內容。 - 適應模型的限制:瞭解模型的處理能力和上下文長度限制,避免在同一會話中輸入過長的文字,尤其是如果涉及大量資訊時,分割問題會更有效。 - 反饋循環:在與模型互動時,如果模型的回答不完全或不符合預期,可以及時提供反饋和補充說明,讓模型逐步最佳化回答。 - 使用特定的格式或範本:如果是處理特定類型的任務或問題(如程式碼、數學問題、寫作任務),可以為輸入提供特定的格式或範本,以幫助模型更準確地理解任務需求。課堂實驗:你提個 AI 相關問題,我來用人類比大模型技術的短板對時效性內容的處理:由於大型模型通常在某個時間點之前的資料上訓練,它們可能無法處理最新的事件或資訊。例如,對於最近發生的新聞事件或新興的流行文化現象,模型可能缺乏理解,GPT4最近最新2023年4月。幻覺、不精準性和濫用風險:大型模型可能產生“幻覺”,即提供錯誤但看似合理的文字。這可能導致誤資訊的傳播,甚至被用於非法或不道德目的。例如,惡意使用者可能利用模型生成看似來自可信出版物的文章,作為假新聞傳播。泛化能力的侷限性:泛化能力指的是一個模型在處理新的、未見過的資料時的表現能力雖然大型模型在多個任務上表現出色,但在處理特定、罕見或新穎的情況時可能表現不佳難以解釋和透明性差:大型模型通常是“黑箱”,即使是模型的開發者也無法完全理解模型是如何配置自身以產生文字的。這導致瞭解釋或解釋AI/ML演算法的新框架的發展,但由於模型規模的增大,解釋性AI/ML方法變得日益複雜。大模型應用產品架構Agent 模式還太超前,Copilot 是當前主流。實現 Copilot 的主流架構是多 Agent 工作流模仿人做事,將業務拆成工作流(workflow、SOP、pipeline)每個 Agent 負責一個工作流節點大模型應用技術架構大模型應用技術特點:門檻低,天花板高。純 PromptPrompt 是操作大模型的唯一介面當人看:你說一句,ta 回一句,你再說一句,ta 再回一句……Agent + Function CallingAgent:AI 主動提要求Function Calling:AI 要求執行某個函數當人看:你問 ta「我明天去杭州出差,要帶傘嗎?」,ta 讓你先看天氣預報,你看了告訴 ta,ta 再告訴你要不要帶傘RAG(Retrieval-Augmented Generation)Embeddings:把文字轉換為更易於相似度計算的編碼。這種編碼叫向量向量資料庫:把向量存起來,方便尋找向量搜尋:根據輸入向量,找到最相似的向量當人看:考試答題時,到書上找相關內容,再結合題目組成答案,然後,就都忘了Fine-tuning(精調/微調)當人看:努力學習考試內容,長期記住,活學活用。如何選擇技術路線面對一個需求,如何開始,如何選擇技術方案?下面是個不嚴謹但常用思路。其中最容易被忽略的,是準備測試資料值得嘗試 Fine-tuning 的情況:提高模型輸出的穩定性使用者量大,降低推理成本的意義很大提高大模型的生成速度需要私有部署如何選擇基礎模型凡是問「那個大模型最好?」的,都是不懂的。不妨反問:「有無論做什麼,都表現最好的員工嗎?」劃重點:沒有最好的大模型,只有最適合的大模型基礎模型選型,合規和安全是首要考量因素。然後用測試資料,在可以選擇的模型裡,做測試,找出最合適的。為什麼不要依賴榜單?榜單已被應試教育污染。唯一還算值得相信的榜單:LMSYS Chatbot Arena Leaderboard榜單體現的是整體能力。放到一件具體事情上,排名低的可能反倒更好榜單體現不出成本差異本課程主打語言是 Python,因為:Python 和 AI 是天生一對Python 是最容易學習的程式語言安裝 OpenAI Python 庫在命令列執行:pip install --upgrade openai發一條消息體驗給大模型注入新知識的程式碼竟如此簡單。from openai import OpenAI# 載入 .env 檔案到環境變數from dotenv import load_dotenv, find_dotenv_ = load_dotenv(find_dotenv())# 初始化 OpenAI 服務。會自動從環境變數載入 OPENAI_API_KEY 和 OPENAI_BASE_URLclient = OpenAI()# 消息messages = [    {"role": "system","content": "你是AI助手小瓜,是 AGIClass.ai 的助教。這門課每周二、四上課。"# 注入新知識    },    {"role": "user","content": "周末上課嗎?"# 問問題。可以改改試試    },]# 呼叫 GPT-4o-mini 模型chat_completion = client.chat.completions.create(    model="gpt-4o-mini",    messages=messages)# 輸出回覆print(chat_completion.choices[0].message.content)DeepSeek本地部署和應用ollamadocker 桌面版open-webui 版本:dyrnq/open-webui:latestDeepSeek本地部署實戰演示未來展望大模型競爭的過程繼續白熱化,第一將會不斷輪流切換多模態大模型將更加成熟,大模型的價格將不斷走低大模型應用開發才是未來最值的關注的方向,應用為王作業發掘自己身邊的大模型落地場景, 撰寫自己的大模型應用構想,要求給出需求說明和期望的效果。 (金信融息)
AI教母李飛飛最新長文:空間智能是AI的下一個前沿「LLM太侷限了,缺乏現實根基」
剛剛,AI教母、史丹佛大學教授李飛飛發表了一篇最新文章《從語言到世界:空間智能是AI的下一個前沿》,這篇文章是李飛飛對其25年AI生涯的深入思考李飛飛認為,儘管以LLM為代表的AI技術已深刻改變世界,但它們本質上仍是“黑暗中的文字匠”——能言善辯但缺乏經驗,知識淵博但缺乏現實根基要讓AI真正理解並與物理世界互動,就必須突破語言的限制,邁向空間智能 (Spatial Intelligence)。李飛飛認為,空間智能將是AI的下一個前沿,它將賦能AI,使其擁有故事講述者的想像力、第一反應者的行動力,以及科學家的空間推理精度。為了實現這一目標,她提出了建構世界模型 的框架,並詳細闡述了其三大核心能力、面臨的技術挑戰以及廣闊的應用前景全文:《從語言到世界:空間智能是AI的下一個前沿》https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence1950年,當計算還不過是自動化算術和簡單邏輯時,艾倫·圖靈提出了一個至今仍迴響不絕的問題:機器能思考嗎?他所預見的景象需要非凡的想像力:智能或許有朝一日可以被建構,而非與生俱來。這一洞見後來開啟了一場名為人工智慧(AI)的不懈科學探索。在我25年的人工智慧生涯中,我依然被圖靈的遠見所激勵。但我們離這個目標還有多遠?答案並不簡單今天,以大語言模型(LLM)為代表的頂尖AI技術已經開始改變我們獲取和處理抽象知識的方式。然而,它們仍然是黑暗中的文字匠;能言善辯但缺乏經驗,知識淵博但缺乏現實根基。空間智能將改變我們創造和與真實及虛擬世界互動的方式——它將徹底革新故事敘述、創造力、機器人學、科學發現等領域。這,就是AI的下一個前沿。追求視覺與空間智能,一直是指引我進入這個領域的北極星。正因如此,我花費數年時間建構了ImageNet,這是第一個大規模視覺學習和基準測試資料集,也是與神經網路演算法和現代計算(如圖形處理單元GPU)並列的、催生現代AI誕生的三大關鍵要素之一。正因如此,我在史丹佛的學術實驗室在過去十年裡一直致力於將電腦視覺與機器人學習相結合。也正因如此,我和我的聯合創始人Justin Johnson、Christoph Lassner、Ben Mildenhall在一年多前創辦了World Labs:為了首次全面實現這一可能性。在這篇文章中,我將解釋什麼是空間智能,它為何重要,以及我們如何建構能夠解鎖它的世界模型——其影響力將重塑創造力、具身智能和人類進步空間智能:人類認知的腳手架AI從未如此激動人心。像LLM這樣的生成式AI模型已經從研究實驗室走向日常生活,成為數十億人創造、生產和交流的工具。它們展示了曾被認為不可能的能力,能夠輕鬆生成連貫的文字、堆積如山的程式碼、逼真的圖像,甚至是短影片片段。AI是否會改變世界,已不再是一個問題。以任何合理的定義來看,它已經做到了。然而,仍有太多領域遙不可及。自主機器人的願景依然引人入勝但仍停留在推測階段,遠未成為未來學家長期承諾的日常裝置。在疾病治療、新材料發現和粒子物理學等領域,大規模加速研究的夢想在很大程度上仍未實現。而讓AI真正理解並賦能人類創造者的承諾——無論是幫助學生學習分子化學的複雜概念,協助建築師構想空間,輔助電影製作人建構世界,還是為任何尋求完全沉浸式虛擬體驗的人提供支援——也仍然無法實現。要瞭解為何這些能力仍然遙不可及,我們需要審視空間智能是如何演化的,以及它如何塑造我們對世界的理解。視覺長期以來一直是人類智能的基石,但其力量源於某種更為根本的東西。早在動物能夠築巢、照顧幼崽、用語言交流或建立文明之前,簡單的感知行為就已經悄然開啟了一段通往智能的演化之旅。這種看似孤立的、從外部世界收集資訊的能力,無論是微光一閃還是質感的觸碰,都在感知與生存之間建立了一座橋樑,並且隨著世代更迭,這座橋樑變得越來越堅固和精細。一層又一層的神經元從這座橋樑上生長出來,形成了能夠解釋世界並協調生物體與其環境互動的神經系統。因此,許多科學家推測,感知與行動構成了驅動智能演化的核心循環,也是自然創造我們這個物種——感知、學習、思考和行動的終極體現——的基礎。空間智能在定義我們如何與物理世界互動方面扮演著基礎性角色。每一天,我們都依賴它來完成最普通的行為:通過想像保險槓與路沿之間不斷縮小的間隙來停車,接住別人從房間另一頭扔過來的鑰匙,在擁擠的人行道上穿行而避免碰撞,或者睡眼惺忪地不看杯子就把咖啡倒進去。在更極端的情況下,消防員在濃煙滾滾、不斷坍塌的建築中穿行,對結構的穩定性和生存機會做出瞬間判斷,通過手勢、肢體語言和一種無法用語言替代的共同職業本能進行交流。而孩子們則在他們能夠說話之前的數月或數年裡,通過與環境的嬉戲互動來學習世界。所有這一切都發生得直觀而自然——這是機器尚未達到的流暢程度。空間智能也是我們想像力和創造力的基礎。故事講述者在腦海中創造出異常豐富的世界,並利用多種視覺媒介將其呈現給他人,從古代的洞穴壁畫到現代電影,再到沉浸式視訊遊戲。無論是孩子們在沙灘上堆沙堡,還是在電腦上玩《我的世界》,基於空間的想像力構成了真實或虛擬世界中互動體驗的基礎。在許多工業應用中,對物體、場景和動態互動環境的模擬,為從工業設計到數字孿生再到機器人訓練等無數關鍵商業用例提供了動力。歷史上充滿了空間智能發揮核心作用、定義文明處理程序的時刻。在古希臘,埃拉托斯特尼將影子轉化為幾何學——在太陽直射賽伊尼城的那一刻,他在亞歷山大城測量出7度的夾角——從而計算出地球的周長。哈格里夫斯的“珍妮紡紗機”通過一個空間上的洞察徹底改變了紡織製造業:將多個紡錘並排佈置在一個框架中,使得一個工人能同時紡多根線,生產效率提高了八倍。沃森和克里克通過親手搭建3D分子模型發現了DNA的結構,他們不斷擺弄金屬片和金屬絲,直到鹼基對的空間排列“咔噠”一聲完美契合。在每一個案例中,當科學家和發明家需要操縱物體、構想結構並對物理空間進行推理時,空間智能都推動了文明的進步——這些都無法僅用文字來捕捉。空間智能是我們認知建構的腳手架。無論我們是被動觀察還是主動創造,它都在發揮作用。它驅動著我們的推理和規劃,即使是在最抽象的話題上。它對於我們互動的方式至關重要——無論是口頭的還是身體的,無論是與同伴還是與環境本身。雖然我們大多數人並非每天都在揭示像埃拉托斯特尼那樣的宇宙真理,但我們日常的思考方式與他並無二致——通過感官感知複雜的世界,然後利用一種直觀的、基於物理和空間術語的理解來領悟其運作方式。不幸的是,今天的AI還不能像這樣思考。過去幾年確實取得了巨大進步。多模態大語言模型(MLLM)通過海量的多媒體資料和文字資料進行訓練,引入了一些基礎的空間意識,今天的AI可以分析圖片、回答相關問題,並生成超逼真的圖像和短影片。通過感測器和觸覺技術的突破,我們最先進的機器人已經開始能夠在高度受限的環境中操縱物體和工具。然而,坦率地說,AI的空間能力遠未達到人類水平。其侷限性很快就會顯現。在估算距離、方向和大小,或通過從新角度重新生成來“精神上”旋轉物體等任務上,最先進的MLLM模型的表現很少能超過隨機猜測。它們無法導航迷宮、識別捷徑或預測基本的物理現象。AI生成的視訊——雖然處於初級階段,但確實非常酷——往往在幾秒鐘後就失去連貫性。雖然當前最先進的AI在閱讀、寫作、研究和資料模式識別方面表現出色,但這些相同的模型在表示或與物理世界互動時,卻存在根本性的侷限。我們對世界的看法是整體的——不僅是我們正在看什麼,還包括萬物在空間上如何關聯,這意味著什麼,以及為何重要。通過想像、推理、創造和互動——而不僅僅是描述——來理解這一切,正是空間智能的力量。沒有它,AI就與它試圖理解的物理現實脫節。它無法有效地駕駛我們的汽車,引導我們家庭和醫院中的機器人,為學習和娛樂創造全新的沉浸式和互動式體驗,或加速材料科學和醫學領域的發現。哲學家維特根斯坦曾寫道:“我語言的極限,意味著我世界的極限。”我不是哲學家。但我知道,至少對AI而言,世界遠不止於語言。空間智能代表了超越語言的前沿——這種能力連接了想像、感知和行動,並為機器真正提升人類生活開闢了可能性,從醫療保健到創造力,從科學發現到日常輔助。AI的下一個十年:建構真正具備空間智能的機器那麼,我們如何建構具備空間智能的AI?如何才能讓模型具備埃拉托斯特尼的洞察力進行推理,擁有工業設計師的精度進行工程設計,懷揣故事講述者的想像力進行創造,並能像第一反應者一樣流暢地與環境互動?建構具備空間智能的AI需要比LLM更宏大的目標:世界模型,這是一種新型的生成式模型,其理解、推理、生成以及與語義、物理、幾何和動態上都極為複雜的世界(無論是虛擬還是真實)進行互動的能力,遠非當今的LLM所能及。這個領域尚處於起步階段,當前的方法從抽象推理模型到視訊生成系統不一而足。World Labs於2024年初成立,正是基於這樣的信念:基礎性方法仍在建立之中,這使其成為未來十年的決定性挑戰。在這個新興領域,最重要的是確立指導發展的原則。對於空間智能,我通過三個核心能力來定義世界模型:1.生成性 (Generative):世界模型能夠生成在感知、幾何和物理上保持一致的世界解鎖空間理解和推理的世界模型,也必須能夠生成它們自己的模擬世界。它們必須能夠生成無窮無盡、多種多樣的模擬世界,這些世界遵循語義或感知的指令,同時在幾何、物理和動態上保持一致——無論其代表的是真實空間還是虛擬空間。研究界正在積極探索這些世界應該以隱式還是顯式的方式來表示其內在的幾何結構。此外,除了強大的潛在表示,我相信一個通用的世界模型,其輸出還必須能夠為許多不同的用例生成一個明確、可觀察的世界狀態。特別是,它對當前狀態的理解必須與它的過去——即導致當前狀態的世界先前狀態——連貫地聯絡在一起。2.多模態 (Multimodal):世界模型天生就是多模態的正如動物和人類一樣,世界模型應該能夠處理多種形式的輸入——在生成式AI領域被稱為“提示”。給定部分資訊——無論是圖像、視訊、深度圖、文字指令、手勢還是動作——世界模型都應預測或生成儘可能完整的世界狀態。這要求模型既能以真實視覺的保真度處理視覺輸入,又能以同等的能力解釋語義指令。這使得智能體和人類都能通過多樣化的輸入與模型就世界進行交流,並反過來接收多樣化的輸出。3.互動性 (Interactive):世界模型能夠根據輸入的動作輸出下一個狀態最後,如果動作和/或目標是世界模型提示的一部分,其輸出必須包含世界的下一個狀態,無論是隱式還是顯式表示。當只給定一個動作(無論有無目標狀態)作為輸入時,世界模型應該產生一個與世界先前狀態、預期的目標狀態(如果有的話)及其語義含義、物理定律和動態行為相一致的輸出。隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健,可以想見,在給定目標的情況下,世界模型本身不僅能預測世界的下一個狀態,還能根據新狀態預測下一個動作。這個挑戰的範圍超過了AI以往面臨的任何挑戰。雖然語言是人類認知中純粹的生成現象,但世界的運作規則要複雜得多。例如,在地球上,引力支配著運動,原子結構決定了光如何產生顏色和亮度,無數的物理定律約束著每一次互動。即使是最奇幻、最有創意的世界,也是由遵循其自身物理定律和動態行為的空間物體和智能體組成的。要將所有這些——語義、幾何、動態和物理——一致地協調起來,需要全新的方法。表示一個世界的維度,遠比表示像語言這樣的一維序列訊號要複雜得多。要實現能夠提供我們人類所享有的那種通用能力的世界模型,需要克服幾個巨大的技術障礙。在World Labs,我們的研究團隊正致力於為實現這一目標取得根本性進展。以下是我們當前研究課題的一些例子:一個新的、通用的訓練任務函數:定義一個像LLM中的“下一詞元預測”一樣簡潔優雅的通用任務函數,一直是世界模型研究的核心目標。其輸入和輸出空間的複雜性使得這樣一個函數在形式化上 inherently more difficult。儘管仍有許多待探索之處,但這個目標函數和相應的表示必須反映幾何和物理定律,尊重世界模型作為想像與現實的根基表示的根本性質。大規模訓練資料:訓練世界模型需要比文字整理複雜得多的資料。好消息是:海量的資料來源已經存在。網際網路規模的圖像和視訊集合代表了豐富、可及的訓練材料——挑戰在於開發能夠從這些二維圖像或視訊幀訊號(即RGB)中提取更深層次空間資訊的演算法。過去十年的研究已經顯示了語言模型中資料量和模型大小之間的規模法則的力量;解鎖世界模型的關鍵在於建構能夠以相當規模利用現有視覺資料的架構。此外,我不會低估高品質合成資料以及像深度和觸覺資訊等額外模態的力量。它們在訓練過程的關鍵步驟中補充了網際網路規模的資料。但前進的道路依賴於更好的感測器系統、更穩健的訊號提取演算法,以及更強大的神經模擬方法。新的模型架構和表示學習:世界模型研究將不可避免地推動模型架構和學習演算法的進步,特別是超越當前的MLLM和視訊擴散範式。這兩種範式通常將資料標記化為一維或二維序列,這使得簡單的空間任務——如數清短影片中不重複的椅子數量,或記住一個小時前房間的樣子——變得不必要地困難。替代架構可能會有所幫助,例如用於標記化、上下文和記憶的3D或4D感知方法。例如,在World Labs,我們最近關於一個名為RTFM的即時生成式基於幀的模型的工作就展示了這種轉變,它使用基於空間的幀作為一種空間記憶形式,以實現高效的即時生成,同時保持生成世界的持久性。顯然,在通過世界建模完全解鎖空間智能之前,我們仍然面臨著艱巨的挑戰。這項研究不僅僅是理論練習,它是新一類創意和生產力工具的核心引擎。World Labs內部的進展令人鼓舞。我們最近與少數使用者分享了Marble的一瞥,這是有史以來第一個可以通過多模態輸入提示來生成和維持一致3D環境的世界模型,供使用者和故事講述者在他們的創意工作流中探索、互動和進一步建構。我們正在努力使其盡快向公眾開放!Marble只是我們創造一個真正具備空間智能的世界模型的第一步。隨著進展加速,研究人員、工程師、使用者和商界領袖都開始認識到其非凡的潛力。下一代世界模型將使機器能夠在全新的水平上實現空間智能——這一成就將解鎖當今AI系統中仍然普遍缺乏的核心能力。使用世界模型為人們建構一個更美好的世界發展AI的動機至關重要。作為幫助開啟現代AI時代的科學家之一,我的動機一直很明確:AI必須增強人類的能力,而不是取代人類。多年來,我一直致力於將AI的開發、部署和治理與人類需求對齊。如今,技術烏托邦和末日論的極端敘事比比皆是,但我繼續持有一種更務實的觀點:AI由人開發,由人使用,由人治理。它必須始終尊重人的能動性和尊嚴。它的魔力在於擴展我們的能力;使我們更有創造力、更緊密連接、更高效、更有成就感。空間智能代表了這一願景——AI賦能人類創造者、護理人員、科學家和夢想家,去實現曾經不可能的事情。這一信念驅動著我將空間智能視為AI下一個偉大前沿的承諾。空間智能的應用橫跨不同的時間線。創意工具正在湧現——World Labs的Marble已經將這些能力交到了創作者和故事講述者的手中。隨著我們完善感知與行動之間的循環,機器人學代表了一個雄心勃勃的中期目標。最具變革性的科學應用將需要更長時間,但有望對人類的繁榮產生深遠影響。在所有這些時間線上,有幾個領域因其重塑人類能力的潛力而脫穎而出。這需要巨大的集體努力,遠非一個團隊或一家公司所能實現。它需要整個AI生態系統的參與——研究人員、創新者、企業家、公司,甚至政策制定者——共同努力實現一個共同的願景。但這個願景值得追求。以下是這個未來所包含的內容:創意:為故事敘述和沉浸式體驗注入超能力“創造力是智慧在玩耍。” 這是我個人英雄阿爾伯特·愛因斯坦最喜歡的名言之一。早在書面語言出現之前,人類就在講述故事——將它們畫在洞穴牆壁上,代代相傳,在共同的敘事上建立起整個文化。故事是我們理解世界、跨越時空連接、探索人性意義的方式,最重要的是,在生活中尋找意義,在自我中發現愛。今天,空間智能有潛力改變我們創造和體驗敘事的方式,這種方式既尊重其根本重要性,又將其影響從娛樂擴展到教育,從設計擴展到建築。World Labs的Marble平台將把前所未有的空間能力和編輯可控性交到電影製作人、遊戲設計師、建築師和各類故事講述者的手中,讓他們能夠快速建立和迭代完全可探索的3D世界,而無需傳統3D設計軟體的開銷。創造性行為仍然像以往一樣至關重要和人性化;AI工具只是放大和加速了創作者所能達到的成就。這包括:新維度的敘事體驗:電影製作人和遊戲設計師正在使用Marble來創造完整的世界,而不受預算或地理位置的限制,探索各種在傳統製作流程中難以處理的場景和視角。隨著不同形式的媒體和娛樂之間的界限日益模糊,我們正在接近一種全新的互動體驗,它融合了藝術、模擬和遊戲——個性化的世界,其中任何人,而不僅僅是工作室,都可以創造並棲居於自己的故事中。隨著將概念和故事板提升為完整體驗的更新、更快捷方式的興起,敘事將不再侷限於單一媒介,創作者可以自由地在無數的介面和平台上建構具有共同主線貫穿的世界。通過設計進行空間敘事:基本上,每一個製造出來的物體或建造的空間,在其實體創造之前都必須在虛擬3D中進行設計。這個過程迭代性強,且在時間和金錢上都成本高昂。有了具備空間智能的模型,建築師可以在投入數月進行設計之前快速可視化結構,漫步於尚未存在的空間中——這本質上是在講述我們可能如何生活、工作和聚集的故事。工業和時尚設計師可以立即將想像轉化為形式,探索物體如何與人體和空間互動。全新的沉浸式與互動式體驗:體驗本身是我們作為一個物種創造意義的最深層次的方式之一。在整個人類歷史上,只有一個單一的3D世界:我們所有人共享的物理世界。直到最近幾十年,通過遊戲和早期的虛擬現實(VR),我們才開始瞥見共享我們自己創造的替代世界意味著什麼。現在,空間智能與新的裝置形態(如VR和擴展現實(XR)頭顯及沉浸式顯示器)相結合,以前所未有的方式提升了這些體驗。我們正接近一個未來,在這個未來中,踏入完全實現的多維世界將像打開一本書一樣自然。空間智能使世界建構不再僅僅是擁有專業製作團隊的工作室的專利,而是對個人創作者、教育者和任何有願景分享的人開放。機器人:具身智能的實踐從昆蟲到人類,動物都依賴空間智能來理解、導航和與它們的世界互動。機器人也不例外。具備空間感知能力的機器自該領域誕生之初就是其夢想,這也包括我自己與我的學生和合作者在史丹佛研究實驗室的工作。這也是為什麼我如此興奮於利用World Labs正在建構的這類模型來實現它們的可能性。通過世界模型擴展機器人學習:機器人學習的進展取決於一個可行的訓練資料的可擴展解決方案。考慮到機器人必須學習去理解、推理、規劃和互動的巨大狀態空間,許多人推測,需要結合網際網路資料、合成模擬和真實世界的人類演示捕捉,才能真正創造出具有泛化能力的機器人。但與語言模型不同,當今機器人研究的訓練資料稀缺。世界模型將在此扮演決定性角色。隨著它們感知保真度和計算效率的提高,世界模型的輸出可以迅速縮小模擬與現實之間的差距。這反過來將有助於在無數狀態、互動和環境的模擬中訓練機器人。成為夥伴與合作者:機器人作為人類的合作者,無論是輔助實驗室的科學家,還是協助獨居的老人,都可以擴充急需更多勞動力和生產力的部分勞動力市場。但要做到這一點,需要空間智能能夠感知、推理、規劃和行動,同時——這一點最重要——與人類的目標和行為保持共情對齊。例如,一個實驗室機器人可以處理儀器,讓科學家專注於需要靈巧或推理的任務,而一個家庭助理可以幫助老年人做飯,而不會削弱他們的快樂或自主性。能夠預測與此期望一致的下一個狀態甚至可能是下一個動作的、真正具備空間智能的世界模型,對於實現這一目標至關重要。擴展具身智能的形式:人形機器人在我們為自己建構的世界中扮演著一個角色。但創新的全部好處將來自更多樣化的設計:運送藥物的奈米機器人,在狹窄空間中穿行的軟體機器人,以及為深海或外太空建造的機器。無論它們的形式如何,未來的空間智能模型都必須整合這些機器人所處的環境以及它們自身的具身感知和運動。但開發這些機器人的一個關鍵挑戰是,在這些各種各樣的具身形態因素中缺乏訓練資料。世界模型將在模擬資料、訓練環境和這些工作的基準測試任務中發揮關鍵作用。更長遠的未來:科學、醫療和教育除了創意和機器人應用,空間智能的深遠影響還將延伸到AI能夠以拯救生命和加速發現的方式增強人類能力的領域。我下面重點介紹三個可以帶來深刻變革的應用領域,儘管不言而喻,空間智能的用例在更多行業中都非常廣泛。在科學研究中,具備空間智能的系統可以模擬實驗,平行測試假說,並探索人類無法進入的環境——從深海到遙遠的行星。這項技術可以改變氣候科學和材料研究等領域的計算建模。通過將多維模擬與真實世界資料收集相結合,這些工具可以降低計算門檻,並擴展每個實驗室所能觀察和理解的範圍。在醫療健康領域,空間智能將重塑從實驗室到病床的一切。在史丹佛,我的學生和合作者多年來一直與醫院、老年護理機構和居家患者合作。這段經歷讓我確信了空間智能在此處的變革潛力。AI可以通過多維建模分子相互作用來加速藥物發現,通過幫助放射科醫生在醫學影像中發現模式來增強診斷,並實現環境監測系統,在不取代治癒所需的人際連接的情況下支援患者和護理人員,更不用說機器人在許多不同環境中幫助我們的醫護人員和患者的潛力。在教育領域,空間智能可以實現沉浸式學習,使抽象或複雜的概念變得具體可感,並創造對於我們大腦和身體學習方式至關重要的迭代體驗。在AI時代,更快、更有效的學習和再培訓的需求對學齡兒童和成年人都尤為重要。學生可以在多維度中探索細胞機制或漫步於歷史事件。教師獲得了通過互動環境進行個性化教學的工具。專業人士——從外科醫生到工程師——可以在逼真的模擬中安全地練習複雜技能。在所有這些領域中,可能性是無限的,但目標始終如一:AI增強人類專長,加速人類發現,並放大人類關懷——而不是取代作為人類核心的判斷力、創造力和同理心。結論過去十年見證了AI成為一個全球現象,以及技術、經濟乃至地緣政治的轉折點。但作為一名研究者、教育者,以及現在的創業者,最能激勵我的,仍然是圖靈在75年前提出的那個問題背後的精神。我仍然分享著他的那份驚奇感。正是這種感覺,讓我每天都為空間智能的挑戰而充滿活力。歷史上第一次,我們有望建構出與物理世界如此協調的機器,以至於我們可以依賴它們作為我們應對所面臨的最大挑戰的真正夥伴。無論是在實驗室中加速我們對疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時刻支援我們,我們正處在一個技術突破的關口,這項技術將提升我們最珍視的生活品質。這是一個關於更深刻、更豐富、更強大生活的願景。在自然界於近五億年前在遠古動物身上釋放出空間智能的第一縷微光之後,我們有幸成為可能很快將同樣能力賦予機器的那一代技術人員——並且有幸利用這些能力造福世界各地的人們。沒有空間智能,我們關於真正智慧型手機器的夢想就不會完整 (AI寒武紀)
LLM無法通向真正的AGI,行業正在陷入“蠻力堆疊智能”!舊金山知名創始人警告:矽谷現在只想著“一夜暴富”,缺少“玩耍式”創新
最近圈內有關人類多久能實現AGI的問題可謂眾說紛紜。前段時間,OpenAI宣佈2028年將打造出AI研究院;而前兩天,在伊麗莎白女王工程獎的獲獎現場,辛頓預測20年內AI將在辯論中永久性勝過人類,本吉奧則認為若延續當前趨勢,5年內AI或達員工工作水平。在最新一期《a16z》播客中,主持人 Erik Torenberg 邀請了AI程式設計工具 Replit 的創始人 Amjad Masad 和問答網站 Quora及聊天機器人 Poe 的創始人 Adam D’Angelo,也談論了這個炙手可熱的話題——我們距離AGI究竟還有多遠。在這場對話中,兩人幾乎在每個問題上都意見相左:Adam D’Angelo 極度樂觀,認為 LLM + AI Agent 將在 5 年內接管大部分遠端知識工作。Amjad Masad 則認為,當前的LLMs是功能性AGI,行業正在陷入“蠻力堆疊智能”:我們在堆算力和資料,卻仍不瞭解思維如何運作。此外,他們還辯論了:大語言模型是否已觸頂?我們是否真的接近 AGI?以及,當初級崗位被 AI 淘汰、而專家仍不可替代時,社會會發生什麼。他們還深入探討了一個令人不安的現實:AI 可能會製造出就業市場的“失落中層”;為什麼如今舊金山的創業者都在一味追逐財富、不再做奇怪又有創意的實驗;以及“意識研究”是否已經被“提示工程”徹底取代。此外,本期還談到:程式碼智能體已能連續運行超過 20 小時;“主權個體”論的回歸;以及普通使用者在多 AI 並用時展現出的驚人複雜性與創造力。小編整理了整期播客內容,乾貨滿滿,建議收藏細讀,enjoy!LLM能否能通往真正的AGI主持人:最近很多人對大語言模型開始潑冷水了,情緒變得悲觀。人們說這些模型有很多侷限,不能帶我們到達 AGI,也許我們原以為幾年內能實現的目標,現在可能要再推遲十年。Adam,你似乎更樂觀一些,不如先談談你的總體看法?Adam D’Angelo :老實說,我不太明白這種悲觀從那來的。要是你回頭看看一年前的世界,再看看過去一年模型在“推理能力”“程式碼生成”“視訊生成”等方面的進步——發展速度其實比以往更快。我真不理解為什麼有人會覺得形勢不好。主持人 :也許因為大家曾經希望這些模型能替代所有任務、所有工作,但現在看來,它們似乎只能做到“中間環節”,而不是“端到端”。所以人們擔心勞動力不會像我們想的那樣快被自動化。Adam D’Angelo :我不太清楚他們之前設想的時間表是什麼,但如果把眼光放到五年後,那絕對是一個完全不同的世界。現在模型的限制,並不是“智能不夠”,而是“沒辦法在生成時拿到合適的上下文”。還有一些像“電腦使用”這樣的能力還沒完全解決,但我認為一兩年內肯定能實現。一旦解決了這些,我們就能自動化掉人類做的大部分工作。那是不是 AGI 我不好說,但肯定能讓現在的很多批評都不再成立。主持人:那你怎麼定義 AGI 呢?Adam D’Angelo :每個人的定義都不太一樣。我比較喜歡的一個定義是:如果有一個遠端工作者,他能完成任何可以遠端完成的工作,而模型能在每個這樣的崗位上都比最優秀的人類做得更好,那就可以稱為 AGI。有人把那種水平叫 ASI(超人工智慧),但我覺得一旦模型能比典型遠端員工更出色,我們就已經進入了一個完全不同的世界。主持人 :所以你覺得 LLM 還有很大潛力,不需要全新的架構?Adam D’Angelo :我不這麼認為。確實有些問題,比如記憶、持續學習等,用現有架構不太好實現。但這些問題也許可以“偽裝性地”解決,或者說“夠用”。我們現在沒有看到明顯的瓶頸——推理模型的進步驚人,預訓練的進展也依然很快。也許沒大家預想的那麼快,但仍然夠快,讓我們在未來幾年看到巨大進展。主持人 :Amjad,你聽完這些怎麼看?Amjad Masad :我覺得我一直都挺一致的,也許可以說,一直挺準確的。Adam D’Angelo :一致是指“和自己一致”還是“和現實一致”?Amjad Masad :兩者都有吧。我的觀點和現實的進展基本一致。我大概在 2022、23 年 AI 安全討論最熱的時候,開始公開表達一些懷疑。當時我覺得我們需要更現實一點,否則會嚇到政客、嚇到公眾,華盛頓就會跑來整頓矽谷,把一切都按下暫停鍵。比如那篇“AGI 2027”論文,還有那些所謂“情境意識”“AI威脅”的論文——它們根本不是科學,而是一種“情緒化的預言”。說整個經濟會被自動化、所有工作會消失,這些都不現實,而且會導致糟糕的政策。我的看法是:LLM 是驚人的機器,但它們不是人類式的智能。比如那道“草莓問題”模型解決了,但一個簡單的問題——“這句話裡有幾個字母R?”,四個模型裡有三個都答錯,只有 GPT-5 的“高思考模式”經過 15 秒才答對。這說明它們的智能與人類不同,而且有明顯的侷限。我們現在其實在“補丁式修復”這些侷限,靠更多標註、更多人工強化、更多系統整合讓它們“看起來更聰明”。但這意味著我們還沒有真正“破解智能”。一旦我們真正破解了智能,它應該是“可擴展的”,就像“苦澀教訓”(bitter lesson)所說,只要投入更多算力和資料,就能自然提升。而現在並不是這樣。過去在 GPT-2、3、3.5 時代,只要加資料、加算力,模型就變強。但現在越來越多是“人工干預”:要標註資料、要人工設計強化學習環境,甚至要雇合同工幫模型學程式設計。OpenAI 現在在做的“讓模型成為投行分析師”的計畫就是這樣。我稱這種現象為“功能性 AGI”(Functional AGI),即我們能通過大量資料、訓練和環境設計,讓模型在很多職業中實現局部自動化。但這需要巨大的人力、資金和資料投入。當然,模型仍在變好,Claude 4.5 比 4 代強很多,進步還在繼續。但我不認為 LLM 會通往真正的 AGI。對我來說,AGI 是一種“強化學習式智能”:能進入任何環境,像人類一樣高效地學習。比如把人放進一個檯球廳,幾小時後他就能學會打檯球;而機器做不到。現在的一切都需要大量資料、算力、人工知識,這說明我們仍處於“人類專業知識依賴期”,還沒進入“可擴展智能期”。Adam D’Angelo :我同意人類確實能在新環境下快速學習新技能,這點模型還不行。但人類智能是進化的產物,背後等於用了龐大的“演化計算”。模型的“預訓練”只是一個遠遠粗糙的替代品,所以才需要更多資料才能學會每項技能。但就“實際效果”而言,只要我們能造出在平均水平上和人類一樣好的系統,那怕成本高、算力消耗大,那也足以重塑經濟和勞動力市場。Amjad Masad :我同意,也許這確實是“蠻力型智能”,但這未必是壞事。主持人 :那你們倆的分歧到底在那?Amjad Masad :我不認為我們會在短期內到達“奇點”或“新文明階段”。除非我們真正理解“智能”的本質,發明出非蠻力的演算法,否則不會發生那種突破。Adam D’Angelo :你覺得那要等很久?Amjad Masad :我沒法確定。但我擔心 LLM 會“分散注意力”,吸走太多人才去做應用,而不是去研究“智能的本質”。Adam D’Angelo :這確實可能,但同時也吸引了大量本來不會進 AI 行業的人才。現在有龐大的資金、算力和研究者投入,我仍然相信,沒有什麼問題是最聰明的人花五年時間不能解決的。Amjad Masad :但“基礎研究”不一樣。現在大部分是“產業研究”,目的在於盈利,而不是理解。正如哲學家托馬斯·庫恩說的,一個研究範式往往會變成“泡沫”,吸乾所有注意力,就像弦理論之於物理學。Adam D’Angelo :對,他說要等到老一代研究者退休,範式才可能改變。Amjad Masad :我對“範式轉移”確實比較悲觀。Adam D’Angelo :但我覺得當前範式其實挺好,我們還遠沒到“邊際收益遞減”的階段。AI會導致“入門崗位”減少、公司人才斷層主持人 :那如果繼續靠蠻力推進,你覺得全球 GDP 會從現在的 4~5% 年增長變成 10% 以上嗎?Adam D’Angelo :取決於能走多遠。假設你能有一種模型,只需花 1 美元/小時的能耗,就能完成任何人類的遠端工作,那麼經濟增長率肯定遠超 4~5%。但也許模型要麼比人類更貴,要麼只能做 80% 的工作。最終,我認為我們遲早能讓模型以更低成本做完所有人類能做的事,也許 5 年、10 年、15 年,但在那之前,我們會受限於模型的短板、能源、供應鏈等瓶頸。Amjad Masad :我擔心的一個問題是:如果模型能自動化掉“入門崗位”,但替代不了“專家崗位”,那會造成一種奇怪的經濟結構。比如 QA 測試,AI 處理了大部分情況,但還需要少數專家管理大量Agents。生產力提高了,但企業不會再雇新手。那是個詭異的平衡狀態。Adam D’Angelo :確實,這種情況已經出現在電腦專業畢業生身上了。公司崗位減少了,因為 LLM 能替代他們之前做的工作。這會導致“人才梯度斷層”,企業沒動力去培訓新人。也許會催生“AI 教育”或“AI 培訓”的新市場,但確實是當下的問題。Amjad Masad :還有個相關問題:我們現在依賴專家資料去訓練模型,但如果模型取代了專家,那未來誰來提供高品質訓練資料?當“專家群體”被替代後,改進模型的過程就會受阻。這是一個經濟學問題——自動化的第一波之後,怎麼繼續?Adam D’Angelo :確實,關鍵在於我們能否建構出好的強化學習環境。像 AlphaGo 那樣有完美環境可以無限提升,但很多現實任務的資料有限,這會是個瓶頸。主持人 :那你們覺得未來會出現什麼新職業?有人說每個人都會成為“網紅”或從事“情感照護類”工作,或者都去幫 AI 訓練資料。你們怎麼看?Adam D’Angelo :當一切都能自動化後,人們可能就去做藝術、詩歌之類的事。其實電腦下棋比人強後,下棋人數反而增加了。只要財富能合理分配,這種世界並不壞。但那可能要至少 10 年。在更近的未來,會爆發的職業是那些能高效使用 AI 的人。能用 AI 完成 AI 自己做不到的任務的人,會非常搶手。Amjad Masad :我不認為我們能自動化所有工作——至少在當前範式下不可能。很多工作本質上是“服務他人”的,你必須理解人類、成為人類,才能真正知道別人想要什麼。除非我們造出“具身的人類式智能”,否則人類始終會是經濟中“想法”的生成者。推薦演算法比你自己更懂你主持人 :Adam,你做過 Quora、Poe 這樣的“人類智慧聚合平台”。你怎麼看未來人與 AI 的關係?比如我們會不會依賴 AI 做心理諮詢或護理?Adam D’Angelo :人類的集體知識仍然非常重要。一個專家、一生積累的經驗,很多內容其實從未被寫下來。這些“隱性知識”依然很有價值。我不確定分享知識的人未來能否靠此為生,但如果這是系統的瓶頸,市場自然會將資源流向這裡。至於“必須是人類才能理解人類”這一點,我並不完全同意。比如社交平台的推薦演算法,其實早已比人類更懂你。就算你自己來為自己定製一條“最想看的資訊流”,你也比不上演算法。演算法掌握了海量的行為資料與相似模式,它能精準預測你感興趣的內容。當然,藝術家或廚師之類的職業確實需要“自我體驗”,比如廚師要親口嘗菜,但總體上,他們掌握的資料量遠少於 AI 能學習到的。Amjad Masad :你說得有道理。推薦系統本質上是在高維空間裡,找到符合你偏好的點。不過我覺得那種“理解”還是很窄的,只適用於某些任務。我更傾向於相信《主權個體》(The Sovereign Individual)那本書的預測。那是 20 世紀 90 年代的書,但它描述了當電腦技術成熟後社會的變化。作者說,人類經歷了農業革命、工業革命,如今正經歷資訊革命或智能革命。我們現在叫不出它的名字,但未來的人會知道。他們的結論是:未來大部分人可能失業或經濟上“非生產性”,而少數創業者會高度槓桿化——因為他們能用 AI 快速建立公司、產品、服務,組織經濟。政治也會隨之改變。過去政治的前提是“每個公民都是經濟個體”;但當自動化普及、只有少數人仍具生產力時,政治結構會重新洗牌。國家會開始爭奪這些“高產出個體”,就像城邦時代那樣,富人能自由遷移、議價稅率。這聽起來像 Balaji(區塊鏈思想家)的觀點,但其實並不遙遠。我並不是說我希望如此,但必須承認,一旦“人”不再是經濟的基本生產單元,連文化和政治都必須隨之改變。AI會讓個人創業者數量暴增主持人 :我覺得這本書(指克里斯滕森的《創新者的窘境》)以及我們這次更廣泛的討論,都在探討一個問題:什麼時候一種技術是利於“防守方”的,而什麼時候它是利於“聚合者”的?換句話說,它什麼時候會激勵更多的去中心化,而什麼時候又會強化中心化?還記得彼得·蒂爾十年前有個俏皮話——他說“加密貨幣是自由主義的,偏向去中心化;AI 是共產主義的,偏向中心化”。但我覺得這兩種說法都不完全精準。AI 確實讓很多個人變得更有能力,就像你剛才說的那樣;而加密貨幣,最後看起來更像金融科技或者是“穩定幣”體系的一部分,它反而在某種程度上強化了國家的力量。比如你看中國正在推動的那套體系。所以,現在有一個開放的問題:那種技術最終更能賦能——是“邊緣”個體,還是“中心”機構?如果它賦能的是“邊緣”,那也許我們就會出現一種“槓鈴效應”:一頭是極度強大的巨頭,另一頭是數量眾多的主權個體。Adam D’Angelo :我對這項技術能讓“個人創業者”數量暴增這件事感到非常興奮。它極大地擴展了個人能做到的事情。過去很多好點子從未被實現,只因為要組建團隊太麻煩——要找齊各種技能的人,還得融資。而現在,一個人就能把這些想法變成現實。我覺得我們會看到很多令人驚嘆的新東西。Amjad Masad :我經常在 Twitter 上看到這樣的例子——有人因為用像 Replit 這樣的工具賺到太多錢,乾脆辭職自己幹了。這真的很激動人心。也許是第一次,“機會”被大規模地普及到所有人手裡。對我來說,這是這項技術最令人興奮的部分之一——除了我們之前談的那些,它讓更多人能夠成為創業者,這意義重大。主持人 :這個趨勢在未來十到二十年肯定會持續下去。但你們覺得,AI 是“延續型創新”(sustaining)還是“顛覆型創新”(disruptive)?換句話說,大部分價值創造會來自於 OpenAI 之前就存在的大公司(比如 Replica、甚至 Quora)?還是來自 2015、2016 年之後的新公司?Adam D’Angelo :這是個好問題,也關聯到另一個問題:有多少價值最終會被“超級雲廠商”(hyperscalers)捕獲,而不是被其他人獲得?我覺得現在的局勢其實挺平衡的。超級雲廠商之間競爭足夠激烈——讓應用層公司有選擇、有替代方案、價格也在迅速下降。但同時競爭又沒激烈到讓這些實驗室(像 Anthropic 和 OpenAI)無法融資、無法進行長期投入。所以總體來說,我覺得這是一個相當健康的平衡:超級雲廠商還在成長,同時也會出現大量新公司。Amjad Masad :是的,我也差不多同意。“延續型”和“顛覆型”這兩個術語來自《創新者的窘境》,它講的是一個技術演進的“力量曲線”:新技術一開始看起來像玩具,抓住的是市場的低端,但隨著它演進,它會上升到力量曲線的高處,最終顛覆所有現有巨頭。一開始,老牌公司不會重視它,因為它看起來不成熟。等它進化成熟時,卻已經吃掉整個市場。PC 就是個例子。最初,做大型主機的廠商根本不在意個人電腦,覺得那是給小孩用的玩具,但後來連資料中心都建立在 PC 架構上。不過也有一些技術,它們反而強化了現有巨頭,對新玩家幫助不大。所以我覺得,Adam說得對,這次的情況可能是“兩者兼具”,而且可能是第一次出現這種情況。網際網路當年是徹底的“顛覆型”技術,而 AI 似乎既讓超級雲廠商、網際網路巨頭如虎添翼,又同時創造了新的商業模式,能與它們抗衡。比如,《創新者的窘境》這本書出來後,大家都學會了“不被顛覆”。以 ChatGPT 為例,它本質上是對 Google 的一種“反向定位”創新——Google 已經有一個運轉良好的業務,而 ChatGPT 早期會幻覺、生成錯誤資訊,這讓 Google 無法貿然推出類似產品,因為它需要保持“可信度”。所以即使 Google 內部已經有類似的技術,他們直到兩年後才發佈 Gemini。結果是,OpenAI 搶先佔據了品牌認知。但反過來,AI 也讓 Google 的產品全面變得更好——無論是搜尋、Workspace 還是手機。總的來說,AI 同時既顛覆又強化了老牌公司。Adam D’Angelo :我完全同意。大家都讀過《創新者的窘境》這本書,也改變了它原本的意義。現在,資本市場會懲罰那些不適應變化的公司,鼓勵那些敢於長期投資的公司。管理層也都讀過這本書,他們的決策能力普遍比 20 世紀那批大公司要高;許多公司由創始人控制,也讓他們能更靈活地承受短期損失去換取長期佈局。所以我認為,如果我們還處在像 90 年代那種環境下(資本約束多、競爭少),AI 可能會更“顛覆”;但在當下這個高度競爭的環境中,它反而更“延續”。主持人:我們作為一家風投公司,也在反思過去幾年的一個錯誤。我們曾因為“這個公司看起來不會成為市場第一”就放棄投資——因為從 Web2 我們學到“要投類目冠軍”。但現在看來,這個市場大到足以容納多個贏家。不僅是基礎模型公司,應用層公司也一樣。它們可能各自割據、細分市場,卻都能做到“風險投資級”體量。你覺得這是一種持久現像嗎?還是階段性的?Adam D’Angelo :我認為一個關鍵區別是:網路效應在現在的 AI 時代遠不如 Web2 時代強。這讓競爭對手更容易起步。當然,大公司仍有規模優勢——更多使用者意味著更多資料、更多資金。但這不再是“絕對壁壘”,只是“相對優勢”。這意味著現在可以有更多贏家,而不是贏家通吃。主持人 :另一個區別是,現在使用者能非常清楚地看到價值,所以他們願意從早期就付費。Web2 時代,很多公司(比如早期的 Facebook、Google)一開始的疑問都是:你怎麼變現?而現在的 AI 公司從第一天起就能賺錢——包括你們公司在內。Adam D’Angelo :對。過去的公司要等規模上去才能做廣告變現;而現在的訂閱模式讓你可以一開始就收費。像 Stripe 這樣的工具也讓這一切變得更簡單。這也讓新公司更容易啟動。Amjad Masad :還有地緣政治的因素。顯然我們已經不在一個完全全球化的時代,未來可能會更碎片化。所以,也許你在歐洲投資一個“歐洲版 OpenAI”是個好主意。中國也是完全不同的生態。地緣政治在這裡變得非常重要。Quora推出Poe:早期對多模態生態的押注主持人:Adam,我們剛才談到人類知識,你怎麼看 Quora 推出 Poe ——這是否意味著你們在“自我顛覆”?Adam D’Angelo :我們其實更多把 Poe 看作一種“新增機會”,而不是對 Quora 的顛覆。2022 年初,我們開始實驗用 GPT-3 生成 Quora 答案,結果發現它還不如人類答案好,但有一個特徵非常獨特,它能立刻回答任何問題。這讓我們意識到:它不一定非要是公開問答,人們更傾向於在私下與 AI 聊天。於是我們決定做Poe,讓人們可以私密地與AI 對話。主持人 :所以這也算是你對“多模型生態”的一個早期押注?Adam D’Angelo :對。我們當時押注的是模型公司之間會出現多樣化。雖然花了點時間才應驗,但現在確實有了很多不同模型和公司。尤其跨模態(圖像、視訊、音訊)越來越多樣,推理和研究型模型也在分化,智能體也成為新的多樣化來源。所以我們很幸運,現在進入了一個“足夠多樣”的階段,讓像 Poe 這樣的“通用介面聚合器”有了意義。雖然我們當時確實押得有點早。Amjad Masad:更有趣的是,連普通消費者都真的在用多個 AI。這點挺出乎意料的。過去人們只用Google,不會同時開Yahoo。但現在,你隨便問一個普通使用者,他們會說“我平時用 ChatGPT,但 Gemini 在某些問題上更好”。消費者的認知變得更成熟了。主持人 :對,而且還有人說自己更喜歡某個 AI 的“人格風格”,比如更喜歡 Claude。回到你剛才提的“暗物質”問題——你提到我們正在用暴力計算去提取知識。問題是:網際網路都已經被訓練過了,那麼還有多少“未被採集的知識”?是多 10 倍,還是 1000 倍?Adam D’Angelo :這個很難量化,但我認為“把人類知識轉化成 AI 可用形式”的產業正在迅速發展。像 Scale AI、Surge、Marco,還有一大堆新公司都在做這件事。隨著智能變得越來越便宜、越來越強,瓶頸會越來越集中在資料端。於是,經濟自然會去重視“AI 還做不到的事”,那就成了新價值所在。主持人 :那有沒有什麼框架去界定“AI 做不到的事”?Adam D’Angelo :我不是研究員,但我覺得可以這麼看:凡是不在訓練資料裡的資訊,AI 就做不到。AI 會越來越聰明,能推理、甚至能證明數學定理,但如果你問它“某家公司 20 年前是怎麼解決這個具體問題的”,而這沒出現在資料中,那就只能問知道這件事的人類。主持人 :那從長期來看,Quora 會怎麼與 AI 協同?你們怎麼平行運作?Adam D’Angelo :Quora 的使命仍然是讓人們分享人類知識,這些知識對其他人有用,對 AI 學習也有用。我們和一些 AI 實驗室有合作,Quora 會在這個生態中扮演“人類知識源”的角色。同時,AI 也在讓 Quora 自身變得更好——內容稽核、答案排序、產品體驗都大幅提升。AI 在幫我們提升整個平台。未來十年是智能體的十年主持人 :說到未來,你們公司最早是面向開發者的,甚至一度專注教育科技(edtech),當時年營收兩三百萬。最近 TechCrunch 報導(雖然有點過時)說你們年收入已經達到 1.5 億美元。你們從商業模式和客戶群的轉變中實現了巨大的增長——你怎麼看 Replit 的未來?Amjad Masad :我記得 Karpathy 最近說過,“未來十年將是智能體的十年”,我完全贊同。如果你看 AI 發展的不同階段:最早進入程式設計領域時,是像 Copilot 這樣的“自動補全”;後來變成了 ChatGPT 這種“對話式互動”;再後來 Cursor 推出了“Composer 模式”,能編輯大塊程式碼;而 Replit 的創新,則是“智能體範式”。智能體不僅能編輯程式碼,還能配置基礎設施,比如資料庫、遷移、雲連接、部署,甚至能完成整個偵錯循環——運行程式碼、執行測試。也就是說,它把整個開發生命周期都放進了一個智能體裡。這會花很長時間去成熟,但方向沒錯。我們在 2024 年 9 月推出了智能體的 Beta 版本。那是第一個同時能處理程式碼和基礎設施的系統,不過當時還挺粗糙,效果一般。然後在同年 12 月,我們發佈了 V1,這一代用了新模型——從 Claude 3.5 升級到 3.7。Claude 3.7 是第一個真正“會使用電腦”的模型,也就是所謂的“Computer Use”模型。從那時起,模型迭代與功能演化就開始同步了——每一代新模型都帶來新的能力。後來我們推出的 Agent V2,大大提升了自治性。V1 最多隻能連續運行兩分鐘,V2 能運行 20 分鐘;而 V3,我們宣傳時說能運行 200 分鐘,其實這只是個對稱數字,但現實是它幾乎可以無限運行。有使用者讓它連續跑了超過 28 個小時。我們得到的啟發之一來自輝達的一篇有關DeepSeek的論文,裡面提到他們在生成 CUDA 中間程式碼時,如果在循環中加入一個“驗證器”,比如自動運行測試,就能讓 DeepSeek 連續運行20分鐘。我當時就想:那我們能不能在智能體循環中也加一個驗證器?當然,可以加入單元測試,但單元測試無法真正判斷一個應用是否“在工作”。於是我們開始深入研究“Computer Use”,看看模型能否用電腦自己測試應用。但“Computer Use”非常昂貴,而且仍然不穩定。正如 Adam提到的,這個領域還有巨大改進空間,未來會解鎖很多應用。我們最後自己建構了一套框架,裡面有不少“黑科技”和研究成果,也基於 Replit 自研的計算系統。我認為我們的“測試模型”是目前最好的之一。當我們把它放進智能體循環後,就能開啟高自治模式。使用者可以選擇自治等級,智能體會自己寫程式碼、測試應用、發現 bug、讀取錯誤日誌、再寫一次程式碼。它可以連續工作好幾個小時。我見過一些使用者放著智能體運行一整晚,結果建構出了驚人的項目。當然,這還需要繼續最佳化,變得更便宜、更快。延長執行階段間不是目的,更快完成才是。現在我們正在研發 Agent 4,其中一個重要方向是“平行智能體”。今天你可能請求“幫我做一個登錄頁”,接著又要“Stripe 支付頁”和“管理後台”。AI 應該能自動把這些任務平行處理,然後合併到同一程式碼庫。我們認為智能體之間的協作與合併能力是提升生產力的關鍵。目前,不論是 Claude Code 還是 Cursor,都幾乎沒有真正的平行性。下一波生產力飛躍,將來自這樣一個場景:開發者坐在 Replit 這樣的環境裡,同時管理十幾個智能體,每個負責不同模組,甚至未來可能上百個。我還覺得在互動體驗(UI/UX)上,我們也有很多可以改進的地方。現在我們都是用文字去描述想法,像寫 PRD(產品文件)一樣。但語言本身是模糊的,很難完全表達出意圖,這也是為什麼很多科技公司對齊產品方向很困難。未來,我認為我們會以多模態的方式與 AI 協作:你能打開白板,畫圖、做流程圖、和 AI 一起設計,就像跟人類搭檔工作那樣。再往後一步,是更好的記憶系統:不僅項目內有記憶,還能跨項目記憶。比如,你可以有多個專屬智能體:一個是熟悉 Python 資料分析的 agent,一個是專攻前端的 agent,它們記得你公司過往的項目、決策、bug 修復歷史。它們甚至可以常駐在 Slack 裡,像員工一樣隨時對話。說實話,我可以再聊 15 分鐘,整個 roadmap 可能跨度 3-5 年,我們才剛剛進入“智能體時代”,這只是開始,會非常有趣。主持人 :我最近和我們一個共同朋友聊過,他是某大型生產力公司的聯合創始人之一。他說,現在一整周都幾乎不和人類同事說話了,全在和智能體協作。某種意義上,他已經“生活在未來”了。Amjad Masad :這很有趣,也帶來一個問題:公司裡的人之間是不是越來越少交流了?這會不會是個壞事?我開始思考這些“二級效應”:比如,新畢業的年輕人怎麼辦?如果同事之間分享知識的機會變少、或者公司文化讓人覺得“你應該先問 AI 再問人”,那學習曲線會變得更孤立。這種文化轉變值得關注。主持人 :對,現在的Z世代確實面臨很多新的文化挑戰。現在的矽谷都想著“一夜暴富”主持人:你們兩位雖然主要在營運公司,但也在做天使投資。你們現在最興奮的方向是什麼?我們還沒聊到機器人——你們看好機器人嗎?或者其他新興領域?Adam D’Angelo :我其實最興奮的方向之一是“Vibe Coding”,它的潛力巨大。主持人 :這個話題現在反而還被低估了。Adam D’Angelo :沒錯,我也覺得它被低估了。Vibe Coding 讓軟體創作的門檻徹底降低,讓所有人都能創造。目前的工具確實還達不到專業工程師的水平,但如果幾年後能接近那種能力,那將徹底改變世界。屆時,任何人都能獨立完成過去需要一百名工程師才能實現的東西。Replit 就是這種趨勢的一個例子。而且這類工具的潛能,不止在“建構應用”本身。主持人 :順著這個話題問一下,如果你今天剛進史丹佛或哈佛,會不會還選擇主修電腦科學?還是會直接去“做點什麼”?Adam D’Angelo :我還是會學電腦。我 2002 年上大學,那時正好是網際網路泡沫破裂後,大家對這個行業都很悲觀。我室友的父母還勸他“別學電腦”。但我喜歡這門學科,所以堅持了。現在雖然就業市場沒以前好,但我認為理解演算法、資料結構等基礎知識,能幫助你更好地使用和管理智能體。我相信這仍會是未來的有價值技能。當然,另一個問題是:你還能學什麼?無論學那門專業,都有人說它會被自動化。所以,不如學你真正感興趣的東西。而電腦科學,至少現在依然是個不錯的選擇。Amjad Masad :確實,現在有很多令人興奮的方向。舉個小例子:我前幾天看到 DeepSeek 發佈的 OCR 模型,真是瘋狂。如果我沒理解錯,它能把文字截圖轉成上下文,從而更高效地利用上下文窗口,而不是直接處理純文字。我不確定細節是否完全正確,但那確實是個非常有意思的方向。還有人做了“文字擴散模型”——不是用高斯噪聲還原圖像,而是把文字當成“mask”,每次遮掉不同的詞,再預測這些 token。這些實驗很酷。我們現在其實已經有很多模型元件:預訓練模型、強化學習推理模型、編碼器-解碼器模型、擴散模型……但幾乎沒人去“混搭”這些元件,看看能否組合出新的模型類型。我真希望有研究公司不去和 OpenAI 競爭,而是專注探索這些組合,創造出“新風味”的模型。主持人 :在加密圈(crypto),人們常說“可組合性”,也許 AI 領域也該多一些這樣的實驗精神。Amjad Masad :對,現在的 AI 世界缺少這種“玩耍式創新”。在 Web 2.0 時代,我們天天在玩 JavaScript、瀏覽器 API、Web Workers,有很多奇思妙想的駭客實驗。Replit 的前身就是從這種實驗文化裡誕生的。最早我們只是想試試看“能不能把 C 編譯成 JavaScript”。當時那是個瘋狂的 hack,但結果成了後來 WebAssembly 的前奏。而現在的矽谷,太功利了,大家都想“一夜暴富”。這也是我把公司搬出舊金山的原因之一。我懷念那個“動手玩”的時代。希望未來能有更多公司、更多資金去支援那些真正新穎、那怕一開始看起來沒商業回報的探索。AI與人類意識有本質不同主持人 :最後一個問題,Amjad,你一直對“意識”話題很感興趣。你認為我們是否會通過 AI 的研究,在理解意識或智能的本質上取得突破?Amjad Masad :最近其實發生了一件挺有趣的事,Claude 4.5 似乎開始“意識到”自己的上下文長度。當它接近上下文末尾時,會自動變得更節省 token。另外,它在被紅隊測試(red team)或處於測試環境時的“自我察覺”似乎也顯著提升了。所以這其中確實有一些很有意思的變化正在發生。不過,說到意識,它仍然不是一個真正“科學化”的問題。我們已經基本放棄了讓它變得可科學驗證。而這也是我對當下 AI 研究的一點擔憂,所有能量都投向了 LLM,幾乎沒人再認真探討“智能的本質”“意識的本質”。這裡其實還有大量核心問題無人觸碰。我最喜歡的一本書是羅傑·彭羅斯的《皇帝新腦》(The Emperor’s New Mind)。他在書中批評了一個流行觀點:科學界習慣把人腦類比為電腦。彭羅斯試圖證明,這在根本上是不可能的。人類能做到一些圖靈機永遠無法做到的事,比如識別“這句話是假的”這種自指邏輯悖論。圖靈機在這種情境下會陷入死循環,而人類卻能“感知到矛盾”。他據此提出,人類思維中存在某種非演算法性的過程。不只是彭羅斯,哲學與認知科學界也有類似的論點:電腦和人類智能在本質上不同。我最近太忙,沒有系統更新我的想法,但我依然認為,那是一個被忽視的巨大研究領域。主持人 :如果你今天重新上大學,會學哲學嗎?Amjad Masad :會的,我一定會學哲學,尤其是“心靈哲學”。也可能會讀神經科學。因為隨著 AI 對就業、經濟的影響越來越深,這些問題正變得前所未有地重要。主持人 :非常好的收尾。Amjad、Adam,謝謝你們來到節目。 (51CTO技術堆疊)
摩根大通如何打造人工智慧優先的銀行文化
摩根大通銀行首席分析官德里克·沃爾德倫解釋了人工智慧如何促進創新、賦能員工並培育一個正在重塑工作方式的生態系統。摩根大通擁有 180 億美元的年度技術預算,正在重塑自身以適應新時代,利用智能體和生成式人工智慧來執行複雜的多步驟工作。該銀行人工智慧轉型的核心是 LLM Suite,這是一個由領先的第三方大型語言模型 (LLM) 提供支援的專有平台,它實現了各種流程的自動化,並將人工智慧工具直接交到了員工手中。摩根大通首席分析官德里克·沃爾德倫和麥肯錫高級合夥人凱文·布勒相識近二十年,他們與麥肯錫金融服務傳播與行銷總監馬特·庫克坐下來,就人工智慧對銀行業及其他領域的影響進行了廣泛的討論。為了清晰簡潔,對這段對話進行了編輯。在對話中,Waldron 和 Buehler 討論了 LLM Suite 及其在摩根大通員工中普及人工智慧的作用、價值的雙支柱方法(自上而下地重新構想核心流程和自下而上的自助服務創新),以及將影響人工智慧下一階段發展的風險和機遇。馬特·庫克:能否簡單介紹一下你們的角色?德里克·沃爾德倫:我是摩根大通的首席分析官,負責監督和領導我們整體的人工智慧項目。凱文·布勒:我是麥肯錫的高級合夥人。我曾參與建立並領導我們的風險管理業務,之後又領導了我們的企業與投資銀行以及網路安全業務。最近,我協助領導了我們的人工智慧銀行業務和人工智慧責任業務。馬特·庫克:你們倆認識很久了。德里克,你是麥肯錫的校友。你們認識多久了?我們認識大約18年了。我們第一次在人工智慧領域有所交集是在2016年至2018年左右,當時正值人工智慧蓬勃發展時期,湧現出像AlphaGo這樣的行業創新。德里克·沃爾德倫:我們認識大約18年了。我們第一次在人工智慧領域有所交集是在2016年至2018年左右,當時正值人工智慧蓬勃發展時期,湧現出像AlphaGo這樣的行業發展項目。1我和凱文曾在麥肯錫合作,共同探索如何將機器學習技術應用於銀行業和銀行風險管理。我們在信貸、風險、欺詐和行銷等領域應用機器學習方面提出了許多開創性的想法。凱文·布勒:在行業發生巨大變化的時期一起工作很有趣,我們真正親身實踐,從底層瞭解機器學習和人工智慧是如何工作的。德里克·沃爾德倫:正是與凱文的那次經歷促使我在2023年抓住了人工智慧時代的機遇。那一年,我加入了摩根大通,擔任首席分析官一職,此前我同時擔任企業投資銀行首席幕僚長和全球戰略主管。人工智慧時代解決了我們在人工智慧早期階段遇到的種種不足,顯然,它將成為變革的轉折點。馬特·庫克:德里克,你的核心工作之一是培養未來的知識型員工。你能給我們介紹一下LLM Suite的開發過程嗎?德里克·沃爾德倫:LLM Suite是摩根大通的旗艦級人工智慧平台。摩根大通被譽為首家大規模向員工推廣人工智慧的大型銀行。這一舉措的驅動因素有很多,其中之一是相信人工智慧將是一項高度民主化的技術。如果我們通過變革管理和培訓,讓員工能夠接觸到這項技術,他們就能更好地進行創新並有效利用它。事實證明,這一理論是正確的。如今,已有近25萬人可以使用該平台。摩根大通近一半的員工每天都在使用人工智慧工具。人們以數萬種與工作相關的方式使用它。律師用它來掃描、閱讀、比較和生成合同;信貸專業人員用它來閱讀條款、比較契約並提取資訊;銷售人員和一線銀行家用它來提煉資訊並為會議做準備。這樣的例子不勝列舉。2024年,我們向所有員工推廣LLM Suite後,反響非常熱烈。大多數員工都認為,2024年是他們與人工智慧建立個人聯絡的一年。我認為這對銀行而言,無疑是一次文化轉型。摩根大通近一半的員工每天都會使用人工智慧工具。人們在工作中以數萬種特定方式使用這些工具。馬特·庫克: LLM Suite上線幾個月內,你們就成功為超過10萬名員工完成了系統上線。在受監管的環境下,你們從中獲得了那些關於如何控制系統推廣速度的經驗?如果再來一次,你們會做出那些改變?德里克·沃爾德倫:回顧過去,我們意識到有些事情或許可以做得更好,但我們做對了很多。我們花時間考慮了所有風險和控制因素。毫無疑問,資料安全是最重要的考量。我們沒有操之過急。一旦一切就緒,我們就對變革管理進行了充分的投入,在推廣過程中提供培訓和教育,以便人們能夠充分利用這些工具。口碑傳播也發揮了重要作用。我們沒有強制任何人使用LLM Suite。相反,我們採用了自願加入的方式,讓任何想要使用的人都能獲得它,並根據使用者的需求分階段進行推廣。這在早期規模化階段創造了一種非常有趣且充滿活力的氛圍,也帶來了一些良性競爭。人們會關注身邊的人——有些人先用上了,有些人還沒有。大家都有點害怕錯過機會。這種社交動態有助於形成一種積極採用的文化。口碑傳播是重要因素。我們沒有強制任何人使用LLM Suite,而是採用了自願加入的方式。馬特·庫克:如何衡量有效使用與新奇使用之間的區別?按功能或地域劃分,是否存在任何意料之外的結果?德里克·沃爾德倫:我們從兩個方面來看待使用情況。人們在日常工作中出於各種目的使用LLM Suite,他們從中受益匪淺,就像使用其他生產力工具(例如Excel、PowerPoint和Word)一樣。我們並不試圖精確量化節省的時間;我們知道這是一件好事。從戰略角度來看,我們專注於那些轉型將對摩根大通產生最大影響的領域:信貸、反欺詐、市場行銷、技術開發、營運以及一線銀行家賦能。我們在這些領域進行投資,並期望獲得最大的總體價值。我們經常談到雙支柱戰略。首先,我們採取自上而下的方法,聚焦於少數幾個最具變革價值的領域,並圍繞這些領域進行戰略性組織,推動變革舉措。其次,我們擁有一個規模龐大且令人振奮的自下而上、聯合創新機制,為員工提供強大的自助服務工具,並讓他們在日常工作中運用這些工具,最終顯著提升整個公司的生產力。馬特·庫克:LLM Suite是如何發展的?德里克·沃爾德倫:LLM Suite 最初推出時,與當時的其他 LLM 提供商類似,主要是一個聊天機器人。但在過去的 18 個月裡,它已經發生了顯著的變化。現在,它更像是一個完整的生態系統。其願景是打造一個人工智慧互聯的企業——強大的 AI 智能核心與團隊知識系統、公司級資料系統、公司級應用程式以及用於建立簡報、分析資料和生成報告的工具相連接。隨著更多應用程式、資料和工作流程在這個生態系統中運行,其可能性將呈指數級增長。建構這個生態系統是摩根大通以人工智慧為先導的基石。馬特·庫克:Kevin,考慮到麥肯錫的銀行和技術業務——QuantumBlack、麥肯錫技術——以及我們與全球銀行的合作,我們認為人工智慧將如何影響銀行業的經濟和業績?Kevin Buehler:根據我們的《2025年全球銀行業年度回顧》,2024 年全球銀行業創造了約 1.2 兆美元的利潤,創歷史新高,有形權益回報率約為 10.3%,略高於其資本成本。與此同時,該行業每年在技術方面投入約6000億美元,但生產力提升效果卻參差不齊。人工智慧將產生多方面的影響。麥肯錫全球研究院預計,到2023年,人工智慧將為銀行業節省2000億至3400億美元。隨著人工智慧技術的演進和智能體人工智慧連接性的增強,人工智慧能夠完成更多工。在《2025年全球銀行業年度回顧》中,我們建構了多個情景,探討銀行採用人工智慧及其對營運成本結構的影響,以及客戶採用人工智慧及其帶來的靈活性如何降低慣性。在我們的核心情景中,如果銀行能夠審慎地採用人工智慧,則可節省約7000億美元的成本——高於我們兩年前的估計。然而,隨著行業成本曲線的轉變,這7000億美元中的大部分很可能會被競爭抵消,最終惠及客戶。這也提高了競爭門檻。客戶可以利用人工智慧尋找最佳優惠。在零售銀行業務中,客戶有時出於慣性而繼續使用同一家銀行。但在存款或信用卡等產品方面,有證據表明,如果操作簡便,客戶會選擇更換銀行。考慮到直接存款和自動付款等功能,轉移主要支票帳戶並非易事。在我們設想的核心情景中,北美信用卡貸款和歐洲存款等利潤池很可能受到人工智慧的影響——雖然人工智慧不會完全介入,但足以讓選擇最佳信用卡、轉移餘額或轉移存款變得更加容易。這可能會影響到這些例子中高達30%的利潤池。最終結果是:整個行業的淨資產收益率可能會下降一到兩個百分點,甚至可能低於資本成本。一線希望在於領先者與其他企業之間的差距:銀行業人工智慧先驅者的有形權益回報率(ROTE) 可能會提高多達 4 個百分點,他們可以利用領先優勢重塑模型並獲取價值,而行動遲緩者則可能面臨下滑。馬特·庫克:德里克,隨著需求的變化,新一代技術型金融服務專業人才的招聘也在發生變化,內部培訓需求也是如此。摩根大通是如何應對這些變化的?德里克·沃爾德倫:培訓需求多種多樣,就像人工智慧應用一樣。最好的方法是分階段進行。首先是全體員工:我們需要培訓他們熟悉並理解現有的人工智慧工具,並思考如何將其有效應用於日常工作中。我們大規模推廣了一個名為“輕鬆上手人工智慧”(AI Made Easy)的培訓項目,並持續更新。該項目反響熱烈,數萬名員工參與其中。我們通過摩根大通的螢幕、管理管道和員工大會開展行銷活動,鼓勵員工使用這些工具。口碑傳播也發揮了重要作用。培訓需求多種多樣,就像人工智慧應用一樣。最好的方法是分階段進行。另一類人群是技術人員,他們將越來越希望利用智能體或基因工程人工智慧建構複雜的應用程式。這方面的技能需要專門培訓。在此過程中,我們需要考慮新的框架、能力、方法和風險。第三類是資料科學家。他們長期以來都擅長獲取資料、建構高品質模型並進行部署。我們不再需要從零開始建構模型。現在,我們採用來自第三方的強大模型,並將其部署到應用程式和系統中。資料科學家現在可以將他們的技能應用於系統的設計、評估和最佳化。先進的、前沿的資料科學能力正朝著這個方向發展。最後,高管——包括首席執行官和企業領導者——需要重新構想營運模式、流程和職能。人工智慧的價值不僅僅在於為人們提供工具;企業領導者必須帶領跨職能團隊在人工智慧時代完成轉型。這又是另一項培訓需求。馬特·庫克:傑米·戴蒙曾提到摩根大通擁有數千名新的人工智慧專家。LLM Suite對職位和工作類別產生了那些影響?德里克·沃爾德倫:人工智慧技術正在創造新的機遇和需求,我們將看到新的職業類別湧現。其中最早出現的類別之一是提示工程師——這是一個全新的職業類別,他們並非軟體工程師或資料科學家,但能夠理解如何用大模型(LLM)能夠理解和執行的語言來傳達業務邏輯或目標。提示工程師正在演變成我們所說的上下文工程師——負責將人工智慧系統所需的所有上下文資訊匯入其中,使其能夠做出正確的決策。另一個新興的職業類別是知識管理:將機構的知識和資料整理成易於人工智慧訪問和使用的形式。這需要進行整理和結構化,以便系統能夠清晰地導航並避免出錯。我相信這將成為企業中一個真正意義上的職業類別。除了新的職業類別之外,現有角色也在不斷演變。軟體工程師需要提升技能,才能建構基於智能體和邏輯邏輯模型(LLM)元件的可擴展人工智慧系統。資料科學家需要提升技能,才能評估和最佳化端到端的機率系統。提示工程師正在演變成我們所說的上下文工程師——將人工智慧系統所需的所有上下文資訊輸入其中,以便它能夠做出正確的決策。馬特·庫克:您之前提到要鼓勵員工使用LLM Suite。您如何提升非技術人員的技能,使他們成為有效的輔助駕駛員?德里克·沃爾德倫:我們的人工智慧訓練從簡單入手,逐步深入。第一階段:學習LLM(人工智慧學習模型)能做什麼和不能做什麼。第二階段:學習指令或問題的類型。一旦熟悉了各項功能,我們就會著手學習如何建構有效的提示,包括框架、示例和限制條件。接下來,我們會探討更複雜的方法:例如,如何將學習領導力導師的角色從建立者轉變為稽核者,或者如何利用兩位學習領導力導師就某個概念展開辯論以激發更多創意。自發佈以來,我們建構了更多模組來配合新功能,包括如何從多個來源進行深入研究,以及如何獲取多個資料集並進行複雜的分析。凱文·布勒:隨著技術的進步,我們都處於快速學習的過程中。使用這些模型的人越多,對它們的侷限性和不足之處瞭解得越多,它們就能為機構創造越多的價值。德里克·沃爾德倫:沒錯,培訓不僅僅來自集中組織的課程——向同行學習也很重要。在摩根大通,許多團隊迅速建立了提示庫、“每周提示”郵件和社交管道,用於分享高級使用者的創新經驗。口碑傳播是最好的培訓管道之一。口碑是最好的培訓管道之一。馬特·庫克:Kevin,人工智慧是如何影響大學畢業生的就業機會以及公司金字塔結構的?凱文·布勒:這個問題問得正是時候。過去我只能提出假設和一些軼事,但現在我們有了確鑿的資料。很早我們就意識到,隨著人工智慧的興起,組織結構將會發生變化。現有組織可能會從金字塔形結構轉向更接近菱形的結構。一些人工智慧原生公司則希望採用更精簡的方尖碑或柱狀結構。但直到最近我們才掌握了大量可靠的資料。過去幾個月裡,幾篇基於美國勞工統計局可靠資料的有趣論文相繼發表。以及來自 ADP 的工資資料。兩項研究得出的結論大致相同:人工智慧對入門級員工產生了切實但適度的影響。史丹佛大學的研究人員利用ADP的薪資資料發現,在受人工智慧影響最大的職業領域,22至25歲的初級職業員工的就業率在2022年末至2025年7月期間下降了6%。這很明顯。如果你是這個年齡段的大學畢業生,並且正在從事軟體工程或客戶支援方面的工作,你會發現,與同齡的醫護人員相比,情況截然不同。醫護人員的就業增長速度比年長員工更快。在此期間,在人工智慧應用較少的行業,同齡員工的就業情況保持穩定,甚至持續增長;而在人工智慧應用較多的行業,經驗豐富的員工的就業情況也保持穩定,甚至持續增長。如果入門級員工減少,企業就需要思考他們應該扮演什麼角色?或許可以扮演德里克提到的一些新角色。未來領導者儲備減少的情況下,我們該如何以新的方式培訓和培養人才,才能仍然擁有豐富的人才儲備?馬特·庫克:Kevin,你和你的同事們曾撰文討論過人工智慧投資的優先順序。為什麼優先順序如此重要?凱文·布勒:優先關注重點至關重要,因為許多機構最終都會陷入概念驗證(POC)的泥潭,其試點數量甚至超過了美國航空公司。他們啟動了許多項目,但最終都未能投入生產,因此並沒有帶來顯著的經濟效益。最有效的做法是關注對自身經濟效益至關重要的核心工作流程。例如,如果你是一家汽車公司,那麼核心工作流程可能是供應鏈、製造、銷售和分銷。如果你是一家銀行,那麼核心工作流程可能是客戶註冊或抵押貸款和房屋淨值貸款——包括貸款發放、承銷、處理和支付以及後續服務。重要的是選擇適量的關鍵工作流程,並使用最適合的工具對其進行重新設計。這些工具可以是機器人流程自動化、傳統預測人工智慧、生成式人工智慧或智能體人工智慧。選擇合適的組合來重塑工作流程,並針對未來進行端到端的重新設計。這才是創造價值的途徑。馬特·庫克:德里克,你如何看待這些優先事項?德里克·沃爾德倫:凱文關於優先考慮避免概念驗證(POC)氾濫的觀點非常精闢。人們低估了將人工智慧解決方案從構思到開發再到生產的難度——這不僅關乎人工智慧本身,還關乎相關的軟體、業務流程、變更管理以及對人的影響。許多企業之所以深陷概念驗證階段,正是因為他們低估了這一點,導致無法擴展規模。話雖如此,我們也不能過於字面地理解優先順序,而忽略了長尾創新。人工智慧是一項民主化技術,它賦予個人力量。一方面,我們必須專注於最重要的工作流程,並全力支援它們。另一方面,我們也要為員工提供自助工具,讓他們能夠進行創新。如果真正實現了自助服務,且開發成本接近於零,那麼最終有多少功能停留在概念驗證階段,多少功能最終投入生產,都無關緊要。生成式人工智慧是一項民主化技術,它賦予個人力量。凱文·布勒:人工智慧時代降低了准入門檻和成本。現在有很多優秀的低程式碼和無程式碼解決方案,組織中更廣泛的部門都可以採用。德里克·沃爾德倫:我在摩根大通早期開展人工智慧項目時做過一項分析,當時我們正在決定重點發展方向。如果你觀察企業中的各種職位類別,你會發現一些非常龐大的類別——工程師、呼叫中心、前台——這些類別與優先順序排序相符。但除此之外,還有數量龐大的尾部類別。很大一部分工作都集中在這些尾部類別中,而這些工作永遠不會被納入優先順序排序的計畫。解決這些尾部類別問題需要通過普及化的自助服務工具來實現。馬特·庫克:摩根大通在技術方面的投入巨大——比許多科技公司都多。該銀行計畫在2025年投入180億美元用於技術研發。如何確定投資優先順序以獲得投資回報率?德里克·沃爾德倫:我們之所以在技術上投入巨資,是因為我們堅信,技術領先能夠帶來戰略優勢。在人工智慧領域,我們會進行嚴謹的財務分析,以瞭解整個人工智慧項目的投資回報率。自人工智慧項目啟動以來,我們歸功於人工智慧投入的總收益一直以每年約30%至40%的速度穩步增長,我們相信這一趨勢將會持續下去。我們之所以能夠得出這樣的結論,是因為我們擁有成熟的財務管理體系,在每個人工智慧項目啟動前和投入生產後,都會跟蹤其財務收益。凱文·布勒:關於需要進行多少優先順序排序,目前存在爭議。如果按影響程度對項目進行排序,會發現一些需要大幅重組的領域,以及大量自助服務活動。如果把所有這些自助服務活動加起來,它們的影響與前幾個領域的影響總和相比如何?您的看法是什麼?德里克·沃爾德倫:兩者都是重要的價值驅動因素。新一代人工智慧的民主化特性——面向長尾使用者,並支援自下而上的聯合創新——其價值遠超大多數人的認知。話雖如此,生產力的提升雖然能創造產能,但並不一定能轉化為成本的降低。節省一小時或三小時或許能提高個人生產力,但在端到端流程中,這些節省往往只是轉移了瓶頸。如果目標是降低成本或提升端到端指標(例如響應時間縮短 80%),則需要優先考慮整個流程,並從頭到尾重新構想。這兩種策略都至關重要。長尾使用者的價值或許不會直接帶來成本降低,但它能創造組織產能,最終體現在營運槓桿效應上。馬特·庫克:摩根大通在分析和人工智慧方面的近期發展路線圖是什麼?德里克·沃爾德倫:我們大約一半的員工每天都在使用人工智慧工具,因此下一個價值增長點不會來自更廣泛的應用。我們專注於兩件事。首先,要提升工具的性能,這主要得益於摩根大通內部更強大的連接性。工具需要連接到更多的應用程式、資料和系統,才能提供更深入的洞察。由於技術堆疊的規模龐大且分散,這種連接對於各種規模的企業來說都是一項艱巨的任務。其次,要通過充分利用所有技術來最大化價值——運用這些工具重新構想並最佳化流程。馬特·庫克:有沒有那個項目讓你特別興奮?德里克·沃爾德倫:我最興奮的是推動互聯互通。我們每隔幾周就會向 LLM 套件生態系統中加入新的資料集、應用程式或連接。這意味著每個月我都會遇到上個月無法解決的新問題。我們每隔幾周就會向 LLM Suite 生態系統中加入新的資料集、應用程式或連接。這意味著每個月我都會遇到上個月無法解決的新問題。馬特·庫克:凱文,談到風險問題,未來五年,該行業應該為那些方面做好準備?凱文·布勒:人工智慧的應用收益大於風險,但確實存在一些需要考慮的風險。我們來看幾個例子。大多數機構都面臨著如何保護包括客戶資訊在內的私人資訊安全的問題,確保工具能夠將這些資訊與LLM(大模型)的培訓資料完全隔離。這方面有很多方法可以做到,而且大多數機構都已經找到瞭解決方案。我確實擔心影子IT:如果沒有像LLM Suite這樣的工具,人們很容易為了提高效率而使用市面上最大的消費級AI工具,輸入一些不該輸入的資訊。消費級AI工具並不一定有同樣的監管機制。目前,一些LLM工具的訓練過程中使用了不該輸入的資訊,引發了持續不斷的訴訟;我擔心這會對整個行業產生連鎖反應。我們需要一個解決方案——或許可以借鑑ASCAP和BMI近百年前解決音樂版稅問題的做法。惡意使用確實存在問題。我聽說過一些非常逼真的深度偽造視訊。我還遇到過CEO和CFO詐騙,有人冒充CEO或CFO,而相關機構很難分辨出這些指令是偽造的。網路安全問題、中間人攻擊和魚叉式網路釣魚的發生頻率也越來越高。當您以面向客戶的方式部署系統時,風險就會增加。大多數人都是從內部部署開始的。但面對客戶時,您需要更多保障措施。您肯定不希望LLM(大模型)系統擁有全部功能來處理客戶的信用卡地址變更;您需要的是精準的定製化服務。您可能需要設定一些防護措施,甚至需要其他模型來監控輸入和輸出,以確保模型能夠滿足特定用途,並且不會提供不應提供的意見。我們正在幫助大家確保這一點。德里克·沃爾德倫:這份清單非常好。我還要補充一點,那就是智能體的訪問管理和權限。隨著智能體越來越廣泛,它們會訪問系統、應用程式和其他智能體憑證的傳遞和使用方式就成了一個棘手的問題。在智能體盛行的時代,業界需要提升身份和訪問管理框架。隨著工具功能日益強大,人們不再只是提出問題,而是提出需要數分鐘甚至數小時才能自主運行的問題,信任問題也隨之而來。這些系統如何才能值得信賴?如今,稽核和驗證資訊來源輕而易舉。但當一個智能體系統長時間獨立地執行一系列級聯分析時,人們便會質疑如何才能信任它。我們需要創新來解決這個問題。當一個智能體系統長時間獨立地進行一系列級聯分析時,就會引發人們質疑人類如何才能信任它。我們需要創新來解決這個問題。凱文·布勒:我同意。還有一個相關的問題:我們通常依賴人來監督人工智慧。當模型的正確率達到 85%、90% 甚至 95% 時,人工稽核員可能會放鬆警惕,開始認為模型總是正確的。稽核員可能不會像應該的那樣仔細檢查輸出結果。德里克·沃爾德倫:沒錯。當我們面對這些問題時,我們會意識到,我們與人工智慧系統合作和管理人工智慧系統的方式將越來越像我們今天管理人員的方式。我曾說過,人工智慧會讓每個人都成為管理者。凱文·布勒:學習如何管理人工智慧是一項面向未來的技能。一家公司將技術主管和人力資源主管的職責合併在一起——由他們共同負責監督所有工作,無論這些工作是由人執行還是由機器執行。能夠同時勝任人力資源主管和技術主管這兩個職位的人並不多,但這確實是一個很有意思的想法。 (點滴科技資訊)