#Intelligence
全球 AGI 的三大技術路線:競爭格局正在成型
過去一年,大模型競爭逐漸從“能力發佈”轉向“路線分化”。OpenAI、Google、Anthropic 與 Meta 的技術選擇並非同質,而是在朝三條清晰可辨的 AGI 技術路徑聚合。這些路徑不僅決定模型能力的邊界,也決定下一代基礎設施、算力結構與生態參與者的角色重排。以下為當前全球 AGI 的三大主路徑,以及它們所形塑的競爭格局。一|Scaling:以規模驅動智能的主流路徑(奧爾特曼路線)Scaling 路線的核心假設是:智能是統計規律在足夠大規模下自發形成的現象。技術特徵包括:超大規模 Transformer大規模視訊與圖文資料的被動學習能力隨規模呈現非線性躍遷以分佈擬合驅動推理與規劃代表人物明確:Sam Altman。其核心觀點是“苦澀教訓”:不需要預設智能結構,只需在更大參數與更巨量資料中尋找能力的自然湧現。代表公司包括:OpenAI(最純粹的 scaling 路線,GPT 系列、Sora)Anthropic(Claude 系列:大規模模型+憲法式對齊)Google(Gemini 系列仍以 scaling 派為基礎,輔以結構化推理能力)Scaling 依舊是當前 AGI 的主戰場,也是計算資源需求最大的路徑。其優勢是工程體系成熟、迭代速度快,但在可控性、一致性與因果性方面仍有邊界。二|Embodied Intelligence:以行動和空間建構理解(李飛飛路線)具身路線立場明確:智能並非從資料中“觀看世界”,而是通過行動、感知與反饋建構理解。技術特徵包括:機器人行動資料(action-driven learning)空間智能(spatial intelligence)感知—行動—反饋的閉環學習高保真模擬器的 Sim-to-Real 轉換學術旗手為 Fei-Fei Li(李飛飛)。她的體系直接影響 Google Robotics、Stanford HAI、Toyota Research Institute 以及部分 Meta 的具身研究團隊。具身路線的優勢在於其對真實世界一致性的高要求。智能體可通過行動資料捕獲因果結構,從而彌補純 scaling 路線的物理性缺失。其限制則在於資料採集成本高、工程周期長,短期難以與大模型能力直接對標。三|World-Model:以因果與結構為核心的預測路徑(Meta/LeCun 路線)世界模型路線建立在一個更結構化的假設上:智能依賴內部的世界表示系統,模型需要具備因果推理與結構化預測能力。核心技術包括:結構化世界表徵(structured representations)因果推理圖(causal graphs)能量基模型(EBM)JEPA(Joint Embedding Predictive Architecture)分層預測機制(hierarchical predictive modeling)這一路線由 Yann LeCun(Meta 首席科學家) 主導,也是目前唯一由大型科技公司明確推進的結構化 AGI 路線。LeCun 認為傳統生成式大模型在效率與可控性上存在根本性限制,需要以“世界模型+預測編碼”重建下一代智能架構。該路線的優勢是可控性強、結構透明、推理更接近人類認知框架;限制在於工具鏈仍早期,短期能力不及 scaling 路徑。四|路線背後的產業角色:模型公司、算力供應商與雲廠商的“三極結構”無論路線如何分化,全球 AI 產業鏈正在形成新的功能分層。1|模型公司:路線選擇決定成本結構與競爭邊界Scaling → 極度依賴算力、迭代速度快Embodied → 資料成本高、真實世界一致性強World-Model → 研發周期長、結構依賴重模型公司必須在能力躍遷、可控性與算力成本之間反覆取捨。2|輝達:三種路線的通用底座無論是那條路線,智能體都依賴統一的算力結構來訓練模型、運行推理和管理資料流。輝達正從 GPU 供應商轉向:“訓練底座+推理平台+加速軟體棧”的系統提供者。其在三條路線中的作用:Scaling:GPU 需求最大、增長最快Embodied:需要多模態感測與模擬計算World-Model:需要長序列、高維預測的推理密集環境路線分化不會削弱輝達的支配力,反而強化其在基礎設施層的中心地位。3|雲廠商與資料中心:路線差異推動基礎設施分層Scaling 需要密集 H100/H200 叢集;Embodied 需要模擬平台、邊緣計算與機器人基礎設施;World-Model 需要長序列表徵與預測流水線。未來的資料中心體系將進一步分化,訓練叢集、推理叢集與模擬叢集將不再是同構結構。五|未來:三條路線將長期並存,競爭由“能力比拚”轉向“架構之爭”全球 AGI 的格局正在朝多路線演化:OpenAI 與 Anthropic 將繼續推動 scaling 的極限;Google 嘗試在 scaling 框架中加入更多結構;Meta 則押注世界模型體系,以架構革新重塑未來智能。智能的發展不再是單一路徑,而是“規模—行動—結構”的三維博弈。它們共同構成了未來十年 AGI 的主要競爭框架。 (方到)
庫克已在中國停留近一周!又現身蘇河灣,推動蘋果智能入華
10月18日,蘋果CEO庫克現身上海蘇河灣。自10月13日開啟訪華行程以來,庫克已經在中國停留了近一周!此前他還到訪北京,與開發者進行交流,並參加政府會面。庫克在結束北京之行後,重返上海參加全球財富管理論壇·2025上海蘇河灣大會。當天在與全球財富管理論壇執行委員會主席、清華大學經管學院院長白重恩圍繞「科技驅動時代的創新邊界」進行的對話中,庫克透露,蘋果智慧(Apple Intelligence)正努力進入中國市場。「我們正在推動蘋果智慧進入中國,在操作系統層面整合人工智慧的功能,讓人們在每天使用的所有應用程式中,都能藉助AI的力量。」庫克說。他也表示,人工智慧可以做了不起的事情,它改變了人們的生活,包括救人性命。本周參觀蘋果位於上海浦東陸家嘴的旗艦店時,庫克與中國消費者就蘋果手錶Apple Watch的防摔倒監測等健康功能進行交談。據悉,推動蘋果智能在中國的發布是庫克此次中國之行的主要任務之一,另一個重要任務是與中國運營商共同推動eSIM在iPhone Air智能手機中的使用。但蘋果智能要進入中國仍面臨許多挑戰。業內人士向第一財經記者解釋稱,要實現庫克所說的在「所有應用程序中獲得AI能力」的目標,Siri需要查詢使用者個人資訊以精確地進行回答,並實現控制應用程序的能力,核心技術突破包括:基於設備端數據的個性化推理能力、應用程序間的智能任務串聯、非結構化資訊的語義理解與執行等。而蘋果在推動人工智慧大規模應用的過程並不順利,近期已有多位蘋果AI相關業務主管被曝離職。這讓蘋果追趕在生成式AI和搜尋領域發展迅速的OpenAI、Meta和Google的努力變得更加困難。最新被曝即將卸任的是蘋果負責開發人工智慧網路搜尋的核心團隊主管Ke Yang,他直接向蘋果AI與機器學習高級副總裁John Giannandrea匯報。就在幾周前,Yang被任命為蘋果「答案、知識和資訊」團隊的負責人,該團隊正在開發一些功能,透過加入從網絡提取資訊的功能,使Siri語音助理更像ChatGPT。Ke Yang的離職給蘋果Siri升級帶來更大的不確定性。在經歷了一系列的延後後,蘋果計畫在明年3月對Siri進行重大改版,這也是蘋果提振人工智慧業務的關鍵舉措。新版Siri的功能包括利用個人資料處理更複雜的請求等。今年早些時候,蘋果Apple Foundation Models的十幾名成員已相繼離開,包括該團隊創始人兼首席科學家Ruoming Pang在內的部分人員加入了競爭對手Meta。 Meta目前正在組建Superintelligence Labs的新團隊。此外,蘋果還面臨中國手機廠商的激烈競爭。研究機構Canalys分析師認為,蘋果智慧在中國越推遲發布,越可能讓蘋果處於不利競爭地位,因為其他中國的智慧手機廠商都在競相整合人工智慧功能,建構自主的端側與雲端大模型(LLM)。 (第一財經資訊)
【WWDC2025】一文讀懂WWDC25蘋果:最“無聊”的大會,最“務實”的蘋果
蘋果基礎模型框架允許第三方開發者將內建LLM直接整合到App中,基於Apple Intelligence開發,該框架現面向開發者測試,7月開放公測版。蘋果按年份簡化作業系統命名;液態玻璃將用於iPhone、Watch等裝置生態系統。iOS 2013年來首次更新設計,iOS 26的相機、照片、電話、FaceTime App重新設計;CarPlay Ultra用於部分車型,簡訊App新增群聊投票和發現金功能;Genmoji功能可組合建立新表情符;iPhone通話和視訊可即時翻譯;Apple Music能翻譯歌詞;ChatGPT強化圖樂園功能;地圖和錢包App新增功能;Apple Pay可兌積分並在錢包App內追蹤訂單;新增遊戲App。蘋果還介紹了watchOS 26、macOS Tahoe、visonOS 26和iPadOS 26。新一代OS公測版下月面世。外界的猜測得到確認,蘋果的人工智慧(AI)技術加持版Siri跳票了。去年的全球開發者大會(WWDC)上,蘋果大肆宣傳Apple Intelligence將如何增強 Siri 的功能。最近媒體預測,今年的WWDC AI更新有限,Siri升級仍會缺席。美東時間6月9日周一開幕的WWDC 2025大會上,蘋果的軟體工程高級副總Craig Federighi承認,Siri的這些AI功能短期內不會推出。他說:“這項工作需要更多時間才能達到我們的高品質標準,我們期待在未來一年分享更多相關資訊。”不過,這並未妨礙蘋果更新AI功能套件。蘋果在此次WWDC上宣佈了Apple Intelligence的一系列新功能,並向開發者開放蘋果的基礎模型。蘋果此次推出全新的軟體介面設計“液態玻璃”,應用於iPhone等旗下多種硬體裝置的作業系統(OS),iPhone迎來2013年來首次OS設計更新。同時,蘋果簡化了軟體版本命名方式,改以年份命名,並簡單介紹了iOS 26等旗下硬體裝置的新一代OS將擁有那些新功能,它們的公測版下個月就面世,完整版今年秋季發佈。蘋果基礎模型框架允許第三方開發者將內建LLM整合到App中蘋果全新的基礎模型(Foundation Models)框架將允許第三方開發者利用Apple Intelligence所依賴的大語言模型(LLM)。借助基礎模型框架,開發者可以將蘋果的裝置內建模型直接整合到應用App中,從而基於Apple Intelligence進行開發。App開發者很快就能接入預裝的LLM。Federighi說,現在,支援Apple Intelligence 的模型功能越來越強大、效率越來越高,蘋果正在將更多功能整合到每個作業系統的更多地方。“我們還邁出了重要的一步,讓開發者可以直接訪問支援Apple Intelligence 的裝置端基礎模型,讓他們能夠利用強大、快速、注重隱私保護且即使在使用者離線時也能使用的智能。我們相信,這將在使用者日常使用的App中掀起一波全新的智能體驗浪潮。”蘋果表示,該框架現已開放測試,可通過Apple 開發者計畫 (developer.apple.com) 獲取,並將在下個月通過 Apple Beta 軟體計畫 (beta.apple.com) 開放公測版。它包含引導式生成和工具呼叫等內建功能,可輕鬆將生成功能整合到現有應用中。按年份簡化統一作業系統命名 液態玻璃將用於iPhone、Watch等裝置生態系統蘋果將修改軟體版本命名的慣例。今年秋季發佈、持續到明年2026年都是最新一代作業系統(OS)的版本將命名為26版,也就是說,iPhone 將運行 iOS 26,Apple Watch 將運行 WatchOS 26,Apple TV 將運行 TVOS 26。這樣使用者更容易確保自己用的是最新版。蘋果確認,公司重新設計眾多作業系統,稱新版設計是“公司史上範圍最廣的新設計”。新設計中包括蘋果發佈的“液態玻璃”(Liquid Glass)設計,它將登陸包括 iPhone、Apple Watch、Mac 等在內的裝置生態系統。液態玻璃用於描述軟體的整體外觀和體驗。它是一種半透明且可自適應的系統,它會在使用者不使用控制項時縮小控制項,並使螢幕的其餘部分、即使用者實際使用的內容更加清晰可見。有評論認為,液態玻璃的靈感可能來自iOS 的靈動島,液態玻璃的效果就像是,蘋果把靈動島的設計帶到了底部控制欄。例如,在液態玻璃的設計下,默認為相機和手電筒的鎖屏控制項將變為透明的按鈕,以便使用者更好地查看背景。同樣地,簡訊和應用App通知也採用半透明設計。在App中,底部的一排控制項被集中在一個可自適應的矩形中。這種動態的效果看上去比靜態圖像的效果更好。至於實際效果怎樣,只有在蘋果軟體Beta 版預覽中才能體驗。iOS 26 改進了鎖屏和主螢幕。鎖屏時鐘和主螢幕App圖示上的時間和控制項現在都採用液態玻璃設計。壁紙更加動態,並且在聽音樂時,提供重新設計的“正在播放”體驗。蘋果表示,iOS 26 的鎖屏和主螢幕“比以往任何時候都更加個性化和富有表現力”。相機、照片、電話、FaceTime的App重新設計 CarPlay升級 簡訊App新增功能iOS 26 中的相機App Camera進行了重新設計,菜單更加精簡。使用者如果需要使用更多菜單控制項,只需向上滑動即可。照片App Photos也重新設計,一些標籤控制項回歸。此外,Liquid Glass 的重新設計還帶來了 3D 效果。評論認為,現在的Camera使用者介面更加簡潔流暢。它看起來幾乎空空如也,但使用者可以通過上下左右滑動來訪問所有常用的相機模式和設定,這些功能都被隱藏了。電話App Phone的介面更新,採用統一的通話和語音郵件佈局,整合了最近通話和我的最愛。Apple Intelligence 提供語音郵件摘要。蘋果還新增了類似於Google Call Assist 的 Call Screening功能,可在後台接聽電話,然後顯示來電者身份,使用者來決定是否接聽。Hold Assist 可通過檢測等待音樂來幫助使用者保持通話。使用者可以專注於自己的事務,並在AI代為接聽時收到通知。視訊通話App FaceTime煥然一新。蘋果稱,FaceTime App的登錄頁面將成為“一個慶祝你最親密關係的空間”。它將以“聯絡人海報”為特色,它可以顯示使用者最看重的朋友和家人的面孔,甚至是個性化的視訊消息。那樣一來,使用者就可以預覽自己可能錯過的特殊消息。CarPlay也有了新介面,並支援即時活動。CarPlay 即將迎來軟體升級,推出 CarPlay Ultra,該功能將應用於部分車型,首款車型已於上個月發佈。蘋果稱,CarPlay Ultra允許使用者選擇佈局和設計,顯示對使用者而言最重要的資訊,並新增了收音機和空調等車載控制功能。更新的簡訊App Messages支援加入聊天背景,群聊也新增投票功能,可以就諸如去那裡吃飯或集體旅行目的地等話題進行投票。群聊還支援發現金功能,方便使用者收發款項。未知發件人現在可以顯示在Messages的單獨部分,讓使用者介面更簡潔。Genmoji表情符功能 iPhone通話和視訊即時翻譯 Apple Music翻譯歌詞 ChatGPT強化圖樂園功能蘋果推出新的Genmoji功能,可讓使用者組合表情符,還可以更改表情符的表達方式。使用者可以將兩個表情符混合在一起建立一個新的表情符,還可以將兩個表情符與文字描述組合在一起。比如像以下截圖這樣,將一個女性表情符和一個麥克風表情符組合在一起,然後和介紹這些表情符的文字描述搭配。蘋果的“圖樂園”(Image Playground)加入了油畫等新的風格。ChatGPT 也與圖樂園進行了更多整合,App開發者將能夠使用API將圖樂園整合到他們的App中。使用者可以要求圖樂園App將聯絡人的海報轉換為不同的風格,以便在通話和文字聊天中以不同的風格顯示。使用者可以描述所需的風格,ChatGPT 會進行必要的圖像調整。Apple Intelligence 將支援 iPhone 上的即時翻譯功能。該功能可在電話通話、FaceTime 會話等場景下使用。上述翻譯功能也適用於 Apple Music,因為蘋果給Apple Music新增了歌詞翻譯和發音輔助功能,方便使用者跟唱。此外,自動混音功能AutoMix可讓使用者無縫銜接歌曲,充當使用者的私人 DJ。音樂置頂功能Music Pin可讓使用者將喜愛的藝術家、專輯和歌曲置頂於音樂庫頂部。地圖、錢包App、Apple Pay新功能 新增遊戲App地圖App Maps新增“首選路線”(Preferred Routes)等功能,可識別使用者常去站點的路線;“已訪問地點”(Visited Places)功能可儲存使用者去過的地點,方便日後查閱。Maps採用端到端加密技術,防止資訊被窺探。蘋果的數字錢包App Wallet正在擴展,包含更多車載功能、新增支援數字身份證(Digital ID),以及登機牌顯示方式的更新。已有 20 個品牌支援在 Wallet 中使用金鑰,另有13 個品牌將加入支援。此外,蘋果支付Apple Pay可讓使用者兌換信用卡和其他獎勵卡的積分,並在Wallet內追蹤訂單。如果使用者在電郵收件箱中找不到追蹤碼,這項功能就非常方便。iPhone將新增遊戲App Games。使用者可以查看所有從 App Store 下載的遊戲,並直接從App啟動這些遊戲。該App設有好友標籤頁,方便使用者挑戰好友、比較分數等互動。評論稱,蘋果要打造為一個集所有手機遊戲功能於一體的平台。Visual Intelligence能搜尋螢幕截圖蘋果在 iOS 26 中擴展了視覺智能功能Visual Intelligence,讓使用者能夠搜尋螢幕截圖。比如使用者在社交媒體App中看到一張身穿夾克的女士照片,點選這個照片,即可尋找市面出售的類似夾克。使用者可以使用與螢幕擷圖相同的方式使用 Visual Intelligence。標準的螢幕擷圖控制項將顯示在螢幕頂部,而Visual Intelligence 控制項將顯示在底部。除了允許搜尋之外,這些控制項還包括一些選項,例如根據螢幕上顯示的詳細資訊建立日曆事件,或向 ChatGPT 詢問有關您所看到內容的問題。也就是說,同樣的搜尋功能也適用於在日曆中加入帶有日期和時間的帖子,或者ChatGPT的回覆。watchOS 26有AI加持的Workout Buddy 也提供即時翻譯接下來是watchOS 26,蘋果的智能手錶Apple Watch將採用液體玻璃設計,不過總體來說看上去還是和老版watchOS相似。它最大的亮點在於 Workout Buddy 等功能中更強大的 AI 整合。AI加持的Workout Buddy會收集使用者的鍛鍊資訊,並進行資料分析,即時提供有意義的洞察。此外,它還有語音生成的功能,可以為使用者打氣,就像 Siri化身私人教練一樣。Notes應用將登陸Apple Watch。與iOS 26 類似,Apple Watch 上的資訊App Messages也將支援背景和即時翻譯。Apple Watch的Workout App介面更精簡,讓使用者可以更快地訪問常用菜單項。Smart Stack功能將更新,以便更好地預測使用者需要的小部件。Apple Watch新增了輕拂手腕手勢控制,可用於稍後處理通知、靜音提醒等任務。新一代macOS macOS Tahoe下一代macOS 更新名為 macOS Tahoe。Mac電腦的OS同樣迎來了全新的液態玻璃設計,側邊欄增添了縱深感。菜單欄採用透明設計,讓人感覺螢幕更加寬敞。使用者可以通過更改資料夾顏色、加入圖示或表情符,讓Mac的外觀個性化,為自己增添視覺提示。Mac支援“即時活動”(Live Activity)功能,在 iPhone 上啟動的活動、例如送貨,也可在 Mac 上使用。點選 Mac 上的“即時活動”即可啟動手機的鏡像版本即時活動。在 iOS 26 中推出的“電話”功能Phone也將登陸 Mac 上的電話App Phone,方便使用者在裝置之間進行通話切換。快捷指令App Shortcuts將更新,新增“智能操作”(Intelligent Actions)功能,融入更多 AI 技術。Spotlight 也獲得了 AI 助力,將會顯示與使用者當前工作相關的文件和檔案。Spotlight 還具備上下文感知功能,可以識別使用者正在使用的App。此外,使用者還可以在單個應用中搜尋功能,這有助於建立快捷指令。iPhone新增的遊戲App Games也將登陸 Mac,適用於Mac 上的所有遊戲。它有一個面板,可以調整和最佳化遊戲設定。macOS 26還增加了對 Metal 4 的支援visonOS 26和iPadOS 26蘋果稱對visionOS進行了全面更新。visionOS 26新增的小工具讓裝置擁有空間感,並可自動定位。使用者可以自訂小工具的框架寬度、顏色和深度。除了內建的App小工具外,開發者工具還能讓App開發者加入自己的小工具。“空間場景”(Spatial Scenes)是visionOS 26新增的小工具之一。相關功能中的Persona工具、即讓使用者以類似全息圖的人物形象出現將獲得改進,圖形細節更加豐富。在iPadOS 26方面,iOS 26 對Messages和其他應用的改進也同樣適用於iPad。針對平板電腦iPad的改進還包括提升多工處理功能,iPad 採用了全新的窗口系統。打開App時,它們會全螢幕顯示,使用者還可以選擇流暢地調整App窗口的大小,可以將這些窗口放置在你想要的位置。此外,還有一個響應速度更快的指針。在顯示方面,向邊緣滑動窗口,即可在 iPad 上平鋪顯示。Exposé 會顯示所有打開的窗口。App將新增菜單欄,讓使用者能夠更快地找到所需功能。iPad的檔案Files更新,新增了與macOS 類似的自訂功能。使用者可以將資料夾放入 iPad 的 Dock 中。Mac上的預覽Preview App也將登陸iPad,使用者可以用它編輯和註釋檔案。使用者可以在錄製音訊時控制選擇特定的麥克風,並且還有音訊隔離功能。Local Capture功能可與視訊會議應用配合使用,捕捉對話中的音訊和視訊——這是播客的理想工具。Background Tasks允許iPad 在使用者使用其他App時在背景執行匯出等任務。 (invest wallstreet)
蘋果WWDC25前瞻:十年最大視覺革新背後,AI戰略陷困局
一、命名革命與視覺重構:蘋果的“面子工程”1. 代號Tahoe的符號意義命名邏輯:macOS 26以加州太浩湖(Lake Tahoe)命名,呼應其湖水“映照天空與群山”的特性,隱喻系統半透明設計語言。版本號統一:iOS 19→iOS 26、macOS 16→macOS 26,所有作業系統首次採用“汽車式年份命名”,消除使用者對割裂版本號的困惑。2. 五年一遇的介面革命設計語言:窗口、控制項全面採用Vision Pro同款“玻璃美學”,亞克力質感面板、動態圓角圖示、空間光影層次成為標配,覆蓋iPhone至Mac。互動升級:iPad多工支援自由縮放窗口,Vision Pro新增“眼部滾動操作”與手機聯動。硬體淘汰:2018款MacBook Pro等裝置被拋棄,安裝包暴漲至17GB(前代15GB),疑因整合高畫質材質與本地AI模型。風險提示:2024年Photos改版曾遭使用者抵制,此次全系統革新或重蹈覆轍。二、AI困局:Siri重構夭折與生態危機1. 跳票成常態的Apple IntelligenceSiri重構計畫流產:原定2025年發佈的“上下文感知Siri”因高管實測翻車延期至2026年。內部人士透露:“功能既不穩定,也未達宣傳效果”。WWDC25戰略收縮:重點轉向AI電池最佳化工具、“Project Mulberry”健康教練等邊緣功能,開發者僅獲准呼叫基礎模型介面。2. 技術落後的深層動因內部分裂:空降的AI負責人詹南德雷亞難以融入蘋果核心圈,軟體主管費德里吉拒絕大規模AI投資。硬體掣肘:裝置端運行高級AI需更強算力,但iPhone散熱設計限制性能釋放,M4晶片未針對AI最佳化。3. 外部圍攻加劇OpenAI+Jony Ive組合:前蘋果設計掌門攜OpenAI打造“AI伴侶裝置”,目標2026年出貨1億台,直指iPhone生態。使用者流失預警:蘋果服務副總裁埃迪·庫承認:“AI裝置或十年內取代iPhone”,Safari瀏覽器搜尋量因ChatGPT分流首現下滑。三、硬體創新壓力:輕薄競賽下的“碳纖維誘惑”1. 競品逼宮富士通推出全球最輕14吋筆記本(689克),碳纖維機身+鎂鋰合金結構,雖犧牲電池(25Wh)與散熱,卻凸顯“克級減重”技術實力。2. 蘋果的材質困局歷史嘗試:2021年曾探索碳纖維MacBook Air,理論可減重300克,但因成本過高放棄。現實妥協:M4 iPad Pro僅5.1毫米厚卻犧牲擴展介面,MacBook Air仍依賴鋁合金外殼,重量停滯在1.24公斤。使用者代價:極致輕薄與性能/續航不可兼得——富士通UH-X/H1續航僅4小時,蘋果若跟進需直面體驗崩塌風險。四、戰略冷思考:蘋果的“分裂人格”與未來賭注1. 短期策略:視覺革新掩護AI短板轉移焦點:用“Tahoe”的驚豔介面稀釋AI延期輿論,通過設計統一性強化生態黏性。中國特供方案:國行版Apple Intelligence由百度文心大模型驅動,阿里負責合規稽核,規避技術短板的同時繫結本土夥伴。2. 長期隱患生態瓦解風險:當用AI硬體重構互動,蘋果若仍依賴“iOS圖示矩陣”,恐重蹈諾基亞覆轍。供應鏈脆弱性:為應對關稅壓力加速產業鏈轉移,但印度良品率(85%)和墨西哥成本(時薪9美元)拖累效率。3. 分析師預警“蘋果正活成‘分裂體’:在華盛頓高喊美國製造,在鄭州富士康塞滿訂單,再給墨西哥組裝的iPhone貼上‘美洲製造’標籤。” (視界的剖析)
蘋果 AI 的崩塌真相:從賈伯斯願景,到高管失誤的困局
一向在意公眾形象的蘋果,因為 AI 拉跨,這次被扒乾淨了。AI,已經熱了快三年了。各大科技巨頭爭先恐後下注入局,可偏偏在這個熱潮中,最接近我們生活的蘋果,卻看起來離 AI 最遠。最大的巨頭,在最熱的潮流面前,好似隱身了。去年 6 月 WWDC 上,蘋果慢吞地發佈了 Apple Intelligence,可如今快一年過去,對大部分使用者來說,Apple Intelligence 依舊只聞其聲、不見其形。全世界都看到蘋果的 AI 做不好了,但沒人知道到底發生了什麼。知名蘋果分析師 Mark Gurman 剛剛在外媒發出一篇長文,題為《Why Apple Still Hasn』t Cracked AI》(為何蘋果仍未攻克人工智慧),揭露了蘋果內部對 AI 態度的搖擺,內部的鬥爭和難以克服的技術瓶頸。值得注意的是,Gurman 用的是「Still hasn』t(仍未)」,這詞就已經給蘋果的現狀定了調。本文將通過重組原文以呈現蘋果在 AI 領域的歷史、現狀、問題根源及未來挑戰,剖析蘋果為何在 AI 賽道上步履維艱,讓 AI 成為其阿喀琉斯之踵。01 14 年前的 Siri,概念已是大模型2011 年 10 月 4 日,賈伯斯去世前一天,他留給蘋果的遺產 Siri 問世了。彼時 Siri 宛如科幻成真的產物,它能聽懂使用者的語音指令,能預訂餐廳、尋找電影院或叫計程車,蘋果再一次把未來科技概念變成了主流產品。伴隨著一代神機 iPhone 4s 共同發佈的 Siri|圖片來源:Apple當時,賈伯斯對打造搜尋引擎興趣不大。一位曾與他共事的人說:「賈伯斯不相信使用者會主動去搜尋東西,他認為蘋果的職責是精心挑選並向使用者展示他們想要的內容。」這一理念,如同賈伯斯的許多信念一樣,在他去世後依然深刻影響著蘋果公司。賈伯斯首次接觸到當時還是 App Store 裡一款應用的 Siri 時,他立刻被吸引了。Siri 的聯合創始人 Dag Kittlaus 回憶,Siri 的終極目標是「你可以對著網際網路說話,助手會為你處理一切。你甚至無需知道資訊來源,應用和網站發現的問題也將被解決。」這正是當下大語言模型最廣泛的應用場景。賈伯斯立刻意識到,Siri 遠不止一款應用,他很快聯絡了 Kittlaus,邀請 Siri 團隊到家中面談,在長達三小時的會面中,賈伯斯提出收購他們的公司。Kittlaus 起初拒絕收購提案,但耐不住賈伯斯連續 24 天每天致電勸說。最終,Kittlaus 同意出售 Siri,賈伯斯馬上把 Siri 列為蘋果的頂級開發項目,並且在他的生命末期也全情投入在 Siri 的研發上。當時 Siri 引領了智能語音助手市場,然而幾年後,Google、亞馬遜、小米等競爭對手紛紛推出了更先進的語音助手和智能音箱,而 Siri 卻看不到顯著進步。伴隨 Siri 的啟動,蘋果也開啟了機器學習的研究,但主要用於面部和指紋辨識、智能建議(比如根據交通狀況提醒你何時出發)、改進地圖,以及當時的重點項目:頭顯和汽車。使用 Siri 查詢天氣|圖片來源:Apple最初幾年 Siri 的開發重點只集中在基礎任務上,如提供天氣資訊、設定定時器、播放音樂和處理簡訊。看行動,蘋果早早就佈局到了 AI 行業,他們曾收購了多家小型 AI 公司,包括機器學習公司 Laserlike、Tuplejump、Turi。據知情人士透露,蘋果甚至考慮以約 40 億美元收購 Mobileye Global Inc.,這可能是蘋果有史以來最大規模的收購。Mobileye 做的是加速自動駕駛系統和電腦視覺技術的開發。但最終蘋果放棄了這筆交易,2017 年英特爾以 150 億美元收購了 Mobileye。所以看方向,蘋果並沒有把 AI 投注到語音助手領域。那時,僅成立半年的 OpenAI 宣稱將製造「通用」機器人。但 Siri 還像它被收購時一樣,在無數台 iPhone 上制定鬧鐘、查詢天氣、播放音樂。02 期望、內訌、排擠有錢、有地位、有實力的蘋果,為什麼在 AI 上栽了跟頭?或許也只有資深蘋果分析師 Mark Gurman 能接觸到這麼多內幕消息,他用了極大篇幅報導了蘋果內部在 AI 上的內訌。2018 年,蘋果從Google挖來了 John Giannandrea(業內稱其為 JG)擔任 AI 負責人。蘋果 AI 負責人 John Giannandrea|圖片來源:AppleJG 此前負責Google的搜尋和 AI 部門,帶領團隊在Google相簿、翻譯和 Gmail 等產品中部署 AI 技術。「JG 不僅在Google被視為僅次於 CEO 的最具影響力高管,還曾擔任網際網路先驅網景的首席技術官。」一位參與招聘的人士表示:「還能找到比他更合適的人嗎?」對蘋果來說,挖來 JG 不僅可以重挫競爭對手Google,他更被期望成為讓蘋果轉型為 AI 領頭羊的第一步。在當時蘋果官方發佈的新聞稿裡,庫克表示「機器學習和 AI 對於蘋果公司的未來發展至關重要,它不僅會徹底改變人們與技術進行互動的方式,而且已經為使用者的生活帶來了顯著改善。能夠與 John 攜手並肩,我們感到非常幸運。作為 AI 領域的領軍人物,他必將能夠推動我們在這一關鍵領域的長足發展。」John Giannandrea 於 2018 年加入蘋果負責 AI 和機器學習|圖片來源:Apple然而,七年後回看,這種期望和樂觀已蕩然無存。蘋果的 AI 不僅沒有起色,反而落後得更遠。核心問題是:高管們對 AI 的路線認知不統一。一些負責軟體工程的高級高管認為,蘋果應在 iOS 中更凸顯 AI。2014 年左右,一位高管就表示:「我們很快意識到,這是一項革命性技術,威力遠超我們最初的理解。」但他們無法說服主管 iOS 的 Craig Federighi 認真對待 AI「很多建議都石沉大海。」然而庫克卻意外地看好 AI,一位曾與他共事的人說:「庫克是蘋果內部最看好 AI 的人之一。他一直對 Siri 落後於 Alexa 感到沮喪。他還對蘋果未能在智能音箱領域佔據一席之地感到不滿。」負責人 JG 對 AI 的判斷卻一直在搖擺。2018 年 JG 加入蘋果時,根據其他高管回憶,他認為蘋果封閉的軟體生態系統是一個獨特優勢,能即時向數十億裝置部署最新的功能。但 JG 很快發現,蘋果需要額外投入數億美元,用於大規模測試以及圖像和文字標註來訓練大模型。JG 從Google挖來頂級 AI 研究員,並組建了負責測試和資料分析的團隊。而後 JG 將矛頭對準 Siri,撤換負責人,提議砍掉 Siri 很少使用的功能。然而,JG 的努力常常受阻。據多位同事透露,軟體負責人 Craig Federighi 不願在 AI 上投入巨資,他不認為 AI 是移動裝置的核心能力。Craig Federighi 是發佈會老熟臉,一直負責蘋果軟體團隊|圖片來源:Apple一位長期在蘋果工作的老高管說:「Craig 不是那種會說『我們得幹件大事,需要更多預算和人』的傢伙。」其他領導者也有類似保留意見,一位老高管說:「在 AI 領域,你得先投入才能知道產品是什麼。這不是蘋果的做事方式。蘋果在開發產品時,早就知道最終目標是什麼……我們慣常的策略是晚入場,憑藉超 10 億使用者,穩紮穩打,最終擊敗所有人。」但對 AI,這策略行不通。2022 年 11 月 ChatGPT 的發佈,打了蘋果一個措手不及。一位高級高管表示,在此之前蘋果「甚至連 Apple Intelligence 的概念都沒有。」另一位高管說:「OpenAI 的動作並非秘密,任何關注到市場的人,都應該看到並全力投入進去。」ChatGPT 發佈一個月不到,Craig Federighi 就開始用生成式 AI 為軟體項目寫程式碼了。據知情人士透露,他突然看到了 AI 的潛力,聯合了 JG 和其他高管開始與 OpenAI、Anthropic 等 AI 公司會面,抓緊學習和瞭解最新的模型和市場動態。那時起,Craig Federighi 就要求 2024 年的 iOS 18 中要儘可能多地加入 AI 功能。JG 又開始組建開發大語言模型的 AI 團隊,此時他們已經落後競爭對手多年了。據多名員工透露,蘋果內部各類產品開發團隊都負責了一部分 AI 研發,結果導致技術、進度、相容性很難統一。在 2024 年的 WWDC 上,Apple Intelligence 如約而至,但能力有些捉襟見肘。蘋果生成式 AI 的能力的確落後,據彭博社的報導,蘋果公司內部有一款能處理基本的圖像生成的聊天機器人,但該機器人比 ChatGPT 落後至少 25%,在處理大多數查詢時的精準性明顯不足。為了提供消費者真正想要的 AI 產品,蘋果只好去找Google、Anthropic 和 OpenAI 等競爭對手談判。這又在內部產生了分歧,JG 力主採用Google的 Gemini,理由是 OpenAI 對個人資料的保護和持續發展力不如Google。但蘋果的企業發展團隊並不這麼認為,他們看好 OpenAI,於是 WWDC 上宣佈,Siri 無法處理的請求將轉給 ChatGPT。主打 Apple Intelligence 的 iPhone 16,至今仍未「兌現」|圖片來源:Apple蘋果缺乏自研的 AI 聊天機器人讓很多高管感到不安,但 JG 並不認為大模型是 AI 的未來。據多名員工透露,JG 認為,AI Agent 能真正取代人類還有多年時間,且大多數消費者和他一樣不信任生成式 AI。這些員工們說,這解釋了為何 JG 未全力打造面向消費者的 ChatGPT 競品。他們透露,JG 曾表示,消費者不想要 ChatGPT 那樣的工具。在蘋果內部,JG 因延遲和失誤承擔了大部分指責。而據多名員工透露,JG 一直難以融入蘋果核心高管圈「那些高管共事數十年,營運公司如同家族企業。」JG 的位置就很尷尬,他是一名來自外部的空降高管,難以在蘋果推動核心變革。據一位瞭解他的員工表示「JG 本該更積極地爭取大筆資金,但他不是推銷員,是技術專家。」也有人說,JG 不夠親力親為,也未嚴格要求員工。一位高管說:「蘋果其他工程團隊都全力以赴,按時交付,而 JG 的團隊不是這樣,他們執行力不足。」這種「寬鬆」的印象還延伸到福利上。與其他矽谷巨頭不同,蘋果總部員工需自付食堂餐費。但在 Apple Intelligence 趕工期間,JG 的部分工程師常獲免費餐券,引發其他團隊不滿。一名員工說:「蘋果不提供免費餐食,可他們團隊比別人晚一年交付,還能吃免費午餐。」這些細微之處的區別對待,引發了蘋果內部不同團隊之間的分裂。左:庫克 中:JG 右:Craig Federighi |圖片來源:彭博社而 JG 所謂缺乏緊迫感可能不僅是性格問題,還有對 AI 理解的哲學考量。他一直對 AI 發展節奏持保守態度,對聊天機器人的價值存疑,他認為 OpenAI、Meta、Google等對手的威脅並不迫切。一些蘋果的同事們表示,JG 堅持認為使用者想要的 AI 助手是裝置的主介面,而非某款應用。儘管遭遇延遲和挫折,他仍堅守這一願景。今年 3 月,JG 被剝奪了所有產品開發控制權,包括 Siri 和機器人項目。據其他高管透露,庫克對 JG 打造新產品的執行力失去了信心。JG 保留了對 AI、大語言模型開發、AI 分析及部分開發團隊的監督權。據內部人士透露,一些高管討論過縮減 JG 的職責或讓他逐步退休的想法,但 Craig Federighi 等人擔心,若 JG 離開,他帶來的頂級研究員和工程師可能也會隨之出走。目前,JG 選擇留下,他對同事表示,在蘋果 AI 工作步入正軌前,他不想離開。他還坦言,不再負責 Siri 讓他鬆了一口氣。03 技術落後,隱私的十字路口科技巨頭的失誤不能簡單歸咎於 JG 一個人。行銷和廣告團隊提前宣傳了未完成的功能,Craig Federighi 是軟體項目的最終決策者,庫克則設定了整個公司的產品開發文化。就連前首席財務官在採購 GPU 時也過於保守,蘋果沒有利用市場主導地位和現金儲備,還是按慣例慢慢採購 AI 硬體。結果全球大部分 GPU 被亞馬遜、微軟等對手搶購一空,導致蘋果的 AI 模型訓練速度更慢了。據蘋果及其他公司高管透露,蘋果的 AI 員工數量遠少於競爭對手,採購用於訓練和運行大語言模型訓練的 GPU 也較少。對蘋果而言,錯過潛在的顛覆性技術並不致命。畢竟蘋果常常會讓同行先探索新技術去驗證市場,而後再打磨產品,向使用者推出設計精良、也更易用的版本。這種策略也塑造了使用者對蘋果「不求最新,但求最好」的印象。一直以來,蘋果都憑藉精心打造的產品、精選內容和每年一次的軟體更新,成為全球最有價值的科技公司。蘋果也是這麼想的,在 5 月的財報電話會議上,庫克被股東問及 AI 延遲的問題時,他表示只是需要更多時間以達到蘋果的質量標準,「沒有太多其他原因,只是比我們預期的時間長了一些。」但問題是,多長算長呢?蘋果已經在 AI 上投入了大量資源卻收效甚微。何況 AI 是一項更快、更複雜的技術。回顧歷史,蘋果最成功的產品都建立在內部開發的核心技術上,比如 iPhone 的多點觸控,Mac 的自研 M 系列晶片。但在 AI 上,很難看到蘋果的技術力。蘋果 M 系列自研晶片已經全面滲透進硬體線裡|圖片來源:Figma何況在 AI 上,蘋果有著一個其他巨頭都沒有的技術瓶頸:資料利用。多年來,蘋果一直把保護使用者隱私作為宣傳賣點,如今這成為了他們 AI 開發的阻礙。坐擁 23.5 億活躍裝置的蘋果,掌握的網頁搜尋、使用者習慣、通訊資料超過許多競爭對手。但蘋果對 AI 開發者訪問資料的限制遠嚴於Google、Meta 和 OpenAI,這使得蘋果的研究人員只能去用第三方授權資料集和合成資料(專為訓練 AI 建立的人工資料)。一位瞭解蘋果 AI 和軟體開發的人說:「蘋果在 AI 上,每件舉動都有千百個否決,你得與隱私警察鬥爭才能有所進展。」一位持類似觀點的高管說:「看看 X 的 Grok,它不斷進步,因為他們有所有 X 的資料。蘋果拿什麼來訓練自家 AI?」蘋果站在了資料和隱私的十字路口,以往宣傳的優勢變成了技術上的劣勢。在草莽中狂奔的 AI 市場裡,蘋果顯得過於「文雅」了。04 牽一髮動全身蘋果在 AI 上的勢弱,影響的可不止是 Apple Intelligence。去年,蘋果終止了耗資數十億美元、歷時十年的自動駕駛汽車項目,部分原因是也是因為 AI 無法實現全自動駕駛的承諾。根據 Gurman 的推測,AI 上的失敗可能危及蘋果未來的產品計畫,包括 AR 眼鏡、機器人以及能識別周圍物體的 Apple Watch 和 AirPods。蘋果錯誤投注在了造車上|圖片來源:Apple Explained如果蘋果未來無法給硬體注入 AI,不僅會顛覆蘋果公司「硬體是軟體的載體」的價值觀,還會影響蘋果引以為傲的軟硬體生態鏈。蘋果服務高級副總裁 Eddy Cue 曾對同事表示,蘋果在科技界的霸主地位岌岌可危。上個月,蘋果裝置上的Google搜尋量下降。Eddy Cue 表示:「22 年來從未發生過這種情況,AI 是原因。」他承認使用者越來越依賴大語言模型來獲取資訊。Eddy Cue 指出,蘋果不像埃克森美孚(美國著名石油公司)那樣提供不可或缺的商品,他擔憂 AI 之於蘋果,可能就像當年 iPhone 之於諾基亞,諾基亞倒在蘋果前面,而蘋果可能倒在 AI 前面。他甚至直言稱 iPhone 十年內可能變得無關緊要,「聽起來很瘋狂,但確實可能。」蘋果公司服務高級副總裁 Eddy Cue|圖片來源:Apple更大的挑戰還來自外部,據知情人士透露,為符合歐盟預期的新規,蘋果正著手修改作業系統,將允許使用者將默認語音助手從 Siri 切換為第三方選項。這意味著若蘋果在語音助手上還沒有重大突破,使用者未來可能就不用 Siri,改用 OpenAI、Anthropic、Meta、Alphabet、X 甚至 DeepSeek 的 AI 助手了。蘋果沒有坐以待斃,據員工透露,蘋果在蘇黎世的 AI 辦公室正在打造一個完全基於大語言模型的 Siri,旨在讓 Siri 更具對話性和資訊整合能力。該秘密項目被稱作 LLM Siri。蘋果還在德克薩斯、西班牙和愛爾蘭的辦公室有數千名分析師,來審查 Apple Intelligence 摘要的精準性,比較資料偏差,評估 AI 幻覺的頻率。至於蘋果自研的聊天機器人,現在一些高管想把 Siri 打造為真正的 ChatGPT 競品。為此,公司開始讓 Siri 訪問開放網路,整合多源資料。據員工透露,蘋果內部測試的聊天機器人在過去六個月取得顯著進展,部分高管認為其性能已媲美 ChatGPT 的近期版本。等了一年的新系統,結果是個調色盤?|圖片來源:Apple蘋果內部人士透露,對於下個月的 WWDC,公司計畫重點升級現有 Apple Intelligence 功能,並新增一些功能,比如 AI 最佳化的電池管理、虛擬健康教練。而 Siri 的重大升級,甚至一年前「畫的餅」不太可能在 WWDC 上過多提及了。消息人士稱,儘管蘋果內部對「LLM Siri」寄予厚望,但蘋果準備在行銷中將 Apple Intelligence 與 Siri 分開。他們一方面擔心全面落後競品的 Siri 拖累公司的 AI 宣傳。另一方面,蘋果也不敢再提前數月宣佈新功能了。還記得 Siri 聯合創始人 Kittlaus 嗎?他目前對 Siri 的 AI 化依舊樂觀,他說:「所有模型公司都不知道助手是什麼,而蘋果自 2010 年以來一直在研究這一概念。」他認為,蘋果只需讓 Siri 變得更智能:「蘋果有裝置和品牌,只要給 Siri 『換個腦子』,它完全有機會成為首選助手。」十四年前,Siri 的問世讓蘋果站在了智能互動的巔峰,賈伯斯的遠見點燃了語音助手市場,也孕育了如今我們用自然語言就能暢談的聊天機器人。然而,今日的蘋果卻在 AI 賽道上步履維艱,Apple Intelligence 的遲到與失色、Siri 的停滯與落伍、自動駕駛的失敗……能拿到內部消息的 Mark Gurman 揭示的不僅是蘋果表面上在 AI 的遲滯,更是內部戰略的搖擺、技術路徑的困境、以及核心文化與時代脈搏的摩擦。那些曾讓蘋果引以為傲的產品策略和企業文化,在以前所未有的速度重塑著科技格局的 AI 面前,反而成了蘋果的絆腳石。蘋果的未來正因 AI 的短板而蒙上陰影,庫克說,只是時間問題。可時間,蘋果還有多少?至少下個月的 WWDC,我們不會看到期待的答案。 (極客公園)
Physical Intelligence 創辦人:人形機器人被高估了
AI Robotics 是我們長期關注的賽道之一,通用機器人是AGI 從數位世界走向物理世界的重要路徑,而robot foundation model 要做的就是給機器人建立一個大腦,從軟體角度實現機器人的通用能力。在AI robotcis 的主題下,Physical Intelligence 是我們最受關注的公司之一。PI 被視為是機器人領域的OpenAI,是所有機器人公司中research 水平和人才密度最高的團隊,團隊的核心目標是開發通用機器人的foundation model,今年2 月,PI 開源了通用模型π0 的代碼和權重,2 月26 日,PI 又推出了Hi Robot,能夠將π0 等推理模型納入一個推理過程。本篇內容是我們對PI 核心創辦人 Chelsea Finn 最新觀點的編譯理解。圍繞著 π0 和Hi Robot,Chelsea Finn 分享了機器人如何實現泛化?她認為,數據人就是關鍵中的關鍵,一定要取得更多樣化的機器人數據,而不只專注於數據的質量,最終的目標是擴大真實機器人數據的規模。同時,Chelsea Finn 也理性地認為,雖然人形機器人這個型態很酷,但當下,人形機器人被高估了。要實現機器人領域的AGI,物理智能才是核心,未來一定會有各種各樣的機器人形態,PI 內部將機器人的AGI 時刻定義為「寒武紀大爆發」。01 . Chelsea Finn 是如何進入機器人領域的?Elad:你是如何進入機器人領域的,最初是什麼吸引了你?Chelsea Finn:一開始,我對機器人可能帶來的影響感到非常興奮。同時,我也對發展感知和智慧的問題非常著迷,機器人體現了這一切。有時候這個領域牽涉到一些有趣的數學問題,能讓大腦保持活躍,不斷思考。這些都是從事這個領域很有趣的地方。我真正開始認真研究機器人大概是在10 多年前,當時我剛開始在柏克萊攻讀博士。我們當時在做神經網路控制,試圖訓練神經網絡,使得影像像素可以直接對應到機器手臂的扭矩。在當時,這種方法還不太流行。但如今,這個方向已經取得了巨大進展,在機器人領域受到了更多認可,也讓越來越多的人感到興奮。從那個時候開始,我就很清楚,我們可以訓練機器人完成一些很酷的任務。但真正的挑戰在於,如何讓機器人在不同環境、面對不同物件時都能完成這些任務。 10 年前,我們訓練機器人去擰緊瓶蓋、用鏟子把物體放進碗裡、精準地插入物體,或是把衣架掛到衣架桿上。這些任務本身已經很酷了,但讓機器人在不同環境、面對不同物件時都能執行這些任務,才是真正的困難。因此,我一直在思考如何建立更廣泛的資料集,如何基於這些資料集進行訓練,以及有那些不同的學習方法,例如強化學習、影片預測、模仿學習等。我在博士期間和加入史丹佛之前,曾在Google Brain 工作了一段時間。後來,我成為了史丹佛大學的教授,在那裡建立了自己的實驗室,並在這些方向上做了大量研究。大約一年前,我與合夥人們共同創立了Physical Intelligence,希望能真正實現我們的願景。我為此離開了史丹佛大學,但我仍然在史丹佛指導學生。02 . PI 的研究進展與發展路徑:泛化與開源Elad: Physical Intelligence 目前的研究方向為何?Chelsea Finn:我們的目標是建立一個大型神經網路模型,最終讓它能夠控制任何機器人,在任何場景下執行任何任務。我們的願景與傳統機器人研究有很大不同。過去,機器人研究往往是深入專注於某一個特定的應用場景,例如開發一個機器人來執行單一任務。然而,這種方法往往會讓研究侷限在特定應用裡,一旦機器人被優化到擅長某個特定任務,就很難再擴展到其他任務。我們想要解決的是更廣泛的物理智能問題,而我們以長期視角來看待這個問題。我們特別關注泛化能力和通用機器人。與其他機器人公司不同,我們認為充分利用所有可能的數據是非常重要的。這不僅限於某一種特定的機器人數據,而是要匯總來自各種不同機器人平台的數據,例如六軸機器人、七軸機器人、單臂機器人、雙臂機器人等。已經有許多證據表明,不同機器人之間可以分享大量豐富的訊息,能讓數據的價值最大化。在這種情況下,如果對機器人硬體進行迭代升級,就不需要完全捨棄舊版本的資料。在過去,有一個痛點在於當機器人升級換代時,原本的策略就無法適配,需要重新訓練模型,這個過程既費時又費力。而 Physical Intelligence 的目標是打造通用機器人,並開發foundation models,讓它們成為下一代機器人在現實世界中的智慧驅動力。Elad:這在某種程度上與LLM 有些相似。在LLM,深度學習、Transformer 架構以及規模化訓練的結合,已經證明了可以實現真正的通用性,並且能夠在不同領域之間進行不同形式的遷移。你們所採用的架構或方法具體是什麼?Chelsea Finn:一開始,我們主要是想擴展資料收集規模。與語言領域不同的是,機器人領域並沒有類似維基百科或涵蓋機器人運動的「網路」可供利用。因此,我們對在真實環境下收集真實機器人的數據感到非常興奮。這種真實數據一直以來都是推動機器學習進步的重要因素。而一個關鍵點是,我們需要自己去收集這些數據。這意味著我們需要在物理世界中進行機器人操作。雖然我們也在探索其他擴展數據的方法,但核心仍然是擴大真實機器人數據的規模。去年十月底,我們發布了一些初步成果,展示了我們在資料擴展方面的努力,以及如何讓機器人學習非常複雜的任務,例如折疊衣物、清理桌面、建造紙板箱等。目前,我們思考的重點是如何讓機器人能夠進行語言互動,並在不同環境中具備泛化能力。在去年十月的演示中,我們展示的機器人是在一個特定的環境中訓練的,而數據也是來自那個環境。雖然它能夠在一定程度上泛化,例如折疊它以前從未見過的短褲,但這種泛化能力仍然非常有限。此外,使用者也無法與它進行互動,除了訓練資料中已有的一些基本指令外,無法讓它執行新的任務。因此,我們目前的一個重要目標是讓機器人能夠處理更多樣化的指令,並適應更多不同的環境。在架構方面,我們採用了Transformer,並且使用了pre training 模型,特別是預先訓練的Vision-Language Model,這使我們能夠利用互聯網中豐富的資訊。幾年前,我們有一個研究結果表明,如果利用Vision-Language Model,機器人可以執行訓練資料中從未包含過的任務,但這些任務涉及的概念是存在於網路的資料中。一個著名的例子是,你可以給機器人展示Taylor Swift 的照片。雖然機器人從未在現實中「見過」 Taylor Swift,但由於網路中有大量Taylor Swift 的圖片,它可以利用這些資訊以及pre training 模型的權重來實現知識遷移,讓機器人執行相應的任務。因此,我們並不是從零開始,而是依託這些既有的知識來提升,這對整個研究有很大的幫助。Elad :實現泛化的關鍵是什麼?Chelsea Finn:我認為最重要的一點是獲取更多樣化的機器人數據。例如,在去年十月底的那個發布中,我們的數據是在三棟建築中收集的。而相較之下,網路上的語言模型和視覺模型所依賴的資料來源要廣泛得多,因為網路上的圖片是由許多人拍攝的,文字是由許多人撰寫的。因此,我們需要在更多不同的環境中收集數據,涉及更多物件、更多任務。擴展數據的多樣性,而不僅僅是數據的數量,這是至關重要的。我們目前的重點工作之一就是讓我們的機器人進入更多不同的場景,並在這些環境中收集數據。同時,這也會帶來一個非常有價值的副產品——我們可以學習如何讓機器人在各種不同環境中真正運作並發揮作用。如果我們想要讓機器人在現實世界中真正使用,這一點至關重要。除此之外,我們也在探索其他方向,例如利用人類的視訊資料、從網路中獲取資料、使用pre training 模型,並思考推理能力的應用,儘管目前更多是一些基礎的推理。• 例如把一件髒衣服放進洗衣籃,機器人就需要能夠辨識衣服和洗衣籃在那裡,以及完成這個任務需要執行的操作。• 例如要製作一個三明治,而使用者對醃黃瓜過敏,那麼機器人應該可以推理出不應該在三明治裡放醃黃瓜。總的來說,最重要的仍然是獲取更豐富多樣的機器人數據。Elad :開源會是PI 的長期發展路徑嗎?Chelsea Finn:我們一直都很開放,開源是我們有意識的選擇。我們不僅開源了一些模型的權重,還發布了技術細節和論文,甚至與硬體公司合作,向它們提供機器人設計。首先,我們認為這個領域還處於起步階段,這些模型在未來1-3 年內會變得更強大,機器人也會變得更強大。我們希望支援研究發展,支援社區,支援機器人技術,這樣當我們最終開發出通用模型技術時,整個世界會更好地為它做好準備,屆時會有更強大的機器人能夠利用這些模型,也會有更多具備相關專業知識的人理解如何使用這些模型。其次,我們擁有一支非常優秀的研究人員和工程師團隊,而頂尖的研究人員和工程師更希望加入開放的公司,尤其是研究人員,他們希望自己的研究成果能夠得到認可,並且能夠分享和討論他們的想法。吸引最優秀的研究人員和工程師是解決機器人問題的關鍵。最後,選​​擇開源的最大風險在於可能無法成功。我並不擔心競爭對手,我更擔心的是最終沒有人能解決機器人問題。機器人技術非常困難,過去也有很多失敗的案例。與在影像中識別物體不同,機器人操作幾乎沒有容錯空間​​。例如,機器人與物體的接觸距離非常小的時候,一點點差距可能會對結果產生巨大影響,會決定機器人能否成功操作這個物體。收集數據的挑戰也是如此,任何涉及硬體的事情都很困難。03 . 機器人怎麼實現AGI?Elad :物理智能會在那些領域產生最直接的影響,這些新方法何時能夠真正實現突破?Chelsea Finn: Physical Intelligence 非常關注機器人的長期問題,而不是某一個特定的應用,專注於單一應用可能會帶來許多失敗的風險。我不確定物理智能的第一個應用場景會在那裡。在機器學習領域,有許多成功的應用,例如推薦系統、語言模型、影像偵測等,模型的輸出最終會被人類使用,人類可以被檢驗,因為人類通常是擅長檢驗的。很多機器人非常自然的應用場景是機器人獨立自主地做某些事情,而不是接收人類給予的指令,例如給定手臂的目標位置,之後人類再進行檢驗。因此,我們需要思考一些新的方法來應對允許錯誤的場景,或是人類和機器人可以合作的場景。這是一個大挑戰。 Physical Intelligence 一直在嘗試部署這些機器人技術,我們所做的語言互動工作其實就是受到這個挑戰的推動。人類能夠提供輸入是非常重要的,例如人類希望機器人如何表現、希望機器人做什麼、希望機器人如何幫助完成某件事。Elad :如何看待人形機器人與非人形機器人的差異?Chelsea Finn:人形機器人真的很酷,但有些被高估了。從實際角度來看,我們現在在數據方面確實有瓶頸。有些人認為人形機器人可能更容易收集數據,因為它們符合人類的形態,可能會更容易模仿人類。但如果你曾經嘗試過遠端操作人形機器人,你會發現操作人形機器人比操作一個靜態操控器或一個有輪子的移動式操控器要困難得多。優化資料收集非常重要,如果能達到一個超過需求的資料量程度,那麼剩下的就只是研究、計算和評估的問題了。我們正在優化這個方向,這也是我們目前優化的目標之一。我們使用便宜的機器人,使用我們能夠非常輕鬆地開發遠端操作介面的機器人,這樣就可以快速進行遠端操作,並收集多樣化的大量數據。Elad :怎麼看待具身智慧模型的開發與非具身智慧模型開發之間的差異?Chelsea Finn:人們低估了運動控制中所包含的智慧。我們能夠像現在這樣使用雙手,經過了多年的進化。而有許多動物,即便經歷如此長時間的演化,也無法做到這一點。因此,能夠做一些非常基礎的事情,例如做一碗麥片或倒一杯水,實際上蘊含著極大的複雜性和智慧。所以,從某種程度上來說,具身智能或物理智能是智能的核心。Elad :在過去兩三年裡,那些研究促使人們覺得機器人到了一個轉捩點?Chelsea Finn:有幾個因素讓我們覺得這個領域的進展比之前更快了。第一個是SayCan,可以利用語言模型對高層部分進行規劃,再與低層模型結合,以便讓機器人完成長時間的任務。第二個是RG2,能夠實現前文所說的Taylor Swift 的例子,RG2 能夠將大量的網頁資料整合進來,進而提升機器人的泛化能力。第三個是RT-X,能夠跨越不同的機器人形態訓練模型。重要的是,我們可以將各個研究實驗室的資料整合到一個通用格式,並在此基礎上進行訓練。在訓練時,我們發現可以將一個模型的checkpoint 發送到另一個實驗室,即使距離很遠,那個實驗室的研究生也可以在機器人上運行這個checkpoint,而且大多數情況下,結果比他們自己在實驗室裡單獨迭代出的模型要好。這是一個重要的標誌,說明這些技術開始真正起作用,透過匯總來自不同機器人的數據,的確能夠帶來益處。checkpoint 是指在模型訓練過程中保存模型目前狀態的快照,通常包含模型的權重、最佳化器的狀態以及其他訓練相關的參數。還有Aloha 和Mobile ALOHA,實現了遠端操作來訓練模型,使機器人完成相對複雜的精巧操作任務。我們也做了一個後續的關於繫鞋帶的專案。當我們啟動PI 時,也是對其他人發出了信號——如果專家真的願意在這個領域下注,那也許真的會有一些變化。04 . Hi Robot 是什麼?Elad : PI 最近推出了分層互動機器人,也就是Hi Robot,這是怎麼考慮的?Chelsea Finn:我們試著專注在兩個方面。第一,如果一個任務需要較長時間才能完成,即可能需要花費幾分鐘,那麼僅依賴單一策略,即從圖像直接輸出動作,可能並不高效。例如在製作三明治的過程中,如果策略只是逐步輸出下一個運動指令,而不考慮整個任務的整體規劃,那麼效果可能不如透過真正推理和規劃來完成所有步驟來得更好。第二,我們希望機器人不只執行基本指令,例如折衣服、拿起杯子,而是能與人類互動。例如人類可以告訴機器人自己是素食主義者,要求機器人做一個三明治,不要加泡菜,或中途要求機器人暫停放番茄。處理這些類型的提示、進行現場調整等,和僅僅執行基本指令之間有很大的差距。因此,我們開發了一個系統,有一個模型來接收提示並進行推理,能夠輸出機器人應該執行的下一步,例如告訴機器人下一步去“拿起番茄”,然後有一個低層次的模型,將“拿起番茄”作為輸入,輸出下一個半秒內的命令。這個專案非常有趣,我們讓機器人做了一個三明治,還做了購物和清理桌子。我最初對它感到興奮,是因為看到機器人能夠回應不同的提示並完成這些具有挑戰性的任務,而且, 它似乎是一種正確的方法。05 . 機器人需要那些感官?Elad :機器人的感測器現在處於什麼階段?Chelsea Finn:如果只依靠視覺,甚至只使用RGB 影像,我們已經走得很遠了。我們通常會有一個或多個外部的基礎攝影機來觀察場景,並且還會在機器人的每個手腕上安裝攝影機。我們可以透過這些設備取得很好的效果。如果我們可以為機器人裝上「皮膚」就更好了,但目前市面上的觸覺感測器要不是不如皮膚那麼耐用,就是成本過高,或是解析度非常低。所以,在硬體方面有很多挑戰。實際上將RGB 相機安裝在手腕上非常有幫助,可能能提供與觸覺感測器相似的許多資訊。Elad :在機器人領域,需要多少感測器?那些是必要的,那些可能不需要?Chelsea Finn:例如做三明治,你可能會希望機器人能夠「品嚐」一下三明治,看看是不是好吃,或至少能聞到味道。我過去曾多次向Sergey Levine 提出過「嗅覺」這個觀點,因為嗅覺確實有很多好處。從某個角度來看,感測器有冗餘性是很好的。例如音頻,當人類聽到某個意外的聲音時,實際上可以在許多情況下提醒你注意到某些事情,儘管你可能已經透過其他感測器看到了某個物體掉落。這樣的冗餘性可以增強系統的穩健性。但對我們來說,現在並不是優先考慮這些感測器的時機,因為目前的瓶頸並不在於感測器,而是在資料處理,尤其是在架構等方面。目前我們的機器人策略沒有記憶,機器人只看目前的影像,甚至無法記住半秒鐘前發生的事情。所以,我寧願先在我們的模型中加入記憶功能,而不是加入其他感測器。在沒有其他感測器的情況下,我們也能夠為許多應用場景開發出商業可行的機器人。06 . 類比自動駕駛,機器人和機器人公司會如何發展?Elad :和自動駕駛相比,機器人未來發展的時間線大概是怎麼樣的?Chelsea Finn:我不知道。自動駕駛和機器人技術各有難易之處。一方面,機器人更難,因為是一個更高維度的空間,即使是靜態機器人也有14 個維度,每隻手臂有7 個維度。在很多情況下,需要比自動駕駛有更高的精確度。我們也沒有一開始就擁有那麼多的數據。另一方面,自動駕駛必須解決整個分佈問題,才能讓任何技術具備可行性,必須能夠處理任何時間段的交叉路口、各種行人情景以及其他車輛等。而在機器人技術中,有許多商業應用場景不需要處理這麼大的分佈問題,也沒有那麼大的安全風險,而且自動駕駛領域的結果非常令人鼓舞,尤其是舊金山Waymo 車輛數量的增加。Elad :類比自動駕駛的發展,現在的機器人公司會如何發展?大公司做機器人是否有優勢?Chelsea Finn:最近有許多新玩家進入機器人領域。10 年前,做自動駕駛可能為時過早,但自那時以來,深度學習取得了很大的進展。機器人領域也是如此,如果在10 年前,甚至5 年前,我覺得也太早,當時的技術並不成熟,或許現在仍然有些早。自動駕駛的難度已經證明了在物理世界中建立智慧是多麼困難。我非常喜歡新創公司的環境,我在Google 遇到非常困難的事情,例如考慮到程式碼安全,帶著機器人離開校園幾乎是完全不可行的。但如果想收集多樣化的數據,把機器人帶出校園是很有價值的。而在新創公司中,你可以更快地行動,因為你沒有那些限制和繁瑣的程序。大公司雖然有大量資本,可以支撐得更久,但行動會更慢。對於新創公司的創辦人而言,快速部署、快速學習和快速迭代可能是最重要的,而且要盡量去開發,真正讓機器人走到市場上, 並從中學習。07 . 對訓練資料和硬體的看法Elad :怎麼看待將人的觀察資料作為機器人訓練集的一部分,這些資料可能來自YouTube,或是專門錄製的內容。Chelsea Finn:這些數據確實有很大價值,但僅憑這些數據並不能走得太遠。• 例如,你觀看奧運游泳選手比賽,即使你有運動員的體力,但運動員訓練自己的肌肉來完成動作的經驗也是至關重要的。• 例如,你試著學習如何打好網球,但光是觀看專業選手,是無法學會的。人類在低階的運動控制方面已經是專家,但機器人並不是這樣。機器人實際上需要從自身的身體經驗中來學習。所以,能夠利用這種數據形式,尤其是擴展機器人自己的經驗,是非常有前景的。但要真正取得進展,關鍵還是要有來自機器人本身的數據。Elad :這些數據是你為機器人產生的通用數據,還是你讓機器人模仿某些活動?Chelsea Finn:當我們收集數據時,機器人有點像牽線木偶,我們可以記錄機器人實際的運動指令和感測器數據,例如攝影機影像,這就是機器人的「經驗」。自動化經驗將發揮巨大作用,就像在語言模型中一樣。在得到一個初步的語言模型後,如果能透過強化學習讓機器人基於自己的經驗自我啟動,那將是非常有價值的。Elad :那些資料是可泛化的?Chelsea Finn:資料是否可泛化關鍵在於分佈廣度(the breadth of the distribution)。雖然很難量化或衡量機器人的經驗有多廣泛,也沒有辦法將任務的廣度進行分類,比如一個任務與另一個任務有多大不同,一個廚房與另一個廚房有多大差異之類的,但至少可以通過觀察建築物數量或場景數量等因素,粗略瞭解這種廣度。Elad :隨著機器人技術的發展,未來機器人會有一個單一的形式,還是會有幾個不同的形式,從而形成一個豐富的生態系統?Chelsea Finn:我的猜測是會有很多不同的機器人平台,各種各樣的機器人硬體類型會湧現出來,我和Sergey Levine 稱之為「寒武紀大爆發」。只要我們擁有可以支援這些不同機器人的技術和智能,就像廚房裡有各種不同的設備,各自能做不同的事情,而不是只有一個設備能做所有事情。可以想像一個這樣的世界:有一種機器人手臂可以在廚房裡做事,它的硬體專門針對廚房工作進行了優化,並且可能還會優化成對於這個特定用途而言更便宜,還有其他硬體可能設計用於折疊衣物、洗碗等。Elad :在 The Diamond Age 這本書中,呈現了一種觀點:物質透過管道進入家庭,家庭用3D 列印機來製作一切,例如你下載圖紙,然後3D 列印出物品。還有一些人可能會修改設計,選擇性優化某些功能來改進產品。這樣的未來有可能實現嗎?Chelsea Finn:這樣的世界是非常可能的。如果針對某個特定的使用場景來優化硬體,是可以製造出更便宜的硬體的。而且這樣的硬體可能也會更快、效率更高等。但實際實現起來是非常困難的。Elad :預測未來趨勢確實非常困難。我之所以認為硬體平台的數量會減少,其中一個原因就是供應鏈問題。大規模生產硬體組件可以降低成本,因此最終市場上的硬體平台可能會收縮,變成更少但更具規模效應的選擇。除非某些硬體平台在成本上有顯著的優勢,否則企業更傾向於生產更少種類的硬體,因為這樣更容易擴展、複製,並且製造成本更低。從硬體產業的角度來看,這是一個常見的邏輯。因此,在「多樣化硬體平台」與「規模化、低成本生產」之間的權衡,是一個值得思考的問題。Chelsea Finn:我們可能會有機器人出現在供應鏈中,能夠製造任何想要的客製化設備。Elad :未來,機器人將無所不在。 (海外獨角獸)
庫克出手:緊急換帥,蘋果AI重組管理層!
這次,庫克終於出手了!重組蘋果AI管理層!近日來,蘋果AI難產的消息不脛而走。3月19日,根據彭博社披露的最新蘋果內部會議記錄,Siri 相關的 Apple Intelligence 關鍵功能正面臨嚴重的延期問題,甚至可能無法在 iOS 19 中推出。很多業內人士都曝光了此事,甚至嚴重到引發了當天大量使用者的集體訴訟,原因是「未能兌現 Apple Intelligence 承諾,涉嫌違反《反不正當競爭法》並誤導消費者」。業內人士郭明錤表示:蘋果CEO親自出來回應此事。庫克應該感受到了外界的壓力,於當地時間3月20日,採取了雷霆措施,來挽回大家的信任。對舊將失去信心,新帥是Vision Pro創造者據外媒彭博社報導,蒂姆·庫克對蘋果人工智慧負責人John·Giannandrea在產品開發方面的執行能力失去了信心,因此他調動了另一位高管來協助:Vision Pro的創造者Mike Rockwell。不便透露姓名的知情人士透露,Rockwell接下來將負責Siri,而Siri將從Giannandrea的指揮下完全移除。而Rockwell將向軟體負責人Craig Federighi匯報工作。蘋果公司計畫在本周向員工宣佈這些變動。彭博社還報導,這家iPhone製造商的高級領導層(Top 100)剛剛線上下秘密組織的年度線下聚會上討論了蘋果公司的未來,而AI的進展則是會上討論的重點。新帥舊將有何背景?新帥Rockwell目前擔任Vision Products Group(VPG)部門的副總裁,該部門負責開發蘋果的頭戴式裝置。隨著此次調整,他將離開該團隊,並將管理權交給Paul Meade,後者此前在Rockwell手下負責Vision Pro的硬體工程。而舊將Giannandrea可謂大名鼎鼎。這位前Google明星高管於2018年被聘請領導蘋果的AI工作。在Google母公司Alphabet內部,他曾是最高等級的高管之一,負責搜尋和AI部門。相比之下,Rockwell並沒有AI領導經驗,也沒有在機器學習領域積累廣泛影響力。不過,Rockwell已被證明是一位具備強大技術經驗的高管,他已證明自己能夠推動新產品上市,並管理數千人的工程團隊。據知情人士消息,Rockwell擅長解決問題,並常常擔任前沿技術的倡導者。在過去十年裡,Rockwell是少數幾個能夠從零開始構思並成功推出重要硬體裝置的蘋果高管之一。他於2015年加入蘋果的硬體工程團隊,並在去年2月幫助公司推出了Vision Pro。蘋果Siri士氣低迷,內部人士曝料:不止技術問題,還有內鬥分歧近日,在一次全體員工會議上,蘋果 Siri 團隊的高級總監 Robby Walker 坦承,這次功能的延期是一個“非常糟糕(ugly)”的情況,這直接導致了團隊士氣的下降。Robby Walker 在內部會議上承認表示,公司在 Siri 的 AI 升級尚未準備好之前就過早宣傳了這些功能,這一決策是個錯誤,使得本次延期變得尤為“難看”,也讓團隊成員或多或少都感到些許憤怒、失望、疲憊以及尷尬。“這不是一種‘我們先開發完成再展示’的情況——而是‘我們還沒準備好就提前展示了’。”原本,蘋果計畫在 iOS 18.5 系統中推出 Siri 的這些核心 AI 功能,可如今這個時間已延遲到 2025 年 9 月的 iOS 19,甚至 Robby Walker 還坦言道:“這也並不意味著我們一定能在 iOS 19 里發佈。”也就是說,至少目前為止,誰也不能給出一個明確的發佈時間。那麼究竟進展怎麼樣了?Robby Walker 透露,Siri 新功能在目前的測試階段,僅在 60-80% 的情況下能夠穩定運行,遠遠達不到蘋果的產品標準。同時 Siri 團隊還要兼顧蘋果內部的其他 AI 項目,而這些項目的時間節點比 Siri 的 AI 升級更加緊迫,因此公司不得不調整優先順序,推遲部分功能的發佈。此外,在這次 Siri 功能推遲的事件中,不僅是技術上的挑戰。蘋果內部的溝通混亂、部門間的爭鬥以及行銷上的誇大宣傳等問題也一併暴露出來。據悉,在 WWDC 2024 之前,蘋果市場團隊強烈要求宣傳 Siri 的個人上下文理解和螢幕內容分析等功能,可當時這些功能還處於早期測試階段,並不穩定。但市場團隊堅持要在 WWDC 上展示這些 AI 能力,最終導致使用者的期望值被拉高,結果蘋果最後卻不得不食言,將這些功能延期。此次調整由來已久事實上,蘋果AI管理層的調整規劃早已醞釀數月,甚至早於Siri功能推遲的公告。去年,蘋果調派Rockwell的副手Kim Vorrath協助Siri團隊,她以善於整頓和執行有問題的開發項目而聞名。今年1月,她正式轉入AI團隊,成為Giannandrea的高級副手,負責AI項目管理。在過去幾天裡,蘋果又從Rockwell的團隊調來了另一位高級經理Aimee Nugent,加入Siri團隊。與Vorrath一樣,Nugent在修復棘手項目方面經驗豐富。這些變動使Rockwell的兩位得力幹將能夠在他全面介入之前對Siri團隊進行評估。據知情人士向媒體透露,Rockwell在蘋果內部並不掩飾自己對Siri的不滿。他多年來一直向高級副總裁們提出改進Siri的想法,使其更加個性化。最近幾周,他一直在為AI團隊提供建議。即使在管理層調整之前,Giannandrea長期以來就已將Rockwell視為可能的繼任者。由此看來,蘋果Siri換帥早在去年就已經初見端倪。這也再一次凸顯了蘋果所面臨的困境:本來庫克的想法應該是在大模型的生態位上不做基建,而是要在手機和應用端獨佔鰲頭,但事實表明:不僅該公司的AI技術已然落後於行業競爭對手,而且就連自己擅長的手機應用也沒有如期做到。對比國內華為的小藝,Oppo的小布,可以說擁有著頂尖研發團隊的蘋果,是該反思一下蘋果AI一再跳票的原因了。 (51CTO技術堆疊)