【蘋果WWDC】蘋果的大模型衝刺:沒有AI 新產品,只有新功能

AI 技術的進展解決了困擾蘋果軟體團隊14 年的難題——做一個配得上iPad 的計算器應用。

iPad 上沒有計算機嗎?十多年的老用戶也可能一瞬間記憶錯亂,大腦閃現一個iPhone 計算器的樣子。事實上,過去十多年,蘋果平板「電腦」 的使用者如果要算點東西,得掏出手機或下載第三方軟體。

蘋果為第一代iPad 做了計算器,但在發布前一個月被砍掉。 2009 年底,面對創辦人賈伯斯「計算器app 的新設計怎麼還沒來」 的追問,當時的蘋果軟體部門負責人拿出了一個把iPhone 計算器放大到10 英吋的介面——你知道,賈伯斯只會有一種反應。

iPad 發售一年半後,賈伯斯過世。又過了一年,蘋果軟體部門的負責人因為地圖的失敗而被CEO 提姆·庫克開除。接手的蘋果軟體工程副總裁 Craig Federighi覺得商店裡已經很多第三方的計算器,如果蘋果內建一個,就得做成「最好的iPad 計算器」。一等就是14 年。

美國當地時間6 月10 日上午,WWDC 全球開發者大會上,當費德里吉宣布iPad 終於有計算器的時候,在蘋果總部現場的開發者們發出一片歡呼,一開始可能只是意外於蘋果還想著這東西,但隨著演示進行,他們相信蘋果真的拿出了最好的計算器。


iPad 的計算器會辨識螢幕上的手寫數學公式,寫下等號就會出現答案,再調整公式,答案自動改變;列出一組數據,劃一道線,它會自動求和;寫下方程式,它能自動產生圖表。

藉著這個演示,蘋果不僅再次展示了他們對一個好軟體的標準,也展示了他們對AI 應用的理解——不是獨立存在的產品(Siri 除外),只是作為功能融入在具體使用場景中。


使用者導向的AI 體驗:從新Siri 到產生圖片,更重視簡單、有用

到WWDC 主題演講的第65 分鐘,在十多位演講者提了幾次機器學習後,蘋果終於帶出被其稱為個人智慧系統(personal intelligence system)的Apple Intelligence。在進一步說明這套系統如何運作前,蘋果CEO 提姆‧庫克(Tim Cook)提出開發這套系統的五大原則:

  • 強大(Powerful),它必須足夠有用,幫助你完成最重要的事情。
  • 直覺(Intuitive),它必須易於使用。
  • 整合(Integrated),它必須整合到產品體驗中。
  • 個人化(Personal),它必須了解你,並以你的個人資訊為基礎,例如你的日常習慣、你的人際關係、你的溝通方式等。
  • 隱私(Privacy),它必須從一開始就以保護隱私為基礎建構。

在之後的30 多分鐘內,蘋果分別介紹Apple Intelligence 如何在iPhone、iPad 和Mac 三種硬體平台上,從作業系統滲透到各種應用中的四個應用場景:


新Siri:看遍數據,理解你在說什麼

用戶現在每天向Siri 發起的請求達到15 億次。這是一個難堪的數字,這意味著平均每人每天只和Siri 說不到兩句話。 2011 年發布以來,它始終沒有成為一個合格的智慧助理。

Siri 不夠聰明,是因為它的底層技術很大程度是基於規則,用關鍵字篩選使用者的需求,遇到不能理解的問題就直接展示一個網頁。現在藉助大模型,Siri 能夠更準確地理解使用者的提問,而且還可以「讀懂」 使用者iPhone 的操作介面,記住先前提到的內容,更好地處理使用者的需求。

它既可以回答數千個有關如何在iPhone、iPad 和Mac 上執行操作的問題,例如切換到深色模式,也可以在蘋果和第三方開發的應用中執行數百種操作,例如「把周六燒烤的照片發給XXX」;甚至可以自動搜尋郵件、照片、簡訊中的訊息回答問題,例如「播放XXX 推薦的播客」「XXX 推薦的書單是什麼」。


Siri 從圖片、資訊、郵件等應用程式搜尋圖片和特定資訊。

OpenAI 的ChatGPT 也被整合到Siri 中。如果遇到複雜的問題,例如“用鮭魚、檸檬和西紅柿做五種不同味道的菜”,Siri 會提示使用者是否使用ChatGPT 回答問題。 ChatGPT 預設使用OpenAI 最新發布的GPT-4o 模型。


寫作工具:嵌入所有應用,只是助手

蘋果將在iOS 18、iPadOS 18 以及macOS Sequoia 中內建由大模型驅動的的寫作工具,幾乎涵蓋所有涉及文字輸入的原生和三方應用,例如郵件、備忘錄等。使用者可以藉助它重寫、潤飾、校對原文本,但不能憑空產生內容— 除非呼叫ChatGPT。


歸納總結:深入系統,整理各種訊息

首先是對長郵件、文字或網頁的總結歸納,其次是根據用戶描述自動挑選出圖片,配上背景音樂製作成回憶視頻,以及對通話錄音在內的錄音文件轉寫、要點陳列。是的,蘋果終於解決了一個老問題—— 支援通話錄音—— 方案也很有蘋果特色:當用戶開啟錄音時,會自動提醒對方。

這裡提到的「總結」 不限於具體應用,還包括對日常海量通知推播的整理,將系統認為對用戶最重要的資訊放在顯眼位置。


生成圖片:操作直觀,但效果堪憂

只支援動畫、插畫和線圖三種風格,一眼就能看出不是真實場景。蘋果設想它的主要使用場景是與人聊天和記筆記時產生插圖。蘋果更強調可用性,例如在筆記應用程式中產生圖片時,大模型會預設把周圍的文字當作提示詞一起理解,產生符合上下文的圖片。


蘋果本地大模型根據照片和頁面中的文字訊息產生的「超人母親」 圖片。

2018 年蘋果推出捏臉製作表情包的Memoji,這次新增根據文字敘述和照片產生emoji 的功能Genmoji。相較於六年前的Memoji,Genmoji 更容易做出來、但風格不再統一,也少了幾分靈動,更像是你打開QQ 會看到的選項。

左圖是蘋果最新的Genmoji 功能產生的表情,右圖是蘋果2018 年發布Memoji 功能「捏」 出來的表情。


單就功能而言,Apple Intelligence 現在所能實現的並沒有超出其它大模型的能力範疇。蘋果的強項在於多應用和多裝置場景的整合、無縫的體驗,以及基於裝置中的個人資訊去理解使用者指令、輸出解決方案。

根據蘋果的說法,Apple Intelligence 在理解深層個人場景的同時,也會做到對使用者隱私的保護,例如在裝置端處理任務。當聯網以處理需要更多處理能力的請求時,會將其覆蓋於私人雲端運算(Private Cloud Compute)之下。

它也正在開發各種API,讓第三方開發者連結到這個高度整合的系統。這是相對傳統的做法。老對手微軟則打算每5 秒截一次螢幕,「記住」 用戶過去3 個月內在裝置上用過什麼程式、處理過什麼內容。

根據庫克介紹,今年夏天,蘋果會開始測試美式英語版本的大模型功能,秋季上線,一年後支援其他語言的版本。


從本地部署到呼叫GPT-4o,把大模型分成三層

為了實現庫克提到的五個核心選擇,蘋果設計了一個三層的大模型架構,只有在最後一步才會呼叫OpenAI 的ChatGPT:

1.手機、電腦本地運算,小模型、不連網

處理AI 工作時,蘋果會優先使用設備上內建的大模型,並用自帶晶片完成計算。這樣資料完全留在本地,可以保障用戶隱私。不上傳到資料中心運算也可以節省大模型的使用成本。

代價是許多蘋果用戶的手機不支援Apple Intelligence。目前的硬體需求是A17 Pro(手機)或M 系列晶片(平板和電腦)。電腦和平板還好,過去三、四年大部分的產品都可以用。但手機目前只有iPhone 15 Pro 和15 Pro Max 這兩款可用。

關鍵的變數在於晶片的記憶體和AI 算力,它們直接決定了運行大模型的效率。比起iPhone 14 Pro 和iPhone 15/15 Plus 的A16 晶片,A17 Pro 的AI 算力(神經引擎)從17​​ TOPS 翻倍成長至35 TOPS,記憶體容量也從6 GB 升級至8 GB,可以讓大模型即時存取和讀取更多資料。

儘管過去一年蘋果投入更多資源研發效果更強、參數規模更小的大模型,它也無法讓本地運行的大模型在兼顧設備續航和效率的情況下完美處理它設想的各種功能,只能在雲端部署參數更大的模型。

“傳統的雲端伺服器會儲存你的數據,能在你沒有意識到的情況下,以你不希望的方式使用它。而且你也無法驗證那些聲稱沒濫用你數據的公司是否說了真話。”蘋果軟體工程高級副總裁克雷格費德里吉說。

2.私密雲端運算,蘋果自建資料中心、資料不留在網路上

蘋果的選擇是自建資料中心以實現私密雲端運算。根據多家媒體報道,為這個資料中心提供算力的是蘋果為Mac Pro 桌上型電腦設計的M2 Ultra 晶片。

Apple Intelligence 會自動分析使用者的請求是否能在本地運行,如果需要更強的算力,就會呼叫私密雲運算,只把與任務相關的資料傳送到雲端處理,並強調資料不會被儲存,甚至連蘋果自己也看不到這些數據。

除了確保隱私,蘋果用自研的M2 Ultra 搭建資料中心還可以節省成本,它不用花昂貴代價去找英偉達買成品或找博通定制晶片。根據研究機構Semi Analysis 測算,一塊M2 Ultra(2 * M2 Max + InFO-L 封裝+ 192 GB LPDDR)的成本約為2000 美元,不到一張英偉達H100 的1/10。 M2 Ultra 一次可以處理4-6 個用戶調用700 億參數Llama 3 的請求,大概率可以更有效率地運行蘋果自研的大模型——蘋果並沒有公佈它在雲端部署的大模型參數,它在今年3 月發布的自研大模型論文中,訓練出來最大的模型只有300 億參數。

但M2 Ultra 畢竟是為電腦設計的晶片,即使與其他電腦晶片相比有極強的效能優勢,用到資料中心中缺點依然明顯。受限於晶片架構,它不可能像英偉達GPU 那樣透過大規模並聯來大幅增強效能,因此無法運行千億參數或更大的模型完成用戶需求。

3.Siri 接入第三方大模型,從OpenAI 開始

蘋果短時間內很難(也沒必要)做出性能追上GPT-4o 的大模型,所以就有了第三層大模型:OpenAI 的GPT-4o。根據蘋果的演示,GPT-4o 被嵌入了Siri 和大模型寫作功能中。

當Siri 認為一個問題需要GPT-4o 才能提供更好答案時,就會彈出對話框,用戶點擊確認後才把問題、圖片或文檔等信息發過去處理,然後直接顯示回复,不需要跳到ChatGPT應用。

嵌入到寫作功能中的GPT-4o,則需要使用者主動調用,可以從頭編一段故事、產生相應的圖片等。整個流程使用者不需要建立新的OpenAI 帳戶,也不需要下載或開啟ChatGPT,使用者傳送過去的資料和請求也不會被OpenAI 儲存,也不用付費(僅限GPT-4o 的免費功能)。如果用OpenAI 帳戶,則可以關聯、使用ChatGPT 的付費功能,而且蘋果設備中處理的問題就會同步其中。

ChatGPT 不會是唯一選項。克雷格費德里吉說,蘋果未來還會引進其他的大模型。


新技術、舊生意

當所有科技巨頭投入大模型後,Apple Intelligence 是蘋果的答案。

發表會上示範的所有功能都是免費提供。軟體公司、網路公司,在做AI 產品的時候都需要算一下帳,考慮用什麼方式來獲得收入。蘋果沒有這些顧慮,只要體驗保持領先,10 億多用戶繼續買它的昂貴產品,成本就不是問題。

這次蘋果沒有提出什麼全新的大模型功能,從示範中也看不出蘋果自製大模型的表現如何。單就圖片生成,可能不如你現在能用的不少大模型。蘋果的更多工作,花在將大模型拆解為一個個功能,嵌入蘋果生態,能為軟體開發者所用。

蘋果做AI 不晚。它在7 年前發布Core ML 框架,並且在拍照時引入AI——用戶按下快門,iPhone 拍下數百張照片,再利用晶片計算,合成最優解給用戶。但蘋果做大模型明顯晚了。 ChatGPT 2022 年底上線後的反應超過了所有科技巨頭,也包括OpenAI 自己的預期。而蘋果是所有科技大公司裡最難快速回應的。

晚本身不是問題。蘋果基本上從未第一個發明任何新品類,第一台個人電腦、第一部智慧型手機、第一個無線耳機都和蘋果無關。但它總是能抓住小眾新技術向大眾應用擴散的節點,找到正確的產品形態,再用非凡的工程能力打磨出最吸引人的產品,讓一個新的電腦形態為大眾所接受。 Mac、iPod、iPhone、AirPods…蘋果一次次用超級產品加速了技術普及並拿走一個行業裡的主要利潤,成為3 兆美元市值的公司。

蘋果處於推廣新技術的絕佳位置:全球80 億人裡,有超過10 億人使用iPhone,其中數億人用蘋果的耳機、音箱、個人電腦,每年總計花近千億美元買蘋果的互聯網服務。這家同時控制軟硬體和網路服務生態的公司,可以在幾個月時間裡讓一個技術7x24 小時地出現在大多數用戶眼前,如果出問題,影響太大。

蘋果的優點和缺點都因為它的規模,它和使用者之間的信任,沒有第二家公司能這樣整合軟硬體和服務。但它推廣技術越快,就越難承受重大失敗。 Apple Intelligence 明顯從安全上做了諸多限制,無論限制圖片產生的類型,還是用自己的處理器建構私密雲端運算,都有這方面考慮。

一個快速發展中的技術,需要試誤才能進化。如果AI 大模型未來沒有重大突破,接下來只是降低成本、打磨應用場景,蘋果iPhone + AirPods 的生態幾乎無可動搖。但如果GPT-4 只是開始,蘋果的問題才剛開始。(晚點LatePost)