AI手機的未來,蘋果和谷歌選擇走同一條路
AI未來指北課代表系列-AI大事兒最全、最快拆解
本文將深度解讀蘋果公司透過推出Ferret UI模型,旨在創建一個AI Native的手機系統,以應對AI新硬體的挑戰,並與Google的ScreenAI模型展開競爭,預示著智慧型手機作業系統的重大變革。
離WWDC還有兩個月,蘋果的「AI大計畫」也越來越清楚了。
4月9日,蘋果發布了一篇最新的論文,推出了一個叫做Ferret UI的新模型。這項模型的技術本身並不複雜,但是它所指向的是一場真正的手機AI革命。
在AI異軍突起的2023年,很多人都在猜測生成式AI會為智慧硬體市場帶來什麼變局。甚至懷疑智慧型手機還能適應AI時代的新互動模式。
也由此應運而生了Rabitt R1, AI Pin等多種所謂AI native的硬體。他們透過更好地利用了AI的互動特性和Agent能力試圖挑戰智慧型手機的霸權,用取消手機的方式去取代手機。
反觀智慧型手機一側,卻只能以功能寥寥的端側模型,可有可無的應用來做無力的反擊。其霸主蘋果甚至一度被認為完全落後於AI時代。
但現在它回到了主場,也準備好了智慧型手機可能用來面對AI時代的答案:AI Native的手機系統。
蘋果發了一篇新論文 漏出了它的整套計劃
這次蘋果新發布的Ferret UI是建立在蘋果在其Ferret多模態模型之上的。
相較於其他多模態模型,Ferret在發佈時展示的主要長項是對於影像特定區域和定位點的認知遠遠強於其他多模態模型,包括GPT-4 ROI。
在這個模型裡,蘋果提出了一個有著影像編碼器、空間感知的視覺取樣器和語言模型(LLM)的新架構。它有能力夠處理不同形狀之間的稀疏性差異,因此可以分辨出來自區域的形狀(例如點、線和邊框)。使用者可以基於畫面中具體的區域與大模型展開更深入的對話。
Ferret在十月剛發佈時,業界對其反應並不熱烈,一來因為它的區域識別長處並非當時大模型領域所最關注的問題,二來它只有7B和13B兩個大小,相對於主流大模型太小了。 10月中,矽谷的模型公司還在卷上下文,行內只把它當成蘋果在大模型上的一場試水。
但隨著Ferret UI的推出,Ferret的定位和目標就顯得清晰多了:它就是蘋果準備在新IOS上裝載的模型,至少是其中一個主要模型。
Ferret UI所做的事情就是將Ferret模型本來就很強大的圖片區域識別能力應用在手機UI之中,透過優化,使它能夠更好的識別手機應用程式的介面。並將自然語言翻譯為介面操作點。
簡單來講,就是當你和AI去聊關於手機介面的情況時,它能懂你在說什麼,並且找到具體的元素了。
在之前,多模態大模型(MLMM)去理解手機UI常常會出現錯誤。這主要是因為:
UI介面通常具有更長的縱橫比,基於正常圖片(16:9 / 4:3)訓練的大模型無法抓住其影像全貌。
並且包含許多小感興趣的對象(如圖示和文字),直接應用現有模型可能會失去理解UI介面所需的重要細節。
為解決UI不常見的問題,Ferret UI以Ferret模型為基礎,在其上整合了"any resolution"(anyres)技術來靈活適應各種螢幕縱橫比。整個流程如下:
UI介面大,那就把它分割成幾個小的子影像,以便更好地捕捉UI介面的細節特徵。
分割出來的所有子影像都使用相同的影像編碼器單獨編碼,以獲得最大的資訊度。
最後,把這些子影像的特徵和全域影像的特徵都輸入到核心的大語言模型(LLM)中。
靠著這個「用放大鏡分別觀察」的模式,最終Ferret UI模型就能夠更好地捕捉UI介面的細節資訊。
解決第二個問題比較簡單,缺資料辨識不了, 那就在訓練階段狂餵相關資料。
Ferret UI收集了各種初級UI任務的訓練數據,如圖示辨識、尋找文字、元件清單等。這些任務資料訓練模型精確定位和理解UI組件。同時它也收集了與AI互動相關的高階任務資料集,包括詳細描述、感知/互動對話和功能推理,來增強模型和UI相關的推理能力。
經過了這樣的UI強化訓練,最終的結果就是,13B的Ferret UI在完成初級和高級的UI相關對話後的能力,iPhone環境下在初級UI任務中超越了GPT4-V,在包含高級任務的全任務平均得分非常相近。雖然在安卓環境下Ferret UI表現略差,但這對蘋果來說有什麼關係呢?
經過了Ferret UI的升級,Ferret模型可以完成簡單的定位類別任務(Referring Tasks):辨識UI的邊框,圖示和其中的文字內容。辨識類別任務(Grounding Tasks):給定一個UI相關的查詢,模型需要在介面上定位並標註出相關的元素。
同時它也可以完成更複雜的詳細描述UI構成的任務;根據UI與用戶進行感知對話、交互對話,可以告訴用戶相應位置具體的UI內容是什麼,如何去和該UI進行交互的任務;以及根據UI元素推論這個軟體功能的功能推理任務。
這意味著Ferret UI已經建立起了對於手機應用的功能,操作的相對完整的理解。而且是GPT4等級的理解。
如果只停留在理解這個層面上,Ferret UI的應用其實是有限的。例如視障使用者可以用語言互動來了解UI的位置,或是整合到蘋果本身的圖形辨識系統中增強辨識能力。
但這種理解如果結合上Agent的功能,讓Ferret UI模型可以去基於使用者的自然語言互動操作手機,那一個AI Native的手機系統雛形就誕生了。
AI Native 的手機 而不是AI 手機
在過去的一年裡,如何將AI大模型應用到手機裡已經成了不論是晶片廠商,還是手機製造商最重要的議題。端側大模型,AI手機的概念層出不窮。然而時至今日,晶片廠商和手機廠商們展示的AI大模型能力都還只是停留在手機系統之外。
一種方式就是硬塞一個大模型進去,透過雲端或本地算力驅動。其體驗和Kimi助手,GPT app沒有什麼本質區別,最多就是可以讀取手機上的相應數據,應用相對方便一點。
另一種方式就是將AI能力賦能在其預裝應用之中,轉變成如魔法修圖,短信回復自動生成這種完全無需大模型就能在一定程度上實現的功能。
這樣的應用方式讓AI手機這個概念顯得不倫不類,更像是裝了AI大模型應用的手機。
而真正能夠應對來勢洶洶的AI新硬體的,至少應該是一個適應AI新互動的完全的手機系統。
現在Ferret UI的出現,讓這件事成為了可能。
一個14B以下的,可以直接在手機本地運行的大模型,可以讓你用自然語言控制UI,進行相關操作。如果這項功能整合在Siri上,那麼Siri就可以成為一切App的新入口,只要一句話你就可以控製手機的一切功能,以及所有App的相關功能。這其實和Rabitt R1所設想的一樣。
而且這一次,你並不用犧牲螢幕本身了。在體驗Humane 的AI Pin和其他AI智慧型裝置時,雖然它們確實可以透過自然語言完成幾乎所有的交互,但他們沒有螢幕。沒有螢幕這對於生活在視頻時代的人類來講幾乎是無法忍耐的。另外,缺乏聲音以外的互動方式也使得它們在你對面有人的時候根本不好意思用。
但如果手機能做到這種交互,還有螢幕的話。我們為什麼還會需要一個新的所謂AI智慧型裝置來完成這一切呢?
因此,兜兜轉轉了一年,蘋果應該是找到了AI 手機的真意。如果情況順利,也許我們在兩個月後的WWDC上就能看到原生AI的蘋果手機系統了。而且很有可能是第一款Native AI 手機系統。
Google和蘋果 一場新競爭正式開賽
之所以說可能,是因為蘋果在系統上的老對頭谷歌,其實也做了同樣的路線判斷。
在半個月前的3月19日,Google發表了一個新模型ScreenAI,它和Ferret UI一樣,都是直指UI 理解的多模態模型。它的架構相對簡單,基於Pali,包含兩個組成部分,一個視覺變換器(ViT),用來理解UI視覺;一個T5圖文編碼器,用於對應使用者提問的文字和圖像資訊。
要解決UI問題,基本上谷歌的操作和蘋果沒什麼差別,它把UI介面分割成5*7的小塊去辨識細節,並利用UI相關的訓練集加強模型對UI元素的認知。
雖然沒有像蘋果一樣和GPT4進行比較,但它也和自家的Gemini Ultra在UI任務上進行了比對,也是相差無多。值得注意的是ScreenAI比蘋果的Ferret小,只有不到5B。谷歌也嘗試用ScreenAI串聯Palm2完成高階UI任務,能力足以超越Gemini Ultra。
所以,2024年春天,智慧型手機OS屆的兩大霸主,在AI手機這件事上殊途同歸。強於AI的谷歌和強於系統的蘋果走到了同樣的起跑線上。
現在的問題,只剩下誰跑得快了。
GoogleI / O大會在5月14日,蘋果的WWDC在6月。爭分奪秒的戰爭已經開始了。 (騰訊科技)