CES觀察:AI無所不在,但大語言模型的主要應用場景仍停留在聊天

2024年的電子「春晚」的CES落幕了,四天的展覽吸引了超過13萬觀眾的參與,恢復了疫情前的繁華。很多展台之前都排起等待參觀的長龍,人潮洶湧。那些吸引最多人流的月台往往都有個明顯的標籤——AI。

在展會之前,Moor Insights & Strategy的資深分析師Anshel Sag就表示,“在去年的CES上,AI還沒有權力開火,如果你認為AI是去年的浪潮的話,那今年它就是海嘯。”

AI確實如海嘯般洶湧的捲過CES的會場。電腦廠商從聯想到ROG,家電廠商從三星到海信,汽車廠商從賓士到大眾,幾乎每家大企業的展台中都有一個或大或小的區域專門介紹AI方面的升級。

然而實際體驗下來,從電腦到小家電之間,AI化的程度存在著不小的差異,但對於席捲全球的大語言模型而言,幾乎所有的產品都只能算是淺嚐輒止。只能說有了,但很難說它和產品已經有了比較成功的融合。

這次騰訊科技將根據CES現場的觀察和與廠商的交流,分別針對AIPC、手機端AI、AI上車、家電AI化和機器人這幾個本屆CES上AI相關性最高的領域逐一進行闡述。


01 AIPC:現階段只是能用AI的PC

業界認為,2024年將成為AI PC年,從聯想到Intel今年都在講AI PC的故事。但在今年的CES上,我們看到的更多是像HP Spectre x360 14一樣只是裝載了AI晶片的PC;或者是如戴爾XPS 13、聯想Yoga Pro 9等,在PC上多設置了一個直接喚起Windows Copilit的按鍵而已;走得最遠的,是聯想在端側直接內建了AI NOW大模型能力的嘗試。

正如聯想CEO楊元慶在CES過程中的訪談中所說,當下的AIPC還處於AI Ready的階段,也就是把硬體提升到支援大語言模型的階段。而現實是,更好的產品AI化體驗和AI應用的成熟的AI ON階段還沒有完全到來。


「DELL XPS 13上的Windows Copilit按鍵


02 手機AI:半年前發表會上的餅剛熟

手機上的AI與系統融合進度也相對緩慢。

在CESGoogle的攤位上,到處都有AI的身影,但還是和半年前Palm 2發表會上所帶來的驚喜差距不大。

如魔法相機,使用者可以移動照片裡的物件或更換環境光色;智慧回覆功能:你可以讓AI替你回電或自動產生幾種不同情緒和態度的回覆文字。

當有人問Google站台的工作人員「Bard現在有內建App嗎?」以及「Bard能否關聯到手機的本地資訊?」時,得到的答案都是否定的。

這也許是因為手機算力的限制。本屆展會上Google用來展示其AI能力的設備主要是其最新的手機系列Pixel 8,它所搭載的Tensor G3雖然在AI能力上做了一些提升,但相對於競品的蘋果A14或驍龍Gen8 3在效能上仍有很大差距,預期能本地運作的大模型參數不會超過4B參數。

至於Youtube AI幾個月前宣布的創作工具,我們在CES展會上能看到的仍是只能作為影片示範的beta版本,且三項示範的功能分別為智慧聲音降噪、智慧分辨音樂節奏點和智慧字幕,確實有些新意不足。它的主要競品剪映在至少一年前就上線了這三個功能中的兩個。

其他手機廠商在系統中展現的AI能力也都比較平庸,ROG Phone 8 Pro主推的AI功能也是AI自動產生壁紙,人工智慧降噪這些不痛不癢的應用場景。


谷歌在CES上的智慧回應功能展示攝影:騰訊科技


03 汽車AI:上了車,但還沒完全起步

在汽車領域,AI融合的階段和PC相對類似:大模型上了車機,但主要的應用還是作為語音助理。它可以調用起地圖、娛樂系統等車上應用,但這也是大模型上車之前那些NLP語音助理就已經擁有的能力。

AI上車最簡單粗暴,拿來主義的方式就是接取現有模型。這種模式的核心範例就是大眾汽車,其最新的ID3、4、5系列將是第一款接入ChatGPT的汽車。BMW汽車也類似,只不過接入的是亞馬遜的Alexa 大語言模型。

除了簡單的AI上車機之外,賓士對AI的調教相對走得最遠。它在CES最新發布的車機系統MBUX是基於MB.OS作業系統打造,具有四個「性格特徵」:自然、預測、個性和同理心,可以和使用者像朋友一樣交流。

雖然賓士未透露該模型的合作方,但這些描述能讓人首先想到Inflection AI(它是一家同樣強調有同理心的AI助理的大模型公司,是OpenAI的主要競爭對手之一)。但賓士並沒有開放MBUX的實機測試,因此也無法評估它的實際體驗到底如何。

高通在它驍龍數位底盤概念車系統展現了AI與汽車客製化結合的更具體範例。這款系統提供了基於Llama2和Whisper的純端側大模型能力,除了一般的對話娛樂功能外,AI的客製化展現在它對車況的了解上:當你的汽車出故障的時候,它能語音告訴你故障顯示的意思和準確原因,而且還會給你建議最近的維修店地址。

但這了解似乎主要出自於某種故障排除手冊,而非對整車狀況的即時監控。所以雖然進行了融合,但還只是最初步的融合,很難帶來真正體驗上的提升。


在高通車系統上,AI調出的故障手冊 攝影:騰訊科技


04 家電AI:撐不起大模型的硬件,用助理機器人做外掛

在家電領域,AI和家電功能性的融合的點更多,整體邏輯也更成熟。但很主要來自於先前智慧家具能力的升級,而非對新誕生的大模型的應用。原因其實很明確:對於一款主要功能並不是和用戶聊天的家電產品來說,要用高成本的AI晶片來接入大語言模型實在太不經濟。

例如AI口號喊得最響,乃至打出了「AI for All」招牌的三星,在CES展出了AI融合明星產品BESPOKE冰箱:它的AI融合點在擁有一整套Family Hub智慧系統,可以透過內建相機+影像辨識AI冰箱內的物體,提醒使用者食材數量大概還能食用多久, 還可以透過選擇幾種食材在社群中為你推薦相關食譜。然而這些功能中能和AI掛鉤的就只有影像辨識部分。至於看起來很AI的對話功能則是透過它內建的語音助理Bixby完成的,這個系統初代版本可以追溯到2017年,和Siri、微軟小冰的定位一致,是當時很流行的手機語言支援系統,在家具智能化的大潮之中逐漸普及到三星的家電用品上的。

考慮到當下的家電晶片算力,也許它會在未來幾年內與大語言模型產生結合,但在現下的版本中它應該還是由NLP專家模型主導,只能有效回答固定的命令。


三星的BESPOKEN冰箱攝影:騰訊科技


三星的另一款不那麼受關注的產品更好的顯示了AI處理能力與感測器融合的傾向:BESPOKE AI洗滌一體機,這台洗衣機可以根據其內置的重量、視覺、濕度傳感器去判斷需清洗衣物的質料、量和污濁程度,再將這些資訊傳輸給AI系統以調控水量、溫度、清洗強度和時間。AI在這裡和更多的感測器融合,獲得了更全面的感知能力,進而能做到更複雜的控制。但和BESPOKE冰箱一樣,它的對話和控制系統也不是基於大語言模型的。

另一個AI化傾向明顯的產品領域是電視。LG、三星、TCL、海信等電視品牌今年都推出了AI晶片驅動的電視。AI帶來的一個主要能力是Upscale,也就是畫質升格。LG,三星的電視今年都支援將4k畫質提升到8k畫質。這項功能對於目前在主推8k電視的高階電視品牌來講確實很有價值,因為現有串流媒體中8k片源非常稀少,買了8k電視也沒有用武之地。這最新的畫質升格技術確實用到了深度學習和GAN神經網絡,因此必須藉助AI晶片才能達成。但它依然和大模型的關聯也不大。

以上的這些產品都在應用層邏輯上找到了與AI能夠結合的方向以及可適用的場景,但都還沒在應用到大語言模型。

但有一個現象值得關注:這些電廠商陸續開始推出私人助理機器人。

在這次CES上,LG推出了Q9機器人,三星則是針鋒相對的升級了Ballie機器人,定位都在家庭私人助理。在兩個廠商的講解和展示中可以確認這些機器人都確實裝載了大語言模型;他們能夠完成相對複雜的交互,理解乃至透過感應系統預判用戶的需求(比如你在健身時從站著變成橫躺,那它就會把投影投向屋頂),並可以調用智慧家庭中的其他一切設備用最合適的方式來完成用戶的需求。

這可能是家電廠商對AI智慧化成本的解決方式:與其所有的產品都使用高成本的晶片,不如就做一個統合助理來呼叫所有智慧家電產品。

除此之外,據兩家廠商宣稱,它還可以透過學習使用者的個人習慣和偏好,來更好地做出適合其情感或生活需求的判斷,而這項功能目前連ChatGPT都還做不到。

這兩款機器人目前都是概念階段,例如Ballie,從它2020年第一代展示到現在從沒有任何發售的跡象,但它們展示出了是當AI Agent實體化後所能給我們生活帶來的改變。

這也是我們在這場展會中看到的最接近AI真正融入電子產品後的一種樣態之一。


三星攤位上的Ballie在投影食譜影片攝影:騰訊科技



05 機器人AI:大模型還在實驗室裡

今年CES的機器人展區中的機器人很多,但並沒有出現藉由大模型訓練的機器人。這本來是今年學術界的一個熱門方向,如今年李飛飛團隊帶來的基於語言模型訓練的機器人RT2,斯坦福大學另一組團隊做出的火爆全網的AI機器人,都能自主學習,完成多任務。但可惜的是,他們應該都還在實驗室裡。

在CES展區中,有來自Richtech Robotics的雙臂機器人ADAM,這引來微軟CEO Stella圍觀的開普勒人形機器人和宇樹科技的H1人形機器人這樣偏向傳統意義的動力型/ 工業型機器人,雖然在彈性程度和機械協調性上表現的更加出色,但和這波AI浪潮的關聯性並不強。其智慧處理能力主要來自於程式設計或傳統機器學習方法訓練,而非大模型。


微軟CEO Stella參觀CES上的開普勒人形機器人



06 CES上,我們能看到的四個趨勢

毫無疑問,在本屆CES上,AI與各種場景的融合都在加深,這種融合從各個方面都在提升智慧產品的能力。但帶來AI浪潮的大語言模型在其中扮演的角色卻不那麼重要,目前的階段,只是將生成功能簡單地平移到各個場景中去,而非深度融合。

儘管如此,但本屆CES毫無疑問是應用層面上將大語言模式從網頁、手機上進入實體生活的第一次地集中展示,同時也給「生成AI 融合萬物」的未來期許開了一個好頭。從這些「實體化」了的AI中,我們能夠一些未來潛在的趨勢。

趨勢一:感測器與AI的深度結合

在現有的大語言模型中,AI所獲得的資訊大多來自預先訓練的文字或圖像。但在實際生活用例中,場景中的資訊是較之影像、聲音和文字更多樣化的,例如溫度,重量等。部分感測器提供的是圖像或圖像資訊的抽象(雷達),是可以被多模態模型直接應用的;而更多感測器提供的是多元環境數據信息,對整合文字、聲音、圖像、視頻這四個最主要人類感知資訊來源的多模態模型提供盒子更多了環境資訊的補充。有了感測器的結合,AI才有了真正的環境理解能力和在場性。

目前的大語言模型在這方面的實踐還很初期,雖然它可以理解用戶的部分意圖並作出判斷,但環境訊息的接收有限,能將環境和應該做的操作聯繫起來的路徑還沒建立。這也是為什麼它在當下和產品結合時更多讓人感覺飄浮和分離的重要原因之一。

從三星BESPOKEN洗衣機那裡,我們可以想像當大語言能夠真的依靠感測器在多模態的應用上取得進一步突破,我們將進入一個全新的智慧化領域。

趨勢二:AI的進一步偏好個人化

今年的CES上很多車機或家電公司都強調要透過AI帶給用戶更個人化的體驗,不論是在情緒還是在生活偏好上的體驗。但當下的AI個人化在很大程度上是基於AI對文字表達需求的理解上的,但許多人的偏好可能是透過行為,而非語言表達的。只有在具體的需求情境下,AI才有可能透過觀察人類行為的資訊並推論出相應的偏好。這是創造一個真正的理解你的個人AI助理的核心需求之一。為了達到這個目的,AI的發展會在後續持續向這個可能性進發。

趨勢三:AI Agent作為一個統合的入口

今年在CES上最熱門的AI產品就是Rabbit R1,它的底層邏輯就是透過AI Agent的能力將某一個應用或裝置變成所有應用的入口。


Rabbit RI


這個邏輯其實和亞馬遜的Alexa,上文提到的Ballie、Q9智能家居助手都很像,用一個AI系統調起所有自己支持的API(智能家居,車輛能力),並成為用戶意圖和多產品功能之間的中繼站。

在騰訊科技在CES期間對高通副總裁Zarid Asghar的專訪中,他也認為AI在後續發展中會成為作為一切應用的入口,由此誕生出新一代的AI智慧型裝置。

Rabbit R1 正是走在這條路上,我們認為,這也將成為後續AI智慧型裝置發展的主流方向。

趨勢四:發掘大語言模型聊天之外的潛力,找到更具體的場景應用

大語言模型在語言互動、知識檢索之外有一個很強的泛化能力,即統合資訊進行預測。

當這些資訊是一些非語言,或是我們難以理解的語言時,預測在很大程度上就成為了翻譯。例如很多科學家試圖利用大語言模型來理解鯨魚、狐狸的語言並且取得了一定的效果。

今年的兩個非常有創意的AI產品都是基於大語言模型這項能力的使用的。例如獲得了CES今年創新大獎的Anura MagicMirror,它就是透過其情感技術DeepAffex識別並分析人的臉部血流,將其轉譯為包括血壓各種健康指數,並預測患病機率的產品。


Anura MagicMirror

另一個更直接利用這種轉譯的產品是Cappella,其手機應用程式可以基於大模型「翻譯」寶寶的哭聲,告訴你他們是餓了、不舒服、累了還是需要換尿布。Cappella聲稱,利用人工智慧和機器學習來解讀嬰兒的需求,其技術的準確率約為95%,而對於試圖猜測嬰兒需求的人類來說,準確率約30%。

所以,其實除了聊天之外,大語言模型邏輯下的AI,還是有很多應用邏輯和場景有待發掘。期待在明年的CES上,會有更多企業能發現這些可能性,讓AI真正進入數位裝置。(騰訊科技)