到底什麼是AI PC、AI手機?



AI PC和AI手機出現的來龍去脈。

相信大家現在每天常常可以在報章媒體上看到「AI PC」、「AI 手機」 這兩個字吧?特別是財經新聞,這幾個月時不時就可以看見哪一檔股票又因是AI PC 概念股上揚之類。有的報道中甚至表示2024 年是「AI PC 元年」。

你會不會好奇,這些大廠或是報章雜誌整天在喊的AI PC、AI 手機, 到底是什麼?他們跟一般的PC、手機,又差在哪邊?這篇文章就是要用最通俗的方式告訴你,AI PC、AI 手機,他們為什麼會出現的來龍去脈,以及未來可能的發展方向。

顧名思義AI PC、AI 手機就是可以運行人工智慧的PC 跟手機。但沒有這麼簡單,不然現在就算是一台配備普通中低階手機,不都可以透過app 或瀏覽器,用上ChatGPT、Bard 或是DALL-E、Midjourney 等AI 了嗎?

現在大家在喊的AI PC、AI 手機,最簡單的定義就是「不用連網,就可以在本機端運算AI 模型的PC/手機」。

相信就有的讀者會問了:「跑AI 模型?那不是有GPU/顯示卡就可以跑了嗎?」理論上沒錯,其實有一張不錯的消費級顯示卡,就很夠拿來跑許多一般中小型AI 模型了。

不過,這是不考慮一台電腦效能功耗比的狀況下所得出的結論。現在大廠們喊的AI PC、AI 手機,其實就是裝了NPU(神經網路處理器)的PC/手機。

這裡跟不太熟的讀者們稍微科普一下:我們現在所熟悉的AI 模型,像是前面提到ChatGPT 或是DALL-E,背後通通都是「神經網路模型」所寫出來的,這是一種模仿人腦的系統,人腦中我們是使用神經元接收、發送訊息,而在神經網路中,是使用數學上的模型來模仿這種行為。

NPU 就是專門拿來算神經網路模型的晶片,單一「塊」NPU 跟一塊GPU 的算力,當然是GPU 強,但單一「塊」NPU 的成本、能耗又小又便宜,拿來跑AI模型的話可以好好分擔GPU 的工作量。

簡言之,就是Intel、AMD、高通以及聯發科這些大廠看準了未來AI 模型會走進每個人的電腦與手機裡,紛紛推出了“CPU+GPU+NPU”的架構,反正多多益善,何樂不為?但為什麼會是「現在」2023-2024 之際,這些大廠才推出這種三層運算架構的產品呢?

一言以蔽之:大型語言模型(LLM)。更精確的說,是Meta(Facebook)在消費市場上開了這扇大門。在ChatGPT 掀起生成式AI 的狂潮之後, 眾多科技大廠(特別是網絡跟軟體這端) 開始猛起直追, 紛紛加大投入大型語言模型研究。在這些大廠之中,Meta 比較特別,走了一條開源的路,把它的LLM“LLaMA”讓各機構提出申請,以非商業授權使用。

不過說來也很崎嶇,LLaMA 沒幾天就意外外流,讓有意的用戶都能下載到使用,再過幾天事情快速發酵,陸續有人把容量比較小的LLaMA 裝在Mac、Google 手機Pixel,甚至還裝在Raspberry Pi 4 上,大家瞬間了解到就算技術上還有很多待突破的地方,但要把LLM 裝在終端裝置上,是可行的。也是從這一刻起,Meta 主動意識到大有可為,在隨後7 月發布新版Llama 2 第一時間就宣布已跟高通攜手,要把Llama 2 積極帶進智慧型手機、 PC 等終端裝置。

再說通俗一點:這波AI PC、AI 手機風潮,是被Meta、高通有意帶動起來的。高通去年也憑藉著這股底氣,用Snapdragon X Elite 正式向蘋果、AMD、Intel 下戰帖,不然像AMD,也是早早就有Ryzen AI 擺在那邊。

不然NPU 說白了也不是全新玩意,像是蘋果很早就開始在用了,早在什麼時候呢?早在2017 A11 Bionic,那還是iPhone 8 就有非圖形專用的神經處理單位。然後蘋果不管是在手機、電腦,只要是自己研發的晶片,每年都越塞越多顆NPU,理論上他們才是AI PC、AI 手機的鼻祖。至於非消費者端的部分,Google 就更早了,早在2015 年Google 就開始偷偷把自己設計的TPU 用在資料中心。

那到底AI PC、AI 手機會是真主流,還是只是另一場泡沫?這是一個很難現在就用yes 或no 二分法回答的問題,其一是因為這個問題,其實已經在2018 年「計算攝影」(也就是AI 優化手機照相)時被問過一次了,事後證明NPU 確實被越來越多開發者重視,但消費端反而還沒那麼(在表面)重視NPU 的表現。

但筆者認為,不妨從幾條軸線來觀察AI PC、AI 手機的發展:一是觀察LLM 的壓縮率跟硬件什麼時候到達“甜蜜點”,像是手機存儲器的部分,普遍都需要24GB 以上才夠運行LLM(但現在的主流規格只有8~16GB);軟體這邊去年已經有非常多研究單位,在壓縮LLM 上有豐碩的成果(最著名的就是SpQR 法),就看雙方什麼時候可以耦合。

二則是觀察開發框架的發展速度,像是蘋果最近就推出專為Apple Silicon 晶片進行優化的深度學習框架“MLX”,經開發者證實,MLX 在跑模型時已經優於自家的MPS,且跟與CUDA 的V100 PCIe 相比也不遜色。蘋果自家開發框架的表現相當快速、優異,至於一般PC 這裡,就要看有沒有同樣出色的開發框架出現了。(半導體產業縱橫)