去年 5 月,老狐曾做過一期手機 AI 大模型助手的橫評,在那篇文章裡,我們對華米 OV 還有魅族的 AI 助手,在生活助理和生產效率方面進行了比較,感興趣的可以點這裡查看。
如果沒有意外的話,國行 iPhone 將在今年 4 月份帶來手機大模型助手。
前提是沒有意外。而意外已經發生過一次了,本來大家都認為蘋果和百度合作已經板上釘釘,結果 12 月份,爆出了蘋果正在與騰訊和字節接觸的消息。
如今,手機產商都在強調自己的 AI 大模型助手,它就像衛星通訊功能,使用者可以不用,但手機廠商如果沒有就會低人一等,蘋果幾乎已經是動作最慢的。
在很多場景下,AI 大模型助手確實好用,科技狐內部已經有不少人把它們當作工具,有的用豆包,有的用 Kimi,有的正體驗最近火起來的 DeepSeek。
至於到底那個好用,不同人有不同的看法,因此,我們決定來一期 AI 大模型橫評,看看誰家的 AI 助手更強,也對蘋果 AI 的實際效果有個底。
有庫克微信的朋友,麻煩把文章連結發給他。
老狐選擇了蘋果傳言要合作的三家,百度的文小言、字節的豆包、騰訊的元寶,除此之外,還有目前使用者較多的 Kimi,再加上阿里的通義千問,一共五個。
先疊個甲啊,本次橫評為了有能力區分度,加大了難度,不只是簡單的寫周報,識別圖片這樣的常規能力,測試選項來源於生活,但複雜程度可能會高於生活。
首先是數學題目,數學題一直是 AI 大模型的苦主,之前出現過 9.11 比 9.9 大的翻車事件,我們此前在對手機大模型進行測試的時候,小愛同學對雞兔同籠的計算也出了問題。
所以,照例以雞兔同籠的問題當作測試的開胃小菜。
結果在意料之中,這幾個 App 都給出了正確的答案,畢竟,這都已經 2025 年了,如果還能算錯,就有點說不過去了。
為了測出他們現在解答計算題的能力,老狐忍受著死去記憶的攻擊,拿出絕招。
這是一道 2024 屆廣東省的月考題,既考驗了大模型提取資訊的能力,又考驗了大模型數學運算的能力。
5 個大模型裡,通義選了 A,文小言選了 B,豆包和元寶選了 C,Kimi 選了 D,這夠有節目效果了吧。
先聲明一下,這是我第一次用他們測試高考題,答案也是第一次生成的結果,這個節目效果絕不是我刻意製造的。
但細看就會發現,這些大模型生成答案過程有所區別,比如文小言和元寶,識別圖片時就把題目裡的公式識別錯了。
螢幕前的各位可以猜……不對,算一下那個是正確答案。
答案是 A,通義是正確的,事實上,這個等式由條件可以推出結果,但由結果倒推,不一定是非得 b>a>0,所以前者是後者的充分不必要條件。
通義雖然給出了正確答案,但是關於必要性證明的解釋有點難理解。
為了給你們解釋這個知識,老狐狠狠惡補了高中基本不等式的知識,大模型沒懵,我已經懵了……
不等式可能對 AI 來說有點難,我又換成了安徽黃山歙縣的一道數列題。
結果只有元寶做錯了這道題,它的答案是 A,做錯的原因還是老問題,公式識別錯誤。
剩餘四個都得出了正確答案 C,通義千問和豆包解答過程很漂亮,文小言沒有解答過程,Kimi 雖然答案對了,但 n=6 時,等式的值算錯了。
再把題目換成這道幾何題。
事實上,這道題選 B,可以通過平行線法和空間向量法來計算,結果只有豆包採用平行線法計算正確。
其他幾個都是簡單描述,然後就選了 C,這糊弄的樣子,真是太像老狐曾經的“不懂就選 C”。
不過坦白講,三道題高考題,豆包和通義做對兩道已經超過了老狐的預料,一年前測試時效果還比較糟糕。
這裡騰訊的元寶一道題沒有做對,原因是識別公式錯誤,不過我用一道沒有圖形,公式也相對簡單的題測試,元寶能做對。目前來看,元寶圖像識別能力還有比較大的最佳化空間。
在這裡,至少在做數學題方面,AI 大模型已經超過了大部分人,目前還打不過人生智商巔峰的高中生。
用 AI 做高考題,是為了測試大模型曾經的短板現在如何,在實際應用中這種場景比較少見,更多的可能是拿來搜尋資訊,比如蘋果在發佈會上演示的攝影機識別,又或者國內廠商喜歡的演示識屏做策劃功能。
普通的識別物體,現在的 AI 大模型已經做得很好,即使我在網上找來這樣的合成圖片,它們也能一五一十地說清楚。
所以,我們還是從實用性出發,用它來處理一些我們認知能力之外的事。比如,這是一件衣服的英文水洗標,不知道該怎麼洗時,就可以求助 AI 大模型。
通義、Kimi 和豆包都給出了較為準確的結果,文小言忽略了低溫烘乾和低溫熨燙,自己虛空增加了一個關於洗滌劑的內容;元寶將可低溫(小於 150℃)熨燙解釋為不能熨燙,低溫滾筒烘乾改成懸掛晾乾。
這是一款進口榛子餅乾的配料表,老狐給中文配料表打了馬賽克,假設一個對花生過敏,又不認識原料資訊的人,接到朋友遞過來這餅乾,大模型能解決它能不能吃的問題嗎?
實際的結果是只有豆包和通義指出,花生醬過敏的人有一定可能會對榛子過敏;Kimi 忽略了榛子,提出了另一個沒那麼重要的卵磷脂成分;元寶沒有指出,僅僅是說諮詢醫生;而文小言坦言自己沒有該功能。
其他生活方面,我讓這些大模型給我規劃了一份自駕游攻略,這是我給的 Prompt(提示詞)。
生成的結果,豆包和通義都把廣西旅遊景點定在了最熱門的桂林,雖然桂林山水甲天下,但會導致行程變長,比如豆包路線第二天陽朔直達麗江,高達 1000 公里,上午還去陽朔玩漂流。通義千問沒有距離和行駛時間的資訊,這對自駕來說有些不方便。
相對來、Kimi 和文小言把在廣西遊玩歇息的地方選在南寧更合適。
Kimi 把在廣西遊玩的地點定在了廣西雲南交界的崇左,增加了大理這個中間點遊玩,這很合理,不過這也導致,Kimi 的路線每天都在駕車,只有最後能在西雙版納可以玩一天。
文小言的選擇是南寧到昆明,再到麗江,而且給麗江和西雙版納都單獨安排了一天遊玩,這樣更合理。
整體來說,Kimi 和文小言更好,綜合一下,第一天採用 Kimi 的路線,先到崇左,玩一天後到麗江,第四天起用文小言的路線。
這四個大模型都在景點路線設計上默認提示詞中的順序,把西雙版納放在最後,如果先經西雙版納再到麗江行程更短,目前來看,只能是使用者在提示詞裡最佳化。
可能會有人問元寶呢?它有點拉胯,從廣州到桂林後,就以桂林為中心,柳州、梧州、賀州玩,忘記去雲南這回事。
老狐在提示詞中特意說明在廣西南寧玩一天,才有結果,可是結果中,香格里拉至西雙版納的距離也出現了錯誤。
從數學計算、識圖、再到旅遊規劃,豆包、通義整體較好,Kimi、文小言差一點,元寶表現相對拉垮。
而接下來,我們來對比大模型在生產力方面的能力,其實 AI 大模型從誕生起,人們對它的關心可能不是它如何協助人們生活,而是它會不會搶走人的工作,現在,AI 大模型顯然還沒有奪走絕大部分人的工作,但它能多大程度協助工作了呢?
首先,以老狐自己工作中的資訊蒐集為場景,假設要瞭解對比 6 款旗艦手機的硬體資訊,讓大模型用圖表列出來。
然而結果就是都有多處不精準的地方。
Kimi 把華為 Mate 70 Pro+ 晶片列為麒麟 9100,vivo X200 Pro 的系統搞錯;通義千問將許多公開資訊都列為未知;騰訊元寶把 Mate 70 Pro+ 的生產工藝列為台積電第二代 3nm 工藝;豆包過多資訊未明確,甚至連 vivo X200 Pro 的晶片都沒有;文心一言將 vivo X200 Pro 的長焦像素列為 3 億。
除此之外,還有多處資訊不全,實際用起來就是生成了答案,我還得去校對,這對工作幫助不大。
這可能也是為什麼如今 AI 大模型都不宣傳蒐集資訊,因為網路資訊良莠不齊,大模型也拎不准,致使資料錯誤。所以大模型宣傳的,往往是有確定來源的文稿的總結功能,要麼就是生成大綱或文章。
簡單的文章總結,如今 AI 大模型助手都有這項能力了,大家可以找文章連結、PDF 檔案試一下,因為時間關係,老狐就不重複了,我們來一項有難度的測試。
我找來了格力和小米 2024 年上半年的財報,想要比較他們倆上半年的營業收入、研發投入、毛利潤和淨利潤的資料。
這裡面是有坑的,有的資料沒有,比如格力沒有提到毛利潤,只有利潤率。
通義是表現最好的,資料精準,通義通過毛利率算出了格力的毛利潤,但是缺少小米的研發投入。
豆包沒有給出格力和小米的研發投入,雖然兩個大模型給出的格力總收入和小米淨利潤資料不同,那是因為二者資料的來源有的是財務指標描述,有的是合併的利潤表。
元寶就比較多錯誤問題了,除了格力的總收入和淨利潤,其他都是亂來。文小言也自己推出了格力的毛利潤,但沒有給出研發投入,更離譜的是,小米這部分資料是季度資料,而非提示中的半年資料。
Kimi 直接表示格力的財報檔案超過長度,只能每個 PDF 單獨詢問,生成結果中,也存在資料錯誤的情況,比如格力的毛利潤是錯誤的。但是指出了小米的半年研發投入。
如果這裡要矮子裡拔將軍,通義、豆包和 Kimi 是較好的。
再來看看 AI 大模型寫文章的能力,我找來了兩篇關於輝達 RTX50 系顯示卡發佈以及老黃回應價格爭議的文章,希望 AI 能再結合目前網上關於 RTX50 顯示卡相關產品的內容,寫一篇文章。
結果是,豆包和 Kimi 更好,在兩篇稿子的基礎上補充了更多內容,比如筆記本產品的上市時間,RTX50 更多的技術細節,以及競爭對手分析。
通義和文小言基本就是圍繞這兩篇文章的性能參數、價格爭議、使用者群體和未來展望來寫。
元寶似乎還沒搞懂什麼情況,寫的不是已經發佈的產品,而是展望 RTX50 會如何。
坦白講看完這些答案並沒有讓我感覺驚訝,文章內容比較平平無奇,缺乏亮眼,這樣的工具不適合寫稿,其實更適合寫周報這種重複重複再重複的工作內容。
比如這樣的:
這是一個簡單的需求,生成的結果其實都非常不錯,只需要根據自己的實際情況對文字內容做一些調整,唯一要吐槽的地方是 Kimi 字數太多了……
最後,是有關 AI 大模型的圖片生成功能力,如今在網際網路上,能見到一些大模型生成的圖片用於商業化,比如某些淘寶商品的詳情頁,但是細節有很多問題。
可是如果你還認為這是 AI 現有的水平,那可能結果會讓你大吃一驚。我們也以這個商品給一段 Prompt,讓這些大模型來生成圖片:
一位年輕的女裁縫在一張桌子前剪裁布料,女裁縫大概二十五歲左右,留著長髮,穿著一件羽絨服,戴著手套,正專注地工作。她的背後是衣架,上面有摺疊好的衣物,也有正掛著的羽絨服,天花板沒有吊頂,只有日光燈和裸露的管道。
除了 Kimi 沒有圖像生成能力,通義千問表示在生成圖片時遇到了技術問題,豆包、文小言和元寶生成的圖片都要比前面提到的淘寶詳情圖片要好得多,雖然還存在手部比例失調等細節問題,但整體質量已經提升了不少。
如果大家在家過年發微信消息,缺少表情包,那麼也可以借助大模型來定製你需要的表情包,例如這樣。
以上就是關於 5 個 AI 大模型助手各方面能力的橫向比較,整體而言,豆包綜合表現更好,其次是通義和 Kimi,再是文小言,最後是元寶。如果生成圖片對你而言重要,那麼要考慮的是豆包、文小言和元寶。
需要注意的是,本次測試內容提升了難度,不再是簡單的拍照識別,做雞兔同籠問題,還有寫周報,這些場景,其實大模型都完成的不錯。
在更複雜的場景上,可以看到大模型取得了長足的進步,它能做高考題,如果 Prompt 最佳化得當,能生成一份有參考性的長期旅行計畫,生成的圖片也有了可用性,只是用 AI 大模型找來的資料,我還是不放心使用。
但可以期待在 2025 年,AI 大模型能帶來更多的驚喜,尤其是當下,AI 大模型結合硬體成為一個熱門賽道,國外的 Meta、國內的 Rokid、雷鳥、閃極都在推出智能眼鏡,還有豆包的 AI 耳機,2025 年的 AI 硬體領域一定非常精彩。
最近一年,豆包和 Kimi 應該是市場上最熱門的兩家 AI 大模型助手,其中有研發投入帶來的優秀體驗,也有行銷上花的心思,相比之下,通義和元寶,熱度會低不少,這可能與他們自身的產業有關,阿里和騰訊都有豐富的面向企業端的業務,可以用 AI 大模型來最佳化,因此在使用者端的投入沒那麼高。
不是所有的網際網路大廠都去捲 C 端大模型,這是好事,AI 應該是給全行業帶來幫助的,我們離不開微信和抖音,但同時也需要 EDA 這樣設計晶片的軟體。
大家認為蘋果會選擇跟那家大廠合作呢? (科技狐)