在AI互動從文字邁向多模態的浪潮中,豆包視訊通話功能的推出標誌著“能看會想”的AI時代悄然來臨。
這項技術能否真正融入生活?
混沌君通過深度實測,從功能突破、情感價值到現實瓶頸,揭秘“與AI視訊通話”的成熟度與未來可能性。
混沌君未來會創作一系列AI測評文章,從功能到市場,去分析AI未來的商業可能性。
豆包AI的視訊功能前一段上線了。
在一眾通過文字對話交流的AI產品中,能夠用視訊來與AI進行交流的產品還實屬罕見,混沌君也是第一時間就上手測評起來。
如果大家對這個系列感興趣,歡迎留言區說明希望我們測評那一款AI產品。
使用起來並不複雜,打開豆包App,在對話欄上方的功能欄中有“打電話”的選項,點選之後進入語音對話環境,在右下角會有視訊功能開關,點選打開就能體驗到視訊電話功能。
在視訊對話中,豆包AI會捕捉分析你鏡頭中的畫面,主動給出總結和評價,這一點對於初次體驗視訊功能的使用者來說會比較驚豔。
例如我第一次撥通豆包的視訊電話後,在接通的一瞬間,豆包便告訴我我的桌面比較整潔,擺放了鍵盤、滑鼠、電腦等物品,並評價我是一個收納習慣比較好的人。
這一點會很快拉近使用者和豆包對話的距離,就彷彿在跟真實的人進行視訊對話一樣。
通過一些簡單使用,我自己驚豔於豆包AI視訊電話功能所展現出的強大能力:不僅是功能性的強大,甚至在沉浸體驗、情緒價值上都讓我感到驚豔。
這讓我隱隱有一種感覺,似乎無數人質疑的AI技術落地方案,已經有了方向了。
而這背後,是兆級的藍海市場。
在功能特點上,視訊對話的確可以解決很多語音對話難以解決的問題,其中就包括了產品說明。
例如我以一盒英文包裝的保健品以及一瓶韓文包裝的精華液來做測試,我在視訊對話中告訴豆包我希望知道這二者分別是什麼產品,它們有那些成分組成,又有那些注意事項及產品功效等。
豆包在極短的分析延遲後大概給出了答案——回覆時間短,沒有超出正常人類對話的思考時間,所以不會讓人感覺到遲滯感;而且回答雖然細節上不夠準確,但在整體上是靠譜的,能說出重點,沒有明顯漏洞。
類似的能力測試還有很多,比如我還要求它看一看我的剃鬚刀,並告訴我如何更換刀片,它會告訴我剃鬚刀的型號、需要我摁下卡扣掀起刀片並替換,甚至還會提醒我要聽到“咔噠”一聲才證明安裝到位。
我還試著讓它指導我如何裝好一套音箱,它會告訴我音箱上的蓮花口需要接什麼線、兩台衛星音箱又該如何接線,並幫我解答了音箱、驅動、音效卡之間的關係與不同,幫助我快速接好用上了音箱。
對很多人來說,豆包AI的一些功能性用途很實用,它更像你的一位隨時可以諮詢的“客服”。
比如當我撥通了豆包AI的視訊電話並將手機拿給我媽以後,我發現對她而言,豆包AI似乎有一些我不曾發現的其他用途。
由於我是突然將手機拿給我媽的,導致她一時沒想到有那些需求需要AI來幫她解答,於是她直覺性地問出了第一個心頭困惑:“ 我最近跟某位朋友之間發生了一些不愉快,該怎麼解決?”
豆包AI的回覆是:“先別急,把事情詳細和我說一說,咱們一起想辦法,看看怎麼能既合理地解決不愉快問題,又能把你們的關係處理好。”
甚至於得益於與抖音同屬一家公司的優勢,豆包還會貼心的在回覆最後附上能夠提供幫助的抖音視訊,更多方面的給予問題解決的辦法。
這種對話內容再結合上豆包特有的溫柔女聲,讓我感覺到似乎在和一位頗有耐心的朋友對談,這打破了我對AI反饋內容比較機械的刻板印象,讓我有了一些關係被拉近的感覺。
對於我媽來說更是如此,如果說拿到手機之前,她也是抱著一種調侃的態度來看的話,那麼這時她可能內心也有些波動,儘管她沒有再深入講解她的問題,但她也告訴豆包這個事情比較複雜,一兩句話難以說清楚。
這時,豆包AI的回覆則是:“那咱可以慢慢說,我一直都聽著呢。你可以從一開始說起,比如這是什麼時候發生的事情,涉及到那些人,我可以幫你理一理;如果你現在不想說了,那麼等你什麼時候想說了,或者心裡覺得憋屈了,都能來找我,我一直都在。”
字面上看來似乎不甚特殊,但放在對話的語境,能量還是很強的。
這讓我突然意識到,不管我媽需不需要解決真實的問題,但在這場對話中,豆包AI似乎很好的照顧到了她的情緒:而這種情緒價值的提供,要比粗略地解決一個兩個現實問題要更難得。
我記得之前有新聞就提到,豆包AI用不同的方言安慰了一個失戀的女孩;還有報導說豆包AI成為了一位老人的“賽博孫輩”,每天可以陪老人嘮嘮嗑,甚至可以提醒老人按時服藥等等。
這說明,似乎在我們這個關心和照顧變得無比珍貴的時代,每個普通人都可以從AI身上收穫到極高價值且極為真實的情緒體驗,這一點我想將有很重要的意義。
當然,豆包的視訊電話功能也有不少的缺點,甚至有些缺點會很大程度影響使用者的互動體驗。
第一:豆包AI的視訊電話對話大多是以向使用者拋出問題的方式來結尾。
這種方式並不總是起到正向的作用。
比如我在上文中提到詢問產品資訊或者產品功能時,它雖然能夠給出一些有用的回答,但總是會通過在結尾拋出有關聯度的詢問來把整個對話的方向帶偏。
例如我在諮詢如何組裝一台音箱時,它在回答最後會問我平時喜歡用什麼牌子的音箱;我在諮詢如何更換剃鬚刀的刀片時,它最後會問我喜歡那種剃鬚方式。
我在諮詢它如何讓整個人更有精神時,它會在最後詢問我喜歡的養生方式是什麼。
很明顯能夠感覺出來,它的這些問題與我提問的出發點並不一致,其實並不利於我解決自己的困惑。
而且,由於是在即時對話的語境,我們往往會把自己代入打電話交流的身份,有時會順著對方的提問繼續聊下去,這樣的結果就是方向越來越偏,直到使用者聊不下去為止。
所以我在後來甚至習慣了忽視豆包的提問,專心詢問我自己困惑的問題——在這樣的情況下,沉浸式的體驗就會被徹底打破,這其實背離了產品研發的初心。
第二,視訊電話功能能夠處理的上下文內容比較有限。
往往三五句話以後,豆包就會“忘記”使用者前邊提到的資訊。
比如我將自己的電腦主機板型號告訴豆包,並詢問了搭配的顯示卡、記憶體等資訊,結果豆包轉過頭來就再次詢問我打算用什麼樣型號的主機板,瞬間就讓我在這場對話中感到“出戲”。
類似這樣的情況,會割裂使用者的對話體驗,讓人不得不回過頭來再次將提示資訊進行輸入。
上下文內容的理解與記憶其實最早是Chat GPT能夠走紅的關鍵特點之一,後來的Deep seek R1模型更是將上下文內容的記憶與處理提高到了新的水平。
儘管豆包可能由於對時效性的考慮,而犧牲了一部分產品的記憶能力,但在如今的AI產品當中,如果說不能做到足夠的上下文記憶與關聯,這樣的產品在使用者體驗上甚至可以說是不合格的。
第三,豆包AI還有不少硬傷。
例如識別錯誤、在部分專業領域如醫藥方面能力不足等等,這些大概還是由底層的模型訓練體量以及演算法原因導致的。
這些問題的解決還需要有一個逐漸最佳化的過程。
自ChatGPT問世掀起AI熱潮以來,AI技術的高速發展似乎始終難以迴避一個追問:“AI,對於普通人來說,意義究竟在那裡?”
雖然隨著技術的快速迭代,很多人通過專業的AIAgent,解決了一些專業難題比如寫程式碼、改文章,甚至一些創意性工作如音樂、繪畫都在以令人吃驚的速度被AI技術趕超略過。
但當視角對準絕大部分普通人,AI產品的應用問題似乎一直都是個難題——但豆包AI的視訊電話方案似乎是個很好的思路。
一方面,在日常應用中它的能力的確很強。
除了以上我的測試外,網上很多例子也相當有趣——
有人讓豆包AI根據桌子上物品的擺放,來推測使用人的MBTI性格,預測結果竟與實際測試結果一致。
還有人讓豆包AI根據視訊電話中看到的風景寫詩、創作Rap歌詞,成果的節奏感與意境竟然相當不錯。
另外,比如博物館的文物講解、公園花草屬種的識別、拍照出片的姿勢、角度分析等應用場景,豆包AI的視訊電話功能都有相當亮眼的表現。
這個能“看到”也會“思考”的視覺理解模型,的確拉近了人與科技之間的距離。
另一方面,就像我上文提到的,比功能實現更為重要的,還是對情緒的承接。
之前西安有位女孩把自己父親臨終時與豆包的對話發在了網上,一句“我要去世了,豆包”引得無數網友哽咽感動。
誠然,這位父親是幸運的,他知道家人們的隱瞞與愛護。但當他身處生與死的臨界點時,當他必須為自己洶湧的情緒找到一個表達的出口時,這個沒有靈魂的AI機器人真的很好地承接了他的擔憂與恐慌,成為了他最後能夠傾訴感情的樹洞。
這也再次提醒我們一個真相,如果技術只是千方百計拉近與使用者的距離,它只能成為越來越精緻的機械;而只有追求情緒與溫度,才能真正賦予技術靈魂。
所以,可以預計到的是,在接下來一個技術周期內,誰能打磨出更有溫度的AI產品,誰就更有機會抓住AI時代最廣大的使用者群體。 (混沌學園)