從DeepSeek到豆包手機助手:中國AI下一程何去何從?

在中國AI發展史上,2025年註定會是里程碑式的一年。

1月27日,DeepSeek憑藉發佈僅一周的開源推理大模型DeepSeek-R1,在蘋果應用程式商店中國區和美國區的免費榜上雙雙獲得第一,震驚世界。儘管隨著千問、豆包等大模型的崛起,DeepSeek在很多排名中不再名列前茅,但其貢獻將永載史冊。

12月5日,張亞勤教授在人文清華講壇演講時說,DeepSeek在演算法、技術、系統架構上都有創新,它用1%的算力就可以達到和美國前沿大模型相似的能力。“DeepSeek出來之後,咱們和美國的差距可能就從之前的2~3年縮短到2~3個月,而且在有些應用方面,我們可能做得更好”。

中國網際網路從1995年左右起步,先後經歷了PC網際網路、移動網際網路和物聯網時代。張亞勤認為,現在進入了智能體網際網路(Internet of Agents)的新時代。所謂智能體(Agent),就是具備自主智能的系統——你只需要給它設定一個目標,它就能自主規劃任務、不斷迭代,甚至自我試錯,最終達成目標。這非常像人類的行為:有個目標,自己就會去規劃路徑,依靠各種記憶和判斷去實現。

未來已來。12月1日,字節跳動豆包團隊發佈了“豆包手機助手技術預覽版”,通過和中興通訊努比亞手機合作,展示了一系列驚豔表現——豆包手機助手根據使用者指令,可以在多款App應用之間自動跳轉,完成查票訂票、商品多平台比價下單、定製出行攻略、批次下載檔案等任務,完全自動化執行。

智能體網際網路真的來了?毫無疑問,是的。

智能體網際網路的“Aha moment”

手機助手本身並非新生事物。2011年蘋果就發佈了siri,使用者可通過語音指令完成資訊查詢、電話撥打、消息傳送、裝置尋找等功能。

但這樣的助手只能呼叫單個App應用,比如你要它“打開微信”它就給你打開微信。而當你提出一些跨應用、多步驟的複雜指令,如“對比一下淘寶閃購、美團、京東同款麥辣雞翅的價格,選個最低價,下單到指定地址,然後截圖發給指定聯絡人”,又如“下周我要出差,先去北京再去廣州,幫我訂一下機票和酒店,最後生成一張清單”,等等,它就一籌莫展了。

這樣的多步驟複雜任務,恰好是豆包手機助手的用武之地。

你只要說一聲,它就會在你手機所有的購物App裡搜尋同款商品,對比價格和規格,自動領券,選擇最低價,最後通知你“接管操作完成支付下單”;

當你準備出差,它會按你的吩咐,在公司辦公軟體上向經理提交出差申請,然後訂好機票酒店;

當你想給女兒推薦幾個禮物放進購物車時,如果你設定開啟的記憶中已儲存有女兒的年齡、興趣等資訊,它可直接查詢符合女兒年齡、偏好的方案,無須你再逐一交代細節……

這些前所未有的新體驗,讓豆包手機助手初出茅廬就成為智能體網際網路的一個“Aha moment”,也為2025年的中國AI發展貢獻了一部“收官之作”。

一石激起千層浪

然而,和年初DeepSeek發佈時贏得的普遍都是掌聲相比,豆包手機助手發佈後,則是一石激起千層浪。

有人盛讚,AI操作手機、AI助手一定會遍地開花,我們的生活也會完全離不開它,將來的人們會記住這歷史性的一天;

有人評價,豆包和中興通訊做的這件事,是通過跟系統、跟硬體廠深度綁在一起,讓豆包獲得系統級權限,可以橫跨所有App看通知、讀頁面、點按鈕,從一個App升級成手機系統內常駐的大腦,成為作業系統的一部分而不是普通的第三方軟體,這是AI時代的手機新入口;

有人擔心,AI手機助手依賴高等級的系統權限,能在執行使用者指令的操作過程中讀取到螢幕內容——包括銀行卡資訊和聊天記錄,會帶來安全隱患;

也有一些國民級應用App、金融機構App迅速截停了豆包手機助手,使用者在手機上無法呼叫,或遭遇異常退出、無法再次登錄。

更深層次的討論也開始了——若使用者習慣將操作完全交由AI助手代理,各種App都將被“管道化”,以流量分發為核心的網際網路商業模式將會被顛覆;而對手機廠商來說,將從“硬體製造商”變為“AI服務分發商”,其賣點不再是硬體參數的堆積,而是能否接入最強AI能力,提供最豐富和高效的場景服務。

豆包手機助手到底是什麼?

其實,它是在豆包App的基礎上,和手機廠商在作業系統層面合作的AI助手軟體。目前還只有一款和中興通訊合作的工程樣機,也只面向開發者和科技愛好者少量發售。在官方視訊的結尾,豆包手機助手特別提示,“儘管演示內容均為真實錄製,但受限於大模型技術的不確定性,相關場景無法保證百分百復現。當前產品實際可用性與團隊預期仍有差距,未來仍將持續迭代最佳化”。可見,它還是剛剛起步。

但沒想到,發佈當日,中興通訊A股漲停,在行業和社會迅速引起巨大波瀾。

在被一些App截停後,豆包手機助手發佈了《關於微信登錄異常的情況》《關於調整AI操作手機能力的說明》等公告,澄清了所謂“未經授權獲取系統權限”的謠言,指出豆包手機助手在努比亞手機上擁有系統級的INJECT_EVENTS權限,所以其相關產品才能跨屏、跨應用模擬點選事件,完成使用者操作手機的任務需求,它也不會代替使用者進行相關授權和敏感操作。

關於使用者隱私,豆包手機助手表示,不會在雲端儲存任何使用者螢幕內容。“當使用者給助手指令,要求操作手機時,助手確實需要讀取螢幕,否則無法完成使用者任務,但螢幕和操作過程都不會在伺服器端留下儲存,且所有的相關內容也都不會進入模型訓練,確保使用者隱私安全。”

豆包助手再次強調,此次發佈的是“技術預覽版”,是面向行業、AI技術愛好者的探索產品,提示普通消費者謹慎選擇。

豆包助手還表示,計畫在接下來的一段時間,在部分場景對AI操作手機的能力做一些規範化調整,如限制刷分、刷激勵的使用場景,進一步限制金融類應用的使用,限制部分遊戲類使用場景等。

顯然,豆包手機助手的社會影響大大超出了團隊預想,因此團隊開始採取一種“退”的姿態。退一步,進行調整,並努力和App們以及手機廠商達成共識,找到合作模式。

一場技術上的顛覆式創新,開始步入社會化共識與服務規則的形成期,以及新舊利益如何分配的磨合期。

但無論如何,因為豆包手機助手的發佈,中國的網際網路服務掀開了新的一頁,即從App主導到智能體驅動。這一頁既已掀開,就不可能再倒回去。

為什麼是豆包?

豆包手機助手和中興通訊合作的AI手機,顯示出“大模型+手機廠商”的清晰趨勢。

在國內,華為、vivo、小米、OPPO、榮耀等手機廠商都在佈局AI智能體賽道,都有自己的AI助手,都在個性化互動、跨應用執行方面探索。大模型初創公司智譜去年10月也曾官宣推出了端側AI智能體,可以訂外賣、訂票、回覆微信,智譜還與三星在AI手機領域達成戰略合作;

在國際上,蘋果去年6月發佈了Apple Intelligence,定位為系統級AI助手,但直到iPhone 17系列仍未完全落地。GoogleGemini也在與三星深度合作,強化其語音助手Bixby。

大家都在做AI手機助手,為何唯有豆包一鳴驚人,真正讓使用者眼前一亮?

單從技術實現路徑看,豆包助手和別的助手採用的都是圖形使用者介面智能體(GUI Agent)技術。該技術通過多模態大模型,即時解析手機螢幕截圖,識別出按鈕、文字、圖示等UI元素,然後呼叫作業系統提供的服務,模擬人的手指動作。只要人在螢幕上可以手動完成的操作,從理論上說,GUI Agent都能代勞。

在過去,使用者必須通過手動方式在不同App間切換,才能完成複雜任務。這是因為,如果使用者想讓AI與App互動,App開發者必須主動開放資料和功能介面,而基於安全、商業利益等考慮,App們並不會開放。GUI Agent的邏輯不是請求App們的許可,而是直接模仿人的點選、滑動、輸入等動作,跨應用完成操作。當然,這裡有一個前提,就是與手機作業系統在系統層面深度整合,獲得系統級權限來呼叫各種App。

那麼,是不是有了GUI Agent,再加上擁有系統級權限、避免了APP的“玻璃牆”限制,就能做好AI手機助手呢?也不是。否則,手機廠商已經先發先至了。

其實,在手機助手跨應用自動執行任務的背後,涉及到多種技術能力,如通過自然語言精準理解使用者的複雜、多步驟指令,將使用者需求拆解成多個子任務,知道呼叫什麼App去執行什麼任務,以及在自動完成操作後根據結果進行反饋調整、持續改善。並不只是獲得系統級權限去呼叫App那麼簡單。

AI手機助手的本質,是基於大模型技術,通過模擬人類點選和圖形處理實現智能互動。其關鍵在於預訓練模型的研發,以及在預訓練、後訓練和業務理解這三個環節上是否有突破,有創新。

在中國網際網路公司中,字節跳動是對AI技術投入最大、時間最久的之一。除了眾所周知的推薦技術,在大模型之前,字節跳動也在量子化學、AI蛋白質設計等領域有諸多投入。為了發展大模型業務,字節跳動單獨設定了“豆包股”長期激勵,鼓勵內部創新,鼓勵開展有技術高度的創新,以建立壁壘。雖然字節跳動的大模型業務不是全球最早,但轉型迅速,在基礎設施如萬卡叢集訓練等方面投入巨大,且穩定性很好,為技術實現奠定了基礎。

豆包手機助手一出生就與眾不同,極大刷新了使用者體驗,和豆包大模型在視覺理解、推理、GUI(圖形介面)識別等方面均處於國際第一梯隊是分不開的。在中國大模型公司中,豆包對“蒸餾”的限制最嚴格,這也避免了依賴他人的模型導致“屋下架屋”、效果受限等問題。

“通過模擬人類點選進行圖形處理”,這個概念早就有人提出,並不新鮮,其他手機廠商和App廠商也都在做,但從豆包手機助手的實測和使用看,字節跳動是國內首個從技術能力上能把這一技術真正做到可用程度的企業。當有些廠商還在為“如何讓助手生成更流暢的文字”努力時,豆包手機助手已經能自主絲滑地完成複雜操作,這就是技術優勢所拉開的代際差距。

所以,豆包手機助手的超常表現,歸根結底在於技術領域的硬核創新。這和之前DeepSeek在混合專家模型(MoE)架構和多頭潛在注意力機制(MLA)等方面的自主創新頗為相似,都是先站上技術的高地,接著才有出眾的產品。

AI手機助手的下一步

儘管豆包手機助手展現出了新互動模式的巨大潛力,但它要真正進入千家萬戶,還有很長路要走。

除了自身的產品迭代最佳化,以及讓使用者更加放心(比如爭取在不久的將來,在本地端側模型上實現和雲端同樣的效果),它還需要和行業各方有更充分溝通,以共建更清晰、可預期的規則。

就眼前遭遇的被一些App封禁的問題,豆包手機助手需要將心比心,和它們坦誠協商,以解決在技術預覽版手機上的使用限制問題。長期而言,則要努力探索合作與分享的具體機制安排。

豆包手機助手已明確“無自研手機計畫”,而是希望通過生態合作模式,嵌入不同品牌的手機機型。這是一種開放的態度,將有利於合作的達成。

有專家預測,在智能體網際網路時代,有可能形成“使用者付費+廠商分成”的模式:使用者為智能助手的便捷服務支付少量費用,豆包與合作的App廠商按一定比例分配收益;對於免費的App應用,則可通過流量導流、資料共享等方式實現共贏。

在這個過程中,最難跨越的關隘,還是現有App生態的流量與利益格局。同時,手機大廠是否願意合作,以何種方式合作,也存在大量博弈空間。

可以設想的是,不管豆包手機助手有多麼強大,未來都不可能只有一個AI手機助手。既然是大勢所趨,必然會引來多個參與者。就像電商App,有淘寶,也有拼多多,有京東,有抖音電商,等等。當然,因為手機助手更像“大腦”,使用者在使用、比較之後,大機率會選擇某一個可信賴的助手,長期使用,越用越習慣,而不太可能像電商App一樣,同時使用幾個。

騰訊總裁劉熾平在2025Q3財報電話會上表態,微信最終將推出自研AI智能體,讓使用者在微信生態內即可利用AI完成多項任務。

當豆包手機助手點亮了一盞燈,一定會帶動和加速更多盞燈亮起來。這對於廣大使用者一定是好事。

就此而言,無論怎樣的超級App,都應該避免簡單基於商業競爭的考量,用“一刀切”的方式否定使用者合理使用AI的權利。因為當它們將來要推出手機助手的時候,也會面臨和今天豆包類似的問題。

無論最終模式如何,豆包手機助手的創新都值得鼓勵。App時代的“多應用切換”是使用者的痛點,誰能更好地解決這個痛點,誰就會得到使用者的認同。使用者也將成為這場智能化變革的最大受益者。

從生成式AI到智能體AI,從移動網際網路到智能體網際網路,從App林立到AI手機助手統籌,豆包手機助手用一個個具象化的場景,讓使用者感受到大模型等技術帶來的便利。它雖然還沒有正式發佈,卻已讓人們看到,智能體AI將徹底改變我們與手機的互動方式,讓科技真正服務於生活本身。

人工智慧時代的新黎明正在降臨。不管還有多少挑戰和難題,新質生產力都將穿越,也必將穿越。 (秦朔朋友圈)