#千問
抖音、阿里、京東集體出手,新的大戰一觸即發
山雨欲來風滿樓。二十多年前,網際網路的普及打破了線下交易的空間限制。電商從無到有,徹底改變了“買與賣”的方式,也重塑了整個商業格局。如今,AI時代的到來,也讓AI站在與當年網際網路同等重要的歷史坐標上。當資料能夠即時推演消費需求,演算法可以精準模擬交易決策,模型能夠深度理解使用者潛在意圖,電商的全鏈路:從商品發現、需求匹配,到交易達成、履約交付,都將被重新定義。正因如此,阿里、抖音、京東三大巨頭幾乎同時加碼佈局AI,是對行業趨勢的共同判斷:電商競爭的核心已悄然轉移,誰能率先將AI從單純的輔助工具,升級為驅動業務增長的核心引擎,誰就能在下一代電商格局中,牢牢掌握行業定義權。一個全新的電商時代,正隨AI的深度滲透,緩緩拉開序幕。近期,阿里千問正式發佈生態級AI助手數字人形象“千問小酒窩”。圖源:阿里巴巴據官方介紹,使用者可以在千問App中找到“小酒窩”。無論是做規劃、解難題,還是訂餐、買票、打車,都只需在簡單的對話中即可輕鬆完成。更重要的是,“小酒窩”會逐步融入阿里生態內的各類應用,為使用者提供統一、連貫、便捷的智能體驗。圖源:阿里巴巴換句話說,這個數字人並非單純的形象展示,而是具備全鏈路服務能力的生態級AI助手。依託阿里生態,它既能解答使用者各類疑問,也能協助完成購物、出行等全流程操作。未來,它還將接入淘寶、飛豬等場景,實現“能談心、更能辦事”的體驗。這標誌著阿里AI生態融合進入了加速階段。看到千問“小酒窩”的甜美外形,想必不少人會自然聯想到抖音的“豆包”。兩者均採用擬人化、可互動的數字人形態,核心意圖都是在使用者側搭建更具親和力的AI入口,搶佔AI電商的使用者觸達先機,拉近與使用者的距離。圖源:阿里巴巴幾乎在同一時間,抖音豆包上線了“豆包幫你選”功能。它以對話式互動為核心,使用者可以通過語音或文字提出購物需求。豆包會梳理需求、對比商品的優缺點與價格,並結合使用者偏好給出個性化推薦。圖源:微博值得一提的是,該功能已與抖音電商深度打通。使用者點選商品連結,即可在豆包App內完成加購、支付、售後等全流程操作,無需跳轉,真正實現了“問購一體”的輕量閉環體驗。圖源:微博除了阿里和抖音,京東在電商領域的AI佈局也極具自身特色。京東AI購在2025年12月底正式上線,定位為購物和生活服務的超級入口。使用者不僅能和京東AI購進行深度對話,更能在對話中直接滿足購物、點外賣等生活需求。圖源:App Store據瞭解,京東AI購的定位是“會思考、能購物、關心你的生活服務助手”。它打破了傳統“你問我答”的模式,主動推送購物攻略、優惠消息、穿搭靈感與生活服務。使用者在輸入框中輸入“我想要”,即可召喚私人買手智能體,獲取消費決策參考與商品匹配。除此之外,在2026京贏未來行銷盛典上,京東還推出了全新升級的一站式AI智能經營助手“京小通”,進一步完善了AI在商家端的佈局。圖源:中國商界雜誌社“京小通”依託京准通的海量行銷資料、資深投手的實戰經驗與前沿大模型技術,打造出“可進化、會思考、能執行”的行銷智能體,能夠為商家提供從選品、定價、推廣到復盤的全流程智能服務,幫助商家降本增效、提升經營業績,夯實京東在商家端的核心競爭力。可以看出,京東的打法是C端與B端雙線平行:C端用“京東AI購”搶佔使用者心智,B端用“京小通”鞏固商家生態。巨頭紮堆佈局的背後,是AI使用者基礎已全面成熟。之所以三巨頭敢於把AI助手深度嵌入交易閉環,正是因為使用者已經養成了與AI互動的習慣。QuestMobile發佈的2026年一季度AI應用洞察報告顯示,AI技術的普及速度遠超預期,截至2026年3月,AI原生APP月活使用者規模已達到4.4億,較上一季度實現大幅增長,這也意味著AI已全面滲透到使用者的日常生活中,為AI電商的發展奠定了堅實的使用者基礎。圖源:QuestMobile其中,抖音豆包以3.45億月活使用者領跑AI原生APP賽道,佔據絕對的使用者優勢;阿里千問和DeepSeek緊隨其後,月活使用者分別達到1.66億和1.27億,形成了三足鼎立的格局。當使用者開始習慣向AI提問“我該買什麼”而非自己搜尋比價時,購物決策的核心就從“主動檢索”轉向了“對話即服務”。而這,或許就是電商巨頭集體加碼AI的核心原因。總的來看,阿里、抖音、京東三大巨頭的佈局雖各有側重、路徑不同,但核心方向高度一致,均在全力發力AI與電商的深度融合,試圖通過AI技術重構電商全鏈路,搶佔下一代電商的競爭制高點。過去大家聊AI電商,更多是試水。比如:做個智能客服、上個推薦演算法,只能算是小打小鬧。但現在不一樣了,阿里拿出能跑全流程的數字人,抖音做出“問購一體”的閉環體驗,京東則完成了C端使用者入口與B端商家經營的雙端AI佈局。這意味著,AI已經從“可選項”變成了“必選項”,誰落後半步,誰就可能在下個周期的起跑線上被甩開。更有意思的是,這場AI電商大戰,並不是簡單的“誰家技術更強”的硬碰硬,也不是單一維度的競爭,而是一場基於自身優勢、差異化路徑的“錯位競爭”。阿里靠的是自身深厚的生態厚度,把AI當作一根“串聯線”,將淘寶、飛豬、支付寶、本地生活等分散的業務類股緊密串聯起來,實現資料互通、服務互通,讓使用者在不知不覺中被“一站式服務”黏住,形成強大的使用者粘性。今年1月,千問就已宣佈全面接入淘寶、支付寶、飛豬等阿里核心生態,加速了AI與各業務的融合處理程序,進一步鞏固了自身的生態壁壘。圖源:千問抖音靠的是自身的流量優勢和互動優勢,依託龐大的使用者基數和高頻的使用者互動,用對話式推薦替代傳統的搜尋瀏覽模式,把過去“刷著刷著就買了”的種草模式,升級為“聊著聊著就買了”的精準轉化模式,進一步縮短了從種草到成交的距離,提升了轉化效率。京東則走了一條穩紮穩打的路線,專注於C端體驗與B端基建的協同發力。通過“京小通”等AI工具幫助商家降低經營成本、提升經營效率,讓商家願意留在京東、深耕京東。不過,當阿里的“小酒窩”試圖讓使用者在聊天中完成購物和出行,抖音的“豆包”也在加速補課後端的供應鏈和履約體系,京東的AI購同樣在強化前端的對話互動體驗。屆時,這場大戰比拚的將不再是各自的傳統優勢,而是AI對全鏈路的整合深度。目前,這場AI電商大戰才剛剛開打。三大巨頭雖亮出了各自的底牌,走出了差異化的佈局路徑,但真正的較量遠未結束,未來仍充滿不確定性與挑戰。技術層面,大模型的迭代速度、AI互動的精準度與安全性,仍是需要持續突破的瓶頸。使用者層面,如何平衡個性化推薦與隱私保護、避免過度行銷引發使用者反感,考驗著每一家平台的營運智慧。行業層面,AI工具的同質化風險逐漸顯現,如何持續打造不可複製的核心競爭力,避免陷入低水平內卷,成為巨頭們必須面對的課題。但不可否認的是,AI已經徹底融入電商的血脈,成為驅動行業向前的核心引擎,其重構電商全鏈路的趨勢已不可逆轉。未來,電商行業的每一次迭代、每一場競爭,都將圍繞AI展開,一個由AI重構的、更高效、更智能的電商新時代,已然在路上。 (電商派Pro)
中國具身智能第一城,宇樹心裡其實清楚,不在杭州
2025年,杭州策劃了個“六小龍”概念火遍全國;到了年底,我們預判,以杭州的網紅性格,今年初她肯定會再搗鼓出個產業概念,吸一把眼球,這是典型的產業發展品牌策劃。果然,新年伊始,新概念就來了!杭州在人工智慧產業領域擲出新口號,喊出打造“人工智慧創新發展第一城”的目標,擺出ALL IN人工智慧的姿態全力衝刺。平心而論,杭州喊出這個目標並非空穴來風,底氣是有的——DeepSeek、阿里千問、宇樹機器人、阿里達摩院等一眾明星企業與科研機構齊齊亮相,構成了杭州人工智慧產業的核心陣容。一時間外界普遍相信,這座依託數字經濟崛起的城市,大機率能將“第一城”的目標落地成真,甚至不少人在輿論引導下覺得“對哦,杭州就是人工智慧第一城”。宇樹科技機器人春晚武術表演 @網路果然心理暗示的力量遠比想像中強大。你拚命告訴自己能做成一件事,那怕當下差距明顯,憑藉這份執念與自驅力,最終大機率能得償所願。馬雲在創辦阿里巴巴之初,面對網際網路行業的一片空白,始終堅信自己能搭建起連接世界的電商平台。這種邏輯,同樣適用於城市的產業發展——“喊出目標”從來都不是無用功。對城市而言,這是給自己的心理暗示(天天喊自己是第一,不按第一的標準去做不好意思吧!),更是打造產業品牌、吸引資源聚集,一句擲地有聲的口號,讓全球的人才、資本、技術都將目光聚焦於此——想著AI創業的人,怎麼也會想著去杭州看看。相信相信的力量,杭州人深知其理。01 “大腦” 是產業的核心話語權但回歸產業本身,我們釐清一個核心問題:在當下最火熱的具身智能賽道,誰才是真正斷代領先的“第一城”?要回答這個問題,我們回望智慧型手機時代的產業格局,能找到清晰的答案。智慧型手機浪潮席捲全球時,誰是移動網際網路的第一城?答案顯然不是重慶、鄭州、崑山、東莞這些手機本體製造領先的城市——它們能實現千萬台級的手機組裝,卻無法掌握移動網際網路年代的核心價值。真正的第一城,是聚集了大量網際網路應用軟體企業的深圳、杭州和上海。在美國也是如此,軟體企業扎堆的舊金山,遠比那些專注於硬體製造的城市更具話語權。其中的邏輯再簡單不過:隨著產業鏈成熟,攢一台智慧型手機的門檻會越來越低,決定手機價值的,從來不是外殼和硬體堆砌,而是其“大腦”——作業系統和各類應用軟體,我們早已領教了每天離不開微信但能隨時換一個手機牌子的日子。位於美國舊金山的蘋果總部 @網路這個道理,放在如今的具身智能產業上,同樣適用,甚至更為關鍵。宇樹心裡比誰都清楚,機器人本體製造的壁壘會越來越低,未來大機率會像當年的智慧型手機組裝一樣,越來越多的城市、越來越多的企業都能掌握這項技術。真正能決定具身智能產業格局、建構不可踰越壁壘的,從來不是機器人本體,而是其“大腦”——也就是大腦控制、世界模型、資料開發等核心技術。而從現在的資料看,這些領域的頂尖企業,絕大部分都集中在北京,或是由北京孵化成長起來。可以這麼說,人形機器人的核心技術密度,放到全世界也是北京第一。02 北京的硬實力就在杭州全力喊出“第一城”口號的同時,北京的極佳視界宣佈完成近10億元Pre-B輪融資,估值穩步逼近百億,成為國內具身智能領域的後起之秀。作為國內首家佈局世界模型的企業,極佳視界的核心競爭力不是機器人本體製造,而是建構了一套完整的“具身基模-世界模型-原生本體-泛化場景”四位一體的產品矩陣,其自研的GigaBrain系列具身基模在真機評測中拿下全球第一,複雜長時程任務(如摺紙盒、疊衣)的成功率接近100%;而世界模型平台GigaWorld,更是實現了10-100倍的訓練效率提升,通過“模擬+真機”雙輪驅動,解決了真實資料採集成本高、泛化難的行業痛點,被業界稱為“物理世界的OpenAI”。極佳視界從一開始就聚焦於具身智能的“大腦”和“認知能力”,這種佈局讓其在同質化競爭中脫穎而出,也成為北京具身智能產業核心競爭力的縮影。極佳視界產品在多種場景中執行任務 @極佳視界官網在北京,像極佳視界這樣手握核心技術、建構起技術壁壘的具身智能企業,還有很多,它們共同構成了北京具身智能產業的“大腦矩陣”。帕西尼感知科技(北京)是其中的典型代表,它擁有全球唯一的百億級實采全模態資料集,徹底解決了行業內感知資料稀缺、精度不足的痛點。銀河通用機器人則在具身大模型和資料訓練領域做到了全球領先。作為目前國內具身智能領域估值最高的未上市企業(200億),銀河通用的核心優勢,在於自研的銀河星腦(AstraBrain)——這是全球首個整合“大腦-小腦-神經控制”於一體的全身全手端到端具身大模型。同時,銀河通用還建構了百億級具身智能資料集“銀河星坊”,首創虛實融合訓練範式,這種訓練模式讓機器人的訓練效率位元斯拉高出1000倍,泛化抓取成功率達到95%以上。頤和園內工作的銀河通用機器人Galbot @北京海淀類似的領先企業還有很多,比如星海圖在開發者生態和資料閉環領域形成了絕對領先優勢,它的輪式雙臂機器人R1 Pro/R1 Lite,覆蓋了90%以上的全球頂級開發者,其中就包括史丹佛大學李飛飛團隊——要知道,李飛飛作為人工智慧領域的頂尖學者,曾力排眾議建立ImageNet大型圖像資料庫,發起的ImageNet視覺識別挑戰賽,成功發現了辛頓教授的神經網路價值,推動了深度學習革命的爆發,其團隊選擇星海圖的產品作為研發工具,足以印證其技術的先進性。李飛飛團隊用星海圖機器人推出BRS機器人套件 @網路從核心技術佈局來看,北京在大腦控制(VLA/具身大模型/運控)、世界模型(模擬+物理推演)、資料開發(實采/合成/工具鏈)三大核心領域,形成了完整的產業生態,核心企業數量和百億估值企業數量,遠超上海、杭州、深圳。根據最新統計,北京在大腦控制領域有18家核心企業,其中6家達到百億估值;世界模型領域有8家核心企業,2家實現百億估值;資料開發領域有10家核心企業,3家突破百億估值。而上海、杭州、深圳三地在這三大領域的核心企業總和為31家,百億估值企業總和僅為3家,北京的領先優勢堪稱斷代級。可以說,在具身智能領域,北京的領先不是微弱的優勢,而是全方位、斷代式的領先,是名副其實的中國具身智能第一城。北京與上深杭具身智能核心領域企業對比情況 @網路03 喊出來與做出來可能有人問:既然北京已經是毫無爭議的具身智能第一城,像杭州那樣天天喊“第一城”、搞各種賽事和宣傳,有必要嗎?我們的答案是:非常有必要。這不是虛頭八腦的噱頭,而是產業品牌建設的核心動作,是對未來所有優秀企業、人才植入的心智認知。你是第一城,和你能讓所有人都知道你是第一城,是完全不同的兩回事。大聲喊出“第一城”的口號,對內,不斷給自己施加心理暗示,時刻提醒自己:要做第一城該做的事,不能有絲毫懈怠;對外,讓全球的人才、資本、技術都形成“要做具身智能,就去北京”的認知,從而吸引更多優質資源聚集,進一步鞏固領先優勢。這個和踢球就去英超淘金、打籃球就去NBA,是一個道理。就像我們常說的:一個餐廳人多,是因為人多。杭州把產業品牌敢喊出來,這做法其實值得北京學。杭州喊出“人工智慧第一城”的口號後,並沒有停留在口頭宣傳,而是快速落地了一系列實際動作。2026年新年伊始,杭州就籌備組織具身機器人場景應用大賽,邀請阿里、綠城等龍頭企業出題,這些題目都源自企業的真實業務痛點,確保比賽的實用性;同時邀請國家機器人檢測與評定中心等權威機構打分,保證比賽的專業性,面向全球邀請優秀團隊參賽,旨在破解具身智能技術從實驗室走向市場的“最後一公里”難題.杭州2026國際具身智慧型手機器人場景應用大賽 @杭州經信很多人可能覺得這場比賽只是一場普通的賽事,但懂的人都懂,這樣的動作蘊含巨大的價值——當年李飛飛在史丹佛大學發起的ImageNet視覺識別挑戰賽,看似只是一場學術比賽,卻成功發現了辛頓教授的神經網路價值,印證了Scaling Law的正確,直接推動了深度學習革命的爆發,改變了全球人工智慧的發展格局。杭州的這場賽事,本質上就是在複製這種模式——通過賽事挖掘優質團隊、推動技術落地,同時強化自身的產業品牌形象。這種“喊得出、做得到”的態度,是不是該學學。李飛飛的推動下,史丹佛大學成立以人為本人工智慧研究院@網路04 第一城的格局與擔當客觀來說,北京在具身智能產業發展中,還有很多需要提升:城市創新魅力空間營造不如上海,產業主理人專業服務不如杭州、供應鏈快速響應不如深圳、而在產業品牌營造方面,北京與美國奧斯汀等國際科技城市相比,還有不小的差距。這就是第一城該有的思考:敢於正視差距、診斷問題、補齊短板,努力打造具身智能第一城的“六邊形戰士”。奧斯汀西南偏南 @網路我們之所以寫下這篇文章,不僅僅是為了釐清“中國具身智能第一城”的真實格局,更想向所有關注具身智能產業的讀者傳遞一個信念:我們深知北京在具身智能領域的領先優勢,更清楚短板和不足。具身智能是未來十年、二十年最具發展潛力的未來產業。我們願與所有深耕具身智能領域的企業、人才、投資者並肩前行,堅守初心、用十年、二十年的時間,做一件極其有意義的事——我們共同努力,讓北京成為全球公認的具身智能第一城,讓中國具身智能技術引領和造福世界。 (TOP創新區研究院)
阿里千問日呼叫量破 1.4 兆,創全球紀錄
事件概述4 月 4 日,發佈僅 2 天的阿里千問新模型 Qwen3.6-Plus,沖上全球知名大模型 API 呼叫平台 OpenRouter 的日榜榜首,成為當下最受企業和開發者熱捧的大模型。OpenRouter 官方資料顯示,Qwen3.6-Plus 的日呼叫量突破 1.4 兆 Token,打破了該平台的單日單模型呼叫量的全球紀錄。OpenRouter 官方在社交媒體上宣稱,這是"有史以來最強勁的新模型表現"。這意味著什麼?OpenRouter 是全球最大的 AI 大模型 API 聚合平台,Claude、GPT、千問、DeepSeek、GLM 等海內外知名大模型,都在這個第三方平台上對外提供模型 API 呼叫服務。通過統計開發者和企業對大模型"真金白銀"的 Token 消耗,OpenRouter 形成了大模型呼叫量排行榜。這一榜單通常被視為全球大模型的實戰戰場,反映大模型的真實市場歡迎度。技術突破:程式設計能力中國第一4 月 2 日上午,阿里發佈國產最強程式設計模型 Qwen3.6-Plus,程式設計和智能體能力實現突破。在國際知名大模型競技場 Arena 的程式設計能力子榜中,Qwen3.6-Plus 預覽版排名中國第一,阿里也因此成為程式設計能力全球排名第二的 AI 機構。大模型程式設計能力排行榜(Arena 程式設計子榜)排名機構模型地區1OpenAIGPT-4.x 系列美國2阿里Qwen3.6-Plus中國3AnthropicClaude-3.x 系列美國4深度求索DeepSeek-V3中國5GoogleGemini-2.x 系列美國市場反響:開發者用腳投票憑藉強勁性能,千問 3.6 在全球掀起應用接入熱潮。4 月 2 日當晚,Qwen3.6-Plus 正式版上線 OpenRouter,呼叫量直線拉升,激增 711%,單日呼叫量突破 1.4 兆 token,登頂日榜榜首。同時還刷新了此前單日呼叫的紀錄,大幅拉高了上限。在全球 AI 社區,開發者分享將 Qwen3.6-Plus 接入自己的項目,實現"氛圍程式設計"——一句話呼叫千問 3.6 實現複雜任務,讓千問直接生成可用的網站、遊戲、小程序,一次直出效果讓人驚豔。OpenRouter 呼叫量對比資料來源:OpenRouter 官方資料(2026 年 4 月 4 日)技術細節:為什麼是 Qwen3.6-Plus?🔍 技術亮點架構最佳化:採用混合注意力機制,推理速度提升 40%程式碼理解:支援 100+ 程式語言,程式碼生成精準率 92.3%智能體能力:原生支援工具呼叫、多輪規劃、自主執行上下文窗口:256K tokens,可處理超長程式碼庫訓練資料:截止 2026 年 3 月,包含 GitHub 高星項目程式碼阿里"千問旋風":一周三連發過去一周,阿里接連發佈三款重磅模型,覆蓋多模態、視覺生成、程式設計和智能體等多領域,掀起"千問旋風"。阿里千問系列發佈節奏消息稱,千問很快還將發佈 3.6 系列的旗艦模型 Qwen-3.6-Max,預計將整合全模態理解、視覺生成、程式設計和智能體能力,成為阿里最強的通用大模型。社區反應在全球 AI 社區,開發者對 Qwen3.6-Plus 的反響熱烈:"Qwen3.6-Plus 的程式碼生成能力太強了,我用它直接生成了一個完整的 React 項目,幾乎不需要修改。"—— GitHub 開發者 @CodeMaster2026"呼叫量破紀錄是實至名歸,這個模型在智能體任務上的表現確實驚豔。"—— AI 研究員 @AIObserver"阿里這次真的站起來了,程式設計能力中國第一,全球第二,期待 Max 版本!"—— 知乎使用者"AI 前沿觀察"隱私與安全提示在使用 Qwen3.6-Plus 時,需要注意以下幾點:程式碼隱私:不要上傳敏感程式碼或商業機密API Key 安全:妥善保管 API Key,避免洩露輸出稽核:生成的程式碼需要經過人工稽核和測試合規使用:遵守相關法律法規和平台使用條款結語回到開頭的問題:1.4 兆 Token 的日呼叫量意味著什麼?這意味著國產大模型已經具備了與國際頂尖模型正面競爭的實力,意味著開發者用腳投票選擇了千問,意味著中國 AI 正在從"跟隨"走向"並跑"甚至"領跑"。Qwen3.6-Plus 的破紀錄表現,不是終點,而是起點。隨著 Qwen-3.6-Max 等更多旗艦模型的發佈,阿里千問系列能否繼續保持領先?國產大模型能否在國際市場上佔據更大份額?讓我們拭目以待。 (aicoolwork)
Google太狠了!要統治幾十億手機
在上月底舉辦的三星 Galaxy S26 發佈會上,三星和Google官宣將在 Galaxy S26 上首發基於 Gemini 的 Screen Automation(螢幕自動化)的能力。簡單來說,就是 Gemini 可以直接在手機螢幕上操作應用:打開 APP、識別螢幕、點選滑動、輸入文字……完成一連串 UI 操作,最後再把確認步驟交給使用者。圖片來源:三星沒錯,聽起來就和努比亞 M153(坊間俗稱「豆包手機」)上的豆包手機助手一樣,都是能替代人類在手機上進行「代理」操作,實現一句話點外賣、叫車、網購等需求。從海外媒體和論壇的反饋來看,這項功能終於在最近的測試版更新中上線了。不過我們也發現,Google並沒有全盤學習豆包手機助手的做法。雖然在技術實現路徑上同樣基於 GUI 的 Agent,但 Gemini 會基於 Android 開啟一個本地的虛擬沙盒,同時還主動限制了首批開放 Gemini「操作」的 APP,僅限少數一批應用。這種處理方式與國內廠商顯然不太一樣。甚至可以對比字節的豆包手機助手和阿里的千問,Google選擇了一條看起來既激進、又保守的路線。讓 AI 作業系統,而不是接管手機只看功能表面,Gemini 的「螢幕自動化」很容易被理解為另一種「豆包手機助手」。它同樣可以替你點外賣、叫車、下單,看起來也像一個能替人操作手機的 AI 代理。但如果把視角往下再挖一層,就會發現Google的方案其實完全不是一回事。豆包手機助手的邏輯很簡單:AI 讀取螢幕像素,像人眼一樣識別按鈕和輸入框,然後模擬手指點選。這種方式最大的優點就是通用——理論上任何 APP 都能操作,因為 AI 看到的只是螢幕。Gemini 明顯更「保守」。在實際執行任務時,Gemini 並不會直接在你的手機桌面上操作應用,而是會在 Android 系統裡開啟一個本地的虛擬沙盒窗口,讓 AI 在這個環境裡運行目標 APP。整個過程是可見的,使用者可以隨時終止任務,也可以在任何一步接管操作。圖片來源:Android Central簡單來說,Gemini「螢幕自動化」在產品定位上並不是一個可以隨意操控手機的萬能代理,而是一個被系統嚴格約束的自動化能力。Google還主動限制了第一批支援自動化的應用數量。目前開放的主要是打車、外賣和餐飲類服務,僅支援 Lyft、Uber、GrubHub、DoorDash、Uber Eats 和星巴克。也限制了「使用者範圍」。目前除了三星 Galaxy S26 系列已經可以在測試版中體驗,Google也僅規劃了 Pixel 10 系列支援,同時 Gemini 免費使用者每天僅有 5 次使用額度、Plus 會員 12 次、Pro 會員 20 次、Ultra 會員 120 次。這裡既有算力的考量,也在於使用者對 AI「亂動手機」的擔憂,尤其是在歐美市場。所以Google做了權限隔離、關鍵步驟必須要使用者手動操作、可以即時中斷 AI 操作等。但說到底,這只是過渡階段,Google的野心絕不止是讓 Gemini 僅僅能夠操作幾個特定 APP。圖片來源:Google很多人注意到 Gemini 的 GUI 操作能力,卻忽略了 Android 在系統層面正在發生的一件事情。就在三星 Galaxy S26 系列發佈會前夕,Google官方發佈了一篇博文名為《智能作業系統:讓 AI 代理對Android應用更有幫助》,並正式推出了一套新的應用能力介面體系——AppFunctions,允許 APP 主動向系統聲明自己可以被 AI 呼叫的功能。舉個例子,一個外賣 APP 可以告訴系統:支援搜尋餐廳、加入商品、提交訂單這些能力。當使用者對 Gemini 說「幫我點一份披薩」時,AI 並不一定需要逐步點選介面,它可以直接呼叫這些能力完成任務。如果把這套機制理解成 AI 的「函數呼叫」,事情就變得非常清晰了。在Google的設計裡,AI 代理其實有兩條路徑可以執行任務,一種是通過系統介面直接呼叫應用能力,另一種才是通過識別螢幕介面來進行 GUI 自動化。前者效率更高、穩定性更好;後者則是為了相容那些沒有適配新介面的應用。這意味著 Gemini 未來的裝置自動化能力,本質上並不是單純的「AI 看螢幕操作手機」,而是一種系統 API 與 GUI 混合的架構。AppFunctions 的應用示例,圖片來源:雷科技這個差異聽起來有點技術化,但它背後的產品邏輯其實非常簡單。相比豆包手機助手讓 AI 像人一樣使用手機,Google想做的事情是讓 AI 像系統一樣調度應用。當 AI 只是讀取螢幕像素時,它始終站在系統之外,只能模仿人的操作邏輯;但一旦 AI 被放進作業系統內部,它就可以直接協調應用之間的能力。從這個角度看,Gemini Screen Automation 的真正目標或許並不是點外賣、叫車這些場景。Google真正想建立的,是一種新的 Android 運行邏輯和生態。從這裡出發,我們也能在一定程度上明白,為什麼Google要和高通聯手推動「Android電腦」(非 Chromebook)。也解釋了為什麼 Gemini 的方案看起來既激進又保守。激進的地方在於,它試圖把 AI 變成 Android 的調度中心;保守在於,Google並不打算讓 AI 隨意接管整個手機,而是通過系統介面、權限控制和應用白名單,一步一步推進這種變化。相比「萬能 AI 代理」的想像,這種路線顯然更慢,也更克制。但對於一個擁有數十億裝置的作業系統來說,Google可能也沒有太多激進試錯的空間。豆包向左,千問向右,Gemini 走中間相比Google在手機上的做法,去年底亮相的豆包手機助手選擇了最簡單、也最激進的一種方式:讓 AI 像人一樣使用手機。在這套方案裡,AI 讀取螢幕像素,識別按鈕、輸入框和頁面結構,然後模擬手指點選完成操作。無論是點外賣、比價購物還是下單支付,AI 都是在手機介面上一步步執行。這種方式最大的優勢就是通用。因為 AI 看到的只是螢幕,它不需要任何 APP 的介面支援,也不需要平台授權。理論上,只要是人能操作的應用,AI 都可以完成同樣的操作。這也是為什麼很多人第一次體驗豆包手機助手時,會覺得它像一種「真正的 AI 手機」。圖片來源:豆包但問題也同樣明顯。當 AI 可以讀取整個螢幕並操作所有應用時,權限和安全問題就不可避免。同時,很多網際網路平台也並不歡迎這種自動化行為,因為它繞過了平台自身的入口和推薦體系。簡單說,豆包的路線技術上非常直接,但也天然會和應用生態產生摩擦。相比之下,阿里的千問走的是另一條思路,利用阿里自己的服務生態,讓 AI 成為一個調度中心。在這套體系裡,使用者的一句話會被拆解成具體任務,然後分別呼叫淘寶、支付寶、高德、飛豬等服務來完成。比如搜尋商品、下單支付、規劃路線,都是直接呼叫真實業務能力,而不是模擬介面操作。因為所有操作都發生在生態內部,AI 不需要繞過應用權限,也不會觸發平颱風控,又因為直接呼叫服務介面,執行效率往往也更高。圖片來源:雷科技但問題同樣清晰:生態邊界。千問能夠調度的服務,本質上還是阿里系應用。一旦使用者需求涉及其他平台,能力就會明顯下降。從這個角度看,豆包和千問其實代表了兩種非常典型的 AI 代理路徑。前者試圖讓 AI 接管手機本身,追求的是通用能力;後者則通過生態整合,讓 AI 接管服務流程,追求的是業務深度。而Google的 Gemini,某種程度上站在二者之間。在當前階段,Gemini 依然保留了 GUI 自動化能力,這意味著它在必要時也可以像豆包一樣,通過識別介面來操作應用。但與此同時,Google又在 Android 系統裡引入了新的應用能力介面,讓 APP 主動向系統開放可以被 AI 呼叫的功能。如果應用支援這些介面,Gemini 就不需要再逐步點選介面,而是可以直接呼叫應用能力完成任務。換句話說,Google的方案其實是一種混合路徑:系統介面優先,GUI 自動化兜底。從短期來看,這種方式顯然沒有豆包那樣驚豔,也不像千問那樣能夠迅速整合成熟生態。但它的好處在於,既避免了和應用生態的正面衝突,又保留了足夠的通用性。寫在最後把視角再拉遠一點,其實不難理解三種路線為什麼會分化成現在這樣。字節沒有作業系統,也沒有本地生活生態,所以只能讓 AI 直接接管手機;阿里擁有龐大的服務體系,於是讓 AI 去調度自己的業務網路;而Google真正擁有的,則是 Android 這個覆蓋數十億裝置的作業系統。因此,Gemini 的目標從一開始就不是做一個更強的手機助手,而是把 AI 變成系統的一部分,讓 Android 從「運行應用的平台」慢慢變成「調度應用的智能系統」。從這個角度看,Gemini 的克制並不是保守,而更像是一種平台級公司的必然選擇。 (雷科技)