阿里挖來AI大牛許主洪,接下來目標明確:要靠多模態打通AI應用了


隨著AI競爭加劇,消費市場成為各大科技公司的必爭之地。在文心一言、豆包、Kimi等產品瘋狂爭奪C端使用者的當下,如何打開AI消費市場,成為阿里巴巴的緊迫課題。

2月6日,多家媒體消息稱,人工智慧科學家許主洪教授(Steven Hoi)正式加入阿里巴巴,將出任集團副總裁。據內部人士透露,許主洪教授將專注於AI To C業務的多模態基礎模型及Agents相關基礎研究與應用解決方案,提升阿里巴巴AI應用C端產品在模型結合應用上的端到端閉環能力。

稍後,許主洪在X上確認了這一消息,並提到“未來十年,為消費市場開發基礎模型和 AI Agents應用存在大量機會!”

這位技術大牛的加入,意味著阿里在AI To C的又一嘗試。

自去年底阿里巴巴“少壯派”吳嘉執掌智能資訊事業群以來,阿里的AI C端產品開始加速整合:先是將通義系列C端產品從阿里雲剝離,隨後又整合了天貓精靈所屬的智能互聯事業群;在產品層面,阿里選擇了使用者量已達2億的夸克作為主攻方向,將其重新定位為"AI全能助手",並開始與天貓精靈展開聯動。據悉,雙方正在籌備包括AI眼鏡在內的AI新產品。

如今技術人才的引入只是一個開始,進入2025年,阿里AI急需一場面向消費市場的反擊。


從Salesforce到阿里,專注多模態預訓練

作為一位深耕AI領域20餘年的研究者,許主洪的學術履歷頗為豐富。2002年獲清華大學電腦系學士學位後,他在香港中文大學完成了碩士和博士學位。在學術界,他於2019年當選IEEE Fellow(電氣和電子工程師協會會士),入選斯坦福"全球前1%AI科學家"榜單。

許主洪的研究領域覆蓋機器學習基礎理論及多個應用方向,包括多媒體資訊檢索、電腦視覺、巨量資料分析等。其中,他在多模態預訓練方面的工作獲得了最多關注,特別是BLIP模型系列的研究成果,發佈在了多個開源社區。

BLIP系列有多篇論文,研究聚焦於視覺-語言多模態預訓練(Vision-Language Pre-training, VLP),旨在通過統一模型架構和高效資料增強策略,實現視覺語言理解與生成任務的協同最佳化,可以應用於圖像-文字檢索、圖像標題生成、視覺問答、視覺推理和視覺對話等多種任務。

在Github社區,BLIP獲得了5000顆星,而BLIP2則是直接點爆了當年的圖文模型圈,獲得業界高度評價,並被認為是多模態啟發性工作,對開源社區做出了顯著貢獻。此外,據許主洪在X稱,BLIP-2還被排名為the 5 top AI Research paper of 2023,僅次於GPT-4。

《BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models》也是許主洪參與的引用量最高的工作,具體來看,通過創新的"凍結模型+輕量橋接"策略,以Q-Former架構對齊了圖像和文字,在保持高性能的同時大幅降低了計算成本。

這些研究大多完成於他在Salesforce期間。在Salesforce,許主洪參與了多個AI研究項目,並嘗試將研究成果轉化為應用產品。

在離開Salesforce,加入阿里巴巴之前,許主洪還有一段創業經歷,於2023年創立了一家多模態生成式AI初創公司HyperGAI並擔任CEO,發佈了三款開源多模態大模型。其中,開源多模態模型Hyper-Pretrained Transformers (HPT) 1.5 Edge 能夠實現文字和視覺輸入的多模態理解,專為邊緣和移動裝置量身定製,參數小於 5B。

不過,在競爭激烈的AI創業市場中,HyperGAI的產品未能獲得市場反響,其開源模型在Huggingface平台上少有人關注。

從總體來看,多模態研究和橫跨學術、產業、創業,是許主洪兩個關鍵詞。


重組、融合、創新,阿里AI to C需要新牌

在多模態AI成為技術競爭焦點的當下,我們不難理解:在發力To C的關鍵時刻,阿里恰好需要這樣一位既能突破演算法邊界、又能推動產品創新的科學家。

在過去一段時間裡,阿里AI To C產品中,除夸克以外,其他AI產品包括通義APP本身在C端的表現並不突出。也正是因此,目前的阿里正在通過整合通義、夸克等產品力量,配以頂尖人才加持,打造一個更具競爭力的AI To C新生態。

首先是在模型與應用的關係上,阿里經過一年多的探索後逐漸明確了"分而治之"的策略,讓基礎模型研發和消費級應用各自獨立發展,以適應不同的創新節奏。

2024年底,阿里將原屬阿里雲的“通義”應用剝離出來,併入智能資訊事業群由吳嘉統管,而此前通義千問更多是整體打包的思路,模型和應用捆綁發展。但在實踐中發現,大模型研發和消費級應用分屬不同賽道,各自面臨的挑戰和節奏都不盡相同,為雙方鬆綁後通義千問團隊可以專注技術突破,而C端產品團隊則能更靈活地進行調整。

此後更多的AI to C整合開始了。特別是天貓精靈所屬的智能互聯事業群併入之後,加上原有的夸克、書旗小說、UC瀏覽器等業務,一條從搜尋到內容,從文字到語音互動,從軟體到硬體的創新鏈條正在形成。在這條鏈條上,多模態技術成為連接各個場景的關鍵。

許主洪的加入,也恰好印證了阿里的這一技術佈局。作為BLIP系列的參與者,他在多模態預訓練和效率最佳化方面的積累正是阿里所需要的。從夸克的圖文理解到天貓精靈的視覺互動,再到未來可能推出的AI眼鏡,多模態互動將成為阿里AI產品的標配。

不過,在AI消費市場,先進技術只是起點,過去一年的市場競爭已經證明,真正的難點在於找準使用者和場景。

對All in AI的阿里巴巴而言,這既是機遇也是挑戰。一方面,阿里擁有龐大的使用者基礎、豐富的應用場景和強大的技術儲備;但另一方面,在To C戰場上,無論是百度的文心一言、百度文庫,還是字節的豆包,都已形成了一定的使用者心智。

現在的阿里不僅需要新鮮血液,也需要一場勝仗,通過AI重新定義自己在消費網際網路時代的核心競爭力。 (硅星人Pro)