#多模態 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#多模態

2026 AI 商業中場：從原生多模態到超級入口

AI 的競爭成為模型公司全端能力和創新的博弈。2000 年，美國網際網路泡沫破滅時，Google 面臨巨大的商業化壓力。當時他們搜尋引擎的流量暴漲，但離盈利還有一段距離。Google 曾嘗試把自己的技術授權給友商，以賺取微薄的 “經費”。但還是無法支撐公司的長遠發展。公司作為商業組織本質是逐利的。但有技術信仰的企業，往往會在短期利益與長期投入之間，選擇那條更難、更慢、也更燒錢的路徑。Google 沒有放棄技術。2002 年，Google 的工程師們發現，使用者在搜尋框中輸入關鍵詞，不只是為了搜尋資訊，也是在表達購買意圖。Google 將 “使用者搜尋意圖” 與 “商業廣告” 通過競價排名結合，在行業中找到了一個獨特的身位，將技術和商業化真正連接了起來。偉大的技術突破往往能帶企業打開新的市場。蘋果未止步於個人電腦，而締造出了劃時代的 iPhone；字節跳動抓住推薦演算法，才完成對資訊流的重構；OpenAI 固執地進行大模型訓練，讓演算法湧現出了智能。但過去兩年，AI 技術受困於找不到落地場景，商業化受阻。2025 年，DeepSeek 在保持成本優勢的同時，展現出接近人類的思考能力，讓 C 端使用者對 AI 的價值有了新的認知。不久後，OpenAI 的原生多模態模型 GPT-4o，展現了其對圖片內容的理解能力，讓 AI 生成 “吉卜力” 畫風的圖片引爆社交網路。AI 技術的進展帶來瞭解決以下兩大難題的可能性，讓市場重新評估 AI 的商業潛力。物理： AI 對真實世界的理解和執行能力不足。商業：推理成本過高，限制了 AI 的大規模應用。2025 年底，百度發佈文心大模型 5.0，Google 發佈 Gemini 3，模型實現在統一原生架構下能理解圖片、看懂視訊，大模型統一原生多模態的潛力被逐步看到。技術進步也帶來商業化的可能。目前，大模型有望通過演算法層、架構層、系統層，乃至晶片側的全端最佳化，降低推理成本，提高模型效能，如 Anthropic 的 Claude 系列、Google 的 Gemini 系列、百度文心繫列。AI 行業的競爭不止在於算力、資料，也成為一個公司全端工程能力和基礎創新的綜合博弈。AI 能力正從文字生成走向原生多模態大模型還無法做到完全理解使用者的意圖，但語言模型正在進入 “收益平台期”——儘管算力、資料投入指數級增加，但大模型在預測下一個 Token 的任務上，所表現出的泛化性曲線已明顯放緩。單一文字維度的縮放路徑，無法滿足大模型智能繼續進化的目標。業界一個廣泛流傳的觀點是，大模型要理解世界。“現在的大模型達不到 AGI”，大模型理解世界，需要視覺、聽覺、語言等多種感官資訊的融合。兩點陣圖靈獎得主，楊立昆、Geoffrey Hinton 都曾提出類似的觀點。目前，多數多模態模型就像 “傳話筒”，圖像、語音等訊號需經過獨立模型解碼後再轉譯給語言模型，最終實現理解、生成。建構原生多模態大模型，可以讓模型從訓練階段起，就具備理解圖片、語音等各種模態資訊的能力。原生多模態模型就是能像人一樣，“端到端” 理解各種模態的資訊——前者訓練時只需專注處理單一模態資訊，難在保持 “傳話” 過程中不出現資訊失真的現象；後者則是在訓練時就要讓模型理解圖片、視訊、語音等資訊，但難在讓各種類型資料的意義互通。但原生多模態模型在訓推中需要處理大量多模態的資料，給架構設計、訓練過程和推理等多個層面都帶來了指數級的壓力。Google 從開始訓練 Gemini 系列，便確定原生多模態的技術路徑。但訓練資料較難統一，剛開始 Google 的模型在應用側的效果並算不突出。直到 2025 年末，Gemini 3.0 展現的多模態理解能力，讓業界重新相信了 “原生多模態”。2025 年，國內企業發佈的模型開始呈現原生多模態轉向，發佈的模型有各自的特點。階躍星辰的 Step-3 針對國產晶片頻寬進行了最佳化，降低了企業的商用成本；智譜的 GLM-4.6V 和字節的豆包大模型 1.8，都是將工具呼叫能力原生融入大模型，讓 AI 可以行動；阿里發佈的 Qwen 3-Omni 主要通過最佳化使用者互動與開源，擴大生態。百度文心大模型 5.0 則專注於模型本身，發佈了參數量達 2.4 兆的原生全模態大模型。在國內為數不多的全模態模型中，參數量最大，並在底層架構實現了文字、圖像、音訊、視訊多模態的統一。真實世界本質是跨模態的訊號流，大模型要理解世界，原生多模態是技術上的趨勢。以百度文心大模型 5.0 為例，其文字與視覺理解能力體現出的泛化性，均在 LMArena 大模型競技場相應領域的全球排行榜中，佔據前列。通過原生多模態架構，模型能捕捉到更多非語言資訊，AI 能夠像人類一樣感知現實，並通過 Agent 建立與世界更深層的連接。這也讓大模型切入具身智能、智能座艙、消費硬體等兆美金級賽道的商業場景成為可能。推理成本定義 AI 商業化拐點2024 年底，行業從 “快思考” 轉向 “慢思考”。慢思考是讓模型在回答問題之前，先模仿人類思考路徑，在後台列出完整思維鏈條，自我修正後再生成回答。慢思考模式下使用者每提一個問題，單次消耗的 token 數量都激增。OpenRouter 發佈的年度報告指出，2025 年推理任務消耗 token 的佔比不斷升高，模型專用於推理類任務的呼叫量，佔 token 消耗總額的超 50% 。使用者規模擴大後，模型廠商需為使用者消耗的 token 支付高額的成本。能否降低推理成本，成為 AI 走向商業化的關鍵。2025 年初，DeepSeek 憑藉 MLA 架構和精細化的 MoE 設計，顯著降低大模型計算消耗的同時，提高了模型的性能，被行業視為 “效率標竿”。但 DeepSeek 只是語言模型。語言模型的降本經驗並不能直接平移到多模態領域。GPT-5、Gemini 3、豆包 1.8、文心 5.0 等原生多模態模型，需要處理視覺和音訊流，其對訓練算力的需求是純文字模型的 5 到 10 倍，推理過程也更加複雜。GPT-4o 訓練投入超 1000 PFlop/s-day，大約相當於數千台頂級 GPU 滿負荷運行數周。原生多模態模型若要實現 DeepSeek 式的降本，僅靠模型層面的演算法創新是不夠的。以文心 5.0 為例，依託飛槳深度學習框架進行大規模 MoE 模型訓練，模型預訓練性能較基線提速 230%，啟動參數比低至 3%。在國產晶片替代的大背景下，大模型降本需要同時掌握晶片、框架、模型和應用四個層面的自主權，對企業全端系統工程能力提出了更高的要求。目前國內具備這種閉環能力的只有百度和華為。當推理成本降低，模型可以在後台持續完成自我博弈、工具呼叫和邏輯反思，以 Manus 為代表的通用 Agent 就能實現在網頁間穿梭，完成報表分析。這不光重塑了軟體，也驅動模型能力從 “雲端” 向 “端側” 下沉。原本昂貴的 AI 被嘗試融合進 AI 眼鏡、智能座艙和手機 OS 中。顯然，AI 的下半場不再只是比拚模型規模，而是比 “誰能以更低的成本提供更深的智能”。在這場效率革命中，降本不是目的，而是手段。誰是 AI 時代下一個 “超級入口”？2000 年，百度也憑藉自身技術，為搜狐、新浪、網易等入口網站提供搜尋方面的支援。彼時，這些入口網站雖然擁有龐大的搜尋流量，但 “搜尋” 卻僅被其視為一個附屬的功能模組，沒進行深度最佳化。2001 年，李彥宏力排眾議要推出自己的入口網站，以搜尋引擎為核心的入口 “百度”（Baidu.com）應運而生。百度憑藉超鏈分析技術和精準的中文分詞，從入口網站的索引中脫穎而出。那時，百度的成功在於解決了 “搜得準” 的問題。百度成為了最初的 “平台級入口”。時間回到 2025 年，AI 技術讓 “超級入口” 的邏輯發生了質變，下一代超級入口正從 “匯聚流量的 app” 轉向 “多模態的智能助手”。在 “超級入口” 之爭上，國內能與大廠競爭的創業公司屈指可數。大廠不會放棄任何一種擴張的可能。字節跳動、阿里、騰訊與百度正依託各自的生態，搶佔 “平台級入口” 這一高地。12 月 1 日，字節發佈和中興努比亞合作開發的豆包手機助手，試圖重塑人機互動的底層邏輯。使用者僅通過語音互動，就可以讓豆包手機助手直接接管使用者螢幕。同期，阿里調動整個集團資源，打造 AI 時代的超級助手。阿里成立千問 C 端事業群，將之前阿里雲事業部下通義千問 APP 改名 “千問 APP” 發佈，以 “一周一更新” 的速度迭代。近日，千問 APP 已接入高德地圖，未來阿里或把夸克、UC、天貓精靈等功能也整合進千問 APP。百度基於搜尋，也上線了百度文心助手，對標 Gemini 3，競爭超級入口。百度搜尋全面升級文心助手 AIGC 創作能力，支援 AI 圖片、AI 視訊、AI 音樂、AI 播客等多種模態創作。從硬體佈局的演進趨勢來看，百度可以依託文心 5.0 大模型的技術底座，通過蘿蔔快跑接管物理空間，用小度佔據家庭互動入口，讓資訊實現從虛擬空間向真實空間的滲透。幾周前，Google 將 Gemini 3 嵌入核心搜尋業務，通過跨應用的資料調取，即時生成能與使用者互動的 UI 頁面，向使用者直接交付搜尋結果。Google 通過自研 AI 晶片和 Google Cloud 支援大模型訓練、推理，訓練出的先進的模型又能與自身搜尋、雲盤、Android 生態等入口融合，繼續產生相應領域的高品質資料，持續推動智能升級。有行業人士認為，Google 已形成 “算力-模型-資料-應用” 的系統級飛輪，而百度是中國為數不多能與 Google 對標的 “AI 六邊形戰士”。因為下個時代的 AI 競爭的不止是模型能力，而是演進為全端式的系統競爭，比拚的是誰能完成 “算力—系統—模型—入口—資源—行動能力” 六個層面的閉環。他們認為，百度依託崑崙芯、智能雲作為算力與系統底座，以文心大模型作為能力中樞，連結搜尋、網盤、小度等流量入口，並通過搜尋、地圖與自動駕駛等業務將能力落地到現實世界，形成了六大要素閉環，是國內最接近 “AI 六邊形戰士” 形態的公司之一，具備長期演進的系統飛輪能力。圖源網路水面之下，騰訊同樣暗流湧動。12 月下旬，騰訊新成立 AI Infra 部、AI Data 部、資料計算平台部，27 歲的前 OpenAI 研究員姚順雨出任 “CEO / 總裁辦公室” 首席 AI 科學家。過去數月裡，騰訊也以加倍薪資挖角 AI 人才，強化研發體系。在生成式人工智慧的第一波流量交鋒中，有的公司水漲船高，有的公司陷入沉靜。但在喧囂之下，堅守 “技術信仰” 的企業，正在等待那個規則被重新定義的時刻。 (晚點LatePost)

阿里AI戰局再落一子：頂尖科學家許主洪轉崗，執掌多模態互動模型

在吳泳銘“AI驅動”的核心戰略下，阿里正進一步將頂尖人才向AI基礎模型研發的核心戰場集結，而多模態互動則被視為下一階段AI突破的關鍵隘口。正值全球科技巨頭在人工智慧領域展開激烈軍備競賽之際，阿里巴巴內部的排兵佈陣再次出現關鍵變動。硬AI獲悉，近期備受矚目的AI頂尖科學家、阿里集團副總裁許主洪（Steven Hoi）已從智能資訊事業群首席科學家的職位上，轉崗至阿里集團的核心AI研發機構——通義實驗室。阿里方面向硬AI證實了這一消息，並表示許主洪將負責多模態互動模型方向的研究，後續向通義實驗室負責人、阿里雲CTO周靖人匯報。這一內部調動釋放出重要訊號：在吳泳銘“AI驅動”的核心戰略下，阿里正進一步將頂尖人才向AI基礎模型研發的核心戰場集結，而多模態互動則被視為下一階段AI突破的關鍵隘口。對於許主洪而言，這次轉崗意味著他將從更貼近C端應用的“前線陣地”轉向更為核心和底層的“研發心臟”。時間拉回至今年2月，這位在學術界和工業界均享有盛譽的AI大牛（IEEE Fellow、史丹佛大學評選的“全球前1%的AI科學家”）正式加盟阿里，在當時引發了業內不小的轟動。他最初的落腳點是智能資訊事業群，一個囊括了夸克、UC瀏覽器、書旗小說等億級使用者產品的業務叢集，直接向“85後”總裁吳嘉匯報。彼時，業界的普遍解讀是，阿里意圖明顯——借助許主洪在多模態基礎模型及Agents領域的深厚積累，快速提升C端產品與AI結合的應用能力，打造出能與使用者直接對話的“超級應用”。這也符合阿里在AI C端應用上“軟硬一體”的生態構想，即整合“通義”APP、夸克、天貓精靈等核心業務，搶佔AI應用賽道先機。然而，僅僅半年多後，許主洪便調離了這個被視為阿里AI應用重要出口的事業群，轉而投身於更為基礎和前沿的通義實驗室。這一變化背後，是阿里對AI戰略優先順序的再聚焦。一位接近阿里的人士向硬AI分析稱：“這可以看作是阿里集中優勢兵力，全力攻堅核心基礎模型能力的體現。應用創新固然重要，但基礎模型的持續領先才是決定未來戰局的關鍵。讓最頂尖的科學家回到最核心的研發崗位，是確保技術引擎持續強大的必然選擇。”01. 阿里“亮劍”多模態互動許主洪的新戰場——通義實驗室，是阿里“通義”系列大模型的“孵化器”，由阿里雲CTO周靖人親自掛帥。周靖人同樣是AI領域的重量級人物，擁有哥倫比亞大學電腦博士學位，曾任微軟研發合夥人，是阿里雲巨量資料平台和人工智慧研究的靈魂人物。在周靖人的帶領下，通義實驗室已經建構了包括語言、視覺、語音等在內的“全尺寸”和“全模態”模型矩陣，其開源模型在全球範圍內獲得了巨大的影響力。而許主洪此次負責的“多模態互動模型”，正是當前全球大模型研發的前沿陣地。所謂多模態，即讓AI能夠像人一樣，同時理解和處理文字、圖像、音訊、視訊等多種資訊形式，並以更自然、更智能的方式與人類進行互動。這被認為是AI從“能聽會說”邁向“能看會想”的關鍵一步，也是通往通用人工智慧（AGI）的必經之路。無論是Google的Gemini、OpenAI的GPT-4o，還是阿里自身發佈的Qwen-VL、Qwen-Audio等模型，都已展現出強大的多模態能力。而許主洪在加入阿里之前，其研究便長期聚焦於此，尤其以“多模態預訓練”領域的突破性研究聞名。他提出的低成本預訓練策略，曾深刻影響全球大模型的研發處理程序。此次履新，意味著阿里將整合許主洪在多模態領域的學術遠見和工業界經驗，與通義實驗室現有的工程和研發能力相結合，意圖在多模態這一核心賽道上建立起更強的技術壁壘。其未來的研究成果，不僅將為夸克、淘寶等前端應用提供更強大的AI能力支援，更有可能催生出全新的互動範式和產品形態，例如更智能的個人助理、更沉浸的AI硬體等。02. “巨頭”的邏輯：人才、資源與戰略定力許主洪的轉崗，是阿里AI戰略在“聚光燈”下的又一次微調，也折射出當前AI巨頭競爭的普遍邏輯。首先，頂尖人才的流向即是戰略方向的指針。從吳泳銘親自兼任阿里雲CEO，到此次將許主洪這樣的戰略級科學家部署到基礎模型研發的一線，都顯示出阿里最高層對底層技術掌控力的極度重視。其次，資源正以前所未有的力度向核心模型集中。知情人士透露，此次調整是“正常的集團內部轉崗”，其背後邏輯是“集中資源投入基礎模型能力建設”。這意味著，相較於在應用層面的多點開花，阿里當前更傾向於將寶貴的研發資源和人才投入到底層模型的“深井”中，以求獲得更具顛覆性的技術突破。最後，這體現了巨頭在喧囂的AI浪潮中尋求戰略定力。AI應用的商業化路徑仍在探索之中，但基礎模型的代際競爭卻已白熱化。在這樣的背景下，是否選擇長期投入、夯實技術根基，考驗著每一家公司的戰略遠見與決心。 (硬AI)

李飛飛團隊重磅綜述：Agent AI—— 通往多模態互動 AGI 的關鍵方向

大家好～今天要和大家拆解一篇由李飛飛團隊牽頭、聯合微軟研究院等機構發佈的Agent AI綜述論文。這篇文章堪稱“Agent AI全景圖”，從定義、技術原理到實際應用，把這個可能改變未來人機互動的方向講得明明白白。如果你好奇“能像人一樣感知、思考、行動的AI”到底是什麼樣，這篇總結會用最通俗的語言，帶你看懂Agent AI的核心邏輯～一、先搞懂：Agent AI到底是什麼？和傳統AI有啥不一樣？首先，咱們得先給Agent AI下個“親民”的定義：它不是傳統那種“只會處理單一任務”的AI（比如只會識別圖片、只會聊天的AI），而是能“感知環境+理解資訊+做出行動”的全能型互動系統。舉個例子：傳統AI可能只能告訴你“這張圖裡有個蘋果”，但Agent AI能做到——看到蘋果（視覺感知）、聽懂你說“幫我拿過來”（語言理解）、然後控制機械臂把蘋果遞到你手上（物理行動）。它的核心目標很明確：朝著通用人工智慧（AGI）邁進，讓AI既能在物理世界（比如機器人）幹活，也能在虛擬世界（比如遊戲、元宇宙）互動，還能處理文字、圖片、聲音等多模態資訊。二、Agent AI的“核心燃料”：大模型（LLM/VLM）是關鍵Agent AI之所以能“全能”，離不開大語言模型（LLM，比如GPT系列）和視覺語言模型（VLM，比如GPT-4V）的支撐。但光有大模型還不夠，論文裡重點講了怎麼“馴服”大模型，解決它們的短板：1. 解決大模型的“幻覺”問題你可能遇到過AI聊天時說“瞎話”——比如編造不存在的知識，這就是“幻覺”。Agent AI怎麼治？給AI“找外援”：通過“檢索增強生成”（比如聯網查資料、呼叫知識庫），讓AI說的每句話都有依據；讓AI“落地”：把AI放到具體環境裡（比如機器人在房間裡行動），用環境反饋校正錯誤（比如拿不到蘋果就調整動作，而不是亂編“蘋果已經拿到了”）。2. 避免AI的“偏見”，做到更包容大模型訓練資料裡可能藏著人類社會的偏見（比如性別、種族刻板印象），Agent AI通過這幾點改進：擴大訓練資料範圍：不再只依賴英文網際網路資料，加入更多不同文化、語言的內容；即時監控+人工反饋：比如發現AI對某類使用者回應有偏見，就及時調整模型；設計“包容性規則”：比如生成圖片時，避免把某類職業和特定性別繫結。3. 保護使用者隱私，這是底線Agent AI會收集使用者互動資料（比如聊天記錄、操作行為），論文特別強調：資料要“透明”：使用者得知道AI在收集什麼、用在那（比如是用來最佳化回答，還是用來訓練新功能）；儲存要“安全”：用加密、 secure伺服器保護資料，不能隨便分享給第三方；使用者有“控制權”：比如可以要求刪除自己的資料，符合GDPR、CCPA等隱私法規。三、Agent AI的“大腦結構”：一個能感知、思考、行動的閉環系統論文提出了Agent AI的核心範式——不是單一模組，而是一個“感知-學習-記憶-思考-行動”的閉環。咱們拆成5個關鍵部分看：1. 環境感知：AI的“眼睛和耳朵”負責收集外界資訊，比如通過攝影機看畫面、麥克風聽聲音、感測器感知物理環境（比如機器人的觸覺感測器）。比如遊戲裡的Agent AI，能通過畫面識別“玩家在《我的世界》裡收集了木頭”，也能聽懂玩家說“我要做工作台”。2. 學習模組：AI怎麼“學會幹活”論文裡提到了3種核心學習方法，都很有代表性：強化學習（試錯學習）：像小孩學走路一樣，AI通過“做對了給獎勵、做錯了受懲罰”慢慢最佳化動作。比如機器人學抓杯子，抓掉了就調整力度，抓穩了就“記下來”；模仿學習（跟著專家學）：直接“抄作業”——比如讓AI看人類操作機械臂的視訊，模仿著學動作；上下文學習（舉一反三）：給AI幾個例子，它就能應對新任務。比如教AI“怎麼在《我的世界》裡砍樹”，它就能自己推匯出“怎麼挖石頭”。3. 記憶模組：AI的“知識庫”Agent AI需要“記住東西”才能持續行動：短期記憶：比如記住玩家剛才說的“拿蘋果”，不會轉頭就忘；長期記憶：比如記住“機械臂抓玻璃要輕一點”“使用者對堅果過敏”這類長期有用的資訊。4. 認知模組：AI的“思考中樞”這是Agent AI的“靈魂”，負責“想清楚再做”：邏輯推理：比如“要做工作台，得先把木頭變成木板，再用木板拼工作台”；任務規劃：把複雜任務拆成小步驟，比如機器人“幫我做早餐”，會拆成“拿牛奶→熱面包→煎雞蛋”。5. 行動模組：AI的“手腳”把思考的結果變成實際動作——可能是物理動作（機器人動機械臂），也可能是虛擬動作（遊戲裡NPC說話、元宇宙裡Avatar走路）。四、Agent AI有那些“分身”？6大分類帶你看懂論文裡把Agent AI按“能力和場景”分成了6類，每類都有具體例子，一看就懂：1. 通用智能體（Generalist Agent）：“什麼活都能搭把手”不是只幹一件事，而是能應對多場景。比如微軟的“MindAgent”，既能在遊戲裡幫玩家規劃策略，也能在機器人任務裡做步驟拆解。2. 具身智能體（Embodied Agent）：“有實體，能在物理世界幹活”這類Agent有“身體”，比如機器人、自動駕駛汽車：行動型：比如工廠裡搬貨物的機器人、家裡的服務機器人；互動型：比如能和你對話的導購機器人，既能回答產品問題，又能帶你找貨架。3. 模擬環境智能體（Simulation Agents）：“在虛擬世界練手”因為在物理世界訓練AI（比如機器人）成本高、風險大，所以先在模擬器裡“綵排”：比如用“VirtualHome”模擬器訓練AI“做家務”，學會後再放到真實家庭裡；遊戲裡的“Overcooked-AI”，用來練AI和人類的協作能力（比如一起做飯）。4. 生成式智能體（Generative Agents）：“能創造內容，讓虛擬世界更生動”這類Agent擅長“造東西”，比如：元宇宙裡的AI：你畫個草圖，它能生成3D場景；遊戲裡的NPC：不再是“按劇本說話”，而是能自己安排作息、和玩家自然聊天（比如《星露穀物語》裡能記住你喜好的NPC）。5. 知識推理智能體（Knowledge & Logical Inference Agents）：“會查資料、會邏輯思考”知識型：比如醫療AI，能呼叫醫學資料庫，給患者解釋“為什麼會咳嗽”；邏輯型：比如法律AI，能根據法條推導“這個案例該怎麼判”；情感型：比如心理陪伴AI，能聽懂你語氣裡的難過，給出共情回應。6. LLM/VLM Agent：“大模型直接當‘大腦’”把LLM/VLM直接改造成Agent，比如用GPT-4V做遊戲助手——給它看《我的世界》畫面，它能一步步教你“怎麼造工作台”；用ChatGPT做機器人任務規劃，它能把“幫我整理桌子”拆成“移開杯子→擦桌子→把書放好”。五、Agent AI已經能用在那？3大落地場景超實用論文裡用大量實驗證明，Agent AI不是“紙上談兵”，已經在遊戲、機器人、醫療這3個領域跑通了不少案例：1. 遊戲領域：讓遊戲更“活”，玩家體驗升級NPC不再“機械”：用LLM讓NPC有自己的“性格”，比如《艾爾登法環》裡的NPC，能根據玩家的選擇改變對話內容，而不是重複固定台詞；幫玩家規劃策略：比如GPT-4V能看《我的世界》畫面，告訴你“現在有木頭，下一步該開背包、做木板、拼工作台”（論文裡還放了實際對話截圖，超真實）；自動生成遊戲場景：比如輸入“一個有瀑布的森林”，Agent AI能生成對應的3D地圖，幫遊戲開發者省時間。2. 機器人領域：讓機器人更“聰明”，能聽懂、會幹活語言控制機器人：你說“把果汁放到架子上”，機器人能聽懂，還能通過視覺確認“果汁在那、架子在那”；複雜任務拆解：比如“用烤箱熱餡餅”，機器人會拆成“拿餡餅→開烤箱→放進去→關烤箱”，還會通過攝影機確認每一步有沒有做錯；從“模擬”到“現實”：先在模擬器裡練會“抓杯子”，再調整參數適配真實世界（論文裡叫“Sim to Real遷移”），避免機器人在現實裡摔碎杯子。3. 醫療領域：輔助診療，但要“穩”字當頭診斷輔助：比如用VLM看心電圖、皮膚病變圖片，結合醫學知識庫給出初步判斷（但論文強調：最終診斷必須由醫生做，AI不能替代）；遠端醫療助手：比如幫醫生篩選患者消息，把“緊急症狀”標出來，避免醫生錯過關鍵資訊；知識檢索：患者問“糖尿病怎麼控糖”，AI能呼叫最新醫學指南，用通俗語言解釋，還會提醒“具體方案要遵醫囑”。六、Agent AI要面對的“挑戰”：從技術到倫理論文沒有迴避問題，反而重點提了幾個必須解決的難題：1. 跨模態/跨領域的“鴻溝”比如AI在《我的世界》裡學會了“拿東西”，到《賽博朋克2077》裡可能就不會了——因為兩個遊戲的畫面風格、動作邏輯完全不同。論文提出的解決思路是：讓AI學“通用規律”（比如“拿東西要先對準目標”），而不是只學某個場景的細節。2. 持續自我改進：不能“一訓練完就過時”現在的大模型訓練完就“固定”了，沒法即時學新東西。Agent AI需要“邊用邊學”：比如通過使用者反饋調整回答（你糾正AI“這個資訊錯了”，它下次就不會再犯），或者用大模型生成新資料來最佳化自己。3. 倫理紅線：AI再厲害，也不能“亂來”這部分是論文的重點，也是所有AI發展的底線：醫療AI：絕對不能“瞎診斷”，因為誤診可能危及生命；避免偏見：比如招聘場景的Agent AI，不能因為性別、年齡拒絕候選人；隱私保護：醫療AI收集的患者資料、遊戲AI收集的玩家行為，必須嚴格保密，不能濫用。七、總結：Agent AI的未來——人機互動的下一個“革命”這篇綜述最後強調：Agent AI不是“單一技術”，而是一個“整合多模態、跨現實、能持續進化”的系統。它的終極目標，是讓AI從“工具”變成“夥伴”——既能在工廠幫人幹活，也能在元宇宙陪人互動，還能在醫療場景幫醫生減負。當然，它還有很長的路要走：比如怎麼讓AI更“懂人心”（情感共情）、怎麼在複雜環境裡更“靠譜”（比如極端天氣下的機器人）。但不可否認的是，Agent AI已經打開了通往AGI的一扇關鍵大門，未來值得期待～如果這篇總結幫你看懂了Agent AI，歡迎分享給同樣對AI感興趣的朋友～咱們一起關注這個充滿可能的方向！ (米小傑DIY)

對標Databricks，AI原生多模態資料智能平台 MOI發佈

Matrix Origin MOI對標Databricks與Snowflake，AI原生多模態資料智能平台正式發佈。2025年9月13日，Matrix Origin正式推出AI原生多模態資料智能平台MatrixOneIntelligence（MOI）以及超融合異構雲原生資料庫MatrixOne（MO）。此次發佈標誌著資料智能領域邁出關鍵一步，特別是在人工智慧與資料基礎設施的深度融合方面。MOI的推出旨在通過技術創新加速AI在企業中的落地，為行業帶來更高效、智能的資料處理與分析解決方案。超融合架構 + Data Git：MO的核心優勢MatrixOne的核心在於其超融合架構，旨在解決企業長期存在的資料孤島問題。通過整合不同類型的資料來源，MO可提供統一的資料訪問與管理平台，從而簡化資料處理流程、降低營運成本。MO創新性地引入了“Data Git”概念，該功能顯著縮短AI項目的開發周期，尤其在處理複雜資料場景時，大幅提升項目敏捷性。這一版本控制機制使團隊能夠更高效協作、追蹤資料變更，並快速回滾至歷史狀態，對AI模型迭代與資料治理至關重要。MOI：下一代資料基礎設施的戰略佈局MOI被定位為下一代Data Infrastructure，其核心目標是為企業提供一站式AI資料智能平台。該平台支援自然語言驅動的工作流，意味著使用者可通過自然語言指令運算元據、進行分析與決策，極大降低使用門檻。技術上，MOI對標Databricks與Snowflake，後兩者在資料智能領域已取得顯著成就。Matrix Origin此次戰略舉措旨在通過技術創新縮小與行業領先者的差距，為企業提供更具競爭力的解決方案。Matrix Origin深耕資料智能多年，客戶涵蓋網際網路、金融、能源、製造、醫療等多個行業，表明MOI具備廣闊的應用前景，能夠滿足不同領域對資料智能的多樣化需求。Matrix Origin在資本市場亦展現出強勁的增長勢頭。公司已於2024年5月完成數百萬美元Pre-A輪融資，並於2025年8月獲得超過2億元人民幣的資金，目前正在進行新一輪融資。這表明資本市場對Matrix Origin的發展前景持樂觀態度，為MOI的持續研發與市場拓展提供了充足的資金支援。隨著人工智慧技術的不斷發展，對資料智能平台的需求將持續增長。Matrix Origin有望憑藉其技術優勢與市場經驗，在這一領域取得更大突破。MOI的發佈不僅展現了Matrix Origin的技術實力，也預示著資料智能行業將迎來新一輪變革。未來，資料智能平台領域的技術創新將圍繞以下幾個主流方向展開：1. 生成式AI與增強分析：通過自然語言互動、自動生成洞察與決策建議，降低分析門檻，實現“人人可用”的 analytics。2.多模態資料融合與即時處理：支援文字、圖像、語音、時序等多模態資料的統一儲存、索引與即時計算，滿足AI應用對多樣化資料的需求。3.Data as Code（資料即程式碼）：借鑑DevOps理念，實現資料版本控制、CI/CD、可觀測性，提升資料開發效率與治理水平，類似MO的“Data Git”。4. 邊緣智能與雲邊協同：將AI能力下沉至邊緣節點，實現低延遲、高隱私的資料處理，同時與雲端協同，最佳化資源利用。5.智能體（Agent）編排與自動化決策：通過多智能體協作、任務規劃與執行，實現從資料到行動的閉環自動化，推動企業營運智能化。6. 資料安全與隱私計算：在資料共享與分析過程中，融合差分隱私、聯邦學習、同態加密等技術，保障資料合規使用。7. 量子計算與AI融合：探索量子計算在複雜最佳化、特徵提取等AI任務中的應用潛力，提升計算效率。這些趨勢將共同推動資料智能平台向“AI原生、多模態、自動化、可信任”方向演進，成為企業數位化轉型的核心基礎設施。 (壹號講獅)

字節大模型關鍵人物被曝離職！

字節跳動已至少流失7名AI大佬。字節跳動被曝又損失一員大將！智東西8月25日消息，今日下午，據微信公眾號大廠日爆消息，字節跳動豆包大模型視覺基礎研究團隊負責人馮佳時已經於近期離職，並且推算他為字節跳動職級4-1、4-2大佬。今年6月，就有媒體爆料馮佳時將離職，但當時被字節闢謠為不實資訊。▲字節跳動豆包大模型視覺基礎研究團隊負責人馮佳時2024年，字節跳動啟動Top Seed人才計畫，為豆包大模型團隊招人，在招聘海報中公佈的頂尖導師團隊共有8人，馮佳時就是其中之一。▲Top Seed人才計畫的頂尖導師團隊馮佳時2007年本科畢業於中國科學技術大學，碩士畢業於中國科學院自動化研究所，2014年獲得新加坡國立大學博士學位，2014-2015年在加州大學伯克利分校從事博士後研究，2016年-2021年在新加坡國立大學擔任助理教授，他曾在新加坡國立大學師從AI領域全球頂尖學者顏水成，2009年顏水成回國後，馮佳時接任其在機器學習與視覺實驗室的主持工作。2021年馮佳時回國加入字節跳動，專注於電腦視覺、機器學習領域的相關研究及其在多媒體中的應用。字節跳動的公開資訊顯示，馮佳時已發表400多篇關於深度學習、物體識別、生成模型、機器學習理論方面的論文，曾獲得ACM MM 2012最佳技術演示獎、TASK-CVICCV 2015最佳論文獎、ACM MM 2018最佳學生論文獎。他也是2018年麻省理工學院技術評論亞洲35歲以下創新者獎獲得者，曾擔任CVPR、NeurIPS、ICML、ICLR的領域主席以及ICMR 2017的程序主席。值得一提的是，他的論文在Google學術引用量已經超過6.9萬次。馮佳時的Hugging Face首頁顯示，字節跳動的視訊多模態大模型Sa2VA、自回歸視訊生成模型VideoWorld等研究論文，他均在作者之列。▲馮佳時Hugging Face首頁2023年底，新加坡國立大學Show Lab與字節聯合開源視訊生成模型MagicAnimate，允許使用者從單個圖像和動態視訊生成動畫視訊，這項研究就是馮佳時作為核心研究員推動的。▲MagicAnimate研究論文去年12月以來，字節跳動的大模型團隊已經損失多員大將，包含馮佳時在內已有7人離職。去年12月，字節跳動剪映產品負責人張逍然被曝離職，新動向未知；去年12月，TikTok演算法負責人陳志傑被曝從字節跳動離開，今年3月成立了AI程式設計方向公司言創萬物；今年3月，火山引擎AI應用產品線一號位駱怡航被曝離職，同月入職生數科技擔任CEO。今年6月，字節跳動豆包大模型大語言模型團隊負責人喬木被辭退；今年7月，字節跳動豆包大模型視覺多模態生成負責人楊建朝因家庭因素與長期高強度工作，宣佈暫時休息；今年6月，字節跳動AI Lab負責人李航被曝正式卸任，轉為勞務/顧問身份。另一邊，字節跳動也在大力從全球招兵買馬。去年9月，字節跳動被曝數千萬年薪挖走原阿里通義大模型技術團隊的關鍵成員，包括技術負責人周暢及其手下的十多名團隊成員；今年1月，經緯創投合夥人、前班牛科技高管熊飛被曝加入字節跳動飛書團隊負責南區銷售團隊管理；今年2月，Google Fellow、GoogleDeepMind研究副總裁吳永輝被曝離開Google加入字節跳動，擔任大模型團隊Seed基礎研究負責人。 (智東西)

大模型之路，階躍星辰選擇了一條“無人區”

2025年，全球AI大模型的發展路徑呈現顯著的差異化趨勢。全球範圍內，OpenAI專注「超級模型+萬能平台」；Gemini強化Android生態，端雲協同與多模態領先；Anthropic主攻安全可信AI和Agent能力；xAI依託社交資料最佳化Grok；Meta堅持開源但進展放緩。國內競爭同樣激烈：有資金有入口又有場景的科技大廠，繼續在基礎模型能力上投入，並開始將AI模型的能力和自身業務場景融合。明星創業公司中，DeepSeek追求高性價比；智譜AI佈局全矩陣；Kimi試水社交；百川專精醫療；零一萬物雙軌並行；Minimax海外產品Talkie月活破千萬。而成立剛滿兩周年的階躍星辰，選擇模態全覆蓋路徑並堅持原生多模態理念，創始人姜大昕曾多次強調，“多模態是通往AGI的必經之路。”在這兩年內，階躍星辰發表了22款自研基座模型，其中16款為多模態模型。最新開放原始碼的Step1X-Edit影像編輯模型，效能達到了同類開源模型的SOTA。因此，階躍星辰也被業界稱為「多模態卷王」。對此，姜大昕回應：“我是認可'多模態卷王'這個稱號的。”自創立之初，姜大昕團隊曾繪製過一幅智慧進化路線圖。智能的進化將分為模擬世界、探索世界、歸納世界三個階段。姜大昕判斷，當下AI模型的技術發展正處於從模仿學習向強化學習的轉變階段，透過強化學習培養機器解決複雜問題的能力，使其具備"系統二"的慢思考能力。系統一和系統二是由諾貝爾經濟學獎得主丹尼爾‧卡尼曼（Daniel Kahneman）在其著作《思考，快與慢》中提出的概念，用來描述人類思維的兩種不同運作模式。系統一是直覺性思考，而系統二是需要有意識集中注意力的慢思考過程。大模型的推理過程就類似系統二。在這個階段，多模態模型的能力將起到決定性的作用，AGI的目標是模擬人類智能，而人類智能本身就涵蓋語言、視覺、空間、運動等多種形式，AI具備聽、看、說的綜合能力，才能更好地理解使用者環境並實現自然互動。但是，姜大昕也指出，“從發展階段來看，多模態模型目前可能甚至還沒看到'Transformer'等級的突破性框架誕生，甚至比GPT-1還早。”智慧終端和Agent是階躍星辰在上圖“探索世界”階段最看重的應用場景和應用形態，“但是只有出現了多模態理解生成一體化模型，特別是可擴展的一體化，才能實現人形機器人的泛化能力，才能擴展Agent的能力。”那麼，全球目前是否已經有模型能夠實現多模態理解生成一體化了？姜大昕判斷：“最新的GPT-4o，有可能是理解生成一體化多模態模型，但是不確定它是否能夠Scalable（可擴展）。以Sora為代表的當前一代視訊生成技術已經接近上限，下一代突破應該基於理解生成一體化。”可擴展的多模態理解生成一體化模型的誕生之日，將是多模態模型的ChatGPT時刻，而目前，這個領域還是技術的無人區。在探索科技無人區的同時，每家AI新創公司也面臨商業模式和營收的現實問題。關於階躍星辰的未來發展路徑，姜大昕用三句話進行了概括：堅持基礎大模型的研發；發揮多模態領域的差異化優勢，積極探索前沿方向；在應用層面透過智慧終端Agent建構獨特生態。這三句話背後，隱藏著技術攻堅、商業生態建構等諸多挑戰。在小範圍溝通會上，姜大昕也與騰訊科技深度探討了這些問題，重要觀點包括：1）技術發展判斷：從多模態模型的技術發展來看，以Sora為代表的當前一代視訊生成技術已經接近上限，下一代突破應該基於理解生成一體化。2）商業模式選擇：「超級模型+超級應用」的雙輪驅動，模型能力決定應用上限，而應用則為模型提供具體場景和資料。3）AI時代的成長路徑：投流的邏輯在AI時代不一定適用，AI時代產品的流量成長模式可能不同於傳統網路。不只是DeepSeek，像那吒2、黑神話悟空、Manus等產品也都不是靠鋪天蓋地的投流獲取使用者的。以下為對話內容精選：為何多模態理解生成一體化模型如此重要？問：理解生成一體化的路線是公司成立之初就設定好的嗎？在這個相對較難的前沿方向上堅持，會對商業化有什麼影響？姜大昕：成立之初就設定了這條路線。我認為模型突破是早於商業化的，就像先有GPT-3，才會有ChatGPT；先有多模態融合和推理模型，才會有成熟的Agent。同樣，需要先有多模態理解生成一體化，特別是可擴展的一體化，才能實現人形機器人的泛化能力。一體化技術突破後，它的意義不僅在於改進現有Agent，還會在具身智慧泛化和世界模型建構方面帶來全新應用。對端側來說，理解生成一體化確實能帶來更好的理解與生成能力，有助於Agent發展，但意義遠不止於此。從技術路徑發展階段來看，理解生成一體化相當於語言模型發展中的Transformer階段，甚至比GPT-1還早。Transformer是2017年出現的，而GPT-1是2018年出現的，所以這是一個架構級的基礎突破。問：階躍的技術路線是什麼？是希望自己創造多模態模型的"Transformer時刻"還是等待別人突破後跟進？姜大昕：我們內部有多條技術路線並行探索，因為確實不知道那條路會成功。不謙虛地說，階躍的技術人才儲備很雄厚，各團隊在基於自己的判斷嘗試。我們當然希望自己能做出突破，但真正成功的才有意義。歷史上，Transformer出現之前自然語言處理也有多條技術路線，包括RNN、LSTM等。直到Transformer出現後大家才認可"就是它了"。現在的多路線探索就像當年在尋找更有效率的架構，最終會有一個讓大家都認可的解決方案。很有趣的是，2017年Transformer出現後，真正一階天下的不是OpenAI的GPT，而是Google的BERT。當時在自然語言處理領域，BERT完全吊打GPT。GPT比BERT早出來幾個月，但沒有受到同等重視。 Ilya Sutskever有種執念，堅信沒有生成就談不上理解。當時從實際效果來看，BERT確實比較好。甚至GPT-3出來時我們也只認為它有研究價值，因為又大又笨，似乎什麼都能做但是什麼都做不好，直到ChatGPT出現才改變看法。語言模型已經經歷過這段歷程，視覺領域可能會吸收經驗。一旦視覺的"Transformer"出現，後面的發展路徑會變得順理成章，大家只需沿著語言模型已探索的路徑前進即可。理解生成一體化模型實現的標誌是什麼？問題：GPT-4o新版本是否已實現理解和生成一體化？姜大昕：我們猜測GPT-4o可能已將理解和生成放在同一個模型中，但不確定這種方法是否能實現泛化(scalable)。我們追求的理解生成一體化應該像Transformer一樣能夠擴展，能夠處理海量視訊資料進行預先訓練。判斷模型是否實現了可擴展的理解生成一體化，關鍵在於看它能否預測下一幀(predict next frame)。去年Sora發佈時，很多人非常興奮，但我們其實相當失望，因為我們期待的是理解生成一體化的突破，而不僅僅是一個擴散模型生成視頻。不過回頭看也有道理，從多模態融合直接跨越到理解生成一體化可能太難了，所以現在是理解和生成兩條路線獨立發展，互相促進。OpenAI在Sora論文中提到用視覺模型為資料打標，這正是生成幫助理解的例子。整體方向肯定是要解決"predict next frame"問題，否則後續發展會受限。問：如果某個模型能夠預測下一幀(predict next frame)，具體表現會是什麼樣子？有什麼可驗證的標誌？姜大昕：我認為首先它應該能夠在給定一個電影開頭後持續往下編排，產生有邏輯、符合物理規律的連貫內容。這是可以驗證的能力，顯示它的預訓練做得很好，生成內容既高品質又保持一致性。回顧語言模型發展歷程，GPT-1隻能做單獨的任務如情緒分析、命名實體辨識等；GPT-2嘗試將所有任務轉換為生成任務但效果很差；GPT-3才能像小學生一樣寫出連貫的段落。類比到視覺領域，如果一個模型能夠產生10分鐘合理的影片內容，我認為就達到了這個階段。問：多模態的"GPT-4時刻"需要理解生成一體化且能夠scalable（擴展），這個時刻何時會到來？姜大昕：現在這個產業發展速度很難預測。有時技術突破就是一瞬間的事。就像推理模型的突破，大家一直知道基於模仿學習的大語言模型解數學題存在侷限，但具體如何改進並不清楚，直到o1 發布才恍然大悟：原來思維鏈可以這樣實現。如何看待全球多模態領域的競爭格局？問：能否幫我們定位一下多模態模型的競爭格局？階躍目前處於什麼位置？實現理解生成多模態一體化模型的主要壁壘是什麼？是架構演算法還是高品質資料標註？姜大昕：在國外多模態領域，OpenAI和Google實力很強。 Anthropic主要關注點在Agent。 X.AI可能有很強的隱藏實力，他們既不缺人才也不缺資金和場景，可能在等待時機爆發。 Meta的Llama系列最近看起來進展較慢。國內則分為兩類：一類是像階躍這樣的綜合型公司，涵蓋所有模態，同時做理解和生成，強調技術底層性並探索下一代架構；另一類則專注於AIGC領域，例如專注於視頻生成或專注音樂生成的公司。階躍的不同之處在於我們不僅專注於單一模態或內容生成，而是試圖在基礎模型上推動世代突破。關於理解生成一體化模型的壁壘，演算法和資料、人才都很重要。多模態模型面臨高維度連續空間的建模難題。例如，自回歸架構（Auto- Regressive）無法直接處理複雜連續空間，迫使業界普遍採用擴散模型（Diffusion）。擴散模型的本質是透過逐步迭代產生結果（"一步做不到就分多步完成"），但如何將自回歸與擴散模型深度融合仍存在根本性矛盾——可能需要顛覆性架構創新，例如將連續空間離散化為token，或發明全新範式。這種突破既需要演算法層面的深度思考，也存在著方向性試誤風險，甚至可能徹底推翻現有技術路線。即使架構突破後，資料品質與規模仍是決定性因素。就像燃油車需要汽油才能行駛，再先進的架構若缺乏適配的多模態訓練資料（如精準對齊的圖文/影片/3D資料），也無法發揮真正價值。這需要頂尖人才團隊在資料工程、標註系統、訓練策略等環節持續攻堅。問題：階躍每月都有新模型發布，是否會影響在單一模型上的技術深度？為什麼不集中力量攻克理解生成一體化而是分散在多個模態上？姜大昕：首先，我認同"多模太卷王"這個說法。但需要澄清的是，雖然在外界看來我們每個月都會發布一個新模型，但實際上這些模型是在不同技術路線上的。我們的多模態佈局非常完整，包括語音、圖像、視訊、音樂等多個方向。每條技術路線都經過幾個月甚至半年的累積才發布一個模型，只是當你同時看這麼多方向時，會覺得我們頻繁地發布新成果。關於為什麼不集中力量攻克理解生成一體化，這是個很好的問題。我們也希望這樣做，但理解生成一體化是一個非常全面的挑戰。首先，沒有強大的語言模型就談不上理解，而語言模型現在已經進化到推理模型階段；其次，要做視覺推理需要先有視覺理解能力；最後，理解生成一體化還需要生成能力。因此，不是我們不夠聚焦，而是完成這項任務本身就需要多面向能力的支撐。這也是階躍的優勢——我們在所有這些方向上都有很強的能力，才能將它們組合起來探索前沿方向。在科技無人區探索中的商業化選擇問題：階躍提出"超級模型+超級應用"的雙輪驅動策略。現在許多大廠也在同時發力應用開發和模型研發，而許多新創公司已放棄預訓練大模型。在這種情況下，您認為階躍在一般大模型方向的核心障礙是什麼？技術、場景還是生態？姜大昕：我分幾個層次回答。首先，為什麼我們堅持大模型研發？因為現在這個產業仍處於技術快速發展的階段。 AI產業變化之快令人感慨。回想去年，GPT-4被視為無比強大的模型，讓人覺得國內幾乎無人能及；Sora剛出來時給大家帶來巨大震撼，而現在已經變得不那麼神奇了。也許明年再回看今天的技術突破，例如GPT-4o影像編輯能力，也會變得不那麼令人驚訝。階躍不願在這個技術高速發展的過程中失去主導地位。從應用角度來看，我們一直認為應用與模型是相輔相成的。模型能力決定應用上限，而應用則為模型提供具體場景和資料。因此，雖然我們的產品形態會隨著模型演變而動態發展，但這種邏輯關係始終保持不變。問：能否談談今年AI應用領域的重要變化，產業的焦點是否已從聊天機器人到Agent轉變？姜大昕：大模型早期探索階段主要是因為基礎大模型已經具備了初步的能力和聊天能力，所以產生了一些簡單應用。到了今年，由於模型的多模態能力和推理能力的進一步成熟，智能體(Agent)概念開始成為焦點。我們看到非常多新應用程式出現，例如深度搜尋產品的出現，Google、OpenAI和國內公司都在做"深度研究"類應用，還有像manus或flowith這樣的通用智能體。階躍的產品策略也隨之調整，我們將更聚焦於Agent領域。問：很多AI公司都在透過網路時代的投流方式來做成長。您怎麼看？姜大昕：DeepSeek給我們的一個重要啟示是，投流的邏輯在AI時代可能不完全成立。 DeepSeek從未大規模投放流量，但若放開流量限制，使用者規模破億不成問題。我認為我們需要重新思考AI時代產品的流量成長模式，它可能不同於傳統網路的玩法。不只是DeepSeek，像那吒2、黑神話悟空、Manus等產品也都不是靠鋪天蓋地的投流獲取使用者的。這是在悄然變化的。問：階躍選擇做雲端平台建構智慧終端Agent生態，為什麼選擇成為供應商角色而非直接toC，例如開發類似Manus那樣的產品？姜大昕：因為智慧終端Agent是個全新領域，我們更好的策略是先與已有大量使用者和場景的頭部企業合作，透過實際應用，探索模型如何更好地發揮作用。如果一開始就做ToC產品，第一步就需要取得使用者成長，這很困難。與合作夥伴一起探索清楚後，我們未來自己獨立開發產品也是可能的。另外，未來還有一個很誘人的場景，目前所有終端裝置都是孤立的，就是打通所有裝置，跨裝置進行互動。問：您與OPPO合作的"一鍵問屏"功能目前已能實現圖片理解，未來是否會有更多類似Computer Use或Phone Use這樣的Agent功能，與手機系統深度結合，呼叫更多權限完成操作？姜大昕：確實是。從技術能力上這些已經完全可以實現，只是將其產品化量產還需要一定時間。實現過程中確實會面臨API權限打通、應用資料之間的障礙等挑戰。這正是為什麼技術雖已成熟，但產品成熟仍需時間的原因。這是一個綜合性問題，涉及手機廠商關係、生態建設等多個方面，需要時間來探索合適的互動方式。問：階躍在智慧座艙領域的能力邊界定位是什麼？現在有些新創公司專為Agent，將大模型視為能力供應方，直接與車廠合作。階躍在這方面的思考是什麼？姜大昕：我認為純應用公司始終面臨一個風險：當通用模型能力進入下一階段時，它們可能會被降維打擊。因此，我們沒有將整個公司圍繞某一個應用程式建構，而是繼續專注於技術和模型能力的提升。但我們非常重視應用，因為通用模型的許多能力需要透過應用來牽引。例如，在測試智慧玩具時，合作方提出一個挑戰：如何判斷小孩說話停頓時是在思考下一個詞，還是已經說完了？這種在通用場景中不常見的問題，如果能在模型層面解決，將提升模型整體能力。因此，我們認為在不同場景中尋找這類挑戰並將其回饋給模型，能促進模型能力的成長。（騰訊科技）

騰訊，大動作！加碼AI

AI的競爭日漸激烈，騰訊在大模型領域的戰略和部署正在持續進化。4月29日，證券時報記者從騰訊獲悉，騰訊對其混元大模型研發體系進行了全面重構，圍繞算力、演算法和資料三大核心類股，刷新團隊部署，加碼研發投入。具體來看，騰訊新成立了兩個部門，分別是大語言模型部和多模態模型部，負責探索大語言模型和多模態大模型的前沿技術，持續迭代基礎模型，提升模型能力。此外，騰訊將進一步加強大模型資料能力和平台底座建設，資料平台部專注大模型資料全流程管理與建設，機器學習平台部則聚焦機器學習與巨量資料融合平台建設，為AI模型訓練推理、巨量資料業務提供全面高效的PaaS平台底座，共同支撐騰訊混元大模型技術研發。記者注意到，最近一段時間以來，騰訊在AI領域的組織架構調整動作不斷。今年2月，騰訊完成系列AI產品線調整。繼騰訊元寶從TEG（技術工程事業群）轉入CSIG（騰訊雲與產業事業群）之後，QQ瀏覽器、搜狗輸入法、ima等更多產品和應用也將匯入CSIG，成為騰訊面向大模型時代打出的全新產品組合。與此同時，QQ瀏覽器、搜狗輸入法、ima等產品所在的團隊和組織將從PCG（平台與內容事業群）調整至CSIG。完成這一系列調整後，騰訊建立起了一個包含元寶、ima、QQ瀏覽器、搜狗輸入法四大產品線的AI產品矩陣。其中，元寶是大模型時代的應用入口及標配的AI助手；ima則是延伸到辦公場景的工具產品；而QQ瀏覽器以及搜狗輸入法，則對應如今競爭激烈的AI搜尋市場。除了建構新的AI產品矩陣，隨著DeepSeek等開源大模型的普及，騰訊系列產品是最早一批擁抱DeepSeek的產品，元寶、ima、QQ瀏覽器、騰訊文件、騰訊地圖、QQ音樂等，均宣佈同時支援混元大模型與DeepSeek模型“雙引擎”，微信搜尋也上線了“AI搜尋”功能並接入DeepSeek-R1。這顯示出騰訊正積極推進“核心技術自研+擁抱先進開源”的多模型策略。如果說此前一輪組織架構調整主要圍繞產品側，那麼本次的調整則主要針對技術側，旨在增強騰訊混元大模型的研發實力。騰訊相關人士表示，這意味著騰訊在快速調整組織架構以應對日新月異的大模型行業發展，這次調整有利於整合資源，最佳化研發流程，進一步提升騰訊在AI領域的長期技術作戰能力。據騰訊發佈的2024年年報，騰訊2024年研發投入達706.9億元，資本開支連續四個季度實現同比三位數增長，年度資本開支更突破767億元，同比增長221%，創歷史新高。騰訊總裁劉熾平在財報電話會上表示，隨著AI能力和價值的逐步顯現，騰訊加大了AI投資，以滿足內部業務需求、訓練基礎模型，並支援日益增長的推理需求。據悉，騰訊AI戰略進入重投入期。騰訊董事會主席兼首席執行官馬化騰表示，“數月前，我們重組了AI團隊以聚焦於快速的產品創新及深度的模型研發、增加了AI相關的資本開支、並加大了我們對原生AI產品的研發和行銷力度。我們相信這些加大的投資，會通過提升廣告業務的效率及遊戲的生命周期而帶來持續的回報，並隨著我們個人AI應用的加速普及和更多企業採用我們的AI服務，創造更長遠的價值。”無論是加大AI資本開支投入，還是屢屢調整團隊增強AI研發及產品實力，其凸顯的都是AI大模型領域日漸激烈的競爭，尤其是各個科技大廠之間“硝煙瀰漫”的你追我趕狀態。事實上，面對飛速發展的AI行業，阿里巴巴、字節跳動等大廠也在頻繁地調整組織架構，通過更好地“排兵佈陣”來應對市場競爭。例如，在模型側擁有較強實力的阿里在去年12月的組織架構調整中，將通義千問和夸克一同歸入了“AItoC”類股。今年3月，阿里正式發佈了AI旗艦應用——新夸克。新夸克基於阿里通義的推理與多模態大模型，由舊夸克全面升級為無邊界的“AI超級框”，作為阿里“AItoC”的拳頭級產品，體現了阿里發力AI應用側的決心。前不久，字節跳動也進一步整合AI研發力量，將集團級核心研究部門AI Lab整體併入大模型部門Seed。據悉，為了應對新一輪大模型競爭，字節跳動籌建了獨立於原有組織架構的 Flow和Seed，前者做AI產品，後者做大模型研發。Seed自成立就在不斷吸納來自字節內外的人才，並於最近開啟了今年的Top Seed人才計畫，持續招募頂尖人才加入團隊。 (證券時報)

阿里開源超強多模態模型！70億參數干翻Google，看一眼秒出食譜，嘮嗑更像人，還能視訊聊天

更強大的模型還在路上。智東西3月27日報導，今天，阿里巴巴通義千問發佈了新一代端到端多模態旗艦模型Qwen2.5-Omni-7B。這一模型能夠即時處理文字、圖像、音訊和視訊等多種輸入形式，並通過即時流式響應同時生成文字與自然語音合成輸出。該模型現已在Hugging Face、魔搭、DashScope和GitHub上開源，採用寬鬆的Apache 2.0開源協議，模型論文也全面開源，詳解了背後的技術細節。同時，使用者可以在Demo中體驗互動功能，或是在Qwen Chat中像打電話或視訊通話一樣與Qwen聊天。千問團隊稱，Qwen2.5-Omni採用了全新的Thinker-Talker架構，支援跨模態理解和流式文字、語音響應，支援分塊輸入和即時輸出。在與同等規模的模型進行基準測試比較時，Qwen2.5-Omni表現出一定優勢，並超過了Gemini 1.5 Pro和GPT-4o-mini等閉源模型。Qwen2.5-Omni在音訊能力上優於類似大小的Qwen2-Audio，並與Qwen2.5-VL-7B保持同等水平。在權威多模態理解測試OmniBench上，Qwen2.5-Omni獲得了SOTA表現，超越Gemini 1.5 Pro，提升幅度達30.8%。Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文字輸入處理類似的效果，在MMLU通用知識理解和GSM8K數學推理等基準測試獲得了不錯的成績。開源地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B論文地址：https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdfDemo體驗：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo4月1-2日，智東西聯合主辦的2025中國生成式AI大會將舉行。50+位嘉賓將在開幕式、GenAI應用論壇、大模型峰會、DeepSeek R1與推理模型技術研討會、AI智能體技術研討會、具身智能大模型技術研討會帶來報告、演講、對話和討論。掃碼申請主會場觀眾票或購票參會。01.全模態即時互動，看一眼食材秒出食譜在部落格文章中，千問團隊放出了多個Qwen2.5-Omni在現實世界多模態場景中的測試案例。目前，Qwen2.5-Omni共有Cherry和Ethan兩種語音可供選擇。Cherry音色對應的是女聲，Ethan音色對應的是男聲。從聽感來看，這兩種語音真實、自然，會在說話時加入停頓、語氣詞等內容。Qwen2.5-Omni能在場景中即時處理、分析多模態內容。例如，在下廚時，可以拿著食材詢問通義應該如何處理，或是環視廚房裡的調料，看究竟應該用那些調料，可謂是廚房小白福音了。Qwen2.5-Omni能聽懂音樂，判斷歌曲是什麼風格，採用了何種音調，並提出對原創歌曲歌詞、節奏等方面的意見。在繪畫時，Qwen2.5-Omni可以根據草圖判斷繪畫內容，還能給出畫面的構圖建議。此外，Qwen2.5-Omni還可以在戶外場景判斷天氣、在學習場景中輔助解題、論文閱讀，具備較好的通用多模態能力。02.自研端到端架構，獲得多模態理解基準測試SOTAQwen2.5-Omni採用Thinker-Talker雙核架構。Thinker模組如同大腦，負責處理文字、音訊、視訊等多模態輸入，生成高層語義表徵及對應文字內容。Talker模組則類似發聲器官，以流式方式接收Thinker即時輸出的語義表徵與文字，流暢合成離散語音單元。Thinker基於Transformer解碼器架構，融合音訊/圖像編碼器進行特徵提取；Talker則採用雙軌自回歸Transformer解碼器設計，在訓練和推理過程中直接接收來自Thinker的高維表徵，並共享全部歷史上下文資訊，形成端到端的統一模型架構。千問團隊還提出了一種新的位置編碼技術，稱為TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實現視訊與音訊輸入的同步。在多項基準測試中，Qwen2.5-Omni在包括圖像，音訊，音視訊等各種模態下的表現都優於類似大小的單模態模型以及閉源模型。值得一提的是，在多模態理解基準測試OmniBench上，Qwen2.5-Omni達到了SOTA表現，其得分為56.13%，超過第2名Gemini 1.5 Pro的42.91%。在視訊到文字任務上，Qwen2.5-Omni也超過了原本的開源SOTA模型和GPT-4o-mini。在其他基準測試中，如語音識別（Common Voice）、翻譯（CoVoST2）、音訊理解（MMAU）、圖像推理（MMMU、MMStar）、視訊理解（MVBench）以及語音生成（Seed-tts-eval和主觀自然聽感），Qwen2.5-Omni的成績均超過了Qwen家族的其他單模態模型。03.結語：更強大的Qwen2.5-Omni還在路上Qwen2.5-Omni-7B一經發佈便獲得海內外使用者的關注，有不少網友已經開啟了催更模式，比如增加對小語種的支援、開發千問海外App，或是與智能眼鏡等硬體結合。據千問團隊介紹，未來，他們還會發佈能力更強、速度更快的模型，並擴展其多模態輸出能力，涵蓋圖像、視訊和音樂等多種形式。 (智東西)