#SOTA
【CES 2026】Anthropic聯創罕見曝內在文化:不相信炒作! ScalingLaw沒有放緩;資金和算力遠少於OpenAl,卻多次推出SOTA
在Anthropic 成立五周年前夕,聯合創始人兼總裁 Daniela Amodei 罕見接受了公開採訪!Daniela Amodei 是 Dario Amodei 的妹妹,曾任 OpenAI 的安全與政策副總裁,在確保AI 技術安全和倫理使用方面發揮了關鍵作用,後於2021年和Dario 及另外5名員工從OpenAI “出走”,共同創辦了Anthropic。在這次訪談中,Daniela 講述了他們當時離開OpenAI 的原因——並非OpenAI做錯了什麼,而是他們想要打造一家擁有先進AI技術水平,同時又把安全性放在核心地位的科技公司。Daniela 表示,在這場高風險的AI 競賽中,他們走的是一條與其他公司不同的道路,專注於以更少的資源做更多事情。據她透露,Anthropic內部的算力和資金都遠少於OpenAI、Google、Meta等競爭對手,但仍能多次推出SOTA模型。當被問及「算力投入是否過度」時,Daniela 表示,在技術層面,AI 進展未出現放緩跡象,模型正以可預測的速度變得更優、更快,Anthropic 內部公開確認這一趨勢,Dario 是個對技術趨勢判斷極為準確的人。而有關「AI是否會出現泡沫」的爭議,Daniela認為科技的快速成長和它真正落地到企業或個人的使用之間,存在時間差,這一點可能會導致產業泡沫。核心問題在於:科技擴散進真實經濟體系的速度,是否能持續配合科技本身的加速度。與OpenAI 優先面向C端消費者相比,Anthropic 將自身定位為企業優先的AI模型供應商,其商業模式高度聚焦於B2B市場。最新數據顯示,Anthropic 的全球客戶基礎從兩年前的不到1,000家企業客戶激增至超過30萬家,實現了300倍以上的成長。其成長主要集中於金融服務、醫療保健、法律等對精度要求極高的產業。在訪談中,Daniela 也透露他們並非一開始就押注企業市場,但Anthropic追求安全性和可靠性的基因天然適合B2B。此外,有關「AGI何時到來」的爭論,Daniela 表示「這個概念可能已經過時了,按照某些定義,我們可能已經實現了AGI」。技術進展在一段時間內還會有所突破,但Anthropic 也會為能力放緩的世界做好準備。在不改變願意的基礎上,小編對訪談實錄進行了整理和潤色,希望對各位有所啟發,enjoy!Anthropic為何出走:安全不與商業成功相衝突主持人:當你們還在搭建這家公司雛形的時候,那時世界正在發生什麼事?你當時認為,Anthropic 獨特之處在於能解決什麼問題?Daniela Amodei:事實上,Anthropic 將在本周稍晚迎來五周年紀念。公司的起點是:我和另外六位共同創辦人當時都在OpenAI 工作。我們一起參與了許多項目,包括把一些當時最大的模型擴展到可行規模,例如GPT-2 和GPT-3,以及大量早期語言模型工作,這些後來成為了大語言模型革命的一部分。我們也做過ScalingLaws(規模定律)的研究,以及很多偏技術安全方向的工作,例如可解釋性和對齊研究。漸漸地,我們形成了一個非常清晰的願景:我們想打造一家真正處於AI 前沿的科技公司,開發具有變革性的AI,但同時,把安全性和可靠性放在極其核心的位置。到了某個節點,我們覺得,與其在原有體系內推進,不如自己出來做這件事更合理──這就是Anthropic 成立的原因。時間點大概是2020 年冬天到2021 年初,正值疫情高峰,我們都被困在家中。那種感覺既非常令人害怕,又非常令人興奮。主持人:你曾描述過一個幾乎帶有電影感的時刻:2021 年1 月,你們在Dario 的後院,所有人都戴著口罩,Eric Sc​​hmidt 也在場,大雨中你們在帳篷下向他做融資路演。你會把它視為公司的起源故事嗎?Daniela Amodei:是的,那一幕確實很難忘。我記不清具體日期了,但應該是1 月初的某一天。我們12 月18 日正式離開原來的工作,然後在1 月初聚在Dario 家的後院。那天在下雨,我們搭了一個“派對帳篷”,就站在帳篷下。後來Eric 成為了我們A 輪的投資人。但當時的狀態是:我們已經下定決心要創辦這家公司,但對它最終會變成什麼樣,其實還沒有一個非常清楚的答案。我們只有一個巨大的夢想和一些宏大的想法。一個有趣的細節是,當時我已經懷孕八周,懷的是我現在的兒子。我想在共同創辦人裡,可能只有Dario 知道這件事,甚至不確定他當時是否已經知道。疫情、口罩、社交距離,再加上個人和職業層面的巨大變化——那一刻真的有很多事情同時發生。主持人:在那個當下,而不是事後回看,你當時覺得OpenAI 做錯了什麼,值得你們承擔離開的風險?Daniela Amodei:我不會把它描述為“逃離某件事”,而更像是“奔向某個目標”。共同創辦人之間認識與共事已經很多年了,不只是OpenAI 的那段時間。例如Dario、Chris Olah 和Tom Brown 之前就曾在Google Brain 一起工作;Jared 曾經是Dario 的Hertz Fellow;Dario 和我是兄弟姊妹。我認識Chris 已經大概13 年了——有一天我在電梯裡碰到他,還突然意識到「天啊,我認識他已經這麼久了」。我們是一群價值觀高度一致的人。我們深信,人工智慧擁有巨大的正向潛力,但如果想真正釋放這種潛力,就必須極為嚴肅地對待風險。於是我們開始想:如果能從零開始建立一個組織,把這件事放在一切工作的核心位置,會怎麼樣?我們也堅信,安全與可靠並不與商業成功衝突。在當時這聽起來很新穎,但我們認為這兩者是正相關的,而不是對立的。主持人:你是那個需要把「我們要嚴肅對待安全」轉化為可執行戰略的人。現在,真正讓你夜不能寐的是什麼?Daniela Amodei:我覺得主要有兩個面向。第一,是技術安全本身。還有大量非常重要、非常有趣的技術安全問題尚未解決。 Anthropic 一直努力在業界成為這方面的領導者——無論是機制可解釋性,還是憲法式AI(constitutional AI)。我們的技術團隊花了大量時間思考,如何把這些「護欄」直接內嵌進模型本身。但模型變強的速度實在太快了,永遠還有更多工作要做。第二,是科技對社會層面的影響。 Anthropic 在這方面也相對少見:我們公開發布了大量關於AI 社會影響的研究,包括最近一份關於AI 對經濟與勞動力衝擊的報告。我們之所以這樣做,是因為我們認為,作為一家公益公司,這是我們的責任。我們不認為自己能獨自解決所有問題,但我們必須與政府、民間社會以及公眾共同討論:當AI 能夠完成越來越多原本人類的日常工作時,社會會發生什麼變化?主持人:你們的「激進透明」似乎是核心理念之一。你們公開了智能體能力的數據,也發布研究顯示,在面對「生存威脅」時,Claude 在96% 的情境中會選擇勒索行為,其他模型也存在類似傾向。當你們針對這些問題進行糾偏時,最迫切的優先事項是什麼?Daniela Amodei:確實,很多人會覺得一家科技公司如此公開地談論風險和潛在傷害是「不尋常的」。但對我們來說,這是使命的一部分。我們相信AI 的潛力極其巨大,Claude 有朝一日甚至可能幫助治癒疾病。但要實現這些正面結果,就必須把困難、棘手的問題處理好。另外,我們也認為,更充分的資訊揭露能帶來更好的社會決策。我們身處前沿,能率先看到風險的型態。如果Claude 會被用於網路攻擊,那麼其他前緣模型也極有可能面臨同樣問題。從歷史中我們也學到,如果你是一家上一代科技平台(例如社群媒體公司),如果能回到過去,提前意識到負面後果,你是否會做出不同選擇?Anthropic 想做的是:即使無法預測未來,也要確保當我們意識到風險時,已經盡了最大努力去公開、討論並緩解它們。算力和資金遠少於競爭對手,但多次推出SOTA 模型主持人:過去六個月,整個產業在算力上的投入極為誇張。 Google 幾乎補齊了效能差距,並且擁有晶片、雲端、應用的完整垂直整合;Meta 投入500 億美元自建資料中心。要贏得AI 競賽,是否必須成為基礎建設者?Daniela Amodei:AI 產業的一個現實挑戰是:如果你想訓練前沿模型,算力和資本需求都極為高。Anthropic 一直努力在「資源極其有限」的前提下保持謹慎。事實上,我們長期以來擁有的算力和資金都遠少於主要競爭對手,但在過去幾年裡,我們仍然多次推出性能最強的模型。這來自兩點:團隊質量,以及「用更少資源做更多事情」的價值觀。當然,未來我們仍然需要更多算力才能留在前沿,但我們會持續保持這種克制和效率導向。Scaling Law 仍在繼續,技術完全沒有進展放緩的跡象主持人:從產業視角來看,我們是不是在算力上投入過度,已經超過了LLM 可變現能力?Daniela Amodei:很多數字並不能直接橫向比較,因為這些交易的結構非常不同。產業的核心共識是:你必須非常早期地投入,才能在未來幾年獲得訓練模型所需的硬體。即便是我們這些最早提出Scaling Laws 的人,也持續被模型性能的指數級增長所震撼。當然,指數成長總有終點,但到目前為止,每一年它都還在繼續。主持人:最近出現了許多「循環交易」:模型公司、晶片商、雲端廠商之間交換股權、算力和現金。那些是健康的飛輪,那些是危險訊號?Daniela Amodei:我無法評論其他公司的具體交易。但我要說的是:並非所有交易都是等價的,各家公司在資本和算力策略上差異很大。Anthropic 的經驗始終是:在資源較少的情況下,依然創造更大的價值。我們是首個同時在AWS、Google Cloud 和Microsoft Azure 上提供模型的公司。企業需求非常旺盛,在很多時期,我們甚至面臨「需求大於算力供給」的情況。關於AI泡沫:核心在於科技能多快落地主持人:我必須問一個問題:我們是否正身處一個AI 泡沫之中?我並不是質疑科技本身,而是指投入的支出曲線是否已經跑在收入曲線之前了?你認為這是一個泡沫嗎?Daniela Amodei:我會把這個問題拆成兩個層面來看:技術層面,以及商業或經濟層面。在技​​術層面上,Anthropic,包括Dario 最近也公開談到過,我們非常堅定地認為:從純技術角度來看,目前完全沒有看到進展放緩的跡象。雖然未來不可預測,但基於我們迄今為止所看到的一切,模型仍在以相當可預期的速度,變得越來越強、越來越快。但在經濟層面,這確實是一個更複雜、更值得討論的問題。無論技術有多好,它真正被企業或個人吸收、落地,都需要時間。真正的核心問題在於:企業(以及個人)究竟能多快利用這項技術?也許下一代Claude,例如Claude 5、Claude 6在效能提升比例上和之前類似,但將這些能力真正部署進一個組織,可能會遇到「人」的瓶頸。組織變革需要時間,採購流程很複雜,許多使用情境事先是無法完全預見的。所以問題在於:科技擴散進真實經濟體系的速度,是否能持續配合科技本身的加速速度。主持人:基於這一點,你是否認為我們現在在模型提供者或硬體供應鏈上過度投資?Daniela Amodei:這是一個很微妙的問題。金額確實巨大,但實際上每個環節的參與者數量都非常有限。這本身就有點不尋常,我也很難給一個確定判斷。我們目前看到的情況是:更好的硬件,回報率很高;即使只是略微更好的模型——即使只是0.01 的提升,回報同樣很高。這一點在Anthropic 的歷史中反覆被驗證。所以我不一定會直接稱之為「過度投資」。但我確實認為,這種高度集中、參與者數量有限的結構意味著:如果鏈條中的某一環節出問題,影響可能會被迅速放大。這是一個值得認真思考的系統性風險。主持人:你覺得我們正處於這個周期的什麼位置?無論你稱之為泡沫破裂,還是一次基本的市場修正。你認為這會發生在未來6 到12 個月嗎?如果是,你們是否已經在為潛在下行周期提前做準備?Daniela Amodei:就Anthropic 本身而言,我們始終把自己定位為資本的審慎管理者。我們非常清楚:每一分算力、每一美元投入,最終都意味著兩件事之一——要么是訓練出更強、更安全的模型,要么是服務更多的客戶。因此,我們會盡力對未來進行合理的規劃,儘管任何預測都不可能完全準確。我們會去估算:模型品質會如何演進、訓練需要多少算力、推理階段需要多少算力來滿足顧客需求,以及我們預期能為顧客持續創造多大的價值。我的希望是,只要我們持續以負責任的公司經營,無論市場發生什麼變化,我們都能處於相對穩健的位置。Anthropic 天然適合B端市場主持人:談談Anthropic 的下一步。併購看起來基本上不在選項之中,既有反壟斷的限制,也因為你們本身已經到了相當規模。那麼,IPO 是否可能在2026 年發生?Daniela Amodei:目前我們還沒有任何具體資訊可以分享。但正如我之前所說的,Anthropic 一直在努力以盡可能負責任的方式使用我們擁有的資本,並持續權衡:在什麼時間、透過什麼方式,獲取我們所需要的資金才是最合適的。主持人:Amazon 仍然是你們最大的策略支援方,但你們的股權結構中也加入了新的名字,例如Google(既是投資者也是雲端服務商),以及Microsoft 和Nvidia。而Google 同時也是你們在模型層面的競爭對手。你是如何在這些目標各異的大型科技公司之間進行平衡的?Daniela Amodei:我認為,這正好反映了企業市場對這項技術的強烈需求。Anthropic 的模型能夠在三大雲端平台上使用,包括競爭對手的平台,這一點本身就很有意思。我個人的判斷是,所有超大規模雲端廠商都在觀察他們的企業客戶正在發生什麼事。財富500 強企業可能在一個雲端上,也可能在兩個、三個雲端上,但現在幾乎所有企業都覺得:他們必須擁有一個AI 解決方案。而由於我們長期專注於企業客戶,Claude 往往是他們真正想使用的模式。如果企業無法在自己已有的雲端環境中存取Anthropic 的模型,這反而會對他們造成傷害。所以,“在客戶需要的地方可用”,一直是我們的核心策略。主持人:從一開始,Anthropic 就沒有像OpenAI 那樣去爭奪消費者心智,而是明確押注企業市場。事實證明,這是一個非常聰明的選擇。現在很多人開始在這領域追趕你們。當初你們是如何判斷企業市場才是正確方向的?Daniela Amodei:我很感謝你給我們的評價,但我並不敢說我們一開始就「確定無疑」。我覺得有兩個原因。第一,Anthropic 的組織特性自然適合做B2B。我們極度重視可靠性、安全性和穩定性,這些價值觀從公司成立之初就寫進了DNA,而事實證明,這正是企業客戶非常重視的東西。我從來沒有遇到過那位企業客戶對我說:“如果Claude 能多一點幻覺、多生成一點有害內容就好了。”第二,是一種經濟層面的判斷。模型當然可以用於娛樂,這是消費者常見的使用方式之一。但我們很早就覺得,這些模型長期來看更像是「生產力工具」——雖然這個詞聽起來有點平淡。無論是寫程式碼(這已經是Claude 非常重要的使用情境),還是總結複雜資訊、進行金融或數據分析,我們在2020 年底、2021 年初就已經隱約看到了一個未來:AI 能夠承擔大量高智力的職場任務。而這是一個非常巨大的市場。主持人:企業既然重視安全,但同時也希望更多功能,例如更強的Agent 能力。有沒有客戶明確向你們提出某些需求,但你們因為安全護欄而暫時無法提供?Daniela Amodei:有趣的是,我們至今還沒有遇到一個非常明確的案例,安全與功能之間形成了直接衝突。更常見的情況是:我們內部已經有一個模型準備好了,但在發布前需要進行更多安全測試。客戶並不知道這些細節,因此也不會直接提出對應的需求。對我們來說,最重要的交集點始終是:確保推向市場的模型,已經在安全性上做到我們所能做到的最好。主持人:在擴張過程中,有些原則不得不隨時間調整。例如最初你們曾表示不會接受中東資金,但在最近一輪融資中發生了變化。你是如何在堅持原則與保持競爭力之間做權衡的?Daniela Amodei:在最重要的層面上,我認為Anthropic 在價值觀上一直保持著高度一致性。無論是PBC 結構,或是「公益公司」這一北極星,都為我們提供了很強的指引。當具體案例出現時,我們會反覆問自己:我們是否仍在為公共利益而建造?是否在努力讓AI 的轉型過程對社會更友善?當然,隨著公司規模變大,有些邊緣案例會變得更複雜,但整體來說,這套價值框架讓我們更容易做出判斷。主持人:有一種批評認為,把「安全使命」放在如此核心的位置,實際上建構了一種護城河,讓早期實驗室更容易在監管環境下存活,而後來進入的新創公司反而更難競爭。你如何回應這種觀點?Daniela Amodei:這是一個有趣的問題。事實上,我相信絕大多數新創公司本身就是雲端服務用戶。前沿模型研發之所以門檻高,主要還是因為算力和資本成本,而不是安全本身。而我們在Anthropic 看到的是一個正在蓬勃發展的生態:所謂的「AI 原生」 公司。就像幾年前的「數位原生企業」一樣,現在有大量公司從第一天起就圍繞AI 建立產品,而其中絕大多數都基於Claude。我們影響生態的方式,最終還是取決於我們是否能持續建構​​出最安全、最優秀的模型。主持人:「安全」目前在華盛頓並不是一個特別受歡迎的立場。你們最近也曾與David Sacks 有公開交鋒,Dario 也發表了回應文章。你們如何在不被政治環境扭曲工作的前提下應對這種現實?Daniela Amodei:Anthropic 一直努力聚焦“政策”,而不是“政治”。我們在許多議題上都能找到跨黨派的共識,例如:維持美國在AI 領域的全球領先地位,確保模式對兒童和成年人都是安全、有益的。AI 是一個非常新的領域,我們始終保持開放心態,並願意學習如何以安全、穩健的方式推進技術發展。這也是我們為什麼持續公開發布研究成果的原因之一。Anthropic內部文化:不要相信炒作主持人:有一種幾乎帶著「神秘感」的東西,一直縈繞在Anthropic 以及你們的品牌周圍。我不太確定該如何準確形容,但感覺公司內部的人,幾乎把它當成一種「信念體系」。你會如何描述成為Anthropic 員工的體驗?以及你們所建立的公司文化?另外,我覺得你們在過去幾個月變得更公開了一些,但總體上,你們似乎一直都很“謹慎”,在真正準備好之前,會把牌握得很緊、保持低調。Daniela Amodei:你這麼說真的很友善。我不知道是不是“神秘感”,但這是一個很好的評價。我覺得Anthropic 在根本上,有一個我們內部經常反覆強調的價值觀:不要相信炒作(don't believe the hype)。這聽起來好像只是個小點,但我其實認為,它和我們討論過的一些更宏大的問題有關,例如經濟結構。對我們來說,從來不是為了博取關注或上頭條。我們真正想做的是把事情做好——這既包括模型訓練本身:如何以良好、公平、負責任的方式訓練模型;也包括每天如何真正為客戶服務。現在AI 領域的炒作實在太多了。而作為一家以 企業級、B2B 為導向的公司,這在某種程度上讓我們更加腳踏實地。我們清楚知道:我們是來為企業創造價值的。這項工作非常重要,但往往並不「酷」。正因為如此,它反而幫助我們不被hype 帶著走,而是始終專注在:我們當初為什麼要創辦這家公司。我們是一家公益型公司,我們關心的是為客戶創造真實價值。如果沒有這個“北極星”,在這個行業裡是非常容易被分心的。AGI這個概念已經過時了主持人:機器學習領域的一些「老派人物」認為,大語言模型並不能把我們帶到AGI。他們正在轉向世界模型,認為要到達下一個階段,還需要尚未出現的關鍵突破。你怎麼看?你認為通往AGI 的那個「關鍵解鎖」會是什麼?你覺得為了保持競爭力,隨著AI 產業發展,你們是否必須超越LLM,走向更多不同的技術路線?Daniela Amodei這是個很有趣的問題。我覺得 AGI 本身就是一個非常「奇怪」的概念。Dario 也談過這個問題。很多年前,「AGI」作為一個概念很有用,用來討論:「人工智慧什麼時候能達到人類水平?」但有趣的是,按照某些定義,我們其實已經超過了。比如說,Claude 寫程式碼肯定比我強——雖然這門檻不高。但Claude 現在寫程式碼的能力,已經可以和Anthropic 內部的許多工程師相當,或至少在相當一部分程式碼工作上達到類似水平。這真的非常瘋狂。我們僱用的可能是世界上最優秀的一批工程師和開發者,而其中很多人都在說:“哇,Claude 已經能完成我能做的大量工作,或者極大地加速我的工作。”所以,單純討論AGI 這個概念,其實已經變得非常複雜了。另一方面,Claude 仍然做不到很多人類能做的事情。所以也許,這個概念本身並不是“錯誤”,而是已經有些過時了。至於是否需要新的突破,才能走向更高層級、更具變革性的AI——老實說,我們並不知道。技術發展的路徑,本身就是科學與工程複雜交織的結果。而我認為研究實驗室真正特別的地方就在於:大家在用不同的方式,去接近同一個目標。但就目前來看,進展並沒有放緩。當然,「一切都不會放緩,直到它真的放緩」。這種情況完全有可能發生。如果讓我下注,我會認為:能力還會在一段時間內繼續提升。而我們應該為這樣一個世界做好準備。與Dario的互補關係主持人:你和Dario 的技能組合非常不同。你在那些方面,是技術型創辦人通常不具備的優勢?你是如何幫助Dario 變得更敏銳的?Daniela Amodei:能和我的兄弟一起經營Anthropic,真的是一種榮幸。我們的關係非常特別,因為我們認識彼此一輩子了──至少是我一輩子。他有四年沒有我,挺慘的(笑)。Dario 擁有幾乎獨一無二的能力。我常說,沒有人真正知道未來,但 Dario 可能是最接近「能看到未來」的人。尤其是在技術層面,他對科技將走向何方、它會如何影響人們、影響組織,都有著極其敏銳、歷史上反覆被驗證過的直覺。這是一種真正的遠見型領導力。而我則非常偏向實踐。我真的很喜歡經營組織。我大部分時間都在和高階主管團隊一起工作:招募負責業務的關鍵人才,思考成為Anthropic 的客戶意味著什麼,我們如何真正與企業站在同一位置,如何為他們創造價值,以及如何建立必要的合作關係,讓我們成為一家可持續的公司。我覺得Dario 和我在很多方面是互相促進的。他非常擅長推動我去思考更宏大的問題;而我希望自己能在思考:如何打造一個長期存在、可持續、聚集了真正認同使命的優秀人才的組織,幫助我們完成五年前一起設定的目標。(51CTO技術棧)
最新智能體自動操作手機電腦,10個榜單開源SOTA全拿下
能自動操作手機、電腦的智能體新SOTA來了。通義實驗室推出Mobile-Agent-v3智能體框架,在手機端和電腦端的多個核心榜單上均取得開源最佳。它不僅能做互動介面的問答、描述、定位,也能一條指令獨立完成複雜任務,甚至可以在多智能體框架中無縫扮演不同角色。PC+Web演示:在Edge瀏覽器中搜尋阿里巴巴的股價。然後在WPS中建立一個新表格,在第一列填寫公司名稱,在第二列填寫股價。PC演示:建立一個新的空白簡報,然後在第一張幻燈片中以藝術字的形式插入一段文字,內容為“阿里巴巴”。Web演示:去嗶哩嗶哩看雷軍的視訊,然後給第一個視訊點贊。手機演示:請幫我在小紅書上搜尋濟南旅遊攻略,按收藏數排序,並保存第一條筆記。請幫我在攜程上查詢濟南大明湖風景區的詳細資訊,包括地址、票價等。自動化操作手機、電腦成為了各家多模態大模型攻堅的主戰場。但是現有的模型,要麼被訓練成一個專用模型,輸入輸出格式固定,沒有多面能力;要麼就是能力不夠強的通用模型,雖然能遵循指令,但實際執行總是磕磕絆絆。這次來自通義實驗室的Mobile-Agent團隊給出新穎的解決方案,訓練一個兼具基礎能力與推理泛化能力的圖形互動基礎模型(Foundational Agent)。它既能獨當一面,在AndroidWorld、OSWorld、ScreenSpot等10個主流GUI榜單中均取得了開源SOTA的水平;也能承擔對話、問答、定位、介面描述等基礎任務。自我進化軌跡生產基建 (Self-Evolving Trajectory Production)GUI基礎模型的訓練離不開大規模、高品質的軌跡資料。為此,通義MobileAgent團隊依託阿里雲強大的雲能力,建構了一整套覆蓋Android、Ubuntu、macOS、Windows的跨平台雲環境基礎設施。通過PyAutoGUI和ADB等工具,打通了模型輸出到系統執行的障礙,使得模型可以大規模平行地在隔離的雲端沙箱中進行任務執行和軌跡爬取。在雲環境基礎上,團隊設計了一套名為“Self-Evolving GUI Trajectory Production”的自動化資料生產鏈路,其核心是實現資料採集與模型最佳化的自動化閉環。它首先通過高品質任務生成模組(High-Quality Query Generation)產出豐富多樣的任務指令,再讓GUI-Owl模型在雲環境中執行(Roll-out)並爬取軌跡。軌跡正確性判斷模組(Trajectory Correctness Judgment)會對這些軌跡進行打分和篩選。對於模型難以完成的高難度任務,任務指南生成模組(Query-specific Guidance Generation)會基於成功案例或人工標註,提煉出關鍵步驟提示,幫助模型在下一輪嘗試中提高成功率。最終,這些經過層層篩選和最佳化的的高品質軌跡被用於模型的迭代訓練,形成一個不斷自我增強的飛輪。GUI知識 & 推理能力 Are All You NeedMobile-Agent團隊發現,建構通用的GUI基礎模型(Foundational Agent)的關鍵在於強大的GUI基礎知識以及魯棒的推理能力。前者保證模型有解決問題的基本功,後者保證模型能夠適應各種下游場景,無論是單打獨鬥,還是多智能體協同。一、精準的介面元素定位:讓AI“指那打那”要讓AI真正理解圖形介面,首先得讓它知道“每個元素在那、是什麼、怎麼用”。為此,團隊建構了兩類接地(grounding)任務資料:1. UI元素定位資料來源包括三部分:開源資料集 - 整合了UI-Vision、GUI-R1等多個公開GUI資料集。基於無障礙樹(A11y Tree)的資料合成 - 利用移動端和桌面端的無障礙資訊,提取UI元素的邊界框及其功能描述,並結合多模態大模型生成外觀與佈局描述。爬取PC截圖的密集定位 - 針對PC端標註資料稀缺的問題,團隊爬取大量介面截圖,採用SAM模型將圖像分割為多個子區域,再由多模態大模型在每個區域內進行細粒度接地,有效解決了PC介面元素密集、難以分割的痛點。為保證質量,所有標註結果均與Omniparser V2的UI檢測結果進行比對,過濾掉IoU低於0.5的噪聲框。同時,原始指令經由大模型重寫為更自然、任務導向的表達。2. 細粒度文字與字元接地(Fine-grained Text Grounding)針對文件類介面中文字精確定位的需求,團隊收集文件圖像,結合OCR工具提取文字內容及其空間坐標,建構出支援單詞甚至單字元級定位的資料集,使模型能夠準確響應“點選第三段第二行的‘提交’二字”這類精細指令。二、複雜任務規劃:教會AI“先想後做”面對長周期、跨應用的真實任務,模型不僅需要“看得懂”,更要“想得清”。為此,團隊從兩個維度建構任務規劃資料:從歷史軌跡中提煉經驗 - 基於已有的成功操作軌跡,對每一步頁面跳轉進行細粒度描述,通過大模型整理成結構化的“任務執行手冊”。從大規模預訓練語言模型中蒸餾知識 - 收集主流應用列表,由人工或模型生成複雜任務,交由Qwen3-235B等超大規模語言模型生成詳細執行計畫,再經整合清洗,形成高品質的任務規劃資料集。三、動作語義理解:掌握“操作如何改變介面”一個優秀的介面智能體,必須理解“動作”與“狀態變化”之間的因果關係。基於大量真實操作軌跡,團隊建構了“操作前”/“操作後”的截圖對,核心任務是讓模型根據介面變化,反向推斷出中間發生的操作——包括動作類型和具體參數。這類資料直接來自離線採集的軌跡,真實可靠,幫助模型建立起『視覺差異 → 使用者行為』的因果對應能力。強化學習進階:讓AI在真實互動中“越練越強”僅靠離線SFT資料還不夠,模型需要在與環境的真實互動中持續學習,才能解決長尾問題、提升決策魯棒性。為此,Mobile-Agent團隊引入強化學習(RL),並建構了一套高效、靈活的訓練基礎設施:1 解耦式、可調控的Rollout機制:將經驗生成與策略更新完全解耦。系統既可嚴格按策略同步運行,也可非同步執行,同時Rollout服務可獨立部署在專用於推理的硬體上,在不犧牲學習質量的前提下,顯著提升訓練吞吐效率。2 統一的多工介面:無論是單步推理還是多輪互動的複雜任務,都通過統一的外掛介面接入系統,極大降低了新環境的接入成本。3 獨創的軌跡感知相對策略最佳化(TRPO)演算法:直面挑戰:GUI任務的獎勵訊號通常是稀疏且延遲的(Sparse & Delayed),這給傳統的RL帶來了巨大的信用分配難題(Credit Assignment Problem)。解決方案:TRPO演算法在一次任務結束後,對整條軌跡計算一個總獎勵(成功+1,失敗0,格式錯誤-0.5)。然後,通過歸一化的優勢估計(Normalized Advantage Estimate),將這個獎勵訊號穩定且均勻地分配給軌跡中的每一步操作。關鍵創新:**引入了基於任務ID的成功軌跡回放池(Replay Buffer)。 當某個任務的線上探索(Rollout)全部失敗時,系統會從池中取出一個歷史成功軌跡替換掉其中一個失敗樣本,確保每個訓練批次都有正向訊號**,極大提升了學習效率和穩定性。通過這套先進的RL框架,GUI-Owl在動態環境中的表現得到巨大提升,在OSWorld-Verified基準測試中,成功率從27.1%穩定提升至34.9%。多智能體協同:讓AI團隊協作完成複雜任務團隊在GUI-Owl強大能力基礎上,進一步推出Mobile-Agent-v3,一個支援知識演進、任務規劃、子任務執行與反思推理的多智能體協作框架。Mobile-Agent-v3由四位“特工”協同驅動,並且這四個角色均由同一個GUI-Owl模型扮演。Manager Agent負責全域戰略規劃。接到使用者指令後,它會先呼叫RAG模組檢索外部知識,然後將高階任務拆解為有序的子目標序列。在執行過程中,它持續接收反饋,動態調整計畫。Worker Agent負責執行操作。面對當前介面狀態,它選擇最合適的動作並執行,輸出包含推理過程、操作指令與意圖說明的完整行動元組(Action Tuple)。Reflector Agent負責事後復盤。每一步操作後,它都會比對Worker的預期結果與實際介面變化,判斷結果為 成功 或 失敗,並生成詳細的歸因分析。Notetaker Agent負責記憶沉澱。僅在成功操作後觸發,它會自動提取關鍵資訊——如驗證碼、訂單號等——存入長期記憶,供後續步驟使用。四者協同,形成一個閉環增強的自動化流水線:拆解 → 執行 → 檢查 → 記錄 → 調整 → 再執行。在Mobile-Agent-v3的架構下,AI不再盲目試錯,而是有計畫地行動、有依據地修正、有記憶地推進。實驗結果團隊還開源了全新的全非同步、軌跡級強化學習框架,並提出獨創的軌跡感知相對策略最佳化(TRPO)演算法,在OSWorld動態環境中將成功率提升近8個百分點,展現出自進化潛力。在遇到複雜任務時,端到端模型往往力不從心,這時就需要多智能體框架來幫大模型理清工作流程。然而GUI專用模型因指令遵循能力弱,很難用於多智能體框架。GUI-Owl通過對推理資料的深度訓練,使其能在一個模型內無縫扮演規劃者、執行者、反思者、記錄員等多種角色。 配合全新的Mobile-Agent-v3框架,在真實環境評測中,帶來了高達7~8個百分點的性能提升。(量子位)
Qwen新開源,把AI生圖裡的文字SOTA拉爆了
現在,圖像中的文字生成都進化到這種程度了,還是開源的。通義模型家族,剛剛又雙叒開源了,這次是Qwen-Image——一個200億參數、採用MMDiT架構的圖像生成模型。這也是通義千問系列中首個圖像生成基礎模型。看Qwen-Image生成的畫面就知道,它主打的能力之一就是複雜文字渲染。像這張書店暢銷書架的圖片,包含複雜的圖文混合佈局,文字的精準度、契合度,甚至於隨書籍擺放角度形成的變化,都挑不出來什麼錯。生成海報,也是不在話下。照例,通義千問團隊把模型、詳細技術報告一口氣都放了出來,Qwen-Image的能力也第一時間上線QwenChat,現在就能在官網上手體驗。實測Qwen-ImageDemo很優秀,實測效果又會如何?Round 1:情境插畫測試提示詞是:李白站在窗前寫“床前明月光”,窗外明月當空,在屋內投下柔和的光線,書桌上有酒和書籍,整體風格古典好傢伙,感覺可以直接給語文課本用了。“床前明月光”這幾個字不是直愣愣P上去的,跟畫面融合得相當不錯。畫面細節方面,也很有氛圍感。硬要挑刺,就是AI有點分不清屋內屋外了(doge)。Round 2:生成PPT、海報官方Demo中有直接生成PPT的示例,我們也來測試一下,提示詞是:一張企業級高品質PPT頁面圖像,整體採用簡約現代的風格,主題顏色是藍綠色,背景用線條和粒子營造科技感,頁面頂部左側清晰展示QbitAI的標誌。主標題位於畫面中央偏上,文字內容為“量子位AI Coding線下沙龍”,字型規整簡介,突出技術感。主標題下方放兩張圖,一張是線下沙龍現場照片,另一張體現AI程式設計生成結果是這樣的:嚴格來看,右上角有小小的瑕疵,左下角圖中圖的文字也不是那麼準確,但整體效果確實很頂,主體文字、圖中圖都能符合提示詞的要求。那麼如果提示詞更模糊更簡單,Qwen-Image是否還能給出高品質結果?測試提示詞:製作一張海報,主題是:通義千問開源Qwen-Image文字精準,也體現了AI畫畫的元素,沒毛病。Round 3:商品宣傳圖最後,再來測測Qwen-Image的“賣貨”技能。提示詞:面包店的商品宣傳圖,畫面主體是面包和奶油蛋糕。圖中文字展現“美味”、“動物奶油”、“開啟美好一天”,字型採用花體字,整體風格輕鬆活潑。整體採用暖色調有點驚喜的是,Qwen-Image把“動物奶油”這幾個字精準對應到了奶油蛋糕上。需要說明的是,以上實測,均為一次出圖。可以看到,Qwen-Image對提示詞的理解都很到位,提示詞給得越精準,執行的效果細節越豐富,其中文字渲染能力,確如官方所說,能做到高保真輸出。你給這個效果打幾分?性能SOTA文字渲染能力之外,Qwen-Image還具備一致性圖像編輯能力,支援風格遷移、增刪改、細節增強、文字編輯、人物姿態調整等多種操作。總結起來,其主要特性包括:複雜文字渲染能力: Qwen-Image在複雜文字渲染方面表現出色,支援多行佈局、段落級文字生成以及細粒度細節呈現。無論是英語還是中文,均能實現高保真輸出。一致性的圖像編輯能力:通過增強的多工訓練範式,Qwen-Image在編輯過程中能出色地保持編輯的一致性。性能SOTA:在多個公開基準測試中的評估表明,Qwen-Image在各類生成與編輯任務中均獲得SOTA。性能表現方面,通義千問團隊在多個公開基準上對Qwen-Image進行了評估,包括用於通用圖像生成的GenEval、DPG和OneIG-Bench,以及用於圖像編輯的GEdit、ImgEdit和GSO。在所有基準測試中,Qwen-Image都實現了SOTA。在用於文字渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明,Qwen-Image在文字渲染方面表現尤為出色。特別是在中文文字渲染上,大幅領先現有的最先進模型。從技術報告透露的細節來看,為瞭解決複雜文字渲染難題,通義千問團隊在資料處理、訓練策略方面都做出了改進。訓練方面,Qwen-Image採用漸進式訓練策略,從非文字到文字渲染,從簡單到複雜文字輸入,逐步過渡到段落級描述,這種課程學習方法大大增強了模型的原生文字渲染能力。更多細節,可戳文末連結,查看官方技術報告。One More Thing官方放出的示例中,還有這麼一張有意思的PPT。提示詞中的關鍵字是“通義千問視覺基礎模型”。莫非是新的劇透?這個8月真是有意思了~ModelScope:https://modelscope.cn/models/Qwen/Qwen-ImageHugging Face:https://huggingface.co/Qwen/Qwen-ImageGitHub:https://github.com/QwenLM/Qwen-Image技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf實測地址:chat.qwen.ai (量子位)
阿里震撼發佈,32B的Qwen2.5,開發者福音!實測:AI可以幫抓小偷了!阿里撞車DS再次坐實“AI汪峰”;網友:美國模型完了
阿里今天發了Qwen2.5-VL的32B版本,達到同等規模的SOTA模型,堪稱開發者福音!千問接連兩三次的模型發佈時間都不太湊巧。今日與DeepSeek V3的更新撞車,而上次發的QwQ-32B以輕量推理模型擊敗了DeepSeek R1,但風頭完全被Manus搶走了!連網友都直呼阿里是AI屆汪峰。不過話說回來,Qwen2.5-VL-32B這個模型還是很值得關注,作為阿里放出的第二大視覺模型,性能甚至超過了更大規模的 Qwen2-VL-72B-Instruct!主要有以下三方面優勢:回覆更符合人類主觀偏好:調整了輸出風格,使回答更加詳細、格式更規範,並更符合人類偏好。數學推理能力:複雜數學問題求解的精準性顯著提升。圖像細粒度理解與推理:在圖像解析、內容識別以及視覺邏輯推導等任務中表現出更強的精準性和細粒度分析能力。從性能上看,Qwen2.5-VL-32B不僅在專長的視覺能力上一騎絕塵:連純文字能力,都達到了同規模模型的SOTA等級:無論是從開發者的本地部署需求出發,還是32B所做的架構更新,都有可圈可點之處。阿里大佬Binyuan Hui表示這個模型尺寸就是為開發人員準備的。在X上找資料的時候,我們甚至發現網友曾向千問團隊大佬隔空喊話。千問的反饋速度可以啊,網友這波許願成功!海外網友也是對該模型讚美有加,經過實測,該模型在識別物體、分析視覺效果、掃描等方面令人印象深刻!甚至能理解一小時的視訊!現在,Qwen2.5-VL-32B已經開源,大家可以在Qwen網頁版快速試用:網頁版:https://chat.qwen.ai/HF:https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct加上DeepSeek的更新,今天可以說是中國開源模型的Big Day。一位網友在Hacker News上留言說:很快我就不會再使用任何美國模型了,而是 100% 採用中國的開源模型。(美)基礎模型公司完了,只有賣鏟子的(如 Nvidia、基礎設施公司)和產品公司會贏。案例實測:Qwen2.5-VL-32B可以做什麼雖然Qwen2.5-VL-32B並沒有類似R1的長推理能力,但是其視覺推理仍然表現出色!先來看一個阿里blog裡的demo案例:使用者將高速的限速牌拍給了AI,並問到:我駕駛一輛大卡車行駛在這條路上,現在是 12 點鐘。我能在 13 點之前到達 110 公里多遠的地方嗎?這個案例很有生活感了。就是咱們平時需要用的AI能力。然後AI就開始提取圖片的資訊,開始幫人吭哧吭哧地計算了。最後表示:目標是 13:00 之前到達。然而,根據計算,你將在 13:06 抵達,已經超過了 13:00。知乎網友@北方的郎,以超市的智能預警系統為例,對Qwen2.5-VL-32B進行了一把實測。感覺攝影機配個模型就可以出去打工了。先是測試了一個形跡可疑的男人:模型給出了通知安保的建議。然後又用了一張正常的超市圖進行測試,還是做出了正確識別!再來看一下Qwen2.5-VL-32B理解視訊的能力,據網友實測,本地部署後能做長達一小時的視訊理解。不過在網頁端,則支援10分鐘以內的短影片。小編使用之前看華為Pura的發佈會錄屏片段,詢問下智能助手小藝是如何在使用者的語音指令下,為觀看的B站視訊一鍵三連的:Qwen2.5-VL-32B的響應非常絲滑,而且主要的內容都get到了。不過很可惜的是,我希望AI識別出來這是目前AI大熱的智能體方向,並基於此出發談談技術實現,這一點AI稍弱一些。既要又要:更聰明、更輕量的模型是怎樣煉成的?那麼阿里是怎麼做到讓32B模型如此優秀的呢?HF中給出了一些Qwen2.5-VL的技術細節,可以猜測這仍然是32B模型進化的方面。讓 AI 更懂視訊:動態解析度與影格率訓練為了讓 AI 更好地理解視訊,Qwen2.5-VL 不僅能調整解析度,還在時間維度上引入了動態影格率(FPS)採樣。這樣一來,模型可以在不同的採樣速率下分析視訊,適應各種播放速度和場景。與此同時,mRoPE 也在時間維度上進行了升級——通過IDs(識別碼)和絕對時間對齊,模型學會了理解時間序列和速度變化,甚至能精準定位關鍵時刻,讓視訊分析更智能。高效精簡的視覺編碼器,讓推理更快在視覺處理方面,這一版本的 Qwen2.5-VL 也進行了最佳化。它在 ViT(視覺變換器) 中巧妙地加入了窗口注意力機制,顯著提升了訓練和推理的效率。One More Thing:千問即將支援MCP今天打開Qwen的網頁版,還發現千問已經計畫支援MCP!給不太熟悉MCP的朋友科普一句,這個開源協議由Anthropic去年年底提出,旨在統一大型語言模型(LLM)與外部資料來源和工具之間的通訊方式。簡單來說,MCP就像AI界的USB-C介面,讓AI系統能更方便地連接各種資料來源和功能模組,實現即插即用。對於千問來說,接入MCP意味著它們可以更高效地獲取和處理外部資訊,提升理解和決策能力。看來,阿里在智能體方向有了清晰的藍圖!希望阿里下次發重磅更新的時候,能有運氣選到一個好時機,有實力的同時,也能獲得值得的口碑和聲量。 (51CTO技術堆疊)