【WAIC 2025】20位AI領導者的年度洞察|WAIC2025(新視角)

機器人開始成為今年世界人工智慧大會(WAIC2025)的主角,這是WAIC自2018年首次舉辦以來的第一次。

無論在WAIC現場那裡,機器人都是明星。

包括智元、宇樹科技、銀河通用、靈初等在內的幾乎所有人形機器人公司都有在上海世博展覽館設立展台,展示它們的機器人在過去一年中取得的進展。與一年前比,這些機器人的本體,即身體硬體變化並不大,形態依然以雙足人形、輪式人形為主,但軟體部分開始出現範式變化——讓機器人可以從遙控進化到自主行走。

包括智元、騰訊、商湯、生數科技等在內的公司,都推出了應用於指導機器人行動的感知行動模型,或用於預測下一步環境狀態的世界模型,這些模型都意在解決機器人與環境的互動問題,幫助機器人決定如何在真實物理世界中行走和執行動作。其中騰訊的加入可能是今年機器人領域的最大變數,它已在該領域投入7年,比現有多數人形機器人公司都久。

相較而言,大模型公司則低調很多。百川智能和零一萬物都沒有參加這次大會;MiniMax和智譜除了設展台,沒有新品發佈或產品進度更新;月之暗面則與另一家公司共用展位——只佔據了整個展台的一個側面;只有階躍星辰在展會期間推出了新一代多模態模型Step 3。

月之暗面的展台格外簡樸。

參與WAIC2025的模型類公司中,有一半公司在展示其模型對建構agent類產品的支援能力,阿里巴巴、騰訊、百度、亞馬遜都給出了它們的agent開發平台,以及可以幫助普通使用者低程式碼地開發一個應用程式的AI Coding工具。另一半,就是在為機器人提供具身智能模型。

大模型公司的低調與這個領域的節奏有關——它們基本都在今年上半年交出了追趕DeepSeek的成果。就在WAIC2025舉辦前一個月,國內估值最高的兩家大模型公司MiniMax和月之暗面都剛剛才發佈其類DeepSeek的模型。其中MiniMax一步到位發佈了類DeepSeek R1的推理模型M1,月之暗面則發佈了類DeepSeek R1前身——DeepSeek V3——的模型K2。在DeepSeek的模型矩陣中,V3是個普通的預訓練模型,而R1是基於V3進行強化學習後得到的有推理能力的模型。月之暗面內部人士對第一財經「新皮層」稱,月之暗面將在接下來的某個時間推出類R1的推理模型。

「中國前三的大學有五個」的故事又上演了。

MiniMax和月之暗面目前正在爭奪開源模型社區的第一名。兩家公司分別聲稱,它們在開源社區取得了優異成績,接近或超越DeepSeek。其中,MiniMax稱其M1模型目前在Artificial Analysis榜單的開源模型中排名第二,僅次於DeepSeek R1。而月之暗面稱,其K2模型的綜合表現在另一個名為LMArena的榜單中已經超過DeepSeek R1,成為開源模型的首位。

目前階段,大模型領域最具代表性的兩家公司的精力都在爭奪P(Professional)端專業開發者的注意力,而非C端。這可以解釋大模型公司為什麼在WAIC2025上沒那麼高調,簡單說,大模型競賽沒有熄火,只是戰場轉移了。

以下是我們認為WAIC2025期間值得一聽的行業洞察:

具身智能


星動紀元創始人兼CEO陳建宇

人形機器人真正做到大規模、高產值的商業化,差不多在今明兩年。規模化生產的標準線是萬台,這不是指整個行業,是指我們一家,(達到)這個數量級基本上就是頭部的工業機器人公司。

宇樹推出了3.99萬元的人形機器人,這是因為它面向拳擊、文娛等使用者找到了商業化場景,它的降價不會對整個行業普遍產生壓力。星動紀元正往工業方向探索,我們跟宇樹做的不算同一類事情,我們是全尺寸,更大,性能更強,有雙手雙腳,需要它真的幹活,能夠做靈巧的操作。

智元機器人合夥人、具身業務部總裁姚卯青

過去一年,我們在實踐中得到了很多苦澀的教訓:

第一點,機器人還是要回歸到執行器本身,高頻跟隨、高精度跟隨以及低延遲的執行器至關重要。我們還需要高精度高解析度的力控,實現工業場景裡的作業。

第二點,感測器不僅需要在多維度資訊上有效融合,在標定、時間同步以及多機之間的一致性也非常關鍵。

第三點,本體的構型很重要。演算法與模型再強,也無法替代一個高自由度靈活本體帶來的優勢,我們希望本體將越來越逼近人類的構型,同時提供更靈活的自由度。最後,機器人本體中感測器、軟體鏈路上的各種誤差會層層疊加、不斷放大,最終變成演算法難以承受的痛點。

這正是我們在邁向大規模應用的過程中,必須直面的核心挑戰之一,也是我們為什麼要執著追求量產一致性的根本原因。

前騰訊混元大模型技術負責人、Video Rebirth CEO劉威

世界模型需具備模擬、預測和探索三大核心能力。世界模型和多模態模型的區別在於:

第一,多模態模型擅長理解和生成內容,但缺乏對環境的整體建模與預測能力,屬於感知智能,世界模型則追求對環境更深的因果認知與推演;

第二,多模態模型的互動是被動響應,需要由使用者觸發,世界模型可在內部生成互動式環境,主動預測變化;

第三,多模態模型為一問一答的單步輸出互動,世界模型則支援長序列的行動規劃。

亞馬遜應用科學、前沿人工智慧與機器人部門負責人陳曦

得益於最近一輪AI 與機器人熱潮,願意在機器人硬體上投入資源的公司變多了,我們有了更多可用的實體機器人平台,可以在上面運行模型、採集資料。但歸根結底,沒有什麼比讓機器人在真實環境中自主運行、親自採集的資料更有價值。

Physical Intelligence(Pl)聯合創始人、UCBerkeley副教授Sergey Levine

未來我們可以將強化學習技術融入到VLA模型中,以提升魯棒性與性能。VLA模型擁有廣泛的泛化能力,而基於強化學習的專家系統能在特定任務上達到極高的熟練度。通過將高效的強化學習方法生成的資料「蒸餾」進通用模型,我們有希望推出更可靠、性能更強的機器人系統。這類研究仍處於早期階段,但我認為它非常有前景。

Intrinsic(Alphabet)科學與Al事務負責人Stefan Schaal

機器人發展的關鍵在於路徑選擇:是追求快速落地的專用機器人,還是深耕通用型機器人的長遠目標?

現在,在工業領域專注於特定任務,會越來越頻繁地應對所謂高混合、低產量(High Mix, Low Volume Production)的生產挑戰,頻繁的變化要求模型快速適應,在半個小時內重新訓練模型勉強可以接受,但如果需要數小時甚至數天,就難以忍受。短期內的泛化與基礎模型建構至關重要,關鍵在於權衡要走那條路。我認為所有方法都合理,多元平行的路徑探索要優於單一模式。

藍馳創投合夥人曹巍

我們走訪海外機器人團隊的時候,發現他們的產品迭代速度比國內的平均速度慢50%左右。中國跑出來的具身智能團隊很有可能是全球最好的企業。

美團龍珠合夥人王新宇

中國具身智能領域不是泡沫太大了,反而是泡沫太小了,我們投的錢太少了。中國有硬體優勢,有望引領這個產業的發展,我們應當投入更多的錢。

光源資本創始人、CEO鄭烜樂

未來一年左右的時間,整個具身智能行業都要回答一個問題:形成單位泛化能力所需要的成本,是不是符合規模經濟的特徵?你多長時間可以完成產業端落地?

Agent

Flowith市場負責人拐子

首先我認為一個合格的Agent要在技術定義上滿足四個要素:主動思考、規劃路徑、呼叫工具、長期記憶——使用者可以通過這幾點判斷一個所謂的「Agent」是否符合標準。通用Agent在這個基礎上更進一步,能處理各種事情,甚至要能感知自然環境、和物理世界互動。

Flowith最終想做的是一個AI時代的終極創作工具,Agent、畫布、知識庫,其實都是我們產品當中的一環。單就Agent而言,我們想做的是創作領域的Agent,並非通用Agent。通用Agent要有和物理世界互動的能力,比如你讓它給你點外賣,它不僅要幫你下單,還要送到你面前來,在理想情況下,就像《鋼鐵人》裡的賈維斯一樣。而我們所定義的「創作」領域,既包括用AI撰寫研報、製作PPT、製作網頁、拍攝短片等專業場景,也包括發朋友圈和小紅書、日常聊天等生活化的文字表達,還涉及跨模態創作。使用者可以在移動端、Web端、PC端完成這些事情。

騰訊雲副總裁、騰訊雲智能及騰訊優圖實驗室負責人吳運聲

to B和to C的智能體開發平台差異很大。to B在於它有非常多嚴肅的場景,我們需要用非常多的手段保證嚴肅問答的精準率以及引用的正確性;to C的特點是要讓使用者使用起來很方便,即便能力差一點。

關於Agent的記憶機制,如果僅機械儲存使用者過往(如一周或一個月)的全部聊天記錄,並在後續互動中全盤呼叫,會因大量一次性、臨時或無關資訊的干擾而影響效果。因此,如何從長期記錄中提煉出對後續問答真正有價值的內容,是當前短期與長期記憶研究中需要不斷攻克的關鍵方向。

Lovart CTO陳志博

生成式AI會大幅擴展個人能力邊界,形成「超級個體」, 讓普通人無需設計、程式設計等專業背景,也能完成高品質創作。

阿里巴巴國際數字商業集團AI業務副總裁駱衛華

面向生產環境的Al Agent對輸出質量有很高要求,通用Agent幾乎無法滿足。垂直場景對特定關鍵資料識別和分析精度的要求遠超頭部模型直出結果。除模型能力,Agent的可用性對工程框架、底層Al Infra的要求也很高。

大模型

生數科技CEO駱怡航

視訊生成需要保持生成效果的一致性,這一訴求與應用場景深度相關。對大眾而言,用手機拍攝的視訊多為日常記錄或自娛自樂,對畫面連貫性、元素穩定性的要求較低。但在廣告、動漫、影視等商業與專業創作中,一致性是不可妥協的基礎——人物形象、核心道具、場景氛圍等要素必須在全片所有鏡頭、所有時長裡保持連貫,甚至每一幀的細節都需符合設定邏輯。一致性是實現視訊生成商用的前提,若無法滿足,相關技術便難以在產業級場景中落地。

視訊生成的爆點不會突然出現。在廣告和動漫行業,AI視訊的滲透率在逐步提高,2到3年後可以實現全流程AI化;影視行業到明年可能有30%至50%的AI滲透率。長期來看,在5到10年後,所有內容和文化相關產業可能會完全實現「生成式AI化」,到那時,AI將成為創作的常規工具,「內容是否由AI生成」不再是關注的焦點。

可靈AI產品及營運負責人李楊

當前視訊模型還正處於快速迭代階段,3個月或半年後,模型性能和當下相比會有明顯差異。AI工具產品需要在模型能力和使用者需求之間找到平衡,既要不斷探索模型能力的邊界,也要滿足使用者的實際需求。

AI產業

光源資本創始人、CEO鄭烜樂

創業公司最大的機會是在模型的水面上。如果你是礁石,可能會被淹沒,但是如果是船,模型能力上漲,你也會上漲。怎麼變成船?我認為有很多的方法,有專業資料的循環、對場景的理解(指對工作流的拆解)、獨特的交付方式等等。在大廠的射程外也是非常重要的。

2025年上半年,中國的AI投資熱度在大幅度提升,融資額同比增加45.3%,投資事件數同比增加59.9%,財務投資人佔比58.6%,又回到了主流。大家開年以後都在跑,很多項目都在搶,很多人開始要抬估值了,跟去年完全不一樣。現在這個市場給我們的感覺是非常像移動網際網路09到14年的時候。

九合創投創始人王嘯

在中國做AI應用要有閉環的資料,這樣才能產生獨立應用的機會。在一些相對垂直但又不太垂直的行業,形成大量自有資料,而且這個資料隨著使用者的增長對基模能力的提升是顯著的,就能建立壁壘,也不會被基模公司吃掉。程式設計的資料太公開了,你能做,別人也能做,大模型公司做的更有優勢。

雲啟資本合夥人陳昱

目前國內比較確定的機會還是在視訊領域。還有就是上一代SaaS的重新洗牌——在中國大模型的加持下用AI全部重新做一次,更便宜、更智能、效率更高。

通用型的AI應用特別火熱,問題在於最後基模公司肯定會自己下場做,而且它們有巨大優勢,因為一旦上量,總的token成本會非常可怕。我聽說Cursor的毛利是負的,別看它現在這麼厲害,到後面也會面臨盈利的挑戰。

美團龍珠合夥人王新宇

AI應用的口子,我個人體感首先是太難了,比具身要難。這個行業難投,我們希望創始人懂技術,此外也要懂產品、懂年輕人,或者懂新的地域(現在更多是面向海外市場做AI應用)。

君聯資本聯席首席投資官葛新宇

我們要換一個思維來看,AI發展中的一些「髒活苦活」不是大廠和基模公司會下場做的,比如資料標註,適合一些沒有太多產業背景、大額資金投入的創業者。如果還能結合具體的細分場景,再跟上技術發展的節奏,是更好的。

藍馳創投合夥人曹巍

國內做大B生意,核心成功要素的構成是非常復合的,不是一個純產品、純技術驅動的生意;反而一些非常工具類導向的小B生意更好做,這也是國內最市場化的生意。我們也嘗試著做了一些AI應用方面的投資,應該講做國內市場的都活得很苦,賣掉的基本也是成本價賣掉的。我們也有一些賣掉的公司,創始人去了某大廠做戰略規劃。此外我還認為,當下模型側還有很多能力沒有被挖掘出來,模型還要再迭代一波。

藍色游標CEO潘飛

目前,行銷行業正在從工具效率革命走向生產模式革命。最終,可批次化的內容將實現AI全自動生產,而有人性洞見的內容會更有稀缺價值。AI發展當前的進度僅載入10%到15%,未來將誕生AI時代原生的行銷公司。

無問芯穹發起人汪玉

AI基礎設施的能效評價指標已隨技術演進發生變化:在AI 1.0時代,核心指標是「算力」(TOPS),通過垂類資料訓練垂類模型,即可支撐簡單任務;而進入AI 2.0時代,「token」成為核心生產要素。目前,端側應用的算力需求與現有能力之間仍存在10倍左右的差距,雲端的算力使用效率也有進一步提升的空間。 (新皮層NewNew Thing)