#姜大昕
大模型之路,階躍星辰選擇了一條“無人區”
2025年,全球AI大模型的發展路徑呈現顯著的差異化趨勢。全球範圍內,OpenAI專注「超級模型+萬能平台」;Gemini強化Android生態,端雲協同與多模態領先;Anthropic主攻安全可信AI和Agent能力;xAI依託社交資料最佳化Grok;Meta堅持開源但進展放緩。國內競爭同樣激烈:有資金有入口又有場景的科技大廠,繼續在基礎模型能力上投入,並開始將AI模型的能力和自身業務場景融合。明星創業公司中,DeepSeek追求高性價比;智譜AI佈局全矩陣;Kimi試水社交;百川專精醫療;零一萬物雙軌並行;Minimax海外產品Talkie月活破千萬。而成立剛滿兩周年的階躍星辰,選擇模態全覆蓋路徑並堅持原生多模態理念,創始人姜大昕曾多次強調,“多模態是通往AGI的必經之路。”在這兩年內,階躍星辰發表了22款自研基座模型,其中16款為多模態模型。最新開放原始碼的Step1X-Edit影像編輯模型,效能達到了同類開源模型的SOTA。因此,階躍星辰也被業界稱為「多模態卷王」。對此,姜大昕回應:“我是認可'多模態卷王'這個稱號的。”自創立之初,姜大昕團隊曾繪製過一幅智慧進化路線圖。智能的進化將分為模擬世界、探索世界、歸納世界三個階段。姜大昕判斷,當下AI模型的技術發展正處於從模仿學習向強化學習的轉變階段,透過強化學習培養機器解決複雜問題的能力,使其具備"系統二"的慢思考能力。系統一和系統二是由諾貝爾經濟學獎得主丹尼爾‧卡尼曼(Daniel Kahneman)在其著作《思考,快與慢》中提出的概念,用來描述人類思維的兩種不同運作模式。系統一是直覺性思考,而系統二是需要有意識集中注意力的慢思考過程。大模型的推理過程就類似系統二。在這個階段,多模態模型的能力將起到決定性的作用,AGI的目標是模擬人類智能,而人類智能本身就涵蓋語言、視覺、空間、運動等多種形式,AI具備聽、看、說的綜合能力,才能更好地理解使用者環境並實現自然互動。但是,姜大昕也指出,“從發展階段來看,多模態模型目前可能甚至還沒看到'Transformer'等級的突破性框架誕生,甚至比GPT-1還早。”智慧終端和Agent是階躍星辰在上圖“探索世界”階段最看重的應用場景和應用形態,“但是只有出現了多模態理解生成一體化模型,特別是可擴展的一體化,才能實現人形機器人的泛化能力,才能擴展Agent的能力。”那麼,全球目前是否已經有模型能夠實現多模態理解生成一體化了?姜大昕判斷:“最新的GPT-4o,有可能是理解生成一體化多模態模型,但是不確定它是否能夠Scalable(可擴展)。以Sora為代表的當前一代視訊生成技術已經接近上限,下一代突破應該基於理解生成一體化。”可擴展的多模態理解生成一體化模型的誕生之日,將是多模態模型的ChatGPT時刻,而目前,這個領域還是技術的無人區。在探索科技無人區的同時,每家AI新創公司也面臨商業模式和營收的現實問題。關於階躍星辰的未來發展路徑,姜大昕用三句話進行了概括:堅持基礎大模型的研發;發揮多模態領域的差異化優勢,積極探索前沿方向;在應用層面透過智慧終端Agent建構獨特生態。這三句話背後,隱藏著技術攻堅、商業生態建構等諸多挑戰。在小範圍溝通會上,姜大昕也與騰訊科技深度探討了這些問題,重要觀點包括:1)技術發展判斷:從多模態模型的技術發展來看,以Sora為代表的當前一代視訊生成技術已經接近上限,下一代突破應該基於理解生成一體化。2)商業模式選擇:「超級模型+超級應用」的雙輪驅動,模型能力決定應用上限,而應用則為模型提供具體場景和資料。3)AI時代的成長路徑:投流的邏輯在AI時代不一定適用,AI時代產品的流量成長模式可能不同於傳統網路。不只是DeepSeek,像那吒2、黑神話悟空、Manus等產品也都不是靠鋪天蓋地的投流獲取使用者的。以下為對話內容精選:為何多模態理解生成一體化模型如此重要?問:理解生成一體化的路線是公司成立之初就設定好的嗎?在這個相對較難的前沿方向上堅持,會對商業化有什麼影響?姜大昕:成立之初就設定了這條路線。我認為模型突破是早於商業化的,就像先有GPT-3,才會有ChatGPT;先有多模態融合和推理模型,才會有成熟的Agent。同樣,需要先有多模態理解生成一體化,特別是可擴展的一體化,才能實現人形機器人的泛化能力。一體化技術突破後,它的意義不僅在於改進現有Agent,還會在具身智慧泛化和世界模型建構方面帶來全新應用。對端側來說,理解生成一體化確實能帶來更好的理解與生成能力,有助於Agent發展,但意義遠不止於此。從技術路徑發展階段來看,理解生成一體化相當於語言模型發展中的Transformer階段,甚至比GPT-1還早。Transformer是2017年出現的,而GPT-1是2018年出現的,所以這是一個架構級的基礎突破。問:階躍的技術路線是什麼?是希望自己創造多模態模型的"Transformer時刻"還是等待別人突破後跟進?姜大昕:我們內部有多條技術路線並行探索,因為確實不知道那條路會成功。不謙虛地說,階躍的技術人才儲備很雄厚,各團隊在基於自己的判斷嘗試。我們當然希望自己能做出突破,但真正成功的才有意義。歷史上,Transformer出現之前自然語言處理也有多條技術路線,包括RNN、LSTM等。直到Transformer出現後大家才認可"就是它了"。現在的多路線探索就像當年在尋找更有效率的架構,最終會有一個讓大家都認可的解決方案。很有趣的是,2017年Transformer出現後,真正一階天下的不是OpenAI的GPT,而是Google的BERT。當時在自然語言處理領域,BERT完全吊打GPT。GPT比BERT早出來幾個月,但沒有受到同等重視。 Ilya Sutskever有種執念,堅信沒有生成就談不上理解。當時從實際效果來看,BERT確實比較好。甚至GPT-3出來時我們也只認為它有研究價值,因為又大又笨,似乎什麼都能做但是什麼都做不好,直到ChatGPT出現才改變看法。語言模型已經經歷過這段歷程,視覺領域可能會吸收經驗。一旦視覺的"Transformer"出現,後面的發展路徑會變得順理成章,大家只需沿著語言模型已探索的路徑前進即可。理解生成一體化模型實現的標誌是什麼?問題:GPT-4o新版本是否已實現理解和生成一體化?姜大昕:我們猜測GPT-4o可能已將理解和生成放在同一個模型中,但不確定這種方法是否能實現泛化(scalable)。我們追求的理解生成一體化應該像Transformer一樣能夠擴展,能夠處理海量視訊資料進行預先訓練。判斷模型是否實現了可擴展的理解生成一體化,關鍵在於看它能否預測下一幀(predict next frame)。去年Sora發佈時,很多人非常興奮,但我們其實相當失望,因為我們期待的是理解生成一體化的突破,而不僅僅是一個擴散模型生成視頻。不過回頭看也有道理,從多模態融合直接跨越到理解生成一體化可能太難了,所以現在是理解和生成兩條路線獨立發展,互相促進。OpenAI在Sora論文中提到用視覺模型為資料打標,這正是生成幫助理解的例子。整體方向肯定是要解決"predict next frame"問題,否則後續發展會受限。問:如果某個模型能夠預測下一幀(predict next frame),具體表現會是什麼樣子?有什麼可驗證的標誌?姜大昕:我認為首先它應該能夠在給定一個電影開頭後持續往下編排,產生有邏輯、符合物理規律的連貫內容。這是可以驗證的能力,顯示它的預訓練做得很好,生成內容既高品質又保持一致性。回顧語言模型發展歷程,GPT-1隻能做單獨的任務如情緒分析、命名實體辨識等;GPT-2嘗試將所有任務轉換為生成任務但效果很差;GPT-3才能像小學生一樣寫出連貫的段落。類比到視覺領域,如果一個模型能夠產生10分鐘合理的影片內容,我認為就達到了這個階段。問:多模態的"GPT-4時刻"需要理解生成一體化且能夠scalable(擴展),這個時刻何時會到來?姜大昕:現在這個產業發展速度很難預測。有時技術突破就是一瞬間的事。就像推理模型的突破,大家一直知道基於模仿學習的大語言模型解數學題存在侷限,但具體如何改進並不清楚,直到o1 發布才恍然大悟:原來思維鏈可以這樣實現。如何看待全球多模態領域的競爭格局?問:能否幫我們定位一下多模態模型的競爭格局?階躍目前處於什麼位置?實現理解生成多模態一體化模型的主要壁壘是什麼?是架構演算法還是高品質資料標註?姜大昕:在國外多模態領域,OpenAI和Google實力很強。 Anthropic主要關注點在Agent。 X.AI可能有很強的隱藏實力,他們既不缺人才也不缺資金和場景,可能在等待時機爆發。 Meta的Llama系列最近看起來進展較慢。國內則分為兩類:一類是像階躍這樣的綜合型公司,涵蓋所有模態,同時做理解和生成,強調技術底層性並探索下一代架構;另一類則專注於AIGC領域,例如專注於視頻生成或專注音樂生成的公司。階躍的不同之處在於我們不僅專注於單一模態或內容生成,而是試圖在基礎模型上推動世代突破。關於理解生成一體化模型的壁壘,演算法和資料、人才都很重要。多模態模型面臨高維度連續空間的建模難題。例如,自回歸架構(Auto- Regressive)無法直接處理複雜連續空間,迫使業界普遍採用擴散模型(Diffusion)。擴散模型的本質是透過逐步迭代產生結果("一步做不到就分多步完成"),但如何將自回歸與擴散模型深度融合仍存在根本性矛盾——可能需要顛覆性架構創新,例如將連續空間離散化為token,或發明全新範式。這種突破既需要演算法層面的深度思考,也存在著方向性試誤風險,甚至可能徹底推翻現有技術路線。即使架構突破後,資料品質與規模仍是決定性因素。就像燃油車需要汽油才能行駛,再先進的架構若缺乏適配的多模態訓練資料(如精準對齊的圖文/影片/3D資料),也無法發揮真正價值。這需要頂尖人才團隊在資料工程、標註系統、訓練策略等環節持續攻堅。問題:階躍每月都有新模型發布,是否會影響在單一模型上的技術深度?為什麼不集中力量攻克理解生成一體化而是分散在多個模態上?姜大昕:首先,我認同"多模太卷王"這個說法。但需要澄清的是,雖然在外界看來我們每個月都會發布一個新模型,但實際上這些模型是在不同技術路線上的。我們的多模態佈局非常完整,包括語音、圖像、視訊、音樂等多個方向。每條技術路線都經過幾個月甚至半年的累積才發布一個模型,只是當你同時看這麼多方向時,會覺得我們頻繁地發布新成果。關於為什麼不集中力量攻克理解生成一體化,這是個很好的問題。我們也希望這樣做,但理解生成一體化是一個非常全面的挑戰。首先,沒有強大的語言模型就談不上理解,而語言模型現在已經進化到推理模型階段;其次,要做視覺推理需要先有視覺理解能力;最後,理解生成一體化還需要生成能力。因此,不是我們不夠聚焦,而是完成這項任務本身就需要多面向能力的支撐。這也是階躍的優勢——我們在所有這些方向上都有很強的能力,才能將它們組合起來探索前沿方向。在科技無人區探索中的商業化選擇問題:階躍提出"超級模型+超級應用"的雙輪驅動策略。現在許多大廠也在同時發力應用開發和模型研發,而許多新創公司已放棄預訓練大模型。在這種情況下,您認為階躍在一般大模型方向的核心障礙是什麼?技術、場景還是生態?姜大昕:我分幾個層次回答。首先,為什麼我們堅持大模型研發?因為現在這個產業仍處於技術快速發展的階段。 AI產業變化之快令人感慨。回想去年,GPT-4被視為無比強大的模型,讓人覺得國內幾乎無人能及;Sora剛出來時給大家帶來巨大震撼,而現在已經變得不那麼神奇了。也許明年再回看今天的技術突破,例如GPT-4o影像編輯能力,也會變得不那麼令人驚訝。階躍不願在這個技術高速發展的過程中失去主導地位。從應用角度來看,我們一直認為應用與模型是相輔相成的。模型能力決定應用上限,而應用則為模型提供具體場景和資料。因此,雖然我們的產品形態會隨著模型演變而動態發展,但這種邏輯關係始終保持不變。問:能否談談今年AI應用領域的重要變化,產業的焦點是否已從聊天機器人到Agent轉變?姜大昕:大模型早期探索階段主要是因為基礎大模型已經具備了初步的能力和聊天能力,所以產生了一些簡單應用。到了今年,由於模型的多模態能力和推理能力的進一步成熟,智能體(Agent)概念開始成為焦點。我們看到非常多新應用程式出現,例如深度搜尋產品的出現,Google、OpenAI和國內公司都在做"深度研究"類應用,還有像manus或flowith這樣的通用智能體。階躍的產品策略也隨之調整,我們將更聚焦於Agent領域。問:很多AI公司都在透過網路時代的投流方式來做成長。您怎麼看?姜大昕:DeepSeek給我們的一個重要啟示是,投流的邏輯在AI時代可能不完全成立。 DeepSeek從未大規模投放流量,但若放開流量限制,使用者規模破億不成問題。我認為我們需要重新思考AI時代產品的流量成長模式,它可能不同於傳統網路的玩法。不只是DeepSeek,像那吒2、黑神話悟空、Manus等產品也都不是靠鋪天蓋地的投流獲取使用者的。這是在悄然變化的。問:階躍選擇做雲端平台建構智慧終端Agent生態,為什麼選擇成為供應商角色而非直接toC,例如開發類似Manus那樣的產品?姜大昕:因為智慧終端Agent是個全新領域,我們更好的策略是先與已有大量使用者和場景的頭部企業合作,透過實際應用,探索模型如何更好地發揮作用。如果一開始就做ToC產品,第一步就需要取得使用者成長,這很困難。與合作夥伴一起探索清楚後,我們未來自己獨立開發產品也是可能的。另外,未來還有一個很誘人的場景,目前所有終端裝置都是孤立的,就是打通所有裝置,跨裝置進行互動。問:您與OPPO合作的"一鍵問屏"功能目前已能實現圖片理解,未來是否會有更多類似Computer Use或Phone Use這樣的Agent功能,與手機系統深度結合,呼叫更多權限完成操作?姜大昕:確實是。從技術能力上這些已經完全可以實現,只是將其產品化量產還需要一定時間。實現過程中確實會面臨API權限打通、應用資料之間的障礙等挑戰。這正是為什麼技術雖已成熟,但產品成熟仍需時間的原因。這是一個綜合性問題,涉及手機廠商關係、生態建設等多個方面,需要時間來探索合適的互動方式。問:階躍在智慧座艙領域的能力邊界定位是什麼?現在有些新創公司專為Agent,將大模型視為能力供應方,直接與車廠合作。階躍在這方面的思考是什麼?姜大昕:我認為純應用公司始終面臨一個風險:當通用模型能力進入下一階段時,它們可能會被降維打擊。因此,我們沒有將整個公司圍繞某一個應用程式建構,而是繼續專注於技術和模型能力的提升。但我們非常重視應用,因為通用模型的許多能力需要透過應用來牽引。例如,在測試智慧玩具時,合作方提出一個挑戰:如何判斷小孩說話停頓時是在思考下一個詞,還是已經說完了?這種在通用場景中不常見的問題,如果能在模型層面解決,將提升模型整體能力。因此,我們認為在不同場景中尋找這類挑戰並將其回饋給模型,能促進模型能力的成長。 (騰訊科技)