#階躍星辰
大模型之路,階躍星辰選擇了一條“無人區”
2025年,全球AI大模型的發展路徑呈現顯著的差異化趨勢。全球範圍內,OpenAI專注「超級模型+萬能平台」;Gemini強化Android生態,端雲協同與多模態領先;Anthropic主攻安全可信AI和Agent能力;xAI依託社交資料最佳化Grok;Meta堅持開源但進展放緩。國內競爭同樣激烈:有資金有入口又有場景的科技大廠,繼續在基礎模型能力上投入,並開始將AI模型的能力和自身業務場景融合。明星創業公司中,DeepSeek追求高性價比;智譜AI佈局全矩陣;Kimi試水社交;百川專精醫療;零一萬物雙軌並行;Minimax海外產品Talkie月活破千萬。而成立剛滿兩周年的階躍星辰,選擇模態全覆蓋路徑並堅持原生多模態理念,創始人姜大昕曾多次強調,“多模態是通往AGI的必經之路。”在這兩年內,階躍星辰發表了22款自研基座模型,其中16款為多模態模型。最新開放原始碼的Step1X-Edit影像編輯模型,效能達到了同類開源模型的SOTA。因此,階躍星辰也被業界稱為「多模態卷王」。對此,姜大昕回應:“我是認可'多模態卷王'這個稱號的。”自創立之初,姜大昕團隊曾繪製過一幅智慧進化路線圖。智能的進化將分為模擬世界、探索世界、歸納世界三個階段。姜大昕判斷,當下AI模型的技術發展正處於從模仿學習向強化學習的轉變階段,透過強化學習培養機器解決複雜問題的能力,使其具備"系統二"的慢思考能力。系統一和系統二是由諾貝爾經濟學獎得主丹尼爾‧卡尼曼(Daniel Kahneman)在其著作《思考,快與慢》中提出的概念,用來描述人類思維的兩種不同運作模式。系統一是直覺性思考,而系統二是需要有意識集中注意力的慢思考過程。大模型的推理過程就類似系統二。在這個階段,多模態模型的能力將起到決定性的作用,AGI的目標是模擬人類智能,而人類智能本身就涵蓋語言、視覺、空間、運動等多種形式,AI具備聽、看、說的綜合能力,才能更好地理解使用者環境並實現自然互動。但是,姜大昕也指出,“從發展階段來看,多模態模型目前可能甚至還沒看到'Transformer'等級的突破性框架誕生,甚至比GPT-1還早。”智慧終端和Agent是階躍星辰在上圖“探索世界”階段最看重的應用場景和應用形態,“但是只有出現了多模態理解生成一體化模型,特別是可擴展的一體化,才能實現人形機器人的泛化能力,才能擴展Agent的能力。”那麼,全球目前是否已經有模型能夠實現多模態理解生成一體化了?姜大昕判斷:“最新的GPT-4o,有可能是理解生成一體化多模態模型,但是不確定它是否能夠Scalable(可擴展)。以Sora為代表的當前一代視訊生成技術已經接近上限,下一代突破應該基於理解生成一體化。”可擴展的多模態理解生成一體化模型的誕生之日,將是多模態模型的ChatGPT時刻,而目前,這個領域還是技術的無人區。在探索科技無人區的同時,每家AI新創公司也面臨商業模式和營收的現實問題。關於階躍星辰的未來發展路徑,姜大昕用三句話進行了概括:堅持基礎大模型的研發;發揮多模態領域的差異化優勢,積極探索前沿方向;在應用層面透過智慧終端Agent建構獨特生態。這三句話背後,隱藏著技術攻堅、商業生態建構等諸多挑戰。在小範圍溝通會上,姜大昕也與騰訊科技深度探討了這些問題,重要觀點包括:1)技術發展判斷:從多模態模型的技術發展來看,以Sora為代表的當前一代視訊生成技術已經接近上限,下一代突破應該基於理解生成一體化。2)商業模式選擇:「超級模型+超級應用」的雙輪驅動,模型能力決定應用上限,而應用則為模型提供具體場景和資料。3)AI時代的成長路徑:投流的邏輯在AI時代不一定適用,AI時代產品的流量成長模式可能不同於傳統網路。不只是DeepSeek,像那吒2、黑神話悟空、Manus等產品也都不是靠鋪天蓋地的投流獲取使用者的。以下為對話內容精選:為何多模態理解生成一體化模型如此重要?問:理解生成一體化的路線是公司成立之初就設定好的嗎?在這個相對較難的前沿方向上堅持,會對商業化有什麼影響?姜大昕:成立之初就設定了這條路線。我認為模型突破是早於商業化的,就像先有GPT-3,才會有ChatGPT;先有多模態融合和推理模型,才會有成熟的Agent。同樣,需要先有多模態理解生成一體化,特別是可擴展的一體化,才能實現人形機器人的泛化能力。一體化技術突破後,它的意義不僅在於改進現有Agent,還會在具身智慧泛化和世界模型建構方面帶來全新應用。對端側來說,理解生成一體化確實能帶來更好的理解與生成能力,有助於Agent發展,但意義遠不止於此。從技術路徑發展階段來看,理解生成一體化相當於語言模型發展中的Transformer階段,甚至比GPT-1還早。Transformer是2017年出現的,而GPT-1是2018年出現的,所以這是一個架構級的基礎突破。問:階躍的技術路線是什麼?是希望自己創造多模態模型的"Transformer時刻"還是等待別人突破後跟進?姜大昕:我們內部有多條技術路線並行探索,因為確實不知道那條路會成功。不謙虛地說,階躍的技術人才儲備很雄厚,各團隊在基於自己的判斷嘗試。我們當然希望自己能做出突破,但真正成功的才有意義。歷史上,Transformer出現之前自然語言處理也有多條技術路線,包括RNN、LSTM等。直到Transformer出現後大家才認可"就是它了"。現在的多路線探索就像當年在尋找更有效率的架構,最終會有一個讓大家都認可的解決方案。很有趣的是,2017年Transformer出現後,真正一階天下的不是OpenAI的GPT,而是Google的BERT。當時在自然語言處理領域,BERT完全吊打GPT。GPT比BERT早出來幾個月,但沒有受到同等重視。 Ilya Sutskever有種執念,堅信沒有生成就談不上理解。當時從實際效果來看,BERT確實比較好。甚至GPT-3出來時我們也只認為它有研究價值,因為又大又笨,似乎什麼都能做但是什麼都做不好,直到ChatGPT出現才改變看法。語言模型已經經歷過這段歷程,視覺領域可能會吸收經驗。一旦視覺的"Transformer"出現,後面的發展路徑會變得順理成章,大家只需沿著語言模型已探索的路徑前進即可。理解生成一體化模型實現的標誌是什麼?問題:GPT-4o新版本是否已實現理解和生成一體化?姜大昕:我們猜測GPT-4o可能已將理解和生成放在同一個模型中,但不確定這種方法是否能實現泛化(scalable)。我們追求的理解生成一體化應該像Transformer一樣能夠擴展,能夠處理海量視訊資料進行預先訓練。判斷模型是否實現了可擴展的理解生成一體化,關鍵在於看它能否預測下一幀(predict next frame)。去年Sora發佈時,很多人非常興奮,但我們其實相當失望,因為我們期待的是理解生成一體化的突破,而不僅僅是一個擴散模型生成視頻。不過回頭看也有道理,從多模態融合直接跨越到理解生成一體化可能太難了,所以現在是理解和生成兩條路線獨立發展,互相促進。OpenAI在Sora論文中提到用視覺模型為資料打標,這正是生成幫助理解的例子。整體方向肯定是要解決"predict next frame"問題,否則後續發展會受限。問:如果某個模型能夠預測下一幀(predict next frame),具體表現會是什麼樣子?有什麼可驗證的標誌?姜大昕:我認為首先它應該能夠在給定一個電影開頭後持續往下編排,產生有邏輯、符合物理規律的連貫內容。這是可以驗證的能力,顯示它的預訓練做得很好,生成內容既高品質又保持一致性。回顧語言模型發展歷程,GPT-1隻能做單獨的任務如情緒分析、命名實體辨識等;GPT-2嘗試將所有任務轉換為生成任務但效果很差;GPT-3才能像小學生一樣寫出連貫的段落。類比到視覺領域,如果一個模型能夠產生10分鐘合理的影片內容,我認為就達到了這個階段。問:多模態的"GPT-4時刻"需要理解生成一體化且能夠scalable(擴展),這個時刻何時會到來?姜大昕:現在這個產業發展速度很難預測。有時技術突破就是一瞬間的事。就像推理模型的突破,大家一直知道基於模仿學習的大語言模型解數學題存在侷限,但具體如何改進並不清楚,直到o1 發布才恍然大悟:原來思維鏈可以這樣實現。如何看待全球多模態領域的競爭格局?問:能否幫我們定位一下多模態模型的競爭格局?階躍目前處於什麼位置?實現理解生成多模態一體化模型的主要壁壘是什麼?是架構演算法還是高品質資料標註?姜大昕:在國外多模態領域,OpenAI和Google實力很強。 Anthropic主要關注點在Agent。 X.AI可能有很強的隱藏實力,他們既不缺人才也不缺資金和場景,可能在等待時機爆發。 Meta的Llama系列最近看起來進展較慢。國內則分為兩類:一類是像階躍這樣的綜合型公司,涵蓋所有模態,同時做理解和生成,強調技術底層性並探索下一代架構;另一類則專注於AIGC領域,例如專注於視頻生成或專注音樂生成的公司。階躍的不同之處在於我們不僅專注於單一模態或內容生成,而是試圖在基礎模型上推動世代突破。關於理解生成一體化模型的壁壘,演算法和資料、人才都很重要。多模態模型面臨高維度連續空間的建模難題。例如,自回歸架構(Auto- Regressive)無法直接處理複雜連續空間,迫使業界普遍採用擴散模型(Diffusion)。擴散模型的本質是透過逐步迭代產生結果("一步做不到就分多步完成"),但如何將自回歸與擴散模型深度融合仍存在根本性矛盾——可能需要顛覆性架構創新,例如將連續空間離散化為token,或發明全新範式。這種突破既需要演算法層面的深度思考,也存在著方向性試誤風險,甚至可能徹底推翻現有技術路線。即使架構突破後,資料品質與規模仍是決定性因素。就像燃油車需要汽油才能行駛,再先進的架構若缺乏適配的多模態訓練資料(如精準對齊的圖文/影片/3D資料),也無法發揮真正價值。這需要頂尖人才團隊在資料工程、標註系統、訓練策略等環節持續攻堅。問題:階躍每月都有新模型發布,是否會影響在單一模型上的技術深度?為什麼不集中力量攻克理解生成一體化而是分散在多個模態上?姜大昕:首先,我認同"多模太卷王"這個說法。但需要澄清的是,雖然在外界看來我們每個月都會發布一個新模型,但實際上這些模型是在不同技術路線上的。我們的多模態佈局非常完整,包括語音、圖像、視訊、音樂等多個方向。每條技術路線都經過幾個月甚至半年的累積才發布一個模型,只是當你同時看這麼多方向時,會覺得我們頻繁地發布新成果。關於為什麼不集中力量攻克理解生成一體化,這是個很好的問題。我們也希望這樣做,但理解生成一體化是一個非常全面的挑戰。首先,沒有強大的語言模型就談不上理解,而語言模型現在已經進化到推理模型階段;其次,要做視覺推理需要先有視覺理解能力;最後,理解生成一體化還需要生成能力。因此,不是我們不夠聚焦,而是完成這項任務本身就需要多面向能力的支撐。這也是階躍的優勢——我們在所有這些方向上都有很強的能力,才能將它們組合起來探索前沿方向。在科技無人區探索中的商業化選擇問題:階躍提出"超級模型+超級應用"的雙輪驅動策略。現在許多大廠也在同時發力應用開發和模型研發,而許多新創公司已放棄預訓練大模型。在這種情況下,您認為階躍在一般大模型方向的核心障礙是什麼?技術、場景還是生態?姜大昕:我分幾個層次回答。首先,為什麼我們堅持大模型研發?因為現在這個產業仍處於技術快速發展的階段。 AI產業變化之快令人感慨。回想去年,GPT-4被視為無比強大的模型,讓人覺得國內幾乎無人能及;Sora剛出來時給大家帶來巨大震撼,而現在已經變得不那麼神奇了。也許明年再回看今天的技術突破,例如GPT-4o影像編輯能力,也會變得不那麼令人驚訝。階躍不願在這個技術高速發展的過程中失去主導地位。從應用角度來看,我們一直認為應用與模型是相輔相成的。模型能力決定應用上限,而應用則為模型提供具體場景和資料。因此,雖然我們的產品形態會隨著模型演變而動態發展,但這種邏輯關係始終保持不變。問:能否談談今年AI應用領域的重要變化,產業的焦點是否已從聊天機器人到Agent轉變?姜大昕:大模型早期探索階段主要是因為基礎大模型已經具備了初步的能力和聊天能力,所以產生了一些簡單應用。到了今年,由於模型的多模態能力和推理能力的進一步成熟,智能體(Agent)概念開始成為焦點。我們看到非常多新應用程式出現,例如深度搜尋產品的出現,Google、OpenAI和國內公司都在做"深度研究"類應用,還有像manus或flowith這樣的通用智能體。階躍的產品策略也隨之調整,我們將更聚焦於Agent領域。問:很多AI公司都在透過網路時代的投流方式來做成長。您怎麼看?姜大昕:DeepSeek給我們的一個重要啟示是,投流的邏輯在AI時代可能不完全成立。 DeepSeek從未大規模投放流量,但若放開流量限制,使用者規模破億不成問題。我認為我們需要重新思考AI時代產品的流量成長模式,它可能不同於傳統網路的玩法。不只是DeepSeek,像那吒2、黑神話悟空、Manus等產品也都不是靠鋪天蓋地的投流獲取使用者的。這是在悄然變化的。問:階躍選擇做雲端平台建構智慧終端Agent生態,為什麼選擇成為供應商角色而非直接toC,例如開發類似Manus那樣的產品?姜大昕:因為智慧終端Agent是個全新領域,我們更好的策略是先與已有大量使用者和場景的頭部企業合作,透過實際應用,探索模型如何更好地發揮作用。如果一開始就做ToC產品,第一步就需要取得使用者成長,這很困難。與合作夥伴一起探索清楚後,我們未來自己獨立開發產品也是可能的。另外,未來還有一個很誘人的場景,目前所有終端裝置都是孤立的,就是打通所有裝置,跨裝置進行互動。問:您與OPPO合作的"一鍵問屏"功能目前已能實現圖片理解,未來是否會有更多類似Computer Use或Phone Use這樣的Agent功能,與手機系統深度結合,呼叫更多權限完成操作?姜大昕:確實是。從技術能力上這些已經完全可以實現,只是將其產品化量產還需要一定時間。實現過程中確實會面臨API權限打通、應用資料之間的障礙等挑戰。這正是為什麼技術雖已成熟,但產品成熟仍需時間的原因。這是一個綜合性問題,涉及手機廠商關係、生態建設等多個方面,需要時間來探索合適的互動方式。問:階躍在智慧座艙領域的能力邊界定位是什麼?現在有些新創公司專為Agent,將大模型視為能力供應方,直接與車廠合作。階躍在這方面的思考是什麼?姜大昕:我認為純應用公司始終面臨一個風險:當通用模型能力進入下一階段時,它們可能會被降維打擊。因此,我們沒有將整個公司圍繞某一個應用程式建構,而是繼續專注於技術和模型能力的提升。但我們非常重視應用,因為通用模型的許多能力需要透過應用來牽引。例如,在測試智慧玩具時,合作方提出一個挑戰:如何判斷小孩說話停頓時是在思考下一個詞,還是已經說完了?這種在通用場景中不常見的問題,如果能在模型層面解決,將提升模型整體能力。因此,我們認為在不同場景中尋找這類挑戰並將其回饋給模型,能促進模型能力的成長。 (騰訊科技)
比肩矽谷,這個地方讓上海又雙叒叕火了!
習近平來到上海“模速空間”創新生態社區調研。作為上海市打造的人工智慧大模型專業孵化和加速平台,模速空間已入駐企業100余家。上海,迎來重要時刻。4月29日上午,習近平來到上海“模速空間”大模型創新生態社區調研,要求上海總結好以大模型產業生態體系孵化人工智慧產業等成功經驗,加大探索力度,力爭在人工智慧發展和治理各方面走在前列,產生示範效應。人工智慧是上海著力發展的三大先導產業之一,也是發展新質生產力的主陣地。而“模速空間” 作為大模型創新生態社區,旨在形成人工智慧大模型產業生態集聚效應,助力上海打造更具競爭力的世界級人工智慧產業叢集。據新華社報導,習近平進一步強調,上海承擔著建設國際科技創新中心的歷史使命,要搶抓機遇,以服務國家戰略為牽引,不斷增強科技創新策源功能和高端產業引領功能,加快建成具有全球影響力的科技創新高地。上海建設“具有全球影響力的科技創新高地”,正在全面提速。▌定位"全球最大人工智慧孵化器"4月29日上午,習近平來到位於上海徐匯區的“模速空間”大模型創新生態社區調研,Minimax、階躍星辰等企業參與了這場調研交流。當天,習近平還走進人工智慧產品體驗店,詳細瞭解產品創新和市場行情,戴上智能眼鏡親身體驗。《科創板日報》記者獲悉,上述“人工智慧產品體驗店”,不久前在模速空間開業,呈現了200餘款AI科技產品,包含智能穿戴、效率提升、智能健康、音訊裝置等多個方面,九成產品都是“中國智造”。營運1個多月來,已成為上海最集中呈現AI潮品的體驗空間,也是公眾瞭解AI技術落地與應用的窗口。作為上海市重點打造的人工智慧大模型專業孵化和加速平台,模速空間經歷38天快速籌建,於2023年9月正式揭牌。截至目前,已入駐企業100余家,模速空間已建構產業生態上的“最全面”,建成涵蓋上游要素層、中游模型層、下游垂類應用的全鏈條產業生態,不僅在AI Infra領域形成集聚效應,在垂類模型和應用層也誕生許多廣受關注的首發、首創。今年2月,模速空間升級“全球最大人工智慧孵化器”新定位,將通過全球協作與多方賦能,致力於將上海打造成比肩矽谷的“未來坐標”,成為人工智慧技術與應用領域的全球標竿。據悉,目前,模速空間已成為高能級要素的全聚合,擁有中科院、上海交大等基礎研究力量,上海全部五大基礎模型,千億產業基金、萬卡算力和豐富語料供給,更是創新要素和環節的全貫通,通過打造算力服務、開放資料、評測服務、金融服務平台、綜合服務平台等全要素功能平台,通過創新要素高效組織,為入駐企業夯實保障。可以說,這個定位為“全球最大的人工智慧孵化器”的大模型創新生態社區,正在形成載體引燃街區的“核爆效應”、企業帶動生態的“飛輪效應”、服務賦能產業的“槓桿效應”和政企雙向奔赴的“品牌效應”。上海交通大學計演算法學與AI倫理研究中心聯席主任田豐向《科創板日報》記者表示,上海在零售消費、文旅方面都非常發達,未來衣食住行的AI應用方面的潛在市場需求龐大,在軟硬體產業鏈的支撐下,有望催生新的智能終端和超級智能體應用。智元機器人聯合創始人&CTO彭志輝攜智元靈犀X2、精靈G1、遠征A2等核心機器人產品與場景演算法也參加了本次調研活動,彭志輝表示:“作為一名具身智能行業的從業者,我感受到了 對行業發展的高度重視和殷切關懷,內心感到非常激動、溫暖, 描繪的藍圖讓我們備受鼓舞。智元將持續推動具身智能行業‘AI+本體’的全端技術發展,勇於迎難而上、攻堅克難,打破國外技術壁壘,全面提升自身軟硬體實力,推動具身智能技術產業化、商業化落地,提升中國具身智能的全球競爭力。”▌創新,從生態社區開始就在三天前,中共中央政治局專門就加強人工智慧發展和監管進行集體學習。習近平在會上強調,要充分發揮新型舉國體制優勢,堅持自立自強,突出應用導向,推動中國人工智慧朝著有益、安全、公平方向健康有序發展。他亦指出,要以人工智慧引領科研範式變革,加速各領域科技創新突破。政治局集體學習明確強調,中國人工智慧綜合實力已實現整體性、系統性躍升,但在人工智慧基礎理論、關鍵核心技術等方面還存在短板弱項。要正視差距、加倍努力,全面推進人工智慧科技創新、產業發展和賦能應用,完善人工智慧監管體制機制,牢牢掌握人工智慧發展和治理主動權。於上海而言,生態創新建設既是入手點,又是重心。今年年初,全國首個算力生態平台“模速空間算力生態超市”正式揭曉。多名入駐企業代表此前告訴《科創板日報》記者,模速空間提供算力調度平台,幫企業拿到算力並且提供補貼支援,有助於企業更好地發展。深思考創始人兼CEO楊志明表示,模速空間將產生集聚效應,為企業創造了良好的條件和空間環境,並提供專業的政策支援,可以賦能AI企業快速發展。無問芯穹聯合創始人兼CEO 夏立雪向《科創板日報》記者說,將企業融入上海“模速空間”這樣一個創新驅動的生態系統,必將迎來更多的合作夥伴和發展機遇。上海交通大學計演算法學與AI倫理研究中心聯席主任田豐認為,上海已經形成了大模型生態圈,比如上海人工智慧實驗室的書生系列大模型、商湯日日新系列等,並打造了臨港算力中心等基礎設施,還擁有壁仞科技、燧原科技等多家GPU公司,形成了AI新基建佈局。▌全球科創高地建設,全面提速在此次上海調研中,習近平強調,上海承擔著建設國際科技創新中心的歷史使命,要搶抓機遇,以服務國家戰略為牽引,不斷增強科技創新策源功能和高端產業引領功能,加快建成具有全球影響力的科技創新高地。2014年5月,習近平就明確提出:“上海要努力在推進科技創新、實施創新驅動發展戰略方面走在全國前頭、走在世界前列,加快向具有全球影響力的科技創新中心進軍。”當前,上海已然跨過科創中心建設的十周年門檻。2024年,上海市全年戰略性新興產業增加值12532.96億元,比上年增長6.4%。戰略性新興產業增加值佔上海市生產總值的比重為23.2%,比上年提高0.4個百分點。積體電路、生物醫藥和人工智慧三大先導產業實現產值4617.78億元,比上年增長10.8%,增速高於全市工業總產值10.1個百分點。上海最新公佈的今年一季度主要經濟指標實現“開門紅”。其中,近年來積極佈局的三大先導產業,已成為經濟增長的新引擎。資料顯示,2025年一季度,積體電路、人工智慧、生物醫藥分別增長8.9%、13.2%和2.8%,總產值同比增長7.2%。並且,新一代資訊技術產業、高端裝備、工業機器人等戰略性新興產業,均實現兩位數增長。上海已實施三大先導產業新一輪“上海方案”,圍繞細胞基因治療、腦機介面、6G、量子計算、聚變能源等戰略前沿領域,強化前瞻性、戰略性、系統性、帶動性研究佈局。同時,上海成立了1000億元規模的三大先導產業母基金和未來產業基金,全面推動新質生產力發展。2025年3月12日,上海市委書記陳吉寧在市委常委會擴大會議上指出,要心無旁騖做強科技創新策源功能,發揮基礎研究先行區撬動效應,長期穩定支援高風險、高價值、長周期基礎研究,強化教育對科技和人才的支撐作用,加大引才力度。《科創板日報》記者從上海科委獲悉,今年一季度,上海科學家在《科學》《自然》《細胞》三大頂刊上發表論文合計45篇,佔全國總數的29.2%,創下歷史新高。上海交通大學計演算法學與AI倫理研究中心聯席主任田豐認為,上海的“AI高地”、戰略新興產業叢集、資料先發優勢明顯,正在百年變局中推動戰略新興產業和傳統產業加速融合,走出一條全球科技創新的高品質發展之路。無問芯穹聯合創始人兼CEO 夏立雪告訴《科創板日報》記者,上海作為中國最具活力的國際大都市之一,是一座兼具卓越經濟實力和科技創新優勢的城市,“上海豐富的人才資源、開放的政策和國際化程度也為我們的發展創造了廣闊空間”。 (科創板日報)