#羅福莉
字節的“羅福莉”,撐起了Seedance的半邊天
隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點。其實在AI科學家圈子裡,女性數量雖然相對較少,但也絕非羅福莉一顆獨苗。在字節跳動,就有一位羅福莉式的人物。她就是Seedance 2.0視訊生成模型的預訓練負責人,曾妍。一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發負責人周暢、視訊生成技術核心負責人蔣璐。很少有人知道,曾妍的存在,同樣無可或缺。因為預訓練是整個模型的“基石”,它決定了模型的能力上限。大多數人把預訓練當成“喂資料”,但真正的高手知道,預訓練是在“塑造模型的世界觀”。資料怎麼配比、架構怎麼設計、訓練策略怎麼調整,每一個決策都在決定模型能看到什麼、理解什麼、生成什麼。無論你後面怎麼努力最佳化,預訓練只要沒做好,這個模型就一輩子達不到Seedance 2.0現如今的高度。不僅是貢獻大,曾妍的晉陞速度在字節也是相當快的。從她畢業進入字節開始算起,到現在的4-2職級,曾妍僅僅花了5年時間。4-2職級對應高級總監/權威架構師層級,屬於公司核心戰略級技術骨幹,年包(含基本工資、年終獎、股票)普遍在500萬以上。她到底做了什麼,才有如此成就?讓我們從她的求學之路說起。01 從西交到字節說實話,當我第一次看到曾妍的履歷時,並沒有覺得特別驚豔。1997年出生,西安交通大學本科,加拿大蒙特利爾大學電腦碩士。這條路徑放到現在的AI圈裡太常見了。但接下來發生的事,就不那麼“標準”了。2021年9月,曾妍以校招生身份加入字節跳動 AI Lab,起點職級是演算法工程師。入職僅兩個月,曾妍就以第一作者身份在arXiv上發表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是後來大家熟知的X-VLM模型。這篇論文解決的問題,用大白話說就是:怎麼讓 AI 既能看懂“大場面”,又能注意到“小細節”。傳統的視覺語言模型有兩個極端。一種是“粗線條”派,只看圖像整體和文字的對應關係,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。另一種是“顯微鏡”派,依賴昂貴的目標檢測器去摳每個物體,雖然能看到細節,但計算成本高得嚇人,還得依賴大量人工標註資料。曾妍提出的X-VLM,就是取兩者之所長。它能同時學習從整體到局部、從場景到物體、從粗到細的多層次視覺概念,並與文字中的不同粒度資訊精準對齊。或者我用一個我最近剛學會的話來形容:既見森林,又見樹木。這個“多粒度對齊”的思想,在當時看起來只是個學術創新,但它為曾妍後來擔任Seedance 2.0預訓練負責人埋下了伏筆。因為視訊生成的預訓練,本質上也是個多粒度建模的問題。你要想生成一個好看的視訊,那就既要把握整體敘事節奏,讓一段視訊有連貫的故事線;又要控制每一幀的細節質量,確保人物面容不變形、物體運動符合物理規律;還要建立時序維度上的關聯關係,讓前後幀之間的過渡自然流暢。這剛和X-VLM的底層邏輯是一致的。接下來的兩年,曾妍就像開了掛一樣。她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會發表了八篇論文,還擔任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會的審稿人。2023年,一個關鍵轉折點到來了。字節跳動成立大模型研究部門Seed,曾妍和所在團隊一同轉入。這個時間節點你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節也在這波浪潮中調整了技術戰略。曾妍擅長的多模態預訓練,在視訊生成這個新戰場上,能發揮她的全部實力。在Seed部門,曾妍作為第一作者主導了兩個重要項目,分別是CCLM和Lynx。先說CCLM(Cross-View Language Modeling)。這個項目讓AI模型同時學會“跨語言”和“跨模態”的理解能力。CCLM通過統一的預訓練框架,讓在英文圖像-文字資料上訓練的模型,可以零樣本遷移到中文、日文等其他語言的多模態任務上。說白了,就是讓 AI 學會“舉一反三”——在英文視訊上學到的理解能力,能直接用到中文、日文、西班牙文的視訊上。再說Lynx。這是一個系統性研究如何訓練GPT-4風格多模態大語言模型的項目。2023年正是GPT-4剛發佈的時候,大家都在摸索怎麼做出“能看圖說話”的大模型。曾妍團隊通過一系列對比實驗,找出了模型架構設計、訓練資料配比、指令微調策略等關鍵因素,最終做出了 Lynx 模型,在多模態理解和指令跟隨能力上都表現出色。用人話說,就是研究“怎麼造出一個既能看懂圖片又能流暢對話的AI”,並且搞清楚了那些因素真正重要。真正讓曾妍“出圈”的,是2023年年底的PixelDance。這個項目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視訊生成領域一個長期存在的矛盾,如何平衡動態性和穩定性。你想想,如果一個AI生成的視訊動作幅度很大、畫面變化劇烈,看起來確實生動有趣,但很容易出現畫面崩壞、角色變形、物體突然消失這些“靈異事件”。反過來,如果你追求穩定性,讓角色和場景保持一致,人物面容不突變,那生成的視訊就容易僵硬,像幻燈片切換而不是流暢的動態影像。曾妍團隊的突破在於,他們在預訓練階段就建立了嚴格的時序約束。傳統的視訊生成模型都是先生成視訊,然後再一幀一幀去修補。PixelDance則是讓模型學會了在保持一致性的前提下生成動態內容。核心創新點是在擴散模型框架中,引入首幀+末幀的雙圖像指令,配合文字指令聯合約束視訊生成,同時在網路結構中新增時序摺積與時序注意力層,從生成的源頭就錨定了視訊的起止狀態,從而保證大動態動作下的主體與場景一致性。就像訓練一個舞者,從一開始就教她在保持平衡的前提下做大幅度動作。PixelDance的成功,讓曾妍在字節內部的地位迅速提升。2024年,她從演算法工程師晉陞為演算法研究員,成為Seed團隊中最年輕的研究員之一。這個晉陞不只是對她學術能力的認可,更重要的是,她證明了自己能把研究成果轉化為實際產品。在大廠裡,這兩種能力的差別,就像會做菜和會開餐廳的差別。02 從 PixelDance 到 Seedance 2.0有意思的是,PixelDance就是Seedance的前身。Seed代表字節的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個改名不只是品牌策略,更標誌著模型從研究原型向商業產品的轉變。2025年6月11日,字節正式發佈了Seedance 1.0,曾妍是該模型的核心研發負責人。雖然直至2026年2月,曾妍才被字節官方確認為Seedance 2.0 視訊模型預訓練負責人,但知情人士爆料,早2025年下半年時,曾妍就已經正式牽頭Seedance 2.0的預訓練全流程工作,成為該項目的核心一號位。她的+2 leader是周暢,+3 leader是Seed團隊負責人吳永輝。Seedance 2.0核心技術突破之一是雙分支擴散變換器架構,這是曾妍團隊在預訓練階段就確立的基礎架構。傳統視訊生成模型採用“先畫後配”的模式。即先生成視訊畫面,再單獨生成或匹配音訊。這種方式的問題在於,音畫分離導致同步性差,人物說話時嘴型對不上,背景音樂的節奏與畫面情緒脫節,音效出現的時機與畫面動作不匹配。Seedance 2.0通過視訊與音訊平行生成的方式,共享同一個理解編碼器,從根源上實現了音畫原生協同。這個架構設計的關鍵在於,讓模型在生成每一幀畫面的同時,就考慮對應的音訊應該是什麼樣的,而不是等畫面全部生成完再去“配”音訊。文章開頭我就講了,預訓練是整個模型能力的基石。曾妍在這個階段需要處理海量的視訊資料,建立視覺、文字、音訊等多模態之間的對齊關係。她通過引入“跨分支校準模組”,即時校準視訊與音訊的節奏、情緒與場景匹配度,確保嘴型與台詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。預訓練階段把所有的多模態對齊關係、物理規律、運動模式都塞進模型裡,成為“默認項”。後續模型只要呼叫到相關內容,就會立刻給出預訓練時的結果。它不是簡單地讓模型記住訓練資料,而是讓模型從海量資料中提煉出普遍規律,形成對世界的基礎理解。Seedance 2.0生成時長1分鐘的2K視訊僅需60秒,比上一代Seedance 1.5 Pro快了30%。速度提升的背後,是曾妍團隊在預訓練階段對模型架構、訓練策略、資料配比的精細調優。她的團隊迭代速度極快,在預訓練階段就完成了擴散模型的多輪最佳化。最佳化注意力機制減少冗餘計算,改進噪聲調度策略加快收斂速度,精選高品質訓練資料提升樣本效率。每一個最佳化點單獨看都不起眼,但累積起來就是質的飛躍。模型規模越大,訓練成本越高,每一個百分點的效率提升都意味著數百萬元的成本節約和數周的時間縮短。Seedance 2.0還實現了多鏡頭敘事能力。這意味著模型不僅能生成長視訊,還能理解“全景-中景-特寫”的專業分鏡邏輯,自動規劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。這個能力很大程度上依賴於曾妍在預訓練階段投喂的字節跳動海量短影片資料。抖音每天產生數以億計的短影片,這些視訊雖然大多是普通使用者拍攝,但其中不乏優秀的鏡頭語言和敘事技巧。曾妍團隊從這些資料中篩選出高品質樣本,讓模型學習到了人類導演的鏡頭語言和敘事節奏。這種從資料中提煉出的“導演直覺”。03 曾妍與羅福莉同為女性AI科學家,曾妍和羅福莉在模型研發中,都擅長尋找“平衡點”。在DeepSeek時期,羅福莉參與的DeepSeek-V2,通過MoE架構的稀疏啟動,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。這就像設計一個大型圖書館,雖然藏書百萬冊,但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需啟動”的機制,讓大模型的成本驟然下降,卻不怎麼損失性能。羅福莉在性能與成本之間,找到了這樣一個平衡點。到了號稱“性價比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導團隊與北京大學聯合研發資源管理系統ARL-Tangram,讓模型的算力成本直降71.2%。然而成本下降並不意味著性能下降。使用了該技術的兆參數的旗艦模型MiMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內第二。羅福莉證明了一件事:性價比不是某個項目的偶然,而是一種可以跨平台複製的方法論。曾妍的平衡點則是前文提到的動態性和穩定性,讓視訊生成模型又能講好故事,又有畫面張力和視覺衝擊力。兩人不同的是職業規劃。羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創業公司,從工程應用到模型研究”。曾妍則是在字節內部一路深耕,5年時間完成了從校招畢業生,坐到了4-2的位置。兩條路徑沒有高下之分。在AI大模型這個燒錢、拼資源、看長期積累的領域,年輕的技術人才依然可以通過對問題的深刻理解,在短時間內做出關鍵貢獻。有可能他們研究的方向,你聽都沒聽過,但就是有效。她們的故事才剛剛開始。 (字母AI)
“雷軍的AI秘密武器”羅福莉首秀:詳解小米AGI之路
12月17日,2025小米“人車家全生態合作夥伴大會”舉辦。在這次大會上,小米MiMo團隊負責人羅福莉完成了首秀演講。作為前DeepSeek核心成員,羅福莉自從加入小米,就被視為小米AI研發走向“正規軍化”和“極客化”的里程碑。市場曾期待她能帶來像DeepSeek那樣顛覆性的“小而美”模型,而羅福莉身上AI時代的極客特質,也許能與小米初創時期的極客基因完美相融,產生新的化學反應。羅福莉的首秀略顯緊張,但不負眾望,她帶來了一個高效的模型MiMo-V2-Flash,也拋出了新的AGI夢想。在她看來,現在的模型大多隻是“完美的語言外殼,沒有錨定現實世界的物理模型”;“真正的智能是從互動中活出來的”,通往AGI的必經之路,不是打造一個程序,而是“推演整個世界的運作邏輯,打造一個虛擬宇宙”。這次首秀,羅福莉確實帶來了鮮明的“DeepSeek 基因”,比如MoE架構、MTP技術和對極致效率的追求。此次開放原始碼的MiMo-V2-Flash模型,它具備三個核心特點:高效推理:雖然總參高達309B,但通過MoE架構僅啟動15B,結合被低估的MTP(多令牌預測)技術,生成速度達到150 tokens/秒。這帶來約2.5倍加速,主要為瞭解決車機、助手等端側互動對延遲的敏感。創新的長文字架構:設計上追求“簡單優雅”,採用Hybrid SWA機制,鎖定128 tokens的“神奇窗口”。這不僅支援256K長上下文,固定了KV快取以降低硬體壓力,還在程式碼生成上刷新了SOTA。極高的性價比:落地層面非常務實,後訓練階段採用MOPD技術,用極低的計算量(不到標準流程1/50)復刻教師模型性能,意在降低大規模部署的成本。這場首秀被安排在“人車家全生態”大會上,意義耐人尋味。羅福莉在小米的職責很明確:主導大模型研發,通過高效推理與智能體技術,推動AI從“語言互動”跨越到“物理世界”,賦能全生態。但客觀來看,端側AI智能、賦能全生態的理想還在路上,現在的硬體依然難以支撐這樣一個已經“極致效率”的模型。以當前最高端的旗艦手機為例,端側模型的舒適區依然停留在3B到7B參數之間。MiMo-V2-Flash的15B啟動參數,對移動裝置而言依然是“房間裡的大象”。所謂的“高效推理”,更多是指在雲端資料中心實現了高吞吐量,對於使用者手中的終端,這依然是一個重度依賴網路的“雲端模型”。雖然有驚喜,但是此次小米並沒有打破端側AI的算力天花板,對於期待“AI手機”變革的使用者而言,還需要繼續等待。但今天的羅福莉,確實在給小米,講了一個可圍繞“人車家生態的”、新的AGI故事。以下為演講實錄(為最佳化閱讀體驗,做了二次編輯、刪減):01 從生物演變看 AI 發展路徑今天我想帶大家換一個視角,從 10 億年生物進化的長河中,重新去審視我們正在經歷的這一場 AI 變革。如果我們回到生命進化的歷程,會發現自然界在建構智能這座金字塔時,遵循著非常嚴密的邏輯:在 6 億年前,生命首先學會了控制身體與環境互動;緊接著進化出了多巴胺系統,通過強化學習進一步提升生存能力;在 2 億年前,哺乳動物的大腦首次具備了在行動前先在大腦裡模擬未來的能力;最終我們發現,人類才登上了智能的塔尖,掌握了語言這一抽象的符號系統。所以我們能看到,生物演化的規律是先具備對物理世界的感知和生存體驗,最後才誕生了語言。但大家都能發現,到現在為止,大模型的發展路徑其實跟生物進化路徑是不同步的,甚至說是一種倒敘,或者說是一種跳躍。生物是先從行動進化到思考,再進化到語言;但是大模型是先學會了語言,再去補齊它的思考能力,最後再去補齊對物理世界的模擬以及具身感知。為什麼大模型智能的產生首先是在語言領域?因為語言不僅僅是一種符號的排列組合,更是人類思維以及對於世界的一種描述。在文字領域的投射,本質上是一種失真壓縮。當大模型通過 Next Token Prediction(下一詞預測)這種範式在海量文字裡進行學習,試圖把 Loss(損失函數)降到最低的時候,我們發現它不僅僅是在擬合一個統計規律,而是在壓縮人類數十億年間關於這個世界的認知同構。這種壓縮的過程,在我們看來就是一種智能。所以,大模型通過語言的爆發,通過 Scaling(擴展)算力和資料,從而理解了人類的思維和對世界的理解。但其實它並不真正像人類一樣具備對整個物理世界的感知。嚴謹來說,它應該是成功地解碼了人類思維在文字空間的一個投影。大家都能看到,這其實是一種自頂向下的捷徑,因為它是在學習一種智能的結果,來倒推智能產生的過程。02 MiMo-V2-Flash 的誕生,解決三大核心問題不管怎麼說,語言包含了人類對世界極致的壓縮,是智慧的結晶,也是高階智能體之間高效協作的工具。因此,小米從語言出發,建構了全新一代面向 Agent(智能體)的基座模型——MiMo-V2-Flash。MiMo-V2-Flash 在研發之初,主要圍繞著三個非常關鍵的問題展開:第一,我們認為當代的智能體必須要有一個高效的溝通語言,即程式碼能力和工具呼叫能力。第二,目前智能體之間的溝通頻寬非常低,如何加速頻寬?這需要一個推理效率極高的模型結構。第三,Scaling 的範式已經逐步從預訓練(Pre-train)轉向後訓練(Post-train),我們如何激發後訓練的潛能?這就需要一個穩定的範式,以便在強化學習(RL)上投入更多的 Compute(算力)。在這三個問題的驅動下,我們看到了 MiMo-V2-Flash 超強的基座潛能。雖然它的總參數在我看來非常小——總參數 309B,啟動參數隻有 15B,我甚至都不願意稱它為“大”模型——但它的程式碼能力和 Agent 能力在世界級公開公正的評估榜單上,已經進入了全球開源模型 Top 1-2 的行列。基本上,大部分評估基準已經超過或者與 DeepSeek-V3、Kimi、Qwen 等模型相當,而這些模型的總參數量通常是 MiMo-V2-Flash 的兩倍到三倍。03 性能與成本的平衡,挑戰推理不可能三角這個圖展示了全球相同水位大模型在價格和速度上的比較:橫軸是推理價格(從大到小),縱軸是推理速度(從小到大)。我們能看到 MiMo 在右上角,代表了低成本、高速度。舉兩個模型進行對比: 比如 DeepSeek-V3.2,MiMo-V2-Flash 比它更便宜一點,但推理速度大概是 V3.2 的三倍左右。再比如 Gemini 2.5 Pro,雖然綜合性能相當,且推理速度差不多,但 Gemini 2.5 Pro 的推理成本比 MiMo-V2-Flash 貴了整整 20 倍。04 架構創新與 MTP 加速那麼我們是怎麼做到這一切的呢?核心關鍵在於圍繞“極致推理效率”重新設計模型結構,主要依靠兩個創新。第一個是 Hybrid Attention(混合注意力)結構。我們採用了 Hybrid Sliding Window Attention(混合滑動窗口注意力)和 Full Attention(全域注意力),比例大概是 5:1。為什麼選 Sliding Window Attention?因為它看起來非常簡單,只關注鄰域的 128 個 Token。經過大量實驗驗證,我們發現一些看似複雜的 Linear Attention(線性注意力)結構,在兼顧長短文推理和知識檢索的綜合性能上,其實並不如簡單的 Sliding Window Attention。更重要的是,它的 KV Cache 是固定的,能非常好地適配當代主流的 Infra(基礎設施)推理框架。圖:全域注意力(GA)和滑動窗口注意力(SWA)的1:5混合結構第二個是 挖掘 MTP(Multi-Token Prediction,多令牌預測)的潛力。MTP 一開始被提出是用於做推理加速的,後來 DeepSeek 將其用於提升基座模型能力。我們在訓練時加入了一層 MTP 層以提升基座潛能,並且在微調時加入了更多層的 MTP,用少量算力就提升了 MTP 層的接受率。最終推理時,我們使用了三層 MTP 進行加速平行 Token 驗證。在實際場景中,這種方式能做到 2.2 到 2.6 倍的推理加速。在社區關於三層 MTP 的情況下,我們來看模型輸出吞吐:在單機吞吐能做到 5,000~15,000 Tokens/秒的基礎上,單請求吞吐也能做到 150~155 Tokens/秒。使用 MTP 相比不使用,整體速度提升了 2 到 3 倍。05 訓練範式革新:MOPD 與自進化除了關注預訓練結構的高效性,我們還在思考如何擴展強化學習訓練的 Compute。強化學習訓練通常非常不穩定,因此我們提出了 MOPD(Multi-Teacher On-Policy Distillation,多教師線上策略蒸餾) 範式。它的核心在於 On-Policy,依賴稠密的 Token Level Reward(令牌級獎勵)進行監督學習。通常 Post-train 範式會通過 SFT 和 RL 拿到各領域專家模型。MOPD 則會讓 Student(學生)模型基於自身機率分佈 Roll out(生成)一些序列,然後用專家模型對這些序列進行打分,提供非常稠密的監督訊號。我們發現這種學習效率極高,通過簡短的幾十步就能將各領域專家的能力快速蒸餾到 Student 模型上。此外,我們還有一個意外發現:當 Student 很快超越 Teacher 時,我們正在嘗試將 Teacher 替換成更強的 Student,繼續自我迭代提升,這是一個正在進行中的工作。06 邁向物理世界:從語言模擬到真實互動MiMo-V2 已經初步具備在語言空間模擬世界的能力。比如,我們可以通過 HTML 讓它寫一個作業系統,很多功能都是可實現的;或者寫一個 HTML 模擬太陽系;甚至做一個畫聖誕樹並產生互動的小 Demo。MiMo-V2-Flash 已經在昨天發佈,我們開源了所有模型權重,同步了技術報告細節,並提供了 API 供開發者接入 Web Coding IDE。我們的體驗 Web 也已上線,大家可以掃描試用。雖然現在的大模型能聊天、能寫程式碼,但我相信大家還是不放心把身邊複雜的任務交給它。我認為真正的下一代智能體系統,不應該只是一個語言模擬器,而是需要跟世界共存。下一代智能體必須具備兩個潛能: 第一,從“回答問題”變成“完成任務”。 這不僅需要記憶、推理、規劃能力,更需要一個 Omni(全模態)的感知能力。做一個統一的動態系統非常必要,這是理解世界的基礎。有了這個基礎,模型才能無縫嵌入到像眼鏡這樣的智能終端,融入我們的生活流。第二,建構物理模型。 回到開頭的話題,現有大模型本質上是用算力的“暴力美學”攻克了頂層的語言和第二層的強化學習,但跳過了中間對世界的感知和模擬,以及底層的實體互動。這就是為什麼大模型能做奧數、模仿莎士比亞,卻不懂重力等物理法則,經常產生具身幻覺。因此,AI 進化的下一個起點,一定要有一個可以跟真實環境互動的物理模型。我們要打造的本質上不是一個程序,而是一個具備物理一致性、時空連貫性的虛擬宇宙。這意味著 AI 能力的本質跨越——不僅僅是看懂畫面,而是理解背後的物理規律;不僅僅是處理文字,而是推演世界的運作邏輯。真正的智能絕對不是在文字裡讀出來的,而是在互動裡“活”出來的。 (騰訊科技)
羅福莉首秀!小米AI野心浮現
在今日舉辦的小米“人車家全生態”合作夥伴大會上,AI能力的全面開放與進化成為核心焦點。在這次會上,小米MiMo大模型負責人羅福莉首次公開亮相。這位被業界稱為“AI天才少女”的95後技術專家曾入職阿里達摩院,後任職幻方量化、DeepSeek並成為DeepSeek-V2關鍵開發者,是小米引入的高端人才中最受關注的一位,市場普遍認為她將扛起小米的AI戰略。今年11月,羅福莉官宣加入小米。12月初,小米集團合夥人、總裁盧偉冰在回應相關問題表示,小米在前幾個季度就已經開始了在 AI 上的壓強式投入,雖然現在還不能透露太多,但是小米在 AI 大模型和應用方面的進展遠超預期。小米認為 AI 與物理世界的深度結合是智能科技的下一站。羅福莉在今日的大會上帶來了小米大模型的具體情況,並分享自己對AI未來的判斷。據她介紹,小米最新MoE大模型MiMo-V2-Flash已經正式開源並上線。她稱,該模型具備超強基座模型潛能,在世界級評估榜單中排到了全球開源模型的TOP2,已初步具備模擬世界的能力。同時,MiMo-V2-Flash實現了低成本、高速度,其成本在低於DeepseekV3.2的情況下,推理速度是其3倍。在會上,羅福莉宣佈MiMo-V2-Flash已全面開源,並提供了API介面,旨在通過開源實現技術的“分佈式加速”,與全球開發者共同推進AGI(通用人工智慧)的普惠化。《科創板日報》記者注意到,在官方微信公眾號“Xiaomi MiMo”上,該模型的開源推文已經獲得2萬+點選量,目前API 限時免費,體驗 Web Demo 已上線。同時,小米也公佈了MiMo-V2-Flash 的 API 定價標準: 輸入 0.7 元 / 百萬 tokens,輸出 2.1 元 / 百萬 tokens。之後,羅福莉進一步分享了小米對AI未來的前瞻判斷。她指出,當前大模型只是一個“完美的語言外殼”,缺乏對物理世界的真實感知,容易產生“具身幻覺”。她認為,AI進化的下一個關鍵,在於建構能與真實環境互動的物理模型。真正的智能體必須從“回答問題”升級到“完成任務”, 具備記憶、推理、自主規劃、決策、執行等能力,並具備統一的多模態感知能力。在這裡,羅福莉提到這種感知能力會為理解物理世界打基礎,從而更好地嵌入眼鏡等智能終端。在今年6月,小米首款AI眼鏡發佈,售價1999元起。當時小米集團創始人、董事長兼CEO雷軍表示,“這是一款戰略級新品,是面向下一代的個人智能裝置,隨身的AI入口。”不過此次大會上,沒有著重介紹AI眼鏡的相關進展,但除了自研大模型,小米還系統性地向開發者開放了其AI能力,如向生態鏈夥伴優先開放了端到端的自動化AI開發部署平台MINT,極大降低了AI應用開發門檻。在會上,小米集團合夥人、總裁盧偉冰再次強調,小米未來五年將在研發上投入2000億元,長期目標是成為全球硬核科技的引領者。具體到今年,預計小米研發投入將達到320-330億元,2026年預計投入約400億。未來,小米將持續投入底層核心技術,持續深耕晶片、OS、AI三大核心技術賽道,與全球開發者共同助力“人車家全生態”全面繁榮。 (科創日報)
金句媲美雷軍!羅福莉首次站台小米演講,揭秘MiMo大模型和背後團隊
羅福莉首次演講有點“小緊張”,但金句很爆。羅福莉加入小米後的首次公開演講,來了!智東西12月17日北京現場報導,剛剛,小米舉辦了年度“人車家全生態”合作夥伴大會,現場人頭攢動座無虛席,展區不少展台都已被圍觀人群擠滿,討論熱度頗高。小米創始人兼CEO雷軍此次並未來到現場,小米集團合夥人、集團總裁盧偉冰率先登台演講,今天第三位演講的是當前備受關注的原DeepSeek核心成員、被業內稱為“天才少女”的羅福莉,她現在的職位是小米MiMo大模型負責人。羅福莉在演講過程中雖然稍顯緊張,但她拋出的海量金句卻句句令人印象深刻:AI正以非線性的方式重演人類大腦6億年的進化史;語言是人類思維和物理世界在符號空間的“投影”;下一代智能體系統不是一個“語言模擬器”,而是一個真正理解我們世界、並與之共存的“智能體”;相比生物演化的穩固根基,AI的發展是“空中樓閣”;AI進化的下個起點,一定是有一個能跟物理世界互動的模型;算力和資料也並非最終的護城河,真正的護城河,是科學的研究文化與方法,是將未知問題結合模型最佳化轉化為可用產品的能力;開放原始碼的價值本質上是一種分佈式的技術加速主義;開源是實現AGI的普惠化,是確保所有人類的智慧共同進化的唯一路徑;在演講中,羅福莉首次明確解讀了小米打造Agent語言基座模型的三個核心方向,解讀了新模型背後的多項關鍵技術突破。對小米如何通向AGI,羅福莉也明確了小米的路徑。除了AI大禮包,今天會上,盧偉冰也分享了小米整體業務的諸多亮點。盧偉冰說,2025年是小米“大發展”的一年,今年前三季度,小米收入同比增長32.5%,超過了3400億元,經調整利潤同比增長73.5%,其中手機銷量中國市場1-10月排名第二。未來五年,小米集團研發投入預計將超過2000億元,2026年預計研發投入在400億左右。小米人車家生態究竟包括什麼?盧偉冰這次給出詳細拆解:產品包括個人裝置、出行裝置、家庭裝置;核心技術包括晶片、OS、AI;智能製造包括手機、汽車、大家電工廠;什麼是小米當前聚焦的核心,一目瞭然。在大家最關心的AI方面,小米自研MiMo系列大模型家族赫然呈現:推理大模型、視覺推理大模型、原生端到端音訊生成模型、端側視覺語言大模型、具身大模型。一個月前的11月12日,羅福莉在朋友圈正式官宣加入小米Xiaomi MiMo團隊。就在昨晚,小米剛剛發佈了最新的MiMo大模型MiMo-V2-Flash,性能媲美DeepSeek-V3.2,這也是羅福莉加入後MiMo團隊亮出的首個新成果。01. 羅福莉首次解讀:小米大模型三個重點方向算力和資料並非最終護城河羅福莉一上台就回到了“6億年前”,她說,AI正以非線性的方式重演人類大腦6億年的進化史。為什麼大模型“智能”起源於語言?在羅福莉看來,語言是人類思維和物理世界在符號空間的“投影”,而大模型成功解碼了人類思維在文字空間的投影。小米從“語言”出發,建構了面向Agent時代的語言基座模型MiMo-V2-Flash。在小米看來,超強的程式碼和工具呼叫能力是Agent溝通的高效“語言”,圍繞極致推理效率設計的模型結構是“高頻寬”的Agent協作的關鍵,全新後訓練範式則能夠保證高效穩定的擴展強化學習訓練。這三個方面是小米聚焦的重點。羅福莉特別提到,MiMo-V2-Flash模型並不大,但在程式碼和Agent測評基準測試中已經達到全球開源模型TOP2。MiMo-V2-Flash的推理效率是其突出優勢,在全球大致相同水位的頂尖模型速度和成本象限裡,MiMo-V2-Flash實現了低成本和高速度優勢。具體來看,小米圍繞極致推理效率來設計模型結構,採用了Hybrid SWA架構,固定KV Cache,增強長文推理,此外,團隊採用3層MTP推理加速平行Token驗證,實現推理速度2-2.6倍的提升。在全新後訓練範式方面,團隊採用了Dense&Token-Level的強化學習。當前MiMo-V2-Flash已經初步具備了模擬世界的能力,比如通過HTML寫作業系統、模擬太陽系、畫一顆聖誕樹。今天發佈會現場,羅福莉宣佈MiMo-V2-Flash發佈即開源,模型權重、技術報告都開源,API限時免費。對於未來的Agent發展,羅福莉提到,下一代智能體系統,不是一個“語言模擬器”,而是一個真正理解我們世界、並與之共存的“智能體”。Agent執行從“回答問題”到“完成任務”,具有記憶、推理、自主規劃、決策、執行的能力。Omni感知統一多模態感知,為AI理解物理世界打下基礎,嵌入眼鏡等智能終端、融入日常工作流。在通往AGI的路上,羅福莉團隊希望補全缺失的演化拼圖,單純Scaling UP參數量不夠,他們要讓LLM回到“演化課堂”,補上它跳過的關鍵學習步驟。簡單來說,他們非常看重AI與真實世界的互動,強調多模態。羅福莉特別提到,相比生物演化的穩固根基,AI的發展有些像“空中樓閣”。在她看來,AI進化的下個起點,一定是有一個能跟物理世界互動的模型。AI不僅要看懂畫面,還要理解背後的物理規律;AI不僅要推理文字,而是理解世界的運作邏輯。羅福莉說,這一觀點並非共識,行業中也有不少人認為語言就可以實現最終的AGI,比如Ilya。在她看來,算力和資料也並非最終的護城河,真正的護城河,是科學的研究文化與方法,是將未知問題結合模型最佳化轉化為可用產品的能力。羅福莉現場也開啟了“招聘會”,她提到,小米大模型Core團隊是研究、產品與工程深度耦合的年輕團隊,“小而美”卻充滿創業精神,他們極度好奇、追求真理。羅福莉提到,在她剛剛開始研究時,開源模型與頂尖模型的代差有三年,而今天這一差距已經縮短到了“數月”。他們相信開放原始碼的價值,開放原始碼的價值本質上是一種分佈式的技術的加速的主義。在羅福莉看來,開源是實現AGI的普惠化,是確保所有人類的智慧共同進化的唯一路徑。未來,從資料的極致壓縮,到演算法的範式創新,再到與物理空間的深度連結,小米與全球AI共同定義未來。95後羅福莉本科就讀於北京師範大學電腦專業,碩士畢業於北京大學計算語言學研究所計算語言學專業。她曾在阿里巴巴達摩院主導開發了多語言預訓練模型VECO,並推動了AliceMind的開源工作,2022年入職DeepSeek,參與了MoE大模型DeepSeek-V2的研發。集諸多光環於一身,來到小米的羅福莉,其動向一直是業內關注的焦點。02. 結語:猛攻Agent基座模型小米人車家生態全力衝刺AIAI,顯然是整場小米生態大會圍繞的核心關鍵詞。面向AI未來,小米的機會點顯然不止於AI手機,手機、PC、穿戴、IoT、汽車,小米人車家全生態均能與AI深度融合,小米在大模型方面的AI基礎能力提升則進一步加速了這一處理程序。盧偉冰近日曾提到,小米AI大模型業務過去投入持續增長,“AI與現實世界深度融合”已被列為小米未來十年核心戰略。顯然,面對AI這場硬仗,小米已經做好準備All in,“兵馬和糧草”都在加碼籌備。 (智東西)
雷軍挖走前DeepSeek開發人,轟動整個行業
挖人這一塊,雷軍是專業的。“AI天才少女” 羅福莉被雷軍納入麾下,消息一出,沖上熱搜第一。保送北大、研究生期間在頂會ACL狂發8篇論文、從阿里達摩院到DeepSeek-V2核心研發人,集美貌與才華於一身,羅福莉的履歷堪比“開掛”。雷軍對羅福莉也一直難掩青睞,此前傳聞,雷軍曾以千萬年薪“挖人”,外界一片嘩然。如今,一切塵埃落定,羅福莉加入小米AI實驗室大模型團隊,成為小米在AI軍備競賽中擲下的重磅籌碼。前DeepSeek核心開發者羅福莉加入小米,擔任負責人近日,羅福莉在朋友圈發文官宣——正式加入小米,出任MiMo團隊負責人:“智能終將從語言邁向物理世界。我正在Xiaomi MiMo,和一群富有創造力、才華橫溢且真誠熱愛的研究員,致力於建構這樣的未來,全力奔赴我們心目中的AGI。”圖源:微博圖源:微博消息發佈後,迅速沖上微博熱搜第一。圖源:微博Xiaomi MiMo是小米首個推理大模型,於2025年4月30日開源。圖源:百度僅有 7B 的參數規模,在一眾巨無霸模型面前,Xiaomi MiMo可以說毫不起眼。不過,Xiaomi MiMo在數學推理(AIME 24 - 25)和程式碼競賽(LiveCodeBench v5)公開測評集中,爆發出了令人驚訝的能量,不僅成功超越了 OpenAI 的閉源推理模型 o1 - mini,還將阿里參數規模更大的開源推理模型 QwQ - 32B - Preview 也甩在了身後。AI大戰背景下,雷軍也不甘落入下風,對大模型的重視程度可見一斑。早在去年8 月的演講中,雷軍就鄭重宣佈,小米進行科技戰略升級,把 AI 放到了核心位置,還提出 “深耕底層技術、長期持續投入、軟硬深度融合,AI 全面賦能” 的原則。還有消息稱,小米公司正在積極搭建自己的GPU萬卡叢集,以加大對AI大模型的投入力度。小米大模型團隊在成立之初就已擁有6500張GPU資源,而此次搭建GPU萬卡叢集,將進一步提升小米在AI大模型領域的研發實力。知情人士透露,雷軍對於AI硬體的重視程度極高,認為小米必須全力以赴。砸錢這一塊,雷軍更是毫不吝嗇。小米宣佈2025年研發投入將超過300億元,其中四分之一(約75億元)專門用於AI領域。此外,雷軍還公佈了更為長遠的投入計畫:2021-2025年研發投入預計超1000億元,2026-2030年將超過2000億元,主要聚焦於AI、OS、晶片三大底層技術。小米對AI的投入規模,相比一眾網際網路大廠,都是很可觀的。一則震撼業界的消息傳出:小米創始人雷軍以千萬級年薪挖角95後AI天才少女,DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一羅福莉,領導小米AI大模型團隊。不過,當時消息稱,當時羅福莉還在考慮要不要加入小米。目前看來,高調招攬羅福莉,是小米全面佈局AI大模型的重要一步。最後,羅福莉朋友圈官宣短文中“智能終將從語言邁向物理世界”一句話頗有深意。可以看出,和AI賽道其他玩家不同,小米想走一條完全不同的道路,不禁讓人想起小米汽車橫空出世,打得一眾車企措手不及的時刻。那麼,在AI這條路上,雷軍押注的“小米汽車時刻”是否會到來?拭目以待。“小鎮姑娘”到“天才少女”的非典型人生上大學前幾乎沒接觸過電腦,卻最終成為國產大模型DeepSeek-V2的關鍵開發者,羅福莉的“開掛”般的人生,註定充滿閃光燈。出生於四川的95後羅福莉,父親是一名電工,母親是教師。學生時代,羅福莉就讀於當地的“清北班”,並以優異成績考入北京師範大學。羅福莉 圖源:微博進入北師大電腦專業後,羅福莉坦言自己是“電腦領域絕對的‘低起點’者”,甚至在上大學前幾乎沒接觸過電腦。轉機發生在大三,她進入北大語言計算實驗室實習,在3個月內自學Python並投出一篇頂會論文(非一作),之後,羅福莉成功保研進入北京大學計算語言學研究所。在這裡,羅福莉“一戰成名”。2019年,在北大讀碩士的羅福莉創造了令人矚目的學術記錄——她在人工智慧領域頂級國際會議ACL上發表了8篇論文,其中2篇為第一作者。外界的聚光燈紛至沓來,羅福莉被稱作“AI天才少女”。圖源:羅福莉個人公眾號碩士畢業後,羅福莉幾乎拿下了國內各大廠的頂級offer,包括阿里星、騰訊技術大咖、百度AIDU計畫等。她選擇加入阿里巴巴達摩院,這是阿里集團校招最高等級,類似於華為“天才少年”計畫。2022年,羅福莉跳槽至DeepSeek母公司幻方量化,從事深度學習相關策略建模和演算法研究。此後,她又跳槽到DeepSeek,參與了MoE大模型DeepSeek-V2的研發,並成為關鍵開發者之一。今年春節,DeepSeek一炮而紅,開源大模型的風吹入了萬千尋常百姓家,連帶著羅福莉本人的熱度更上一層樓。2月19日,羅福莉在朋友圈發聲:“請網際網路還我一片安安靜靜做事的氛圍吧! 幾年前就說過我並非什麼天才少女,神化一個人的結果就是捧得多高摔得多重!”圖源:微博輿論喧囂下,羅福莉仍想保持對技術的純粹探索。她透露,走紅後曾有各種千奇百怪的機會找上門,“有找我出書的、有找我錄公開課的,甚至有經紀公司找來的”,但她更傾向於專注技術。時間來到10月,網友發現:羅福莉以通訊作者身份出現在小米論文中,推測雙方可能採用“項目制合作”模式。圖源:微博當時不少人猜測,羅福莉或許已經加入小米?答案今日終於揭曉。雷軍曾公開表示,小米在大模型領域的戰略重點是輕量化和本地部署。這一思路與羅福莉在DeepSeek-V2項目中的經驗高度契合,這或許是雷軍看中羅福莉的關鍵原因之一。AI人才大戰,一觸即發雷軍不惜重金挖來羅福莉,是當下AI人才爭奪戰的一個縮影。根據獵聘統計資料,2024年2月至2025年1月,AI技術人才需求同比增長6.53%,人工智慧行業開工首周同比增長18.25%。大廠對AI人才的焦慮,已經呼之慾出。2025年秋招季,各大廠使出渾身解數吸引人才。先是薪酬上。資料顯示,目前人工智慧人才平均最低月薪超過4.7萬元。在今年春招首周,AI工程師以21319元的平均招聘月薪,遙遙領跑了職業薪資榜。更為誇張的是,一些企業甚至為實習生開出了天價日薪,有獵頭爆料,今年字節跳動招的清北演算法博士實習生,日薪竟然有5000元。百度則直接用薪資激勵,IDG部門平均薪資漲幅20%,最高的不僅現金漲50%,股票還能再漲30%。再是崗位釋放上。脈脈統計資料顯示,2025年7月,脈脈上人工智慧新發崗位數量較去年同期增長超10倍,超過1000家AI公司正在爭奪AI人才。字節跳動2026年校招開放超5000個崗位,其中2559個校招崗位中,有1205個直接和AI相關,包括AI智能體應用開發工程師、AI量子化學研究員、電商AI產品經理等新興職位。阿里巴巴AI To C業務開放了數百個招聘崗位,90%集中在AI大模型相關領域。還是那句話,大模型的競爭,最終還是人才的競爭。AI技術迭代速度快得驚人,企業對AI人才的渴望也就達到了空前程度。那麼,擔任小米大模型負責人的羅福莉,將會帶著小米在一種大廠角逐中,殺出怎樣的火花? (網際網路頭條)
小米首個推理大模型開源!雷軍從DeepSeek挖來的天才少女,化名CiCi ?
4月30日上午,小米透過官方公眾號「Xiaomi MiMo」宣佈開源其首個推理大模型Xiaomi MiMo。從模型研發到開源落地,全程未透露任何風聲。更引人注目的是,這次開放原始碼的MiMo-7B模型僅用70億參數規模,便在數學推理和代碼生成兩大核心任務中超越OpenAI閉源模型o1-mini及阿里Qwen的32B參數版本QwQ-32B-Preview。在這次開源事件前,業內曾傳出小米大模型團隊引進關鍵人物的消息。根據多家媒體報導,前DeepSeek核心開發者羅福莉於2024年底加入小米,主導大模型研發。羅福莉碩士畢業於北京大學計算語言學專業,曾在阿里巴巴達摩院任職,因在國際頂會發表8篇論文而走紅。多位小米內部人士向重點君證實,羅福莉確認已經加入小米。 “在雷軍辦公室外看到過她幾次。”這是否為MiMo的誕生埋下伏筆?羅福莉前東家DeepSeek,正是推理模型最極致的玩家。小米官方雖未正面回應,但行業觀察人士普遍認為,頂尖人才的加入加速了小米在推理大模型領域的突破。Xiaomi MiMo大模型的所有技術細節都已經公開,重點君剛讀完技術報告,給大家劃一下重點:一、先說彩蛋。這份技術報告結尾核心貢獻者中未出現羅福莉,唯一有一位單獨用了代稱「CiCi 」。重點君認為,這位「CiCi 」很可能就是羅福莉。畢竟這麼重要的技術報告,除非有特別的原因,否則核心研究人員都願意署真名。(以上推斷僅代表個人觀點,未經小米官方證實)二、論文重點。《MiMo-7B技術報告》提出:1 、MiMo-7B是一款專為複雜推理任務設計的大型語言模型,通過優化預訓練和後續訓練(強化學習)策略,顯著提升小模型(7B參數)在數學、代碼和通用推理任務上的性能,甚至超越部分32B規模的模型。2、核心結論:預訓練階段的高品質推理資料是模型潛力的基礎。RL訓練中需平衡數學與程式碼任務的獎勵機制,避免語言混合問題。輕量級SFT(僅對齊輸出格式)效果有限,需結合深層調整。3.關鍵技術貢獻預訓練優化資料增強:優化資料預處理流程,保留數學公式和程式碼片段;結合高品質自然文字與合成推理資料(如STEM內容產生的分析和解題過程)。三階段資料混合策略:逐步增加數學與程式碼資料的比例(最終佔70%),並擴展上下文長度至32K。多令牌預測(MTP):引入平行預測未來多令牌的機制,提升推理速度(透過推測解碼加速產生)。後續強化學習(RL)優化資料品質:使用13萬可驗證的數學和程式設計問題,透過嚴格過濾保留高難度任務(如測試通過率低於90%的問題)。獎勵機制:提出測試難度驅動的程式碼獎勵,依測試案例的通過率分層分配獎勵,緩解稀疏獎勵問題。動態取樣與重採樣:動態過濾簡單問題,並通過10%機率重採樣穩定訓練。基礎設施:開發Seamless Rollout Engine,整合非同步獎勵計算與連續取樣,訓練速度提升2.29倍,驗證速度提升1.96倍。4.模型架構與訓練細節架構:基於Transformer,整合Grouped-Query Attention、RoPE位置編碼和SwiGLU啟動函數。訓練參數:預訓練25兆標記,分三階段調整學習率與批次大小;RL階段使用GRPO演算法,支援32K長上下文產生。5.實驗結果MiMo-7B-Base (預訓練模型)在BBH(語言推理)得分75.2,顯著優於同類7B模型(如Qwen2.5-7B)。數學推理(AIME 2024)得分32.9,代碼產生(LiveCodeBench v5)得分32.9,均大幅領先同規模模型。MiMo-7B-RL (強化學習調優模型)數學:AIME 2025得分55.4,超越OpenAI o1-mini(50.7)。代碼:LiveCodeBench v6得分49.3,優於QwQ-32B-Preview(39.1)。通用能力:在MMLU-Pro等基準測試中保持競爭力。如果大家感興趣的,可以查看技術報告原文:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf目前MiMo-7B 已開源4個型號至HuggingFace:https://huggingface.co/XiaomiMiMo從模型開源到終端落地,小米正試圖建構「晶片-演算法-裝置」的全端AI生態。 MiMo誕生,正是這場戰役的第一聲號角。最後,為小米和雷總在AI領域的技術進展點贊。永遠相信美好的事情即將發生。 (劃重點KeyPoints)