#龍貓模型
美團王興狂捲大模型!開源561B“全能”龍貓模型,上線首款AI通用助手App
“首個全模態、端到端、大參數量高效推理於一體的開源大模型”。智東西11月3日消息,今天,美團正式開源全模態模型LongCat-Flash-Omni,模型總參數量5600億,啟動參數量270億。美團官方部落格稱,LongCat-Flash-Omni是業界首個實現全模態覆蓋、端到端架構、大參數量高效推理於一體的開源大語言模型。LongCat-Flash-Omni中的“Omni”譯為“全能”,其在全模態基準測試中達到開源SOTA,同時在文字、圖像、視訊理解及語音感知與生成等關鍵單模態任務中均有明顯優勢,實現“全模態不降智”。LongCat-Flash-Omni基於LongCat-Flash建構,後者採用了高性能的Shortcut連接的混合專家(MoE)架構,並實現了零計算專家,LongCat-Flash-Omni整合了高效的多模態感知和語音重建模組,支援128K tokens上下文窗口及超8分鐘音視訊互動。在預訓練階段,研究人員收集了包含超過2.5兆個詞元的大規模、多樣化的多模態語料庫用於預訓練,同時採用漸進式訓練策略,逐步從簡單的序列建模任務過渡到更複雜的序列建模任務。這是9月1日以來,美團正式發佈LongCat-Flash系列後的第三款模型,此前其已開源LongCat-Flash-Chat和LongCat-Flash-Thinking兩大版本。值得一提的是,今天美團LongCat官方App開啟公測,目前支援聯網搜尋,還可以發起語音通話,視訊通話功能後續上線。LongCat-Flash-Omni目前可以在網頁版和App端體驗音訊互動功能。▲LongCat官方App首頁(左)、LongCat官方App音訊通話(右)據LongCat官方交流群中的官方透露,目前LongCat的文字端模型是longcat-flash,當有多模態輸入,比如圖片和PDF內容時,會自動呼叫omni模型。不過智東西體驗時發現,在LongCat中上傳.jpg格式圖片時一直顯示上傳錯誤。今天中午,官方還修復了一波Android端聯網搜尋相關問題,需要Android使用者解除安裝重裝。Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Flash-OmniGitHub:https://github.com/meituan-longcat/LongCat-Flash-Omni體驗地址:https://longcat.chat/01. 視覺、音訊、文字理解生成拿下多項開源SOTA研究人員將LongCat-Flash-Omni與各種閉源和開放原始碼的多模態模型進行比較,包括視覺理解、音訊理解、文字理解和生成、跨模態理解以及視聽互動。其將LongCat-Flash-Omni與Gemini-2.5-Pro、GPT4o、Seed-1.6和Qwen3-Omni和視覺語言模型Qwen3-VL、Qwen2.5-VL-72B等進行了比較。圖像轉文字方面,總體而言,LongCat-Flash-Omni的性能與Gemini-2.5-Flash相當,並且優於開放原始碼的Qwen3-Omni,其優勢在多圖像任務上尤為顯著。視訊轉文字方面,LongCat-Flash-Omni在視訊轉文字任務上取得了最先進的性能。具體而言,它在短影片理解方面顯著優於所有對比模型,在長視訊任務上,LongCat-Flash-Omni的性能與Gemini-2.5-Pro和Qwen3-VL等模型不相上下。在VideoMME基準測試中,它在全模態模型中取得了最佳性能。音訊能力中,研究人員主要評估了自動語音識別(ASR)、文字轉語音(TTS)和語音延續。基礎模型在預訓練階段的ASR和TTS性能結果顯示,不同階段的基礎模型在上下文語音延續評估中表現良好,文字輸出和語音輸出之間的性能差異可以忽略不計。在語音識別和翻譯、音訊理解、語音轉文字能力中,在所有模型中,LongCat-Flash-Omni的語音識別與翻譯測試集S2TT中表現最好最強;LongCat-Flash-Omni在沒有視覺輸入的情況下,能夠有效地作為原生音訊理解模型運行;在語音轉文字測試集中,LongCat-Flash-Omni在所有基準測試子集中均表現出色,並在多個案例中達到了最先進的水平。此外,LongCat-Flash-Omni還引入了高級跨模態理解和類人語音互動功能,能夠處理跨模態輸入。評估結果顯示,LongCat-Flash-Omni的性能優於Gemini-2.5-Flash-non-thinking,並達到了與 Gemini-2.5-Pro-ThinkingBudget128相當的水平。在強調真實世界音視訊理解的WorldSense和DailyOmni測試中,LongCat-Flash-Omni超越了其他開源全模態模型。在評估跨模態感知和推理能力的UNO-Bench測試中,LongCat-Flash-Omni在開源全模態模型中也表現出色。即時音視訊互動的評估結果顯示,LongCat-Flash-Omni在端到端互動的自然度和流暢度方面得分排名第三。與音視訊互動產品相比,LongCat-Flash-Omni的排名低於豆包和GPT-4o,但優於科大訊飛星火和StepFun。值得注意的是,LongCat-Flash-Omni在開源替代方案中得分比目前最先進的開源模型Qwen3-omni高出0.56分。目前,LongCat支援音訊通話10分鐘,且響應很快,智東西讓其“講一個睡前小故事”,LongCat就即時生成並進行了講述。02. 劍指全模態大模型訓練四大挑戰美團提出四大創新技術思路訓練既具備強大的離線多模態理解能力又具備即時音視訊互動能力的全模態模型的挑戰性在於:跨模態異構性指的是,不同模態之間存在顯著差異,因此需要探索有效的統一表徵和融合策略,以實現跨模態的協同作用,確保任何單一模態的性能都不會低於同等規模的單模態對應模態。統一的離線和串流媒體能力,將離線多模態理解與串流媒體音視訊互動相結合是一項重大挑戰,串流媒體互動場景需要一些離線處理通常不具備的獨特能力,例如感知相對時間、精確同步音視訊資訊以及高效管理多輪互動上下文。實現即時音視訊互動本身就存在諸多難點,包括需要同時支援串流媒體音訊和視訊輸入以及串流媒體語音輸出,嚴格的低延遲要求進一步對計算效率提出了嚴格的限制,從而對模型架構設計和部署基礎設施都提出了很高的要求。訓練效率挑戰,模型和資料的異構性給分佈式策略的設計帶來巨大挑戰。為克服第一個挑戰,研究人員設計了一個多階段大規模預訓練流程。基於早期文字預訓練基礎模型,他們逐步將音訊和視訊資料融入大規模預訓練過程,採用均衡的多模態資料混合和有效的早期融合策略,使得該模型在保持強大單模態性能的同時,實現跨模態的深度融合理解。▲LongCat-Flash-Omni模型架構概覽為了應對平衡離線多模態理解與即時音視訊互動的第二個挑戰,研究人員引入一種人機協同策略來建構高品質的互動資料,並考慮到長期記憶和多輪對話的處理。此外,其從現有的視覺文字語料庫中提取視覺語音問答資料,從而實現自然語音輸出,有助於將強大的離線多模態理解能力遷移到互動場景中。對於第三個挑戰,研究人員採用ScMoE架構,並以LongCat-Flash的零計算專家作為大模型骨幹。為了處理流式輸入,其採用高效的音訊和視訊編碼器進行特徵提取,並引入同步分塊交錯策略以實現即時處理。對於第四個挑戰,研究人員進行了大規模全模態分佈式訓練,其提出一種模態解耦平行(MDP)策略。該方法能夠獨立最佳化大模型、視覺編碼器和音訊編碼器的性能和記憶體使用情況。實驗結果表明了該策略的有效性,其系統能夠保持純文字訓練吞吐量的90%以上。03. 採用五階段漸進式訓練策略借鑑LongCat-Flash訓練基礎設施LongCat-Flash-Omni是一個端到端全模態模型,可以接收多種模態的輸入,包括文字、音訊、圖像、視訊及其任意組合,並能夠直接從大模型主幹網生成語音token。該模型採用視覺編碼器和音訊編碼器作為多模態感知器,大模型處理多模態輸入並生成文字和音訊token,音訊解碼器從大模型生成的語音token中重構波形,從而實現自然的語音互動。其中,音訊編碼器、視覺編碼器和音訊解碼器均為輕量級元件,每個元件的參數量約為6億個。在預訓練階段,資料整理方面,研究人員收集了包含超過2.5兆個詞元的大規模、多樣化的多模態語料庫用於預訓練。該預訓練語料庫由音訊資料、通用圖像-文字資料、視訊資料、OCR、長上下文多模態資料等部分組成。訓練全模態模型最根本的挑戰之一在於不同模態間資料分佈的顯著異質性,面對這一挑戰,研究人員採用了一種漸進式訓練策略,該策略逐步從簡單的序列建模任務過渡到更複雜的序列建模任務。▲訓練策略研究人員首先進行大規模文字預訓練(階段0),在此基礎上引入結構上更接近文字的語音資料,以將聲學表徵與語言模型的特徵空間對齊,並有效地整合副語言資訊(階段1),語音-文字對齊完成後,其引入大規模圖像-描述對和視覺-語言交錯語料庫(階段2),以實現視覺-語言對齊,從而豐富模型的視覺知識。▲預訓練階段1示意圖然後,研究人員會引入最複雜的視訊資料以實現時空推理(階段3),同時整合更高品質、更多樣化的圖像資料集,以增強視覺理解能力。為了進一步支援長上下文推理和多輪互動,其將模型的上下文窗口從8K個詞元擴展到128K個詞元(階段4)。最後,為了減少離散語音詞元表示的音訊輸入的資訊損失,他們引入了一個音訊編碼器對齊階段(階段5),使模型能夠直接處理連續的音訊特徵,從而提高下游語音任務的保真度。在訓練後階段包含兩個組成部分:監督式微調、強化學習。監督微調通過高品質且多樣化的指令資料賦予模型多模態指令遵循、推理和語音互動能力;強化學習通過直接偏好最佳化(DPO)進一步增強模型的行為一致性、連貫性和一致性。在基礎設施方面,LongCat-Flash-Omni的核心設計原則借鑑了LongCat-Flash開發過程中使用的訓練基礎設施,為了保證數值一致性,研究人員強制執行確定性、最小化誤差並保持誤差的可解釋性,從而確保每次訓練運行都具有確定性和可復現性。為了提高效率,他們將大模型、視覺編碼器和音訊編碼器的各個元件解耦,從而可以獨立最佳化它們的性能和記憶體使用情況。實驗結果表明,在多模態環境下,他們的系統能夠保持純文字訓練90%以上的吞吐量。推理與部署時,研究人員提出解耦的多模態推理框架,該框架將特定模態的編碼器/解碼器與層級模型分離,以實現最佳化部署。每個模組都部署在與其計算特性相匹配的專用硬體和加速器上,從而緩解跨模態資源爭用。其還採用非同步流式模型服務管道,每個模組都支援流式輸入的增量推理和自適應批處理策略,從而實現並行調度以降低延遲。04. 結語:未來要探索更豐富的具身智能互動形式大量評估表明,LongCat-Flash-Omni不僅在Omni-Bench和WorldSense等全模態基準測試中取得了最先進的性能,而且在圖像和視訊理解以及音訊理解等關鍵單模態任務中,其性能也與閉源系統持平甚至更優。此外,主觀評估證實了該模型能夠提供自然、低延遲、高品質的互動體驗,凸顯了其作為下一代人機互動介面基礎的巨大潛力。研究人員提到,基於LongCat-Flash-Omni,他們未來的工作將著重於擴展訓練資料的多樣性和規模、整合自適應思維模式、完善流式傳輸和生成能力,並探索更豐富的具身智能和互動智能形式。他們相信,LongCat-Flash-Omni的發佈不僅將加速多模態理解和生成的研究,還將啟發建構以人為本、面向通用人工智慧系統的新應用和新範式。 (智東西)