中國「小鋼炮」一夜干翻巨無霸GPT-4V、Gemini Pro!穩坐端側多模態鐵王座



【新智元導讀】殺瘋了!一夜之間,全球最強端側多模態模型再次刷新,僅用8B參數,擊敗了多模態巨無霸Gemini Pro、GPT-4V。而且,其OCR長難圖識別刷新SOTA,圖像編碼速度暴漲150倍。這是國產頭部大模型公司獻給開發者們最浪漫的520禮物。


拳打GPT-4V,腳踢Gemini Pro,僅僅8B參數就能擊敗多模態大模型王者。

今天,這個全球最強端側多模態模型徹底「殺瘋了」!


眾所周知,端側模型是AI發展的大趨勢——從微軟、Google再到蘋果和英特爾,全球科技巨頭都在爭搶在PC和手機等端側場景的AI落地。

但萬萬沒想到的是,端側模型的性能竟然可以這麼猛,進化速度竟然可以這麼快!

更令人驚喜的是,它不是來自國外大廠,而是出自國內大模型研發實力最頭部的公司面壁智能——他們最新打造了面壁小鋼炮MiniCPM-Llama3-V 2.5

而且,選擇在今天520這個特殊的日子推出,據說是送給開源社區的情人節禮物,簡直浪漫的不像個科技公司~


MiniCPM-Llama3-V 2.5開源地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列開源地址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下載地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

那麼這個小鋼炮究竟有多強?何以能擔當得起全球最強端側多模態模型的稱號?

總結來講,MiniCPM-Llama3-V 2.5不僅支援30+多種語言,而且還具備:

  • 最強端側多模態綜合性能:超越多模態巨無霸Gemini Pro、GPT-4V;
  • OCR能力SOTA!9倍像素更清晰,難圖長圖長文字精準識別;
  • 圖像編碼快150倍!首次端側系統級多模態加速。


下面這張圖反映了在全球範圍內,小參數、高性能的多模態大模型已經成為趨勢;

而其中最亮眼的一顆星正是面壁小鋼炮MiniCPM-Llama3-V 2.5。

MiniCPM-Llama3-V 2.5用實力證明了——模型不是只有「參數越大才能性能越好」,而是可以用最小參數撬動最強性能!


另外隨著大模型參數愈益降低、端側算力愈益增強,高性能端側模型勢頭強勁。

而手機、PC等智能終端裝置因其高頻的影像視覺處理需求,對在端側部署AI模型提出了更高的多模態識別與推理能力要求。

從面壁「小鋼炮」三月三級跳的迅猛進化來看,推動推理成本大幅降低、大模型高效落地,勝利在望。


OCR能力SOTA+最強端側多模態 8B端側模型,超越GPT-4V、Gemini Pro

這一次,MiniCPM-Llama3-V 2.5以8B端側模型參數量級,貢獻了驚豔的  OCR(光學字元識別)SOTA成績,以及端側模型中的最佳多模態綜合成績與幻覺能力水平。


模型雷達圖,MiniCPM-Llama3-V 2.5綜合能力水平全面優秀

在綜合評測權威平台OpenCompass上,MiniCPM-Llama3-V 2.5以小博大,綜合性能超越多模態巨無霸GPT-4V和Gemini Pro。


OCR(光學字元識別)是多模態大模型最重要的能力之一,也是考察多模態識別與推理能力的硬核指標。

新一代MiniCPM-Llama3-V 2.5 在OCR綜合能⼒權威榜單OCRBench上,越級超越了Claude 3V Opus、Gemini Pro等標竿模型,實現了性能SOTA。


在評估多模態大模型性能可靠性的重要指標——幻覺能力上,MiniCPM-Llama3-V 2.5在Object HalBench榜單上超越了GPT-4V等眾多模型(註:目標幻覺率應為0)。


在評估多模態模型的基本現實世界空間理解能力的RealWorldQA榜單上,MiniCPM-Llama3-V 2.5再次超越GPT-4V和Gemini Pro,這對8B模型而言難能可貴。



快150倍!首次端側系統級加速 支援30+多語言,擁抱世界開源社區

首次進行端側系統級加速,MiniCPM-Llama3-V 2.5已高效部署手機。

在圖像編碼方面,面壁首次整合NPU和CPU加速框架,在MiniCPM-Llama3-V 2.5圖像編碼方面實現了150倍加速提升。

在語言模型推理方面,目前開源社區的報告結果顯示,Llama 3語言模型在手機端側的解碼速度在0.5 token/s上下,相比之下,多模態大模型的端側運行面臨著更大的效率挑戰,經過CPU、編譯最佳化、視訊記憶體管理等最佳化方式,面壁將 MiniCPM-Llama3-V 2.5在手機端的語言解碼速度提升到3-4 token/s。

目前,語言模型的圖像編碼加速也在進行中,更靈敏互動體驗即將到來。


(此處GIF為2倍速演示,面壁正進一步加速最佳化中)


(此處GIF為2倍速演示,面壁正進一步加速最佳化中)


有別於常見的中英雙語模型,MiniCPM-Llama3-V2.5可支援30+多種語言,

包括德語、法語、西班牙語、義大利語、俄語等主流語言,基本覆蓋一帶一路國家。

基於自研的跨語言泛化技術,僅通過少量翻譯的多模態資料的指令微調,就可對多語言多模態對話性能高效泛化。

現在,上百個國家的幾十億人口,終於可以自如使用母語和端側大模型交流,不再游離於前沿科技發展的主線,也因此享有更多AI應用落地、生活品質提升與參與科技角逐的可能性。真正讓更多人享受大模型的樂趣!


多語言案例展示(語言加速工作正在進行,此處為2倍速)


多語言版本LLaVABench評測結果,MiniCPM-Llama3-V 2.5對話能力更勝一籌



9倍像素更清晰 難圖長圖長文字精準識別

OCR技術進一步打磨,複雜推理與多模態識別能力再進化,MiniCPM-Llama3-V 2.5對於難圖、長圖、長文字的精準識別,再度帶來出眾表現!

面壁自研高畫質圖像高效編碼技術,可以高效編碼及無損識別180萬高畫質像素圖片,並且支援任意長寬比、甚至「有點變態」的1:9極限比例圖像,突破了傳統技術僅能識別20萬像素小圖的瓶頸。

此前,MiniCPM-V系列多模態模型就因對於街景、長圖等困難場景的高效解析,贏得了良好口碑。


技術升級,MiniCPM-Llama3-V 2.5在複雜推理能力上進一步突破。可更好地深入洞察圖像,在更複雜、更接近人類的水平上進行思考和解決問題,堪稱大模型中的「小福爾摩斯」。

複雜推理能力使得模型不僅能理解單的文字或圖像等模態資訊,還能跨越不同模態間的綜合資訊,做出更準確和深入的分析。

比如給定一張充滿繁密字跡的建築風景圖,難以人眼辨別,但MiniCPM-Llama3-V 2.5能夠一眼看懂其中的《三體》主題,還能正確推理出這些建築是為了紀念《三體》及其對中國科幻文學的貢獻而設計,令人會心一笑。



把同樣的問題拋給GPT-4V,結果並不理想。


另外,識別包含複雜邏輯的流程圖是多模態模型推理能力的直觀體現,MiniCPM-Llama3-V 2.5不僅能夠輕鬆看懂流程圖中不同模組的文字、箭頭之間的空間位置和複雜邏輯關係,還能給出清晰易懂的解釋說明。



給媽媽轉發一張亞洲飲食金字塔圖,但她讀不懂英文?

MiniCPM-Llama3-V 2.5憑藉出色的推理能力,不僅深入理解分析圖像裡的飲食類型和分佈,還能洞察背後的營養均衡需求,進行智能化搭配組合,直接一次性用中文推薦出滿滿一周的三餐食譜。



全文OCR能力方面,結構化資訊提取能力的提升,對於長圖長文字的精準識別大有幫助。

例如輸入一張包含稠密資訊的長文長圖,MiniCPM-Llama3-V 2.5一字不差地識別出了全文。



再給一張要翻閱好幾屏的圖文複雜交錯的長圖難圖長文字,MiniCPM-Llama3-V 2.5 也能精準給出正確的回答。




再輸入一張手機拍攝的火車票,MiniCPM-Llama3-V 2.5 也能精準提取資訊,給出無誤的「json」格式輸出。


最後,面壁是開源社區的熱心貢獻者,也是受益者。

本次MiniCPM-Llama3-V 2.5的飛躍表現依託於面壁團隊對多模態技術的創新打磨,更離不開Llama3-8B-Instruct作為基座模型的性能基礎。

感謝世界優秀同行的卓越工作,令我們站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科學無垠之處。

我們也將持續回報社區,開源更多優秀模型、資料、infra工具等,將開源開放的星火播撒世界協作創新之蒼穹。


參考資料:

MiniCPM-Llama3-V 2.5開源地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列開源地址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下載地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5 (新智元)