重大發佈!阿里雲宣佈:全面趕超GPT-4!

通義大模型發佈一週年之際,迎來重要的歷史性時刻!

5月9日,阿里雲召開峰會,正式發佈通義千問2.5,中文場景模型性能全面趕超GPT-4-Turbo,成為“地表最強”中文大模型。同時,通義千問1100億參數開源模型在多個基準測評收穫最佳成績,超越Meta的Llama-3-70B,成為開源領域最強大模型。

在峰會當日,原通義千問APP宣佈更名為“通義APP”,將通義大模型全套能力集於一身,致力於成為“通情達義”的AI助手。


最強中文大模型來了

歷經一年多追趕,國產大模型終於進入大模型核心競技場,可與國外一流大模型企業一較高下。

從現實情況來看,大模型技術爆發一年多,行業競爭態勢激烈而又多變。通義千問走了一條最“卷”的路,自2023年4月問世以來,始終專注於基礎模型的技術研發,從初代模型升級至2.5版本。

相比上一版本,2.5版模型的理解能力、邏輯推理、指令遵循、程式碼能力分別提升9%、16%、19%、10%,中文能力更是持續領先業界。根據權威基準Open Compass的測評結果,通義千問2.5得分追平GPT-4-Turbo,是該基準首次錄得國產大模型取得如此出色的成績。



同時,通義還發佈了1100億參數開源模型Qwen1.5-110B,該模型在MMLU、Theorem QA、GPQA等基準測評中超越了Meta的Llama-3-70B模型;在Hugging Face推出的開源大模型排行榜Open LLM Leaderboard上,Qwen1.5-110B沖上榜首,再度證明通義開源系列業界競爭力領先。

此外,通義在多模態模型和專有能力模型也具備業界頂尖影響力。在多個多模態標準測試中,通義千問視覺理解模型Qwen-VL-Max得分超越Gemini Ultra和GPT-4V,這款模型已在多家企業落地應用;通義千問程式碼大模型Code Qwen1.5-7B則是Hugging Face程式碼模型榜單Big Code的頭號選手,這款模型是國內使用者規模第一的智能編碼助手通義靈碼的底座。

從曾經的追趕者到如今的平行者,一年間,通義發展出了業界領先的文生圖、智能編碼、文件解析、音視訊理解等能力,企業客戶和開發者可以通過API呼叫、模型下載等方式接入通義,個人使用者可從APP、官網和小程序免費使用通義。


始終堅定開源路線

據瞭解,通義是大模型開源最積極的推動者和實踐者。去年8月,通義宣佈加入開源行列,隨之啟動馬不停蹄的開源狂飆,沿著“全模態、全尺寸”開放原始碼的路線,陸續推出十多款開源模型。目前,通義開源模型下載量已經超過700萬。

“開發者的反饋和開源社區的生態支援,是通義大模型技術進步的重要助力。”阿里雲CTO周靖人透露,未來通義大模型還會持續開源。


阿里雲首席技術官周靖人宣佈重磅發佈


從現實情況來看,大模型的訓練和迭代成本極高,絕大部分的AI開發者和中小企業都無法負擔。Meta、阿里雲等推動的大模型開源風潮,讓開發者們不必從頭訓練模型,還把模型選型的主動權交給了開發者,大大加速了大模型的應用落地處理程序。

為順應不同場景使用者的需求,通義推出參數規模橫跨5億到1100億的八款大語言模型,小尺寸模型如0.5B、1.8B、4B、7B、14B,可便捷地在手機、PC等端側裝置部署;大尺寸模型如72B、110B,能支援企業級和科研級的應用;中等尺寸如32B,試圖在性能、效率和記憶體佔用之間找到最具性價比的平衡點。此外,通義還開源了視覺理解模型Qwen-VL、音訊理解模型Qwen-Audio、程式碼模型CodeQwen1.5-7B、混合專家模型Qwen1.5-MoE。

通義72B、110B開源模型都曾登頂OpenLLMLeaderboard榜首。在開放研究機構LMSYSOrg推出的基準測試平台Chatbot Arena上,通義72B模型多次進入“盲測”結果全球Top 10,創造了國產大模型的先例。

根據最新資料,通義通過阿里雲服務企業超過9萬、通過釘釘服務企業超過220萬,目前已應用於PC、手機、汽車、航空、天文、礦業、教育、醫療、餐飲、遊戲、文旅等行業。

就在5月9日,小米旗下的智能助手“小愛同學”宣佈與阿里雲通義大模型達成合作,強化其在圖片生成、圖片理解等方面的多模態AI生成能力;新浪、眾安保險、完美世界遊戲、中國一汽等企業也宣佈接入通義大模型,將大模型應用於社交媒體、保險、遊戲等領域。 (券商中國)