法國的“OpenAI”,總統都按讚,但難以營利


2024 年2 月,Mistral AI 發布了旗艦級大模型Mistral Large,並且推出對標ChatGPT 的對話產品:Le Chat,直接對標OpenAI 的GPT-4;幾週前,Mistral AI 發布了其新一代開源語言模型Mixtral 8x22B,聲稱實現了最高的開源性能和效率。

就在Mistral Large 發布前幾個小時,全球市值第一的微軟宣布與Mistral AI 達成深度合作。

未來,Mistral AI 將獲得OpenAI 同等待遇,直接將模式資源放在微軟雲端當中販售,成為第二家在微軟Azure 雲端平台上提供商業AI 模式的公司。

Mistral AI,這家成立不久卻迅速嶄露頭角的新創公司,已經以其在人工智慧領域的突破性進展引起了全球的關注,法國總統馬克宏直接將其稱為「法國的OpenAI」。

自成立以來,Mistral AI 被認為是OpenAI 有力的競爭對手,並一直堅定站在OpenAI 的反面——OpenAI 閉源,Mistral AI 開源;OpenAI 走「大數據+大算力+大規模參數」的路徑,Mistral AI 則在7B規模下帶動「小模型」熱潮。


1. Mistral AI的成立背景

Mistral AI是一家法國人工智慧新創企業,Mistral AI於2023年初於法國巴黎成立,是由三名曾在美國AI領域公司工作的研究人員共同創立,包括曾在Google的DeepMind工作的公司CEO Arthur Mensch,曾在Meta(Facebook的母公司)工作參與了LLaMA的開發的公司CTO Timothée Lacroix和公司CSO Guillaume Lample。

三位共同創辦人從學生時代就互相認識,在他們看到生成式人工智慧領域的快速發展後,意識到歐洲也需要有自己的生成式人工智慧,於是在法國創立Mistral AI。

Mistral AI最大的特點是發布產品非常透明和開放,其友善的開源協議和透明的技術分享得到AI行業認可。


2. 創始團隊成員背景

Mistral AI的主要成員來自DeepMind和Meta公司,在加入MistralAI之前就從事大模型相關的工作,以下是他們的重點成員介紹:

Arthur Mensch-聯合創辦人兼首席執行官

Arthur Mensch 是Mistral AI 的共同創辦人兼執行長。Mensch擁有機器學習和功能性磁振造影的博士學位,之後在數學專業做了兩年博士後研究。

於2020年加入Google的DeepMind團隊,擔任深度學習和大型語言建模的研究科學家。之後迅速晉升為DeepMind的高級研究科學家,是多個重要項目的主要貢獻者,包括Retro、Gopher、Flamingo 和Chinchilla 項目等 。

Timothée Lacroix-共同創辦人兼技術官

Timothée Lacroix是Mistral AI 的共同創辦人兼技術長。2015年,Lacroix從巴黎高等師範學院畢業,加入Facebook(現在的Meta),擔任研究工程師,在紐約的人工智慧研究實驗室工作8年。

在Meta工作期間,Lacroix攻讀了博士學位,並與聯合創始人Guillaume Lample一起對大型語言模型(如LlaMA)進行了研究。身為Mistral Al公司的技術官,Lacroix負責監督公司人工智慧模型和產品的技術方向和開發。

Guillaume Lample-共同創辦人兼首席科學家

Timothée Lacroix是Mistral AI 的共同創辦人兼首席科學家。Lacroix在Meta工作6年,在Meta的工作重點是開發高階語言模型和人工智慧架構,曾領導了Meta 大型語言模型LLaMA 的開發工作。身為首席科學家,他負責監督Mistral AI的技術方向和研究工作,專注於推動開源AI模型和架構。

3. Mistral AI的主要觀點

  • Mistral AI認為,生成式人工智慧,尤其是大型語言模型,正在透過基於人類指令生成人類品質的文字、內容和命令,徹底改變內容創建、知識檢索和問題解決。

在未來幾年,生成式人工智慧將徹底重新定義我們的文化和生活,以及我們與機器和同儕互動的方式。

  • Mistral AI認為對生成式AI 採取開源態度是必要的。社區支持的模型開發是對抗影響我們未來的技術中的審查和偏見的最可靠途徑。

公司確信,應用製造商需要創造差異化,也需要深入掌握技術。而做到這一點的唯一方法就是能夠存取整個堆疊。發起這場運動的方法是讓人們相信,我們的開源模式可以讓他們創建更便宜、更快速、更好的應用程序,這就是Mistral AI的起點。

Mistral AI堅信,透過訓練自己的模型、公開發布模型並促進社區貢獻,可以為新興的AI 寡頭壟斷建立一個可靠的替代方案。開源模型將在即將到來的AI 革命中發揮關鍵作用。


  • Mistral AI創辦人認為人類在人工智慧的進程中仍然非常重要,我們應該將生成式人工智慧工具視為提高生產力和創造力的一種方式。
  • Mistral AI語言問題在某種程度上阻礙了歐洲生成式人工智慧的發展,Mistral AI關注了這個問題並致力於解決這個問題。

但是我們也關注到Mistral AI於2024年2月從其網站上刪除“承諾開放模型”,其創始人在訪談中表示,這樣有機會通過一些商業模式來發展公司業務,此外,這是鞏固與雲提供者(Azure)的策略關係的好方法。

同時,Mistral AI的旗艦模型Mistral Large選擇了封閉模型的路線,這是否意味著開源路線的變更,目前猶未可知。


4. Mistral AI的主要產品

Mistral AI發布的大模型分為開源模型(Apache 2.0許可證,開源可商用)、程式設計模型Codestral 22B(Mistral AI 非生產許可證,開源可商用)和旗艦模型Mistral Large(不開源)。

開源模型

Mistral 7B

2023年9月27日,Mistral AI採用直接在推特官方號上發布下載連結的形式,發布了他們的第一個大模型Mistral 7B。

Mistral 7B在當時是最好的70億參數規模的大模型。

Mistral 7B的參數是73億,在所有的評測基準上都超過了LLaMA2 13B模型,在許多基準測試中均優於Llama 1 34B模型,同時它的程式碼能力接近CodeLlama 7B,表現十分亮眼。最重要的是,這個模型以Apache 2.0協定開源,可以不受限制地使用,這意味著商用非常友善。

Mistral 7B打響了Mistral AI在開源模型領域的名聲。


Mixtral 8x7B

2023年12月8日,Mistral AI繼續採用之前的方式,開源發布了第二款模型Mistral 8x7B。

Mixtral 8x7B,是一款具有開放權重的高品質稀疏混合專家模型(SMoE)。

Mixtral 8x7B基於Transformer架構,支援上下文長度達到32k token,並且前饋塊被Mixture-of-Expert(MoE,專家混合模型,一種機器學習領域的模型架構)層取代,展現出了強大的計算和存儲能力、靈活的任務適應性。

在大多數基準測試中的表現Mixtral 8x7B都優於Llama 2 70B,推理速度提高了6 倍。它是當時成本/性能權衡方面最好的模型。特別是,它在大多數標準基準測試中與GPT3.5 相當或優於GPT3.5。

Mixtral 8x22B

2024年4月10日,Mistral AI開源發布了第三款開源模型Mixtral 8x22B。

Mixtral 8x22B同樣是稀疏混合專家 (SMoE) 模型,精通英語、法語、義大利語、德語和西班牙語,並具有64K 標記上下文視窗。Mixtral 8x22B僅使用141B 中的39B 個活動參數,以它的大小提供無與倫比的成本效益。

根據社群評測,Mistral 8X22B在多項基準測試中均優於GPT-3.5和Llama 2,其在文本生成、問答理解等方面都展現出了出色的能力。

此外,Mixtral 8x22B擁有1,760億參數,是當時開源界最大規模的語言模型之一,僅次於xAI推出的Grok-1。

不過可惜的是,開源大模型最具代表性的產品Llama 3於4月18日開源,Mixtral 8x22B受到的關注度相對不高。


程式設計模型Codestral 22B

2024年5月29日,Mistral AI推出他們的第一個程式碼模型Codestral。Codestral 是一個開放式生成式AI 模型,專為程式碼產生任務而設計。它幫助開發人員透過共享指令和完成API 端點編寫和與程式碼互動。由於它精通程式碼和英語,因此可用於為軟體開發人員設計高級AI 應用程式。

Codestral 經過了80 多種程式語言的多樣化資料集訓練,包括最受歡迎的語言,例如Python、Java、C、C++、JavaScript 和Bash。它在Swift 和Fortran 等更具體的語言上也表現良好。這種廣泛的語言基礎確保Codestral 能夠在各種程式設計環境和專案中為開發人員提供協助。

Codestral為開發人員節省了時間和精力:它可以完成編碼功能、編寫測試並使用中間填充機製完成任何部分程式碼。與Codestral 互動將有助於提高開發人員的編碼水準並降低出現錯誤和錯誤的風險。

作為22B 模型,與先前用於編碼的模型相比,Codestral 在程式碼產生的效能/延遲空間方面設立了新標準,Codestral實現了32K的長上下文窗口,是Llama 3 70B的四倍。

Codestral 可以在HuggingFace上下載,不過它採用了新的開源協議“Mistral AI 非生產許可證”,允許開發人員用於非商業目的並支持研究工作,不再支持商業用途。

在使用者實測中看到,Codestral的程式碼產生速度非常快,而且回應延遲也很短。

有人給了GPT-4o和Codestral相同的任務,讓它們用Go語言實現基本的發布/訂閱系統。雖然兩個模型的反應延遲都很短,但Codestral寫完的時候,GPT-4o剛寫到一半,被Codestral「秒殺」。

有開發者認為,雖然Codestral不是最大、最好的程式碼模型,但因為模型確實包含了更多前沿知識,可以幫助編寫最新的AI程式碼,而ChatGPT和Opus都做不到。


旗艦大模型Mistral Large

產品介紹

2024年2月26日,Mistral AI發表Mistral Large。 Mistral Large 是Mistral AI的旗艦文本生成模型,它達到了頂級推理能力,可以用於複雜的多語言推理任務,包括文本理解、轉換和代碼生成。

Mistral Large在多語言推理任務上展現了優異的效能,尤其在文字理解、轉換和程式碼產生方面。在多個常用基準測試中,它的表現超越了Claude 2、Gemini Pro、GPT-3.5和Llama 2-70B等模型,僅次於GPT-4。

Mistral Large 具有原生多語言能力。它在法語、德語、西班牙語和義大利語的HellaSwag、Arc Challenge 和MMLU 基準測試中的表現遠遠優於LLaMA 2 70B。

與市場上其他頂級模型相比,Mistral Large的開發成本相對較低,這使得它在性價比方面具有競爭優勢。

此外,Mistral AI與微軟的深度合作,使Mistral Large能夠透過Azure AI Studio和Azure Machine Learning獲得,為用戶提供了便捷的接入和使用方式。

同時也推出了輕量級車型Mistral small。

模型定價

開源模型:


在定價上(ToB,每百萬tokens)

  • Mistral-7b:$0.25 (input) / $0.25 (output)
  • Mixtral 8x7B:$0.7 (input) / $0.7 (output)
  • Mixtral 8x22B:$2 (input) / $6 (output)

專用模型:

  • mistral-small-2402:$1 (input) / $3 (output)
  • codestral-2405:$1 (input) / $3 (output)
  • mistral-medium-2312(即將棄用)
  • mistral-large-2402:$4 (input) / $12 (output)

Mistral AI是比較重視ToB業務的大模型公司,API服務重視安全、信任和適度,用戶資料在靜止時(AES256)和傳輸時(TLS 1.2+)都經過加密。

設計上透過自主部署和雲端通路產品,Mistral AI甚至看不到使用者的輸入資料。最重要的是,Mistral AI作為歐洲AI企業,重視在地化工作,模式精通英語、法語、義大利語、德語和西班牙語。

Mistral AI 知名客戶包括Brave(瀏覽器)、Cloudflare(CDN 加速服務商)、Pretto、Lamini、Arcane、Lindy、Hugging Face、法國巴黎銀行、Orange、MongoDB等等。

大模型對比

目前大模型的對比除了發佈時公司採用的基準測試外,LMSYS競技場也成為主要的對比窗口,包括OpenAI、Anthropic、Google、Meta等AI大模型頭部企業在模型發布後也會拿出LMSYS Chatboat Arena盲測結果數據作為實際效果展示。

在LMSYS Chatboat Arena最新更新的2024-05-27資料中,綜合能力方面,Mistral AI的旗艦大模型mistral-large-2402排名第21位。

在OpenAI、Google、Anthropic、零一萬物、Meta、Reka AI、Cohere、通義千問、智譜AI的主要大模型後列。 (月之暗面和文心一言沒有參加LMSYS)


編碼能力方面,Mistral AI的旗艦大模型mistral-large-2402排名第18。


法文能力方面,Mistral AI的旗艦大模型mistral-large-2402排名第6。


從大模型比較來看,Mistral AI的模型能力似乎並不突出,但需要注意到,Mistral AI是唯一能進入大模型前列競爭的歐洲企業,同時也是唯一注重法語、義大利語、德語和西班牙語等歐洲國家語言的前列大模型公司。

Mistral AI的CEO Arthur Mensch在訪談中提到“作為一家歐洲公司,我們意識到了語言問題,這對我們來說非常重要,比美國公司重要得多”,本土語言的大模型也是歐洲資金願意大額投資Mistral AI的重要原因。


6. 估值及融資狀況

Mistral AI完成多輪融資,歷史融資合計超5.35億歐元,最近一輪估值達20億美元。並根據消息,Mistral AI即將達成一輪約6億美元的融資協議,次輪估值達60億美元。


種子輪融資: 2023年6月,Mistral AI完成種子輪融資,金額為1.05億歐元,投前估值1.35億歐元。

由Lightspeed領投。其他知名投資者包括Redpoint、Index Ventures、Xavier Niel(法國億萬富翁)、JCDecaux Holding、Rodolphe Saadé、法國的Motier Ventures、德國的La Famiglia 和Headline、義大利的Exor Ventures、比利時的Sofina 以及英國的First Minute Capital 和LocalGlobe。

A輪融資: 2023年12月,Mistral AI完成A輪融資,金額為3.85億歐元,投前估值16億美元。由Andreessen Horowitz和Lightspeed Venture Partners領投。透過本次投資,公司估值達到20億美元。

策略性融資: 2024年2月,Mistral AI完成策略性融資,金額為1,500萬歐元,微軟單獨投資。

最新融資: Mistral AI即將達成一項約6億美元的融資協議,使其估值增加近兩倍,達到60億美元。


7. 小結

Mistral AI這家在巴黎孕育而生的人工智慧新星,是一家從創立就被給予厚望的公司,以其開源的7B模型和對小模型優化的獨到見解,迅速在AI領域掀起波瀾,並在2024年2月不負厚望地推出Mistral Large大模型產品,向OpenAI看齊。

在其發展過程中,開源和小模型,以及多語言是其獨特的優勢,但是隨著其大模型Mistral Large的退出,在大模型產品上,Mistral AI也選擇了封閉路線。

從歷史上看,開源構成網路產業的生態,同時開源社群也構成相應的用戶轉換壁壘,但開源的難以營利性問題同樣也難以避免。

那麼,未來選擇了OpenAI同樣路線的Mistral AI,是否還能完全走出差異化路線,或者封閉路線才是大模型商業化的回歸?我們拭目以待。(奇偶工作室)