下一個OpenAI來了？Mistral超大杯模型直逼GPT-4 這家法國公司將與微軟深度合作

2024/02/27

•

【新智元導讀】成立9個月，當初那個「6人團隊，7頁PPT，8億融資」的公司不斷創造傳奇。Mistral AI今日發表的Mistral Large模型效能已經直逼GPT-4，同時和微軟官宣合作。「下一個OpenAI」的爆相，已經越來越明顯了。

下一個OpenAI來了？

開源社群的另一個中心Mistral AI，剛剛發布了最強的旗艦模型Mistral Large，性能直接對標GPT-4！（但可惜的是沒有開源）

Mistral Large具備卓越的邏輯推理能力，能夠處理包括文字理解、轉換以及程式碼生成在內的複雜多語言任務。

在眾多主流基準測試中，Mistral Large力壓Anthropic的Claude 2和Google的Gemini Pro，成績僅次於GPT-4！

LLM領域，格局再次改變。

同時，就在今天，AI圈又一重磅消息曝出：繼OpenAI之後，微軟將Mistral也納入麾下！

Mistral從誕生之初，就充滿傳奇的光環。成立4週，6人團隊，7頁PPT，8億融資（1.05億歐元），簡直堪稱爽文走進現實。

創辦人Arthur Mensch是1993年出生的法國小夥，在Google工作3年後，在自己31歲時離開谷歌，拉攏了兩位Llama模型的開發者，一起創立了這個日後可以和OpenAI、Anthropic分庭抗禮的公司。

幾個人的團隊，極少的融資，做出的模型卻可以和GPT-4掰手腕。

如今再加上金主爸爸微軟的撐腰，Mistral 「下一個OpenAI」的名頭，是坐實了。

Mistral不開源？網友慌了！

現在，正處於全世界聚光燈下的Mistral，一舉一動都十分引人注目。

有網友發現Mistral修改了網站內容，刪除了所有提及開源社群義務的內容，這立刻引發了恐慌！

不過，大家目前還不需要太擔心。

根據外媒對Mistral CEO的採訪，未來他們仍會堅持開源理念，但同時也會推出性能最為強大的閉源模型參與商業競爭。

現在他們已經完成了以規模命名的開源模型：Mistral 7B和Mistral 8 x 7B回饋社區，以「大中小」命名的閉源模型賺錢的產品線搭建。

歐洲最強大模型來了！

話說回來，這次發布的Mistral Large，可以說是最適合歐洲人體質的大模型。

簡單來說：

- Mistral Large能夠以母語般流利地使用英語、法語、西班牙語、德語和義大利語，深刻理解各自的文法規則和文化背景。

- Mistral Large能夠處理32K Token的上下文內容，使其能夠從龐大的文檔中精確快速地提取資訊。

- Mistral Large在執行具體指令方面異常精準，這讓開發人員可以根據自己的需求定制內容審查政策——例如，Mistral AI利用它來進行了le Chat的系統級別審查。

- Mistral Large原生支援函數呼叫。這個特性，結合Mistral AI在la Plateforme上實施的輸出內容限制模式，大大促進了應用程式的開發和技術堆疊的現代化。

目前，Mistral AI的這個新旗艦模型僅在Azure AI和Mistral AI平台上可用。

其中，在Azure AI上的定價如下：產出為0.024美元/1000 token，輸入為0.008美元/1000 token。

推理能力與知識掌握

要說Mistral Large最令人印象深刻的，還是超強的推理能力。

作為旗艦模型，Mistral Large在常識、推理以及知識方面，都展現了令人矚目的實力。

雖然和GPT-4還有不小的差距，但Claude 2和Gemini Pro 1.0基本上已經是手下敗將了。

多語言能力

作為歐洲人自己的大型模型，Mistral Large在法語、德語、西班牙語和義大利語上的表現，都優於Llama 2 70B模型。

同時，也強過自家更小規模的模型。

數學與程式設計能力

在程式設計和數學方面，Mistral Large的能力也非常突出。

不僅相比自己其他模型有了大幅的提升，而且在主流的測試基準上都取得了不俗的成績。

「小杯」也來了

相較之下，規模較小的Mistral Small，則更專注於對延遲和成本的最佳化。

相較於Mixtral 8x7B，Mistral Small展現出更優異的效能和更低的延遲，是介於Mistral AI開源模型和旗艦模型之間的解決方案。

與Mistral Large類似，Mistral Small同樣採用了在RAG與函數呼叫上的創新技術。

此外，Mistral也優化了自家的服務介面：

- 提供競爭力價格的開放權重端點，包括open-mistral-7B和open-mixtral-8x7b。

- 推出新的最佳化模型端點，包括mistral-small-2402和mistral-large-2402，同時繼續提供未更新的mistral-medium。

和微軟官宣合作，Mistral AI腰板更硬了

除了宣布模型之外，Mistral AI也官宣了和微軟的深度合作。

而這也是微軟繼OpenAI之後，再次「真金白銀」地入股AI圈的另一家頂流模型公司。

雖然2023年4月才成立，Mistral AI已經對歐洲的AI領域產生了重大影響。

開源模式Mistral 7B和Mixtral的發布，驚艷了一眾開發者，在AI社群掀起了軒然大波。

如今微軟的支持，讓更多人堅信：Mistral就是下一個OpenAI。

Mistral AI是法國的AI新創公司，微軟與它的合作，無疑讓微軟在歐洲也建立了自己的AI影響力。

兩家公司的合作，目標是彌補基礎AI研究與實際解決方案之間的差距。

如果在未來建立多年的合作關係，Mistral AI就可以存取微軟Azure的AI基礎設施了。

微軟的加持對Mistral AI意味著什麼，不言而喻。

不光Mistral AI下一代LLM的開發和部署會大大加速，並且會開闢出新的商機。以歐洲為基礎，Mistral AI會向全球市場擴張自己的影響力！

具體來說，微軟和Mistral AI的合作集中在以下三個關鍵領域—

超算基礎架構：微軟將透過Azure AI超算基礎架構支援Mistral AI，用於AI訓練和推理工作負載。

擴展市場：微軟和Mistral AI將透過Azure AI Studio中的MaaS和Azure機器學習模型目錄，向客戶提供Mistral AI的高級模型。

AI研發：微軟和Mistral AI將探索合作，為指定的客戶開發專有模型，甚至包括歐洲公共部門的工作負載。

目前，兩家公司還沒有透露財務細節。

最近，Mistral AI以近20億美元的估值，籌集了4.5億歐元，由科技投資者Andreessen Horowitz領投。

不過，跟它在美國的競爭者比，Mistral AI所獲得的資金顯然並不算多。

要知道，OpenAI光從微軟就獲得了超過100億美元的投資，而Anthropic從Google和亞馬遜獲得的資金，也高達60億美元。

根據《華爾街日報》報導，去年10月，Google承諾向Anthropic投資20億美元

因此，此項合作一出，Mistral AI「歐洲版OpenAI」的名頭，更坐實了。

而對微軟來說，這項投資也是好處多多──這是它在歐洲AI領域站穩腳步的機會。

本來，作為Azure雲端中歐盟伺服器上OpenAI模型的唯一供應商，微軟已經在歐洲的AI競賽中處於領先地位。

不過AI在歐洲所受的待遇，並不像在美國那樣備受支持。

歐洲許多國家對於AI的態度偏保守，他們持的是批判性的態度，尤其是在資料保護方面。

而如果是歐洲伺服器商的歐洲AI模型，或許能讓人放心，不失為不錯的補救措施。

成立9個月的傳奇AI新創企業，挑戰矽谷巨頭

Mistral在種子輪融資時「6人團隊，7頁PPT，8億融資」的故事，值得好好講一講。

2023年初，還在Google工作的Arthur Mensch，剛30歲。

一年後，他離開Google創立自己的公司，只花了9個來月的時間，就已經估值20億美元！

Mensch於2020年初加入了谷歌，成為DeepMind的研究員，他的研究方向是提高AI和機器學習系統的效率。那時他27歲。

後來，他和兩位先前一起參與了Llama模型研發的年輕人Timothée Lacroix和Guillaume Lample一起，決定成立一家公司，透過更有效率的方法建構和部署AI模型。

他們相信，小團隊能力在彈性上超越矽谷的大公司，而開源模型就是他們達成目標的利器。

雖然已經從各路投資者籌集了超過5億美元，他的公司Mistral AI相比於微軟支持的OpenAI，谷歌，乃至Anthropic，依然顯得有些「微不足道」。

這些巨頭，以及巨頭重金支持的巨型獨角獸投入了幾十億美元來建造全世界最先進的AI系統。

但Mensch並不擔心與這些龐然大物競爭。

「我們的目標是成為AI 領域中最節省資本的公司，」Mensch表示。「這是我們成立的初衷。」

對於剛推出的Mistral Large模型，他認為，這款模型在執行某些推理任務上能夠與OpenAI最先進的語言模型GPT-4和Google的新模型Gemini Ultra相匹敵。

Mensch透露，開發這款新模型的成本不到2,000萬歐元（約2,200萬美元）。

相較之下，OpenAI的執行長Sam Altman曾在去年發布GPT-4時表示，訓練他們公司的大型模型的成本接近1億美元。

而且隨著他們用業界最為高效的開源模式不斷震驚業界，他們也獲得了微軟，英偉達和Salesforce等大公司的背書。

巨頭們也透過現金或算力的支持，獲取了Mistral AI的少量股份。

伴隨著Mistral Large的發布，9個月前他們用7頁PPT吹下的牛，已經完全兌現了。

撬動8億元投資的六人團隊

這六個人的團隊，是這樣組成的。

Arthur Mensch在巴黎綜合理工學院和巴黎高等師範學院學習期間，結識了另兩位創辦人－Timothée Lacroix和Guillaume Lample。

兩人都是Meta AI團隊的，Lample甚至領導了LLaMA的開發。

幾個三十出頭的年輕人，在LLM開發領域已經有不少經驗。

在當時，即使在全世界範圍內，具備建置、訓練和優化LLM專業經驗的人，也不超過100人。

而另外三位，分別是來自法國巴黎健康新創公司Alan的CEO Jean-Charles Samuelian和CTO Charles Gorintin，以及前法國數位事務國務秘書Cédric O。

AI科學家，如何創立自己的獨角獸公司

Mensch個頭高大，一頭濃密的深色頭髮，他既不像典型的科技極客，也不像常見的CEO。

他的朋友和同事說，他總是一邊喝啤酒一邊輕鬆地和朋友開玩笑。

作為一名運動愛好者，他在2018年提交博士論文前的幾個月，以不到三小時半的時間跑完了巴黎馬拉松。

Mensch從小就在學術追求與創業之間徘徊。他出生在巴黎西郊，母親是物理老師，父親擁有一家小型科技公司。

這位未來的CEO畢業於法國頂尖的數學和機器學習院校。他的導師們將他描述為一個熱情投入、能夠迅速掌握自己幾乎沒有基礎的專案的學生。

「我確實熱愛探索新事物，」Mensch 表示。「我很容易感到厭倦。」

在攻讀博士期間，Mensch的研究方向是優化軟體，分析核磁共振影像（fMRI）系統的三維大腦影像，讓軟體能夠處理高達數百萬的影像量。

2020年底，Mensch加入了DeepMind，在那裡他參與開發了大語言模型。

到了2022年，他以主要作者的身份發表了著名的「Chinchilla論文」。

這項研究重新定義了人們對AI模型的大小、訓練它所需的資料量以及其表現之間關係的認識，被稱為AI縮放法則。

隨著2022年AI競賽的升溫，Mensch對於大公司的AI實驗室減少了關於大語言模型研究成果的發表，減少了與研究社區的分享這一情況表示失望。

ChatGPT發布後，谷歌決定加速追趕。

Mensch所在的團隊從10人的小團隊變成30人，最後擴充成為了70人的大團隊。

「我覺得我在事情變得太官僚化之前應該離開了，」Mensch 說。「我不想在大型科技公司中開發那些不透明的技術。」

Mistral在2023年春天向投資者提出的最初方案中，批評了由美國公司主導的「正在形成的寡頭壟斷」，這些公司開發的是專有閉源模型。

對於Mensch和他的合夥人來說，將他們的初始AI系統作為開源軟體發布，允許任何人免費使用或修改，這是一個重要的原則。

這也是吸引開發者和潛在客戶的一種方式，他們希望每個人對自己使用的AI有更多的控制權。

儘管Mistral現在的最先進模型Mistral Large並不開源，但Mensch表示：

「在建立商業模式和堅持我們的開源價值觀之間找到一個平衡點是非常微妙的。我們希望創造新的事物、新的架構，但是還想向我們的客戶提供一些額外的產品和服務。」（新智元）

參考資料：

https://www.wsj.com/tech/ai/the-9-month-old-ai-startup-challenging-silicon-valleys-giants-ee2e4c48?st=htctyj5gooqlcll

https://mistral.ai/news/mistral-large/

https://old.reddit.com/r/LocalLLaMA/comments/1b0o41v/top_10_betrayals_in_anime_history/?continueFlag=e442fb10c2502e2fe0c601afe6270309