「ChatGPT像網路發明一樣重要,將會改變世界。」比爾蓋茲對於大模型的預判似乎正在一步步成為現實。
在過去的一年裡,OpenAI在AI(人工智慧)領域獨領風騷,無論是ChatGPT的普及,還是其內部的風波,都成為了業界的焦點。
然而,隨著Mistral AI的崛起,這一格局正經歷前所未有的變革。
作為OpenAI的強勁對手,Mistral AI在技術和產品層面均展現出令人矚目的突破,已然成為AI領域的一顆耀眼明星,被稱作“歐洲版OpenAI”。
與OpenAI相比,Mistral AI更重視技術的實際應用,致力於將最先進的AI技術應用於解決實際問題。
在融資方面,Mistral AI在成立之初就獲得了1.13億美元的種子輪融資,並吸引了多家著名投資機構,如Lightspeed Venture Partners、Salesforce和法國巴黎銀行等。
在短短幾個月內,該公司又完成了4.15億美元的A輪融資,估值高達20億美元。這項融資規模在AI新創公司中極為罕見,不僅證明了資本市場對Mistral AI的高度認可和期待,也為其未來的發展提供了強大的資金支持。
Mistral AI的崛起,不僅對OpenAI構成了挑戰,也為整個AI領域注入了新的活力,為整個產業帶來了更多的創新與突破。
01. 引領人工智慧革命的創新力量
Mistral AI全名為Mistral Artificial Intelligence,是一家專注於AI研發和應用的公司,尤其是用於建立線上聊天機器人、搜尋引擎和其他AI驅動產品的技術。
自成立以來,Mistral AI一直堅持以人為本,他們希望透過開發更智慧、更人性化的AI系統,改善人們的生活和工作方式,為人類帶來更多的便利和福祉,致力於利用先進的AI技術為各行各業提供高效率、智慧的解決方案。
儘管只是一家新創企業,但Mistral AI的創辦人團隊個個來頭不小。
其中,Arthur Mensch曾擔任Google人工智慧公司DeepMind的研究員,Timothée Lacroix和Guillaume Lample則分別在Meta公司擔任與該技術相關的職位。
曾經的工作經驗讓他們對多模態、RAG、演算法優化等技術有著深刻理解,並在模型推理、預訓練和模型嵌入等領域有著深入研究。
Mistral AI官網上的這段話充分展現了Mistral AI的野心:「我們的使命是推動AI向前發展,為開放社區和我們的企業客戶服務。我們致力於透過開發與專有解決方案不相上下的開放式重量模型來推動AI革命。”
儘管Mistral AI目前只是一個小型創意團隊,但他們始終堅持高科學標準,並透過突破性的創新來開發高效、有用且值得信賴的AI模型。這或許正是Mistral AI備受青睞的原因之一。
02. 大語言模型的重大飛躍
Mistral AI最備受矚目的產品無疑是Mixtral 8x7B,這是目前市場上最具競爭力的開放式大型模型之一,擁有多項特別的功能,性能明顯領先於其它大模型。
Mixtral 8x7B的核心在於其創新的MoE(Mixture of Experts)架構,MoE架構透過一個網關網絡,將輸入資料分配給被稱為「專家」的特定神經網路組件。在Mixtral 8x7B中,共有八個這樣的專家,每個都有高達70億的模型參數。
儘管配備了八個“專家”,但在實際運算時每個數據處理僅需兩個“專家”參與。這種資料資源分配演算法,大大在維持模型效能的同時,優化了處理速度,同時保持了模型效能。
在培訓和微調方面,Mixtral AI使用多語言資料進行預先訓練,包括英語、法語、義大利語、德語和西班牙語。Instruct模型使用監督微調和直接偏好優化(DPO)進行訓練,在MT-Bench等基準測試中取得了高分。
在對Mixtral 8x7B進行深入研究時,Mistral AI也十分注重對其部分功能進行微調,特別是針對那些能夠跟隨指令操作的版本,使得模型朝著更加精細化和個性化的方向發展。
除了自身的超強表現以外,Mixtral 8x7B廣受好評的另一個重要原因是它所代表的開放性。
Mistral AI在發布這一大模型時便直接公開了這個模型的權重數據,這種策略在吸引AI社區的注意力方面非常有效,同時確保了學術和商業用途的廣泛可訪問性。Mixtral AI的開放性鼓勵多樣化應用的出現,有可能在大模型和語言理解方面帶來新的突破。
Mixtral 8x7B的創新方法和卓越性能使其成為大模型領域的行業標桿,儘管已經取得如此成就,Mixtral AI也從未停下前進的步伐,依然在積極優化這一模型的相關性能。
03. Mistral AI的里程碑式發展
Mixtral 8x7B的誕生標誌著AI技術的一個重要突破,尤其是在模型結構和效率上的創新,那麼和一眾大模型比起來它又表現如何?
“ 能否超越巨頭?
自從ChatGPT問世以來,OpenAI一直被視為大語言模型的黃金標準。然而,Mistral AI透過引入一個完全開源的開放權重模型,在廣泛的基準測試中表現出卓越的性能,甚至在部分錶現上超越了OpenAI的GPT 3.5模型和Meta的LLama 2 13B模型。
具體而言,在多領域的大規模多任務語言理解(MMLU)測驗中,涵蓋數學、美國歷史、電腦科學、法律等57個科目,Mistral AI以60.1%的準確率脫穎而出,而Llama 2 7B和Llama 2 13B的準確率分別略高於44%和55%。
同樣,在涉及常識推理和閱讀理解的測驗中,Mistral 7B的表現優於這兩個Llama模型,準確率分別為69%和64%,凸顯了其在深度語言理解領域的優勢。
Mistral 7B之所以在深度語言理解方面表現優秀,是因為在訓練過程中接觸到了大量複雜、多變的文本數據,增強了其語境感知和推理能力,使得Mistral 7B在測試時能夠更好地理解和掌握文本的內在邏輯和語意訊息,從而給予更準確、更深入的答案。
與GPT3相較而言,Mistral AI聚焦於快速推理和處理較長的序列。利用分組查詢和滑動視窗注意力機制-基於注意模型的一種注意模式,實現了對更低的延遲和更高吞吐量的最佳化。這使其適用於以更低的成本實現大批量、快速加工的應用場景,成為節省成本效益的最佳選擇。
對比之下,GPT3以其深入語言理解能力和多任務處理能力而聞名,並且它被優化用於處理更短的序列。例如GPT3在問答系統任務中表現出色,能夠理解並產生準確的答案;得益於強大的語言理解能力,它能夠快速地總結長篇文本;另外GPT3還可以執行文本補全、語言翻譯、情感分析等。
高性能小型模型,但缺乏“安全護欄”
Mistral 7B以其高效能和強適應性備受關注,具有「小數位足跡」的特點,即模型在運行時所需的運算資源和儲存空間較少。
相較於其他對強大硬體嚴格依賴的模型,Mixtral 7B甚至可以在沒有獨立GPU的小型個人電腦上運作。這使得其可以靈活運用部署工具,如vLLM推理伺服器和skypilot開源框架等部署在任何雲端平台上,包括AWS、GCP和Azure。同時,該模型也支援與開發人員提供的參考實作在本地協同使用。
儘管其高效能和靈活部署的能力突出,安全性卻成為Mistral AI的漏洞之處。
GPT3和Llama 2等LLM模型有嚴格的內容過濾器,可以拒絕產生母公司認定為有害的訊息,Mixtral 7B卻缺乏這「安全護欄」。曾有用戶向Mistral AI的問答模型詢問如何製造炸彈和實施謀殺,其聊天機器人竟然給出了細思極恐的細節指導。
儘管Mistral AI團隊致力於開放分享其技術,但這可能成為其AI產品的一把雙面刃,因為監管機構可能會因其缺乏傳統內容過濾器而對該模型採取更嚴厲的措施。
另一方面,Mistral AI的CEO Arthur Mensch曾在AI安全峰會上表示:“開源帶來的風險和益處之間存在一種權衡,我們需要通過動態的對話來尋找最佳解決方案。”
據悉,該公司正在建立一個具備模組化過濾器和模組化機制的平台,用於管理模型網路。也許,該公司將從模型內部建構方面,著手AI安全和防護問題。
在如今競爭激烈的大語言模型中,Mistral AI以其卓越的性能和出色的適應性脫穎而出。然而,面臨潛在的AI安全性挑戰,業者也正思考如何在開源與安全之間取得權衡之道。
04. 與Google雲端共創智慧未來
眾所周知,Google雲端在全球雲端運算領域堪稱佼佼者,而當它與AI領域的黑馬Mistral AI相遇,一個充滿無限可能的未來正逐漸展現在我們眼前。
上個月,Google雲端宣布和Mistral AI建立全球合作夥伴關係,Mistral AI將使用谷歌雲端的基礎設施來分發和商業化其大型語言模型。
借助谷歌雲端強大的雲端運算和大數據技術,Mistral AI在模型推理、預訓練等領域有望取得前所未有的突破。這不僅將進一步推動AI技術的發展,也將為各產業帶來更為智慧、高效的解決方案。
同時,雙方的合作也將加速Mistral AI在各產業的落地應用。無論是電商、金融、醫療或教育,Mistral AI將為人類帶來更多便利和福祉。
當然,Mistral AI的崛起並非偶然。作為一家充滿活力和創新精神的公司,Mistral AI始終致力於探索AI技術的邊界,並將其應用於解決實際問題。
其出色表現和創新能力,使得人們不禁開始思考:這家新創公司是否有可能超越OpenAI,成為歐洲AI領域的領導者?讓我們拭目以待。(元宇宙之心)