世界開源新王誕生！ 2人團隊幹翻GPT-4o，70B自主糾錯力壓群雄

2024/09/07

•

【導讀】開源大模型再次一夜易主！一個2人創業團隊公司，竟用數周肝出世界最強模型Reflection 70B。在多項基準測試中，一舉擊敗GPT-4o、Llama 3.1 70B，而它的獨特之處，是因為採用了「反思微調」新演算法。

難倒一大片LLM經典難題，竟被突如其來的70B新模型破解？

而且是，一次就能做對那種。

別不信，就拿9.11和9.9誰大難題小試一下，模型不用思索便給出了正確答案。

即便在嘴漏誤答之後，借助「反思」魔法，能夠自動糾正。

如上所示，它可以反思，然後再自主改正。故名，Reflection 70B。

Reflection，一出世便被冠以「世界頂級開源」模型之稱，性能強到令人髮指。

在各項基準測試中，橫掃MMLU、MATH、IFEval、GSM8K，甚至擊敗了GPT-4o，以及Llama 3.1超大杯。

背後這家AI寫作初創HyperWrite鮮有人知，但不得不稱讚的是，這一模型竟是由兩個人肝了幾周速成。

一位是創始人兼CEO Matt Shumer，另一位是聯創Sahil Chaudhary。

Shumer介紹，未來也將上線405B模型，可望成為超越世界最頂尖閉源模型。

一上線流量暴增，GPU不夠用了

AI圈裡，許久未見如此強大的模型，多數人都躍躍欲試。

沒想到，網友們的瘋狂試用，導致展示網站流量激增，出現當機。

為此，Shumer正和團隊正忙於尋找足夠的GPU，來滿足如此激增的需求。

體驗網址：https://reflection-playground-production.up.railway.app/

一位網友讓Reflection直接上手最棘手的推理問題。

他表示，比得到答案更有趣的是，它所展開的推理步驟。

大模型在整個過程中，主動分析這些人物之間的關係，並一步一步推導，得出正確答案。

這個難題，Claude 3.5、GPT-4o卻都回答失敗了。

擊敗GPT-4o，開源新王登場

Reflection 70B受到如此熱捧，是因為背後採用了獨特的創新技術。

它是基於Llama 3.1-70B Instruct微調而來，並使用了錯誤自我修正技術－Reflection-Tunning。

新模型已經在多個基準上，經過了嚴格的測試，並且使用LMSYSLLM Decontaminator確保結果不受干擾。

總之，Reflection 70B性能大幅超越Llama模型，並與當前頂尖LLM相抗衡。

具體來說，Reflection 70B在與頂級閉源模型（Claude 3.5 Sonnet，GPT-4o）比較中，表現出色。

在MMLU、MATH、IFEval、GSM8K中測試基準上，都擊敗了GPT-4o。

更值得一提的是，僅憑70B參數徹底擊敗405B的Llama 3.1，差距顯而易見。

自主糾錯，全憑反思

大模型往往會產生錯誤資訊，並且無法識別何時犯錯，最令人頭痛。

而Reflection-Tunning可以讓LLM能夠識別自身錯誤，並在做出回答前反思評估，自我修正。

此外，它還將「規劃」單獨作為一個步驟，利用CoT縝密思考的過程，使得最終輸出結果，更加簡潔明了。

例如，下面9.11和9.9誰大的例子中，它將整個思考過程劃分為四個步驟。

這使得模型在需要高精確度的任務中特別有用，因為它將推理分成不同步驟以提高精確度。

Glaive合成資料，加速訓練

Reflection 70B之所以能夠獲得成功，另一個關鍵的因素就是Glaive產生的合成資料。

Glaive由荷蘭工程師Sahil Chaudhary創立，專注於解決AI開發中最大的瓶頸之一：高品質、特定任務資料的可用性。

透過利用Glaive的技術，Reflection團隊能夠快速產生高品質的合成資料來訓練Reflection 70B。期間，數據產生只需要花費幾個小時而不是以往的幾周。

對此，Shumer稱讚道，「憑藉著Glaive產生的定製合成資料，我們在三周內完成了五輪模型的訓練。」

下周即將推出405B版本

乍一看，Reflection 70B彷彿從無到有。但實際上，身為聯創兼CEO的Matt Shumer多年來一直在AI領域耕耘。

2020年，他與Jason Kuperberg創立了一家名為Otherside AI的公司，位於紐約長島的Melville——距離紐約市東部約一小時車程的小鎮。

其標誌性的產品HyperWrite，最初是一個幫助用戶根據要點撰寫電子郵件和回覆的Chrome擴展程序。隨著不斷的進化，如今已經可以完成撰寫文章、總結文字，甚至組織電子郵件等各種任務了。

2023年3月，公司獲得了280萬美元的投資，並推出了全新的AI功能，例如將網絡瀏覽器變成虛擬管家、預訂航班，以及在LinkedIn上尋找求職者等等。

2023年11月，HyperWrite的使用者數成功突破200萬，兩位聯創也登上了Forbes年度「30 Under 30」榜單。

如今，在快速發展的生成式AI領域，權力平衡似乎又發生了變化。

Reflection 70B的發佈只是Reflection系列的開端。

即將在下周推出的405B版本，可謂是直接劍指諸如GPT-4o和Claude 3.5這些全球領先的專有或閉源LLM。

不難想像，隨著AI的發展，Reflection在推理和錯誤校正方面的獨特方法，很可能會成為開源模型的新標準。（新智元）