世界開源新王誕生! 2人團隊幹翻GPT-4o,70B自主糾錯力壓群雄


【導讀】開源大模型再次一夜易主!一個2人創業團隊公司,竟用數周肝出世界最強模型Reflection 70B。在多項基準測試中,一舉擊敗GPT-4o、Llama 3.1 70B,而它的獨特之處,是因為採用了「反思微調」新演算法。


難倒一大片LLM經典難題,竟被突如其來的70B新模型破解?

而且是,一次就能做對那種。

別不信,就拿9.11和9.9誰大難題小試一下,模型不用思索便給出了正確答案。


即便在嘴漏誤答之後,借助「反思」魔法,能夠自動糾正。


如上所示,它可以反思,然後再自主改正。故名,Reflection 70B。

Reflection,一出世便被冠以「世界頂級開源」模型之稱,性能強到令人髮指。

在各項基準測試中,橫掃MMLU、MATH、IFEval、GSM8K,甚至擊敗了GPT-4o,以及Llama 3.1超大杯。

背後這家AI寫作初創HyperWrite鮮有人知,但不得不稱讚的是,這一模型竟是由兩個人肝了幾周速成。

一位是創始人兼CEO Matt Shumer,另一位是聯創Sahil Chaudhary。


Shumer介紹,未來也將上線405B模型,可望成為超越世界最頂尖閉源模型。


一上線流量暴增,GPU不夠用了

AI圈裡,許久未見如此強大的模型,多數人都躍躍欲試。


沒想到,網友們的瘋狂試用,導致展示網站流量激增,出現當機。

為此,Shumer正和團隊正忙於尋找足夠的GPU,來滿足如此激增的需求。


體驗網址:https://reflection-playground-production.up.railway.app/

一位網友讓Reflection直接上手最棘手的推理問題。


他表示,比得到答案更有趣的是,它所展開的推理步驟。

大模型在整個過程中,主動分析這些人物之間的關係,並一步一步推導,得出正確答案。


這個難題,Claude 3.5、GPT-4o卻都回答失敗了。



擊敗GPT-4o,開源新王登場

Reflection 70B受到如此熱捧,是因為背後採用了獨特的創新技術。

它是基於Llama 3.1-70B Instruct微調而來,並使用了錯誤自我修正技術-Reflection-Tunning。


新模型已經在多個基準上,經過了嚴格的測試,並且使用LMSYSLLM Decontaminator確保結果不受干擾。

總之,Reflection 70B性能大幅超越Llama模型,並與當前頂尖LLM相抗衡。

具體來說,Reflection 70B在與頂級閉源模型(Claude 3.5 Sonnet,GPT-4o)比較中,表現出色。

在MMLU、MATH、IFEval、GSM8K中測試基準上,都擊敗了GPT-4o。

更值得一提的是,僅憑70B參數徹底擊敗405B的Llama 3.1,差距顯而易見。



自主糾錯,全憑反思

大模型往往會產生錯誤資訊,並且無法識別何時犯錯,最令人頭痛。

而Reflection-Tunning可以讓LLM能夠識別自身錯誤,並在做出回答前反思評估,自我修正。

此外,它還將「規劃」單獨作為一個步驟,利用CoT縝密思考的過程,使得最終輸出結果,更加簡潔明了。

例如,下面9.11和9.9誰大的例子中,它將整個思考過程劃分為四個步驟。


這使得模型在需要高精確度的任務中特別有用,因為它將推理分成不同步驟以提高精確度。



Glaive合成資料,加速訓練

Reflection 70B之所以能夠獲得成功,另一個關鍵的因素就是Glaive產生的合成資料。


Glaive由荷蘭工程師Sahil Chaudhary創立,專注於解決AI開發中最大的瓶頸之一:高品質、特定任務資料的可用性。

透過利用Glaive的技術,Reflection團隊能夠快速產生高品質的合成資料來訓練Reflection 70B。期間,數據產生只需要花費幾個小時而不是以往的幾周。

對此,Shumer稱讚道,「憑藉著Glaive產生的定製合成資料,我們在三周內完成了五輪模型的訓練。」


下周即將推出405B版本

乍一看,Reflection 70B彷彿從無到有。但實際上,身為聯創兼CEO的Matt Shumer多年來一直在AI領域耕耘。

2020年,他與Jason Kuperberg創立了一家名為Otherside AI的公司,位於紐約長島的Melville——距離紐約市東部約一小時車程的小鎮。

其標誌性的產品HyperWrite,最初是一個幫助用戶根據要點撰寫電子郵件和回覆的Chrome擴展程序。隨著不斷的進化,如今已經可以完成撰寫文章、總結文字,甚至組織電子郵件等各種任務了。

2023年3月,公司獲得了280萬美元的投資,並推出了全新的AI功能,例如將網絡瀏覽器變成虛擬管家、預訂航班,以及在LinkedIn上尋找求職者等等。

2023年11月,HyperWrite的使用者數成功突破200萬,兩位聯創也登上了Forbes年度「30 Under 30」榜單。


如今,在快速發展的生成式AI領域,權力平衡似乎又發生了變化。

Reflection 70B的發佈只是Reflection系列的開端。

即將在下周推出的405B版本,可謂是直接劍指諸如GPT-4o和Claude 3.5這些全球領先的專有或閉源LLM。


不難想像,隨著AI的發展,Reflection在推理和錯誤校正方面的獨特方法,很可能會成為開源模型的新標準。(新智元)