難倒一大片LLM經典難題,竟被突如其來的70B新模型破解?
而且是,一次就能做對那種。
別不信,就拿9.11和9.9誰大難題小試一下,模型不用思索便給出了正確答案。
即便在嘴漏誤答之後,借助「反思」魔法,能夠自動糾正。
如上所示,它可以反思,然後再自主改正。故名,Reflection 70B。
Reflection,一出世便被冠以「世界頂級開源」模型之稱,性能強到令人髮指。
在各項基準測試中,橫掃MMLU、MATH、IFEval、GSM8K,甚至擊敗了GPT-4o,以及Llama 3.1超大杯。
背後這家AI寫作初創HyperWrite鮮有人知,但不得不稱讚的是,這一模型竟是由兩個人肝了幾周速成。
一位是創始人兼CEO Matt Shumer,另一位是聯創Sahil Chaudhary。
Shumer介紹,未來也將上線405B模型,可望成為超越世界最頂尖閉源模型。
AI圈裡,許久未見如此強大的模型,多數人都躍躍欲試。
沒想到,網友們的瘋狂試用,導致展示網站流量激增,出現當機。
為此,Shumer正和團隊正忙於尋找足夠的GPU,來滿足如此激增的需求。
體驗網址:https://reflection-playground-production.up.railway.app/
一位網友讓Reflection直接上手最棘手的推理問題。
他表示,比得到答案更有趣的是,它所展開的推理步驟。
大模型在整個過程中,主動分析這些人物之間的關係,並一步一步推導,得出正確答案。
這個難題,Claude 3.5、GPT-4o卻都回答失敗了。
Reflection 70B受到如此熱捧,是因為背後採用了獨特的創新技術。
它是基於Llama 3.1-70B Instruct微調而來,並使用了錯誤自我修正技術-Reflection-Tunning。
新模型已經在多個基準上,經過了嚴格的測試,並且使用LMSYSLLM Decontaminator確保結果不受干擾。
總之,Reflection 70B性能大幅超越Llama模型,並與當前頂尖LLM相抗衡。
具體來說,Reflection 70B在與頂級閉源模型(Claude 3.5 Sonnet,GPT-4o)比較中,表現出色。
在MMLU、MATH、IFEval、GSM8K中測試基準上,都擊敗了GPT-4o。
更值得一提的是,僅憑70B參數徹底擊敗405B的Llama 3.1,差距顯而易見。
大模型往往會產生錯誤資訊,並且無法識別何時犯錯,最令人頭痛。
而Reflection-Tunning可以讓LLM能夠識別自身錯誤,並在做出回答前反思評估,自我修正。
此外,它還將「規劃」單獨作為一個步驟,利用CoT縝密思考的過程,使得最終輸出結果,更加簡潔明了。
例如,下面9.11和9.9誰大的例子中,它將整個思考過程劃分為四個步驟。
這使得模型在需要高精確度的任務中特別有用,因為它將推理分成不同步驟以提高精確度。
Reflection 70B之所以能夠獲得成功,另一個關鍵的因素就是Glaive產生的合成資料。
Glaive由荷蘭工程師Sahil Chaudhary創立,專注於解決AI開發中最大的瓶頸之一:高品質、特定任務資料的可用性。
透過利用Glaive的技術,Reflection團隊能夠快速產生高品質的合成資料來訓練Reflection 70B。期間,數據產生只需要花費幾個小時而不是以往的幾周。
對此,Shumer稱讚道,「憑藉著Glaive產生的定製合成資料,我們在三周內完成了五輪模型的訓練。」
乍一看,Reflection 70B彷彿從無到有。但實際上,身為聯創兼CEO的Matt Shumer多年來一直在AI領域耕耘。
2020年,他與Jason Kuperberg創立了一家名為Otherside AI的公司,位於紐約長島的Melville——距離紐約市東部約一小時車程的小鎮。
其標誌性的產品HyperWrite,最初是一個幫助用戶根據要點撰寫電子郵件和回覆的Chrome擴展程序。隨著不斷的進化,如今已經可以完成撰寫文章、總結文字,甚至組織電子郵件等各種任務了。
2023年3月,公司獲得了280萬美元的投資,並推出了全新的AI功能,例如將網絡瀏覽器變成虛擬管家、預訂航班,以及在LinkedIn上尋找求職者等等。
2023年11月,HyperWrite的使用者數成功突破200萬,兩位聯創也登上了Forbes年度「30 Under 30」榜單。
如今,在快速發展的生成式AI領域,權力平衡似乎又發生了變化。
Reflection 70B的發佈只是Reflection系列的開端。
即將在下周推出的405B版本,可謂是直接劍指諸如GPT-4o和Claude 3.5這些全球領先的專有或閉源LLM。
不難想像,隨著AI的發展,Reflection在推理和錯誤校正方面的獨特方法,很可能會成為開源模型的新標準。(新智元)