中國國產「GPTs」登場!清華系重磅發表GLM-4全家桶,性能可達90% GPT-4

【導讀】狂飆三個月,智譜AI的大模型全家桶震撼發布了!GLM-4表現超進化,堪稱「國產GPT-4」;GLMs和GLM Store,直接對標OpenAI的GPTs。


今天,中國唯一全系對標OpenAI的公司,又搞了一個大新聞!

就在剛剛,智譜AI發布了“新一代基座大模型”GLM-4——性能全面比肩GPT-4。

其中,GLM-4不僅在中文能力上超過了所有競爭對手。


而且,長文本能力也一騎絕塵,實現了128K「大海撈針」全綠。


除此之外,智譜AI這次還發布了「客製化的個人GLM大模型」GLMs和GLM Store,再次對標OpenAI的GPTs!




新一代GLM-4,全面比肩GPT-4!

那麼,這次新一代基座大模型GLM-4,究竟強在了哪?

與上一代ChatGLM3相比,GLM-4在綜合能力上實現了全面躍升,性能提升了60%,已經逼近GPT-4。

它能夠支援更長的上下文,具備更強的多模態功能,支援更快的推理,更多並發,推理成本大大降低。

同時,GLM-4也增強了智能體能力。

基礎能力

從眾多評測集中可以看到,GLM-4的效能提升非常明顯。

相較於GPT-4,GLM-4在MMLU、GSM8K、BBH、HellaSwag資料集上分佈達到了94%、95%、99%和90%的水準。

而在HumanEval資料集上,GLM-4則拿到了72分,明顯超過了GPT-3.5和GPT-4的水準。


指令跟隨

在IFEval評測集上,在Prompt提示詞跟隨(中文)方面,GLM-4達到了GPT-4 88%的水平。

在指令跟隨(中文)方面,則達到了GPT-4 90%水平,大大超過GPT-3.5。


中文對齊

在模型實際應用過程中,大家更重視的,是中文的對齊能力。

在對齊能力上,基於AlignBench資料集,GLM-4超過了GPT-4在6月13日發布的版本,逼近GPT-4最新(11月6日Turbo版本)效果。

在專業能力、中文理解、角色扮演方面,GLM-4甚至超過了GPT-4的精準度。

不過,在中文推理方面,GLM-4的能力還有待進一步提升。


128K長文本

先前的128K大海撈針測試,難倒了許多大模型,但GLM-4卻順利通過。

在大海撈針測試中,128K文字長度內,GLM-4模型均可做到幾乎百分之百的精準度召回。


GLM-4帶來128K的上下文視窗長度,也意味著,在單次提示詞中,可處理文字達到了300頁。

開發者再也不用擔心文件太長,一次處理不完了。

同時,模型的效果和精度也沒有下降。智譜AI團隊完美解決了長上下文全局資訊因失焦而導致的精度下降的問題。

多模態能力

這次,GLM-4的文生圖和多模態理解都得到增強。

全新推出的CogView3,效果明顯超過開源最佳的Stable Diffusion XL,逼近最新OpenAI發布的DALL·E 3。


在對齊、保真、安全、組合佈局等各個評測維度上,CogView3的效果都達到DALL·E3 90%以上水準。

相對之前,CogView3的語意理解能力都大大增強。

「魚眼鏡頭中,有一隻烏龜坐在森林裡。」

模型準確地了解了什麼是魚眼鏡頭,以及烏龜在森林裡的環境應該是怎麼搭配的。


「西蘭花下面的斑馬」,模型理解得很準確。


「一隻打扮的像20世紀80年代的職業摔角手的博美犬,臉上塗著霓虹綠、霓虹橙,還有亮綠色的顏料」,這麼複雜的prompt,模型也沒出錯,對於顏色、場景,都做到了高品質還原。


「一個放大鏡在一頁20世紀50年代的《蝙蝠俠》漫畫的上空」,模型非常準確地理解了空間位置,以及放大鏡蘊含的邏輯作用。



GLM-4 All Tools全家桶來了

上面,都還只是常規的單項模型基礎能力提升,大會上最讓人眼前一亮的,還是GLM-4-All-Tools全家桶。


在以往,我們都需要像魔法咒語一樣的提示詞或程式碼,才能呼叫大模型的能力。無論是回答問題、畫一幅畫還是使用外在知識來源,總覺得LLM還不夠聰明。

而現在,由於GLM模型的強大Agent能力,GLM-4實現了自主根據使用者意圖,自動理解、規劃複雜指令,自由調用WebGLM搜尋增強、Code Interpreter程式碼解釋器和多模態生成能力,從而完成更加複雜的任務。

也就是說,GLM全家桶的能力,終於實現了ALL IN ONE!

畫圖

在AI畫圖方面,GLM-4 All Tools可以很好地結合上下文情境進行創作。

例如,我們可以先畫一隻卡通柯基。


隨後只要說「它開始跑步了」,GLM-4 All Tools就能理解,我們要的還是這隻柯基在往前跑。


告訴GLM-4 All Tools「一隻小兔子加入它一起」,它就明白柯基是主角,兔子需要跟在柯基後面,同時保持奔跑。


告訴它「跑得越來越快了」,背景就會虛化。


總之,GLM-4 All Tools對情境情境的理解非常精確。

程式碼解釋器

同樣,GLM-4也內嵌了程式碼解釋器,能夠自動呼叫程式碼解釋器,進行複雜的方程式或微積分求解。

在以下資料集上,GLM-4 All Tools取得了和GPT-4 All Tools相當的效能。


下面這道數學多項式,該怎麼求解?


或許可以直接訓練一個數學模型,但問題更複雜的時候,LLM就容易出現幻覺。

而GLM-4,則可以透過呼叫Python解釋器,進行複雜計算,自動寫出求解程式碼。


不僅是數學問題,程式碼解釋器還能完成文件處理、資料分析、圖表繪製等複雜任務,支援處理Excel、PDF、PPT等格式的文件。

可以讓模型自動產生PPT大綱,還能呼叫程式碼,產生PPT檔。


網頁瀏覽

靠著All Tools全家桶,GLM-4可以實現更進階的網頁瀏覽。

期間,模型會根據任務自行規劃檢索任務,自行選擇資訊來源,自行與資訊來源互動。


例如可以問它:我要參加2023年的CCF開源大會,當地天氣是怎麼樣的?

這個問題的困難在於,我們並沒有告訴它會議地點,模型自動進行了兩次搜索,第一搜到了大會是10月21日在長沙舉行,第二次搜到了長沙在10月21日的天氣。


可以看到,GLM-4 All Tools的網頁瀏覽準確率,已經超過了GPT-4,令人印象深刻。


Function Call

All Tool還有一個通用能力:根據使用者提供的function描述,自動選擇所需function並產生參數,以及根據function的回傳值產生回應。

這方面的能力,已經跟GPT-4基本持平,在中文理解上,GLM-4 All Tools比GPT-4略強。


多工具自動呼叫現場實測

在大會現場,GLM-4 All Tools進行了一番懟臉實測。

例如,讓GLM-4 All Tools連網搜尋「智譜2024 DevDay的宣傳語」,然後就此主題畫一幅畫。

可以看到,大模型自動搜尋找到了相關發布頁面。


同時,產生的圖片也很好地還原了GLM-4的意境。


這張圖描繪了智譜2024 DevDay宣傳語中的場景。圖中展現了勇敢的⼈站在洶湧的潮頭,⾯對遠處的⻛暴毫不畏懼。

GLM-4可以辨識語意並聯網,搜尋多個資料來源。

它還可以產生一段程式碼,把產生的資料視覺化出來,產生簡單的圖表。

一句簡單的輸入,連網搜尋、擷取、程式碼解釋器、繪圖等多項原生能力就隨之啟動,根本不需要手動控制。模型強大的理解、解釋能力,也隨之而來。

我們可以讓GLM-4建構一個多項式迴歸預測模型,預測未來5年的全球GDP發展態勢。


這樣,就能更直觀地看到過去十年和未來五年的發展趨勢。


根據從MacroTrends取得的數據,我繪製了2007年⾄2022年全球GDP的折線圖。在圖表中,我已經將下降的數據點標記為紅⾊,以便於識別。您可以查看這張圖表,以直觀地看到全球GDP的變化。

值得一提的是,GLM-4升級後,API呼叫價格維持0.1元/千tokens不變,繼續保持較低水準。


國產「GPTs」全新上線

可以看到,智譜AI針對OpenAI的這種對標,不僅是「我有」產品,而是在許多方面都達到了可比程度。

最令開發者期待的是,國產「GPTs」也來了!

DevDay上,智譜AI上線了客製化個人GLM大模型-GLMs。

現在,無需程式碼基礎,任何使用者均可用簡單的prompt指令,建立屬於自己的GLM模型智能體,從而實現對大模型的便利開發。

例如,智譜AI這次就為自己的DevDay做了一個GLMs。

只要打開智譜清言,進入智譜DevDay的智能體,就可以提問今天大會的事宜。甚至能直接要到現場PPT的下載位址。


並且,GLMs模型應用程式商店,也有開發者分成計畫。


看得出,智譜AI可自訂Agent-GLMs的發布,以及上線的GLM Store,在走和OpenAI一樣的路線。

繼首屆開發者大會上發布客製化GPTs之後,OpenAI上周正式推出人們期待已久的GPT Store。

短短2個月的時間,全世界已經誕生了300萬個自訂的ChatGPT。網友紛紛表示,這就是AI時代的「APP Store」時刻。


簡單來說,GLMs降低了大模型的使用門檻,可以讓更多的人參與進來,為AI廣泛落地鋪平了道路。

相較於呼叫單純的大模型,GLMs就像一個Agent,可以透過上傳​​文件,例如私有資料等,讓其獲得額外的知識。這樣,客製化的GLMs就能提升對特定問題回答的準確性,以極高的精度執行任務。


蘋果在2008年推出APP Store的最大價值在於,創造了一個新的生態,為第三方開發者帶去數百萬億美元的收入。


在AI新時代下,不論是GPT Store,還是GLM Store,都將帶領世界開發者走向一條新的LLM商業化道路。

好消息是,GLMs和GLM Store今天就已正式上線!



複雜的模型產業鏈,一步一步做起

眾所周知,大模型是一個複雜的產業鏈。而產業對此的共識是:共同創造,才能產生真正的社會價值。

那麼,要做到這一點,首先要讓大模型本身的能力夠強。

第一步,模型夠強

在這一方面,智譜AI從未停下過自己的腳步。

自2019年成立以來,這家AI新創公司便致力於打造新一代認知智能大模型,專注於做大模型的中國創新。

一年後,智譜AI從0開始研發全新的GLM預訓練架構,並在2022年推出了中英雙語千億級超大規模預訓練模型GLM-130B。


到了2023年,GLM系列大模型維持每3-4月更新一次的頻率,逐漸形成了全面的AIGC產品矩陣。


而這次,性能足以媲美GPT-4的基座大模型GLM-4,是智譜AI進一步研發能力的體現。

智譜AI CEO張鵬在技術開放日上表示,「GLM-4的推出,標誌著國產大模型有能力對標世界人工智慧最先進水準」。


模型之後,就是生態

除了模型本身的能力之外,開源社群和學術界的支持也至關重要。

開源的意義在於,聯合全球的開發者、研究機構、企業,共同讓模型的資料更豐富、模型更優化、應用更全面。

而對於個人開發者和中小企業來說,也能以最低的成本呼叫模型,不需要花費高昂成本。

在國外,Meta以Llama 1的發佈為起點,開啟了開源大模型競相爆發的新路線。

隨著越來越多研究人員的加入,羊駝家族也迎來了大爆發:Alpaca,Vicuna,Llama-Adapter,Lit-Llama等變體相繼出現。

幾個月後,Llama 2在很大程度上取代了Llama 1,成為功能更強的基礎模型,甚至官方也推出了其他的微調版本。


同樣,國內的開源引領者智譜AI也早有佈局。

2022年,智譜AI率先開源高精準度雙語千億模型GLM-130B和ChatGLM-6B。

目前,GLM系列模式在Hugging Face上的下載量已經超過了1100萬,在GitHub上累積星標超過5萬。而智譜AI也成功躋身全球最受歡迎開源機構第5。


基座大模型GLM-4和GLMs等,會進一步推動GLM的模型生態建設,讓智譜AI已經建構起的全模型產品線更強大。

2024年,智譜對於學術的支持仍會持續。1,000萬元現金和算力資源的大模型研究基金,2023年來已有三十餘所大學參與。

現在,每個研究者,都有機會參與大模型的研究,還會擁有自己研發的智慧財產權。


此外,智譜AI也針對開源社群發起了大模型開源基金,為優秀的開發者提供了高達三個「一千」的支援——1000張卡片、1000萬人民幣和1000億tokens。


同時,智譜AI也重磅升級了面向全球大模型創業家的「Z計畫」。

創業基金的總額,達到10億元!

這項基金,用於支持大模型原始創新,涵蓋大模型演算法、底層算子、晶片優化、產業大模型和超級應用等各個方面。


聯合上下游,推動產業升級

而在商業領域,智譜AI在2023年裡已經累積了1,000多家合作夥伴,並與200多家實現了深度共創。

怎麼看一個大模型好不好用?最終結果,還是要看有沒有真正的落地。

目前,GLM系列模型的能力,已經涵蓋了包括金融、諮詢、互聯網、傳統消費產品、智慧製造、媒體等許多領域。


同時,智譜AI也將包括國產晶片、不同垂直領域服務整合商等上下游產業合作夥伴團結在一起,共同推動整個產業進步與升級。

可以看到,圍繞著GLM系列模型的生態圈,正在加速形成。

智譜AI CEO張鵬表示,「一枝獨秀不是春,中國的人工智慧事業要繁榮、要發展,需要所有的參與者、產業鏈上下游合作夥伴、開發者社群、學術界一同努力。智譜不僅有意願,而且有能力為打造繁榮的國產大模型生態貢獻自己的力量」。(新智元)

參考資料:

https://chatglm.cn/main/toolsCenter