沒想到,才過了兩個月,全球最強AI的寶座又易主了!
幾個月前,Claude3 Opus全面超越GPT-4,全球的網友紛紛拋棄GPT,投向Claude3的懷抱,並紛紛分享Claude3帶來的驚艷體驗。
如今,OpenAI再次用實力證明了,GPT依然是AI世界最強的玩家!
在最新的AI基準測試中,OpenAI幾天前剛發布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新奪回了全球第一的AI王座:
除了命名為GPT-4-Turbo-2024-04-09的API版本,ChatGPT的Web版本也已經開放給付費PLUS會員。
如果你的知識庫資料集截止時間已經更新為2023年12月,那恭喜你已經成功接收到新版本的推播了。如果還沒有,那不妨再耐心等待一下。
值得一提的是,這個版本不是一個普通的測試版本,而是作為正式版本GPT-4-Turbo發布的。
雖然GPT-4-Turbo 發布已久,但一直以「預覽版」的方式提供。
這次也是GPT-4-Turbo系列首次發布正式版,足以看出這個版本的份量。網友甚至紛紛直接將其改名為GPT-4.5-Turbo了。
據介紹,更新後的版本在寫作、數學、邏輯推理以及程式設計等多個領域均實現了顯著進步。
使用新版GPT4寫作,你會發現它的反應速度提升,溝通更為流暢,表達方式更趨於口語化。
簡言之,新版的寫作風格更貼近人類的自然語言,多了些人情味,少了點AI機器味。
AI邦第一時間透過國內最穩、更新最快的AI工具站BotGo·機器國進行了GPT-4-Turbo體驗。
附BotGo·機器國地址(聚合數十款全球最新最強AI大模型):
https://botgo.cc
BotGo·機器國是一個AI大語言模型和智慧機器人的競技場,致力於發現和創造有靈魂的AI機器人。
他們正在做的一件事情就是對接全球最強的AI大語言模型和智慧機器人,由真人在實戰環境中對大模型和機器人進行基準測試,並匯總全部真人投票數據發布排行榜單。
所以,BotGo·機器國簡直就是為做大模型測試量身訂做的理想環境。
好了,話不多說,我們這就開始測評了,Bot go!
最新版GPT-4.5-Turbo 大戰Claude 3 Opus
首先我們來看看程式碼debug方面的表現:
這是一個很隱密的bug,以前的Claude 3 Opus是完全沒找到bug在哪,現在經過調教有所進步,已經能夠發現Bug的問題,並且提供了修復的程式碼。
其實這個bug,以前的GPT-4也找不到。但剛剛更新的這個GPT-4.5-Turbo不僅能找到bug,修改後的程式碼也更為優質,而且除了Bug之外還提出了索引處理和效率方面的問題及建議,整體表現確實比Claude3更為優秀。
非常驚艷,這應該是全世界唯二能夠修復這個bug的AI了。
附BotGo·機器國地址(以上案例可在BotGo·機器國直接復現):
https://botgo.cc
然後我們來看看專業學術問題的表現。
我們這次加大難度,上傳一個生物樣品圖給AI:
然後我們在BotGo·機器國上看看Claude3、GPT4和Gemini Pro這三個地表最強的多模態AI,對這個圖片分析的結果:
結果發現,最新版的GPT-4好像還不能解析上傳的圖片,可能還在調測當中。在圖片問答方面還是不如Claude-3 Opus。
這方面的能力排序是Claude-3 > Gemini Pro > GPT-4。
附BotGo·機器國地址(以上案例可在BotGo·機器國直接復現):
https://botgo.cc
我們再換一個專業問題,讓AI大模型來講述最近大火的文生視訊模型Sora的技術原理,而且要讓高中生也能聽明白哈哈。
關於Sora技術原理的解釋,在所有的AI中,GPT-4和Gemini表現都非常優秀。
Claude-3有些片段出現了知識性的錯誤-Sora是生成式的,不是檢索式的。而Kimi則只提到了深度學習技術,但沒明確具體的技術架構和路徑。
Gemini非常形像地將Sora所採用的捲積網路技術類比於樂高的積木結構,確實更容易理解。 GPT-4則在專業上更勝一籌。
我猜這可能是因為只有GPT-4的知識庫已經更新到了2024年的4月。而Sora是2月剛發布的,所以只有GPT-4學到了這方面的知識。
附BotGo·機器國地址(以上案例可在BotGo·機器國直接復現):
https://botgo.cc
這次測試加大難度,直接丟給AI一個威獅雲端通訊的介紹文件PDF,讓它去產生一篇行銷文案和搜尋SEO的標題。
結果發現這次的GPT-4正式版是還不能支援文件分析的,這也和官方的公佈資訊一致,要進行文檔分析還是要有請最強大的GPT4多模態全能版本。
最後測試下AI寫作能力!
寫作的測驗結果就要見仁見智了,每個人的看法都可能不一樣。
這裡面我最喜歡的是Claude-3寫的文章,既能比較口語化富有感染力,內容也有一定的深度。
GPT-4和Gemini Pro差不多,GPT-4比較專業,Gemini Pro比較流暢,速度也快一些。
Kimi覺得相對欠缺一些,象寫給低齡的孩子,稍顯幼稚。
之前LMSYS平台曾專門做過測驗對比,GPT4的英文寫作更強,而Claude3的中文寫作能力更勝一籌,這可能也是我從Claude2開始就喜歡上這個小德子的原因吧。
附BotGo·機器國地址(以上案例可在BotGo·機器國直接復現):
https://botgo.cc
好了,今天的評測就到這裡了。你們比較喜歡哪個AI呢?
▶ GPT-4-Turbo-2024-04-09
▶ GPT-4
發佈於去年的3 月14 日(即0314 版),後續更新0613 版,支援8k 上下文,是經典版的GPT-4。
▶ GPT-4-32k
與GPT-4 同期發布,也是有0314 和0613 兩個子版本,支援32k 上下文,是當時上下文最長的模型,但非常貴。
另說一下,這個模型是邀請制,至今未公開提供。
▶ GPT-4-Turbo-Preview (即GPT-4 Turbo 預覽版)
發佈於去年的11 月6 日(即1106 版),後續更新0125 版,支援128k 上下文,並且大幅降價。
▶ GPT-4-Vision-Preview (即GPT-4 Turbo 的讀圖版)
和GPT-4-Turbo-Preview 同一時間發布,也包括1106 版和0125 版,價格保持一致,但給的用量不多。
讀圖的價格看解析度:最低$0.00085 / 圖
附BotGo·機器國地址(以上所有模型版本均可在BotGo·機器國找到):
https://botgo.cc (AI邦)