AI王座再次易主！ OpenAI反超Claude3，GPT4.5-Turbo正式版發布，GPT-4終於不再偷懶又開始變聰明了

2024/04/17

•

沒想到，才過了兩個月，全球最強AI的寶座又易主了！

幾個月前，Claude3 Opus全面超越GPT-4，全球的網友紛紛拋棄GPT，投向Claude3的懷抱，並紛紛分享Claude3帶來的驚艷體驗。

如今，OpenAI再次用實力證明了，GPT依然是AI世界最強的玩家！

在最新的AI基準測試中，OpenAI幾天前剛發布的GPT-4-Turbo-2024-04-09版本，大幅超越了Claude3 Opus，重新奪回了全球第一的AI王座：

除了命名為GPT-4-Turbo-2024-04-09的API版本，ChatGPT的Web版本也已經開放給付費PLUS會員。

如果你的知識庫資料集截止時間已經更新為2023年12月，那恭喜你已經成功接收到新版本的推播了。如果還沒有，那不妨再耐心等待一下。

值得一提的是，這個版本不是一個普通的測試版本，而是作為正式版本GPT-4-Turbo發布的。

雖然GPT-4-Turbo 發布已久，但一直以「預覽版」的方式提供。

這次也是GPT-4-Turbo系列首次發布正式版，足以看出這個版本的份量。網友甚至紛紛直接將其改名為GPT-4.5-Turbo了。

據介紹，更新後的版本在寫作、數學、邏輯推理以及程式設計等多個領域均實現了顯著進步。

使用新版GPT4寫作，你會發現它的反應速度提升，溝通更為流暢，表達方式更趨於口語化。

簡言之，新版的寫作風格更貼近人類的自然語言，多了些人情味，少了點AI機器味。

AI邦第一時間透過國內最穩、更新最快的AI工具站BotGo·機器國進行了GPT-4-Turbo體驗。

附BotGo·機器國地址（聚合數十款全球最新最強AI大模型）：

https://botgo.cc

BotGo·機器國是一個AI大語言模型和智慧機器人的競技場，致力於發現和創造有靈魂的AI機器人。

他們正在做的一件事情就是對接全球最強的AI大語言模型和智慧機器人，由真人在實戰環境中對大模型和機器人進行基準測試，並匯總全部真人投票數據發布排行榜單。

所以，BotGo·機器國簡直就是為做大模型測試量身訂做的理想環境。

好了，話不多說，我們這就開始測評了，Bot go！

最新版GPT-4.5-Turbo 大戰Claude 3 Opus

程式碼能力測試

首先我們來看看程式碼debug方面的表現：

這是一個很隱密的bug，以前的Claude 3 Opus是完全沒找到bug在哪，現在經過調教有所進步，已經能夠發現Bug的問題，並且提供了修復的程式碼。

其實這個bug，以前的GPT-4也找不到。但剛剛更新的這個GPT-4.5-Turbo不僅能找到bug，修改後的程式碼也更為優質，而且除了Bug之外還提出了索引處理和效率方面的問題及建議，整體表現確實比Claude3更為優秀。

非常驚艷，這應該是全世界唯二能夠修復這個bug的AI了。

附BotGo·機器國地址（以上案例可在BotGo·機器國直接復現）：

https://botgo.cc

科學研究學術能力測試

然後我們來看看專業學術問題的表現。

我們這次加大難度，上傳一個生物樣品圖給AI：

然後我們在BotGo·機器國上看看Claude3、GPT4和Gemini Pro這三個地表最強的多模態AI，對這個圖片分析的結果：

結果發現，最新版的GPT-4好像還不能解析上傳的圖片，可能還在調測當中。在圖片問答方面還是不如Claude-3 Opus。

這方面的能力排序是Claude-3 > Gemini Pro > GPT-4。

附BotGo·機器國地址（以上案例可在BotGo·機器國直接復現）：

https://botgo.cc

我們再換一個專業問題，讓AI大模型來講述最近大火的文生視訊模型Sora的技術原理，而且要讓高中生也能聽明白哈哈。

關於Sora技術原理的解釋，在所有的AI中，GPT-4和Gemini表現都非常優秀。

Claude-3有些片段出現了知識性的錯誤－Sora是生成式的，不是檢索式的。而Kimi則只提到了深度學習技術，但沒明確具體的技術架構和路徑。

Gemini非常形像地將Sora所採用的捲積網路技術類比於樂高的積木結構，確實更容易理解。 GPT-4則在專業上更勝一籌。

我猜這可能是因為只有GPT-4的知識庫已經更新到了2024年的4月。而Sora是2月剛發布的，所以只有GPT-4學到了這方面的知識。

附BotGo·機器國地址（以上案例可在BotGo·機器國直接復現）：

https://botgo.cc

行銷能力測試

這次測試加大難度，直接丟給AI一個威獅雲端通訊的介紹文件PDF，讓它去產生一篇行銷文案和搜尋SEO的標題。

結果發現這次的GPT-4正式版是還不能支援文件分析的，這也和官方的公佈資訊一致，要進行文檔分析還是要有請最強大的GPT4多模態全能版本。

AI寫作能力測試

最後測試下AI寫作能力！

寫作的測驗結果就要見仁見智了，每個人的看法都可能不一樣。

這裡面我最喜歡的是Claude-3寫的文章，既能比較口語化富有感染力，內容也有一定的深度。

GPT-4和Gemini Pro差不多，GPT-4比較專業，Gemini Pro比較流暢，速度也快一些。

Kimi覺得相對欠缺一些，象寫給低齡的孩子，稍顯幼稚。

之前LMSYS平台曾專門做過測驗對比，GPT4的英文寫作更強，而Claude3的中文寫作能力更勝一籌，這可能也是我從Claude2開始就喜歡上這個小德子的原因吧。

附BotGo·機器國地址（以上案例可在BotGo·機器國直接復現）：

https://botgo.cc

好了，今天的評測就到這裡了。你們比較喜歡哪個AI呢？

最後附上GPT-4 的版本介紹：

▶ GPT-4-Turbo-2024-04-09

GPT-4-Turbo 首次發布的正式版
基礎能力更新，依官方說法：Majorly improved GPT-4 Turbo model
自帶讀圖能力，無需使用4v 接口
128k 上下文
訓練資料截止至2023 年12 月
輸入：$10.00 / 100萬tokens
輸出：$30.00 / 100萬tokens
讀圖：最低$0.00085 / 圖

▶ GPT-4

發佈於去年的3 月14 日（即0314 版），後續更新0613 版，支援8k 上下文，是經典版的GPT-4。

輸入：$30.00 / 100萬tokens
輸出：$60.00 / 100萬tokens

▶ GPT-4-32k

與GPT-4 同期發布，也是有0314 和0613 兩個子版本，支援32k 上下文，是當時上下文最長的模型，但非常貴。

輸入：$60.00 / 100萬tokens
輸出：$120.00 / 100萬tokens

另說一下，這個模型是邀請制，至今未公開提供。

▶ GPT-4-Turbo-Preview （即GPT-4 Turbo 預覽版）

發佈於去年的11 月6 日（即1106 版），後續更新0125 版，支援128k 上下文，並且大幅降價。

輸入：$10.00 / 100萬tokens
輸出：$30.00 / 100萬tokens

▶ GPT-4-Vision-Preview （即GPT-4 Turbo 的讀圖版）

和GPT-4-Turbo-Preview 同一時間發布，也包括1106 版和0125 版，價格保持一致，但給的用量不多。

輸入：$10.00 / 100萬tokens
輸出：$30.00 / 100萬tokens

讀圖的價格看解析度：最低$0.00085 / 圖

附BotGo·機器國地址（以上所有模型版本均可在BotGo·機器國找到）：

https://botgo.cc (AI邦)