在Seedance 2.0和Seedream 5.0 Lite,一波接一波爆火之後,豆包把完全體拿出來了——豆包大模型2.0。
這是時隔21個月以來的最大版本的更新。
像Seedance 2.0已經成為全民玩轉的AI,我們也試著做了一個視訊:
短短5秒鐘,效果確實是足夠逼真。
也難怪老外也開始研究怎麼註冊中國手機號來體驗了……
再如Seedream 5.0 Lite,首次支援聯網檢索,生成的圖片也達到了商業化的水平:
而就在今天,在視覺模型火爆之後,豆包終於把那個最核心的大腦拿出來了——豆包大模型2.0。
整體來看,這次豆包大模型2.0在多模態理解、企業級Agent、推理和程式碼能力上都有了不少的提升:
更直觀的提升,體現在榜單測評中。
例如在MathVista、MathVision、MathKangaroo、MathCanvas等數學推理基準上達到業界最優水平。同時,在 LogicVista、VisuLogic等視覺解謎與邏輯推理基準上,Seed2.0 Pro得分較Seed1.8顯著提升。
並且在VLMsAreBiased、VLMsAreBlind、BabyVision等基準中,豆包大模型2.0取得了業界最高分!
那麼接下來,還是老規矩,一波實測,走起~
首先,我們就要測試最近各家都在主推的程式碼能力。
在字節旗下的AI程式設計軟體TRAE中,我們目前就能體驗豆包大模型2.0的能力:
我們就先以3D模仿求解器的案例,來小試牛刀一下:
你幫我寫一個能解決魔方的群論演算法,然後用前端頁面演示下吧,要求美觀,本地當前資料夾下的所有檔案都可以直接編輯刪除和覆蓋。
不難看出,豆包大模型2.0很好的理解了基於群論的智能演算法,並且在視覺和互動上也是比較驚豔。
面對複雜的物理模擬,也是不在話下:
接下來,我們來一個更加複雜且長任務的測試——3D版大富翁遊戲。
請欣賞效果:
可以看到,豆包大模型2.0依舊是穩穩拿捏。
難度再上一層樓,這次我們直接做一個《我的世界》:
同樣也是稍等幾分鐘,高仿版《我的世界》就誕生了:
並且豆包官方也展示了通過豆包大模型2.0和TRAE生成的“AI春節廟會”:
當然,像模擬可互動的蘋果電腦系統這種任務,也是非常輕鬆實現:
除了程式設計之外,像複雜的圖解問題,豆包大模型2.0也是可以輕鬆拿捏。
例如我們直接丟給它這樣一張圖:
豆包大模型2.0在接收到問題之後,立即給出了正確答案:
類似的,複雜的數學問題也是不在話下。
由此可見,豆包大模型2.0在推理、程式設計和數學問題上,都有明顯的性能提升。
實測下來,最直觀的感受是:豆包大模型2.0變穩了。
它不再滿足於陪你聊天,而是試圖幫你寫完一個項目、算出一個難題、畫出一張商用級海報。
這也引出了一個問題:為什麼現在才是2.0的節點?
過去一年,大模型行業陷入了卷參數和卷價格的混戰。但字節跳動似乎一直在憋大招。這個時間點發佈2.0,或許是因為在資料質量、訓練效率,以及應用效果都突破了一個新的臨界點。
特別是在Agent場景下。
真正的企業級應用,不是靠聊天解決的,而是靠行動。豆包 2.0 展現出的工具呼叫能力和長程任務規劃能力,顯然是衝著ToB和生產力工具去的。
性價比是否更具優勢?答案是肯定的。
在測試中我們發現,雖然能力變強了,但推理速度並沒有明顯的延遲。據技術報告顯示,Seed-2.0系列(包括 Pro、Lite、Mini)在同等性能下,通過架構最佳化,大幅提升了Tokens效率。
這意味著,企業用它來做客服、做資料分析、寫程式碼,成本會更低。
現在,豆包大模型2.0已經全面上線,感興趣的小夥伴可以去試試嘍~ (量子位)