#豆包2.0
豆包再扔王炸!2.0發佈:推理成本降一個數量級,正面對標GPT-5和Gemini 3
字節跳動旗下豆包大模型正式進入2.0階段,推出面向Agent時代的系統性升級版本。新版本在保持與GPT-5.2和Gemini 3 Pro相當性能的同時,將推理成本降低約一個數量級,為大規模生產環境下的複雜任務執行提供更具競爭力的解決方案。2月14日,字節跳動宣佈,豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和專門的Code模型。其中旗艦版豆包2.0 Pro全面對標GPT-5.2與Gemini 3 Pro,在多數視覺理解基準測試中達到業界最高水平,並在數學奧賽IMO、CMO和程式設計競賽ICPC中獲得金牌成績。該系列模型已全面上線。豆包2.0 Pro已接入豆包App、電腦端和網頁版的"專家"模式,Code版本已整合至AI程式設計產品TRAE,火山引擎同步上線面向企業和開發者的API服務。分析認為,在現實世界複雜任務中,由於大規模推理與長鏈路生成將消耗大量token,豆包2.0的成本優勢將成為關鍵競爭力。這標誌著字節跳動在大模型商業化應用上邁出重要一步。多模態能力達到世界頂尖水平豆包2.0全面升級了多模態能力,在視覺推理、感知能力、空間推理與長上下文理解等任務上表現突出。在動態場景理解方面,該模型在TVBench等關鍵測評中處於領先位置,在EgoTempo基準上甚至超過人類分數,顯示其對變化、動作、節奏等資訊的捕捉更為穩定。在長視訊場景中,豆包2.0在大多數評測上超越其他頂尖模型,並在多個流式即時問答視訊基準測試中表現優異。這使其能夠作為AI助手完成即時視訊流分析、環境感知、主動糾錯與情感陪伴,實現從被動問答到主動指導的互動升級,可應用於健身、穿搭等陪伴場景。推理能力對標頂尖模型,成本優勢顯著豆包2.0 Pro通過加強長尾領域知識,在SuperGPQA上分數超過GPT-5.2,並在HealthBench上獲得第一名,在科學領域的整體成績與Gemini 3 Pro和GPT-5.2相當。在推理和Agent能力評測中,該模型在IMO、CMO數學奧賽和ICPC程式設計競賽中獲得金牌成績,也超越了Gemini 3 Pro在Putnam Bench上的表現。在HLE-text(人類的最後考試)上,豆包2.0 Pro取得最高分54.2分,在工具呼叫和指令遵循測試中也有出色表現。更重要的是,字節跳動表示,該模型在保持與業界頂尖大模型相當效果的同時,token定價降低了約一個數量級,這一成本優勢在大規模推理與長鏈路生成場景中將變得更為關鍵。基於OpenClaw框架和豆包2.0 Pro模型,字節跳動在飛書上建構了智能客服Agent。該Agent能通過呼叫不同技能完成客戶對話,遇到難題時會主動拉群求助真人同事,幫客戶預約上門維修人員,並在維修後主動回訪和推薦產品。Code模型提升開發效率豆包2.0 Code基於2.0基座模型針對程式設計場景進行最佳化,強化了程式碼庫解讀能力和應用生成能力,並增強了模型在Agent工作流中的糾錯能力。該模型已上線TRAE中國版作為內建模型,支援圖片理解和推理。在實際應用中,開發者使用TRAE配合豆包2.0 Code,僅需1輪提示詞就能建構出"TRAE春節小鎮·馬年廟會"互動項目的基本架構和場景,經過5輪提示詞即可完成整個作品。該項目包含11位由大語言模型驅動的NPC,能根據人設自然聊天、招呼顧客、現場砍價,AI遊客也會自主決定去那家攤位、買什麼、說什麼。相關提示詞與素材已在GitHub開源供開發者測試。目前,豆包2.0 Pro已面向C端使用者在豆包App、電腦端和網頁版上線“專家”模式;面向企業和開發者,火山引擎已同步上線豆包2.0系列模型API服務。字節跳動表示,未來將繼續面向真實場景迭代模型,探索智能上限。 (華爾街見聞)
字節豆包2.0發佈:推理成本降一個數量級,正面對標GPT-5和Gemini 3
字節發佈豆包2.0,旗艦版Pro全面對標GPT-5.2與Gemini 3 Pro。新模型在多模態、數學及程式設計等領域達到業界頂尖,同時將推理成本降低約一個數量級,顯著提升Agent應用性價比。目前已接入豆包App、TRAE及火山引擎API。字節跳動旗下豆包大模型正式進入2.0階段,推出面向Agent時代的系統性升級版本。新版本在保持與GPT-5.2和Gemini 3 Pro相當性能的同時,將推理成本降低約一個數量級,為大規模生產環境下的複雜任務執行提供更具競爭力的解決方案。2月14日,字節跳動宣佈,豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和專門的Code模型。其中旗艦版豆包2.0 Pro全面對標GPT-5.2與Gemini 3 Pro,在多數視覺理解基準測試中達到業界最高水平,並在數學奧賽IMO、CMO和程式設計競賽ICPC中獲得金牌成績。該系列模型已全面上線。豆包2.0 Pro已接入豆包App、電腦端和網頁版的"專家"模式,Code版本已整合至AI程式設計產品TRAE,火山引擎同步上線面向企業和開發者的API服務。分析認為,在現實世界複雜任務中,由於大規模推理與長鏈路生成將消耗大量token,豆包2.0的成本優勢將成為關鍵競爭力。這標誌著字節跳動在大模型商業化應用上邁出重要一步。01多模態能力達到世界頂尖水平豆包2.0全面升級了多模態能力,在視覺推理、感知能力、空間推理與長上下文理解等任務上表現突出。在動態場景理解方面,該模型在TVBench等關鍵測評中處於領先位置,在EgoTempo基準上甚至超過人類分數,顯示其對變化、動作、節奏等資訊的捕捉更為穩定。在長視訊場景中,豆包2.0在大多數評測上超越其他頂尖模型,並在多個流式即時問答視訊基準測試中表現優異。這使其能夠作為AI助手完成即時視訊流分析、環境感知、主動糾錯與情感陪伴,實現從被動問答到主動指導的互動升級,可應用於健身、穿搭等陪伴場景。02推理能力對標頂尖模型,成本優勢顯著豆包2.0 Pro通過加強長尾領域知識,在SuperGPQA上分數超過GPT-5.2,並在HealthBench上獲得第一名,在科學領域的整體成績與Gemini 3 Pro和GPT-5.2相當。在推理和Agent能力評測中,該模型在IMO、CMO數學奧賽和ICPC程式設計競賽中獲得金牌成績,也超越了Gemini 3 Pro在Putnam Bench上的表現。在HLE-text(人類的最後考試)上,豆包2.0 Pro取得最高分54.2分,在工具呼叫和指令遵循測試中也有出色表現。更重要的是,字節跳動表示,該模型在保持與業界頂尖大模型相當效果的同時,token定價降低了約一個數量級,這一成本優勢在大規模推理與長鏈路生成場景中將變得更為關鍵。基於OpenClaw框架和豆包2.0 Pro模型,字節跳動在飛書上建構了智能客服Agent。該Agent能通過呼叫不同技能完成客戶對話,遇到難題時會主動拉群求助真人同事,幫客戶預約上門維修人員,並在維修後主動回訪和推薦產品。03Code模型提升開發效率豆包2.0 Code基於2.0基座模型針對程式設計場景進行最佳化,強化了程式碼庫解讀能力和應用生成能力,並增強了模型在Agent工作流中的糾錯能力。該模型已上線TRAE中國版作為內建模型,支援圖片理解和推理。在實際應用中,開發者使用TRAE配合豆包2.0 Code,僅需1輪提示詞就能建構出"TRAE春節小鎮·馬年廟會"互動項目的基本架構和場景,經過5輪提示詞即可完成整個作品。該項目包含11位由大語言模型驅動的NPC,能根據人設自然聊天、招呼顧客、現場砍價,AI遊客也會自主決定去那家攤位、買什麼、說什麼。相關提示詞與素材已在GitHub開源供開發者測試。目前,豆包2.0 Pro已面向C端使用者在豆包App、電腦端和網頁版上線“專家”模式;面向企業和開發者,火山引擎已同步上線豆包2.0系列模型API服務。字節跳動表示,未來將繼續面向真實場景迭代模型,探索智能上限。 (硬AI)
Seedance2.0亂殺後,豆包2.0終於來了!字節在接近自己的Gemini 3時刻
價格只有Gemini 3 pro的1/4、多模態理解和推理能力頂級、從底層支撐了現象級Seedance2.0大殺四方的大一統基座模型豆包2.0,終於來了。這是最近最被期待的模型之一。即便這個春節的AI圈如此熱鬧,你也不得不承認,目前字節跳動成功搶走了絕大部分注意力。先是Seedance2.0的驚豔亮相——各個社交網路上都是它製作的驚人的視訊,被形容為“殺死比賽”和結束AIGC童年期,並且被很多人用來與去年DeepSeek效應對比;再是媲美Nano Banana,在理解和推理上有很大進步的Seedream模型;然後就是剛剛,為前兩個模型提供了底層智能基礎的基座模型豆包2.0最終亮相。這次豆包大模型2.0系列(Doubao-Seed-2.0)提供了多個模型選擇:包含 Pro、Lite、Mini 三款多模態通用模型,以及面向開發者的 Code 模型(Doubao-Seed-2.0-Code),以滿足不同場景下企業和使用者對延遲和成本的不同需求。至此,字節整個豆包大模型家族到齊。三連擊,注意力拉滿。其實圍繞模型的刷屏,以前在DeepSeek,Kimi 和千問身上都看到過,但這一次發生在豆包系列“三連擊”身上的“刷屏”還是有挺大的的不同:它自己沒怎麼強調、外界也還沒怎麼討論它的“榜單”排名,但人們第一時間就這麼用起來甚至是瘋狂地玩了起來。在即夢裡,在剪映裡,在豆包裡,在火山引擎的api裡,在各種社交網路裡。模型被廣泛討論,而且是以一種真正被大家用起來的方式流行起來,讓人不再太關注什麼模型指標,參數,網狀評分圖,甚至Seedance 2.0都快讓你不需在意什麼專業提示詞這些東西了——這才是這次“殺瘋了”的豆包模型系列最不一樣也最值得關注的地方。一心要解決真實世界問題的豆包模型仔細看看這次發佈的幾款模型以及研究字節在模型上一貫的策略和思路,能更好理解這種不同。最為驚豔的Seedance2.0,此次最核心的幾個特點包括對物理規律理解,對複雜指令的跟隨,更真實的音效與視訊的配合,以及對複雜運鏡和特效的把握,這些都是專業以及普通人們的影視和視訊創作裡最真實的需求。在諸多的使用裡,你會發現大家在表達一個感受:Seedance2.0吸引人的不只是模型能力,還有它的互動和使用的順滑。讓人感覺已經把產品互動的需求“訓”到了模型層面。除了討論模型,使用者會覺得它是一個完善的為真實需求服務的agent,一個使用者需求滿足的很好的產品。而豆包這個基座模型,解決的也全是真實世界的難題。從最初幾款模型瞄準的更廣泛而基本的問題,到今天的複雜系統問題。字節通過用火山引擎,豆包App等與豆包的徹底連通,來讓真實的使用者和使用者的需求直接一桿子捅到底,影響基礎模型訓練的方向和標準。這都體現在了豆包2.0的更新裡。它的VLM提升了視覺與多模態理解能力,特意為那些最容易產生幻覺的場景做最佳化,同時它提升了複雜指令執行能力,對“記憶”的理解開始更加真實,讓模型在複雜真實任務裡更依賴即時判斷的推理邏輯而非死記硬背。此外,它增強了搜尋能力、讓知識更強,此次也同時發佈了專為coding場景服務的分支模型。而且,在豆包2.0背後,字節再次強調了它自己的一整套基於真實世界任務建構的內部評估,它是完成端到端任務的關鍵。據矽星人瞭解,字節還為這些看起來很“普通”的工作分配了充足的算力資源。這種“務實”並不意味著模型不再湧現新能力。在我們看到的一份預覽報告裡,豆包2.0在處理一個真實的複雜程式碼生成任務時,它的解決方案策略不同於評測基準的官方參考實現。這雖然沒有被字節形容為DeepSeek論文裡那種“aha moment”,但也有了這個意味。因為這背後模型不再僅僅是針對已知解決方案做模式匹配,而是表現出在複雜計算領域進行嚴格問題求解的能力。這才是推理能力投射到真實世界任務後該有的作用。豆包作為字節唯一的基座模型,選擇了大一統的多模態原生框架,也就是所有模態都從一開始就訓在一起,推理能力agent能力也都是原生支援多模態的。這樣的基礎能力正是Seedance這些“垂直”模型給人驚豔體驗的根本。在基於視覺的推理能力上,豆包2.0展示了對GUI操作介面的很強的理解和推理,甚至是進一步增強了的即時反思能力,這些都是做一個好的agent的基礎。一個例子是freeCAD任務。CAD軟體其實是個非常高噪音的圖形操作環境,在其中進行語義 GUI 理解,需要通過視覺理解環境,然後通過反思、退出甚至循環的方式分析反饋,自我診斷,從錯誤裡學習,最終自己學會一種“在環境裡學習”的能力。此前同樣讓人眼前一亮的豆包手機背後,也是這樣的模型能力提供支撐。而這些能力會進一步提供給Seedance和Seedream這樣的模型。在Seedance2.0這次亮眼的能力中,就有一個很有代表性的細節。我用它花了不到10分鐘做了一個風格遷移的動畫片,你可以看到它的“參考”能力,已經進入了風格的層面,這是單純的視訊模態的模型無法具備的,它來自於豆包2.0這個基座模型,來自於一個把所有能力和所有模態進行大一統訓練的強大底層模型。字節自己的Gemini3時刻豆包2.0這次的整體更新非常值得仔細品味。根據字節內部透露,它非常重視在一些基礎科學裡的任務表現,比如一些數學猜想、廣義相對論和量子編譯器偵錯以及計算化學的各種任務。這樣的偏好說明字節嘗試讓它繼續打好通用能力的基礎,考察和訓練的一大重點,都是理解抽象科學概念、主動發現並修復真實漏洞的能力。所以,如果用人們習慣的“屠榜”視角去看,豆包系列有個很大不同,它其實沒有去捲最驚豔的那些塔尖上的任務,它花了大量精力去尋找多模態橫向增加智能維度,與更靠譜的處理最廣泛基礎需求的能力之間的微妙平衡。而這無疑是挺考驗耐心和節奏的把握的。這背後也有“只有字節能這麼做”的理由,那就是豆包app。豆包已經是個國民級產品,所以當它背後的模型更新時,意味著大量天天用豆包的活躍使用者的一個離不開的產品的更新,那麼它當然要提高最廣泛最基礎的任務的完成度和能力。這是其他模型可能不需要考慮,也無法“利用”的局面。換句話說,豆包系列模型是少有的真的在面對大量真實鮮活具體使用者做訓練和最佳化迭代的模型。而負責把這種思路落實下來的一個關鍵環節,是火山引擎。在此前我們和字節模型團隊的交流裡,他們選擇了一條很接近字節做產品的思路的方式在做模型:模型的設計其實最終是和真實使用者一起完成的,火山引擎作為模型對外統一的出口,和字節的模型部門Seed緊密合作,火山的模型策略團隊會把市場上的需求反饋收集和抽象出來,直接影響到模型的重要功能和研發方向,一切都要用真實業務價值來衡量模型能力。在最近的三連擊過程裡,火山引擎也開始面對甜蜜的煩惱,Seedance2.0等模型的需求暴增,給火山帶來巨大需求,對它算力基礎設施的要求越來越高。不過,正是這個增長過程裡積累的真實經驗,在反過來幫助模型在訓練中得到更高的token利用率和更好的算力效率。這一切都不得不讓人想到Google。在我們此前的文章《火山有了自己的token經濟學》裡,我們就提到,字節和Google是同一個路線:關鍵技術全部自研,模型閉源,產品到研發直接全面打通。以及,豆包就對應著Gemini,一個大一統的多模態agent模型。Seedance 緊跟Veo,甚至超過了對方。這一切的技術基礎也和Google類似,都長在自己的以AI為核心的機器學習平台和雲服務上,然後這些“Gemini同款”和“豆包同款”細化成產品再提供給外界。而Google是在Gemini 3 的發佈之後,真正證明了自己這一整套路線的正確,從此真正進入自己的節奏裡。此次豆包系列所創造出的氛圍也異曲同工。Google在發佈Gemini3時的一個變化是,新模型和自己國民級應用以及自有基礎設施平台第一次在第一時間緊密結合,Gemini 3第一時間上線Google各種應用,同時,Nano Banana Pro緊隨其後進一步確立它模型在使用者中的地位。而字節這一次的節奏也很有意思,Seedance並非單獨上線,而是和一系列產品緊密結合,從即夢到小雲雀到剪映再到豆包,最終和豆包大模型一起在火山上提供給更多使用者,你都可以想像春晚期間多少人在這些平台上創造自己的“短劇”,火山的token會繼續井噴。堅定地選擇把全模態和通用能力都全部訓到一起,堅持要把產品和模型打通,把對外服務的基礎設施看到的產業需求和模型功能設計打通,這是兩家公司的相同決定。而Google的選擇在很長一段時間並非公認的正確方向,甚至質疑不斷,直到Gemini 3的到來;而字節在以開源為主戰場的模型競爭氛圍裡繼續堅持了閉源和與真實規模化的應用結合的路線,同樣曾經是,也許現在依然是一個“非共識”的方向。現在都到了turning point。在我們去年底的預測裡我們曾預測了字節的豆包系列模型的轉折點,我們當時這樣寫道:“2025年,DeepSeek的成功改變了中國模型廠商們的技術策略,開源成了最優選擇,字節成了僅有的幾個依然閉源的廠商,這樣的決策在2026年將迎來“證明時刻”,字節在模型研發上的各種積累其實已經有跡可循,Seed是時候交出一份閉源答捲了。”看起來,今天這個預言似乎正在應驗。在模型和落地上按自己的想法走出一條路,並且用一代模型直接證明了這條路的正確,字節在這個二月,算是接近它自己的Gemini 3時刻了。 (矽星人Pro)