價格只有Gemini 3 pro的1/4、多模態理解和推理能力頂級、從底層支撐了現象級Seedance2.0大殺四方的大一統基座模型豆包2.0,終於來了。
這是最近最被期待的模型之一。即便這個春節的AI圈如此熱鬧,你也不得不承認,目前字節跳動成功搶走了絕大部分注意力。
先是Seedance2.0的驚豔亮相——各個社交網路上都是它製作的驚人的視訊,被形容為“殺死比賽”和結束AIGC童年期,並且被很多人用來與去年DeepSeek效應對比;再是媲美Nano Banana,在理解和推理上有很大進步的Seedream模型;然後就是剛剛,為前兩個模型提供了底層智能基礎的基座模型豆包2.0最終亮相。
這次豆包大模型2.0系列(Doubao-Seed-2.0)提供了多個模型選擇:包含 Pro、Lite、Mini 三款多模態通用模型,以及面向開發者的 Code 模型(Doubao-Seed-2.0-Code),以滿足不同場景下企業和使用者對延遲和成本的不同需求。
至此,字節整個豆包大模型家族到齊。三連擊,注意力拉滿。
其實圍繞模型的刷屏,以前在DeepSeek,Kimi 和千問身上都看到過,但這一次發生在豆包系列“三連擊”身上的“刷屏”還是有挺大的的不同:
它自己沒怎麼強調、外界也還沒怎麼討論它的“榜單”排名,但人們第一時間就這麼用起來甚至是瘋狂地玩了起來。在即夢裡,在剪映裡,在豆包裡,在火山引擎的api裡,在各種社交網路裡。
模型被廣泛討論,而且是以一種真正被大家用起來的方式流行起來,讓人不再太關注什麼模型指標,參數,網狀評分圖,甚至Seedance 2.0都快讓你不需在意什麼專業提示詞這些東西了——這才是這次“殺瘋了”的豆包模型系列最不一樣也最值得關注的地方。
仔細看看這次發佈的幾款模型以及研究字節在模型上一貫的策略和思路,能更好理解這種不同。
最為驚豔的Seedance2.0,此次最核心的幾個特點包括對物理規律理解,對複雜指令的跟隨,更真實的音效與視訊的配合,以及對複雜運鏡和特效的把握,這些都是專業以及普通人們的影視和視訊創作裡最真實的需求。
在諸多的使用裡,你會發現大家在表達一個感受:Seedance2.0吸引人的不只是模型能力,還有它的互動和使用的順滑。讓人感覺已經把產品互動的需求“訓”到了模型層面。除了討論模型,使用者會覺得它是一個完善的為真實需求服務的agent,一個使用者需求滿足的很好的產品。
而豆包這個基座模型,解決的也全是真實世界的難題。
從最初幾款模型瞄準的更廣泛而基本的問題,到今天的複雜系統問題。字節通過用火山引擎,豆包App等與豆包的徹底連通,來讓真實的使用者和使用者的需求直接一桿子捅到底,影響基礎模型訓練的方向和標準。
這都體現在了豆包2.0的更新裡。
它的VLM提升了視覺與多模態理解能力,特意為那些最容易產生幻覺的場景做最佳化,同時它提升了複雜指令執行能力,對“記憶”的理解開始更加真實,讓模型在複雜真實任務裡更依賴即時判斷的推理邏輯而非死記硬背。此外,它增強了搜尋能力、讓知識更強,此次也同時發佈了專為coding場景服務的分支模型。
而且,在豆包2.0背後,字節再次強調了它自己的一整套基於真實世界任務建構的內部評估,它是完成端到端任務的關鍵。據矽星人瞭解,字節還為這些看起來很“普通”的工作分配了充足的算力資源。
這種“務實”並不意味著模型不再湧現新能力。
在我們看到的一份預覽報告裡,豆包2.0在處理一個真實的複雜程式碼生成任務時,它的解決方案策略不同於評測基準的官方參考實現。這雖然沒有被字節形容為DeepSeek論文裡那種“aha moment”,但也有了這個意味。因為這背後模型不再僅僅是針對已知解決方案做模式匹配,而是表現出在複雜計算領域進行嚴格問題求解的能力。這才是推理能力投射到真實世界任務後該有的作用。
豆包作為字節唯一的基座模型,選擇了大一統的多模態原生框架,也就是所有模態都從一開始就訓在一起,推理能力agent能力也都是原生支援多模態的。這樣的基礎能力正是Seedance這些“垂直”模型給人驚豔體驗的根本。
在基於視覺的推理能力上,豆包2.0展示了對GUI操作介面的很強的理解和推理,甚至是進一步增強了的即時反思能力,這些都是做一個好的agent的基礎。
一個例子是freeCAD任務。CAD軟體其實是個非常高噪音的圖形操作環境,在其中進行語義 GUI 理解,需要通過視覺理解環境,然後通過反思、退出甚至循環的方式分析反饋,自我診斷,從錯誤裡學習,最終自己學會一種“在環境裡學習”的能力。
此前同樣讓人眼前一亮的豆包手機背後,也是這樣的模型能力提供支撐。
而這些能力會進一步提供給Seedance和Seedream這樣的模型。
在Seedance2.0這次亮眼的能力中,就有一個很有代表性的細節。我用它花了不到10分鐘做了一個風格遷移的動畫片,你可以看到它的“參考”能力,已經進入了風格的層面,這是單純的視訊模態的模型無法具備的,它來自於豆包2.0這個基座模型,來自於一個把所有能力和所有模態進行大一統訓練的強大底層模型。
豆包2.0這次的整體更新非常值得仔細品味。
根據字節內部透露,它非常重視在一些基礎科學裡的任務表現,比如一些數學猜想、廣義相對論和量子編譯器偵錯以及計算化學的各種任務。
這樣的偏好說明字節嘗試讓它繼續打好通用能力的基礎,考察和訓練的一大重點,都是理解抽象科學概念、主動發現並修復真實漏洞的能力。
所以,如果用人們習慣的“屠榜”視角去看,豆包系列有個很大不同,它其實沒有去捲最驚豔的那些塔尖上的任務,它花了大量精力去尋找多模態橫向增加智能維度,與更靠譜的處理最廣泛基礎需求的能力之間的微妙平衡。而這無疑是挺考驗耐心和節奏的把握的。
這背後也有“只有字節能這麼做”的理由,那就是豆包app。
豆包已經是個國民級產品,所以當它背後的模型更新時,意味著大量天天用豆包的活躍使用者的一個離不開的產品的更新,那麼它當然要提高最廣泛最基礎的任務的完成度和能力。這是其他模型可能不需要考慮,也無法“利用”的局面。
換句話說,豆包系列模型是少有的真的在面對大量真實鮮活具體使用者做訓練和最佳化迭代的模型。
而負責把這種思路落實下來的一個關鍵環節,是火山引擎。在此前我們和字節模型團隊的交流裡,他們選擇了一條很接近字節做產品的思路的方式在做模型:模型的設計其實最終是和真實使用者一起完成的,火山引擎作為模型對外統一的出口,和字節的模型部門Seed緊密合作,火山的模型策略團隊會把市場上的需求反饋收集和抽象出來,直接影響到模型的重要功能和研發方向,一切都要用真實業務價值來衡量模型能力。
在最近的三連擊過程裡,火山引擎也開始面對甜蜜的煩惱,Seedance2.0等模型的需求暴增,給火山帶來巨大需求,對它算力基礎設施的要求越來越高。不過,正是這個增長過程裡積累的真實經驗,在反過來幫助模型在訓練中得到更高的token利用率和更好的算力效率。
這一切都不得不讓人想到Google。在我們此前的文章《火山有了自己的token經濟學》裡,我們就提到,字節和Google是同一個路線:關鍵技術全部自研,模型閉源,產品到研發直接全面打通。
以及,豆包就對應著Gemini,一個大一統的多模態agent模型。Seedance 緊跟Veo,甚至超過了對方。這一切的技術基礎也和Google類似,都長在自己的以AI為核心的機器學習平台和雲服務上,然後這些“Gemini同款”和“豆包同款”細化成產品再提供給外界。
而Google是在Gemini 3 的發佈之後,真正證明了自己這一整套路線的正確,從此真正進入自己的節奏裡。
此次豆包系列所創造出的氛圍也異曲同工。Google在發佈Gemini3時的一個變化是,新模型和自己國民級應用以及自有基礎設施平台第一次在第一時間緊密結合,Gemini 3第一時間上線Google各種應用,同時,Nano Banana Pro緊隨其後進一步確立它模型在使用者中的地位。而字節這一次的節奏也很有意思,Seedance並非單獨上線,而是和一系列產品緊密結合,從即夢到小雲雀到剪映再到豆包,最終和豆包大模型一起在火山上提供給更多使用者,你都可以想像春晚期間多少人在這些平台上創造自己的“短劇”,火山的token會繼續井噴。
堅定地選擇把全模態和通用能力都全部訓到一起,堅持要把產品和模型打通,把對外服務的基礎設施看到的產業需求和模型功能設計打通,這是兩家公司的相同決定。而Google的選擇在很長一段時間並非公認的正確方向,甚至質疑不斷,直到Gemini 3的到來;而字節在以開源為主戰場的模型競爭氛圍裡繼續堅持了閉源和與真實規模化的應用結合的路線,同樣曾經是,也許現在依然是一個“非共識”的方向。
現在都到了turning point。
在我們去年底的預測裡我們曾預測了字節的豆包系列模型的轉折點,我們當時這樣寫道:
“2025年,DeepSeek的成功改變了中國模型廠商們的技術策略,開源成了最優選擇,字節成了僅有的幾個依然閉源的廠商,這樣的決策在2026年將迎來“證明時刻”,字節在模型研發上的各種積累其實已經有跡可循,Seed是時候交出一份閉源答捲了。”
看起來,今天這個預言似乎正在應驗。在模型和落地上按自己的想法走出一條路,並且用一代模型直接證明了這條路的正確,字節在這個二月,算是接近它自己的Gemini 3時刻了。 (矽星人Pro)