AI模型的「最牛甲方」教會了我們什麼?
如果還有“春晚最愛的節目評選”,2026年春晚你投那一個?
“春晚最夯”
“MVP”
“每一幀都是絕美”
這是2026春晚《賀花神》節目的網友評論。
當白居易舟行水上,吟出「猶在水中央」;
當繪畫大家徐渭潑墨成花;
當王昭君凝眉轉身回望中原,一撥琵琶;
我的中國文化DNA動了。
直到節目結束,主持人念出“火山引擎用豆包大模型圖像和視頻生成能力打造十二花神視效”,很多觀眾才意識到,AI的能力已經走到了這一步。
這也是有史以來AI含量和科技含量最大的一屆央視春晚。
這首先是一場給十數億人的AI視覺奇觀。
不只美輪美奐《賀花神》,在歌舞節目《夢底》中,當演員劉浩存在舞台上伸展舞姿,五個逼真的數字分身,也在舞台背景上演繹著一番悲歡離合。當鏡頭移動、現場燈光變化時,分身的視角和光影也會即時同步。
吸引了許多人目光的,還有蔡明的機器人小品:機器人能在後空翻之餘,還能懟人逗悶子——「如果真孫子和機器人孫子掉河裡,奶奶先救誰?」「機器人:我倆一起掉河裡,你就被電死了。」——在豆包剛在「科技晚露」懟過過河裡永人之後的小手。
當主持人數次拿起手機,對螢幕前的觀眾喊話:讓大家打開豆包App,生成一句馬年的祝福、讓豆包根據自己的形像生成拜年頭像…
這些時刻都頗具意味。
站在2026年的起點,談論AGI的終極想像已經陷入流俗──大部分的人類想像,都沒有超越《Her》或《鋼鐵人》裡全知全能的AI助手。
相較之下,距離我們更近的現實,正在劇烈地改變。
在除夕當天,豆包AI互動總數達19億,「豆包過年」活動,就已經幫助用戶產生超過5000萬張新春主題頭像、生成超過1億條新春祝福。除夕當天,火山引擎豆包大模型的峰值TPM(每分鐘token數)正是在春晚主持人宣布用豆包進行第二輪互動之的這一分鐘內,豆包大模型推理吞吐量達到633億tokens。
AI界的「技術奇觀」仍在繼續。從去年的Google的Nano Banana,到近期的「小龍蝦」Clawdbot、字節視訊生成模型Seedance 2.0,都在共同趨向一條主線:每一次技術爆發後,傳遞到C端用戶中的速度在迅速加快。
擁有資金實力的大廠們用紅包、春晚、AI點奶茶等大戰,加速了這些「奇觀」的爆發。這讓2026年的春節大戰,足以被記錄為歷史性時刻。
這個時刻有兩個維度:一個是技術邊界的突破——AI第一次在國民舞台上,完成了此前不可能的創作;另一個時刻在於使用門檻的迅速降低——觀眾們第一次發現,AI不再是遙遠的技術競賽,而是在自己身邊,能「幫得上忙」的助手。
這個「幫得上忙」的時刻,先發生在了春晚導演組的準備過程中。
2026年春晚前夕,看到水墨奔馬從靜態畫卷中躍然而出,從頭到尾保持一致,依然威風凜凜時,火山引擎工程師小林終於放下心來。
在導演組確認效果達標前,沒有人能預料到效果如此好——包括春晚導演組和火山引擎自己。
一個多月前,春晚導演組把一份節目需求遞給了火山引擎團隊,要求看似簡單:一張徐悲鴻風格的水墨畫,畫上幾匹風格各異的馬,能讓馬跑起來就行,那怕原地踏步也可以。
大模型的邊界在那裡,能不能實現?至少,在接到春晚導演組的節目要求時,火山引擎工程師小林並沒有答案。 「非常忐忑。」他對36氪回憶道。
當時,字節正忙於訓練新一代的旗艦生成模型Seedance 2.0,進度只有約30%左右。
AI影片生成模型特別適合春晚這種節奏快、變化多、不斷需要迭代的專案。在火山引擎團隊接手之前,春晚導演組已經嘗試了市面上幾乎所有主流的影片生成模型,但最後發現,在水墨畫這個場景上,都不如人意。
水墨風格的影像語料本來就極度稀缺,大多數國外模型根本不懂什麼是水墨畫,又因為水墨畫以寫意為主,而非寫實。在沒有分鏡腳本、動態參考時,很難有人說清「水墨畫動起來應該是什麼樣子」。
但嘗試之後,團隊發現,導演組想要實現的效果——風格遷移、參考生成、細粒度動態控制——恰好與他們正在訓練的Seedance 2.0的技術方向非常契合。
春晚導演組就這樣成了Seedance 2.0的全球第一位頂級用戶。
頂級甲方的好處在於,甲方們的藝術素養是一流的。
一開始,駿馬身上用寫意手法畫的紋路和毛髮,奔跑時身上的紋路該怎麼動?火山引擎的理科生團隊想像不出來,只能請導演組的老師手繪出腦海中下一幀的版本,再反復用AI跑視頻,去逼近那個“對”的感覺。
即便模型能生成馬的動態視頻,又會遇到更棘手的一致性問題:畫上有六匹馬,每匹顏色、長相、氣質都不同。就算能夠生成馬奔跑起來的影片。同時,六匹馬的樣子很難保持平衡,甚至數量也會在下一個畫面中改變。
在這些基礎上,也要確保畫面也夠精緻逼真。否則,在春晚舞台背後的真HDR和8k超高清螢幕上,面對著十數億觀眾,最細小的瑕疵和失誤都難以被容忍。
火山引擎的解決辦法是:遵循“先可用後滿意”的迭代邏輯,先生成關鍵幀,再基於關鍵幀生成動態視頻,而非直接用文字描述生成。
「我們沒有為春晚單獨微調模型,」字節相關團隊表示。團隊對模型在每個訓練階段的能力邊界有著清晰認知-知道它能做什麼、不能做什麼。隨著訓練進度推進,他們不斷在能力邊界內,把模型能力用到極限。
在春晚計畫的推進過程中,來自導演組的回饋也反哺了模型訓練環節。 「最高峰的時候,我們每周可以迭代數十到超過一百個視訊版本,這是傳統影視團隊不可能達到的頻率。」他說。
但僅僅過了一個月,火山引擎團隊就拿出了驚人的結果:將一張靜態水墨畫,變成了一段分鐘級、包含分散、聚合、特寫、交互等複雜分鏡的動態影像。每一匹馬不僅跑了起來,都保持著自己的性格和特質,六匹馬會在畫面中分散、聚合、互動,最後回到一張完整的畫面。
如今的Seedance 2.0模型最高僅能支援到720P 24 FPS的直出內容,與春晚的畫質要求有差距。為此,火山引擎團隊甚至建立了一套畫質精修體系──這套體系會先分析畫面裡的人、運動、細節紋理等等要素,用多種演算法組合,把畫質規格提升到春晚可播出的標準。
另一個有趣的現像是,一開始,當導演組還不清楚模型能力時,需要模型團隊不斷先提出方案,推到創作者面前。
但當模型可用性提升到80%-90%以上,創作主導權發生了逆轉——導演組開始隨心所欲地提出創意要求,模型能夠穩定響應各種精細化的藝術控制指令,分鏡的設計權又回到了導演手中。
不論是在《賀花神》中起舞、吟詩的十二個花神、《駕馭風歌》節目裡奔騰的駿馬,還是豆包App的春節AI互動,都離不開一個關鍵字:字節影片生成模型Seedance 2.0。
Seedance 2.0在臨近春節前上線,引起的全球轟動仍在持續,甚至被遊戲科學創始人馮驥稱為「中國AI圈的黑神話時刻」。
為什麼它能夠有這麼大的影響力?
這是因為,影片生成模型第一次完成了從生成一段畫面,到完成一個完整作品的跨越。
以往的影片生成模型,更多是產生大量零碎畫面的工具。創作者本質上是在「抽卡」-先畫好分鏡表,依照每個分鏡的要求(近景、中景、遠景,畫面內容等)。生成的10個影片中,可能只有1-2個能用,大量的時間還要耗費後製上,例如讓生成的影片裡人物、背景保持一致。
在不少用例中,我們都能夠看到,僅是簡單的一段話,描寫出故事情節、畫面風格,Seedance 2.0就直接能夠生成一段15-30秒、帶鏡頭調度、保持角色一致、音畫同步的視頻,可用率高達八成以上。
重點在於,Seedance生成的視頻,鏡頭間的切換是帶有“導演思想”的,這根本性地改變了創作體驗,真正做到了讓創作者指揮AI拍電影,模型完成相當大部分的“思考”工作。
要讓模型懂得真正理解世界,這需要模型全方位的能力都達到基準線。
字節相關團隊用了一個比喻:基礎大模型的訓練,木桶效應非常顯著——就像是,面對一個60分的考生,很難挖掘亮點;但當考生到了90分,所有閃光點才會被看見。 Seedance 2.0 的突破,不是某個單一能力的躍升,而是過去影響可用性的短板被系統性地解決後,使用者體驗發生了質變。
相較於上一代模型,Seedance2.0進步的一個重要原因是訓練標準。在2.0的訓練過程中,Seedance團隊建立了一套新的Benchmark(評測系統):第一層保證畫面中的實體正確、運動不崩壞;第二層才追求更高的視覺表現力和遵循能力。
換句話說,在模型的能力演進曲線完全沒有收斂時,多模態模型的進步,很大程度上還需要依賴基礎模型能力的提升。
在明白這個道理前,字節也交過一些學費。
36氪了解到,從2023年開始做AI時,字節並沒有更多追求在更大的參數上訓練模型,而是先訓練一個參數較小的基礎模型,推出C端應用,根據用戶反饋來快速迭代產品,當時,基礎模型的規模更多是「夠用就好」。
所以,儘管豆包依靠字節的抖音,語音、圖像等多模態功能做得非常好,但一開始總被用戶嫌棄“有點傻”,限制了豆包的能力泛化到更多專業場景。
2025年的DeepSeek時刻之後,國內大廠都結實實在RL(強化學習)上捲了一整年。字節不僅增加了基礎模型的投入,並且讓模型團隊和AI應用一定程度解耦——模型團隊追求模型的智能上限,產品團隊則繼續圍繞豆包App為主的產品進行高速迭代,從用戶的使用場景中提取需求,反哺給模型團隊。
Seedance 2.0的上一個版本1.5 pro,就驗證了這種路線的可行性。當時,模型其實已經可以做到聲畫同步,例如生成一個室內的畫面,聲音會對應地變得更集中;戶外的畫面則匹配一個更悠遠、空曠的聲音。
所以,當基礎模型Seed 2.0的能力大幅提升-Seedance 2.0也變得更聰明了。相較前代版本,2.0擁有了自己的“導演意圖”,生成的視訊分鏡是符合故事敘述邏輯的,這滿足了更多專業創作者的需求。
更大規模的爆發來自工程上的降本。保持角色一致、到達更高可用度,讓Seedance 2.0在應用側邁了一大步,如果抽卡頻率能降至25%(即2次),成本可降至1.4元/秒,降幅高達68%。
這讓大眾用戶更容易創作出有品味的AI影片。於是,抖音、B站、小紅書等平台迅速出現了大量地整活類二創,進一步促進了全球的破圈。
2015年的春晚,當央視春晚主持人說出「拿起手機搖一搖」時,中國的行動網路歷史被改寫了。那一夜,微信用戶搖了110億次手機,2億人搶紅包的過程中綁定了銀行卡。
馬雲後來把這次突襲稱為「珍珠港事件」——他用了8年時間累積的支付寶用戶,被微信用一個晚上追平了。
不過,微信紅包的成功有一個前提:行動支付技術在2015年時已經成熟,用戶需要的只是一個「為什麼要用」的理由。
但現今的AI,可能比大家想像的階段還要更早。
除夕夜,十幾億人同時用AI生成紅包封面和祝福語時,看似簡單的操作背後,就是一場艱鉅的基礎建設保障戰爭。
AI的基礎建設還遠遠未到成熟之時。一位火山引擎人士對36氪算了一筆帳:傳統的搶紅包基本上只用CPU算力,一次請求的算力消耗在十萬分之一Tops以內。透過大模型產生祝福語和祝福圖片,單次請求需要累積消耗約10 Tops算力——對於單一請求而言,算力消耗差有百萬倍之多。
那麼,為什麼字節要在春晚場景中,用百萬倍的算力猛推多模態紅包、祝福語;阿里千問為什麼要狂撒補貼,讓AI幫人類點奶茶?
在1998年的《商業周刊》採訪中,蘋果創始人喬布斯曾說:“人們不知道他們想要什麼,直到你把它擺在他們面前。”
在ChatGPT橫空出世之後的頭三年,無數AI應用創業家都在做類似的事情:去猜測用戶的需求,造了錘子找釘子。
但誰真正找到了答案?在Agent時代來臨後,Anthropic憑藉著押注Coding路線,用Claude Code一舉反攻企業側市場,幾乎有反超OpenAI的勢頭;DeepSeek則極致的工程降本和展示思考鏈的產品設計,向全球展示了「AI會思考」的神奇時刻,給中國的大廠打了個樣。
不同在於,美國會花更大力氣,專注在大模型本身,例如繼續堆巨量算力以迭代模型;但在中國,絕大多數網路巨頭都是憑藉消費者應用崛起,競爭更為激烈。
在國內,技術突破搶佔C端場景的使用者心智,只能是雙線並行。
除了技術處於發展早期之外,技術的迭代速度,也比當年的支付大戰時更快——大廠們現在面對的問題可以說更加艱鉅,無論是市場教育成本還是基建。
但好處在於,如果C端應用保持快速成長的態勢,和底層的基礎設施會一起成長。
例如,高速快速成長的火山引擎已經成為字節的AI能力底座和出口,正在變得越來也健壯。截至2025年12月,豆包大模型日均token使用量突破50兆,較去年同期成長超過10倍,火山2025年的營收也已快速成長,突破200億元。
C端應用場景和B端服務互補式地成長,已經成為一種常態。例如,在市場心智還沒還固定前,不少人也會因為字節在豆包App、即夢和其他AI應用的良好體驗,選擇採購火山的AI雲服務;相應地,火山也被倒逼著,在一種極限狀態下快速迭代基礎設施。
無論是豆包讓十億人第一次體驗多模態能力,還是阿里千問AI請奶茶,本質上理念相同:在自家模型擁有SOTA能力時,迅速讓更多的C端用戶,在合適的時機,用上AI能力。
這是一場資金、技術、應用場景缺一不可的綜合戰役。
換言之,模型領先只是這場戰役的前提。未來,決定一家企業成敗的關鍵,是技術範式發生改變之時,誰能將斷代領先的模型能力,迅速轉化為用戶可以感知到的產品功能——讓不用AI的人第一次體驗多模態、辦事能力,這已經決定下一個時代生態位、建立護城河的關鍵問題。 (36氪)