AI上春晚：一場十四億人的驗收

2026/02/18

•

AI模型的「最牛甲方」教會了我們什麼？

如果還有“春晚最愛的節目評選”，2026年春晚你投那一個？

“春晚最夯”

“MVP”

“每一幀都是絕美”

這是2026春晚《賀花神》節目的網友評論。

當白居易舟行水上，吟出「猶在水中央」；

當繪畫大家徐渭潑墨成花；

當王昭君凝眉轉身回望中原，一撥琵琶；

我的中國文化DNA動了。

直到節目結束，主持人念出“火山引擎用豆包大模型圖像和視頻生成能力打造十二花神視效”，很多觀眾才意識到，AI的能力已經走到了這一步。

這也是有史以來AI含量和科技含量最大的一屆央視春晚。

這首先是一場給十數億人的AI視覺奇觀。

不只美輪美奐《賀花神》，在歌舞節目《夢底》中，當演員劉浩存在舞台上伸展舞姿，五個逼真的數字分身，也在舞台背景上演繹著一番悲歡離合。當鏡頭移動、現場燈光變化時，分身的視角和光影也會即時同步。

吸引了許多人目光的，還有蔡明的機器人小品：機器人能在後空翻之餘，還能懟人逗悶子——「如果真孫子和機器人孫子掉河裡，奶奶先救誰？」「機器人：我倆一起掉河裡，你就被電死了。」——在豆包剛在「科技晚露」懟過過河裡永人之後的小手。

當主持人數次拿起手機，對螢幕前的觀眾喊話：讓大家打開豆包App，生成一句馬年的祝福、讓豆包根據自己的形像生成拜年頭像…

這些時刻都頗具意味。

站在2026年的起點，談論AGI的終極想像已經陷入流俗──大部分的人類想像，都沒有超越《Her》或《鋼鐵人》裡全知全能的AI助手。

相較之下，距離我們更近的現實，正在劇烈地改變。

在除夕當天，豆包AI互動總數達19億，「豆包過年」活動，就已經幫助用戶產生超過5000萬張新春主題頭像、生成超過1億條新春祝福。除夕當天，火山引擎豆包大模型的峰值TPM（每分鐘token數）正是在春晚主持人宣布用豆包進行第二輪互動之的這一分鐘內，豆包大模型推理吞吐量達到633億tokens。

AI界的「技術奇觀」仍在繼續。從去年的Google的Nano Banana，到近期的「小龍蝦」Clawdbot、字節視訊生成模型Seedance 2.0，都在共同趨向一條主線：每一次技術爆發後，傳遞到C端用戶中的速度在迅速加快。

擁有資金實力的大廠們用紅包、春晚、AI點奶茶等大戰，加速了這些「奇觀」的爆發。這讓2026年的春節大戰，足以被記錄為歷史性時刻。

這個時刻有兩個維度：一個是技術邊界的突破——AI第一次在國民舞台上，完成了此前不可能的創作；另一個時刻在於使用門檻的迅速降低——觀眾們第一次發現，AI不再是遙遠的技術競賽，而是在自己身邊，能「幫得上忙」的助手。

這個「幫得上忙」的時刻，先發生在了春晚導演組的準備過程中。

2026年春晚前夕，看到水墨奔馬從靜態畫卷中躍然而出，從頭到尾保持一致，依然威風凜凜時，火山引擎工程師小林終於放下心來。

在導演組確認效果達標前，沒有人能預料到效果如此好——包括春晚導演組和火山引擎自己。

一個多月前，春晚導演組把一份節目需求遞給了火山引擎團隊，要求看似簡單：一張徐悲鴻風格的水墨畫，畫上幾匹風格各異的馬，能讓馬跑起來就行，那怕原地踏步也可以。

大模型的邊界在那裡，能不能實現？至少，在接到春晚導演組的節目要求時，火山引擎工程師小林並沒有答案。「非常忐忑。」他對36氪回憶道。

當時，字節正忙於訓練新一代的旗艦生成模型Seedance 2.0，進度只有約30%左右。

AI影片生成模型特別適合春晚這種節奏快、變化多、不斷需要迭代的專案。在火山引擎團隊接手之前，春晚導演組已經嘗試了市面上幾乎所有主流的影片生成模型，但最後發現，在水墨畫這個場景上，都不如人意。

水墨風格的影像語料本來就極度稀缺，大多數國外模型根本不懂什麼是水墨畫，又因為水墨畫以寫意為主，而非寫實。在沒有分鏡腳本、動態參考時，很難有人說清「水墨畫動起來應該是什麼樣子」。

但嘗試之後，團隊發現，導演組想要實現的效果——風格遷移、參考生成、細粒度動態控制——恰好與他們正在訓練的Seedance 2.0的技術方向非常契合。

春晚導演組就這樣成了Seedance 2.0的全球第一位頂級用戶。

頂級甲方的好處在於，甲方們的藝術素養是一流的。

一開始，駿馬身上用寫意手法畫的紋路和毛髮，奔跑時身上的紋路該怎麼動？火山引擎的理科生團隊想像不出來，只能請導演組的老師手繪出腦海中下一幀的版本，再反復用AI跑視頻，去逼近那個“對”的感覺。

即便模型能生成馬的動態視頻，又會遇到更棘手的一致性問題：畫上有六匹馬，每匹顏色、長相、氣質都不同。就算能夠生成馬奔跑起來的影片。同時，六匹馬的樣子很難保持平衡，甚至數量也會在下一個畫面中改變。

在這些基礎上，也要確保畫面也夠精緻逼真。否則，在春晚舞台背後的真HDR和8k超高清螢幕上，面對著十數億觀眾，最細小的瑕疵和失誤都難以被容忍。

火山引擎的解決辦法是：遵循“先可用後滿意”的迭代邏輯，先生成關鍵幀，再基於關鍵幀生成動態視頻，而非直接用文字描述生成。

「我們沒有為春晚單獨微調模型，」字節相關團隊表示。團隊對模型在每個訓練階段的能力邊界有著清晰認知－知道它能做什麼、不能做什麼。隨著訓練進度推進，他們不斷在能力邊界內，把模型能力用到極限。

在春晚計畫的推進過程中，來自導演組的回饋也反哺了模型訓練環節。「最高峰的時候，我們每周可以迭代數十到超過一百個視訊版本，這是傳統影視團隊不可能達到的頻率。」他說。

但僅僅過了一個月，火山引擎團隊就拿出了驚人的結果：將一張靜態水墨畫，變成了一段分鐘級、包含分散、聚合、特寫、交互等複雜分鏡的動態影像。每一匹馬不僅跑了起來，都保持著自己的性格和特質，六匹馬會在畫面中分散、聚合、互動，最後回到一張完整的畫面。

如今的Seedance 2.0模型最高僅能支援到720P 24 FPS的直出內容，與春晚的畫質要求有差距。為此，火山引擎團隊甚至建立了一套畫質精修體系──這套體系會先分析畫面裡的人、運動、細節紋理等等要素，用多種演算法組合，把畫質規格提升到春晚可播出的標準。

另一個有趣的現像是，一開始，當導演組還不清楚模型能力時，需要模型團隊不斷先提出方案，推到創作者面前。

但當模型可用性提升到80%-90%以上，創作主導權發生了逆轉——導演組開始隨心所欲地提出創意要求，模型能夠穩定響應各種精細化的藝術控制指令，分鏡的設計權又回到了導演手中。

不論是在《賀花神》中起舞、吟詩的十二個花神、《駕馭風歌》節目裡奔騰的駿馬，還是豆包App的春節AI互動，都離不開一個關鍵字：字節影片生成模型Seedance 2.0。

Seedance 2.0在臨近春節前上線，引起的全球轟動仍在持續，甚至被遊戲科學創始人馮驥稱為「中國AI圈的黑神話時刻」。

為什麼它能夠有這麼大的影響力？

這是因為，影片生成模型第一次完成了從生成一段畫面，到完成一個完整作品的跨越。

以往的影片生成模型，更多是產生大量零碎畫面的工具。創作者本質上是在「抽卡」－先畫好分鏡表，依照每個分鏡的要求（近景、中景、遠景，畫面內容等）。生成的10個影片中，可能只有1-2個能用，大量的時間還要耗費後製上，例如讓生成的影片裡人物、背景保持一致。

在不少用例中，我們都能夠看到，僅是簡單的一段話，描寫出故事情節、畫面風格，Seedance 2.0就直接能夠生成一段15-30秒、帶鏡頭調度、保持角色一致、音畫同步的視頻，可用率高達八成以上。

重點在於，Seedance生成的視頻，鏡頭間的切換是帶有“導演思想”的，這根本性地改變了創作體驗，真正做到了讓創作者指揮AI拍電影，模型完成相當大部分的“思考”工作。

要讓模型懂得真正理解世界，這需要模型全方位的能力都達到基準線。

字節相關團隊用了一個比喻：基礎大模型的訓練，木桶效應非常顯著——就像是，面對一個60分的考生，很難挖掘亮點；但當考生到了90分，所有閃光點才會被看見。 Seedance 2.0 的突破，不是某個單一能力的躍升，而是過去影響可用性的短板被系統性地解決後，使用者體驗發生了質變。

相較於上一代模型，Seedance2.0進步的一個重要原因是訓練標準。在2.0的訓練過程中，Seedance團隊建立了一套新的Benchmark（評測系統）：第一層保證畫面中的實體正確、運動不崩壞；第二層才追求更高的視覺表現力和遵循能力。

換句話說，在模型的能力演進曲線完全沒有收斂時，多模態模型的進步，很大程度上還需要依賴基礎模型能力的提升。

在明白這個道理前，字節也交過一些學費。

36氪了解到，從2023年開始做AI時，字節並沒有更多追求在更大的參數上訓練模型，而是先訓練一個參數較小的基礎模型，推出C端應用，根據用戶反饋來快速迭代產品，當時，基礎模型的規模更多是「夠用就好」。

所以，儘管豆包依靠字節的抖音，語音、圖像等多模態功能做得非常好，但一開始總被用戶嫌棄“有點傻”，限制了豆包的能力泛化到更多專業場景。

2025年的DeepSeek時刻之後，國內大廠都結實實在RL（強化學習）上捲了一整年。字節不僅增加了基礎模型的投入，並且讓模型團隊和AI應用一定程度解耦——模型團隊追求模型的智能上限，產品團隊則繼續圍繞豆包App為主的產品進行高速迭代，從用戶的使用場景中提取需求，反哺給模型團隊。

Seedance 2.0的上一個版本1.5 pro，就驗證了這種路線的可行性。當時，模型其實已經可以做到聲畫同步，例如生成一個室內的畫面，聲音會對應地變得更集中；戶外的畫面則匹配一個更悠遠、空曠的聲音。

所以，當基礎模型Seed 2.0的能力大幅提升－Seedance 2.0也變得更聰明了。相較前代版本，2.0擁有了自己的“導演意圖”，生成的視訊分鏡是符合故事敘述邏輯的，這滿足了更多專業創作者的需求。

更大規模的爆發來自工程上的降本。保持角色一致、到達更高可用度，讓Seedance 2.0在應用側邁了一大步，如果抽卡頻率能降至25%（即2次），成本可降至1.4元/秒，降幅高達68%。

這讓大眾用戶更容易創作出有品味的AI影片。於是，抖音、B站、小紅書等平台迅速出現了大量地整活類二創，進一步促進了全球的破圈。

2015年的春晚，當央視春晚主持人說出「拿起手機搖一搖」時，中國的行動網路歷史被改寫了。那一夜，微信用戶搖了110億次手機，2億人搶紅包的過程中綁定了銀行卡。

馬雲後來把這次突襲稱為「珍珠港事件」——他用了8年時間累積的支付寶用戶，被微信用一個晚上追平了。

不過，微信紅包的成功有一個前提：行動支付技術在2015年時已經成熟，用戶需要的只是一個「為什麼要用」的理由。

但現今的AI，可能比大家想像的階段還要更早。

除夕夜，十幾億人同時用AI生成紅包封面和祝福語時，看似簡單的操作背後，就是一場艱鉅的基礎建設保障戰爭。

AI的基礎建設還遠遠未到成熟之時。一位火山引擎人士對36氪算了一筆帳：傳統的搶紅包基本上只用CPU算力，一次請求的算力消耗在十萬分之一Tops以內。透過大模型產生祝福語和祝福圖片，單次請求需要累積消耗約10 Tops算力——對於單一請求而言，算力消耗差有百萬倍之多。

那麼，為什麼字節要在春晚場景中，用百萬倍的算力猛推多模態紅包、祝福語；阿里千問為什麼要狂撒補貼，讓AI幫人類點奶茶？

在1998年的《商業周刊》採訪中，蘋果創始人喬布斯曾說：“人們不知道他們想要什麼，直到你把它擺在他們面前。”

在ChatGPT橫空出世之後的頭三年，無數AI應用創業家都在做類似的事情：去猜測用戶的需求，造了錘子找釘子。

但誰真正找到了答案？在Agent時代來臨後，Anthropic憑藉著押注Coding路線，用Claude Code一舉反攻企業側市場，幾乎有反超OpenAI的勢頭；DeepSeek則極致的工程降本和展示思考鏈的產品設計，向全球展示了「AI會思考」的神奇時刻，給中國的大廠打了個樣。

不同在於，美國會花更大力氣，專注在大模型本身，例如繼續堆巨量算力以迭代模型；但在中國，絕大多數網路巨頭都是憑藉消費者應用崛起，競爭更為激烈。

在國內，技術突破搶佔C端場景的使用者心智，只能是雙線並行。

除了技術處於發展早期之外，技術的迭代速度，也比當年的支付大戰時更快——大廠們現在面對的問題可以說更加艱鉅，無論是市場教育成本還是基建。

但好處在於，如果C端應用保持快速成長的態勢，和底層的基礎設施會一起成長。

例如，高速快速成長的火山引擎已經成為字節的AI能力底座和出口，正在變得越來也健壯。截至2025年12月，豆包大模型日均token使用量突破50兆，較去年同期成長超過10倍，火山2025年的營收也已快速成長，突破200億元。

C端應用場景和B端服務互補式地成長，已經成為一種常態。例如，在市場心智還沒還固定前，不少人也會因為字節在豆包App、即夢和其他AI應用的良好體驗，選擇採購火山的AI雲服務；相應地，火山也被倒逼著，在一種極限狀態下快速迭代基礎設施。

無論是豆包讓十億人第一次體驗多模態能力，還是阿里千問AI請奶茶，本質上理念相同：在自家模型擁有SOTA能力時，迅速讓更多的C端用戶，在合適的時機，用上AI能力。

這是一場資金、技術、應用場景缺一不可的綜合戰役。

換言之，模型領先只是這場戰役的前提。未來，決定一家企業成敗的關鍵，是技術範式發生改變之時，誰能將斷代領先的模型能力，迅速轉化為用戶可以感知到的產品功能——讓不用AI的人第一次體驗多模態、辦事能力，這已經決定下一個時代生態位、建立護城河的關鍵問題。 (36氪)