春晚張傑《駕馭風歌》背後的馬,是Seedance 2.0做的!
昨天春晚張傑獻唱的《駕馭風歌》大家都聽了吧?氣勢是相當磅礴了。
但你知道嗎?其實這首歌的表演,背後還有一個AI彩蛋:
沒錯,就是背景影片裡那幅流動的巨型水墨畫卷中,那一群氣勢磅礴、奔騰而來的駿馬——
完全是用豆包Seedance 2.0生成的!
要知道,讓水墨風格的馬在舞台背景的畫中靈動起來,這對模型的國風美學理解和泛化能力是巨大的挑戰,很多國外模型在處理“中國水墨風”時集體翻車…
唯獨Seedance 2.0,不僅讀懂了國風,也抗住了春晚舞台超嚴格的審核考驗。
之所以如此,是因為Seedance 2.0著實是能打:
- 物理特性遵循:馬匹奔跑遵循生物力學與物理邏輯,關節運動流暢自然,兼具力量韻律與水墨神韻。
- 超強指令遵循:語意理解增強,可精準執行動作、表情、運鏡及動態副詞指令,顯著提升影片續寫的可控性。
- 多模態素材參考:支援圖、文、影片等多素材參考,融入傳統文化語料,深度理解並還原水墨藝術邏輯。
除此之外,豆包也連結了Seedream模型,先由它產生神韻十足的靜態底圖,再由Seedance 2.0讓它動起來。
但如果細細觀察各個節目,你會發現:
今年的春晚,豆包含量巨高。
Seedance 2.0不僅用在了張傑的節目
在歌舞創意秀《賀花神》中,舞台設計玩了一個大膽的創意:
特邀了來自舞蹈、戲曲、影視等不同領域的十幾位明星同台。導演組希望為每位「花神」代表的景別,訂製一人一景的中式視覺奇觀。
這就要求AI具備細節的微觀控制能力,例如植物緩慢綻放,紋理、層次、光影的細微變化,而Seedance 2.0,再次做到了。
這也再次展現了Seedance 2.0精細控制能力,能夠精準遵循指令,把控複雜的視覺變化,在高美感要求下保持一致性。
是從「能生成」到「能控制」的一次進化了。
除此之外,在王安宇、黃子弘凡、範丞丞和胡先煦表演的《快樂小馬》中,幾個卡通吉祥物小馬在台上跳著可愛的舞蹈,那動作絲滑得就像真人捕捉的一樣。
它背後用到的則是Seedance 2.0的影片動作遷移能力。
這個技巧的困難在於拓樸結構的不同,畢竟真人的身體結構和卡通小馬的結構不一,傳統的做法,是動畫師要給卡通模型綁骨骼、K幀,工作量相當的巨大。
但在Seedance 2.0加持下,實現了一鍵直出。你給它一段真人跳舞視頻,再給一張卡通小馬的圖,模型就能智能理解動作背後的運動邏輯,把它完美適配到卡通形像上。
最關鍵的是原圖保持能力,卡通小馬在劇烈跳舞時,毛髮、顏色、五官比例竟然紋絲不動,沒有出現AI影片常見的閃爍或崩壞。
不僅如此,為了滿足央視春晚8K高清、50FPS高幀的要求,豆包也搬來了火山引擎視訊雲團隊。
火山引擎拿出了一套MIPP多維度智慧畫質增強框架,上演了一場智慧精修:
- 規格上:利用超分演算法,把720P硬生生拔高到8K;利用插幀技術,把24幀補到50幀,絲滑度瞬間翻倍。
- 畫質上:利用影片理解技術,模型知道那裡是人臉、那裡是背景,針對性地進行畫質指標決策。配合去噪、銳利化等增強原子演算法,把AIGC內容常見的微小瑕疵抹平。
簡單說,大模型負責造夢,火山引擎負責把夢變成高清。
多個劉浩存,也是火山引擎做的
如果說影片生成是二維層面的魔法,那麼在創意節目《夢底》中,火山引擎帶來的則是空間維度的震撼。
在這個節目裡,劉浩存在舞台上翩翩起舞,而她的身後竟然出現了多個和她一模一樣的分身,而且每個分身都在不同的位置做著不同的舞蹈動作,構成瞭如夢似幻的群舞畫面。
注意,這可不是在大螢幕上放個錄影那麼簡單。
當現場的攝影機推拉搖移時,你會發現那似乎6個分身的透視關係是完全正確的,就像6個真人在那裡一樣。甚至當舞台的一束追光打過去,虛擬人的身上竟然有了真實的光影變化,連地上的影子都和現場燈光實時互動!
這背後是火山引擎的太空視訊技術—4D高斯潑濺(4DGS)。
首先是採集與重建。在節目籌備期,70台工業級相機陣列對著演員一頓狂拍,透過4DGS演算法,把演員重建成了4D數位資產。
這裡引入豆包大模型解決了兩個核心瓶頸:
- 渲染效能:6個高精準度數位人同台,顯示卡要爆炸怎麼辦?技術團隊利用字節Seed 3D模型預製了“影子幾何”,簡化了運算量,讓渲染效率大幅提升。
- 近景細節:為了防止近景穿幫,引入了字節Seed的DA3(Depth Anything v3)模型。這個模型能從單圖中推斷出極高精度的深度信息,為光影計算提供了完美的“法線先驗”,皮膚質感逼真得嚇人。
其次,火山引擎打通了舞檯燈光的DMX控制協定。現場燈光師推了一個推桿,真實的燈亮了,這個訊號同時也毫秒地傳給了渲染引擎,虛擬燈光也跟著亮。
所以,你在電視上看到的,是虛擬的劉浩存「活」在真實的舞台光場裡。這種虛實難辨的沉浸感,才是元宇宙該有的樣子。
春晚的機器人身上,處處是豆包
昨天春晚舞台上,宇樹機器人表演的《武BOT》也是備受關注,打起拳來虎虎生風,動作整齊劃一,甚至還能和演員進行複雜的互動。
以前的機器人表演,更多是寫好的程式控制。但今年《武BOT》裡的機器人,是真的「長腦子」了。它們能看懂舞台障礙,能聽懂人話,還能帶有感情地說話。
不僅如此,昨天春晚還有像蔡明節目用到的松延動力機器人,還包括魔法原子機器人等亮相春晚的機器人,都不同程度的用上了豆包大模型
這背後,是豆包大模型全家桶在幫機器人賦能:
- 眼(VLM):靠豆包視覺理解模型,機器人能透過攝影機即時辨識舞台環境,那裡有人、那裡有道具,避障決策那是相當絲滑。
- 腦(LLM):豆包大語言模型為機器人提供了核心的語意理解能力。它不再是執行死板的程式碼,而是理解了「請走到舞台中央」、「開始起勢」這種自然語言指令。
- 嘴(TTS 2.0):這是最絕的。豆包語音合成模型2.0,徹底告別了「AI棒讀」。
這個TTS 2.0具備深度語意理解和上下文理解能力。也就是說,它知道這句話是在春晚上說的,要喜慶、要激動。它能根據多輪對話的脈絡,精準控制語速、停頓和情感。
春晚首次實現AI互動
說完台上,再看台下。
今年春晚,大家拿起手機打開豆包APP,生成的那些新春頭像、客製化祝福語,其實是春晚史上首次由大模型驅動的AI互動。
這和以前的「搖一搖」搶紅包有本質區別。
以前的互動,是事務型(I/O密集型),就像自動販賣機,你點一下,系統給你發個紅包,邏輯是預設好的。
現在的互動,是計算密集型,是一個「感知-規劃-行動」的Agent過程。你發一張照片,豆包要理解意圖、規劃畫圖路徑、呼叫生成模型、進行安全審核…
算力消耗的差距,也是巨大的。
對於單一請求來說,產生一張圖的算力消耗(Tops)是發一個紅包的無數倍。當春晚口播響起,億萬流量瞬間湧入,這對後台的挑戰簡直是毀滅級的。
火山引擎方舟平台在這裡立了大功。
為了頂住這波洪峰,方舟平台拿出了一套教科書級的解答:
- 調度層:把機房連成「聯邦」。透過跨機房、跨區域的彈性伸縮,方舟把物理隔離的數十個機房組成集群聯邦。那裡有空閒算力,流量就往那裡去。
- 推理層:壓榨硬體極限。從算子層面的手寫優化(Attention、GEMM等),到系統層面的Prefill/Decode分離,方舟把每一張顯示卡的表現都榨乾了。
- 秒級響應:配合自研的HPA(自動擴縮容)系統和分散式緩存,超大模型的權重載入時間從分鐘級被壓縮到了秒級。
可以說,你生成的每一張龍年頭像背後,都是一次高效的算力調度。
還有抖音直播春晚的AI無障礙字幕
在抖音的春晚直播間,還有一個容易被忽略、但極具溫度的技術落地——AI無障礙直播字幕。
這事兒其實還蠻難的。
春晚是全語言類節目,有相聲、有小品,語速快、梗多,而且還有方言,再加上現場觀眾的掌聲、歡呼聲、背景音樂,噪音環境極為複雜。
豆包·語音辨識模型在這裡秀了一把肌肉:
- 多方言穩健性:不管是粵語還是陝北話,通通拿捏。
- 上下文感知:它能結合歷史對話推理。例如說了上句“包餃子”,下句識別時就會傾向於與春節相關的詞彙,而不是風馬牛不相及的詞,召回率提升了15%以上。
- 低時延串流辨識:真正做到了「話音剛落,字已上畫面」。
科技的溫度,往往就藏在這些細節裡。
豆包的朋友圈,有夠廣的
看完了這些,我們不得不感嘆:今年的春晚,豆包真的是無所不在。
而在互動環節中,豆包提供的那些科技大禮包,更是暴露了它龐大到驚人的朋友圈。你抽到的獎品,基本上都來自使用了豆包大模型的火山引擎客戶。
隨便列幾個名字,都是業界巨頭:
- 車圈:賓士、特斯拉、比亞迪、蔚小理……2025年新車的大模型搭載量,豆包是第一名。服務了超9成的主流車企。
- 手機/PC圈:小米、OPPO、vivo、榮耀、三星、聯想…全球Top10手機廠商裡有9家在跟火山引擎合作。
- 具身智慧圈:宇樹、銀河通用、智元機器人……40多家公司都在使用。
為什麼大家都選豆包?
這次春晚其實就是最好的買家秀。
從春晚前就爆紅全球的Seedance 2.0,到那個能抗住春晚直播壓力的方舟平台,再到對中國文化理解深刻的圖像與視頻生成能力。
字節跳動用一場春晚證明了:大模型不是只能活在Demo裡,它是真的能扛事兒,真的能落地,真的能創造價值。
從張傑身後的那一匹馬,到億萬用戶手中的那個豆包。
好用,才是AI的硬道理。 (量子位元)