你有沒有在 Seedance 2.0 里輸過「一個女孩在街上走」,然後生成了一段毫無運鏡、像素級 PPT 的東西?
問題不在工具,在提示詞。精準說,在兩件事上:結構和運鏡。
結構決定視訊「能不能看」,運鏡決定視訊「好不好看」。大多數人兩樣都缺。這篇把兩個問題一次解決。
大多數人用 AI 視訊工具的方式是:腦子裡有個模糊畫面 → 用自然語言描述 → 祈禱 AI 理解你。
結果通常是:畫面靜止、角色僵硬、鏡頭不動、轉場生硬。不是 Seedance 2.0 不行,是你的提示詞裡缺了太多東西——運鏡類型、鏡頭切換邏輯、光線氛圍、特效節奏。這些術語你可能聽都沒聽過,更別說精準使用。
@yanhua1010 說得很直接:AI 視訊的質量,70% 取決於運鏡描述,而不是場景描述。你寫「A girl walking in the forest」,出來的是監控錄影;你寫「A girl walking in the forest, Smooth Dolly Follow, golden hour lighting」,出來的才叫視訊。
場景是骨架,運鏡才是靈魂。
@leslieyu0 公開了一個提示詞範本,結構大致是這樣的:
**(多鏡頭,快速呈現人物/高光動作,分鏡銜接流暢)**
【@素材1】作為首幀參考,【角色名】為主角。
鏡頭1(【鏡頭類型】):角色出現在【場景】中,做出【核心動作】,搭配【局部特效】;
鏡頭2(【鏡頭類型】):鏡頭切換方式銜接,特寫面部表情,強化情緒;
鏡頭3(可選):快速帶過輔助元素,呼應核心動作;
整體【畫風】,色彩【光線】,自帶【音效/配樂】,時長5s。看起來像一份分鏡指令碼的骨架。它把一個視訊該有的要素全鎖定了:多鏡頭結構、運鏡變化、情緒節奏、風格統一。
你不需要懂這些術語。把範本丟給 ChatGPT、Gemini 或 Kimi,告訴它你想要什麼風格、什麼主角、什麼氛圍,AI 會幫你把每個槽位填滿專業詞彙。比如你說「賽博朋克風格,銀髮機械姬,5秒,視覺炸裂」,AI 會自動補上「極速推拉」「光子粒子流」「故障轉場」這些你手寫想不到的東西。
這套範本解決了「從 0 到能用」的問題。但範本裡有個關鍵槽位——【鏡頭類型】——大多數人填不好,因為根本不知道有那些選項。
這就需要第二層。
@yanhua1010 結合 @yyyole 的運鏡術語體系和 @YZCStella 的實戰範本庫,整理了一套三級進階體系。我把它壓縮成最實用的部分。
所有運鏡都建立在這三個詞上:
Pan 和 Dolly 最容易搞混。Pan 是「頭轉了,人沒動」,Dolly 是「整個人跟著走了」。我一開始就搞反了,生成出來的畫面總覺得那裡不對,後來才意識到是運鏡指令給錯了。
光寫 Pan、Zoom、Dolly 太生硬,就像跟攝影師說「你動一下」。加一個修飾詞,告訴 AI 這個鏡頭的「情緒」,效果天差地別。
速度:Smooth(流暢)、Slow(緩慢)、Fast(快速)、Subtle(微妙,極細微的移動,高級感全靠它)。
情緒:Cinematic(電影感,萬能詞,不知道加什麼就加這個)、Dreamy(夢幻)、Aggressive(侵略性,恐怖片動作片用)、Intimate(親密,人物特寫用)。
風格:Handheld(手持,紀實感)、Aerial(航拍,史詩感)、Dutch Angle(荷蘭角,畫面傾斜,製造不安)。
組合起來就是:Smooth Dolly Forward、Slow Aerial Pan、Cinematic Handheld Tracking。
試過一次你就知道區別有多大。同樣一個森林場景,「Dolly Forward」出來的是平淡的前進鏡頭,「Slow Cinematic Dolly Forward」出來的有呼吸感,光影在樹葉間流動,完全不是一回事。
單一運鏡夠用了,但 Seedance 2.0 對組合運鏡的理解特別好,不用白不用。幾個經典組合:
一條視訊不要超過 2 個組合。「快速推進 + 環繞 + 升降 + 變焦」四合一,AI 會精神分裂,出來的畫面你自己都不知道它在幹嘛。
英文術語是底層邏輯,但 Seedance 2.0 對中文理解同樣強。@YZCStella 總結了一套中文萬能公式:
主體 + 動作 + 場景 + 光影 + 鏡頭語言 + 風格 + 畫質 + 約束
幾個可以直接複製的範本:
唯美人像:
一位年輕女生在林間緩慢行走,微風輕拂頭髮,自然微笑,暖光光影,中景,緩慢推鏡,畫面流暢穩定,4K高畫質,電影感,面部清晰不變形,人體結構正常,細節豐富。
氛圍風景:
海邊日落,海浪輕拍沙灘,鏡頭緩慢橫移,暖橙色調,治癒清新,畫面絲滑,4K超高畫質,無閃爍無重影。
圖生視訊(首幀固定):
基於參考圖保持人物樣貌與服裝一致,動作緩慢抬手轉身,自然流暢,不僵硬不變形,穩定運鏡,高畫質細節,電影質感。
如果想自己寫,套這個框架:
[景別] + [主體描述] + [動作(慢、連續、具體)] + [運鏡指令(1-2 個組合)] + [光影氛圍] + [風格標籤] + [畫質標籤] + [穩定性約束]
這幾條是踩坑踩出來的,每一條背後都有翻車的教訓。
動作寫慢,寫連續。不要寫「跳舞」「走路」這種大詞,要寫「緩慢轉身、輕輕抬手、腳步輕移」。AI 生成慢動作的成功率遠高於快動作。你寫「高速奔跑」,出來大機率是鬼畜。
運鏡寫穩,寫簡單。一條視訊最多 2 個運鏡組合。前面說過了,貪多必亂。
必加穩定約束詞。無論什麼場景,結尾加上「畫面流暢穩定 / stabilized / 無抖動無閃爍」。不加的話畫面穩定性全靠運氣,十次裡有七次抖。
必加角色約束詞。人物視訊最大的坑是變臉變形。加上「面部穩定不變形,五官清晰,人體結構正常,服裝一致」。這不是錦上添花,是保底。
模糊詞換精確詞。「move」→「Smooth 3-second dolly forward」;「好看」→「治癒清新,暖光光影」;「很酷」→「賽博朋克,暗調高級,霓虹反光」。模糊詞等於沒描述,AI 全靠猜。
鐵律是通用底線,具體到場景,這張表更直接:
現在用 Seedance 2.0 有兩個入口:
小雲雀 APP,專業版,功能更全,參數控制更細。適合已經知道自己想要什麼的人。
豆包 APP,剛全量推送,免費使用。打開對話方塊就能看到 Seedance 2.0 入口,支援 5 秒和 10 秒視訊。還有個「分身視訊」功能——通過人臉識別建立你自己的視訊分身。豆包內建了不少範本,新手可以先從這些範本起步,熟悉了再用萬能範本自訂。
操作流程很簡單:
把萬能範本 + 你選好的運鏡組合一起發給 AI(ChatGPT / Gemini / Kimi),讓它生成完整的提示詞
一個限制:豆包目前不允許上傳真人圖片作為主體參考,想用真人形象只能走分身視訊的人臉驗證流程。
這些範本和術語能解決「從 0 到 80 分」的問題。結構不塌,運鏡不亂,畫面穩定,角色不變形——做到這四點,你的出片質量已經超過大部分人了。
但 80 分以上靠的不是提示詞寫得多精確。是你知道這個鏡頭為什麼要這樣切,這個節奏為什麼要這樣走,這個故事為什麼值得講。
工具在被拉平,範本在被公開,運鏡術語人人可查。最後拼的還是那個老問題:你拍的東西,有沒有人想看? (Kinpoe Ray)