#Seedance
字節的“羅福莉”,撐起了Seedance的半邊天
隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點。其實在AI科學家圈子裡,女性數量雖然相對較少,但也絕非羅福莉一顆獨苗。在字節跳動,就有一位羅福莉式的人物。她就是Seedance 2.0視訊生成模型的預訓練負責人,曾妍。一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發負責人周暢、視訊生成技術核心負責人蔣璐。很少有人知道,曾妍的存在,同樣無可或缺。因為預訓練是整個模型的“基石”,它決定了模型的能力上限。大多數人把預訓練當成“喂資料”,但真正的高手知道,預訓練是在“塑造模型的世界觀”。資料怎麼配比、架構怎麼設計、訓練策略怎麼調整,每一個決策都在決定模型能看到什麼、理解什麼、生成什麼。無論你後面怎麼努力最佳化,預訓練只要沒做好,這個模型就一輩子達不到Seedance 2.0現如今的高度。不僅是貢獻大,曾妍的晉陞速度在字節也是相當快的。從她畢業進入字節開始算起,到現在的4-2職級,曾妍僅僅花了5年時間。4-2職級對應高級總監/權威架構師層級,屬於公司核心戰略級技術骨幹,年包(含基本工資、年終獎、股票)普遍在500萬以上。她到底做了什麼,才有如此成就?讓我們從她的求學之路說起。01 從西交到字節說實話,當我第一次看到曾妍的履歷時,並沒有覺得特別驚豔。1997年出生,西安交通大學本科,加拿大蒙特利爾大學電腦碩士。這條路徑放到現在的AI圈裡太常見了。但接下來發生的事,就不那麼“標準”了。2021年9月,曾妍以校招生身份加入字節跳動 AI Lab,起點職級是演算法工程師。入職僅兩個月,曾妍就以第一作者身份在arXiv上發表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是後來大家熟知的X-VLM模型。這篇論文解決的問題,用大白話說就是:怎麼讓 AI 既能看懂“大場面”,又能注意到“小細節”。傳統的視覺語言模型有兩個極端。一種是“粗線條”派,只看圖像整體和文字的對應關係,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。另一種是“顯微鏡”派,依賴昂貴的目標檢測器去摳每個物體,雖然能看到細節,但計算成本高得嚇人,還得依賴大量人工標註資料。曾妍提出的X-VLM,就是取兩者之所長。它能同時學習從整體到局部、從場景到物體、從粗到細的多層次視覺概念,並與文字中的不同粒度資訊精準對齊。或者我用一個我最近剛學會的話來形容:既見森林,又見樹木。這個“多粒度對齊”的思想,在當時看起來只是個學術創新,但它為曾妍後來擔任Seedance 2.0預訓練負責人埋下了伏筆。因為視訊生成的預訓練,本質上也是個多粒度建模的問題。你要想生成一個好看的視訊,那就既要把握整體敘事節奏,讓一段視訊有連貫的故事線;又要控制每一幀的細節質量,確保人物面容不變形、物體運動符合物理規律;還要建立時序維度上的關聯關係,讓前後幀之間的過渡自然流暢。這剛和X-VLM的底層邏輯是一致的。接下來的兩年,曾妍就像開了掛一樣。她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會發表了八篇論文,還擔任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會的審稿人。2023年,一個關鍵轉折點到來了。字節跳動成立大模型研究部門Seed,曾妍和所在團隊一同轉入。這個時間節點你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節也在這波浪潮中調整了技術戰略。曾妍擅長的多模態預訓練,在視訊生成這個新戰場上,能發揮她的全部實力。在Seed部門,曾妍作為第一作者主導了兩個重要項目,分別是CCLM和Lynx。先說CCLM(Cross-View Language Modeling)。這個項目讓AI模型同時學會“跨語言”和“跨模態”的理解能力。CCLM通過統一的預訓練框架,讓在英文圖像-文字資料上訓練的模型,可以零樣本遷移到中文、日文等其他語言的多模態任務上。說白了,就是讓 AI 學會“舉一反三”——在英文視訊上學到的理解能力,能直接用到中文、日文、西班牙文的視訊上。再說Lynx。這是一個系統性研究如何訓練GPT-4風格多模態大語言模型的項目。2023年正是GPT-4剛發佈的時候,大家都在摸索怎麼做出“能看圖說話”的大模型。曾妍團隊通過一系列對比實驗,找出了模型架構設計、訓練資料配比、指令微調策略等關鍵因素,最終做出了 Lynx 模型,在多模態理解和指令跟隨能力上都表現出色。用人話說,就是研究“怎麼造出一個既能看懂圖片又能流暢對話的AI”,並且搞清楚了那些因素真正重要。真正讓曾妍“出圈”的,是2023年年底的PixelDance。這個項目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視訊生成領域一個長期存在的矛盾,如何平衡動態性和穩定性。你想想,如果一個AI生成的視訊動作幅度很大、畫面變化劇烈,看起來確實生動有趣,但很容易出現畫面崩壞、角色變形、物體突然消失這些“靈異事件”。反過來,如果你追求穩定性,讓角色和場景保持一致,人物面容不突變,那生成的視訊就容易僵硬,像幻燈片切換而不是流暢的動態影像。曾妍團隊的突破在於,他們在預訓練階段就建立了嚴格的時序約束。傳統的視訊生成模型都是先生成視訊,然後再一幀一幀去修補。PixelDance則是讓模型學會了在保持一致性的前提下生成動態內容。核心創新點是在擴散模型框架中,引入首幀+末幀的雙圖像指令,配合文字指令聯合約束視訊生成,同時在網路結構中新增時序摺積與時序注意力層,從生成的源頭就錨定了視訊的起止狀態,從而保證大動態動作下的主體與場景一致性。就像訓練一個舞者,從一開始就教她在保持平衡的前提下做大幅度動作。PixelDance的成功,讓曾妍在字節內部的地位迅速提升。2024年,她從演算法工程師晉陞為演算法研究員,成為Seed團隊中最年輕的研究員之一。這個晉陞不只是對她學術能力的認可,更重要的是,她證明了自己能把研究成果轉化為實際產品。在大廠裡,這兩種能力的差別,就像會做菜和會開餐廳的差別。02 從 PixelDance 到 Seedance 2.0有意思的是,PixelDance就是Seedance的前身。Seed代表字節的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個改名不只是品牌策略,更標誌著模型從研究原型向商業產品的轉變。2025年6月11日,字節正式發佈了Seedance 1.0,曾妍是該模型的核心研發負責人。雖然直至2026年2月,曾妍才被字節官方確認為Seedance 2.0 視訊模型預訓練負責人,但知情人士爆料,早2025年下半年時,曾妍就已經正式牽頭Seedance 2.0的預訓練全流程工作,成為該項目的核心一號位。她的+2 leader是周暢,+3 leader是Seed團隊負責人吳永輝。Seedance 2.0核心技術突破之一是雙分支擴散變換器架構,這是曾妍團隊在預訓練階段就確立的基礎架構。傳統視訊生成模型採用“先畫後配”的模式。即先生成視訊畫面,再單獨生成或匹配音訊。這種方式的問題在於,音畫分離導致同步性差,人物說話時嘴型對不上,背景音樂的節奏與畫面情緒脫節,音效出現的時機與畫面動作不匹配。Seedance 2.0通過視訊與音訊平行生成的方式,共享同一個理解編碼器,從根源上實現了音畫原生協同。這個架構設計的關鍵在於,讓模型在生成每一幀畫面的同時,就考慮對應的音訊應該是什麼樣的,而不是等畫面全部生成完再去“配”音訊。文章開頭我就講了,預訓練是整個模型能力的基石。曾妍在這個階段需要處理海量的視訊資料,建立視覺、文字、音訊等多模態之間的對齊關係。她通過引入“跨分支校準模組”,即時校準視訊與音訊的節奏、情緒與場景匹配度,確保嘴型與台詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。預訓練階段把所有的多模態對齊關係、物理規律、運動模式都塞進模型裡,成為“默認項”。後續模型只要呼叫到相關內容,就會立刻給出預訓練時的結果。它不是簡單地讓模型記住訓練資料,而是讓模型從海量資料中提煉出普遍規律,形成對世界的基礎理解。Seedance 2.0生成時長1分鐘的2K視訊僅需60秒,比上一代Seedance 1.5 Pro快了30%。速度提升的背後,是曾妍團隊在預訓練階段對模型架構、訓練策略、資料配比的精細調優。她的團隊迭代速度極快,在預訓練階段就完成了擴散模型的多輪最佳化。最佳化注意力機制減少冗餘計算,改進噪聲調度策略加快收斂速度,精選高品質訓練資料提升樣本效率。每一個最佳化點單獨看都不起眼,但累積起來就是質的飛躍。模型規模越大,訓練成本越高,每一個百分點的效率提升都意味著數百萬元的成本節約和數周的時間縮短。Seedance 2.0還實現了多鏡頭敘事能力。這意味著模型不僅能生成長視訊,還能理解“全景-中景-特寫”的專業分鏡邏輯,自動規劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。這個能力很大程度上依賴於曾妍在預訓練階段投喂的字節跳動海量短影片資料。抖音每天產生數以億計的短影片,這些視訊雖然大多是普通使用者拍攝,但其中不乏優秀的鏡頭語言和敘事技巧。曾妍團隊從這些資料中篩選出高品質樣本,讓模型學習到了人類導演的鏡頭語言和敘事節奏。這種從資料中提煉出的“導演直覺”。03 曾妍與羅福莉同為女性AI科學家,曾妍和羅福莉在模型研發中,都擅長尋找“平衡點”。在DeepSeek時期,羅福莉參與的DeepSeek-V2,通過MoE架構的稀疏啟動,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。這就像設計一個大型圖書館,雖然藏書百萬冊,但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需啟動”的機制,讓大模型的成本驟然下降,卻不怎麼損失性能。羅福莉在性能與成本之間,找到了這樣一個平衡點。到了號稱“性價比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導團隊與北京大學聯合研發資源管理系統ARL-Tangram,讓模型的算力成本直降71.2%。然而成本下降並不意味著性能下降。使用了該技術的兆參數的旗艦模型MiMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內第二。羅福莉證明了一件事:性價比不是某個項目的偶然,而是一種可以跨平台複製的方法論。曾妍的平衡點則是前文提到的動態性和穩定性,讓視訊生成模型又能講好故事,又有畫面張力和視覺衝擊力。兩人不同的是職業規劃。羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創業公司,從工程應用到模型研究”。曾妍則是在字節內部一路深耕,5年時間完成了從校招畢業生,坐到了4-2的位置。兩條路徑沒有高下之分。在AI大模型這個燒錢、拼資源、看長期積累的領域,年輕的技術人才依然可以通過對問題的深刻理解,在短時間內做出關鍵貢獻。有可能他們研究的方向,你聽都沒聽過,但就是有效。她們的故事才剛剛開始。 (字母AI)
字節跳動暫停 Seedance 2.0 全球發佈,版權糾紛凸顯AI訓練資料爭議
據The Information周六報導,字節跳動已暫停其最新視訊生成模型 Seedance 2.0 的全球發佈計畫。該決定是在公司與多家好萊塢製片廠和串流媒體平台爆發一系列版權糾紛後作出的。這一事件再次凸顯生成式人工智慧行業正在面臨的核心問題——訓練資料的版權合法性。隨著AI模型能力快速提升,圍繞資料來源和內容授權的法律風險正在迅速上升。Seedance 2.0發佈計畫突然暫停Seedance 2.0 是字節跳動近期重點研發的視訊生成模型,被視為其在生成式視訊領域的重要佈局。據報導,該模型原計畫面向全球開發者和企業客戶發佈,能夠根據文字提示自動生成高品質視訊內容,並被定位為與當前主流AI視訊工具競爭的重要產品。然而在發佈準備階段,好萊塢多家大型製片公司和串流媒體平台提出版權質疑,認為AI模型的訓練資料可能包含未經授權的影視內容,生成的視訊內容可能模仿或復刻現有影視作品風格,模型可能對影視產業造成潛在版權和商業衝擊。在相關爭議尚未解決之前,字節跳動決定暫緩 Seedance 2.0 的全球上線。好萊塢與AI公司的版權衝突升級近年來生成式AI技術的快速發展,使科技公司與傳統內容產業之間的矛盾不斷加劇。影視公司普遍擔憂,AI模型在訓練過程中可能使用了大量影視素材,包括電影和電視劇畫面、劇本與對白文字、視覺風格和鏡頭語言。如果這些內容未經授權被用於模型訓練,可能構成版權侵權。目前多家媒體公司已經對科技企業提起訴訟或提出正式投訴。在美國圍繞AI訓練資料的法律爭議已涉及多家大型科技企業,包括OpenAI、Google、Meta。出版商、新聞機構和影視製作公司均聲稱,其內容在未經授權的情況下被用於訓練AI模型。訓練資料成為生成式AI最大監管焦點隨著AI能力越來越接近真實內容生產,監管機構和版權持有方正將注意力集中在模型訓練資料來源上。當前爭議主要集中在三個問題:1、是否可以使用公開網際網路內容訓練模型科技公司普遍認為公開網頁內容屬於可抓取資料,但內容生產者認為公開可訪問並不等於可用於商業AI訓練。2、AI生成內容是否構成版權侵權如果AI輸出的視訊 圖像或文字高度模仿原作品風格 是否構成侵權仍存在法律爭議3、是否需要建立授權和分成機制部分媒體公司正在推動建立類似AI版權授權體系,要求科技公司為訓練資料付費AI視訊成為新的版權爭議焦點相比文字和圖像生成,視訊生成技術的版權爭議更加複雜。原因在於視訊涉及多種版權元素,包括畫面、音樂、劇本以及演員形象。影視產業商業價值巨大AI生成視訊可能直接衝擊影視製作市場。Seedance 2.0 的暫停發佈,被業內視為生成式視訊行業的重要訊號。AI視訊技術的商業化正在進入法律博弈階段。監管壓力正在快速增加分析人士指出,隨著生成式AI商業價值持續增長,全球監管機構可能進一步加強審查。在美國和歐洲多項政策正在討論中,包括強制披露AI訓練資料來源、建立版權許可制度、對生成內容進行水印標識。對於科技公司而言,未來AI模型開發不僅是技術競爭,也將成為法律與版權體系之間的競爭。 (美股財經社)
《紐約時報》:中國人為何對人工智慧如此樂觀?
儘管許多西方人士擔心人工智慧技術對就業或整個人類的影響,但中國公眾對人工智慧仍表現出高度樂觀的態度。去年在上海舉行的世界人工智慧大會上展出的服務機器人。沈啟來《紐約時報》最近,人工智慧視訊生成工具 Seedance 2.0 首次亮相,它能夠建立使用者幾乎可以想像的任何內容的逼真視訊片段,這在世界兩端引發了截然不同的兩種反應。在美國,電影行業的許多人對此感到恐慌。一段由Seedance製作的布萊德·皮特和湯姆·克魯斯打鬥場面的視訊在網上廣泛傳播後,好萊塢的電影製作人和編劇們表示,他們的工作正迅速走向終結。但在中國,許多人對此感到自豪和興奮。短影片公司的股票飆升。中國最著名的導演之一賈樟柯分享了一部他用Seedance製作的短片,片中他本人和人工智慧版本探討了電影製作。賈樟柯在社交媒體上寫道: “我不擔心科技會取代電影。從一開始,電影就與新技術共存。真正重要的是人們如何運用科技。”賈樟柯(中)於 2024 年在法國戛納電影節上。安東尼·圖利爾/法新社 — 蓋蒂圖片社截然不同的反應表明,中國與西方大部分地區在人工智慧問題上存在更廣泛的分歧:中國人似乎對人工智慧更加樂觀。根據畢馬威去年對47個國家進行的一項調查,中國民眾對人工智慧的熱情位居世界前列。在中國,69%的受訪者認為這項技術的益處大於風險,而只有35%的美國人認同這一觀點。其他民意調查也顯示出類似的差異。問題是,為什麼?答案可能與該技術在每個國家的部署方式,以及行業領導人如何談論該技術有關。在中國,人工智慧似乎無處不在。無人駕駛計程車已在中國十幾個城市穿梭,服務機器人也穿梭於酒店和餐廳之間。中國科技公司推出了醫療聊天機器人,幫助使用者避免在醫院排長隊。他們還在熱門應用程式中嵌入了人工智慧助手,使用者可以在地圖應用中詢問人工智慧如何選擇餐廳,或者在購物應用中詢問人工智慧如何挑選鞋子。這是中國中部城市蕪湖用於協助交通的機器人。在中國,人工智慧似乎無處不在。王宇石/VCG,圖片來自Getty Images這是因為中國科技公司一直專注於人工智慧的實際應用。相比之下,許多領先的美國科技公司則專注於更抽象的目標,例如開發最前沿的模型或實現通用人工智慧。此外,與美國不同,中國大多數領先的人工智慧模型都是免費使用的。在美國,使用者必須付費才能使用像 ChatGPT 這樣的聊天機器人的全部功能。(事實上,中國公司甚至會贈送現金和豪車來吸引使用者下載他們的應用程式。)上海中歐國際工商學院研究數字經濟的教授白國表示,因此,中國消費者正在感受到人工智慧帶來的好處。白教授表示:“人工智慧已經能夠幫助解決很多問題,人們覺得這很有趣,很有用,所以大家對它抱有很多積極和熱情。” 而潛在風險目前看來仍然遙遠。北京一直是冠軍對人工智慧應用的關注是中國競爭異常激烈的網際網路經濟的產物。阿里巴巴、字節跳動和外賣巨頭美團等領先企業正展開一場曠日持久的使用者爭奪戰,而人工智慧則是他們最新的工具。人工智慧可以幫助解決中國一些最棘手的問題,例如醫療保健或勞動力老齡化問題。許多中國學者、投資者和企業家認為,這種樂觀情緒源於一個更為抽象的原因:簡而言之,中國近幾十年來現代化處理程序飛速發展,許多中國人已經習慣了翻天覆地的變化。而科技正是推動這一變革的關鍵。去年在武漢的一次演示活動中,拍攝了一輛無人駕駛電動小巴。吉爾·薩布裡《紐約時報》來自中國的科技作家Afra Wang在最近的一篇簡報中寫道,她的祖母曾經步行五個小時去買鐘,只為了讓孩子們能準時上學。“如今,她的小米手機讓她沉迷於網購,送貨無人機在她家上空盤旋,”王女士寫道。“人工智慧看起來只不過是車輪向前轉動的又一次而已。” (invest wallstreet)
Seedance 2.0 小白速成指南:看完這篇,你也能做出大片既視感
你們有沒有發現,最近刷短影片、看朋友圈,總能看到一些"媽呀,這個視訊也太專業了"的作品?原來都是用即夢 Seedance 2.0 做的!但問題來了——為什麼別人用它做出來的視訊就像好萊塢大片,你用它生成的視訊就像... 嗯,"非常努力的AI"呢?😅秘密就一個字:專業術語!不過別怕,我不是要讓你去電影學院讀3年書。今天我就把這些影視"黑話"全部翻譯成"人話",讓你5分鐘搞懂核心邏輯,之後用 Seedance 2.0 出片直接起飛!廢話不多說,咱們開始~第一部分:鏡頭基礎課(2分鐘速成)1️⃣ 鏡頭運動都有啥?你有沒有想過,為什麼有的視訊看起來很"生動",有的就很"死板"?秘訣就在鏡頭怎麼動!(1)平移鏡頭= 攝影機左右移動(想像你轉身看風景)效果:寬闊感、展示全景適合:展示場景、環境介紹(2)推拉鏡頭= 攝影機前後移動(想像你向某個東西走去或走開)效果:代入感、戲劇張力適合:製造懸念、聚焦重點對象(3)跟拍鏡頭= 攝影機跟著主體移動(想像你在跟著一個人走路)效果:動感、代入感超強適合:運動場景、人物跟蹤提示:用 Seedance 2.0 描述時,直接說"運鏡向左""推鏡靠近"就行,AI會理解!2️⃣ 分鏡與景別(為何別人視訊看起來專業?)這就像拍照時的"遠中近"組合!小貼士:好的視訊會在這三個景別之間切換,就像在講故事一樣——先告訴你"在那兒",再展示"在幹啥",最後強調"有多重要"。在 Seedance 2.0 里,你可以這樣寫:"開場全景,遠景展示壯闊的山景" "切到主人公的中景,做出驚訝的表情" "特寫他眼睛裡的淚光"看,這樣一描述,是不是自動有電影既視感?✨3️⃣ 光影與色調(氛圍大師)這是最"神奇"的部分——同一個場景,光影和色調能把它從"溫馨"變成"詭異"。(1)暖色調= 橙色、黃色、紅色系感覺:溫暖、親切、充滿希望適合:日出、聚餐、溫情場景(2)冷色調= 藍色、紫色、綠色系感覺:神秘、冷靜、有距離感適合:夜景、科幻、懸疑場景(3)高光影= 明暗對比強烈感覺:戲劇化、有張力適合:懸念、對比、衝突場景(4)柔和光= 光線很均勻感覺:舒適、夢幻、溫柔適合:愛情、治癒、日常場景秘籍:想讓視訊看起來"大片范兒"?在 Seedance 2.0 提示詞裡加上色調要求就行: "暖色調日出,金色光線灑在主人公臉上" "冷色調夜景,藍紫色調,高對比光影"第二部分:Seedance 2.0 獨家玩法(核心乾貨)4️⃣ 音畫同步秘訣(這是Seedance的絕活!)為什麼 Seedance 2.0 這麼火?因為它能把音樂和畫面完美同步!這不是什麼新鮮概念,但它做得特別好。想像一下:音樂高潮時,畫面裡的人物做出爆發的動作音樂轉折時,鏡頭切換到另一個場景鼓聲落點時,演員的動作精準hit這就叫"音畫同步",也是為什麼用 Seedance 做的視訊看起來那麼"專業"的原因!怎麼用?選好配樂= 挑一首你喜歡的歌或背景音樂標記節奏點= 想像在那裡要有"視覺衝擊"在提示詞裡體現= "隨著鼓聲,鏡頭快速推進""音樂柔和時,緩緩推拉鏡頭"實戰例子:"BGM是《Unstoppable》,整個視訊跟著音樂的節奏,低音處鏡頭穩定緩行,高潮處做快速運鏡和轉場,音樂落點時演員做出決定性的動作"你看,這樣一描述,Seedance 2.0 就能理解你想要的"節奏感"了!5️⃣ 多模態參考大法(這是秘密武器!)什麼叫"多模態參考"?就是你可以給 AI 看圖片、視訊、音訊來示範你想要的效果。三種參考方式:📸圖片參考= 給 AI 看參考截圖 "這是我的參考畫風:[上傳電影截圖]"用處:統一視覺風格、色調、光影🎬視訊參考= 給 AI 看參考視訊片段 "我想要這種運鏡方式:[上傳參考視訊]"用處:展示鏡頭運動、節奏感、轉場手法🎵音訊參考= 給 AI 聽參考音樂 "用這首歌的節奏感:[上傳音樂]"用處:確保音樂風格和節奏匹配一致性控制:@引用機制= 在提示詞中引用之前生成的視訊 "@上一個視訊的第3秒開始的鏡頭"用處:保持系列視訊的連貫性和一致性一致性控制= 讓多個鏡頭裡的人物、場景保持統一 "用之前生成的主角形象,確保衣服、表情風格一致"用處:製作系列視訊、連貫敘事小秘密:這個功能是 Seedance 2.0 最強大的地方!你用得越細緻,出來的視訊就越"量身定製"。6️⃣ 提示詞黃金公式(這是我的獨家套路)好提示詞 = 專業出片的一半!動作類視訊怎麼描述:場景交代 + 人物動作 + 鏡頭運動 + 節奏感例:在健身房,主人公做伏地挺身,鏡頭跟拍側面,隨著勁爆背景音樂的節奏加快速度,最後特寫他堅定的表情場景類視訊怎麼描述:地點設定 + 光影氛圍 + 鏡頭移動 + 細節描寫例:古鎮石板街,夕陽西下灑金色光線,攝影機緩緩推進,展示路邊的紅燈籠、古建築、行人剪影情感類視訊怎麼描述:角色情緒 + 環境氣氛 + 視覺表現 + 轉場方式例:女孩看到驚喜禮物,眼眶泛淚,冷色調的室內突然切到暖色調的燭光晚餐,音樂從悲傷轉為歡快通用範本(我最常用): "[時間/地點設定],[人物/主體]在[做什麼],[鏡頭怎麼運動],[光影色調],[背景音樂或音效],[情感基調],[轉場方式]"舉栗子: "清晨的咖啡館,少女坐在靠窗位置整理筆記,攝影機做緩慢的圓形運鏡,暖色調晨光透過玻璃灑下,背景是舒緩的鋼琴樂,整體溫柔治癒,最後切到咖啡倒入杯子的特寫"是不是超具體?Seedance 2.0 就吃這套!第三部分:從入門到"大片"(進階技巧)7️⃣ 高級創作技巧(這是我的真傳家寶)一鏡到底的魔法"一鏡到底"就是整個視訊看起來像一個長鏡頭拍攝下來的,沒有剪輯感。怎麼做? 畫面中的人物/物體要連貫運動 鏡頭轉向、推拉、平移都要"自然接力" 背景音樂要持續,沒有硬切在 Seedance 2.0 里的秘訣:"整個視訊要有一鏡到底的感覺,演員在房間裡走動,攝影機跟隨,經過門、走廊、樓梯,最後推進到窗邊,鏡頭始終流暢,沒有卡頓感"多鏡頭敘事的魅力如果說"一鏡到底"是馬拉松,"多鏡頭敘事"就是跑步接力賽——你可以在不同場景、不同角度間快速切換,營造節奏感!好處: 製造懸念(切到反應鏡頭) 加快節奏(快速剪輯) 展示細節(特寫 → 全景 → 特寫)範本:"開場全景展示豪宅,切到主人公走進房間的中景,再切到他發現禮物時的特寫臉部表情,最後遠景展示整個驚喜派對現場"特效與轉場的組合技轉場不只是"黑屏切換",還可以這樣玩:淡出/淡入= 畫面慢慢消失/出現(溫柔感)推拉轉場= 新畫面推開舊畫面(節奏感)閃白轉場= 閃一下白屏(衝擊感)對象遮擋轉場= 人物擋住鏡頭,背後切換場景(電影感)栗子:"第一幕的演員揮手,他的手臂遮住鏡頭,轉場後露出他在完全不同的場景中,手勢保持連貫"這招叫"匹配切割",超專業!8️⃣ 我踩過的坑 & 解決方案(避坑指南)坑1:音畫不同步❌錯誤做法:"加個背景音樂吧" → 結果音樂和視訊時長不搭✅正確做法:先確定音樂時長和BPM(節拍),再在提示詞中明確標註節奏點坑2:人物忽胖忽瘦❌錯誤做法:多次生成不同部分,結果同一個人物風格變了✅正確做法:用"一致性控制"功能,@引用之前的人物生成,或在提示詞裡詳細描述人物特徵坑3:色調突變❌錯誤做法:暖色調場景突然切到冷色調,顯得很生硬✅正確做法:要麼保持統一色調,要麼在"轉場前"留個"色調過渡鏡頭"(比如燈滅了,然後切到新場景)坑4:鏡頭運動過快/過慢❌錯誤做法:"攝影機運動"太含糊✅正確做法:具體描述,比如"緩緩推進(3秒內推進1米左右)""快速推鏡(1秒內靠近主體)"坑5:提示詞太長導致AI 遺忘關鍵資訊❌錯誤做法:寫成一整段文章,重點不突出✅正確做法:用換行、重點加粗,讓AI好理解:場景:早晨的辦公室 人物:職場女性,深藍色OL服動作:整理檔案、喝咖啡、看電腦 鏡頭:推拉+跟拍結合色調:冷色調,大量冷光 節奏:隨著背景音樂加快結尾彩蛋 🎉好了各位,我的 Seedance 2.0 "黑話翻譯大全"就到這兒了!✨現在你已經掌握了:✅ 鏡頭運動的邏輯(為何別人的視訊動起來就是好看)✅ 景別搭配的秘訣(全景→中景→特寫的故事感)✅ 光影色調的"氣氛營造法"✅ Seedance 2.0 的音畫同步原理✅ 多模態參考怎麼用(這是最強武器!)✅ 提示詞的黃金公式✅ 一鏡到底、多鏡頭敘事、轉場技巧✅ 我踩過的8個大坑和避坑方案 (xiao阿娜的妙妙屋)
Seedance春節殺瘋後,開年概念股卻跌停
春節大模型再次上演“閃電戰”2026年春節前夕的中國網際網路,再次迎來了一個意想不到的燃點。它並非精心策劃的晚會,也不是數字紅包雨,而是一款悄然上線的AI模型——字節跳動旗下的視訊生成工具Seedance 2.0。當大多數人已沉浸在年貨採辦與返鄉歸途中時,一個線上文件連結開始在技術圈內流轉。文件標題末尾的“Kill the game”更像是一句技術極客的輕鬆自嘲,而非宣戰檄文。然而,爆炸正是從這一刻開始。數小時內,排隊等待生成的使用者序列便成為新的社交貨幣,截圖裡“當前排隊超1000位”、“預計等待8小時”的字樣,記錄著一次全民參與的熱情奔湧。網路上迅速湧出各式視訊:憨態可掬的“迪迦奧特曼大戰奶龍”,天馬行空的“小孩隔扣NBA巨星詹姆斯”,乃至對經典影視結局的顛覆性改寫……Seedance 2.0以一己之力,將AI視訊生成的集體狂歡,變成了這個春節最硬核的全民活動。《黑神話:悟空》之父、遊戲科學創始人馮驥在社交平台上直言:“AIGC的童年時代結束了。”知名科技博主“影視颶風”Tim則在深度評測中連用六個“恐怖”來形容其效果。當AI不僅能生成畫面,更能理解鏡頭語言、敘事節奏,並保持角色、光影、風格的高度一致性時,它所挑戰的,已是百年來構築的影視工業流程本身。2025年春節前DeepSeek發佈R1模型後,阿里巴巴工程師就曾取消假期,在春節期間奮起直追,最終推出了通義千問系列模型。阿里前董事長蔡崇信後來的坦言,道盡了行業的集體焦慮,是在看到競爭對手的突破後,才意識到自身已然落後。如今,歷史似乎正在重演,只是觸發點變成了Seedance 2.0。Seedance 2.0引發的狂飆與真相技術的突破最先在資本市場的計價表上得到快速而劇烈的反應。Seedance 2.0的出現,為市場提供了一個重新評估AI產業價值、尤其是下游應用前景的清晰坐標系。A股市場率先上演概念狂歡。2月9日,春節前最後一個交易日,Seedance 2.0內測引發的想像,直接點燃了短劇、影視傳媒、算力等類股。捷成股份、海看股份、引力傳媒、完美世界、橫店影視等十餘隻個股集體漲停。產業鏈的聯動效應同步顯現。市場資金敏銳地流向算力基礎設施這條“賣水人”賽道。大位科技、光環新網等AIDC(AI資料中心)服務商,寒武紀、海光資訊等國產算力晶片公司,以及浪潮資訊、中科曙光等伺服器廠商均收穫顯著漲幅。摩根大通的預測為這股熱情提供了宏觀註腳,其預計從2025年到2030年,中國AI推理的token消耗量將以約330%的年複合增長率激增,規模擴大370倍。而字節跳動2025年超1500億元、其中約900億用於AI算力的資本開支預算,更是產業需求的確鑿訊號。無論是模型訓練還是使用者生成,海量token消耗的終點,都是對算力資源的持續飢渴。但市場邏輯真的有這麼容易跑通嗎?摩根大通和機構的預測更多是長期邏輯,告訴我們明天一定會到來,但怎麼到來?他們也不清楚。如果說暴漲就代表正確的話,那麼2月24日開年第一個交易日,Seedance2.0概念股不少跌幅在10%左右甚至跌停,又該如何解釋呢?資本市場的短期狂熱更多是資金交易邏輯,反過來拿資本市場證明“Seedance2.0已成”就屬於本末倒置。這引發了關於深度偽造、隱私侵犯和信任危機的巨大擔憂。模型在未經任何授權的情況下“腦補”並復刻了個人生物特徵。字節跳動迅速做出反應,緊急暫停了以真人圖片或視訊作為參考主體的功能。馮驥等業內人士表達了對假視訊氾濫的深切憂慮。Seedance2.0能夠憑藉照片生成本人聲音,形成了全網級熱點事件,這已經是事實。我們現在要焦慮的,除了利用AI可以“深度偽造他人資訊”所帶來的社會安全和信任問題,還有Seedance2.0真的有那麼強嗎?該怎麼樣用起來。從測評社區的共識來看,Seedance 2.0最被反覆強調的其實是“更容易復現一個你想要的結果”,而非單次生成的視覺驚豔程度。多模態參考的引入,使得它在商業與製作場景中顯得格外務實——使用者可以指定風格、人物、動作甚至節奏,而不是一次次靠提示詞試錯。其與快手最新的Kling 3.0偏向“電影感輸出”的方向形成了微妙差異:Kling更強調鏡頭運動與觀感完成度,而Seedance更偏向生成結果是否可預測、可復用。但Seedance2.0只是相對可復用性強一些,它仍然具備當前眾多視訊模型的問題,上傳數量受限制,具體細節仍然受限,生成結果仍有盲盒性,這會帶來使用成本的飆升。年初為了搶熱度上頭去沖2599元會員的人,已經開始後悔申請退款了。具體來看,素材數量/大小卡死:圖片≤9 張、單圖<30MB;音訊≤3 個、總時長≤15 秒;所有素材總數≤12 個,多素材創作極受限。更糟糕的是無手動控制:景深、運鏡、轉場、節奏全由演算法預設,無法自訂,鏡頭語言僵化。生成速度遠慢於宣傳:官方稱 “60秒出2K”,實測基礎會員,10秒視訊要20多分鐘,排隊+稽核嚴重拖慢節奏。效果不穩定:語音錯亂、字幕亂碼(最常見)、畫面細節崩壞、物理邏輯偏差,同樣的提示詞效果時好時壞。現在看到的許多炫酷的AI影片,實際上是專業影視公司,按專業的手繪分鏡,專業的真人配音,專業的後期調色,專業的字幕,專業的標題設計創作出來的,AI生成只是其中的一小環。目前來說包括Seedance2.0在內的AI生成,還很難用來拍真正的長視訊。但比較適合用來做15秒的廣告片。或者3-5分鐘的企業宣傳片。Seedance2.0真正的價值是,讓原本要花10萬元才能買到的創意,現在幾百元就能實現了。而且Seedance也面臨OpenAI同樣的侵權壓力,這種壓力顯然是不能無視的。在2月14日,派拉蒙旗下的天舞傳媒也正式向字節傳送了通知函,並控訴列舉了《南方公園》、《星際迷航》、《海綿寶寶》、《教父》、《愛探險的朵拉》、《最後的氣宗》、《忍者神龜》等作品被侵權。目前,迪士尼已經與OpenAI達成了一項高達十億美元的商業合作。一份為期三年的資料授權許可協議,讓OpenAI在其Sora工具中可合法呼叫經典角色的資料。背後邏輯也很簡單,要麼花錢買IP資料,要麼承擔訴訟風險,而字節顯然也逃不過。面對強烈抵制浪潮,字節在除夕日,在美國媒體上做出了合規承諾,表示公司尊重智慧財產權,正在採取措施加強現有的保護機制。作為初步應對措施,字節官方此前已暫停了Seedance 2.0使用者上傳真人圖片的功能。總之,Seedance 2.0本身尚處內測,具體商業化路徑、對現有影視工業的真實替代曲線以及最終的盈利模型均未清晰。當最初的情緒衝擊波過去,資本市場終將回歸理性,對於個人創作者來說,要做的是抓住每一次細小的技術紅利,逐漸形成技術複利,領先大部分同行。寫在最後Seedance 2.0並不完美,但AI對大部分行業的衝擊是真實且長期的。當AI能以分鐘為單位生成過去需要數十人、數月工時的專業級視訊時,它對創意產業就業結構的衝擊將是顛覆性的。從分鏡師、動畫師、後期合成,到部分導演、攝影的工作範疇,都可能被重新定義甚至大幅壓縮。影視颶風Tim所說的“傳統影視流程進入被沖走的倒計時”,對行業而言是警世恆言,對無數以此為生的個體而言,則可能是職業生涯的劇烈顛簸乃至斷崖。技術進步帶來的整體福祉提升,往往伴隨著局部的陣痛與代價,如何讓被“最佳化”的勞動力平穩過渡、在新的價值鏈條中找到位置,是一個遠比提升模型參數更複雜的社會命題。 (首席商業評論)