#AI 視訊
字節家的搖錢樹,阿里騰訊都想搶
科技大廠既眼紅AI視訊的好生意,沉重的算力消耗也讓人望而卻步。AI短劇帶來的極致成本優勢與工業化生產效率,引爆了資本熱情,也讓AI視訊賽道格局重構。4月初,一匹黑馬殺出:視訊生成模型HappyHorse-1.0在第三方測評平台Artificial Analysis登頂,文生視訊Elo得分1333、圖生視訊Elo得分1392,雙雙超越字節跳動Seedance 2.0與快手可靈,成為不容忽視的新變數。4月10日中午,阿里下場“認領”HappyHorse為“ATH事業群”旗下的AI創新事業部自研,API將在4月30日開放。此前,阿里並非視訊生成的核心玩家。但3月16日,阿里新成立以Token 為核心的“ATH事業群”後,提升多模態能力變成了拉高Token效率的抓手——而HappyHorse可視為這場戰略大轉向的重磅成果之一。不只阿里,科技巨頭正在視訊生成賽道集體壓境。憑藉Seedance系列的生成質量與成熟商業化,字節跳動已構築起顯著壁壘。據瞭解,火山引擎面向企業開放的Seedance API介面,有些機構得到的最低年消費門檻高達1000萬元。以高門檻開放API的底氣,來自市場的極度供不應求。《中國企業家》獲悉,在火山引擎近期的招商會上,許多城市與火山引擎和視訊生成業務洽談合作,有城市為此投入了數千萬、上億元資金,將算力支援作為招商引資的重要配套。另一巨頭騰訊也已下場。知情人士向《中國企業家》透露,騰訊挖走了Seedance開發團隊中的數名核心成員,計畫在5月推出混元視訊大模型新版本,與Seedance正面對壘。“5月的視訊模型賽道,將會格外熱鬧。”01 阿里認真了HappyHorse亮相之前,阿里雖有通義萬相視訊模型,但表現始終不溫不火。作為大模型生態的附屬功能,萬相此前在清晰度、運動連貫性、長視訊穩定性等核心指標上,與Seedance、快手可靈等有明顯差距,也未打通專屬商業化場景。這一次,阿里好像認真了。HappyHorse採用150億參數,將文字、視訊、音訊三種模態Token置於同一序列聯合建模,從底層解決了音畫不同步、語氣與表情不匹配等問題。“它的物理模擬更貼近真實環境。”一位測評人士告訴《中國企業家》。另外,HappyHorse原生支援七國語言唇形同步,詞錯誤率顯著降低。同時,它在成本與速度上表現優異:單張H100生成5秒1080p視訊約38秒,DMD-2蒸餾技術將去噪步驟壓縮到了8步。但HappyHorse的短板同樣突出。測評人士表示,在完成複雜動作與多人互動時,HappyHorse易出現肢體錯亂、軌跡不穩。相比於Seedance,HappyHorse更擅長鏡頭呈現,不擅長動作敘事。在應用方面,HappyHorse的API尚未開放,在內測中,其支援的時長僅為5~10秒,場景上限較低,更適合做短影片、廣告、AI漫劇素材,還難以支撐劇情長片。其本地部署也有門檻,需配備H100或A100顯示卡,消費級顯示卡無法運行。阿里突然在視訊模型戰場投入火力,意欲何為?相關人士表示,HappyHorse誕生於淘天未來生活實驗室,或許意味著阿里希望其能與電商場景碰撞融合。阿里擁有完整的商品、商家、交易與廣告生態,但商品視訊一直是中小商家的痛點:場景搭建、拍攝剪輯成本高,白底圖難以展現賣點。而AI視訊可批次生成多版本、多場景、多語言內容,大幅降低了創作門檻。更關鍵的是,阿里的商品詳情、使用者評價、搜尋行為、轉化資料、直播表現等全鏈路資訊,也可反向訓練電商專屬視訊能力,讓HappyHorse成長為懂電商、能帶貨的內容生產引擎。但這條商業閉環要跑通,除了技術攻堅,還必須先解決阿里的算力問題。接近阿里的人士向《中國企業家》透露,目前阿里內部GPU分配非常緊張。“此前,像月之暗面作為阿里雲大客戶,雖然與Qwen存在競爭,還是能獲得比較充足的算力。現在阿里要支援基模研發、電商、雲服務多條戰線,未來要重新考慮GPU的投入產出比了。”而視訊生成是算力消耗大戶,如果HappyHorse逐步開放推廣,算力需求更將指數級增長。這匹黑馬能跑多快、多遠,很大程度上取決於阿里能否破解算力這一核心瓶頸。02 Seedance的好生意被盯上了儘管挑戰重重,各大廠商仍爭相湧入AI視訊賽道,只因這是一門想像空間極強的生意。目前,紅果短劇等平台收一部劇的最高價格約2000元/分鐘,一部常規短劇的時長約120分鐘,價格約24萬元。而市場上AI短劇的外包製作報價已經低至400元一分鐘,甚至有團隊用自動化工具實現了一天800~1000分鐘的漫劇內容產出。巨大的成本優勢和生產效率,讓AI短劇成為資本追逐的熱點。有AI視訊製作公司負責人告訴《中國企業家》,短短半個月,就有好幾家資本來談收購、併購,目前給他們的估值已超5億元,但他們和合夥人都覺得,這個出價還不夠“美麗”。更有地方政府直接找上門來,希望直接獨家買斷公司的AI漫劇自動化生成工具。Agent技術的進展,也正讓一人公司(OPC)大量湧現。幾個擅長高效使用AI工具的員工,便能頂得上過去一個甚至幾個團隊的工作量。各地政府敏銳地捕捉到了這一趨勢,紛紛對AI視訊、AIGC、AI短劇推出算力補貼、內容獎勵、園區集聚等扶植政策,吸引OPC進入。2月27日,武漢東湖高新區發佈“微短劇八條”,對重大產業項目最高支援5000萬元,爆款短劇單部獎勵50萬元。3月10日,上海市徐匯區發佈《“AI+微短劇”產業扶持意見》,對頭部企業最高給予1000萬元發展支援,同時發放最高100萬元算力券、100萬元語料券,並為OPC減免工位費用。3月13日,深圳市施行新版微短劇扶持政策:AIGC微短劇單項目最高資助200萬元。需求的旺盛和政策扶植,讓字節成為最早嘗到甜頭的公司。據《中國企業家》瞭解,雖然火山引擎向大型影視公司、內容製作公司、特定機構等開放的Seedance API介面“白名單”,有些機構被要求“最低消費”1000萬元/年,客戶仍趨之若鶩。接近火山引擎的人士告訴《中國企業家》,地方政府已將算力扶持作為招商引資的重要配套。一些AI短劇公司以“拼盤”接入API,不少算力費用由政府出面解決,以吸引相關公司落地。“有些城市採購了火山3000萬、7000萬,甚至過億的費用,用於內容扶植。當然其產出的內容也將對本地稅收和GDP產生極大拉動,這個帳很好算的。”清晰可見的變現路徑,疊加千億級的市場增量,點燃了巨頭間的競爭熱情。阿里、騰訊紛紛加碼AI視訊賽道,試圖從字節手中分走一杯羹。接近騰訊的相關人士向《中國企業家》透露,混元視訊模型其實早就有了,“只是效果很差”。近期,騰訊痛下決心,“開出高薪,差不多把Seedance開發組整個挖走了”。新款模型大約5月上線,有望和Seedance掰掰手腕,在短時間內實現技術突破。依託騰訊生態,混元新視訊模型還有望深度融入到視訊號的內容生產、分發、商業化全鏈路,放大騰訊的內容生產力與商業變現空間。03 視訊模型的高風險抉擇雖然所有人都看到了AI視訊在短劇、電商、廣告等領域打開的兆級商業潛力,但這條賽道的燒錢速度,也遠超想像。投入矛盾與定價分化,以及擺在巨頭面前的規模化盈利困境,正在考驗著各家的平衡智慧。雖然火山引擎的收入不菲,但其算力成本負擔依然沉重,收入中的絕大部分,都要用來採購GPU和支付電力成本。4月,火山引擎總裁譚待告訴《中國企業家》:“我們去年已經修改了商業計畫,把目標提升了不少。但目前我們還沒有做3年的盈利規劃,暫時沒有這方面的具體安排。”OpenAI關停Sora,更給狂熱的市場潑下一盆冷水。視訊生成的算力消耗,是大模型的上百倍甚至上千倍,即便全球最具財力的科技公司,也難以承受這種無底洞式投入。OpenAI雖宣稱,關停Sora是為了將資源轉向企業智能體、編碼工具與具身智能等方向,但業內普遍認為,成本與付費嚴重倒掛才是核心原因:Sora單條1080p的視訊生成成本約0.5~1美元,而使用者平均付費意願不足0.1美元,根本無法支撐持續營運。更深層的挑戰,還來自於科技大廠技術路線的高風險抉擇。業內人士向《中國企業家》指出:多模態任務過度消耗算力,在Token用量已經暴漲的情況下,廠商有再多算力依舊不夠燒,要把算力留給誰,就成了關鍵問題。由於忌憚視訊的無底洞式算力投入,Google始終不敢大規模開放API,也未推出獨立的視訊生成C端應用。“去年Google的多模態路線備受推崇,但今年便在Agent浪潮下被Anthropic趕超,現在只能說勉強留在牌桌上。大模型的核心技術路線,往往需要提前一兩年佈局,效果卻要滯後顯現。有時候真的像玄學。”行業成本與收入失衡,近期利益和遠期發展,迫使所有玩家重新審視視訊模型的商業模式與定價邏輯,這也直接催生了行業內的定價策略分化。摩根大通曾判斷:頭部領先模型可以維持溢價,追趕者則不得不通過降價搶佔市場份額。Sora停服後,字節率先選擇漲價。4月8日,即夢宣佈:基礎、標準、高級會員的月度積分分別從1080、4000、15000下調至725、2210、6160,積分縮水近六成,相當於變相漲價。相比之下,Google和快手則選擇用降價換市場:Google在3月底放出的Veo 3.1 Lite版本,將720p視訊生成價格壓至0.05美元/秒。可靈緊隨其後,推出會員限時8折優惠,部分圖片生成功能甚至完全免費。定價的兩極分化,本質上是競爭烈度的直接體現。長期來看,平台、API、廣告、電商都只是外層變數,決定勝負的關鍵因素仍然是:強化模型本身的同時,誰能在效果和成本之間找到最佳平衡點,誰能結合自身生態,找到不可替代的落地場景。 (中國企業家雜誌)
新華社18秒視訊,讓美國前高官“焦慮”了
美國國土安全部前代理部長查德·沃爾夫近日在福克斯新聞網發表一篇文章,寫了很長。而這篇長文針對的,竟是一部僅有18秒的AI視訊。這個視訊在一個月前,即3月9日,由新華社在海外社交媒體發佈,被中國駐美大使館等廣泛轉發。視訊題目是《Shield of Americas, or shackles of Americas(“美洲之盾”還是“美洲之籠”)?》,揭示美國發起的“美洲之盾”峰會及倡議,損害拉美國家獨立自主,破壞地區和平穩定。沃爾夫的文章囉囉嗦嗦講了很多,其實就是以下幾點:第一,美國應該警惕中國用AI工具瓦解美國的影響力;第二,中國深化和拉美務實合作,在美國“後院”形成戰略支點,對美國國家安全構成重大威脅;第三,為維護自身地位,美國應普及美式AI工具,加強對華科技交流審查,以遏制中國影響力。一個小影片,竟讓他嚴重焦慮,確實是小題大作了。再看事實。事實是,美國企圖借所謂“美洲之盾”,組建美國主導的地區安全合作機制,為介入拉美國家內政提供便利。很多拉美政要或學者,對此看得很清楚。古巴國家主席迪亞斯-卡內爾說,所謂“美洲之盾”峰會是“帶有新殖民主義性質”的會議。美國辦這個會的目的,就是讓一些拉美國家接受美國的軍事幹涉。巴西總統魯拉最近說,美國就是想“再次殖民我們”。這也是為什麼,美方高調吹噓的這個“具有歷史意義的會”,巴西、墨西哥、哥倫比亞三個拉美地區重要國家的領導人一致缺席。新華社的18秒視訊,揭示的是事實本質。目前,這個視訊在海外社交平台瀏覽量已經超過150萬,有厄瓜多媒體人評論說:“中國媒體對‘美洲之盾’的解讀很準確。”查德·沃爾夫曾在川普首個總統任期擔任美國國土安全部代理部長,現任美國全球戰略諮詢公司副董事長,並在川普陣營核心智庫——美國優先政策研究所主管國土安全、移民與西半球政策研究。但沃爾夫及他這個圈子裡的人發表的涉華文章,完全沒有嚴肅學術研究之風,充斥著“中國就是威脅、中國做啥都錯、要堅定遏制中國”的陳詞濫調。可見,沃爾夫之流以各種藉口鼓吹“中國威脅”論,連18秒的AI視訊也要東拉西扯一通。 (新華網)
全球AI雙榜第一!力壓GoogleVeo與Grok,Vidu Q3「參考生」之王歸來
【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸,視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代,真的來了。這個月初,Google一紙公告,把Veo 3.1的視訊生成能力,免費開放給了所有Google帳號。可以說,這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」,正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及,一個尷尬的問題就越藏不住:模型可以無限趨近「能用」,可它和「能交付」之間,依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段,全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧,能用歸能用,從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時,一個被低估的中國玩家,悄悄把答案擺上了桌。今天,Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」,這一次,它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」,Vidu SaaS(Vidu Agent、Vidu Claw)與 Vidu MaaS(Vidu AI 開放平台)全面接入。其中Vidu AI開放平台,可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時,它還支援提示詞調優、工作流適配及專項培訓服務,即便在高峰時段也能確保穩健輸出。以上三層加在一起,構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此,Vidu Q3已全面覆蓋文生、圖生、參考生三大領域,完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言,「為劇而生,萬物可參」,Vidu正在做一件其他玩家還顧不上做的事:把模型能力,焊死在真正的生產流程中。「參考生之王」回歸 直接拍戲了要理解這件事的重要性,先把背景拎清楚。1月30日,Vidu Q3全球首發,在權威評測榜單AA上一騎絕塵,拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單,SuperClue榜單上,Vidu Q3斷層登頂,在多圖/單圖參考任務蟬聯雙榜第一。首次亮相,Vidu Q3便主打「為劇而生」,成為全球首個聲畫直出16秒的AI視訊模型。事實上,整個AI視訊行業的競爭焦點,正在悄悄發生一次根本性的位移。視訊大模型,正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力,轉向兩件更本質的事——是否具備完整的敘事能力,以及,是否能進入真實場景的生產級交付。這兩件事,才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世,恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」,到Q2的「演技生成」,再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步,Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數,正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上,「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力,而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者,名副其實的「參考生之王」,這一次,Q3直接把其從模型層推到了應用層。這種巨變,直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說,Vidu讓AI視訊,真正具備了「劇」的表達能力,為劇而生。萬物可參,為「劇」而生,聲畫同出在視覺、聽覺和場景上, Vidu Q3系統性升級,招招致命。相較於上一代,Q3不再執著於枯燥的「生成質量指標」(FID/FVD)比拚,而是死磕一個核心目標:讓AI生成內容,真正具備「劇」的表達能力。要知道,所謂的「劇集感」,是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上,交出了一份令人「恐怖」的答卷。在視覺方面,Vidu Q3新增六大特效:粒子、流體、動力學、運鏡、轉場、光影,將其深度融入敘事語言,讓生成內容更接近「成片級表達」。五大沉浸式音效:環境、動態、氛圍、擬音、情緒,讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此,聲音不再是畫面的附屬,而是情緒的載體。最重要的是,Q3場景能力已進化為直接對齊工業流程的「內容單元」,大幅縮減從創意到成片的距離,覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域,Vidu 不僅實現了極速生成與高頻迭代,更通過極高的視覺穩定性,率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透,標誌著Vidu已從技術驗證期跨入深度產業應用期,建立了不可踰越的落地領先優勢。為了驗證其真實戰力,我們拋棄了傳統的「跑分邏輯」,直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度,以及廣告的多元創意。高燃漫劇漫劇,是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產,這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求,它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇,每分鐘三四十個鏡頭,每段AI生成的素材只有5–10秒。這就意味著,整部劇是由上千段片段硬拚而成。過去,AI模型最大的問題,是每一張圖之間彼此獨立:人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀,觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦,幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型,是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪,讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼,狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進,將情緒推向了最頂峰。最關鍵的突破點在於:複雜的特效變化下,男主形象始終如一。再比如,投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句,「@圖1穿著@圖2衣服,在@圖3江南水鄉行走」。可以看到,動漫女主的臉部特徵被死死鎖住,沒有出現任何畫風偏移或五官融化,服裝的紋理與褶皺也隨著行走步伐自然飄動。而且,背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作,那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片,在這段激烈的對峙戲中,Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動,Vidu Q3將兩位主角的形象死死鎖住,徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此,它在音效與情感生成的顆粒度上達到了影院級水準:沉悶的肉搏聲、倒地後紊亂的喘息,甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音,都與畫面嚴絲合縫。這一段,可以直接剪進漫劇成片裡,幾乎不需要返工。真人短劇如果說漫劇拼的是「量」,那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模,單集時長被壓到極致,敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓,都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期,是短劇行業對AI視訊最迫切的呼喚;但前提是——AI必須先學會演對白戲,也就是說,短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車:要麼兩個人同時張嘴像合唱團,要麼口型對不上台詞,要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點,但對話一崩,戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲,呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住,更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉,讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒,對話時口型的毫釐不差。再比如來一個現代劇,女強人和霸主之間的糾葛,在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言,用AI的最大訴求可能就是提升效率──不止是素材版本多,創意要快,要快速試錯。素材生產效率,就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率,更重要的是人物、風格統一可控,商品不走樣,背景或人物任意選。比如,下列唇蜜的廣告,利用Vidu Q3參考生功能,可快速篩選不同的風格:只需替換參考模特,一鍵生成不同風格、聲情並茂的視訊,真一鍵出片!鏡頭逐漸推進唇部,模特用唇蜜塗抹在嘴唇上,特寫鏡頭展示唇蜜質感。廣告大片效果,多鏡頭展示。最後手持唇膏模特說說:This touch is more than just color.。去掉bgm,保留人聲再舉一個例子,老梗換新貨,更容易在網上爆紅。比如,威爾·史密斯吃義大利面,就是國外的經典梗之一,可謂歷久不衰。在Vidu Q3,用他的表情包+新的商品(比如漢堡),繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香!影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭,但也是價值天花板的最高場景。過去,一個劇本從文字到成片,中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後,動輒是上千萬的預算,是以「月/年」為單位的製作周期。整個行業最渴望的,是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力,讓導演在燒錢之前,就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路,直接正面正剛。它挑了三種最吃功力的片種:科幻、災難、懸疑。給到一段提示詞:根據參考機甲與未來都市場景,生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立,霓虹燈閃爍,主角駕駛機甲在高架橋與樓宇之間高速穿梭,後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍,再切入近距離追蹤,機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣,期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感,參考主體外觀保持穩定,特效密集但清晰。這個生成的難點在於,俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節,都考驗著模型對「電影感」的理解。更狠的是音效,直接構成了一個立體聲場,給人一種身臨其境的壓迫感。再來看災難片,考核的是尺度與震撼,這是這類型大片的標準配方。Vidu Q3在生成效果中,處理了多層次的視覺要素:天空、水牆、慌亂的人群、建築物震顫,每一個要素配合著調度營造出一種末日緊迫感。而且,由遠及近的聲壓推進,更成為了這個視訊重頭戲。更令人想不到的是,一段廢棄醫院的長鏡頭,瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫,還在光影忽明忽暗中保留了真實性,角色表演也有一定的張力。音效更是克制到極致,燈管電流雜音、走廊回音、腳步聲、呼吸聲,把緊張感推向頂點。總言之,Vidu Q3在視覺、聽覺與場景三個關鍵維度上,將四大場景的應用推向了新的高光時刻。偉大的技術 最終都將隱形於無形縱觀科技史,任何一項偉大的技術,其最終的宿命都是「隱形」。當電動機剛發明時,人們驚嘆於電流的魔力;但當大工業時代到來時,電動機隱身於工廠的流水線中,人們只看到源源不斷產出的精美商品。今天的AI視訊行業,正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅,通過從Q1到Q3的艱難跋涉,換來的,恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代;它把AI視訊從獵奇者的「玩具箱」,搬到了專業創作者的「工作台」上。「萬物可參」,參考的不僅是現實世界的像素,更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本,當Vidu Claw為你自動生成第一組分鏡,當Vidu Q3用它極具張力的音效和電影級的光影,把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時,你會深刻地意識到:不要用做盲盒的邏輯,去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束,屬於創作者的、由新質生產力驅動的「大航海時代」,在Vidu Q3按下Enter的那一刻,正式拉開了帷幕。在這個充滿無限可能的時代,最好的故事,不再受制於資本的傲慢與工業的繁瑣。 (新智元)
Sora 死了,享年 6個月
曾經封神的 AI 視訊模型 Sora 就這麼沒了。前幾天,OpenAI 官方親自發文告別 Sora:應用關停、API 關停、視訊功能不再接入 ChatGPT。聽聞這一消息,有網友直接把 Elon Musk “墓碑梗圖”搬出來祭奠。評論區更是“人類迷惑行為大賞”:有人艾特創始人 Sam Altman 問“到底在幹嘛”。有人直接開噴“那我們憑什麼信你下一個產品”,還有人直接吐槽“死之前也不開源一下。”還有人很淡定:“沒事,還有別家能用。”老狐還記得,2024 年初 Sora 剛出來的時候,幾乎是“核爆級出圈”,堪稱“工業革命”。那會兒大家還在卷文生圖,它直接把“電影級視訊生成”甩到你臉上。雨水打在玻璃上的折射、人物走路的慣性、鏡頭推進的節奏,那種感覺不是“ AI 在畫圖”,是“ AI 在拍電影”。Sam Altman 一邊發 demo,一邊持續加碼預期。全網一度覺得這玩意兒,遲早要幹掉影視工業一部分。再後來,產品上線,會員專屬,邀請碼炒到飛起。再再後來,Sora 2 發佈,補齊音畫同步、角色對話、分鏡控制,甚至去年 9 月做了獨立 App。到這一步,其實路徑已經很明顯了,它不止想做工具,它是想做“ AI 時代的內容平台”。換句話說,它想成為 AI 版抖音。但問題也恰恰出在這。一開始大家玩得很開心,“把自己丟進電影裡”確實很爽。第一次:臥槽好牛;第二次:再試一個;第三次:……好像也就這樣。然後就沒有然後了。這不是技術問題,是典型的“ demo 型產品”困境,它證明了“能做”,但沒有建立“要一直用”的理由。新鮮感一過,使用者就散,留不住,也養不出習慣。相關資料顯示,Sora APP 的 30 天使用者留存率僅為 1%,60 天留存率直接歸零。與此同時,版權開始紛紛找上門。日本內容機構發函,好萊塢開始緊張。那怕後來 OpenAI 拉來了 迪士尼,給了 IP 授權,開放漫威、皮克斯、星戰這些大殺器,看起來像是“終於要商業化了”。但是劇情出現反轉,到今年 1 月份,Sora 的下載量已暴跌 45%。再往後就更乾脆了:Sora 一關,迪士尼同步撤退,合作終止、投資取消,一起按下暫停鍵。你說這是產品問題嗎?不完全是。真正壓垮它的,其實是更現實的一件事:算力。做視訊太貴了,有測算說,Sora 一天燒的錢在千萬美元等級,一年下來就是幾十億美元的等級。一個使用者生成一段視訊,背後燒掉的資源,夠 ChatGPT 回答幾十次甚至更多問題。為了控製成本,OpenAI 不得不把免費使用者每日生成額度從 30 個削減到 6 個。這樣下來,進一步削弱了普通使用者的使用意願,加速了留存崩塌。同時,Google Gemini、Meta,以及國內的可靈、即夢等競品相繼推出視訊生成功能,使用者分流加速,Sora 的壓力驟增。走到這一步,問題就很直接了,那個賺錢就保留那一個。於是再看 OpenAI 最近的一系列動作,就完全順理成章:整合產品線做“超級應用”,All in 程式設計和生產力,把算力、團隊、資源都往能賺錢的地方集中。甚至有消息稱,為了給下一代模型騰算力,像 Sora 這種高消耗、低回報的業務,優先順序直接被往後排。說白了,這不是“做不出來”,是“沒必要做了”。聽起來冷血,但在 IPO 前,砍掉浪漫、留下現金流,是所有公司的必修課。回頭看,Sora 確實在 AI 視訊領域開了個好頭,只不過如今主角換了。字節跳動 Seedance 2.0 在卷真實世界模擬,水、布料、微表情,全在往“像真人拍的”逼近。快手 Kling 3.0 已經把商業閉環跑通,幾千萬創作者、幾億條視訊,直接悶聲賺大錢。這裡有個很關鍵的差異,Sora 是在“創造一個新場景”,而這些產品,是在“吃已有場景”。中國有短影片、電商、微短劇這套完整生態,模型一出來,立刻就有人用、有人反饋、有人變現。這是一個天然飛輪,而 Sora 當初做獨立App,本質是在從 0 開始搭生態。沒有創作者體系,沒有分發管道,沒有內容土壤。技術再強,也很難跑起來。可見,AI 視訊這件事,已經從“誰模型更強”,變成“誰生態更完整”。AI 行業,也已然從“炫技階段”,進入“算帳階段”。 (科技狐)
字節的“羅福莉”,撐起了Seedance的半邊天
隨著小米新模型的推出,“天才少女”羅福莉再度成為焦點。其實在AI科學家圈子裡,女性數量雖然相對較少,但也絕非羅福莉一顆獨苗。在字節跳動,就有一位羅福莉式的人物。她就是Seedance 2.0視訊生成模型的預訓練負責人,曾妍。一般聊起Seedance 2.0,大家普遍想到的人是掌舵人吳永輝、研發負責人周暢、視訊生成技術核心負責人蔣璐。很少有人知道,曾妍的存在,同樣無可或缺。因為預訓練是整個模型的“基石”,它決定了模型的能力上限。大多數人把預訓練當成“喂資料”,但真正的高手知道,預訓練是在“塑造模型的世界觀”。資料怎麼配比、架構怎麼設計、訓練策略怎麼調整,每一個決策都在決定模型能看到什麼、理解什麼、生成什麼。無論你後面怎麼努力最佳化,預訓練只要沒做好,這個模型就一輩子達不到Seedance 2.0現如今的高度。不僅是貢獻大,曾妍的晉陞速度在字節也是相當快的。從她畢業進入字節開始算起,到現在的4-2職級,曾妍僅僅花了5年時間。4-2職級對應高級總監/權威架構師層級,屬於公司核心戰略級技術骨幹,年包(含基本工資、年終獎、股票)普遍在500萬以上。她到底做了什麼,才有如此成就?讓我們從她的求學之路說起。01 從西交到字節說實話,當我第一次看到曾妍的履歷時,並沒有覺得特別驚豔。1997年出生,西安交通大學本科,加拿大蒙特利爾大學電腦碩士。這條路徑放到現在的AI圈裡太常見了。但接下來發生的事,就不那麼“標準”了。2021年9月,曾妍以校招生身份加入字節跳動 AI Lab,起點職級是演算法工程師。入職僅兩個月,曾妍就以第一作者身份在arXiv上發表了論文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也就是後來大家熟知的X-VLM模型。這篇論文解決的問題,用大白話說就是:怎麼讓 AI 既能看懂“大場面”,又能注意到“小細節”。傳統的視覺語言模型有兩個極端。一種是“粗線條”派,只看圖像整體和文字的對應關係,就像你給AI看一張照片,它只能說“這是海灘”,但說不出更多了。另一種是“顯微鏡”派,依賴昂貴的目標檢測器去摳每個物體,雖然能看到細節,但計算成本高得嚇人,還得依賴大量人工標註資料。曾妍提出的X-VLM,就是取兩者之所長。它能同時學習從整體到局部、從場景到物體、從粗到細的多層次視覺概念,並與文字中的不同粒度資訊精準對齊。或者我用一個我最近剛學會的話來形容:既見森林,又見樹木。這個“多粒度對齊”的思想,在當時看起來只是個學術創新,但它為曾妍後來擔任Seedance 2.0預訓練負責人埋下了伏筆。因為視訊生成的預訓練,本質上也是個多粒度建模的問題。你要想生成一個好看的視訊,那就既要把握整體敘事節奏,讓一段視訊有連貫的故事線;又要控制每一幀的細節質量,確保人物面容不變形、物體運動符合物理規律;還要建立時序維度上的關聯關係,讓前後幀之間的過渡自然流暢。這剛和X-VLM的底層邏輯是一致的。接下來的兩年,曾妍就像開了掛一樣。她以第一作者身份在TPAMI、ICML、CVPR、ACL、NAACL等國際頂會發表了八篇論文,還擔任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等頂會的審稿人。2023年,一個關鍵轉折點到來了。字節跳動成立大模型研究部門Seed,曾妍和所在團隊一同轉入。這個時間節點你得放在大背景下看,2022年底ChatGPT橫空出世,2023年初各大公司紛紛All in大模型,字節也在這波浪潮中調整了技術戰略。曾妍擅長的多模態預訓練,在視訊生成這個新戰場上,能發揮她的全部實力。在Seed部門,曾妍作為第一作者主導了兩個重要項目,分別是CCLM和Lynx。先說CCLM(Cross-View Language Modeling)。這個項目讓AI模型同時學會“跨語言”和“跨模態”的理解能力。CCLM通過統一的預訓練框架,讓在英文圖像-文字資料上訓練的模型,可以零樣本遷移到中文、日文等其他語言的多模態任務上。說白了,就是讓 AI 學會“舉一反三”——在英文視訊上學到的理解能力,能直接用到中文、日文、西班牙文的視訊上。再說Lynx。這是一個系統性研究如何訓練GPT-4風格多模態大語言模型的項目。2023年正是GPT-4剛發佈的時候,大家都在摸索怎麼做出“能看圖說話”的大模型。曾妍團隊通過一系列對比實驗,找出了模型架構設計、訓練資料配比、指令微調策略等關鍵因素,最終做出了 Lynx 模型,在多模態理解和指令跟隨能力上都表現出色。用人話說,就是研究“怎麼造出一個既能看懂圖片又能流暢對話的AI”,並且搞清楚了那些因素真正重要。真正讓曾妍“出圈”的,是2023年年底的PixelDance。這個項目的論文題目很有意思,叫《如何讓像素跳舞》(Make Pixels Dance: High-Dynamic Video Generation)。它解決的是視訊生成領域一個長期存在的矛盾,如何平衡動態性和穩定性。你想想,如果一個AI生成的視訊動作幅度很大、畫面變化劇烈,看起來確實生動有趣,但很容易出現畫面崩壞、角色變形、物體突然消失這些“靈異事件”。反過來,如果你追求穩定性,讓角色和場景保持一致,人物面容不突變,那生成的視訊就容易僵硬,像幻燈片切換而不是流暢的動態影像。曾妍團隊的突破在於,他們在預訓練階段就建立了嚴格的時序約束。傳統的視訊生成模型都是先生成視訊,然後再一幀一幀去修補。PixelDance則是讓模型學會了在保持一致性的前提下生成動態內容。核心創新點是在擴散模型框架中,引入首幀+末幀的雙圖像指令,配合文字指令聯合約束視訊生成,同時在網路結構中新增時序摺積與時序注意力層,從生成的源頭就錨定了視訊的起止狀態,從而保證大動態動作下的主體與場景一致性。就像訓練一個舞者,從一開始就教她在保持平衡的前提下做大幅度動作。PixelDance的成功,讓曾妍在字節內部的地位迅速提升。2024年,她從演算法工程師晉陞為演算法研究員,成為Seed團隊中最年輕的研究員之一。這個晉陞不只是對她學術能力的認可,更重要的是,她證明了自己能把研究成果轉化為實際產品。在大廠裡,這兩種能力的差別,就像會做菜和會開餐廳的差別。02 從 PixelDance 到 Seedance 2.0有意思的是,PixelDance就是Seedance的前身。Seed代表字節的大模型部門,dance則保留了“讓像素起舞”的核心理念。這個改名不只是品牌策略,更標誌著模型從研究原型向商業產品的轉變。2025年6月11日,字節正式發佈了Seedance 1.0,曾妍是該模型的核心研發負責人。雖然直至2026年2月,曾妍才被字節官方確認為Seedance 2.0 視訊模型預訓練負責人,但知情人士爆料,早2025年下半年時,曾妍就已經正式牽頭Seedance 2.0的預訓練全流程工作,成為該項目的核心一號位。她的+2 leader是周暢,+3 leader是Seed團隊負責人吳永輝。Seedance 2.0核心技術突破之一是雙分支擴散變換器架構,這是曾妍團隊在預訓練階段就確立的基礎架構。傳統視訊生成模型採用“先畫後配”的模式。即先生成視訊畫面,再單獨生成或匹配音訊。這種方式的問題在於,音畫分離導致同步性差,人物說話時嘴型對不上,背景音樂的節奏與畫面情緒脫節,音效出現的時機與畫面動作不匹配。Seedance 2.0通過視訊與音訊平行生成的方式,共享同一個理解編碼器,從根源上實現了音畫原生協同。這個架構設計的關鍵在於,讓模型在生成每一幀畫面的同時,就考慮對應的音訊應該是什麼樣的,而不是等畫面全部生成完再去“配”音訊。文章開頭我就講了,預訓練是整個模型能力的基石。曾妍在這個階段需要處理海量的視訊資料,建立視覺、文字、音訊等多模態之間的對齊關係。她通過引入“跨分支校準模組”,即時校準視訊與音訊的節奏、情緒與場景匹配度,確保嘴型與台詞同步、音效與畫面契合、背景音樂與情緒氛圍一致。預訓練階段把所有的多模態對齊關係、物理規律、運動模式都塞進模型裡,成為“默認項”。後續模型只要呼叫到相關內容,就會立刻給出預訓練時的結果。它不是簡單地讓模型記住訓練資料,而是讓模型從海量資料中提煉出普遍規律,形成對世界的基礎理解。Seedance 2.0生成時長1分鐘的2K視訊僅需60秒,比上一代Seedance 1.5 Pro快了30%。速度提升的背後,是曾妍團隊在預訓練階段對模型架構、訓練策略、資料配比的精細調優。她的團隊迭代速度極快,在預訓練階段就完成了擴散模型的多輪最佳化。最佳化注意力機制減少冗餘計算,改進噪聲調度策略加快收斂速度,精選高品質訓練資料提升樣本效率。每一個最佳化點單獨看都不起眼,但累積起來就是質的飛躍。模型規模越大,訓練成本越高,每一個百分點的效率提升都意味著數百萬元的成本節約和數周的時間縮短。Seedance 2.0還實現了多鏡頭敘事能力。這意味著模型不僅能生成長視訊,還能理解“全景-中景-特寫”的專業分鏡邏輯,自動規劃鏡頭切換,生成帶有蒙太奇效果的完整敘事序列。這個能力很大程度上依賴於曾妍在預訓練階段投喂的字節跳動海量短影片資料。抖音每天產生數以億計的短影片,這些視訊雖然大多是普通使用者拍攝,但其中不乏優秀的鏡頭語言和敘事技巧。曾妍團隊從這些資料中篩選出高品質樣本,讓模型學習到了人類導演的鏡頭語言和敘事節奏。這種從資料中提煉出的“導演直覺”。03 曾妍與羅福莉同為女性AI科學家,曾妍和羅福莉在模型研發中,都擅長尋找“平衡點”。在DeepSeek時期,羅福莉參與的DeepSeek-V2,通過MoE架構的稀疏啟動,把推理成本降到了GPT-4 Turbo的七十分之一,但是性能卻與頂尖的閉源模型十分相近。這就像設計一個大型圖書館,雖然藏書百萬冊,但每次查詢只需要翻開其中幾本,而不是把所有書都搬出來。這種“按需啟動”的機制,讓大模型的成本驟然下降,卻不怎麼損失性能。羅福莉在性能與成本之間,找到了這樣一個平衡點。到了號稱“性價比之王”的小米,羅福莉把DeepSeek的精神貫徹到底。她主導團隊與北京大學聯合研發資源管理系統ARL-Tangram,讓模型的算力成本直降71.2%。然而成本下降並不意味著性能下降。使用了該技術的兆參數的旗艦模型MiMo-V2-Pro,在Artificial Analysis全球大模型綜合智能排行榜上位列第八、國內第二。羅福莉證明了一件事:性價比不是某個項目的偶然,而是一種可以跨平台複製的方法論。曾妍的平衡點則是前文提到的動態性和穩定性,讓視訊生成模型又能講好故事,又有畫面張力和視覺衝擊力。兩人不同的是職業規劃。羅福莉從阿里跳到幻方,再到DeepSeek,這條路徑是“從大廠到創業公司,從工程應用到模型研究”。曾妍則是在字節內部一路深耕,5年時間完成了從校招畢業生,坐到了4-2的位置。兩條路徑沒有高下之分。在AI大模型這個燒錢、拼資源、看長期積累的領域,年輕的技術人才依然可以通過對問題的深刻理解,在短時間內做出關鍵貢獻。有可能他們研究的方向,你聽都沒聽過,但就是有效。她們的故事才剛剛開始。 (字母AI)
《吳宗憲跨縣力挺徐欣瑩 竹北竹東問政會爆滿、陪掃夜市拜票》國民黨新竹縣長參選人、立委徐欣瑩15日傍晚在竹北、竹東分別舉辦問政說明會,國民黨宜蘭縣長候選人、立委吳宗憲也親自來到現場為徐欣瑩助講,也陪同竹北夜市掃街拜票。吳宗憲說,現在執政黨「不潑髒水不會選舉」,徐欣瑩從政一路走來清清白白,相信徐在年底大選絕對不怕民進黨的抹黑造謠,也最有機會為國民黨守護新竹縣藍天,懇請新竹縣鄉親一定要支持「會贏的人」徐欣瑩。兩場問政會即便在周日舉辦,現場依舊人聲鼎沸,竹北場破千人出席,竹東場更是擠爆活動中心。甫通過國民黨宜蘭縣長黨內初選的立委吳宗憲也現身力挺。他說,為了徐欣瑩,即便雪隧塞車三個小時,還是要前來站台,就是希望正派、清白的人選能真正得到肯定。吳宗憲說,政府存在的目的就是要帶給人民幸福,如同新加坡政府強調誠信是基本要求。徐欣瑩不但正直、清廉、更值得信任,且說到做到。若我們期待台灣政治越來越乾淨,就應該全力支持願意做事且品格操守皆經得起檢驗的徐欣瑩。他也相信,鄉親絕對有智慧來分辨誰才是國民黨最適合的新竹縣長人選,吳宗憲還提到,民進黨選舉很厲害、不潑髒水不會選舉,當時他初選通過後,民進黨就頭很痛;同樣的,徐欣瑩和他一樣,一路走來清白乾淨,無懼抹黑,也絕對不怕民進黨造謠,也相信從政背景正派正直、且可以受到外界全面檢驗的徐欣瑩,在年底大選對民進黨時有更大的機會為國民黨獲得勝利。徐欣瑩致詞則用流利客語和國語侃侃而談,說明過去擔任兩任議員、兩任立委,為地方爭取上百億預算。這次參選新竹縣長,就是為了守護新竹縣的陽光政治和國民黨改革火種。未來擔任縣長也要加碼照顧包含竹東、竹北的全縣鄉親長輩和年輕家庭,提出包含敬老愛心卡由500元加碼至1,000元,並開放生活消費使用;針對所得稅20%以下的 65歲以上長者,全面補助健保自負額;推動「AI遠距視訊醫療」與「AI醫療專車」,以打破城鄉醫療落差等務實政見。徐欣瑩也強調「教育政策是重中之重」,新竹縣家庭家長常面臨育兒資源與教育的壓力,他承諾上任後將立刻增加幼兒園與2歲專班名額,並布建臨時托嬰托育系統,讓年輕家庭安心養育。對於中小學生,她主張讓孩子從小受AI教育薰陶,立即實現「人人有平板」,確保下一代站在世界最前面。
剛剛,蘋果祭出地表最強AI PC,頂配6萬5,M5 Max芯核彈AI性能暴漲4倍
蘋果一切向著AI,性能暴漲價格也暴漲。智東西3月4日消息,繼3999元用上蘋果A19晶片iPhone後,剛剛,蘋果春季新品發佈第二彈正式揭曉:兩款Mac筆電晶片:M5 Pro和M5 Max;兩款新電腦:蘋果MacBook Pro、MacBook Air;兩台新顯示器:Studio Display、Studio Display XDR;沒錯,庫克一口氣端上來6款重磅新品,各個都看點十足。作為地表最強PC筆電晶片,M5 Pro和M5 Max的CPU、GPU都有大幅性能升級,基於新融合架構“拼好芯”,蘋果將兩顆3奈米晶粒合二為一,與其他模組共同構成SoC,兼顧高頻寬和低延遲。兩顆晶片的每個GPU核心都塞入了神經網路處理器,加上統一記憶體性能的提升,M5 Max的AI峰值性能相比上代暴漲了4倍。比如在AI圖像生成任務中,搭載M5 Max的MacBook Pro比上代快了近4倍,在大語言模型提示詞處理、AI視訊處理方面也有數倍提升。AI,毫無疑問是兩顆晶片升級到重點。蘋果特別提到,他們“從頭到尾打造晶片都是為AI精心建構”。基於這兩顆晶片打造的新款MacBook Pro不僅有著Mac筆電史上最長的24小時續航、翻倍的固態硬碟速度,針對各類AI任務的處理速度都有大幅提升。相比之下,搭載M5晶片的MacBook Air就沒有太多升級點,輕薄、價格更低依舊是其核心優勢。兩款顯示器的升級重點一個是畫質,一個是介面擴展性,兩者均為27英吋5K解析度,蘋果稱之為“視網膜級”顯示,畫面非常細膩。兩者螢幕技術均為Mini LED,但XDR版有2304個分區並支援120Hz高刷,標準版只有60Hz。▲Studio Display XDR此次兩台顯示器的HDR峰值亮度升級到了2000nit;介面方面,兩款顯示器都支援最多6台串聯,顯示6000萬像素圖像。價格方面,14英吋搭載新M5 Pro的MacBook Pro起售價為17999元,儲存為24GB+1TB起步,如果是16英吋M5 Max版全部“拉滿”,總價最高在64719元,當然,這包含了兩款軟體和Apple Care服務,去除後大約58124元。即使是17999元的起售價,相比上代同儲存規格M4 Pro版MacBook Pro發售時的15699元,也漲了2300元左右。MacBook Air是16GB+512GB儲存規格起步,13英吋售價8499元起,上代同規格M4版MacBook Air售價9499元,下降了1000元。但值得注意的是,新款MacBook Pro和MacBook Air的起步固態硬碟規格都漲了,Pro從512GB漲到了1TB,Air從256GB漲到了512GB。哦對了,蘋果生怕你不知道該不該升級、提升大不大,所以貼心的為你放上了“比一比”,但其中只有M2及以前的老機型,甚至還有英特爾處理器的機型對比。使用者心理拿捏這塊,庫克是懂得。兩款顯示器,Studio Display起售價為11999元,Studio Display XDR起售價為24999元,Nano-texture奈米紋理螢幕玻璃版本售價27499元。好傢伙,“一層膜”2500元,果然夠蘋果。所有新品都是3月4日開始預購,3月11日正式發售。01.晶片封裝黑科技加持單線程王者依舊,AI能力大提升作為M5系列的兩款新品,M5 Pro和M5 Max的GPU同樣加入了神經網路加速器,與M5相同,因此這兩款晶片的AI性能也進行了重點升級。蘋果稱這兩款晶片使用了他們設計的新融合架構:將兩顆晶粒結合為一個單片系統(SoC),也就是我們在Ultra上曾見到過的“拼好芯”,也是業內目前稱之為“Chiplet”的熱門晶片封裝工藝。這一工藝兼顧高頻寬、低延遲,將兩顆第三代3奈米晶粒合二為一。兩顆晶粒集CPU、GPU、媒體處理引擎、統一記憶體控製器、神經網路引擎和雷靂5控製器於一體。M5 Pro和M5 Max的CPU均為18核,包括6顆性能較高的“超級核心”和12顆針對高能效、多線程工作負載最佳化的性能核心。因此也可以說是“全大核”架構。根據蘋果官網資訊,18核CPU專業工作複雜處理性能最高提升30%。蘋果特別提到,CPU的單線程性能首屈一指,這部分得益於更高的前端頻寬、新快取結構和強化的分支預測技術。GPU方面,M5 Pro和M5 Max有較大差異。M5 Max的GPU最多支援40顆核心,每個核心裡都有神經網路加速器,GPU配備了更高的統一記憶體頻寬,處理AI任務的峰值GPU計算性能相比前代機型提升了4倍。圖形性能方面,對於使用光線追蹤的App,GPU性能相較M4 Pro和M4 Max提升最高可達35%。M5 Pro的GPU為20核,僅有Max版的一半,處理AI任務時的峰值GPU計算性能相比M4 Pro提升超過4倍。其他方面,M5 Pro和M5 Max都整合了16核NPU,安全性方面,支援Memory Integrity Enforcement,蘋果稱這是一項行業首創的記憶體安全保護功能。蘋果硬體技術高級副總裁,我們的老熟人Johny Srouji稱,M5 Pro和M5 Max代表了蘋果晶片的里程碑式提升,MacBook Pro性能、能效和裝置端 AI 處理能力的大幅提升都離不開兩顆晶片的升級。▲在Xcode等App中加速程式碼編譯和裝置端智能體程式設計02.史上續航最長的Mac筆電AI和專業生產力是重頭戲新款MacBook Pro的晶片有M5、M5 Pro和M5 Max三個版本,AI能力有重點增強。蘋果稱這是史上續航最長的Mac筆電,最長可達24小時,並且快充只需要30分鐘就能充50%電量。14英吋機型可選配M5、M5 Pro或M5 Max晶片,16英吋機型可選配M5 Pro或M5 Max晶片。M5 Max晶片的GPU還分為32核和40核不同版本,庫克這刀法,真的切麻了。儲存方面,MacBook Pro的固態硬碟速度最高提升了2倍。新款MacBook Pro的讀寫性能峰值速度為14.5GB/s,在處理4K與8K視訊項目、大語言模型和複雜資料集等任務工作流時能提高效率。此外,MacBook Pro搭載了N1晶片,支援Wi-Fi 7和藍牙6。蘋果特別提到,M5系列晶片的GPU內都有神經網路加速器,對基於擴散模型生成圖像、大語言模型提示詞處理,裝置端Transformer模型訓練等各類AI任務的處理速度都有大幅提升。在蘋果看來,M5 Max是其為專業級Mac筆電打造的最強晶片,目標使用者是3D特效藝術家、AI開發者和電影作曲家。蘋果強調稱,蘋果晶片以及驅動它的每個重要子系統,都是圍繞AI所設計,“從頭到尾打造晶片都是為AI精心建構”,其優勢在於整合硬體、軟體和生態系統。在官網案例中,蘋果提到了Msty Studio、LM Studio這些大語言模型App,App中的AI工具也可以在晶片加持下獲得更好體驗,比如Logic Pro中的大分軌拆分器AI功能。▲AI圖像、音訊處理提到AI處理能力提升,統一記憶體的升級也發揮了作用,M5 Pro支援最高307GB/s記憶體頻寬,M5 Max則支援最高614GB/s記憶體頻寬。在很多高端PC筆記型電腦都升級了OLED螢幕的今天,蘋果頂級MacBook Pro仍然採用了一塊LCD螢幕,當然,這塊螢幕的素質沒得說,與上代參數基本看齊,不過“昏暗環境亮度可降到1尼特”算是蘋果在護眼方面的一點升級。MacBook Pro的介面依然豐富,配備了三個雷靂4或雷靂5連接埠、一個HDMI連接埠、一個MagSafe 3連接埠、一個SDXC卡插槽和一個耳機插孔。電腦手機互聯方面,iPhone鏡像、即時活動、通用剪貼簿、電話App、接力都是我們很熟的功能了,不做贅述。相比MacBook Pro,MacBook Air的配置相對簡單,晶片只有M5一個版本,續航最長18小時。在核心的輕薄方面,13英吋的MacBook Air重量為1.23千克,厚度不到1.2釐米,另外還有15英吋的版本。在MacBook Air部分,蘋果依然強調了AI能力的提升,當然,與Pro相比會少一些專業軟體的介紹。03.“視網膜”級顯示器來了連接擴展性大提升除了兩款新MacBook,蘋果這次上架的兩款“專業”顯示器同樣可圈可點。27英吋的Studio Display有著5K解析度(5120x2880),是一款Mini LED顯示器,峰值亮度從此前蘋果“祖傳”的1600nit升級到2000nit,更新頻率為120Hz。今年新iPhone 18系列的螢幕峰值亮度或許也會同步提升至2000nit。Studio Display XDR同樣為27英吋5K解析度的Mini LED顯示器,調光分區增加到2304個,HDR峰值亮度同樣升級到了2000nit。5K解析度總共有1400多萬個像素,在27吋的尺寸下,蘋果稱之為“視網膜螢幕”。兩台顯示器都配備了1200萬像素攝影機,支援人物居中跟蹤。介面方面,兩款顯示器都新增了雷靂5連接能力,總共提供2個連接埠,可以最多同時串聯4台Studio Display顯示器,實現接近6000萬像素的畫面顯示。在專業性方面,Studio Display XDR在P3廣色域之外新增了對Adobe RGB色域的支援,可以說是一款校準參考顯示器,對印刷設計類專業人士是一大利多。04.結語:軟硬一體協同仍是蘋果AI時代王牌此次蘋果祭出的兩款王炸晶片,以及基於晶片升級的新款Mac筆電,都花了不少篇幅提及AI方面的能力提升,以及在各類端側AI應用方面的流暢表現,可以看到,蘋果對AI是非常重視的,而晶片層的支援則成為蘋果產品的獨特優勢——軟硬協同一體。面向未來的AI大戰,蘋果智能在國內的落地備受關注,3月4日蘋果會在上海的活動中放出怎樣的驚喜,我們拭目以待。 (智東西)
AI 爆款視訊製作復盤:全網2500萬曝光、Cursor+Seedance,我如何做的?
在視訊/音訊/文字內容生成技術越來越強的當下,AI時代的內容創作者要如何更好利用AI?創作者和工具之間的關係會如何發展?Medeo 產品負責人晨然在這篇文章裡拆解了自己用Seedance 2.0 製作爆款視訊的全流程,很有參考意義。2月12號,我發了一條用 AI 做的《怪奇物語》終局之戰的視訊。然後它爆了。僅黑叉平台一個管道,92 條相關推文的總瀏覽量就達到了 1914 萬。總點贊 52 萬,轉發 4.9 萬,回覆 5000+。其中我的原帖只佔了 234 萬瀏覽,剩下 1680 萬全是別人搬運和討論帶來的。最大的搬運者是巴西博主 @nerdemcartaz,他一條轉發就拿了 492 萬瀏覽——比我原帖還多一倍。我的視訊被全球至少 6 種語言的人搬運:英語、葡萄牙語、土耳其語、中文、日語、西班牙語。Ins 上至少 12 個帳號搬運,估算曝光 500-1000 萬。TT 估算 100 萬+。油管也有大量傳播。最讓我詫異的是——好萊塢頂級媒體 Deadline 寫了專題報導,Cosmic Book News 也做了報導,專門提到了我的視訊,原文說 "one post has more than 2M views"。全網總曝光保守估計:2500 萬+。我一個人做的 AI 視訊,全球拿了 2500 萬曝光,還上了好萊塢的新聞。01 先有了爆款方法論,我才有了爆款視訊但最離譜的不是這個資料——而是這件事發生的時間線。故事要從兩天前說起。2月10號,我在給 Medeo 的同事們寫了一篇文章,叫如何提升網感,做出百萬播放量的視訊?那篇文章裡,我認真分析了爆款的底層邏輯。我寫道:內容要的就是稀缺。任何內容都必須滿足稀缺這個屬性。我總結了社交媒體上的各種稀缺性類型——虛構昂貴的電影場景、IP 混搭的同人二創、高動態的超越人類體驗的內容、風格反差……我還說了,一個好的爆款內容,需要同時滿足好幾個維度:對於稀缺性的精準設計對於某個"梗"的深刻理解對於情緒共鳴點的放大指令碼階段,基本上就能預判出內容是否具備爆款潛力。寫這些的時候,我信心滿滿。方法論已經想得很清楚了,每一個點我都分析得頭頭是道。但是——寫那篇文章的時候,我自己其實還沒做出過爆款。文章裡我放了好多自己做的實驗視訊:如來佛祖玩 VR 壓孫悟空、Taylor Swift 和 Blackpink 在舞台上互扯頭花、寂靜嶺風格的逃跑視訊……每一個我都覺得不夠好。我給自己的評價是:笑點不夠密梗不夠多資訊密度太低反轉力度不夠那篇文章的最後一句話,我寫的是:"我還在摸索中。"就很真實對吧?一個還沒做出過爆款的人,在寫怎麼做爆款的方法論。那個時候,我不知道這套理論到底行不行。我只是覺得方向是對的,但還在實踐的路上。說實話,心裡是有一點慌的。萬一這套東西根本不管用呢?誰能想到,僅僅兩天后,視訊就真的爆了。2月12號,我用 Seedance 2.0 做的《怪奇物語》終局之戰視訊爆了。然後——一切都變了。瀏覽量開始飛漲。搬運開始瘋狂傳播。我眼睜睜看著通知列爆炸。爆款的體感是,即時能刷新出評論,像在看時間線一樣。評論區徹底炸了。各種各樣的人在說各種各樣的話:怪奇物語的粉絲最激動。他們等了這麼久,終於看到有人"修復"了那個讓他們失望的結局。評論裡到處都是:"This is better than what we got"(比我們看到的原版好多了)"We're not ready for this"(我們還沒準備好接受這個)"AI just gave us the ending we deserved"(AI 給了我們應得的結局)科技圈和路人直接被震住了。 很多人根本不敢相信這是 AI 做出來的:"AI is getting scary"(AI 開始嚇人了)"This is terrifying"(這太恐怖了)"Hollywood is cooked"(好萊塢完蛋了)"AI is happening fast"(AI 發展太快了)還有人叫我修復權游結局。有人甚至在爭論我的視訊到底有多少是 AI 生成的、多少是真實素材混剪的Cosmic Book News 專門寫道:"The face matching and voice syncing are so tight that people are debating how much of the footage is AI versus blended source material."(面部匹配和聲音同步做得太逼真了,人們在爭論到底有多少是 AI 生成的。)最離譜的是行業內的人也來了。 SAG-AFTRA(美國演員工會)甚至因為這波 AI 視訊浪潮專門發了聲明。Deadline 寫了專題報導,Cosmic Book News 也做了報導,都點名提到了我的《怪奇物語》視訊。(雖然是點名批評,但也是一種認可…)巴西博主 @nerdemcartaz 搬運了我的視訊,單條就拿了 492 萬瀏覽——比我原帖還多一倍。全球至少 6 種語言的人在搬運和討論。從英語、葡萄牙語、土耳其語,到中文、日語、西班牙語——我根本看不懂一半的評論,但我看得懂下面的數字在漲。02 復盤:我到底是怎麼做到的?回過頭看,這次爆發的核心原因,恰恰就是我在2月10號文章裡分析過的那個詞——稀缺性。只不過這次,好幾個維度的稀缺性同時疊在了一起。一、時間節點的稀缺Seedance 2.0 當時只有中國創作者能用,外網創作者還用不上。這個時間窗口非常關鍵——我們比別人早拿到了武器,就應該第一時間製作視訊。二、AI 臨界點的爆發AI 視訊的質量到了一個臨界點。大部分普通觀眾根本不知道現在的 AI 原來已經可以做到這麼好了。這種"震驚感"本身就是巨大的稀缺。三、內容本身的稀缺這一點是最關鍵的。《怪奇物語》的粉絲對結局不滿意。這種不滿催生了強烈的內容需求。內容是由市場催生的,由市場決定的。創作者並不是真的在引領時代,你只需要比市場和觀眾的預期跑在前頭一點點,這就是好的內容。看起來你是在做很多創新的東西,實際上是因為人心所向,很多人期待看到這樣的內容,它就應該被做出來。創作者只是一個承接的載體,負責將這些內容具象化。2.1 寫指令碼佔了我 80% 的精力。我在 Cursor 裡面和 AI 模型一起討論,讓它去全網搜尋《怪奇物語》中有那些缺憾點,大家在 Reddit 上對結局有什麼不滿。我想彌補這些缺憾。自己去想一個指令碼很可能不符合市場預期,所以我會跟 AI 反覆討論、不停迭代。這個過程是非常迭代式的:我一開始並沒有寫整個兩分半鐘的指令碼,甚至都沒想過要做到兩分半。製作過程是每 15 秒、15 秒進行的。每次只想 15 秒的指令碼,要求接下來的 15 秒一定有節拍的反轉。我是看了 AI 做出來的 15 秒之後,才決定接下來要怎麼做。有時候是 AI 生成的戰鬥畫面給了我靈感,我再回去改指令碼。最多同時只構思了 30 秒的內容。整體的故事框架直到做到 80% 的時候才成型——最開始只是有一個方向。先做 MVP 測試本來我設想了很長的劇情,但有可能做出來沒人看。在做長視訊之前,我先做了一個成本很低的 MVP 實驗。我一個晚上先做了《怪奇物語》的第一集短片,40秒內容,發在小紅書上,很快就有幾百上千的點贊。這說明——這是市場需要的內容。第一集在抖音也爆了,3k贊,比我以前所有視訊好。直接做長視訊,很有可能做出來沒人看。用短影片先測試,成本很小,速度很快。驗證了之後,再放心地投入精力做長的。2.2 打鬥設計:一層比一層爽做第二集的時候,我關注兩個點:文戲要貼近角色,打鬥要極其精彩。打鬥分三個環節,規格一層層升級,讓觀眾越來越爽:Will 對抗 Vecna —— 觀眾特別想看到 Will 覺醒超能力,反抗第一季就抓走他的 Vecna。Eleven 和 Eight 聯手打 Vecna —— 彌補了她們從來沒合作過的遺憾。他們三個都是從同一個實驗室出來的,這種三角關係本身就有內在的張力。奪心魔打 Vecna —— 怪物之間的大場面,超出所有人的預期。最後引出 Max 拯救小 Henry 的終極反轉。2.3 反轉、反轉、再反轉這次經歷之後,我對一件事的理解變得非常深刻視訊是一個線性的東西。什麼意思呢?視訊不像文章,讀者可以跳著看、掃一眼標題就知道大概。視訊是一秒一秒往前走的,觀眾只能按順序看。如果他在第 3 秒劃走了,你後面做得再精彩他也看不到。完播率的資料是很殘酷的:2 秒內劃走的人可能就有一半,5 秒內劃走的人可能是 80%。想想這意味著什麼——你辛辛苦苦做了兩分半鐘的視訊,80% 的人連前 5 秒都沒看完就走了。你後面所有的高光、所有的反轉、所有的精心設計,對這些人來說根本不存在。以前我對這件事的意識沒那麼深刻。但現在,我對前 3 秒和前 5 秒的設計極其看重。因為如果前 5 秒留不住人,後面就是廢片。不是後面做得不好,是觀眾根本沒機會看到後面。所以整個視訊就是一個線性的大漏斗:每一秒都在流失觀眾,你能做的就是讓每一秒都有值得看下去的東西,把流失降到最低。我在設計劇情的時候,核心原則就是——每一秒都要有爆點,每一秒都要有很高的資訊密度,觀眾才不會劃走。整個兩分半鐘的視訊,我至少設計了 8 次反轉:反轉一(前 5 秒): 讓觀眾瞬間意識到這是一個同人二創。場面上,竟然能看見 Will、Eleven 和 Eight 聯手對抗 Vecna。前 5 秒就給到了 Will 高光,展示他掌控了"蜂巢"的超能力並用來反攻 Vecna——這是開篇的爽點。反轉二: 當觀眾以為 Will 能夠跟 Vecna 決一死戰時,劇情反轉了:Vecna 直接打敗了他,Will 的控制力瞬間消失。反轉三: 當觀眾以為主角團即將被抓時,Eight 的幻覺起了作用,給觀眾一個喘息的機會。反轉四: 當觀眾以為 Eight 的幻覺很強時,Vecna 展現了更強的能力,直接把 Will 抓走。此時節奏慢下來,給出反應鏡頭。反轉五: 當觀眾以為 Will 被抓、大家陷入無奈時,安排 Eleven 和 Eight 聯手進行一段高強度的打戲。反轉六: 當觀眾以為這段打戲能贏過 Vecna 時,結果反轉成三個人都被抓。隨後進入一段文戲對抗,增加內在張力。反轉七: 當觀眾以為他們還會繼續打鬥升級時,場外的奪心魔加入戰鬥,讓事情變得更加有趣。場外因素是一個超出預期的變數,打破了打鬥的平衡,就會很有意思。終極反轉: 在觀眾還不知道發生什麼的時候,讓 Max 成為主角並獲得高光,拯救過去的小 Henry。整個劇情設計就是反轉、反轉、再反轉。 觀眾永遠猜不到下一秒會發生什麼,這就是他們不會劃走的原因。用反轉跑贏了小紅書大盤2.4 文戲:每句台詞都要簡短有力我在設計文戲的時候,刻意要求每個角色說的話都非常簡短有力。而且每個人都必須有高光,每個人都必鬚髮揮作用,每個人的作用之間還要有張力。這裡拿幾段我設計得比較滿意的文戲來拆解一下。Will:"You put this thing inside me. Now it's mine!"這是開場第一句有台詞的文戲。Will 翻著白眼嘶吼出這句話的時候,控制著魔王衝向 Vecna。為什麼這句台詞有力?因為 Will 從第一季就被 Demogorgon 抓走,第二季被 Mind Flayer 附身——他從頭到尾都是一個受害者。觀眾等了五季,就想看 Will 站起來。而這句話的意思是:你在我身上種下的東西,現在我學會用它了,而且比你用得更好。 他不是在否認這段創傷,他是把創傷變成了武器。劇本裡 Vecna 後來在空中還嘲諷他:"You think that power belongs to you? I planted it in you when you were twelve. Every connection, every whisper you ever heard — was me calling it home."Will 咬著牙回了一句:"Then you made a mistake... because I learned to use it better than you ever did."這段空中對峙的文戲,我故意把節奏放慢了——前面全是快切打鬥,突然慢下來,兩個人在血紅天空下面對面懸浮,給每一句台詞留呼吸的空間。快和慢的對比,讓台詞更有重量感。Eleven + Eight + Vecna 的三人對峙這是我覺得全片情緒最集中的一段文戲。三個人全部被 Vecna 抓住,動彈不得。此時打鬥已經打不了了,只剩下語言。我喜歡他們三人的內在張力衝突,都是一個實驗室的。Vecna 居高臨下地說:"A new world is coming. And none of you will be in it."Eleven 滿臉鮮血,但抬頭死死盯著他:"There is no new world. Only you, alone."——這是在戳 Vecna 最深的恐懼。他不是在建設什麼新世界,他只是一個孤獨的人。然後 Eight 嘴角掛著血,扯出一絲笑:"You sound just like Papa."這一句是我跟 AI(Claude 4.6 Opus)聊出來的。我跟它說,我需要一句簡短有力的嘲諷,要能夠一下子把 Vecna 惹怒。為什麼這句話殺傷力這麼大?因為 Vecna 的前身 Henry Creel 從小就被 Dr. Brenner(Papa)當作實驗品,被關在實驗室裡,被當作工具。他恨透了 Papa,恨透了被控制的感覺。他後來殺了實驗室裡幾乎所有人,就是為了反抗 Papa。但現在——他在做什麼?他在控制別人,把別人當工具,居高臨下地宣判誰有資格活著。他變成了自己最討厭的那個人。 而說出這句話的是 Eight——同樣從那個實驗室出來的孩子。她太清楚 Papa 是什麼樣了,所以這句話從她嘴裡說出來,殺傷力是最大的。指令碼裡我寫了 Vecna 的反應:表情瞬間僵住,嘴角弧度消失,瞳孔微縮。然後憤怒從臉上炸開——藤蔓不受控制地狂亂抽搐。他被戳中了。Eight 的 "try harder"還有一段——Eight 用幻術騙了 Vecna,讓他以為抓住了三個人,結果全是幻影。Vecna 碾碎幻影之後停頓了一瞬,Eight 從掩體後面抬起下巴看著他,鼻血掛在臉上,嘴角一扯:"Try harder."就兩個詞。但你能感受到她的那種不屑——你這麼強大,結果連真假都分不清?這種挑釁反而讓 Vecna 看起來更可怕,因為他馬上就爆發了,新的藤蔓比之前更快更密地射出來,一把抓走了 Will。Max 的 "Got you."最後說一段我特別喜歡的設計。Max 在精神世界裡待了很久(原劇第五季設定裡她的意識被困在 Vecna 的精神世界中)。她見過無數次幼年 Henry Creel 的記憶——一個蹲在黑暗洞穴裡瑟瑟發抖的小男孩,手裡攥著一塊被奪心魔寄生的石頭。但原劇裡 Max 從來沒有過去跟那個小男孩互動過。我覺得這是一個遺憾——小 Henry 也是一個等待被拯救的孩子。所以在我的指令碼裡,我安排 Max 飛昇進入 Vecna 的精神深處,蹲在小 Henry 面前,輕輕從他顫抖的手裡接過那塊石頭,把他護在身後。然後她低頭看著掌心中的石頭,嘴角緩緩上揚:"Got you."就兩個字。但你能感受到她已經贏了。這個高光比安排她去拯救 Holly 要出彩得多——Max 一直有一種"孩子王"的氣質,她來保護這個被所有人遺忘的小男孩,才是最適合她的高光。03 我是怎麼用 Seedance 和 Cursor 的前面聊的都是指令碼和創意層面的設計思路,這裡說一下具體的製作流程——我是怎麼把指令碼變成視訊的。指令碼的固定格式,我在 Cursor 裡面給每一個生成場景寫指令碼,用了一套固定的格式。每個生成指令碼都有幾個固定類股:角色 + 參考圖——每個出場角色都對應一張參考圖,用 【@圖片】 的方式引用背景介紹——交代前情和環境鏡頭描述——逐鏡頭寫清楚畫面內容、角色動作、台詞風格指令——統一的視覺風格要求關鍵是多參考圖的方式。每個角色一張參考圖,場景也有參考圖,一個 scene 可能會掛 6-8 張圖。這樣做的好處是 Seedance 在生成的時候能更準確地還原每個角色的臉和穿著,不會搞混。尤其是多角色同框的場景,沒有參考圖的話 AI 很容易把人搞混。這裡有一個小技巧:你可能會問,《怪奇物語》的角色 IP 已經被訓練進模型了,為什麼還需要用參考圖?原因有三個:固定年齡。 《怪奇物語》拍攝跨度很大,演員們從 11 歲拍到成年。模型的訓練素材裡包含了多個年齡段的形象,如果不用參考圖鎖定,生成出來的可能是 11 歲的 Eleven,也可能是 18 歲的——你沒法控制。參考圖可以鎖定"我要的就是第五季這個年齡的臉"。統一穿著。 每個角色在不同季、不同場景裡的穿著完全不一樣。我需要保證整個視訊裡每個角色的衣服、造型和定妝照保持一致,這只能靠參考圖來固定。還原戰損狀態。 大戰場景裡每個人臉上都有傷、有血、有灰塵。這種"戰損妝"是原始訓練資料裡沒有的,必須通過參考圖來告訴 AI "這個角色現在長這樣"。所以,即便有了訓練好的模型,依然必須要用參考圖。 模型知道這個人是誰,但參考圖告訴它:這個人現在幾歲、穿什麼、臉上有沒有傷。那麼角色參考圖從那裡來呢?我直接下載了最後一集,從原視訊當中截了每個角色的圖。場景參考圖怎麼來的呢?用Medeo生成的。因為Medeo能理解我的劇本直接做出來。3.1 用 Cursor 的資料夾管理資源在 Cursor 裡面,我用資料夾來管理整個項目的所有資源:所有參考圖統一放在一個資料夾裡。每個角色的參考圖、每個場景的參考圖,都按編號整理好。寫指令碼的時候直接 @ 引用對應的圖片就行,不用到處找。每個 scene 的參考圖按格式逐一放入指令碼。 寫完之後,一個 scene 的所有資訊——prompt 文字、角色圖、場景圖、風格指令——全都集中在一起。可以直接一次性複製貼上到即夢裡。 做視訊的時候,我打開指令碼檔案,找到對應的 scene,整塊複製過去就能開始生成。不需要來回切換窗口找素材、找描述、找風格指令。這個工作流看起來簡單,但省掉了大量的來回切換和尋找時間。做 AI 視訊最怕的就是素材散落在各處,每次生成都要東翻西找。把一切集中在一個格式化的指令碼檔案裡,效率提升非常大。3.2 10-15 秒一個 scene = 一次生成 = 一個反轉我的每個 scene 設定在 10 到 15 秒。因為 seedance 最大生成秒數是 15秒。前面說過,我要求每 15 秒必須有一次情緒反轉。所以一個 scene = 一次生成 = 一個反轉節拍,三者完美對齊。這意味著我每做完一個 scene,就能看到一個完整的情緒波動:鋪墊 → 高潮 → 反轉。看完之後,我再決定下一個 scene 怎麼接——是繼續升級,還是突然轉向。這也是我之前說的"迭代式創作":做一段、看一段、想一段。根據 AI 實際生成出來的畫面來調整後面的走向。有時候 AI 生成的畫面超出預期,反而給了我新的靈感,我就回去改指令碼。3.3 指令碼和生成是互相喂養的,不是單向的。很多人可能以為 AI 視訊是"生成一次就能用"的。實際上遠不是這樣。我的做法是:每一個 scene 的 prompt,我會生成 4 到 6 次。 然後把所有能用的素材全部拖到剪輯軟體的時間軸上,進行混剪。為什麼要這樣做?第一,視覺一致性好。 因為用的是同一個 prompt,Seedance 2.0 的指令遵循度很好,生成出來的多條素材在風格、色調、角色外觀上會非常接近。這意味著把它們剪在一起的時候,觀眾不會覺得突兀——看起來就像是同一個鏡頭的不同角度。第二,打鬥場景必須剪輯。 像打鬥這種複雜場景,AI 生成的畫面還是會有很多穿幫的地方——手臂穿模、動作不連貫、物體突然消失之類的。這時候就需要用剪輯技巧來處理,比如匹配剪輯,在穿幫的地方切到另一條素材的對應時刻,觀眾就看不出來了。第三,提高素材利用率。 這一點很關鍵。AI 生成的視訊,很多時候不是整條都能用的:一條視訊可能只有 60% 是好的,剩下的穿幫了,那我就只取那 60%。有時候畫面不行,但角色的配音表現特別好——語氣、情緒都很到位。這種情況我就單獨提取音訊,然後配上另一條素材的畫面。反過來也有畫面很好但聲音不對的,同樣可以互相替換。所以最終的成片,其實是從 4-6 條可用素材裡挑出最好的部分,拼在一起的。04 最後說一個比較玄的體會。在創作過程中,我有的時候會注意到一些很奇怪的細節——一個角色的表情、一段對話的節奏、一個畫面的構圖。當時說不清楚為什麼覺得重要,但就是覺得不對,或者覺得很對。後來我發現,這些直覺往往是對的。比如我在設計 Max 拯救小 Henry 那場戲的時候,一開始並不是計畫好的。是我在看劇的時候突然覺得"這個小男孩好可憐,為什麼沒有人去管他"——就這麼一個模糊的念頭,最後變成了全片最打動人的一個設定。以前看書看到,編劇的方法論中有一種"頓悟時刻",就是你把一個個拼湊起來的線索合併成一個完整的劇情,突然覺得"啊,原來是這樣"。就像《星際穿越》裡主角掉進黑洞,觀眾突然理解了——四維空間就是未來的人類。那個"啊"的瞬間,是最讓人爽的。好的創作不是從頭到尾都想清楚了再做。好的創作是在做的過程中,不斷相信自己的直覺,然後一步步把模糊的感覺變成清晰的作品。說實話,這次爆發運氣成分很大。Seedance 2.0 剛好在那個時間點發佈,我剛好是最早知道的一批人,《怪奇物語》剛好是全球熱度最高的 IP 之一,剛好粉絲對結局不滿意……這些條件湊在一起,換一個時間點發,可能就沒這個效果。但也不完全是運氣。我之前花了不少時間研究什麼樣的內容容易傳播,選《怪奇物語》也是因為自己本身就喜歡這部劇、瞭解粉絲的痛點。指令碼花了 80% 的精力,做之前還先用短影片測試過市場反應。這些準備不能保證一定會爆,但至少讓我在機會來的時候,不至於手忙腳亂。整個過程創作還是不夠順手,未來一定會有更好的創作工具讓人上手。比如我正在做的AI視訊產品,Medeo,就是希望一站式創作,從生成到剪輯成片,都可以和Agent協作完成,那就太爽了。我會把這個創作過程做進產品,讓更多人能更簡單的創作!期待 Medeo 下次更新吧!2月10號,我寫了一篇《如何做爆款》的文章,最後一句話是"我還在摸索中"。2月12號,全網 2500 萬曝光,好萊塢媒體來報導了。中間只隔了兩天。有時候我也會想,這到底是方法論的勝利,還是純粹的運氣?說實話,我覺得兩者都有。但如果讓我重新來一次,我不會改變任何一個步驟——研究稀缺性、用 MVP 測試、一個 scene 一個 scene 地迭代、把 80% 的精力花在指令碼上。這些東西不能保證你一定會爆。但它們能保證提高爆款機率。至少下次我能在發之前提前預判:這有沒有可能爆了。 (Founder Park)