#視訊模型
從Gemini到豆包:全球兩大AI巨頭為何走上同一條路?
視訊模型Seedance 2.0、圖像模型Seedream 5.0 Lite連續刷屏後,2月14日,字節跳動正式宣佈推出豆包大模型2.0(Doubao-Seed-2.0,簡稱豆包2.0)系列。自2023年,豆包大模型初始測試版上線,2024年正式對外發佈,豆包代際模型版本更新已經過去近一年半時間。其間持續在文字基礎、多模態強化、深度思考、Agent(智能體)執行等方面更新,直至此次版本,在2.0全能力升級。此次備受關注的2.0版本,具備全端模型矩陣 + 多模態理解 + 企業級 Agent + 極致成本四大差異化優勢,已躋身全球第一梯隊,成為 Agent 時代的關鍵玩家。在多項公開測試集上表現突出,接近Google Gemini3,和具備更高性價比。字節跳動官方明確表示,旗艦版豆包2.0 Pro“面向深度推理與長鏈路任務執行場景,全面對標GPT 5.2與Gemini 3 Pro”。從技術參數到產品定位,豆包2.0與Google Gemini的相似性正在從“對標”走向“一致”。而這種“一致”並非偶然的“撞車”,本質是全球頂尖AI實驗室在通往通用人工智慧(AGI)路徑上達成的戰略共識——AI最終需要為人類完成任務執行,而這需要對真實世界物理運行規律的理解。版本代際更新此次更新,豆包2.0 系列模型提供 Pro、Lite、Mini 三款不同尺寸的通用 Agent 模型。該系列通用模型的多模態理解能力實現全面升級,並強化了LLM 與Agent 能力,使模型在真實長鏈路任務中能夠穩定推進。同時進一步把能力邊界從競賽級推理擴展到研究級任務,在高經濟價值與科研價值任務評測中達到業界第一梯隊水平。據官方介紹,此次豆包2.0針對大規模生產環境的使用需求進行系統性最佳化,旨在更好地完成真實世界的複雜任務。其中,在語言模型基礎能力上,豆包2.0 Pro旗艦版取得IMO、CMO數學競賽和ICPC程式設計競賽金牌成績,數學和推理能力達到世界頂尖水平。另外,大模型執行長鏈路複雜任務,需要豐富的世界知識。豆包2.0加強了長尾領域知識覆蓋,在SuperGPQA等多項公開測試集上表現突出,科學領域知識測試成績與Gemini 3 Pro和GPT 5.2相當,在跨學科知識應用上也排名前列。在教育、娛樂、辦公等眾多場景中,大模型需要理解圖表、複雜文件、視訊等內容。對此,豆包2.0全面升級多模態理解能力,視覺推理、空間感知、長上下文理解等權威測試均取得業界最佳表現。面對動態場景,豆包2.0強化了對時間序列與運動感知的理解能力。以健身場景為例,接入豆包2.0的智能健身App可即時分析使用者動作視訊,一旦檢測到深蹲姿勢偏移,立即語音糾正——這正是環境感知與主動互動能力的落地。目前,這一能力已延伸至穿搭建議、老人看護等領域。Agent能力是大模型具備行動力的關鍵。測試成績顯示,豆包2.0 Pro在指令遵循、工具呼叫和Search Agent等評測中達到頂尖水平,在HLE-Text(人類的最後考試)上更是獲得54.2的最高分,大幅領先於其他模型。目前,豆包2.0 Pro已在豆包App、電腦客戶端和網頁版上線,使用者選擇專家模式即可對話體驗。火山引擎也已上線豆包2.0系列模型API服務。價格方面,豆包2.0 Pro按“輸入長度”區間定價,32k以內的輸入定價為3.2元/百萬tokens,輸出定價為16元/百萬tokens,相比Gemini 3 Pro和GPT 5.2有較大的成本優勢。豆包2.0 Lite更是極具性價比,綜合性能超越兩個月前發佈的上一代主力模型豆包1.8,百萬tokens輸入價格僅為0.6元。強化執行任務能力此次豆包2.0的全面升級,核心落點在“真實世界複雜任務的執行力”。而這一能力的根基,正是多模態理解層的突破——只有讓模型真正看懂物理世界的動態與邏輯,它才能從“答題者”進化為“執行者”。字節模型團隊觀察到一個典型失衡:語言模型已經可以順利解決競賽難題,但放在真實世界中,它們依然很難端到端地完成實際任務——比如一次性建構一個設計精良、功能完整的小程序。LLM 和 Agent 為什麼在處理現實問題時屢屢碰壁?團隊認為,原因主要來自兩點:真實世界任務往往跨越更長時間尺度、包含多個階段,而現有LLM Agent 難以自主建構高效工作流,並在長時間跨度中積累經驗;真實世界知識具有很強的領域壁壘且呈長尾分佈,各行業的經驗不在訓練語料的高頻區,導致即便模型擅長數學與程式碼,其在專業場景中往往價值有限。在提升了長程任務執行能力的同時,Seed2.0 還進一步降低了推理成本。其模型效果與業界頂尖大模型相當,同時 token 定價降低了約一個數量級。在現實世界的複雜任務中,由於大規模推理與長鏈路生成將消耗大量token,這一成本優勢將變得更為關鍵。另外在多模態理解能力方面,豆包2.0Pro在視覺推理、空間感知、運動理解、長視訊理解等維度,在大多數相關基準測試中取得最高分。此前刷屏AI視訊模型Seedance2.0正是多模態能力支撐的體現之一。Seedance 2.0核心升級主要體現在原聲音畫同步、多鏡頭長敘事、多模態可控生成。使用者輸入提示詞與參考圖,可一鍵生成帶完整原生音軌的多鏡頭視訊,模型自動解析敘事邏輯,確保角色、光影、風格與氛圍高度統一。此前馬斯克點評稱:模型發展非常迅速。據官方介紹,豆包2.0可以處理複雜視覺輸入,並完成即時互動和應用生成。無論是從圖像中提取結構化資訊,還是通過視覺輸入生成互動式內容,Seed2.0都能高效、穩定地完成任務。這正是Gemini一直強調的“原生多模態”能力——不是簡單拼接視覺與語言,而是在底層實現跨模態的深度對齊。豆包2.0的升級方向與Google的Gemini 3 Pro在視訊理解、空間推理上的優勢高度一致。而豆包2.0與Gemini在基礎模型層面均選擇死磕多模態,本質上是在進行一場 “世界模型”的軍備競賽。它們不再滿足於讓AI做一個“語言遊戲高手”,而是希望AI成為一個能看懂、聽懂、理解物理世界複雜性的“數字人類”。只有當模型真正理解了杯子為什麼會碎、人為什麼會笑、視訊裡的人在做什麼動作,它才能在現實世界中可靠地執行任務。 (第一財經)
馬斯克驚嘆“太快了”,字節3000億換AI下一個十年?
“發展太快了(It's happening fast)!”面對字節跳動視訊模型Seedance2.0在海外的病毒式刷屏,馬斯克在X上發出了這句感慨。2026年2月,字節跳動憑藉Seedance2.0再次在全球掀起歡呼。這款被《黑神話》創造者馮驥譽為“地表最強”的視訊生成AI,支援15秒、高品質、多鏡頭、音視訊的聯合生成,其帶給國內外的行業震撼,被譽為重現了視訊領域的“DeepSeek時刻”。軟體應用的突破之外,另一則消息炸裂行業:在底層硬體層面,字節正在就自研晶片項目SeedChip,與三星洽談代工。這些背後,是字節跳動長久的投入與決心。相較於去年1500億元投入AI,有消息稱,2026年字節跳動將繼續投入1600億元,支援AI發展。面對字節的狂飆突進,阿里巴巴、騰訊和DeepSeek個個摩拳擦掌,期望成為下一個十年定義者。01Seedance2.0:重構全球內容生態2月12日,字節跳動正式發佈視訊創作模型Seedance2.0,瞬間引爆行業。這款模型徹底擺脫了此前AI視訊炫技的套路,展現出了極具工業水準的導演感。它不僅支援文生視訊、圖生視訊,更實現了多模態“全能參考”——即打破了單一素材輸入的侷限,允許使用者同時上傳圖片、視訊、音訊等最多12個檔案。模型能精準理解這些素材,並按照指令參考其中的構圖、運鏡甚至音效特點。真正拉開差距的,是它對敘事邏輯的理解。Seedance2.0似乎知道什麼時候該切特寫,什麼時候該拉遠景,其分鏡設計具備明顯的角度切換。影視颶風創始人Tim在實測中發現,即便不提供音訊,模型竟然能自動匹配其個人聲音,並能腦補出建築物背面的景象。這種能力背後,是字節對視訊內容認知的降維打擊。全世界可能沒有第二家公司,比字節更懂什麼樣的畫面節奏、什麼樣的敘事能抓住眼球。Seedance2.0輸出的不是硬體,而是將字節積累了十年的視訊經驗,重構成了生成式AI的基因。Seedance2.0的出現,標誌著視訊生成賽道進入了精準可控時代。它模糊了專業技術的鴻溝,使得網文、短劇、廣告提案等環節可以實現24小時不間斷生產。中文線上、掌閱科技等公司在二級市場隨之暴漲,正是資本對這種生產力重構的直觀回應。對於國內外行業而言,Seedance2.0的影響是深遠的。它讓小型工作室和獨立創作者獲得了媲美專業團隊的能力。可以預見的是,AI將重構全球600億美元的內容生態市場。正如馬斯克所感,這股浪潮正在加速。它不只是字節秀肌肉的噱頭,而是一個關於講故事的權力如何被普惠的預告。過去一年時間中,字節在AI上取得的突破,遠不止Seedance。在C端,豆包App日活破億,登頂AI應用榜首;在B端,火山引擎在大模型雲服務市場份額位居第一;在硬體端,OlaFriend耳機等穿戴裝置已初具規模。字節的野心已昭然若揭:它要成為一家以AI為核心、軟硬一體的全球科技巨頭。與之對應的,字節跳動在AI領域的投入,同樣堪稱一場毫無保留的豪擲。據英國金融時報報導,2025年,字節的資本開支預算飆升至1500億元人民幣。2026年,這一數字被曝將達到1600億元。其中,超過一半的資金用於採購輝達晶片,和推進其高度機密的自研晶片項目SeedChip。021600億重塑AI底層長期以來,字節一直是輝達全球最大的客戶之一。2025年12月,豆包大模型的日均Token處理量已高達50兆,半年增長超200%。面對如此恐怖的算力黑洞,字節深知,光靠買卡是守不住護城河的。據路透社報導,字節正研發一款專為AI推理任務設計的晶片,已與三星電子洽談代工事宜,並計畫在2026年量產10-35萬片SeedChip。這一舉措的戰略意義不言而喻:它不僅是為了在HBM儲存晶片供應緊張的局面下尋求自保,更是為了實現從軟體演算法向軟硬一體的戰略升維。這種升級,體現在對算力成本的極致掌控,為視訊推薦、大模型推理這些算力怪獸定製最省錢、最高效的引擎。在字節內部,這種對基礎設施的死磕早已成了共識。2023年,字節跳動創始人張一鳴曾直言,當下這個時代的作業系統級機會就是AI +計算。為了抓住這個影響整個世界的機會,字節在基礎設施上幾乎不計代價,其2026年的AI資本開支甚至超過了一些科技巨頭去年投入的總和。這種飽和式的投入,目標極其明確:在自研晶片、大模型與雲服務之間建立起類似Google的全端式護城河。2025年,原Google DeepMind副總裁吳永輝加入字節,接管Seed部門,直接向梁汝波匯報。吳永輝上任後,主導打破了模型部門間的藩籬,實現了資料共享。字節的Infra(工程化能力)已達到國內頂尖水平,而自研晶片則是這條自主可控的最後一塊拼圖。當阿里推出真武晶片、百度讓崑崙芯籌備上市時,字節的入場意味著中國大廠正式進入了“自研晶片+大模型+雲服務”的全端競爭時代。這不再是簡單的修修補補,而是要從底層物理世界出發,重新定義AI時代的生產力成本與算力自主權。此外,媒體消息稱,字節在春節還將有大動作,將祭出了“全模態三件套”:豆包2.0、Seedream5.0和Seedance2.0。面對字節的步步緊逼,其它巨頭躍躍欲試,在春節期間同樣有大動作。阿里重新定義“通雲哥”敘事(AI、雲、晶片三位一體)的同時,正打通其最核心的電商、支付資產,試圖讓千問成為幫你點外賣、訂機票的全能助理。暫時落後的騰訊,在姚順雨入職後,騰訊混元大模型開始糾偏,從追逐榜單轉向真實場景。DeepSeek依然是那個最強變數。DeepSeekV4或將攜帶最強程式碼能力在春節前後突襲,挑戰所有巨頭。當字節的“全模態生成”、阿里的“生活代理”以及DeepSeek的“極致推理”全面落地,AI或將真正滲入人們的生活生產中去,成為下一個時代的“水電網”。而誰掌握終極入口,必定是兵家必爭之地。 (新質動能)
視訊模型的兩條河流:字節跳動Seedance與OpenAI的分岔
誰擁有更多、更豐富的資料,誰的模型就越接近“全知”。圖片來源:AI生成當矽谷還在討論Sora的“世界模擬器”宏大敘事時,字節跳動用Seedance 2.0的發佈,悄然劃開了視訊生成領域的第二條河流。這兩條河流,一條向西,試圖窮盡物理世界的底層規律;一條向東,試圖解構人類內容的消費邏輯。2月9日凌晨,知名科技博主影視颶風Tim發佈了關於字節跳動Seedance 2.0的評測視訊,將其稱為“改變視訊行業的AI”。但這不僅僅是對字節跳動一家公司的評價,更像是對整個AI視訊生成賽道按下加速鍵。Seedance 2.0的發佈,以及Tim在評測中感受到的“恐怖”與“震撼”,標誌著這場戰爭已經從單純的參數競賽,進入了商業落地與倫理博弈的深水區。定義權之爭:物理引擎 vs 導演思維在OpenAI的敘事裡,Sora是“世界模擬器”,它試圖讓像素遵循牛頓定律,追求的是“模擬”。但在Seedance 2.0身上,字節跳動講了一個完全不同的故事。體驗過之後你會發現,它並不執著於做一個物理學家,它更像是一個極其成熟的“商業導演”,致力於讓鏡頭遵循視聽語言。Tim在視訊中透露了一個令人驚訝的細節:他在沒有上傳任何聲音檔案、任何提示的情況下,僅將自己的人臉照片上傳至模型,系統就能自動生成與他本人高度相似的聲音,甚至能精準匹配語氣特質。這種“無中生有”的匹配能力證明,Seedance 2.0掌握的Know-how不再是單純的視覺生成,而是對“人”的整體重構。它不需要你告訴它怎麼說話,因為它早就“認識”你。敘事的差異,最終投射在商業模式的殊途上。OpenAI依然沿襲著SaaS的精英主義邏輯,做“軍火商”,向專業人士販賣 API。而整合在字節生態中的Seedance 2.0,走的是“超級應用”(Super App)的邏輯,意在消滅專業門檻。當OpenAI還在思考如何讓好萊塢導演付費時,字節跳動似乎已經通過“造夢”,完成了對大眾創作者的一次技術平權。殊途同歸的“世界模型”競賽如果把視角拉得更遠,我們會發現字節跳動並不孤獨。在過去的一年裡,視訊生成模型顯得擁擠不堪,全球科技巨頭正集體奔赴同一個終極目標:建構一個能夠理解、模擬甚至預測現實世界的“世界模型”(World Model)。OpenAI(Sora)試圖用Transformer架構讓AI理解物理規律。Google(Veo/Lumiere)憑藉其在YouTube上的積累,試圖解決長視訊的一致性問題。NVIDIA則試圖在工業層面1:1還原物理世界,服務於機器人訓練。而在中國,快手可靈、阿里通義與騰訊混元也在瘋狂迭代,試圖在C端應用上搶佔先機。在這場軍備競賽中,資料是唯一的燃料。無論是OpenAI還是字節跳動,誰擁有更多、更豐富的資料,誰的模型就越接近“全知”。Tim在評測中提到了一個讓他倍感“恐怖”的瞬間,揭示了當前頂級模型的共同特徵:“最恐怖的一點是不只我的聲音,我們上傳的照片只有樓的正面,但是生成出來的運鏡,可以轉到樓的另一面,它知道我背後的東西是什麼,即便我沒有告訴它。”這棟樓的背面,可能出現在影視颶風過去的某個視訊裡,也可能出現在其他使用者的街拍中。AI將這些碎片化的資訊拼接,在神經網路中重建了這棟樓的3D結構。不僅僅是字節,OpenAI的Sora之所以能生成逼真的東京街頭,Google的模型之所以能生成流暢的動作,背後都是對海量公開網際網路資料的學習。技術倫理的邊界這引出了一個全行業都需要正視的命題:我們與平台之間,是否存在一份“隱形的契約”?過去,我們認為自己在免費使用平台發佈內容,換取流量和關注。但在AI時代,這份契約增加了新的條款:你的行為、你的影像、你的聲音,都將成為訓練“世界模型”的養料。Tim在測試中發現,Seedance 2.0對其他博主(比如何同學)的形象還原度極高。這意味著,在這個閉環裡,創作者不僅是內容的使用者,更是內容的“原材料”。 只要你在網際網路上留下了足夠的痕跡,你就在某種程度上被AI “數位化”了。這是一個中性的技術事實,但它帶來了不得不思考的後果。正如 Tim 在視訊末尾的警示:“你現在就能夠看到,如果一個人的資料,全部進入了AI的資料集,會發生什麼。它能夠100%模擬出你的任何形態,還有聲音,那請問這樣的內容你的家人分得出真假嗎?”這並非針對某一家公司的指責,而是技術發展到特定階段的必然拷問。當 Google、OpenAI、字節跳動和NVIDIA的模型都足夠強大時,“真實”的定義將被永久改寫。影視颶風Tim說:“改變視訊行業的AI,快來了。”但在我們看來,它其實已經到了。Seedance 2.0隻是全球“世界模型”浪潮中的一個縮影。在這場中美科技巨頭的集體衝鋒中,視訊生成正在從“炫技”走向“實用”,從“模擬物理”走向“重構現實”。對於身處其中的每一個創作者和使用者而言,我們既是這場技術革命的受益者,也是它最基礎的貢獻者。未來已來,只是分佈在每一個被AI記住的鏡頭裡。 (鈦媒體AGI)
Sora2,AI幫你賺錢的時候到了
真正改變遊戲規則的創新者,往往是在“無人區”中開闢新大陸的人。當OpenAI發佈其新一代AI視訊模型Sora2的演示視訊時,整個科技圈為之震動。視訊10秒出片,並且自帶高度逼真的物理邏輯、如電影運鏡般的多鏡頭切換……其能力已無限逼近人類專業創作者。東莞證券在隨後發佈的研報中稱“Sora2及其配套社交應用的發佈標誌著AI視訊生成與社互動動進入融合階段,有望重塑內容創作和分發生態,或迎來AI視訊生成的ChatGPT時刻。”這個比喻精準地戳中了行業的神經。因為,ChatGPT是人工智慧技術“量變”引發“質變”的代表,標誌了機器學習大模型、大訓練資料和大算力能夠到達的新高度。更令人震撼的是,Sora2不再是一個單純的視訊生成工具,而是一場徹頭徹尾的革命——與視訊緊密相連的影視劇、社交、電商等行業,也將迎來生態重構,甚至許多商業模式也被重塑。對普通人來講,一個更直接的問題是,Sora2將如何改變人們賺錢的方式?Sora App上線第四天,就拿下了蘋果美國應用程式商店App Store的免費應用榜第一名,超越了Gemini和ChatGPT,堪稱“出道即頂流”。據Appfigures估算,Sora iOS版上線僅兩天,總下載量高達16.4萬次,首發下載量達5.6萬次。圖註:App Store截圖Sora APP的爆火,一方面源自其自身提出的兩大顛覆性AIGC社交功能——客串(Cameo)和二次創作(Remix)。客串(Cameo)的核心工作原理源於OpenAI正在建構的世界模擬模型(world simulation models)。使用者只需提供一個簡單的視訊素材,就能將自己或朋友“傳送”到古羅馬鬥獸場、未來賽博朋克都市、遊戲裡的場景等等,或是任何能夠想像到的場景中,並讓他們在其中自然地活動和互動。二次創作(Remix)是Sora App的一個核心互動機制。當使用者看到一個喜歡的視訊時,可以點選Remix按鈕,在其基礎上進行二次創作。例如,看到鋼鐵人和蜘蛛俠的視訊,使用者可以輸入新的提示詞,如“把我的照片融入進去”,Sora就會生成一個全新的、與原作相關聯的視訊,展示出“我與蜘蛛俠互動”的內容。這個功能極大地降低了參與熱門趨勢和故事線的門檻,讓每個人可以輕鬆參與AIGC製作。另一方面,OpenAI首席執行官Sam Altman(山姆·奧特曼)親自下場,開放了個人肖像權,也加速了Sora的火爆。在國外的社交平台上,Sam Altman從商店偷GPU被抓包、在金字塔前熱舞、與李小龍對打、跟科比打籃球,細節逼真到以假亂真。在國內的小紅書上,一些“手快”的博主,已經讓Sam Altman參與直播帶貨,熟悉的“321,上連結!”從他嘴裡說出來也毫無違和感。圖源:小紅書基於成品視訊流暢的表現,Sora2也給更多行業帶來新的想像空間。以電商領域為例,目前,OpenAI形成以“內容平台激發需求(Sora)—支付管道保障(Stripe)—電商平台供給商品(Shopify/Etsy)”的商業模式閉環。隨著全球範圍內視訊種草、直播帶貨接受度越來越高,通過“代理商務協議”(Agentic Commerce Protocol,ACP),Sora有望開啟“端到端”的新電商模式。並且,OpenAI似乎也在逐步強化這種電商基因。幾天前,OpenAI宣佈推出全新的“Instant Checkout”即時結帳功能,允許使用者直接通過其AI聊天機器人ChatGPT內容完成商品購買,這也標誌著OpenAI與電商的融合進一步加速,ChatGPT也輕鬆實現了從“商品推薦”到“直接支付”的全鏈路閉環。未來如果由Sora一鍵生成的商品展示視訊、買家秀合集等內容也進入這一電商閉環,並與主流電商平台API打通,則有望形成一個區別於傳統電商平台的新的“人貨場”邏輯。與此同時,廣告行銷成本也大幅降低,過去,高昂的製作成本、漫長的周期與專業的門檻,是桎梏電商賣家進行大規模擴張的瓶頸,如今這不再是難題。Agent Platform廠商述信科技CEO彭聖才指出,Sora2這種工具型產品出現,會帶把一些以前不成立的商業模式變成現實、甚至直接創造一些新的模式出來。比如說一款產品出海,在以前需要找代理、找管道、做品牌行銷,一點點去鋪貨,各個環節都要考慮到。現在借助AI等新興技術,可以直接打通整個環節。目前,市面上已經出現一些新興公司,依託中國本土強大的供應鏈和生產能力,借助AI提供的行銷、投流、客服等功能,把貨帶到海外市場。這與傳統的出海模式截然不同,甚至是一些“一個人公司”也可以完成全套流程,對於這些企業來說,AI的出現就像是給業務插上了翅膀,讓以前不能做的生意好做了,讓本來打不開的市場打開了。但這種AI主導的電商模式,也對品牌提出了更高要求。彭聖才指出,以前做產品是“管道為王”,要儘可能多的去覆蓋管道,讓不同消費者能在不同管道上盡快找到我,平台扮演的角色十分重要。但是AI出來之後,消費者很可能只是用一句話來描述自己需要的產品或者服務,餘下的都靠AI來匹配,管道的價值就會衰減,而品牌的價值被放大。在這種模式下,唯一能爭取到AI帶來的消費位置的方式就是做好品牌。“以前,我們要花很多錢做市場、搞行銷、搞投放,但現在只需要把自己的商品和服務做好,然後通過MCP的方式散發給AI,AI就會根據使用者的指令精準找到這個商品,這對於整個行業幾乎是顛覆性的,但長遠來看有利於行業生態的健康發展。”彭聖才說道。(註:MCP,是Model Context Protocol的縮寫,即模型上下文協議,它是一個開源標準,用於將AI應用程式連接到外部系統。基於MCP協議,各大AI應用程式可以連接到資料來源,工具和工作流,使它們能夠訪問關鍵資訊並執行任務。)更顛覆的是,由Sora2驅動的Sora App對標TikTok的滑動操作模式,直接降低了C端使用者使用的門檻。外界一致認為,它“掀了短影片的桌子”,甚至對廣告、明星代言、影視劇、創意產業的商業模式都形成巨大威脅。今年9月,TVB上線了一部100%AI生成短劇——《在我心中,你是獨一無二》,劇中主角、群演、場景、配樂等等全部由AI生成。換句話說,在這部短劇的製作中,AI承擔了“編劇+導演+美術+剪輯+後期”的全部職責,甚至在末端的營運、投流環節中也發揮了巨大作用。從技術層面看,Sora已經可以生成時長25秒(普通使用者在App和網頁端15秒,Pro使用者網頁端可達25秒)、接近4K細節的短影片,畫面更加銳利,幀與幀之間延續性更好,甚至可以實現多語言同步翻譯。GoogleVeo2升級後,也可以提供4K電影級畫質、2分鐘以上的精美視訊。這些工具確實幫助實現了內容生產的質效飛躍。隨著AI深度參與短劇製作各關鍵環節,它成為降本增效的核心動能。在製作端,從AI生成劇本與分鏡,到虛擬製片與智能剪輯,大幅壓縮了創意到成片的時間;在營運端,AI可以智能生成海量行銷素材進行A/B測試,實現精準投放,同時通過使用者資料分析,進一步反哺創作,完成內容持續最佳化。傳統短劇製作需要2-3個月製作周期、50-200萬試錯成本,這已經是行業壓縮到極致的成本線。但是AI短劇已經進化到10-15天出片、6-15萬低成本試錯,單整合本最多可下降90%。這些都給蓬勃發展的短劇行業帶來新的想像力。另一方面,Sora的影響力還波及到社交領域。手指滑動的互動方式,讓它被稱為“AI版抖音”。使用者可通過上傳圖片結合文字提示創作,或使用客串功能,基於自己或朋友形象生成視訊,這種強互動性與親近感,使得Sora App擁有極強的社交屬性。“瀏覽-激發-創作-分享”的閉環一旦轉動,使用者便被牢牢吸附在平台內,每一次創作都在為生態貢獻新的素材和範本,形成內容自然生長的生態,即“使用者資料飛輪”。“AI+社交”可能會成為未來的主流形態。Sora2對廣告行業的影響也備受關注。但目前看,其衝擊力尚未呈現。彭聖才舉了個例子,在廣告行銷行業,文案、圖片、視訊等內容的生產其實是產業鏈的末端環節。而且這個末端通常也由一整個團隊負責,內部還分策劃、美術、編導、剪輯等等職責,Sora2可能只是對那個視訊製作者(或剪輯師)有一定影響,但是放在廣告行銷這個存在了百年的產業鏈條上,Sora2隻影響了末端的那個佔比不到1%的環節。所以他覺得“Sora2很難對整個鏈條產生那麼大的衝擊和影響”。但彭聖才也指出,Sora2的出現確實會帶來成本下降和效率提高,進而幫助一部分人吃到紅利。比如,在廣告主採購視訊廣告內容的採購價不變的前提下,AI用的好的人,可以借助Sora2等工具把視訊生產的效率提高十倍甚至百倍,售價相同但成本更低了,收益自然也會隨之擴大。“但這種紅利僅體現在短期內,因為後果是可以預見的,供給越來越多之後,大家自然而然就會開始卷,同樣的價格,有人能出10條視訊,後面就會有人敢出50條、100條視訊。所以在大部分人還沒能很熟練運用AI生成視訊的這段窗口期內,確實有些人可以賺到錢。只是這個窗口期不會太長,我預測可能也就半年左右。”彭聖才預測。Sora2更大的貢獻在於,它給整個行業提供了一種新的變現思路。過去幾年,全球頭部大模型產品以及垂直領域應用多數採用“訂閱付費”的模式進行變現,即通過按月或季度固定收費,提供一定量的API呼叫服務。而Sam Altman在部落格中公開宣佈,公司將引入“IP分成”收益機制。具體來看,這個機制包含兩步,一是賦予版權方更細粒度的控制權,IP擁有者可設定角色是否及如何被使用;二是探索收入分成模式,當使用者使用授權角色生成視訊並產生收益時,版權方可獲得相應分成。如此一來,思路一下就打開了。過去幾年,迪士尼、漫威、華納兄弟、任天堂等版權巨頭,一直在全球範圍內積極維權,努力避免自己的IP被AI工具使用者侵權。比如著名的文字生成圖片AI應用Midjourney,就在今年的6月至9月間,密集地被迪士尼、環球影業和華納兄弟三家公司送上“被告席”。而Sam Altman把雙方“敵對”的關係轉化為“共贏”,對於上述版權巨頭而言,如果自家IP能被更多垂直領域的創作者使用,無疑會進一步擴大自己的影響力,也可以順便從中獲得一定的分成;而對於活躍在網路上的內容創作者而言,能合法的使用經典IP形象,給他們提供了更豐富的創作靈感,也可以在一定程度上避免同質化的現象。參考YouTube的成功經驗來看,這種模式也有利於整個行業的健康發展。YouTube曾花費大量時間,建立了一套成熟的版權識別和收益共享系統。當博主在作品中使用了某段受版權保護的音樂或影視片段時,YouTube會自動識別並進行記錄,然後將這段視訊產生的廣告收入,按照約定的比例分配給創作者、平台以及版權所有者。多方共贏的方式,也幫助YouTube成為全球範圍內最具影響力的視訊網站之一。據預測,YouTube的全球月活躍使用者(MAU)將在2025年突破28.5億,覆蓋全球51%的網際網路使用者。而Sam Altman的設想,就是要建立一套類似的分成體系。使用者借助Sora2來製作視訊內容,平台對每一個內容進行記錄和追蹤,如果涉及到授權IP,則按照約定的比例完成收益分配。中研普華產業研究院公佈的《2025-2030年中國AI視訊行業全景調研與投資前景預測報告》顯示,2023年,全球AI視訊市場規模已達到420億美元。創作者成功、則平台成功,無論是AI生圖還是AI視訊,都已經被越來越多的創作者接受。如果Sam Altman的設想成真,Sora App將不再是簡單的工具,而是一個連接IP授權方與全球億萬創作者、直通百億美元大市場的全新數字經濟生態。但另一方面,“隔屏如隔山”,當AI生成的視訊足以“以假亂真”,當眼見不再為實成為常態,如何區分虛擬與現實將成為一個難題。一位從業者的觀點是,“不必刻意去區分真的假的,學會適應才是常態”。比如在直播電商領域,虛擬主播已經十分常見。根據市場調研機構QYResearch的統計及預測,2023年全球虛擬偶像與虛擬主播市場銷售額達到了10.83億美元,預計2030年將達到51.29億美元。“很多人已經不再去刻意區分主播是真人還是虛擬人,或者說是放棄了這個動作。畢竟我做消費決策不取決於螢幕裡的人像,而更多取決於我對他態度、語氣、氛圍的感覺,或者說取決於直播間裡產品品牌的信任程度。”該從業者表示。 (霞光社)
Sora 爆紅之後,Sam Altman 的 4 個判斷,決定 AI 的“入口之戰”
9 月 30 日,OpenAI 發佈 Sora 2,同步推出全新 App,加入肖像授權機制。上線不到一周,Cameo 表情包刷爆社交平台,Altman 的 AI 形象出現在無數群聊、朋友圈、創作者社區。Sora 迅速從技術演示變成現象級產品。但這一次,OpenAI 打響了 AI 時代的“入口之戰”。10 月 8 日,Sam Altman 現身 a16z 播客,首次全面闡釋了 OpenAI 的戰略方向: “我們不會只是發佈技術演示,而是讓社會提前體驗即將到來的事物。AI 的入口,不再是對話方塊,而是生成一整段畫面,甚至幫你先想一步。”他透露:視訊只是前奏,真正的入口革命來自 4 個判斷:視訊變介面、模型變科學家、Agent 走向“零員工公司”,到自建 AI 工廠。這 4 個判斷,正在決定 AI 入口之戰的走向。第一節|視訊,是 AI 理解世界的新眼睛你可以把 Sora 看作一個不斷渲染視訊的介面,一個新的世界建模方式。——Sam AltmanSora 火了,但它的意義並不只是生成視訊。Altman 的判斷很清楚:Sora 的價值,不在於畫面精美,而在於教會 AI 理解物理世界。過去,AI 只能讀文字、看圖片,是靜態認知;現在,視訊讓 AI 開始理解動作、空間、因果關係。這是認知方式的質變。Altman 舉了個例子:不是你打開一個網頁,問它“這段話什麼意思”;而是你在真實世界裡拍一段視訊,AI 自動看懂畫面,知道誰在動、發生了什麼,甚至能預判“接下來可能出什麼問題”。從看圖到讀動作,AI 的理解維度變了。但 OpenAI 發佈 Sora 還有更深一層考慮:讓社會提前適應即將到來的現實。很快,任何人都能用 AI 生成以假亂真的視訊。Altman 的原話是:“視訊的情緒共鳴遠超文字。文字可以騙你一次,視訊直擊人心。”當 AI 視訊無處不在時,衝擊會比想像中更大。社會必須儘早建立免疫力。而從技術層面看:Sora 不只是內容工具,更是 AI 觀察世界的新方式。這雙“眼睛”正在變成一個新入口。不是你輸入問題,而是 AI 主動觀察、理解,替你想一步。視訊,正在成為 AI 通往 AGI 的關鍵訓練場。第二節|AI 的價值不在答題,而在主動思考Sam Altman 在這次訪談裡提到一個變化:我們第一次看到 AI 開始在科學研究中提出新想法。不是總結別人的觀點,而是自己想到從沒出現過的解法。GPT-5 的某些能力,已經跨過了日常工具的邊界。它不再只是寫郵件、潤色文案,而是在數學、物理、生物研究中,給出科學家都沒想到的推導路徑。Altman 表示:“我們過去以為圖靈測試是 AI 的終極標準。結果呢?它在不知不覺中就通過了。真正大的轉折,是 AI 開始做‘我們做不到的事’。”比如:在物理研究中幫忙計算複雜公式在數學問題中找出新的證明思路在生命科學裡幫助建立假設模型(那怕它不是 100% 精準,但它敢提出)過去我們問 AI:這是什麼意思?現在它開始主動告訴我們:也許可以這麼想。Altman 對 AGI 的標準很明確:當 AI 能做出科學發現時,才算真正的通用智能。現在,它已經開始了。很多人還停留在 AI 能寫程式碼、畫圖的印象中。 但在 OpenAI 內部,GPT-5 的研究人員已經在嘗試讓它做研究助理甚至研究搭檔。它不會取代科學家,但它能成為一位每天 24 小時線上的“靈感提出者”。他認為:“AI 做科學這件事,可能是接下來幾年裡最深遠的改變。”而這背後意味著什麼?AI 的角色變了:不再只是被動回答,而是主動觀察、尋找線索、提出可能性。從“等你問”到“替你想”。而這,已經在發生。第三節|從零程式碼到零員工,Agent 重設創業起點我們現在真的在賭,什麼時候會出現第一家零員工公司。——Sam Altman在這場長達 40 分鐘的訪談中,Altman 多次提到一件事:Agent,已經能真正幹活了。不需要懂程式碼,不用組建團隊。你只要會寫一句話,AI 就能自動處理任務、生成流程、完成執行。Altman 在後台看過 OpenAI 內部的 Agent Builder 流程演示後感慨:“這些東西一年前還要花很久才能完成,現在你幾乎可以即時搞定。我感覺自己想創意的速度都跟不上了。”過去,你可能需要一個營運、一個客服、一個銷售、再加一個資料分析師。 現在,只要你能描述清楚要做什麼,AI 就能一併幫你完成:回客戶消息整理 Excel 報表尋找資料撰寫文案呼叫外部工具提交結果OpenAI 稱之為 Agent:一個真正能執行任務的 “AI 同事”。不是陪你聊天的助手,而是真正能接需求、出結果的執行層。Altman 舉了個例子:今天有人跟我說,AI 已經能完成一整天的工作任務了,太驚人了。也許現在還達不到“一周不用管”,但這個目標並不遙遠。這不再是提升效率那麼簡單。而是出現了一種全新的工作單位: 一個人加一套 AI,能撐起一個完整業務。Altman 回憶,過去他和朋友們賭什麼時候出現一個人營運的十億美元公司;現在他們的新賭局,是零員工公司什麼時候會成為現實。他親眼看到,越來越多團隊在用 AI 做流程,做營運,甚至做產品。所以他強調:“AI 帶來的改變,很多不是模型更強了,而是人做事的方式變了。”當 AI 不再只是工具,而是能持續執行任務的執行層, 組織的起點就被重設了。你不再需要“一個團隊”,而是一個想法 + 一套 AI。第四節|從模型到入口,全端自建才有主導權OpenAI 已經不是一家只做模型的公司了。過去,它被看作“模型公司”。核心能力是訓練 ChatGPT、Sora 背後的技術。但 Altman 在這次訪談中直言:為了做出真正有用的 AI,光靠模型不夠。我們得自己建基礎設施,自己控制使用者接觸 AI 的方式。這不是說說而已。OpenAI 正在建人類歷史上最大的基礎設施項目之一,包括:和 AMD 合作造 AI 晶片和微軟、NVIDIA 搭建大規模資料中心親自推進建設 AI 電廠,解決用電問題投入數十億美元,佈局從底層硬體到終端應用的全部鏈路為什麼要投入這麼多?Altman 的答案是:如果入口在別人手裡,OpenAI 最終只能依附於別人的平台。這讓他徹底改變了一個長期觀點。他說:我以前是反對一家公司從頭做到尾的,覺得太笨重、不靈活。但現在我承認我錯了。我們必須自己掌握全鏈路。邏輯很簡單:只有掌握入口,AI 才能真正落地。今天的 OpenAI,已經是三位一體:一個研究團隊:不斷突破模型邊界一個產品團隊:把突破變成使用者產品基礎設施團隊 :從電開始自己解決核心就一句話:想給人類提供真正有用的 AI,就得親手建出這套東西,而不是等別人幫忙。入口在那,主導權就在那。OpenAI 不再等別人給入口,而是選擇從底層開始重新搭建。結語|誰先想清楚,誰就掌握入口這場入口之戰,表面看是 Sora 爆紅、視訊模型進化,但 Sam Altman 真正推動的,是一套全新的互動邏輯:不是你點開 App,而是 AI 主動理解、回應、替你想一步。他的 4 個判斷,指向同一個核心:視訊 —— 讓 AI 理解物理世界科學 —— 讓 AI 主動發現問題Agent —— 讓 AI 執行完整任務基礎設施 —— 掌握從生產到交付的完整鏈路未來的 AI,不是你問一句它答一句,而是它先觀察、先推理、先給出可能性。Altman 已經開始親手搭建這個未來。而每一個使用 AI、開發產品、建構組織的人,也必須做出選擇: 下一步,是讓 AI 等你的指令,還是讓它先想清楚,你再做判斷?這才是真正的入口之變。 (AI深度研究員)
Midjourney正式推出 V1 視訊模型:美學細節無敵
Midjourney推出視訊生成模型V1,主打高性價比、易於上手的視訊生成功能,作為其實現“即時模擬世界”願景的第一步。使用者現在可以通過動畫化Midjourney圖片或自己的圖片來創作短影片,定位為有趣、易用、美觀且價格親民Midjourney一如既往,視訊模型在美學細節上下了一番功夫,這是官方放出的宣傳視訊,大家感受一下V1工作流程與主要功能核心流程:採用“圖像轉視訊” (Image-to-Video) 的工作方式。使用者先生成一張滿意的圖片,然後點選新增的 “Animate” 按鈕來使其動畫化。支援外部圖片:使用者可以上傳自己的圖片,然後通過輸入運動提示詞來生成視訊。兩種動畫模式:自動模式 (Automatic):AI 會自動為你生成“運動提示”,簡單快捷手動模式 (Manual):使用者可以自己寫提示詞,精確描述希望物體和場景如何運動兩種運動幅度設定:低運動 (Low motion):適合相機基本不動、主體緩慢運動的場景(如氛圍圖),但有時可能完全不動。高運動 (High motion):適合相機和主體都大幅度運動的場景,效果更動態,但更容易出錯視訊擴展:生成的視訊可以被“擴展”,每次延長約4秒,最多可延長四次,目前視訊解析度為480p成本與定價策略入門價格:每月10美元即可使用。可用平台:發佈初期僅限網頁版 (web-only)任務成本:一個視訊任務的成本約等於8個圖像任務每個視訊任務會生成四個5秒鐘的視訊一個視訊的成本大致相當於一次圖像放大 (upscale)的成本,即每秒視訊約等於一張圖的成本市場優勢:官方稱其價格比市場同類產品便宜超過25倍Pro 使用者福利:“Pro”及更高等級的訂閱者將可以測試視訊的“放鬆模式” (relax mode:無限量生成,速度較慢)價格調整:未來一個月會根據使用者使用情況和伺服器負載,對價格進行調整以確保業務可持續長期願景與未來計畫最終目標:實現能夠即時互動的開放世界模擬系統 (real-time open-world simulations),視訊模型是實現該願景的關鍵一步。未來將繼續獨立開發3D模型、即時渲染模型等模組,並最終將它們整合成一個統一系統 (AI寒武紀)
馬斯克酷炫變身毒液!實測通義Wan2.1首尾幀視訊模型,還能「拼接」經典梗圖
在GitHub狂攬1w+星標的通義萬相Wan2.1,又雙詠上新了!最新打開方式是醬嬸兒的:給出開始(首幀)和結束(尾幀)兩張圖片,Wan2.1便能分分鐘生成一段絲滑的5s、720p視訊。根據前後視角的不同,還能自動調整鏡頭角度,緩慢變成高空俯拍,並同時確保人物光影正確:原來這是阿里通義萬相Wan2.1最新開放原始碼的首尾幀視訊模型,基於Wan2.1文生視訊14B大模型,為創作者提供更有效率、更靈活的視訊製作方式。官方表示,這是業界首個百億參數規模的開源首尾幀視訊模型。目前一般使用者可以直接在通義萬相官網體驗,開發者可以透過GitHub、Hugging Face、魔搭社群等開源平台使用。為了評估其真實能力,我們也在第一時間手實測了一波。初步感受是,從整體來說,Wan2.1首尾幀視訊模型這次在主體一致性、前後連貫性等方面確實表現良好。我們嘗試了用它來改造經典梗圖或挑戰一些火爆一時的玩法,具體過程如下。實測Wan2.1首尾幀視訊模型打開通義萬相官網,進入視訊生成,然後選擇圖生視訊並開啟首尾幀功能:先上經典玩法——「文藝復興」表情包。我們提供的首尾幀分別如下:對於這樣兩張頗具戲劇張力的圖片,Wan2.1最終產生的視訊,雖然不能深究故事合理性,但整個轉場確實非常絲滑,而且運動過程中人物的一致性保持較好,類似頭髮、長相、服裝這樣易出錯的細節也hold住了。接下來難度升級,我們又嘗試讓兩張完全不同的表情包來個「時空跨越」。結果生成的視訊自帶「PPT轉場」效果,有種家裡長輩看熊孩子的感覺了(doge)~Okk,除了整活兒,接下來我們也從時序連貫性、創意合理性、內容一致性以及技術實現難度等維度來進行一個全方位考察。最常見的用法,當屬各類寫實。讓我們淺淺模仿一下自然頻道,讓一朵花花慢慢生長出來。Prompt:特寫鏡頭,讓牡丹花慢慢綻放。可以看到,整個生長過程相當自然,已經是肉眼無法一眼辨識為AI的情況了。而且連首幀圖片中隱藏的蛛網也捕捉到了,在花朵綻放時也被牽動起來。還有人物寫實,透過提供兩張特寫照片,我們考察一下Wan2.1對光影這類細節的把控力。Prompt:寫實風格,臉部特寫,一個金發碧眼的小男孩,鏡頭微微左移,記錄他被陰影遮住的側臉。顯然,由於兩張圖片前後差距不大,因此稍微不注意可能還以為是靜態影像。而透過細緻觀察,我們在影片靠近結尾的部分捕捉了小男孩的脖子和臉上發生了光照變化。除此之外,我們也挑戰了曾經火爆一時的創意玩法——毒液變身特效。Prompt:特效大片既視感,穿著西裝的男人突然變身成怪獸毒液。馬斯克版·毒液這就來了:能夠看出,對於這種內容跨度比較大的例子,Wan2.1使用了“遮掩大法”,直接一個閃光特效實現變身。對此,你說它變了還是沒變,還真難界定~另外我們也嘗試了其他風格,例如二次元。Prompt:動漫風格,一個打著雨傘的動漫角色站在雨中,不知道看見什麼突然傻笑起來。可以看到,開頭和結尾的表情100%還原了,而且中間還上演了“超絕變臉”,一秒鐘八百個小表情(bushi~同時下雨這個場景也真實還原了,沒有雨滴直接穿過雨傘的「超現實場景」。最後,我們也簡單對比了一下Wan2.1和可靈(可靈1.6)的首尾幀生成效果。同樣兩張圖片和提示詞下,可靈生成的馬斯克版·毒液如下:雖然老馬的面目略顯猙獰,但好歹是真變身了。所以,你更pick那一個呢?揭秘技術原理與組態從上述簡單實測來看,相比早期的一些鬼畜視訊,這次開放原始碼的Wan2.1首尾幀視訊模型在主體一致性、前後連貫性等方面已經有了相當大的進步。那麼接下來的問題是:怎麼做到的?透過阿里官方發佈的技術報告,僅從首尾幀控制來看,其得益於在基礎架構模型上,引入了額外的條件控制分支。具體而言,首幀與尾幀同若干零填充的中間幀拼接,構成控制視訊序列。此序列進一步與雜訊及掩碼(mask)進行拼接,最終作為擴散變換模型(DiT)的輸入。此外,為實現畫面穩定性控制,通義萬相首尾幀生視訊模型提取了首幀和尾幀的CLIP語義特徵,並透過交叉注意力機制(Cross-Attention Mechanism)將其注入DiT的生成過程中。憑藉這一獨特的模型架構,最終實現了流暢且精確的首尾幀變換。當然,最後大家最關注的還是組態問題。以國內的魔搭社區為例,他們目前已在DiffSynth-Studio專案中支援了Wan2.1首尾幀模型。也就是說,開發者可以基於DiffSynth-Studio (一個提供全鏈路推理和訓練最佳化的開源工具)來實現便利推理。值得注意的是,他們也透過某一參數來控制推理過程中常駐視訊記憶體的參數量。而實際推理過程所使用的視訊記憶體需求,會與這一參數、解析度、幀數有關。他們以81幀960*960解析度的影片為例:設定參數=None時(意味著無常駐參數限制),需要46G視訊記憶體;設定參數=4*10** 9時,需要24G視訊記憶體,但推理速度會下降;另外,部分網友也在第一時間分享了自己的組態狀況:我們自己測下來也發現,僅從官網直接體驗,目前生成一個視訊實際上需要幾分鐘甚至十幾分鐘時間。所以,大家卷質量的同時,能不能把時長打下來啊(doge)~直接體驗入口:https://tongyi.aliyun.com/wanxiang/videoCreationGitHub:https://github.com/Wan-Video/Wan2.1模型(魔搭社群):https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P(量子位元)