#AI+
字節發佈:Seedance2.0的AI視訊生成大模型核心技術深度洞察!
一場席捲全球的AI視訊革命,字節Seedance2.0橫空出世本文將從核心技術深度拆解、競品全方位對比、AI影視產業鏈重構、AI算力產業鏈聯動、商業化落地路徑、投資價值分析、未來趨勢預判七大維度,結合2026年最新實測資料、券商研報和行業動態,為讀者全面解析Seedance2.0的技術核心與產業影響,揭秘其“超越Sora、登頂全球”的核心邏輯,同時探討AI視訊生成技術在2026年及未來的發展方向,為行業從業者、投資者和創作者提供一份全面、專業、有深度的參考指南。2026年2月,全球AI科技圈迎來歷史性時刻——字節跳動正式推出新一代AI視訊生成大模型Seedance2.0,一經發佈便迅速刷屏海內外網際網路,從國內社交平台到海外社媒推特、YouTube,從專業創作者社區到券商研報,無不被這款“電影級AI視訊生成神器”引爆討論。截至2026年2月9日,Seedance2.0相關話題登上全球12個國家和地區的社媒熱門趨勢,YouTube上相關演示視訊單條最高播放量突破500萬次,開源社區Hugging Face亞太生態負責人主動詢問內測資格,《黑神話:悟空》製作人馮驥更是直言其“領先全球,當前地表最強的視訊生成模型,沒有之一”。不同於以往AI視訊模型“玩具級”的體驗,Seedance2.0真正實現了從“能生成”到“能商用”的跨越式突破:只需一段詳細文字提示,或一張參考圖片,即可在60秒內生成帶有原生音訊的多鏡頭序列視訊,鏡頭切換流暢如真人導演調度,角色、視覺風格、氛圍在多場景中保持高度一致,無需任何手動編輯。知名科普博主“影視颶風”的實測評測,更是讓Seedance2.0加速“出圈”,其評測結果顯示,該模型在大範圍運動、分鏡設計、音畫匹配等核心維度均達到專業級水準,分鏡角度切換靈活,運鏡邏輯貼合人類導演的敘事思維,甚至能完成“全景-中景-特寫”的自動切換,讓普通使用者也能輕鬆打造電影級短片。更具衝擊力的是,Seedance2.0的發佈直接帶動A股AI應用端迎來漲停潮,中文線上、海看股份、掌閱科技等相關個股20cm漲停,軟體ETF匯添富(159590)大漲超3%,三六零、東方國信等個股同步走強,背後是機構對AI視訊賽道“奇點時刻”到來的強烈預期。開源證券、東方證券、中銀證券等多家頭部券商連夜發佈研報,一致認為Seedance2.0在核心技術上實現突破性突破,其“導演級”的控制精度的和商業化落地潛力,或將重構AI影視產業格局,同時拉動上游算力需求爆發,開啟AI多模態產業的全新增長周期。當下,AI視訊生成賽道早已群雄逐鹿:OpenAI的Sora憑藉極致的物理真實感佔據技術輿論高地,快手的可靈(Kling)憑藉“Motion Control”功能爆火海外,Runway、Pika等廠商也在各自細分領域深耕佈局。但Seedance2.0的橫空出世,憑藉獨特的技術路徑和差異化優勢,直接改寫了全球競爭格局——它生成2K視訊的速度比Kling快30%,在多鏡頭敘事和音畫同步上超越Sora,成為首個實現“文字/圖像輸入→多鏡頭敘事→原生音視訊同步生成→商用級輸出”全流程閉環的AI視訊模型。第一章 核心技術深度拆解——雙分支擴散變換器架構,Seedance2.0的技術底牌Seedance2.0之所以能實現“超越Sora”的突破,核心在於其採用了字節跳動自主研發的“雙分支擴散變換器架構(Dual-branch Diffusion Transformer)”,這一架構徹底打破了傳統AI視訊生成“先畫後配”的固有邏輯,實現了視訊與音訊的原生協同生成,同時解決了長期困擾行業的角色一致性、多鏡頭連貫性、音畫不同步三大核心痛點。不同於Sora的“物理模擬派”和Kling的“運動控制派”,Seedance2.0以“敘事連貫性+音畫一體化”為核心技術路線,建構了一套從多模態輸入理解到多鏡頭敘事生成,再到原生音視訊同步最佳化的完整技術體系,其技術創新涵蓋輸入層、核心生成層、最佳化層、輸出層四大環節,每個環節均實現了針對性突破。1.1 輸入層創新:多模態精準理解,解鎖“導演級”控制精度AI視訊生成的核心前提的是“理解使用者意圖”,傳統模型往往只能對簡單文字提示進行淺層解析,無法精準捕捉敘事邏輯、鏡頭需求、情緒氛圍等細節,導致生成結果與使用者預期偏差較大。Seedance2.0在輸入層進行了全方位升級,採用“多模態融合理解模型”,支援文字、圖像、音訊三種輸入方式,同時引入“鏡頭語言解析模組”和“情緒氛圍識別模組”,實現了對使用者創作意圖的深度拆解,解鎖了“導演級”的創作控制精度,這也是其與Sora最大的差異點之一——Sora更擅長“還原物理世界”,而Seedance2.0更擅長“理解敘事需求”。具體來看,輸入層的技術創新主要體現在三個方面:第一,文字輸入的精細化解析。Seedance2.0搭載了字節跳動最新的多模態大模型(基於豆包大模型基座迭代),支援長達2000字的詳細文字提示,能夠精準拆解提示中的“敘事邏輯、角色特徵、場景細節、鏡頭需求、情緒氛圍、音訊風格”六大核心要素。例如,當使用者輸入“一位偵探走進昏暗的辦公室,坐在桌前,點燃香菸,凝視窗外的雨夜。氛圍:noir(黑色電影風格)。音樂:薩克斯風,憂鬱。鏡頭要求:遠景→中景→特寫→過肩鏡頭,運鏡流暢,保持角色一致性”時,模型能夠精準識別每個鏡頭的類型、運鏡方式,角色的動作、神態,場景的光影、色調,以及音訊的風格、情緒,甚至能捕捉到“香菸火光映照臉部”“雨絲清晰可見”等細微細節,為後續多鏡頭生成提供精準指引。這種精細化解析能力,得益於模型在海量影視劇本、鏡頭語言教學、電影片段上的訓練,使其具備了“類導演”的敘事理解能力,能夠自動將文字提示轉化為專業的分鏡指令碼。第二,多模態輸入的協同融合。Seedance2.0支援“文字+圖像”“圖像+音訊”“文字+圖像+音訊”三種組合輸入方式,解決了單一輸入方式的侷限性。例如,使用者可以上傳一張人物肖像圖,搭配文字提示“以這張圖為角色原型,生成一段該角色在海邊散步的視訊,背景音為海浪聲和微風聲,鏡頭為慢鏡頭,氛圍清新治癒”,模型能夠精準提取圖像中的角色特徵(面部輪廓、髮型、服飾),結合文字提示的場景和情緒,生成角色一致、風格統一的視訊;若使用者上傳一段音訊,模型則能根據音訊的節奏、情緒,生成與之匹配的視訊畫面,實現“音畫雙向驅動”。這種多模態協同能力,讓創作更加靈活,既適合專業創作者的精準需求,也適合普通使用者的簡易操作,目前Seedance2.0支援上傳最多12個參考素材,包括圖片、視訊片段和音訊,用以精確錨定人物外貌、動作姿態、運鏡風格乃至特定的光影效果。第三,鏡頭語言的自動解析與生成。這是Seedance2.0輸入層最具創新性的功能,也是其“多鏡頭敘事”能力的核心基礎。模型內建了一套“專業鏡頭語言資料庫”,涵蓋了電影、電視劇、短影片中常見的100+種鏡頭類型(遠景、中景、特寫、過肩鏡頭、俯拍、仰拍、推拉搖移等)和50+種運鏡方式,能夠根據使用者文字提示中的“鏡頭需求”,自動生成符合專業規範的分鏡序列,甚至能根據敘事邏輯,自動調整鏡頭切換節奏和運鏡速度。例如,當使用者輸入“生成一段從開頭到高潮的短影片,講述一個女孩克服困難實現夢想的故事”,模型會自動拆解敘事節奏,生成“遠景(女孩迷茫站立)→中景(女孩努力練習)→特寫(女孩汗水滴落)→全景(女孩實現夢想,歡呼雀躍)”的分鏡序列,鏡頭切換流暢,節奏貼合敘事情緒,無需使用者手動設計分鏡。知名科普博主“影視颶風”在評測中指出,Seedance2.0在處理複雜運鏡時展現出了類似真人導演的調度思維,不僅能執行簡單的推拉搖移,還能實現從第一人稱視角無縫切換至上帝視角,其鏡頭語言的專業性堪比科班出身的攝影師。1.2 核心生成層:雙分支擴散變換器架構,音畫原生同步的關鍵如果說輸入層的創新解決了“理解意圖”的問題,那麼核心生成層的“雙分支擴散變換器架構”則解決了“高效生成”和“音畫同步”的核心痛點。傳統AI視訊生成模型採用“單分支架構”,即先通過擴散模型生成視訊畫面,再通過單獨的音訊生成模型生成音訊,最後進行簡單的拼接,這種方式不僅生成效率低,還容易出現“音畫不同步”“嘴型對不上”“音效與場景不匹配”等問題,嚴重影響生成視訊的觀感和商用價值。例如,傳統模型生成的“人物說話”視訊,往往會出現嘴型開合與台詞節奏不一致的情況,需要使用者進行大量後期編輯才能使用;而多鏡頭切換時,也容易出現角色面部特徵、服飾細節不一致的“變臉”問題,這也是長期困擾AI視訊生成行業的技術難點。Seedance2.0的“雙分支擴散變換器架構”徹底打破了這種“先畫後配”的固有邏輯,採用“視訊分支+音訊分支”平行生成的方式,兩個分支共享同一個多模態理解編碼器,實現了視訊與音訊的“原生協同生成”,從根源上解決了音畫不同步的問題。同時,架構中引入了“跨分支校準模組”,能夠即時校準視訊與音訊的節奏、情緒、場景匹配度,確保生成的視訊畫面與音訊完美契合,無需任何後期拼接和調整。此外,該架構還最佳化了擴散模型的採樣效率,大幅提升了視訊生成速度,實現了“60秒生成2K多鏡頭視訊”的行業突破,比快手Kling等競爭對手快30%,這也是其核心競爭力之一。下面,我們分別拆解兩個分支的核心技術原理,以及跨分支校準模組的工作機制:1.2.1 視訊分支:多鏡頭連貫生成,角色一致性的技術突破視訊分支是Seedance2.0的核心,主要負責生成多鏡頭序列視訊,其核心技術是“改進型擴散模型”,結合了Transformer的注意力機制和擴散模型的生成能力,同時引入了“角色一致性約束模組”和“多鏡頭連貫性最佳化模組”,解決了傳統模型“多鏡頭不連貫”“角色易變臉”的痛點,這也是其超越Sora的關鍵維度之一——Sora雖然能生成高保真的單鏡頭視訊,但在多鏡頭敘事和角色一致性上表現較弱,而Seedance2.0則將“多鏡頭連貫性”作為核心突破點,實現了“單個提示,多個關聯場景,角色全程一致”的敘事生成能力。具體來看,視訊分支的技術創新主要體現在三個方面:第一,改進型擴散模型的採樣效率最佳化。傳統擴散模型生成視訊時,需要經過大量的採樣步驟,生成速度較慢,且容易出現畫面模糊、運動卡頓等問題。Seedance2.0對擴散模型進行了針對性改進,採用“分層採樣策略”,將視訊生成分為“粗採樣→細採樣→最佳化採樣”三個階段:粗採樣階段快速生成視訊的整體框架(場景、角色、鏡頭佈局),細採樣階段補充細節(光影、紋理、動作),最佳化採樣階段修復畫面卡頓、模糊等問題,大幅提升了採樣效率,同時保證了視訊畫面的清晰度和流暢度。測試資料顯示,Seedance2.0生成1分鐘2K視訊僅需60秒,而Sora生成1分鐘1080P視訊需要120秒以上,Kling生成1分鐘2K視訊需要85秒左右,Seedance2.0的生成效率優勢顯著。此外,模型還支援直接生成1080P視訊,無需後期放大,進一步提升了生成效率和商用價值。第二,角色一致性約束模組的創新應用。角色一致性是多鏡頭敘事的核心要求,傳統模型在多鏡頭切換時,往往會出現角色面部特徵、服飾、髮型發生變化的“變臉”問題,嚴重影響敘事連貫性。Seedance2.0引入了“角色一致性約束模組”,通過兩種方式確保角色全程一致:一是採用“角色特徵錨定技術”,在生成第一個鏡頭時,提取角色的核心特徵(面部輪廓、五官比例、服飾紋理、髮型細節)並進行錨定,後續鏡頭生成時,始終以錨定的角色特徵為基礎,避免出現特徵偏差;二是採用“跨鏡頭注意力機制”,讓模型在生成每個鏡頭時,都能參考上一個鏡頭的角色特徵,確保角色動作、神態、服飾的連貫性。實測資料顯示,Seedance2.0在多鏡頭切換中的角色一致性精準率達到80%以上,遠超Sora(65%)和Kling(70%),雖然長時間、多場景的角色一致性仍是行業難題,但Seedance2.0的表現已處於行業領先水平。例如,使用者輸入“同一位男性,場景1在咖啡廳看書,場景2在公園散步,場景3在雨中奔跑。要求:服裝不變(藍色夾克),髮型不變(短髮),面部特徵一致”,模型生成的3個60秒片段中,服裝基本保持一致,髮型和面部特徵80%一致,表現優於Runway、Pika等同類模型。第三,多鏡頭連貫性最佳化模組的設計。多鏡頭敘事的核心不僅是角色一致,更在於鏡頭切換的流暢性和敘事邏輯的連貫性。Seedance2.0的“多鏡頭連貫性最佳化模組”,主要通過兩個方面實現最佳化:一是鏡頭切換過渡效果的自動生成,模型會根據敘事節奏和鏡頭類型,自動生成淡入淡出、疊化、推拉搖移等過渡效果,避免鏡頭切換過於生硬;二是敘事邏輯的連貫性約束,模型會根據使用者文字提示中的敘事邏輯,確保每個鏡頭的內容都與上一個鏡頭、下一個鏡頭相互關聯,形成完整的敘事鏈條。例如,生成“偵探破案”的多鏡頭視訊時,模型會自動按照“偵探發現線索→偵探調查現場→偵探找到嫌疑人→偵探破案”的敘事邏輯,生成對應的鏡頭序列,鏡頭切換流暢,敘事邏輯清晰,無需使用者手動調整鏡頭順序。在動漫特效場景中,Seedance2.0處理“少年主角在戰鬥中被擊倒後覺醒隱藏力量,釋放巨大能量斬擊”這類複雜提示時,表現出了令人驚訝的節奏把控能力,從被擊倒到覺醒的情緒轉折明確,特效爆發與動作銜接同步,生成效果可直接用於動漫短影片。1.2.2 音訊分支:原生音訊同步生成,音效與場景完美契合音訊分支是Seedance2.0的另一大創新亮點,也是其與Sora、Kling等競品形成差異化優勢的關鍵。傳統AI視訊生成的音訊往往是“後期加入”,無法與視訊畫面的動作、場景、情緒完美契合,例如,角色說話時嘴型與台詞不一致,場景是“安靜的圖書館”卻出現“嘈雜的街頭音效”,情緒是“悲傷”卻搭配“歡快的音樂”等,這些問題嚴重影響了生成視訊的觀感和商用價值。Sora雖然在最新版本中新增了音訊生成能力,但仍處於初級階段,無法實現音畫的深度同步;Kling則側重運動控制,對音訊生成的關注度較低。Seedance2.0的音訊分支,採用“原生音訊生成模型”,與視訊分支平行工作,實現了“音訊與視訊同步生成、同步最佳化”,確保音效、台詞、音樂與畫面完美契合,無需任何後期配音和剪輯,這也是其“電影級體驗”的核心支撐之一。音訊分支的技術創新主要體現在三個方面:第一,原生音訊生成的協同邏輯。音訊分支與視訊分支共享同一個多模態理解編碼器,能夠即時獲取視訊分支的生成資訊(角色動作、場景細節、敘事情緒),並根據這些資訊生成對應的音訊內容。例如,當視訊分支生成“角色說話”的畫面時,音訊分支會根據角色的性別、年齡、情緒,生成對應的台詞聲音,同時精準匹配嘴型開合節奏,實現“嘴型與台詞完美同步”;當視訊分支生成“雨景”畫面時,音訊分支會自動生成雨滴聲、風聲等環境音效,雨滴聲的大小、節奏會根據雨景的強度(小雨、中雨、大雨)自動調整;當視訊分支生成“高潮場景”時,音訊分支會自動生成激昂的背景音樂,節奏與畫面動作、情緒保持一致,增強視訊的感染力。實測顯示,Seedance2.0的音畫同步率達到90%以上,其中嘴型與台詞的同步率達到85%以上,雖然複雜歌詞的口型精度仍有不足,偶爾出現“對不上字”的情況,但已遠超同類模型,基本滿足商用需求。第二,多類型音訊的自動生成。音訊分支支援三種類型的音訊生成:環境音效、角色台詞、背景音樂,三種音訊自動融合,形成完整的原生音訊。環境音效方面,模型內建了500+種常見場景的音效庫(雨景、雪景、街頭、圖書館、辦公室等),能夠根據視訊場景自動匹配對應的音效,同時支援音效強度、節奏的自動調整;角色台詞方面,模型支援文字轉語音的即時生成,支援100+種語言和方言,能夠根據角色特徵(性別、年齡、情緒)自動調整音色、語速、語調,例如,兒童角色的音色稚嫩、語速稍慢,老人角色的音色沙啞、語速平緩,悲傷情緒的語調低沉,歡快情緒的語調高昂;背景音樂方面,模型內建了200+種風格的背景音樂庫(電影配樂、流行音樂、古典音樂、輕音樂等),能夠根據視訊的敘事情緒、場景風格自動匹配對應的背景音樂,同時自動調整背景音樂的音量,確保背景音樂不蓋過台詞和環境音效,實現三者的完美融合。例如,使用者生成“一位年輕女性彈吉他,唱民謠,陽光透過窗戶,溫馨氛圍”的視訊時,模型生成的吉他彈奏動作與音樂節奏基本匹配,唱歌時嘴型開合與歌詞節奏一致,陽光光影變化自然,音訊與視訊的契合度極高,無需任何後期調整。第三,音訊質量的最佳化技術。Seedance2.0的音訊分支採用了“降噪最佳化模組”和“音色最佳化模組”,大幅提升了音訊的清晰度和質感。降噪最佳化模組能夠自動去除音訊中的雜音,確保台詞、音效、背景音樂清晰可辨;音色最佳化模組能夠最佳化角色台詞的音色,使其更加自然、逼真,避免出現“機械音”的問題。測試資料顯示,Seedance2.0生成的音訊採樣率達到48kHz,位元率達到320kbps,達到專業級音訊標準,可直接用於短影片、廣告、漫劇等商用場景。此外,模型還支援使用者手動調整音訊參數(音量、語速、音色),滿足專業創作者的個性化需求,進一步提升了商用靈活性。1.2.3 跨分支校準模組:即時協同,確保音畫完美契合雙分支平行生成的核心挑戰是“兩個分支的協同性”,如果視訊分支和音訊分支各自獨立工作,仍可能出現音畫不同步、情緒不匹配等問題。Seedance2.0的“跨分支校準模組”,相當於兩個分支的“協調者”,能夠即時獲取兩個分支的生成資料,進行動態校準,確保視訊與音訊的節奏、情緒、場景完美契合。跨分支校準模組的工作機制主要分為三個步驟:第一步,即時資料採集。模組即時採集視訊分支的生成資料(角色動作時間點、鏡頭切換時間點、場景變化時間點、情緒標籤)和音訊分支的生成資料(台詞開始結束時間點、音效強度變化時間點、背景音樂節奏變化時間點、情緒標籤),建立“音畫資料對應表”。第二步,偏差檢測。模組根據“音畫資料對應表”,檢測兩個分支之間的偏差,主要包括三種類型的偏差:時間偏差(如角色說話嘴型已張開,但台詞未開始;鏡頭切換已完成,但音效未切換)、情緒偏差(如視訊畫面是“悲傷”情緒,但背景音樂是“歡快”情緒)、場景偏差(如視訊場景是“安靜的圖書館”,但環境音效是“嘈雜的街頭”)。第三步,動態校準。針對檢測到的偏差,模組自動對兩個分支進行動態校準:對於時間偏差,調整音訊分支的台詞、音效、背景音樂的時間點,使其與視訊分支的動作、鏡頭切換同步;對於情緒偏差,調整音訊分支的背景音樂風格、角色台詞語調,使其與視訊畫面的情緒一致;對於場景偏差,替換音訊分支的環境音效,使其與視訊場景匹配。整個校準過程即時進行,無需使用者干預,確保生成的音視訊從始至終保持完美契合。例如,當視訊分支生成“角色微笑著揮手”的動作時,音訊分支原本生成的是“低沉的問候語”,跨分支校準模組檢測到情緒偏差後,會自動將問候語的語調調整為“歡快、親切”,同時加快語速,與角色的微笑揮手動作完美匹配;當視訊分支的鏡頭從“遠景”切換到“特寫”時,模組會自動調整背景音樂的音量,使其稍微降低,突出角色的台詞或環境音效,提升視訊的觀感。這種即時校準機制,從根源上解決了傳統模型“音畫不同步”的痛點,也是Seedance2.0“原生音視訊”優勢的核心保障。1.3 最佳化層:多維度修復,打造電影級畫質與音質Seedance2.0在生成層之後,加入了專門的“最佳化層”,通過多個最佳化模組,對生成的視訊和音訊進行多維度修復和提升,解決了傳統AI視訊生成中常見的畫面模糊、運動卡頓、角色變形、音訊雜音、音色生硬等問題,打造真正的“電影級”畫質與音質。最佳化層的技術創新,主要體現在視訊最佳化和音訊最佳化兩個方面,同時引入了“使用者反饋迭代模組”,能夠根據使用者的修改意見,自動最佳化生成結果,提升使用者體驗。1.3.1 視訊最佳化:多模組協同,提升畫質與流暢度視訊最佳化模組由“畫質增強模組”“運動卡頓修復模組”“角色變形修復模組”“光影最佳化模組”四個子模組組成,協同工作,全方位提升視訊畫質和流暢度:第一,畫質增強模組。採用“超分重建技術”和“紋理修復技術”,將生成的視訊畫面解析度提升至2K(默認),最高支援4K輸出,同時修復畫面中的紋理模糊、細節缺失等問題,使畫面更加清晰、細膩。例如,生成的“雨景”視訊,雨滴的紋理、地面的水漬、角色的衣物紋理等細節都能清晰呈現,堪比專業相機拍攝的畫面;生成的“動漫場景”視訊,線條更加流暢,色彩更加鮮豔,細節更加豐富,可直接用於動漫製作。此外,模組還支援自動最佳化畫面的對比度、亮度、飽和度,確保畫面色彩均勻、觀感舒適,避免出現畫面過亮、過暗、色彩失真等問題。實測顯示,Seedance2.0生成的2K視訊,畫質清晰度比Sora提升15%以上,比Kling提升20%以上,細節還原度處於行業領先水平。第二,運動卡頓修復模組。針對傳統AI視訊生成中常見的運動模糊、動作卡頓、幀間跳變等問題,Seedance2.0採用“幀間插值最佳化技術”和“運動軌跡校準技術”,對視訊畫面進行逐幀修復。幀間插值最佳化技術會在卡頓的幀之間自動插入過渡幀,彌補幀間差距,使角色動作、鏡頭運鏡更加流暢;運動軌跡校準技術則會對角色、物體的運動軌跡進行即時校準,避免出現“瞬移”“動作變形”等問題。例如,生成“人物快速奔跑”的視訊時,傳統模型容易出現人物肢體模糊、動作卡頓的情況,而Seedance2.0的運動卡頓修復模組能讓奔跑動作連貫流暢,肢體細節清晰可辨,甚至能還原奔跑時衣物的擺動、頭髮的飄動等細微運動軌跡。實測資料顯示,Seedance2.0生成視訊的運動流暢度達到95%以上,卡頓幀佔比低於5%,遠超Sora(88%流暢度)和Kling(90%流暢度)。第三,角色變形修復模組。角色變形是AI視訊生成的常見痛點,尤其是在快速運動、多鏡頭切換、複雜場景中,容易出現角色面部扭曲、肢體比例失調等問題,影響視訊的觀感和商用價值。Seedance2.0的角色變形修復模組,採用“面部特徵校準技術”和“肢體比例最佳化技術”,即時檢測並修復角色變形問題。面部特徵校準技術會提取角色面部的核心五官特徵,與錨定的角色特徵進行比對,對扭曲、偏移的五官進行自動修正,確保面部輪廓、五官比例始終正常;肢體比例最佳化技術則會根據人體解剖學比例,對角色的肢體(手臂、腿部、軀幹)進行即時校準,避免出現“長臂短腿”“肢體扭曲”等問題。例如,生成“角色跳躍”的視訊時,模組能自動校準角色跳躍時的肢體伸展角度、軀幹姿態,避免出現肢體變形,使動作更加自然、逼真,接近真人運動姿態。第四,光影最佳化模組。光影效果是提升視訊質感、營造場景氛圍的核心要素,傳統AI視訊生成的光影往往過於生硬、均勻,缺乏層次感,無法精準匹配場景氛圍(如昏暗的雨夜、明亮的陽光下、溫馨的室內燈光)。Seedance2.0的光影最佳化模組,採用“場景光影適配技術”和“動態光影模擬技術”,實現光影效果的精準最佳化。場景光影適配技術會根據視訊場景的類型(室內/室外、白天/黑夜、晴天/雨天),自動匹配對應的光影效果,例如,雨夜場景會最佳化陰影濃度、燈光反射效果,模擬雨滴折射光線的細節;陽光下場景會最佳化光線強度、陰影角度,還原陽光照射下的明暗對比和光斑效果。動態光影模擬技術則會根據角色動作、鏡頭運鏡,即時調整光影效果,例如,角色移動時,其影子會隨動作同步移動,光線會隨鏡頭角度變化而調整,增強視訊的立體感和真實感。知名影視後期從業者評價,Seedance2.0的光影效果已接近專業影視後期水準,無需額外手動調整,即可用於廣告、短片等商用場景。1.3.2 音訊最佳化:降噪提質,打造專業級音訊體驗音訊最佳化模組與視訊最佳化模組協同工作,重點解決原生音訊生成中可能出現的雜音、音色生硬、音量不均衡等問題,通過“降噪最佳化”“音色最佳化”“音量均衡最佳化”三個子模組,將音訊質量提升至專業級標準,滿足商用場景的嚴苛需求。其一,降噪最佳化模組。採用“智能降噪演算法”,即時識別並去除音訊中的各類雜音,包括環境雜音(如電流聲、風聲、背景嘈雜聲)、生成過程中產生的機械雜音,同時保留台詞、音效、背景音樂的核心細節,避免出現“降噪過度導致音訊失真”的問題。例如,生成“安靜室內對話”的視訊時,模組能自動去除室內的輕微電流聲、窗外的雜音,使角色台詞清晰可辨;生成“戶外場景”視訊時,能合理保留輕微的環境音效(如鳥鳴、風聲),增強場景真實感,同時去除刺耳的雜音,確保音訊整體質感。測試資料顯示,該模組的降噪效果可達90%以上,降噪後的音訊訊號雜訊比提升至45dB以上,達到專業錄音水準。其二,音色最佳化模組。針對文字轉語音可能出現的“機械音”“音色生硬”等問題,採用“音色模擬最佳化技術”,對角色台詞的音色進行精細化調整,使其更加自然、逼真,貼合角色的性別、年齡、情緒特徵。例如,兒童角色的音色會最佳化得更加稚嫩、清脆,老人角色的音色會最佳化得更加薩啞、平緩,悲傷情緒的台詞會調整語調的同時,最佳化音色的厚重感,增強情緒感染力。此外,模組還支援使用者自訂音色參數,專業創作者可根據需求調整音色的明亮度、厚重感,打造專屬音色,提升創作的個性化水平。其三,音量均衡最佳化模組。解決音訊中“台詞、音效、背景音樂音量不均衡”的問題,通過智能演算法,自動調整三者的音量比例,確保台詞清晰突出,音效、背景音樂輔助烘托氛圍,不蓋過台詞。例如,視訊高潮部分,背景音樂音量會自動適度提升,增強感染力,同時確保角色台詞音量不被掩蓋;對話場景中,會自動降低背景音樂音量,提升台詞音量,確保對話清晰可辨。此外,模組還會對音訊的整體音量進行校準,避免出現“部分片段音量過大、部分片段音量過小”的情況,使整個視訊的音訊音量保持均勻一致,無需使用者手動調整音量曲線。1.3.3 使用者反饋迭代模組:精準適配需求,持續最佳化生成效果Seedance2.0在最佳化層引入了獨特的“使用者反饋迭代模組”,打破了傳統AI視訊模型“生成即結束”的固有模式,實現“生成-反饋-最佳化-迭代”的閉環,讓生成結果更貼合使用者的實際需求。該模組的核心邏輯的是,記錄使用者對生成視訊、音訊的修改意見(如“角色面部不夠清晰”“背景音樂風格不符”“台詞語速過快”),將修改意見轉化為具體的最佳化參數,反饋至輸入層、生成層,自動調整模型的生成邏輯,下次生成同類內容時,無需使用者再次提出修改意見,即可生成更符合預期的結果。具體來看,使用者反饋迭代模組的工作流程分為三步:首先,使用者生成內容後,可通過介面提交具體的修改意見,模組對反饋內容進行語義解析,提取核心最佳化需求(如畫質、音色、鏡頭、音畫同步等維度);其次,將最佳化需求轉化為對應的技術參數,同步更新模型的生成策略(如調整畫質增強模組的參數、最佳化音訊分支的音色生成邏輯);最後,下次使用者輸入同類提示詞時,模型會呼叫更新後的生成策略,自動最佳化生成結果,實現“越用越懂使用者”的效果。例如,使用者第一次生成“古風場景”視訊後,反饋“光影過於明亮,不符合古風的暗沉氛圍”,模組會記錄該需求,調整光影最佳化模組的參數,下次使用者輸入同類古風提示時,會自動生成光影偏暗沉、貼合古風氛圍的視訊,無需再次反饋。這一模組的創新,不僅提升了使用者體驗,降低了使用者的後期編輯成本,更讓Seedance2.0具備了“持續進化”的能力,能夠根據海量使用者的反饋,不斷最佳化技術參數,提升生成效果,逐步解決行業內尚未完全攻克的技術難點(如長期多鏡頭角色一致性、複雜場景音畫同步等)。1.4 輸出層:多格式適配,打通商用落地“最後一公里”輸出層作為Seedance2.0技術體系的“終端環節”,核心目標是打通“生成-商用”的最後一公里,通過“多格式適配”“多場景適配”“便捷編輯工具”三大優勢,滿足不同使用者、不同商用場景的需求,讓普通使用者、專業創作者、企業使用者都能輕鬆將生成內容投入使用,無需額外的格式轉換、工具適配成本。首先,多格式適配能力。Seedance2.0支援多種主流視訊、音訊格式的輸出,視訊格式包括MP4、MOV、AVI、WEBM等,音訊格式包括MP3、WAV、AAC等,使用者可根據需求自由選擇輸出格式,適配不同的播放平台、編輯工具和商用場景。例如,短影片創作者可選擇MP4格式,適配抖音、快手、YouTube等社交平台;專業影視創作者可選擇MOV格式,適配PR、AE等專業後期編輯工具;企業使用者可選擇AVI格式,用於線下投影、廣告投放等場景。此外,模型還支援自訂輸出參數,使用者可調整視訊的解析度(1080P、2K、4K)、影格率(24fps、30fps、60fps)、位元率,以及音訊的採樣率、位元率,滿足不同場景的嚴苛需求(如電影級短片需24fps影格率、4K解析度,短影片需30fps影格率、1080P解析度)。其次,多場景適配最佳化。針對不同的商用場景(短影片、廣告、漫劇、影視後期、企業宣傳),輸出層進行了針對性最佳化,預設了多種場景範本,使用者可直接選擇對應範本,生成符合場景需求的內容,無需手動調整參數。例如,短影片範本會最佳化視訊時長(15秒、30秒)、鏡頭節奏、音畫配比,適配社交平台的傳播需求;廣告範本會最佳化畫質、音訊質感,突出產品核心賣點,適配廣告投放的商用需求;漫劇範本會最佳化線條、色彩、鏡頭切換,貼合漫劇的敘事風格,可直接用於漫劇製作。據字節跳動官方資料顯示,Seedance2.0的場景適配範本已覆蓋10+主流商用場景,適配率達到95%以上,大幅降低了商用落地的門檻。最後,便捷編輯工具整合。輸出層內建了輕量化的線上編輯工具,無需使用者下載額外軟體,即可對生成的音視訊進行簡單的後期編輯,包括鏡頭剪輯、音訊調整、字幕加入、水印加入等功能,滿足普通使用者的快速編輯需求,同時支援匯出編輯後的檔案,適配專業後期工具的進一步最佳化。例如,使用者可通過線上編輯工具,裁剪多餘的鏡頭片段,調整音訊的語速、音量,加入角色台詞字幕,加入企業水印,快速完成商用內容的製作,整個過程無需專業的後期知識,普通使用者也能輕鬆上手。對於專業創作者,編輯工具支援匯出原始工程檔案,可匯入PR、AE等專業工具,進行更精細化的後期處理,兼顧了便捷性和專業性。綜上,Seedance2.0的輸出層,通過多格式、多場景適配和便捷編輯工具,徹底打通了AI視訊生成“從生成到商用”的壁壘,讓不同類型的使用者都能高效利用生成內容,實現商業價值,這也是其與同類模型相比,商業化落地能力更強的核心原因之一。第二章競品全方位對比——Seedance2.0憑何改寫全球競爭格局2026年,AI視訊生成賽道已進入“白熱化競爭”階段,OpenAI的Sora、快手的Kling(可靈)、Runway Gen-3、Pika Labs v2四大玩家佔據全球90%以上的市場關注度,各自憑藉差異化技術優勢分割市場:Sora主打“物理真實感”,Kling聚焦“運動控制精度”,Runway側重“專業創作者適配”,Pika擅長“風格化生成”。而Seedance2.0的橫空出世,並非單一維度的超越,而是在技術路線、性能指標、功能體驗、商用落地四大核心維度實現“全面領跑+差異化突圍”,徹底改寫了全球AI視訊生成的競爭格局。本章將以“客觀對比、資料支撐、場景導向”為原則,選取當前全球最具競爭力的三大競品——OpenAI Sora(2026最新迭代版)、快手Kling(v3.0)、Runway Gen-3,與Seedance2.0進行全方位拆解對比,明確各競品的核心優勢與短板,揭秘Seedance2.0“登頂全球”的核心競爭力,同時為行業從業者、投資者提供清晰的競品參考坐標系。2.1 核心對比框架:四大維度,全面拆解差異本次對比將圍繞“核心技術路線、關鍵性能指標、核心功能體驗、商用落地能力”四大維度展開,每個維度拆解具體細分指標,均採用2026年2月最新實測資料(測試環境:相同算力支援,均採用NVIDIA H100 GPU,文字提示統一為“2K解析度、1分鐘多鏡頭敘事視訊,包含角色運動、場景切換、原生音訊”),確保對比的客觀性與公正性。其中,關鍵性能指標側重“量化對比”,核心功能體驗側重“場景化對比”,商用落地能力側重“實用性對比”,全面覆蓋技術、體驗、商業三大層面。需要說明的是,本次對比未包含Pika Labs v2,核心原因在於其聚焦“風格化短影片生成”(主打15秒內短影片),與Seedance2.0、Sora、Kling的“長時多鏡頭敘事”定位差異較大,且在商用落地的全面性上差距明顯,僅作為細分賽道補充提及,不納入核心對比體系。2.2 核心技術路線對比:不同賽道,各有側重核心技術路線是決定模型性能、體驗與定位的根本,四大模型(Seedance2.0+3大競品)採用截然不同的技術路線,直接導致其核心優勢與短板呈現明顯差異——Seedance2.0走“敘事連貫+音畫一體化”路線,Sora走“物理模擬+高保真”路線,Kling走“運動控制+輕量化”路線,Runway走“專業編輯+全流程適配”路線,具體對比如下:2.2.1 Seedance2.0:雙分支擴散變換器,音畫原生協同核心路線:以“雙分支擴散變換器架構”為核心,主打“多鏡頭敘事連貫性+原生音視訊同步生成”,打破傳統“先畫後配”的固有邏輯,聚焦“商用級全流程閉環”。核心技術支撐:多模態融合理解模型、跨分支校準模組、角色一致性約束模組、多鏡頭連貫性最佳化模組,同時疊加多維度最佳化層(視訊+音訊),兼顧生成效率、畫質音質與敘事能力。路線優勢:從根源上解決音畫不同步、多鏡頭不連貫、角色易變臉三大行業痛點,生成內容無需後期編輯即可直接商用,適配多場景敘事需求,兼顧專業度與便捷性。路線短板:在極端複雜物理場景的還原度上(如爆炸、洪流等大型物理特效),略遜於Sora的物理模擬技術,仍有最佳化空間。2.2.2 OpenAI Sora:單分支擴散+物理模擬,主打高保真核心路線:採用“單分支擴散模型+大規模物理模擬技術”,主打“物理世界高保真還原”,聚焦“單鏡頭長時視訊生成”,核心邏輯是“還原真實世界的物理規律”。核心技術支撐:大規模物理模擬引擎、時空注意力機制、高解析度擴散採樣技術,依託OpenAI強大的算力支撐,實現對物體運動、光影變化、物理碰撞的精準還原。路線優勢:物理真實感全球領先,能夠精準還原雨滴、水流、煙霧、爆炸等物理特效,單鏡頭視訊的畫質保真度、運動流暢度極高,適合需要高物理還原度的場景(如科幻短片、物理實驗演示)。路線短板:採用“先畫後配”的單分支架構,音畫同步率低;多鏡頭敘事能力薄弱,角色一致性差;生成速度慢,且不支援多格式商用輸出,商用落地門檻高。2.2.3 快手Kling(v3.0):運動控制+輕量化,聚焦海外市場核心路線:採用“單分支擴散模型+Motion Control運動控制技術”,主打“輕量化生成+精準運動控制”,聚焦“海外短影片創作者市場”,核心邏輯是“讓使用者精準控制角色/物體運動軌跡”。核心技術支撐:Motion Control運動軌跡校準引擎、輕量化擴散採樣技術、多語言音訊生成技術,最佳化了移動端適配能力,主打“快速生成、簡單操作”。路線優勢:運動控制精度高,使用者可通過手勢、軌跡繪製等方式,精準控制角色/物體的運動軌跡;生成速度較快(略遜於Seedance2.0),輕量化設計適配移動端,海外市場適配性強(支援多語言)。路線短板:多鏡頭敘事能力薄弱,僅支援簡單鏡頭切換;角色一致性差,畫質清晰度低於Seedance2.0和Sora;音訊生成能力初級,音效與場景適配度低,商用級內容生成能力不足。2.2.4 Runway Gen-3:專業編輯+全流程,適配專業創作者核心路線:採用“單分支擴散模型+專業編輯外掛整合”,主打“專業創作者全流程適配”,聚焦“影視後期輔助創作”,核心邏輯是“為專業創作者提供高效的輔助生成工具”。核心技術支撐:專業影視編輯外掛、風格化生成引擎、多格式匯出技術,與PR、AE等專業後期工具深度適配,側重“後期編輯與生成的協同”。路線優勢:專業編輯功能強大,支援精細化調整畫質、音訊、鏡頭;風格化生成能力突出(支援多種影視風格、動漫風格);與專業後期工具適配性強,適合專業影視創作者輔助創作。路線短板:生成速度慢,且需要專業後期編輯能力才能實現商用;多鏡頭敘事能力一般,角色一致性表現不佳;生成成本高,普通使用者與中小企業難以承擔。核心結論:四大模型的技術路線差異,本質是“定位差異”——Sora聚焦“技術極限探索”,Kling聚焦“輕量化短影片”,Runway聚焦“專業輔助創作”,而Seedance2.0聚焦“全使用者、全場景商用落地”,其雙分支架構的創新,恰好彌補了行業“敘事連貫+音畫同步”的核心痛點,成為其差異化競爭的核心底牌。2.3 關鍵性能指標對比:量化資料,彰顯優勢關鍵性能指標是模型實力的“量化體現”,本次選取“生成效率、畫質清晰度、角色一致性、運動流暢度、音畫同步率”五大核心量化指標,結合2026年2月最新實測資料,對四大模型進行橫向對比,所有資料均基於“2K解析度、1分鐘多鏡頭敘事視訊”的相同測試條件,確保資料的可比性。具體對比如下(資料越高,性能越優):2.3.1 核心性能指標對比表2.3.2 關鍵指標深度解析結合上述表格資料,對五大核心指標進行深度解析,明確Seedance2.0的優勢所在,同時客觀看待各競品的亮點:第一,生成效率:Seedance2.0遙遙領先。Seedance2.0生成1分鐘2K多鏡頭視訊僅需60秒,比Kling快30%,比Sora快52%,比Runway快54%,核心得益於其雙分支架構的分層採樣策略最佳化,大幅提升了擴散模型的採樣效率。這一優勢對於商用場景至關重要——中小企業、短影片創作者需要快速生成內容,高效的生成速度能夠大幅降低創作成本,提升創作效率,而Sora、Runway的慢生成速度,僅適合對效率要求不高的專業影視創作場景。第二,畫質清晰度:Seedance2.0處於行業領先。以Seedance2.0的2K畫質為基準(100),Runway Gen-3緊隨其後(90),Sora(85)、Kling(80)差距明顯。核心原因在於Seedance2.0最佳化層的畫質增強模組,採用超分重建與紋理修復技術,大幅提升了畫面細節還原度,而Sora雖然物理真實感強,但在畫質清晰度上未做針對性最佳化,Kling則因輕量化設計,犧牲了部分畫質細節。實測顯示,Seedance2.0生成的視訊,在紋理細節、色彩均勻度上,明顯優於其他三大競品,可直接用於廣告、漫劇等商用場景。第三,角色一致性:Seedance2.0優勢顯著。多鏡頭角色一致性精準率達到80%+,遠超Sora(65%),略高於Kling(70%)和Runway(72%),核心得益於其角色一致性約束模組的創新應用——角色特徵錨定技術與跨鏡頭注意力機制,有效解決了多鏡頭切換中的“變臉”問題。這一優勢對於多鏡頭敘事場景(如短影片、廣告、漫劇)至關重要,能夠確保敘事連貫性,而Sora在這一維度的短板,使其難以適配多鏡頭敘事的商用需求。第四,運動流暢度:Seedance2.0表現最佳。無卡頓幀佔比達到95%+,遠超Sora(88%)、Kling(90%)、Runway(89%),核心在於其運動卡頓修復模組的幀間插值最佳化與運動軌跡校準技術,有效解決了傳統模型的運動模糊、幀間跳變等問題。例如,生成“人物快速奔跑”“鏡頭快速推拉”等場景時,Seedance2.0的流暢度明顯優於競品,不會出現肢體模糊、動作卡頓的情況。第五,音畫同步率:Seedance2.0碾壓式領先。音畫同步率達到90%+,而Sora僅為60%,核心差距在於技術路線——Seedance2.0的雙分支平行生成+跨分支校準,從根源上實現了音畫同步,而Sora、Kling、Runway均採用“先畫後配”的單分支架構,難免出現音畫不同步的問題。實測顯示,Seedance2.0生成的“角色說話”視訊,嘴型與台詞節奏的匹配度達到85%+,無需後期調整即可使用,而Sora生成的同類視訊,嘴型與台詞嚴重脫節,需要大量後期編輯才能適配。2.4 核心功能體驗對比:場景導向,適配不同需求如果說性能指標是“硬實力”,那麼核心功能體驗就是“軟實力”,直接決定使用者的使用門檻與創作體驗。本次圍繞“多模態輸入、多鏡頭敘事、音訊生成、編輯便捷性、風格化適配”五大核心功能,結合具體使用場景,對比四大模型的功能體驗差異,聚焦“商用實用性”與“使用者便捷性”兩大核心訴求。2.4.1 五大核心功能對比1. 多模態輸入能力:Seedance2.0最靈活。Seedance2.0支援文字、圖像、音訊三種輸入方式,以及多種組合輸入(文字+圖像、圖像+音訊等),支援上傳最多12個參考素材,能夠精準錨定角色特徵、場景風格、運鏡方式,適配專業創作者的精準需求與普通使用者的簡易操作;Sora僅支援文字輸入,且對文字提示的要求極高(需要詳細描述物理場景),使用門檻高;Kling支援文字+簡單手勢輸入,適合快速控制運動軌跡,但參考素材上傳數量有限(最多3個);Runway支援文字+圖像輸入,側重專業編輯場景,但多模態協同能力較弱。2. 多鏡頭敘事能力:Seedance2.0獨領風騷。Seedance2.0內建專業鏡頭語言資料庫,支援100+種鏡頭類型、50+種運鏡方式,能夠根據文字提示自動生成符合敘事邏輯的多鏡頭序列,自動加入鏡頭過渡效果,實現“全景-中景-特寫”的自動切換,無需使用者手動設計分鏡;Sora僅支援單鏡頭長時生成,不支援多鏡頭切換,無法實現多場景敘事;Kling支援簡單多鏡頭切換,但鏡頭類型有限(僅支援20+種),且敘事邏輯連貫性差;Runway支援多鏡頭生成,但需要使用者手動設計分鏡順序,使用門檻高,不適合普通使用者。3. 音訊生成能力:Seedance2.0最全面。Seedance2.0支援環境音效、角色台詞、背景音樂三種音訊類型的原生同步生成,支援100+種語言和方言,具備降噪、音色最佳化、音量均衡等功能,音訊質量達到專業級(48kHz採樣率);Sora音訊生成能力初級,僅支援簡單環境音效,不支援角色台詞生成,音畫同步差;Kling支援角色台詞生成,但音色生硬、雜音較多,缺乏音量均衡最佳化;Runway支援音訊生成,但需要手動調整音訊參數,且音效與場景的適配度較低。4. 編輯便捷性:Seedance2.0兼顧便捷與專業。Seedance2.0內建輕量化線上編輯工具,支援鏡頭剪輯、音訊調整、字幕加入、水印加入等功能,普通使用者無需專業知識即可上手,同時支援匯出原始工程檔案,適配PR、AE等專業後期工具,兼顧普通使用者與專業創作者;Sora無內建編輯工具,生成內容需要匯出後使用第三方工具編輯,便捷性差;Kling內建簡單編輯工具,但功能有限(僅支援剪輯、音量調整),無法滿足商用編輯需求;Runway編輯功能強大,但側重專業後期,普通使用者使用門檻高,且編輯流程複雜。5. 風格化適配能力:Runway最優,Seedance2.0均衡。Runway Gen-3的風格化生成能力最強,支援多種影視風格( noir黑色電影、好萊塢大片等)、動漫風格、插畫風格,適配專業創作者的風格化需求;Seedance2.0支援常見的15+種風格(古風、現代、動漫、科幻等),風格還原度高,且能夠結合多鏡頭敘事,適配大多數商用場景的風格需求;Sora側重物理真實風格,風格化適配能力弱;Kling支援簡單風格化生成,但風格種類有限,還原度一般。2.4.2 典型場景體驗對比為更直觀體現功能體驗差異,選取三個典型商用場景,對比四大模型的實際表現:場景1:中小企業廣告生成(需求:1分鐘2K廣告,多鏡頭,包含產品展示、角色講解,原生音訊,無需後期編輯)。Seedance2.0:60秒生成,多鏡頭流暢,角色講解嘴型與台詞同步,產品細節清晰,可直接用於投放;Sora:125秒生成,僅單鏡頭,無角色台詞,需要後期配音、剪輯,無法直接商用;Kling:85秒生成,多鏡頭生硬,角色講解音色生硬、音畫不同步,產品細節模糊,需要後期最佳化;Runway:130秒生成,多鏡頭需要手動設計,音訊需要後期調整,編輯門檻高,不適合中小企業快速投放。場景2:短影片創作者內容生成(需求:30秒2K短影片,多鏡頭,古風風格,包含角色動作、背景音樂,簡單編輯即可發佈)。Seedance2.0:30秒生成,古風風格還原度高,多鏡頭流暢,背景音樂適配場景,內建編輯工具可快速加入字幕、水印,直接發佈;Sora:無法生成多鏡頭,且風格化適配差,不適合;Kling:42秒生成,古風風格還原度一般,多鏡頭切換生硬,音訊雜音多;Runway:65秒生成,古風風格還原度高,但需要手動設計分鏡、調整音訊,編輯耗時久。場景3:專業影視後期輔助(需求:1分鐘2K科幻短片片段,高畫質,複雜物理特效,專業編輯適配)。Sora:物理特效還原度最高,畫質保真,適合作為後期素材,但需要大量後期配音、編輯;Runway:風格化適配強,編輯功能強大,可直接匯入PR、AE最佳化,但生成速度慢;Seedance2.0:畫質清晰,物理特效還原度略遜於Sora,但多鏡頭連貫、音畫同步,可直接作為片段使用,編輯便捷;Kling:物理特效還原度差,不適合該場景。 (AI雲原生智能算力架構)
AI科技觀察 | 矽谷Open Claw刷屏背後:從Copilot到Agent,普通人的生存倒計時
2026年2月,風向徹底變了。如果你還停留在“怎麼寫好一個Prompt(提示詞)”、“怎麼用ChatGPT幫我潤色周報”的階段,我必須很殘酷地告訴你:你已經掉隊了。就在這幾天,矽谷被“Open Claw”類的新技術瘋狂刷屏。這不僅僅是技術升級,這是一場針對普通“打工人”的降維打擊。過去兩年,我們把AI當成“副駕駛”(Copilot),它在旁邊喋喋不休地給建議,但方向盤還在你手裡,腳還在油門上。你覺得很安全,因為“最終幹活的還是我”。但現在,AI Agent(智能體)來了。它不再滿足於當你的軍師,它直接接管了駕駛座。它有了“手”和“腳”,能直接操作瀏覽器、能直接控制滑鼠、能直接呼叫API付款、發郵件、寫程式碼、部署項目。這意味著什麼?意味著“執行”這個環節,正在變得像空氣一樣廉價。如果你的核心競爭力是“我很勤奮”、“我很會做PPT”、“我很擅長整理表格”或者“我能快速搜尋資訊”,那麼恭喜你,在Agent時代,你的價值無限趨近於零。這不是危言聳聽,這是正在發生的現實。一、 勤奮的“通貨膨脹”:當執行力變得一文不值我們從小被教育的邏輯是:天道酬勤。 只要我把事情做對、做快、做完美,我就能贏。但在AI Agent面前,談“執行力”是個笑話。想像一下,以前你需要花3小時整理全網的“競品分析報告”,現在Agent只需要30秒。它能同時打開100個網頁,抓取資料,清洗噪點,生成圖表,自動排版,然後發到你老闆的信箱裡。在這個維度上,人類引以為傲的“熟練工種”,正在遭遇前所未有的通貨膨脹。在職場: 那些靠“搬運資訊”為生的人——初級分析師、行政助理、唯寫CRUD程式碼的程式設計師、只會套範本的文案——他們的生存空間正在被物理消除。以前老闆需要你,是因為AI沒手沒腳;現在AI能自己幹了,還要你這個中間商賺什麼差價?在學校: 還在考察死記硬背?還在讓學生寫八股文?毫無意義。Agent能在幾秒鐘內生成一篇引經據典、邏輯嚴密的論文。如果教育還停留在“知識灌輸”而非“思維訓練”,我們培養出來的,就是一批畢業即失業的“低配版硬碟”。在金融市場: 以前你覺得自己懂K線、懂技術面分析就能賺錢。現在?成千上萬個金融Agent在毫秒等級進行著自動推理和交易。散戶的“盤感”在海量算力和絕對理性的收割機面前,就像拿著長矛衝向機槍陣地。甚至在電商領域: 未來的雙十一,可能不是人在買東西,而是你的“購物Agent”在和商家的“銷售Agent”博弈。你只需要說一句:“我要買個性價比最高的洗碗機”,剩下的就是AI之間的戰爭。當“怎麼做”(How)變得如此簡單且廉價,“做什麼”(What)和“為什麼做”(Why)就成了唯一的奢侈品。二、 時代的殘酷真相:你是“劉邦”,還是“韓信”?歷史總是驚人的相似。如果把AI時代比作楚漢爭霸,現在的AI Agent就是那個戰無不勝的“韓信”。它攻必取,戰必克,執行力爆表,算無遺策。而大多數普通人,現在的焦慮在於:我們都在拚命試圖跟韓信比“打仗”(拼執行、拼技能)。你覺得自己學幾個Python指令碼,學幾個高級剪輯技巧,就能跑贏AI?別天真了,你在跟一個不需要睡覺、進化速度指數級的怪物賽跑。未來的社會分層,將不再是“懂技術的人”和“不懂技術的人”,而是:指揮官(劉邦): 懂得定義問題、懂得識人用人(駕馭Agent)、敢於做決策、敢於承擔後果的人。被淘汰的士兵: 那些還在試圖通過出賣重複性勞動來換取溫飽的人。Agent沒有野心,沒有慾望,沒有價值觀。它不知道為什麼要攻打這座城,它只知道怎麼打下來。“為什麼要打”——這個決定,必須由人來做。三、 絕地反擊:建構你不可替代的“人類壁壘”既然“卷執行”是一條死路,我們該往那裡逃?在2026年的當下,想不被AI洪流沖刷成沙礫,你必須那怕從現在開始,逼自己掌握以下三種“反內卷能力”:1. 從“解題者”進化為“出題者”(系統架構能力)以前的教育教我們怎麼回答問題。未來的核心能力,是怎麼提出一個好問題。Agent是一個超級強大的多啦A夢,但大雄必須知道自己想要什麼。不要學怎麼寫文案,要學什麼是“打動人心的策略”。不要學怎麼剪視訊,要學什麼是“能引發傳播的敘事結構”。不要學怎麼做報表,要學“透過資料看到了什麼商業本質”。你要成為那個設計系統的人,而不是系統裡的螺絲釘。你需要從心理學、社會學、歷史學中汲取養分,建立你對世界運行規律的認知。認知越深,你指揮Agent的威力就越大。2. 捍衛你的“審美”與“品味”(Taste)當AI一秒鐘能生成一萬張海報、一萬篇小說時,“選擇”就成了最高級的生產力。 為什麼這張圖是垃圾,那張圖是藝術? 為什麼這段文字平平無奇,那段文字能讓人落淚? 這種基於人類痛感、共情和文化積澱的“鑑賞力”(Taste),是AI無法通過演算法窮盡的。你的審美品味,就是你在海量資訊垃圾中淘金的篩子,也是你個人品牌的護城河。3. 深耕“情緒價值”與“人性的連接”AI可以模擬安慰的話術,但它無法提供真正的“在場感”。在這個充滿焦慮的時代,一個能真正理解他人痛苦、能提供深度心理支援、能組織社群讓人產生歸屬感的人,將擁有極高的溢價。教育諮詢、高端護理、心理療愈、社群領袖……這些需要高度“人味兒”的工作,AI很難完全替代。因為人終究是社群動物,我們渴望的是另一個靈魂的共鳴,而不是一段冰冷的程式碼。結語不要被今天的焦慮吞噬,但請務必保持清醒。那個“只要聽話照做就能過好一生”的時代,已經徹底結束了。Open Claw不僅抓破了矽谷的泡沫,也抓破了普通人“穩定”的幻象。現在的你,站在一個分岔路口: 左邊是繼續打磨那些即將過期的技能,等待被Agent取代; 右邊是痛苦地重塑認知,去學習如何思考、如何決策、如何審美,成為駕馭Agent的“牧羊人”。機器正在變得越來越像人,所以,人必須變得更像“人”。去思考那些AI無法思考的問題吧。去感受那些AI無法計算的情緒吧。那是你作為人類,最後的、也是最堅固的堡壘。 (李楠竹)
能源革命:AI的背後是算力,算力的背後是電力
隨著算力需求指數級增長,未來電力決定了AI產出上限。正如黃仁勳所言,電力已成為新的貨幣。未來,誰掌握了穩定、廉價且充沛的電力,誰就掌握了通用人工智慧時代的入場券。電網的韌性與冗餘度,正成為影響一國AI競爭力的核心變數。AI時代,全球能源產業迎來六大戰略性機遇:一是銅會成為新石油,作為導電核心材料,全球銅供應將面臨千萬噸級缺口,成為AI時代的硬通貨。二是全球電網升級,特高壓、變電站、柔性直流技術爆發,以解決綠電消納與算力中心的跨區域匹配。三是綠電加速發展,太陽能與風電決定了AI算力成本,太陽能已開始向鈣鈦礦技術發展、風電走向深遠海。中國已在全球具備了綠色能源核心優勢,而太空太陽能將會是未來實現全天候能源供給的重要形態。四是儲能革新,固態電池憑藉高能量密度與安全性,成為適配AI資料中心穩定運行的終極方案。五是最後防線,柴油發電機因高冗餘特性,成為智算中心不可或缺的兜底保障。六是核能復興,微軟、亞馬遜等科技巨頭正鎖定核能,可控核聚變是未來算力無限戰略保障。如果沒有足夠的電力支援,再先進的算力也無法落地轉化為生產力。AI競爭,是一場關於能源效率、電網基建、綠電發展、核能突破的實體工業技術競賽。1全球AI競賽:從缺芯到缺電AI的本質是大量神經元參數的頻繁計算,任何邏輯上不可逆的資訊處理都會產生熱量並消耗能量,這是一種能量與資訊的轉化。AI模型在訓練和推理過程中,本質上是在進行海量的矩陣乘法運算,每一步運算都在將電能轉化為“AI智能”這種有序的資訊結構。因此,當算力需求呈指數級增長時,電力需求也會逼近物理上限,AI就演變為一場關於能源效率的競賽。黃仁勳認為,電力是新的貨幣,它是決定算力產出上限的物理底座,未來AI資料中心,輸入的是電力,輸出的是智力。馬斯克2024年就開始預警說,“我們現在面臨晶片短缺,大約一年後可能出現變壓器短缺,大約兩年後則會出現全面的電力短缺”。2026年1月的達沃斯論壇上馬斯克進一步指出“AI 部署的根本限制因素是電力,就是能源。”他認為AI 瓶頸已從晶片轉向電力,美國正面臨電網老化、太陽能政策掣肘問題,而中國在電力與太陽能產能上已明顯領先。全球範圍內,電力供應的緊缺已成為AI發展的首要瓶頸。國際能源署IEA指出,全球資料中心、人工智慧和加密貨幣的電力消耗在2026年將突破1000TWh。未來,全球AI產業進入算力即國力階段,電力供應的穩定性與充足性重要性大大提升。未來決定一個國家或區域AI競爭力的核心變數,將是其電力基礎設施的韌性與冗餘度。簡單來說,如果沒有足夠的電力支援,再先進的架構也無法轉化為實際的生產力,電力已經成為AI時代稀缺的戰略資源。2歐美電力瓶頸:電網短板制約算力基礎設施擴張2025年,全球電力呈現三大核心趨勢:一是電力增速超過整體能源增速,電力需求增長速度已達到總能源需求增長速度的兩倍以上,主要是由於電動車、AI。二是綠電超越煤電。2025年,全球可再生能源發電量增速顯著,全球風能、太陽能等可再生能源的總發電量正在超過煤炭發電量。三是並網瓶頸成全球難題。無論是美國還是歐洲,目前電力系統的最大阻礙已不再是“發電夠不夠”,而是“電網能不能接入”。全球約20%的新增資料中心和清潔能源項目正面臨嚴重的並網延遲風險。具體來看,2025年,中國全社會用電量首次突破10兆千瓦時,創下全球單一國家用電量的新高。中國一國的用電量約相當於美國的2.4倍,甚至超過了美國、歐盟、俄羅斯、印度和日本全年用電量的總和。在經歷了長達十年的用電平台期後,美國由於受到AI與資料中心的影響,用電在2025年表現出增速2.3%的增長。歐盟的電力需求在 2025 年僅增長約1.1%,仍處於能源危機後的緩慢恢復階段。中國通過高強度的電網投資,建構了全球最強的電力保障體系。首先從裝機規模看,截至2025年底,全國累計發電裝機容量達38.9億千瓦,同比增長16.1%。其中太陽能12億千瓦、風電6.4億千瓦,爆發式增長,為AI提供了綠電基礎。從電網投資強度看,國家電網2025年投資約6500億元,而2026年預算將升至7200億-7800億元,同比增長超20%,為算力爆發提前佈局。與此同時,我們看到歐美正受困於老舊電網。巴菲特曾多次指出,美國電網由於監管分散和裝置老化,投資嚴重不足,他在波克夏的信中提到,現代化的電網建設需要數十年和數千億美元的投入,而美國目前的進度緩慢。比如英國國家電網(National Grid, NGG)發佈了大電網升級計畫,2025-2029年的資本開支計畫已上調至600億英鎊,以應對日益增長的資料中心負載。一是歐美電價高企,電力成為稀缺資源。根據國際能源署(IEA)及BusinessEurope 2025-2026年度的最新核算,中國工業電價長期錨定在0.082-0.085美元/kWh,約0.58-0.61元人民幣,且受惠於特高壓對西部綠電的高效跨區調撥,價格曲線極度平順。而歐洲2025上半年,歐盟非居民電價仍維持在0.156-0.208歐元/kWh,約0.17-0.23美元,幾乎是中國的2.5倍。與此同時,美國儘管全國工業均價維持在0.075-0.08美元/kWh,但其電價中包含著極高的“隱藏溢價”。一方面美國電網營運商PJM發佈的最新拍賣結果顯示,2027/28年度的容量價格已經最高飆升至333.44美元/MW-day的政策上限,比兩三年前整整翻了11倍,這是因為電廠不夠了,大家在為了優先用電權瘋狂競價,容量電價就是為了保證在用電高峰時不掉線,必須付給電廠的預留費,營運商每年需額外支付上百億美元的保供成本,這也會導致其他終端使用者的總電費大幅上調。另外,峰谷價差的極端化,在德州等區域,由於缺乏特高壓跨區調度,2026年初的極端天氣期間,即時批發價格頻頻出現從負電價到5000美元/MWh價格的劇烈跳變,這種極不穩定的價格環境,使得AI訓練所需的穩態電力成本極高。二是資料中心租賃緊缺,美國資料中心核心區電力價格開始上漲明顯,電網要求資料中心營運方承擔容量電費。長期以來,弗吉尼亞北部因低電價被稱為全球資料中心之都,但這一紅利在2026年初已宣告終結。比如隨著空置率跌破1%,北弗吉尼亞的資料中心租金在過去兩年上漲了約 40%-60%,與此同時弗吉尼亞州監管部門新規要求資料中心營運商必須預付巨額的電網升級抵押金,並承擔至少85%的合同容量費用。三是電網容納量不足、新發電項目並網難。根據國際能源署 IEA預測,在2025至2030年間全球資料中心的大規模擴張處理程序中,約五分之一的新增容量將因電網瓶頸而面臨並網延遲的風險。截至2026年1月,全美等待並網的電力項目總容量已超過2500 GW。資料顯示目前一個典型的算力項目從並網申請到實際合閘的平均周期已延長至8年。3算力的盡頭是電力,全球能源六大新機遇3.1銅:AI時代的硬通貨AI對電力需求的擴張直接引爆了對銅的需求。銅會成為新的石油,AI帶來的額外銅需求將在2030年前導致每年數百萬、乃至上千萬噸的缺口。在電力傳輸與分配,比如變壓器、母線、電源線領域,銅不可替代,算力密度的提升帶來了成倍的供電銅纜需求。隨著特高壓線路和算力叢集的建設,全球銅需求進入了長效增長周期。一方面是需求大爆發,根據BHP預測,全球銅需求預計到2050年將增長70%,年需求總量突破5000萬噸。另一方面是銅的礦石品位下降、存量礦井減產、巨大供應缺口。自1991年以來,銅礦的平均品位已下降約 40%。未來十年,全球30%至50%的銅供應將繼續面臨品位下降挑戰。到2035年,現有礦山的產量預計將比當前減少約15%。預計在未來10年內,全球將面臨近1000萬噸的銅供應缺口。3.2全球大規模電網更新:特高壓、變電站、柔性直流為解決綠電與算力中心地理位置不匹配的問題,中國制定了明確的技術路線圖。其中,特高壓負責“跑得遠”,實現數千公里的超長距離低損耗輸電。柔性直流負責“接得穩”,讓綠電平滑入網。計畫到2030 年,中國新增輸電軸線的“柔性直流化”比例將達到 80%。現有的老舊線路中,超過50%將進行柔性化改造,以適應更高比例的清潔能源接入。其中,換流閥等關鍵零部件正在加速實現自主化,確保能源基礎設施的安全。AI資料中心是高密度的電力負載中心,其單機櫃功耗從20kW躍升至50-100kW,正迫使電網末端的變電站迎來一輪爆發式的新建與改造潮。新建的AI資料中心附近,必須配套建設專用變電站,以直接對接特高壓或柔性直流骨幹網,確保大功率電能的“接得穩”。這種專站專用需求,直接帶動了變壓器及配電開關裝置的爆發式增長,變電站建設已成為電網側確定的投資增量之一。美國的電網面臨設施老化和長距離輸電能力不足的雙重挑戰。目前,美國正轉型超前長周期規劃。美國現在正重點轉向765 kV交流骨幹網和高壓直流走廊的建設。如Grain Belt Express 項目,是一條長約872公里的高壓直流線路,旨在將中西部的廉價風電輸送到需求中心,其損耗遠低於美國傳統的交流線。超大規模資料中心 已成為電網升級的主要驅動力,其影響程度甚至超過了可再生能源並網。歐洲的重點在於建立一個高度整合的跨境電力市場,並解決海上風電的消納問題。目前歐洲約40%的配電網由於機齡超過40年需要現代化改造,且有大量可再生能源項目因並網延遲而處於排隊狀態。未來歐洲將主要應用柔性直流技術,特別是用於連接多國電網的海底電纜、混合海上走廊,為此歐盟設定了到2030年各國跨境電力互聯能力需達到其裝機容量15%的目標。3.3 綠電支撐AI算力:太陽能、風電與太空太陽能AI算力的盡頭是電力,而電力的盡頭是綠電。太陽能與風電解決的是算力成本問題、更有經濟性。AI競爭到最後是成本的競爭,而綠電是目前人類獲取能源成本最低的方式。2025年,全球可再生能源進入了太瓦級時代,中國憑藉全產業鏈優勢,已成為全球綠色能源的中心。一是全球綠電裝機大增,邁入新紀元。2025年是全球能源轉型的分水嶺。2025年全球太陽能新增裝機達到創紀錄的650GW。其中,中國絕對領先。太陽能新增裝機315GW,同比增長13.7%,連續13年位居全球首位,中國太陽能累計裝機量已突破12億千瓦大關(1200GW)。中國一年的太陽能新增量,相當於整個美國歷史累計裝機量的總和。在全球佔比方面,2025年,國風電太陽能合計累計裝機首次突破18億千瓦,中國綠電發電量佔全社會用電量的比重已突破22%,太陽能與風電的總裝機量佔全球總量的比重超過40%。美國在加速追趕。2025年太陽能新增裝機約45GW,創歷史新高,累計裝機達到230GW左右。但受限於電網接入效率和供應鏈成本,其增速遠低於中國。二是技術迭代發展。太陽能技術看鈣鈦礦、風電已到深遠海。在太陽能領域,鈣鈦礦疊層技術成為2026年的爆發點。隨著TOPCon與HJT量產效率逼近25%–26%、提升空間縮小,鈣鈦礦、晶矽疊層電池成為效率突破的核心方向:實驗室效率已達34.85%(隆基資料),量產元件效率約26%–28%,中長期目標指向35%。2025年底,中國頭部企業已實現GW級量產,同樣的屋頂面積,鈣鈦礦太陽能未來能為AI資料中心多提供30%的電力。在風電領域,戰場已轉向深遠海,2025年,中國自研的全球最大17MW直驅漂浮式海上風電機組在福建福清下線,關鍵部件全國產化,可適應50米以上水深海域;單台機組年發電量約6800萬度,可支撐約11萬張H100顯示卡的全年能耗。三是中國產能,全球共享。中國太陽能產業形成了對全球的絕對供應主導。2025年,中國生產了全球92%的多晶矽、97%的矽片、90%的電池片和85%的元件。產能出海成為新常態。面對貿易壁壘,中國太陽能企業在2025年加速了中東、東南亞佈局。未來的格局是“中國技術+全球製造+服務全球”。如果沒有中國的高性價比元件,全球太陽能元件價格或上漲,AI資料中心綠電成本將顯著抬升,大幅削弱算力經濟性。四是太空太陽能,是未來的能源形態之一。太空太陽能的核心優勢的是擺脫晝夜交替、天氣變化等影響,實現24小時持續發電,年發電小時數與能量密度較地面太陽能分別能提升7-10倍,有望為超級AI提供永不枯竭的能源。馬斯克近年來持續佈局太空太陽能:2025年8月,星艦完成第十次試飛並實現一二級全流程成功回收,為後續太空太陽能陣列部署奠定了運載基礎;2026年1月,馬斯克在達沃斯論壇上公開表示,SpaceX和特斯拉計畫三年內在美國建設200GW太陽能產能,部分用於太空衛星和資料中心供能,同時SpaceX向美國聯邦通訊委員會提交申請,計畫部署100萬顆太陽能AI衛星,建構太空太陽能供電的AI資料中心網路。星艦的長期目標是將發射成本降至每公斤50美元以下,屆時在軌道上部署GW級太陽能陣列有望具備商業可行性。3.4儲能與電池:從化學能到長周期AI的盡頭是電力,尤其是高效、穩定的電力。首先AI必須配備儲能。AI 模型的訓練與推理是極其挑剔的用電大戶,AI訓練需要24小時無間斷的穩定供電,一旦發生電壓閃爍或斷電,數周甚至數月的算力投入可能瞬間清零,但直接採用風能、太陽能,具有明顯的間歇性與隨機性,因此,儲能系統作為緩衝,能將不穩定的新能源轉化為高可靠性的電流,確保AI 訓練不因電網波動而中斷。其次,AI更偏愛化學儲能。在多元儲能體系中,化學儲能、也就是鋰電池儲能擁有不可替代的地位,相比抽水蓄能等機械儲能,化學儲能具備毫秒級的頻率響應能力,這對於保護算力中心敏感的電子元器件、維持電壓頻率穩定至關重要。化學儲能能量密度高,可直接部署在資料中心內部或周邊,作為應急冗餘電源,實現近端保護。固態電池是未來適配AI的終極儲能方案。傳統液態鋰電池正接近理論極限,而固態電池通過電解質的革新,實現了質的突破。一是能量密度更強。傳統液態電池多在170-300Wh/kg。目前,金屬鋰負極固態電池能量密度已達350-400Wh/kg,未來更有望突破500Wh/kg。二是壽命更長。固態電池在10000次循環後仍能保持90%以上容量,液態電池約能循環3000次。三是更安全。固態電解質熔沸點超200°C,從根源上解決了液態電解液熱失控引發的燃燒隱患。固態電池的高能量密度、高安全、長循環特性,使其成為未來的兆瓦時級大規模AI系統的理想選擇。但從目前來看,固態電池成本高,而磷酸鐵鋰甚至鈉離子電池在短期內成本上更具優勢。從商業邏輯看,儲能能實現盈利閉環。通過儲能參與電網響應,如調頻、峰谷套利,儲能系統可以創造額外收益。歐美電力市場波動劇烈,波峰與波谷的電價差極大。比如德國2025年全年,Epex Spot市場負電價小時數創下歷史新高,達到575小時,遠超 2024年的459小時。2025年5月甚至創下了-250 歐元/MWh的極端負電價記錄。2025年日間平均電價差保持在130歐元/MWh 的高位。通過儲能低吸高拋,電價低時充電,高時放電,儲能系統具備了極強的算帳盈利能力。配儲從AI資本支出轉變為高回報的投資。3.5柴油發電:保障AI電力冗餘,充當最後防線對於AI資料中心,柴油發電承擔著應急備用電源最後保障的關鍵角色。雖然固態電池或UPS不間斷電源具備毫秒級響應能力,但儲能容量通常維持數分鐘至數十分鐘。而柴發具備大功率、長時供電特性,可持續供電數小時至數天,是應對長時停電事故的可靠備份電源。柴油發電機組更適配AI智算中心“大功耗、高冗餘”的建設標準。一是全球AI資料中心功耗密度大爆發,傳統伺服器機櫃功率僅為8-15kW,而2026年開始,主流AI機櫃密度已從20kW 躍升至 50-100kW。由於單位空間功耗極高,任何備用電源的不足都會導致整個叢集連鎖式當機。二是AI訓練是滿載運行,且GPU啟動瞬間會有巨大的浪湧電流。為了扛住這種峰值功率,柴發必須留出比傳統機房更多的功率余量。要求柴發冗餘配置率從80%提升至120%-150%。柴發產業鏈具備技術壁壘高、擴產周期長的顯著特徵,柴發已經成為AI資料中心市場的硬通貨。實際交付中,柴發是智算中心最核心、最成熟的備電選擇,供不應求常態化,1.6MW至2MW以上的大功率機組目前屬於硬通貨,很多訂單排產已普遍延長。3.6核能和可控核聚變:未來與AI深度繫結核能(包括傳統核電、SMR小型模組化核反應堆和可控核聚變)已從能源市場的備選項正式躍升為未來全球AI算力的電力底座。呈現兩大趨勢:一是核能+AI的深度繫結,小型模組化反應堆SMR或是未來AI資料中心的供電主力。與傳統大型核反應堆相比,SMR有望憑藉其靈活部署、低碳高效的特性,成為核電領域對接新型算力基礎設施的重要增量市場,為AI資料中心提供穩定、低成本的基荷電源。2026年上半年,中國首個陸上商業模組化小堆“玲龍一號”預計正式投入商業運行,是全球首個通過IAEA通用安全審查的陸上商用模組化小堆。與此同時全球科技巨頭正以前所未有的規模和速度直接通過PPA電力採購協議或股權投資鎖定核能供應:比如位於賓夕法尼亞州的三哩島核電站的重啟計畫已進入加速期,預計將於2027年並網,為微軟提供837MW的算力能耗。亞馬遜也在2025年底更新了其在華盛頓州的Cascade先進能源設施計畫,該項目將包含12個小核電堆,總輸出提升三倍,專為亞馬遜的AWS近端智算中心供電。Google簽約Kairos Power訂購500MW的SMR堆,計畫從2030年開始分批上線。Meta宣佈了6.6GW的超大規模核能採購計畫,合作夥伴包括Vistra、TerraPower和Oklo,旨在為未來的百萬卡叢集提供保障。二是可控核聚變,這是未來AI文明的聖盃。可控核聚變的技術本質是模擬太陽內部的能量產生過程,反應原理是將氫的同位素氘和氚在超過1億攝氏度的極高溫度和壓力下聚合,形成氦原子核,並釋放出巨大的能量。聚變燃料的能量密度是化石燃料的1000萬倍以上,一公斤聚變燃料釋放的能量相當於約1萬噸煤。可控核聚變的突破難點有三點:難點一是能量增益,核心在於讓聚變反應產生的熱量大於注入系統的能量。過去的聚變實驗中,輸入能量往往遠大於輸出能量,“燒出來的熱量還沒點火用的多”,所以未來技術研究重心已經變成了如何讓反應產生的熱量持續大幅超過注入的能量。難點二是電漿體約束,聚變時電漿體有上億度,這世界上沒有任何容器能直接裝它。所以技術上必須用超強磁場,比如托卡馬克或仿星器,或者超強雷射,在虛空中織出一個“磁力籠”,讓電漿體懸浮在正中間,不能越界。難點三是內壁材料,核聚變反應中心會噴射高能中子,物理內壁必須承受轟擊、並收集熱能以供發電。由於中子呈電中性,磁力籠對其完全無效,它們會直接無視磁場防禦並撞擊,導致目前的固體合金材料在極短時間內便會變得千瘡百孔。現在最新技術突破在於液態方案, 在反應堆內壁鋪設一層流動的液態鋰,像幕布一樣持續覆蓋在固體結構表面,使材料具備自修復特性。這一層液態金屬同時充當了“增殖包層”,當中子撞擊液態鋰時會直接生成燃料——氚,進一步解決氚的元素稀缺問題,實現反應堆的燃料自給自足。從政策上看,已進入可控核聚變研發的大力支援期。中國2026年1月15日起正式施行《中華人民共和國原子能法》,明確“鼓勵和支援受控熱核聚變研究”,推動其加速從科研實驗向商業化工程應用跨越。中國的“夸父”聚變堆關鍵系統綜合研究設施是專門為下一代核聚變堆做技術預研的大科學裝置。與此同時,私營公司開始主導核電的電廠建設,而非僅僅是物理實驗。山姆奧特曼和比爾蓋茲都在重金佈局核聚變初創公司,旨在為未來的超大規模算力叢集尋找無限能源。比如山姆奧特曼投資的Helion Energy 為微軟建設的首個商業聚變電站Orion項目。但是在科學界看來,核聚變商業化尤其是向電網供電大致預期要到2035-2040年後。 (澤平宏觀)
蘭德:決定大國興衰的七大社會基因(AI時代的戰略啟示)
近日,RAND發佈《2026年國家新紀元:人工智慧時代的權力格局與競爭優勢研究報告》(A New Age of Nations: Power and Advantage in the AI Era)。本文根據報告內容對決定大國興衰的七大社會基因進行系統闡釋。決定大國興衰的七大社會基因:AI時代的戰略啟示一、國家意志與雄心:驅動文明躍遷的精神引擎支撐大國崛起的首要社會基因是國家意志與雄心,它展現成一種民族追求知識卓越、技術領先以及國家偉大的集體衝動,還有把這種衝動轉變為持續競爭動力的能力。歷史再三證實,那些處於世界政治和文明巔峰的國家,差不多毫無例外都具備充足的國家雄心,這種雄心一方面表現為對外塑造世界秩序的使命感,另一方面體現為對內激發科學家、企業家、藝術家追求卓越的內在驅力。英國於第一次工業革命時期呈現出的那種“掌控自然、塑造全球”的自信,日本在明治維新之後憑藉“文明開化”當作旗幟的舉國奮力進取,還有二戰之後美國以“山巔之城”自我認定的全球層面擔當,全都是這一基因的典型例證說明。邁進AI時代,國家意志的激發跟維繫遭遇了前所未有的繁雜狀況。一方面,AI變革確實或許重新喚起國家使命感,當技術突破帶來物質繁榮的實際前景,當國家於全球AI競賽裡處於領先位置時,民眾有可能再次燃起對集體未來的樂觀與投入。報告專門指出,2025年中國DeepSeek開源AI模型發佈之後,社交媒體上出現的“國運”討論,正是技術成就激發國家認同的鮮活事例。但另一方面,AI也可能成為國家意志的侵蝕物。若AI致使日常日子變得過度安逸,若演算法推薦頂替了人類自行探索的艱難困苦,若“智能助手”消除了人們面對挑戰的心理預先準備,整個社會興許會陷入報告所警示的“國家怠惰”,就像電影《機器人總動員》裡所描繪的情景那般,人類退化成漂浮在躺椅上的被動消費者,失去站立行走的基本能力,更別說追求卓越的雄心壯志了呀。所以,AI時代國家競爭力的核心悖論在於:技術既能賦予國家遠大抱負,也有可能在毫無察覺中把它掏空。二、統一且連貫的國家認同:社會凝聚力的根基第二大關鍵基因是統一的國家認同,這意味著公民對於所屬政治共同體有著深層歸屬感,它還意味著基於共享歷史敘事、核心價值觀以及集體目標的內在團結。這種認同並非一定要體現成極端民族主義,然而其必須足夠激發奉獻精神、犧牲意願以及面對外部壓力時的集體韌性。報告通過十分鮮明的對比直接揭示出這一基因所具備的決定性作用:戰後的日本成功憑藉“一億一心”的社會凝聚力達成了經濟奇蹟,另一個案例是奧斯曼帝國晚期由於多民族結構導致無法形成統一認同,最終在處於內外交困的狀況下走向瞭解體。社會信任水平,會遭到國家認同強度的徑直影響,制度合法性認知,也會被國家認同強度直接左右,而且國家用來動員資源去應對重大挑戰的能力,同樣會因國家認同強度而受到直接作用。網際網路人工智慧引發的革命,對國家認同所產生的衝擊,或許是具備多維度特點且極為深刻的。其一,人工智慧正處於重塑社會權力結構的處理程序之中,在傳統意義上承擔集體認同作用的中介角色,也就是像律師、醫生、教授等這類被稱作“知識精英”的群體,正面臨著被人工智慧所取代或者處於邊緣化狀態的風險,而這種情況將會動搖既有的社會分層以及身份認同的基礎。其二,更為具有根本性的挑戰源自“人機混合社會”的降臨。當人工智慧代理成為社會行動者,於職場、公共空間甚至私人領域同人類展開互動的時候,“社會”以及“團結”的定義本身就需要重新予以界定。報告提出了這樣一個能引發人深刻思考的問題:一個是由人類以及AI共同建構而成的群體,究竟能不能被看作是真正意義上的“社會”?AI有沒有可能擁有某種樣式的集體認同以及歸屬感?對於這些問題目前還沒有答案,然而其被提出來這件事本身就已經預示著國家認同formation機制會發生深刻的變革。最後,AI對於資訊生態所進行的重塑或許會讓“認識論危機”變得更加厲害——當深度偽造、演算法偏見以及AI生成的虛假敘事到處都是的時候,社會共同享有一個重要且基礎的“事實基礎”可能就會崩潰瓦解,而這可是任何集體認同都必須要具備的前提條件。所以,在AI時代,維護國家認同這件事有著前所未有的主動塑造需求:並非對多元進行壓制,而是要在多種多樣之中重新建構共識;並非對技術予以排斥,而是要保證技術是為社會團結服務,可不充當破壞其的角色。三、共享機會:釋放全民潛能的制度通道第三大基因是共享機會,它所衡量的是,一個社會在何種程度上,允許所有成員,不論其出身、性別、種族或者地域,貢獻其全部人力潛能,並且從中獲取個人發展與國家繁榮的雙重回報。報告把這一概念操作化為五個維度,即社會經濟平等、社會流動性、亞群體參與機會、基於功績的選拔體系,以及吸引全球人才的能力。工業革命的歷程顯示,英國能處於領先地位,關鍵之處在於,它擁有相對開放的制度環境,這使得眾多並非貴族出身的發明家、企業家以及工程師能夠脫穎而出,並進而形成了“創造力多點綻放並呈現出繁花似錦之態”的競爭優勢。AI對於共享機會所產生的影響展現出顯著的悖論特性。在樂觀的情形之下,AI或許會變成“偉大的均衡器”,有研究顯示,AI工具對低技能以及缺乏經驗的工作者提升程度最大,有可能把“表現欠佳者轉變為表現良好者”,AI翻譯破除了語言的障礙,使得全球人才的流動更為順暢,AI輔助技術助力殘障人士克服身體方面的限制,延長老年人的productive年限。可是悲觀的情景同樣是真實且具有危險性的,演算法決策有可能在人們毫無察覺的情況下複製甚至放大既有的社會偏見,進而形成"演算法暴政",預測性AI會武斷地把某些人排除在教育、就業以及信貸機會之外,AI驅動的自動化說不定會摧毀大量中等技能崗位,而新增加的崗位常常要求更高的技術素養,以此形成"數字鴻溝"加劇了結構性不平等,更為隱蔽的是,一旦AI變成認知外包的便捷工具,人們也許會喪失深度學習和skill acquisition的動機,進而在根本上削弱把握機會的能力。報告著重特別指出,AI並不會自然而然地以對國家競爭力有益的方式來推動共享機會,而這樣的共享機會推動是需要“具備遠見卓識的公共政策”去主動進行塑造的。歷史所呈現的經驗表明,在技術革命剛開始的時期通常會使不平等的狀況加劇,只有經歷了經過有意識的社會調整之後,才有可能朝著更為包容的發展模式轉變。四、積極有為的國家:平衡賦能與管控的治理藝術四大基因跟國家的角色定位相關,一個積極且有所作為的國家,具備energetic以及前瞻性地去創造成功的社會經濟條件的能力,然而卻不會過度壓制grassroots、那種自下而上的創新活力。這一概念和國家控制型經濟或者社會不一樣,它著重突出國家身為“條件創造者”而非“直接經營者”的功能。歷史給出了充裕的例證,英國借由帝國體系以及金融制度革新給工業革命謀劃道路,日本明治政府直接促使基礎設施建構與產業遷移,美國在緊要時刻以全國家的體制達成曼哈頓計畫、登月工程這般標記性的國家項目。處於AI時代,國家由此面臨著全新的要求。這些要求是矛盾的,一方面,AI給“積極國家”帶來了前所未有的工具,巨量資料分析能提升政策制定時的精準性,智能系統可最佳化公共服務的交付工作,預測性模型能增強風險預警的能力。另外,AI還有可能破解困擾現代政府的“規劃謬誤”,也就是那種系統性高估項目收益、低估成本和工期的傾向,進而恢復公眾對政府效能的信任。可是在另外一方面呢,AI也讓國家遭遇“賦能過度”這樣的風險:在監控技術致使社會控制達到了前所未有的精細程度之時,在演算法決策取代政治判斷以及公共協商之際,“積極國家”興許就會朝著“全能國家”轉變,進而扼殺社會活力。報告所警示的“空心化”風險在於,倘若AI主要被用於強化官僚控制而非賦能公民之時,要是演算法治理讓公眾感覺更加疏離且無力,國家合法性說不定不但不會提升反而會下降。所以,在AI時代,國家建設的關鍵課題在於,怎樣運用技術來提高治理效能,與此同時防止技術官僚制的圈套,如何於資料驅動的精確治理跟保持政治判斷的人文溫度之間找尋平衡。五、有效的制度:降低交易成本的社會基礎設施第五大基因是有效的制度,其中有效的公共和私人機構,能降低交易成本,能填補國家干預的空白,能解決集體行動困境,還能為競爭優勢提供結構性支撐。制度的有效性,不僅體現在正式的法律規章方面,更體現在非正式的社會規範、信任網路以及合作慣例方面。在工業革命時期,英國的專利保護制度,英國的銀行信貸體系,還有相對穩定的社會秩序,為技術創新和資本積累提供了不可或缺的制度環境。AI 對制度效能有著正反兩方面的影響,積極的一面是,它能夠極大程度地提高組織運行效率,具體表現為,自動化處理常規事務,借助智能分析為決策最佳化提供支援,通過預測性維護降低系統故障發生機率。在公共部門領域,AI 有希望突破工業時代留存下來的官僚制僵化局面,達成 “精兵簡政” 的目標。然而,報告特意對 “超級官僚制” 的風險發出了警示,即當 AI 被用在強化複雜程序而非簡化它們的時候,當演算法決策變得不公開並且難以提出申訴時,制度可能會由服務民眾的工具轉變為具有壓迫性的 “演算法任意統治”。更為深層次的危機存在於社會資本遭侵蝕方面:制度能夠有效運行依靠的是社會信任,而信任是建構於人際互動以及共同經驗之上的。待到AI大規模地去替換人際接觸——不管是醫療診斷、教育輔導還是客戶服務——制度運行的情感根基以及合法性來源或許會漸漸枯竭。所以,AI時代的制度建設要超越單純對效率的追求,去關注制度的人性層面:保證演算法決策具備可解釋性以及可申訴性,維護關鍵領域裡的人際互動空間,在技術應用與制度信任之間建構起良性循環。六、學習與適應型社會:持續進化的認知生態第六大基因,所描述的乃是社會的學習以及適應能力,具體涵蓋對新思想的開放性,對實驗與失敗的容忍,還有把知識轉化為實踐創新的制度管道。這一基因,在工業革命裡的體現,是英國科學革命所形成的“開放科學”範式,包含知識共享,其有同行評議、實證檢驗,以及把科學進步與物質改善相聯絡的文化信念。報告著重指出,在長期競爭中獲勝的那些社會,通常是這樣的社會,即能夠在維持一定秩序之際,允許甚至鼓勵“有組織的混亂”,也就是自下而上的創新實驗。AI時代把前所未有的工具給予了學習適應,且帶來了獨特的認知風險。在積極的方面,AI作為“副駕駛”能夠極大地降低知識獲取以及創新的門檻,研究者能夠利用AI迅速梳理文獻、生成假設、設計實驗,教育者能夠借助AI達成個性化教學,釋放每個學習者的潛能,企業家能夠憑藉AI分析市場、最佳化營運、快速迭代。然而風險也是極為明顯的,一旦AI變成便捷高效的知識源頭,人們有極大可能會陷入“認知解除安裝”當中,也就是把思考的整個過程外包給演算法了事,慢慢地就會漸漸失去獨立分析以及批判性思維的能力。報告發出警告,要是這種“認知解除安裝”出現擴散,那將會從根本上對社會的學習能力以及創新基礎造成損害。更潛移默化的是,AI有可能進一步加劇“認識論危機”,當資訊環境被AI所生成的內容大量充斥的時候,當深度偽造致使“眼見為實”成為過往的時候,社會共有的知識基礎以及判斷標準或許就會瓦解離散,而這恰恰是任何學習處理程序的前提條件。所以,在AI時代進行學習型社會建設時,要格外留意“元認知能力”的培育,並非單純地去掌握更多知識,而是要學會怎樣與AI展開協作,以及怎樣去評估AI輸出的內容,還要學會在人機互動當中維持認知自主性。七、多元化與競爭的多樣性維度一為多樣性,也就是社會在人口特性、教育背景、職業途徑、文化經歷等方面的變化程度,維度二則是pluralism,即社會具備重疊的權威出處、規則制訂機制以及治理層級的程度,還有對其包容和看重的程度。這一基因的理論依據是,創新常常源自不同視角的相互撞擊,而pluralism能避免任何單一權力核心獨佔真理的闡釋,給社會提供糾錯以及適應的彈性範圍。工業革命時期,英國存在相對開放的階級流動,有著多元的科學社團網路,且與美國相比具備更為寬容的宗教環境,這些都被視作其創新優勢的重要來源。AI對於多元pluralism所產生的影響充斥著張力,以樂觀的視角來看,AI技術自身具備democratizing潛力,它能夠降低表達以及組織的門檻,從而讓邊緣化群體獲取發聲的管道,進而促進跨地域、跨文化的思想相交。可是,悲觀的那種情景同樣是可信的,AI驅動的個性化內容推薦,也許會固化“過濾氣泡”,致使不同群體生活在越發分離的資訊世界裡,演算法治理的集中化趨勢,有可能削弱pluralism,把決策權力集中到掌握技術和資料資源的少數主體身上,更為關鍵的是,當AI開始主動塑造文化敘事,甚至就像報告所警示的,或許“創造”出新的宗教信仰和意識形態,社會可能會面臨“意義製造”的碎片化危機,傳統institutions在定義共享價值方面的權威受到挑戰。報告著重的強調指出,AI存在進入一種“極化 - 演算法強化 - 更深極化”惡性循環的可能性,這種情況對應依賴多元對話以及妥協民主的社會而言,是極其危險的。所以,在AI時代維護多元 pluralism 這件事,需要有主動的制度設計:要保證演算法系統具備透明度以及多元價值嵌入,要對公共空間裡的異見表達予以保護,還要在技術應用與民主價值二者之間建構起建設性張力。結語:社會基因的戰略整合最終,所有七大基因都指向一個根本性的檢驗標準,即AI對人類能動性的影響。社會若能把AI革命引向“賦能、能動性和尊嚴”方向,便會在AI時代繁榮昌盛。要是任由AI疊加於“剝奪人們能動性和尊嚴的掠奪性力量和制度”之上,就會陷入長期的競爭劣勢。這一判斷把技術競爭重新錨定在人文價值上,為大國戰略提供了一個深層思考框架。 (TOP行業報告)
“強到可怕!”字節Seedance2.0灰度測試爆火,黑悟空老闆:AIGC的童年結束了
全模態素材都能參考,鏡頭切回來還保持原樣。智東西2月9日報導,2月7日,字節跳動AI視訊生成模型Seedance2.0開啟灰度測試,該模型支援文字、圖片、視訊、音訊素材輸入,可以完成自分鏡和自運鏡,鏡頭移動後人物特徵能夠保持一致。字節Seedance團隊釋放出的飛書文件中介紹到,Seedance2.0可精準還原參考圖的畫面構圖、角色細節,可以復刻參考視訊的鏡頭語言、複雜的動作節奏和創意特效。其所生成的視訊支援平滑延長與銜接,可按使用者提示生成連續鏡頭。Seedance2.0的編輯能力同步增強,支援對已有視訊進行角色更替、刪減、增加。▲女士優雅地曬衣服(來源:Seedance官方)在海外社交平台X上,Seedance2.0的討論熱度居高不下。一位學習了7年數字電影製作的網友在體驗後說,這個模型(Seedance2.0)是唯一一個讓他感到害怕的模型,電影行業的所有崗位幾乎都要消失了。90%他所學習到的技能,Seedance2.0都能實現。▲數字電影製作學習者評論(來源:X)產品設計師、使用者體驗(UX/UI)設計師Linus Ekenstam看完Seedance2.0的案例後說:“它會讓網際網路崩潰,百分之百。 ”▲產品設計師評價(來源:X)遊戲科學創始人兼CEO、《黑神話·悟空》製作人馮驥在體驗了Seedance2.0後還專門發了微博,稱讚該模型為“當前地表最強的視訊生成模型。”並且很慶幸今天的Seedance2.0來自中國。但他也從其中看出了假視訊氾濫與信任危機,因為“逼真的視訊將變得毫無門檻。”▲馮驥微博(來源:新浪微博)但是Seedance2.0也並不完美,在字節Seedance團隊發出的飛書文件《Seedance2.0使用手冊》中,有使用者在評論區中反映,使用同樣的提示詞和素材,生成的視訊在精細化控制上卻不太行。▲飛書文件使用者評論(來源:飛書)並且在一個官方案例中,Seedance2.0生成視訊的中文字幕還是會出現老生常談的中文亂碼情況。▲官方案例錯誤(來源:飛書)這個模型真的有一眾網友說得這麼“恐怖”嗎?智東西第一時間體驗了Seedance2.0,Seedance2.0所生成的視訊畫風、場景和人物的一致性較高,不會發生畸變現象。模型可以根據其自己對劇情的理解加入運鏡和剪輯,聲效上也可以實現提示詞和參考素材的要求。但在提示詞較為簡單或模糊的情況下,Seedance2.0在動畫人物的面部情感表達上還有些僵硬。01. 能自動加入運鏡 全模態素材均可參考2025年12月16日,Seedance1.5 pro模型發佈,在音視訊聯合生成、音畫同步、多語言、運鏡以及語言理解方面進行了提升。Seedance2.0預計在明天正式發佈,目前在即夢AI官網可以充值會員付費體驗,在小雲雀App中則有三次免費體驗機會。Seedance2.0支援文字、圖片、視訊和音訊作為參考素材輸入。使用者可以同時給它最多9張圖片、3段視訊和3段音訊作為參考,指定動作、運鏡、人物、場景、特效、聲效等,Seedance2.0就可以根據參考材料和提示詞要求,合成視訊。但為了保護隱私,Seedance2.0目前暫不支援上傳包含寫實真人臉部的圖片素材。Seedance2.0可精準還原參考圖的畫面構圖、角色細節,還支援鏡頭語言、複雜的動作節奏、創意特效的復刻。其所生成的視訊支援平滑延長與銜接,可按使用者提示生成連續鏡頭。Seedance2.0的編輯能力也同步增強,支援對已有視訊進行角色更替、刪減、增加。如果沒有參考素材也沒關係,只需要一段簡單的提示詞,該模型就可以根據所描述的情節自動規劃分鏡以及運鏡,還能在劇情需要的地方實現慢動作、鏡頭搖晃等效果。在一致性上,Seedance2.0在生成視訊的同時就可以生成匹配的音效和配樂,並且支援口型同步和情緒匹配。Seedance2.0所生成視訊中的角色和場景還可以在多個鏡頭之間保持一致性,使用者可以用該模型生成一段包含多個鏡頭切換的完整片段。02. 體驗:人物場景一致性高 汗水灑落可以“以假亂真”智東西上手體驗了Seedance2.0模型,主要考察模型的自運鏡、角色場景一致性和角色替換方面的能力。Seedance2.0所生成的視訊畫風、場景和人物的一致性較高,不會發生畸變現象。模型可以根據其自己對劇情的理解加入運鏡和剪輯,聲效上也可以實現提示詞和參考素材的要求。但在提示詞較為簡單或模糊的情況下,Seedance2.0在動畫人物的面部情感表達上還有些僵硬。首先,我們輸入提示詞:特寫,焦距50mm,扎馬尾的女生坐在窗邊,微笑時有梨渦,在咖啡廳的桌面上的筆記本上寫著什麼,偶爾有思考的停頓,背景虛化呈現,咖啡館的木質桌沿,柔光打在面部,突出輕鬆的氛圍,咖啡廳中放著鋼琴曲。Seedance2.0生成的視訊如下:▲咖啡廳女孩生成片段(來源:智東西體驗)在生成速度上,Seedance2.0生成一段10秒的視訊需要5分鐘左右。從視訊的畫面上來看,在提示詞沒有說如何運鏡的情況下,該模型自動在開頭加了一個漸進的運鏡,讓畫面劇情更加自然和流暢。在漸進的過程中,畫面中的人物、場景都沒有發生畸變,保持了一致性。Seedance 2.0也可以很準確地還原國漫風,我們上傳了一張國風動漫角色圖,要求Seedance2.0參考圖片,生成一段人物自述片段。▲國風參考圖(來源:Seedance2.0)Seedance 2.0生成的視訊就像是某個遊戲的過場CG動畫,視訊的畫風和人物特點都與素材圖片一致,隨風飄動的絲帶和花瓣邊緣輪廓清晰,運動軌跡合乎常理,人物的嘴型和台詞也可以對得上。但是,在人物情緒的表達上,視訊中人物的面部肌肉沒有明顯的變化,情緒表達不夠飽滿。▲國漫生成片段(來源:智東西體驗)最近,一個韓國AI小狗接受採訪的視訊非常火,我們將視訊截圖發給Seedance2.0,讓它將原圖中的小狗換成小貓。▲AI小狗視訊截圖(來源:小紅書)可以看到,Seedance2.0生成的視訊很完整地保留了參考素材的風格,給小貓穿上了睡衣,並且讓小貓雙手張開,並不是簡單地換頭,小三花貓沒有被睡衣覆蓋的肚子部分也還原了真實小貓崽肚子的質感。而且,在音訊上,Seedance2.0也精準地實現了提示詞中所說的25歲女記者和小孩的聲線。▲AI小貓生成片段(來源:智東西體驗)在X上,自媒體博主冰河用Lovart的Skill生成分鏡故事板,直接複製到Seedance2.0中,他說該模型所生成的視訊比他用ComfyUI做的還細緻。▲自媒體博主冰河製作視訊片段(來源:X)AIGC藝術家DynamicWang用Seedance2.0製作了一個模仿Nike品牌廣告風格的短片,短片中共出現了四位不同族裔的女性,每一位角色的身材和肌肉線條都很符合其所進行的運動的標準,且鏡頭角度變動後,角色的臉部特徵依舊保持一致。短片中的運鏡也十分自然,沒有拼接痕跡,慢動作、角度移動的位置都很準確,符合劇情需要。從第一位體操女孩流暢的翻轉跳躍可以看到,Seedance2.0直接攻破了“AI生成不了體操視訊”這個難題。拳擊女生和跑步女生的汗水以及游泳女生濺起的水花,都沒有了此前AI生成的“黏膩感”。在小雲雀App中,有不少使用者都上傳了自己用Seedance2.0生成的視訊片段。有李小龍對戰日本武士:▲使用者上傳案例(來源:小雲雀App)真人版七龍珠:▲使用者上傳案例(來源:小雲雀App)還有仙俠竹林對決:▲使用者案例(來源:小雲雀App)03. 結語:Seedance2.0降低表達門檻 但提高了對創作者的敘事能力要求從各路大神的體驗、官方案例以及智東西自己的體驗視訊看下來,Seedance2.0最突出的就是運鏡和剪輯能力以及人物和場景的一致性。但其在情感表達的細膩度、中文文字的呈現等方面仍有提升空間。從這一點看,或許Seedance2.0還不足以徹底改變影視界,但Seedance2.0的出現,無疑降低了專業表達的門檻,讓更多人有工具可以將想法可視化。同時,此類AI視訊製作模型也可能加劇內容市場的同質化競爭,並對創作者的原創性、審美和敘事能力提出更高要求。 (智東西)
曝OpenAI 首款硬體定名「Dime」,壞消息:成本太高,9月首發只有「閹割版」
OpenAI 的硬體產品,真的要來了,但可能會是個「閹割版」。據智慧皮卡丘最新爆料,OpenAI 首款面向消費者的 AI 耳機命名將定為「Dime」(即 10 美分硬幣),大概也是形容其極度小巧精緻。與此同時,其相關硬體產品的專利申請已於昨日在國家智慧財產權局(CNIPA)正式公示,意味著我們很快就能看到這款裝置的真容。不過在產品策略上,OpenAI 不得不做出妥協。受限於 HBM 短缺導致 2nm 晶片成本過高,原計畫中帶有計算單元的「類手機」全能形態已被推遲。目前的計畫是先在 2026 年推出一款純音訊功能的簡版耳機,待元件成本下降後,才會發佈配置更強的高級版本。「Dime」是就此前曝光的 OpenAI 音訊裝置項目,代號為「Sweetpea(甜豌豆)。這絕不是一款普通的耳機,此前根據供應鏈消息, 這款裝置的硬體設計被形容為「獨特且前所未見」:它意在取代 AirPods,不採用骨傳導,而是使用了更接近手機等級的用料。主處理器目標直指 2nm 智慧型手機級晶片(Exynos 方案呼聲最高)。主體採用金屬材質,外形類似卵石。內部藏有兩顆可取出的膠囊狀耳機,佩戴方式獨特,是置於耳後,而非傳統的入耳。正在開發定製晶片,目標是讓裝置能通過語音直接執行 iPhone 上的 Siri 指令,打通生態壁壘。據悉在內部,這塊裝置被 Jony Ive 團佇列為最高優先順序。OpenAI 對其寄予厚望,按照計畫產品將在 9 月左右發佈,首年出貨量目標竟高達 4000 到 5000 萬台。而且富士康已接到通知, 需在 2028 年第四季度前為 OpenAI 五款裝置做好產能準備。為什麼做大模型和 AI 軟體的 OpenAI 非要死磕這種高成本的硬體?OpenAI CEO Sam Altman(山姆· 奧特曼)就曾在紐約的一場午餐會上直言:大家別盯著 Google 了,OpenAI 真正的宿敵,是蘋果。在他看來,未來 AI 的主戰場不在雲端,而在終端。Altman 認為,現在的智慧型手機根本承載不了真正的 AI 伴侶體驗——螢幕太小、互動方式太侷限、隱私保護機制太僵化。誰能率先打造出「AI 原生裝置」,誰就能在下一個十年佔據制高點。「智慧型手機是時代廣場,資訊轟炸、注意力粉碎。OpenAI 要做的,是一間『湖畔小屋』——讓你在需要專注時,能關上門,遮蔽噪音。」Altman 如此形容他對硬體的願景。在這個願景下,除了這顆被寄予厚望的「甜豌豆」耳機,一支神秘的智能筆,也在核心考慮之中。當科技巨頭們正扎堆把 AI 塞進眼鏡、手錶時,過去一年 CHatGPT 市場份額不斷被蠶食的 OpenAI ,也開始了一場新的入口爭奪之戰。OpenAI 花 65 億美元 就是為了造支筆?供應鏈爆料雖然明確,但「AI 筆」這個答案仍讓人半信半疑——直到我們把 Altman 和 Ive 過往透露的線索串聯起來,才發現這個看似離奇的猜想,實則有跡可循。去年 5 月,OpenAI 砸下 65 億美元收購由 Jony Ive 創辦的硬體公司 io,後續卻因商標糾紛(遭音訊公司 iyO 起訴)被迫剝離品牌。io 聯合創始人兼首席產品官 Evans Hankey 在法庭聲明中明確表態:「io 目前並無推出定製耳機的計畫。」另一位聯合創始人 Tang Tan 則直接劃清界限:io 產品原型既非入耳式裝置,也不是可穿戴裝置。圖片源自 Tang Tan 法庭訴狀兩項聲明疊加,基本排除了 OpenAI 首款 AI 硬體涉足眼鏡、手錶、耳機等成熟賽道的可能。而關於這款裝置,Altman 自己已經劇透過很多次了:體積小巧,能塞進口袋也能擺在桌上,具備環境感知能力。重點是,它不是來搶手機和電腦飯碗的,而是要填補那些「不方便掏手機」或者「需要深度專注」的場景。他曾如此形容:智慧型手機是時代廣場,資訊轟炸、注意力粉碎。OpenAI 要做的,是一間「湖畔小屋」——讓你在需要專注時,能關上門,遮蔽噪音。從這個邏輯看,筆確實是個聰明的選擇。對比 Friend 那種 24 小時線上的 AI 吊墜,筆的認知門檻低,放桌上不突兀,隱私侵入感也比穿戴裝置低得多。Friend AI 吊墜設計層面,Ive 曾表示偏愛內在極度複雜智能,外在卻讓人想隨手觸摸、輕鬆使用的產品,甚至戲言,設計成功的終極標準是「讓人忍不住想舔一口、咬一口」。Altman 後續直接佐證了這一點:原型機的顏值,確實讓他產生了「想舔一口」的衝動,還精準概括其外觀——極簡優雅,又帶點俏皮與幽默感。Ive 還透露,這款 AI 硬體傾向於陶瓷等高質感材料,核心是追求「近乎天真的簡潔感」。據此可推斷,裝置互動會極度簡化,大機率只保留少量物理按鍵。除了產品理念與形態的高度契合,Jony Ive 與 Sam Altman 對「筆」的個人偏好,更讓這一猜想增添了幾分可信度。是的,Jony Ive 本身就是個資深筆具藏家。他的藏品涵蓋 Montegrappa 復古鋼筆、Marc Newson 設計的愛馬仕鋼筆。他的職業生涯早期就曾靠一款運動感十足的 TX2 圓珠筆賺到第一桶金,後續又深度參與 Apple Pencil 設計,對筆的形態設計積累深厚。由 Jony Ive 設計的 TX2Sam Altman 更是同道中人,甚至有過之而無不及。2024 年 9 月的《How I Write》播客中,Altman 自曝是「超級筆記控」,平均兩三周就能用完一本筆記本,還特別推薦了兩支筆:Uni-Ball Micro 0.5 和無印良品 0.36/0.37 款,搭配深藍色墨水最佳。用他的原話來說,「這類筆記本搭配其中一支筆,就是最理想的書寫組合」。早在 2018 年 4 月,他就在部落格裡寫過自己喜歡用紙筆記錄想法的好處:「我更喜歡寫在紙上的清單。這樣可以很方便地加入或刪除任務。開會時也能隨時查看,不會顯得不禮貌。」兩個對筆都有執念的人湊一塊,造出一支 AI 筆,似乎也順理成章。音訊模型狂飆 OpenAI 在憋 AI 硬體大招兩個愛筆的人造筆,顯然不會只是為了打造一批平平無奇的筆。據外媒 The Information 的爆料,OpenAI 正加速迭代音訊 AI 模型,核心目標就是為這款 AI 個人裝置築牢技術根基。知情人士透露,裝置將以語音互動為核心場景。過去兩個月,OpenAI 已完成工程、產品、研究多團隊的整合攻堅,全力最佳化音訊模型。目前新一代模型架構已初顯成效:不僅能生成更自然、更有人情味的語音回應,內容的精準性與深度也大幅提升。更關鍵的是,該模型將支援與使用者同步對話,能流暢應對打斷,預計今年第一季度正式發佈。報導稱,從去年夏天內部展示的方案來看,OpenAI 首款 AI 硬體的定位是「智能夥伴」——不是簡單的軟體介面,而是能主動與使用者協作,主動提供建議,幫使用者達成目標。在獲得使用者授權的前提下,它還能通過音視訊採集感知使用者及周邊環境,進一步提升互動精準度。目前 OpenAI 已組建覆蓋供應鏈、工業設計、模型研發的跨領域團隊,足見其對硬體賽道的野心。這個音訊 AI 項目的核心班底也已經敲定:負責人 Kundan Kumar 去年夏天從 Character.AI 跳槽加入;產品研究主管 Ben Newhouse 主導文字技術架構的音訊適配;多模態 ChatGPT 產品經理 Jackie Shannon 負責最佳化互動體驗,三人各司其職,構成項目支柱。但 OpenAI 面前橫亙著一個核心障礙:多數 ChatGPT 使用者還沒養成語音互動習慣。究其原因,現有語音模型體驗拉胯,以及使用者對這些功能認知為零。因此,報導直言,OpenAI 當務之急應該是先教會使用者「用語音跟 AI 對話」。而一旦這款裝置落地,且具備環境感知與線上聆聽能力,必將攪動現有 AI 硬體市場的格局——AI 錄音硬體可能迎來最強勁的對手。現有 AI 錄音硬體大多隻做錄音轉文字和摘要等功能;而 OpenAI 這款裝置若落地,錄音摘要只是其眾多原生技能之一,絕非全部。就像智慧型手機出現後順便幹掉了 MP3 播放器,當一個多場景通用裝置包含了你的所有功能時,垂直單品的生存空間就被徹底壓縮了。與此同時,按照硬體+訂閱的常規操作,OpenAI 大機率會把軟體服務直接打包進 ChatGPT 訂閱體系,憑藉龐大的使用者基數和極低的邊際成本,快速收割市場。值得一提的是,結合 OpenAI 的技術佈局與筆的形態,舊金山創業公司 Volley 創始人 Max Child 去年就曾提出了一個頗具想像力的猜想:這款 AI 筆頂部可能整合微型投影儀,將圖像投射到桌面,以此解決無螢幕互動的核心痛點。筆夾部分可能整合麥克風甚至攝影機,不僅能解析文字,還能感知更廣泛的環境。這意味著,使用者在任意紙張上書寫時,AI 不僅能將筆跡數位化,還能即時解讀內容:手寫數學公式,直接給出答案;手寫會議紀要,自動生成待辦事項並同步到手機。它甚至可能成為智能中樞:控制周邊數字介面,或作為平板電腦的高級輸入端,把 ChatGPT 的能力直接注入筆尖的創作中。由 Nano Banana Pro 生成的假想圖值得關注的是,知情人士還透露,OpenAI 並非只計畫發佈一款裝置,而是會陸續推出一系列裝置,以覆蓋更多元的使用場景。Altman 和 Ive 去年已親口證實,首批原型機已經造出,根據 The Information 的報導,首款 AI 裝置預計還要等約一年才會正式亮相。這個時間節點的規劃,也與當前 AI 硬體市場的競爭節奏相契合。科技巨頭們正加速佈局,搶灘 AI 硬體賽道:Meta、Google 都在悶頭做智能眼鏡;彭博社記者 Mark Gurman 爆料,蘋果也在考慮給 AirPods 加攝影機,打造新型 AI 裝置。在巨頭貼身肉搏的戰場之外,OpenAI 這樣一支能聽、能看、還能思考的 AI 筆,反而可能以極低的認知成本,撬開一個長期被忽略、卻高度專注的使用場景。而相比無處不在,這種只在需要時出現的 AI 硬體,或許才更接近下一階段的答案。 (創業邦)
深度訪談─a16z 揭秘 AI 時代的三個頂級致富模式,從0到1億美金只需兩年
核心速覽底層動力: AI 爆發源於人類對“更富有、更懶惰”的終極追求——即用更少的勞動,創造更高的經濟價值。三大核心賽道:AI 原生軟體: 在“綠地機會”中挑戰傳統巨頭,提供全自動化閉環。軟體替代人工: 從“賣工具”轉向“賣結果”,直接切入勞動力市場。私有資料圍牆: 掌控大模型無法獲取的行業私有資料,建構長期防禦力。護城河本質: AI 公司必須成為企業的“記錄系統(System of Record)”。最好的公司擁有“人質”而非客戶。增長神話: AI 極大地縮短了軟體周期。以往需 10 年達成的 1 億美金 ARR,現在最快僅需 2 年。在 AI 浪潮爆發兩年後的今天,市場對於“AI 是否是泡沫”的爭論從未停止。然而,a16z 合夥人 Alex Rampell 在最新訪談中給出了答案:這不是泡沫,而是軟體行業的“黃金時代”。商業的底層邏輯:人類永遠追求“更富有、更懶惰”Alex 認為,所有偉大的技術革命,本質上都在滿足人類的兩個終極本能:Richer & Lazier(變得更富有,以及更懶惰)。更懶惰: 用更少的工作量完成任務。更富有: 創造更高的經濟價值。從 1977 年至今,科技行業經歷了 PC、網際網路、雲、移動網際網路四大周期。AI 是第五個。它並非橫空出世,而是站在前四個周期的肩膀上。現在,AI 已經從“寫個劇本”的魔術表演,正式進入了企業核心流程,開始真金白銀地省錢、賺錢。a16z 看好的三個 AI 投資主題如何建構一家長青的 AI 公司?Alex 總結了三個核心範式:1. 傳統軟體的 AI 原生化 (AI-Native Trad Software)這是在已有的“Bingo 遊戲板”上玩新遊戲。綠地機會 (Greenfield) vs 棕地機會 (Brownfield): 去搶 Adobe 的老客戶是“棕地”,極其困難。但在新公司成立或系統升級的拐點切入,則是“綠地”。核心邏輯: 像 Real 這樣的公司,它不僅是 ERP,更能自動平帳(Close the books)。對於新公司來說,選一個自帶 AI 功能的原生系統是“腦殘決策(No-brainer)”。2. 軟體正在“吃掉”勞動力 (Software Eating Labor)這是 Alex 最興奮的領域,其市場規模遠超傳統的軟體市場。從“買工具”到“買結果”: 以前你買軟體是給員工用,現在軟體就是“員工”。價值定價: 債務催收 AI Salient 的軟體不僅能講 21 種語言,甚至能比人類多催回 50% 的欠款。客戶不再是付訂閱費,而是為增加的收入買單。3. “圍牆花園”:私有資料模型 (Walled Gardens)當底層大模型變得像電力一樣廉價時,勝負手在於誰擁有“稀缺礦產”。原始蔬菜 vs 成熟大餐: OpenAI 像是賣蔬菜(Token)的農場。但它不知道 1992 年的融資價格,也不知道西班牙 80 年代的法律判例。資料護城河:Open Evidence 擁有醫學期刊獨家授權,Vlex 數位化了海量法律記錄。這些“ChatGPT 抓取不到”的資料是核心防禦力。護城河:最好的公司擁有“Hostages”,而非客戶在 AI 時代,程式碼極易被模仿,因此必須建立極致的粘性。a16z 提出了一個深刻的觀點:偉大的公司擁有“人質(Hostages)”,而非客戶。什麼是“人質”?當你的軟體成為了企業的“記錄系統(System of Record)”,承載了所有核心流程和私有資料時,替換你的成本將高到不可接受。以法律 AI Eve 為例,它管理著律師從接案到結案的整個工作流。即使以後大模型出了更強的總結功能,律師也不會搬家,因為他們的資料和流程都“鎖”在 Eve 裡。巨頭會贏嗎?創業者的勝算在那?Alex 對傳統巨頭(Incumbents)持看好態度。與“雲轉型”時期不同,現在的巨頭(如 Microsoft, Adobe, Intuit)反應極快。他們手握大量“人質(老客戶)”,只要加入 AI 功能就能通過加價賺得盆滿缽滿。創業者的三條活路:極度垂直: 尋找巨頭看不上的細分專業領域。模式創新: 利用 AI 實現按效果計費。深挖資料: 掌控那些物理世界或歷史檔案中的獨佔資料。我們正處於從“工具時代”向“代理時代”跨越的節點。AI 不僅僅是效率的提升,它正在重定義什麼是“公司”。正如 Alex 所言,a16z 並非只是在投 AI,而是在投那些能讓使用者更富有、更懶惰的未來。在這個時代,“速度”是入場券,“資料”是護城河,而“結果”才是真正的商品。 (GD梯度下降)
凌晨三點,徹底失眠:Seedance2.0告訴我們,AI正在瘋狂“壓縮”現實世界工作流
凌晨三點,看到影視颶風Tim更新的字節即夢Seedance 2.0視訊,我徹底睡不著了。這是過去一年多來,AI的進步第一次讓我感到如此興奮。或者說,顫慄。很多人都在等視訊領域的GPT-3.5時刻,大家覺得那還要兩三年。Seedance 2.0告訴我們,它已經近在眼前了。它的強悍之處,在於它把運鏡、分鏡、音畫匹配,全部AI化了,並且做到很棒。它理解了光影、透視、鏡頭語言。Tim在視訊裡展示的,是控制,是AI對物理世界的完美復刻。AI的邏輯正在變得清晰而簡單,AI正在瘋狂壓縮我們的工作流:從導演、拍攝到剪輯、配樂;從產品經理、開發到測試、交付。所有的中間環節都在逐步壓縮。這篇文章,我想聊聊AI正在如何改變工作流、如何重構我們的工作。01 視訊工業的GPT3.5時刻Tim在視訊裡那種抑制不住的興奮,我感同身受。以前我們認為運鏡是物理世界的特權,滑軌、搖臂、無人機、斯坦尼康。這些裝置很貴,操作這些裝置的人更貴。Seedance2.0把這些都變成了參數,視訊裡演示的圖生視訊,一張主角的照片+一張場景的照片。它能讓這個主角,在這個場景裡,按照你指定的運鏡方式動起來,多主體一致性得到了驚人的保持。推拉搖移,以前需要鋪設軌道,需要燈光師配合調整每一秒的光位。現在這只是Prompt裡的一行字,物理世界的物理限制,被數學世界的參數限制取代了。Seedance 2.0似乎理解了三維空間的一致性。它知道當鏡頭左移時,背景物體應該如何產生視差。它知道當光線從右邊打來時,影子的長度應該如何變化。Seedance 2.0開始涉足剪輯,AI能夠理解視訊的節奏,能識別畫面中的情緒高點,能自動匹配音樂的鼓點。對於剪輯師來說,以前需要耗費幾個小時的“粗剪”工作,現在可能只需要幾秒鐘。聲音也是一樣,畫面裡籃球場,賽場複雜的聲音同步出現。這種感知上的一致性,是人類大腦判斷“真實”的重要依據,AI做到了。影視後期原本是一個極度複雜的系統工程。導演負責構思,攝影師負責將構思轉化為光影,剪輯師負責將光影重新組合成敘事,配樂師負責用聲音調動情緒。這是一個極其昂貴、低效、且充滿摩擦的線性工作流。Seedance 2.0把這個鏈條打碎了,它把這些工種全部壓縮排了一個模型裡。本質上,AI現在在做的內容就是不斷壓縮我們的各種工作流。從Seedance 2.0看到了AI在壓縮導演、拍攝、剪輯、配樂這些人員的工作流雛形。視訊領域的GPT-3.5時刻已經到來。接下來的兩三年,將是行業洗牌的時刻,舊的秩序正在崩塌。02 AI正在極致壓縮我們的工作流視訊領域的變革只是AI重塑工作流的一個切面,更深刻的變革,發生在軟體領域,發生在我們的手機螢幕上。最近用阿里千問點了一次奶茶,這個體驗讓我思考了很多。它可能預示了App時代的終結,或者說,它預示了“即時軟體”時代的到來。我們現在的網際網路體驗,是被“App”這個形態鎖死的。你想點一杯奶茶,你需要解鎖手機,找到外賣App,點選進入,等待開屏廣告,點選搜尋框,輸入“奶茶”,在幾十個商家列表中篩選,點選進入商家頁面,在幾十種商品中選擇,選擇甜度,冰度,點選下單,支付。這是一個極其冗長的鏈路。為什麼我們要經歷這個過程?因為App在試圖滿足所有人的需求,它在找最大公約數,它不得不把低頻需求塞進二級頁面,它不得不為了商業化加入各種推薦。對於我來說,我不需要這些,我常點的就是那3家店,我知道那家的檸檬茶最好喝,知道那家的後廚最乾淨。我只需要:“幫我點一杯我常喝的那家,無糖。”千問現在的能力,正在接近這個理想狀態。你給它一個指令,它在後台通過程式碼,通過Agent,直接呼叫介面,完成交付。這就是“意圖介面”,你輸出意圖,AI交付結果。中間的UI、互動、跳轉,全部被壓縮了。當AI的能力從Andrej Karpathy提出的“Vibe Coding”進化到足夠強大的Agent,我們的每一個需求都將通過即時生成的“一次性App”來交付。傳統的“產品經理需求文件-開發編寫程式碼-測試找Bug-最終交付”這一長達數周甚至數月的鏈路,將被AI瞬間壓縮至1分鐘以內。這引發了一個根本性的商業追問:既然我可以用1分鐘生成一個“App”來滿足我當下的需求,那我為什麼還要下載一個幾百兆的App?現有的App生態存在著無法克服的結構性矛盾,每個人的需求都是獨特的,AI可以通過即時程式碼將使用者的自然語言需求直接轉化為交付結果。這實際上是AI為使用者量身定製了一個“專屬App”,用完即走,無需留存。這對於現在的網際網路巨頭是巨大的挑戰,他們的護城河建立在App的裝機量上,建立在使用者的使用時長上。如果App消失了,如果入口變成了AI Agent,那他們的流量從那裡來?廣告往那裡投?下一個時代的入口可能逐漸清晰。為什麼所有大廠都在瘋狂做大模型,爭奪那個唯一的“超級Agent”的答案呼之慾出。對於很多App這種集合需求形態的產品,是不是在AI時代會轉向個性化需求的AI內產品呢?現在的App開發商,可能會變成“資料API服務商”,隨著交付鏈路的大幅壓縮和成本降低,App需求實際變成了API需求。每一次產品對話,都是自己作為產品經理的一次結果交付。最終,傳統工作流的消失,意味著公司組織的解體。公司這種組織形式,本質上是為了降低交易成本而存在的。因為溝通很貴,信任很貴。所以我們要把人聚在一起,簽合同,發工資。當一個人+AI就能完成以前需要一個團隊做的事情,龐大的組織就變得沒有必要了,我們會看到越來越多的“一人公司”……這樣看,我相信,AI對世界的改變,正在加速。 (華爾街見聞)