一場事先張揚的發布會讓Sora 成為2024 開年頂流，而字節跳動卻在悄悄推進AI 產品迭代。

近日，字節正式發布文生圖模型SDXL-Lightning。其官方資訊稱該模型採用了新的漸進式對抗蒸餾（Progressive Adversarial Distillation）技術，能將計算時間和成本降至此前的十分之一——通常情況下，文生圖模型使用擴散式生成（diffusion ）模型，單張影像處理時間大約需要5 秒，還需多次（20～40 次）調用龐大的神經網路；但SDXL-Lightning 能提速10 倍在2~4 步內生成高品質及解析度的圖像。

事實上，早於2023 年11 月，字節跳動已發表視訊生成研究成果PixelDance，提出基於文字指導+ 首尾幀圖片指導的技術方法，能產生具有高度一致性和豐富動態性的影片；今年1月，位字節發布了視訊生成模型MagicVideo-V2，透過整合文字到圖像模型、視訊運動生成器、參考圖像嵌入模組和插值模組，打造了一條視訊生成流水線，效果超越SVD-XT、Pika1.0、 Runway的Gen-2 等同類模型。

儘管，字節在研發多模態模型方面已處於國內領先狀態，但其與OpenAI 仍有較大差距，好在字節願意接入OpenAI 的模型（字節海外有兩款AI 產品，Cici 和Coze都接入了GPT 3.5/GPT 4 模型，兩者DAU 迅速攀升至百萬級），在一定程度上克服了模型能力的短板。

然而，橫空出世的Sora 加速了字節的焦慮：

一方面，Sora 已經能生成60 秒視頻，這將直接改變抖音與TikTok 的內容供給邏輯——巨量數據顯示，以60 秒視頻為臨界點，文生視頻已經在顛覆短視頻行業；

另一方面，Sora 可以用於影片編輯、影片風格混合等多個領域，是一個集影片生成、圖片生成、影片編輯等功能於一體的強大模型。

有鑑於此，Sora 這樣的「新物種」從創作門檻、內容質感、創作持續性等方面都會降維打擊大部分創作者，或將改變內容生產和編輯方式，從業者可能面臨技能需求和工作流程的變化——此前Runway 在《瞬息全宇宙》裡已有所應用，但4 秒到15 秒發展了半年，15 秒到1 分鐘三個月，技術的發展速度如此驚人，隨著文生視頻效果越發精進，抖音及TikTok 也將面臨新科技帶來的洗牌，這在某種程度上刺激字節更加積極推進AI 技術投入。

深層原因還在於：中國移動互聯網業到了用戶、流量趨於見頂的成熟期，監管會更側重產業互聯網的推進與建設，這意味著科技走到平台重建生態的關鍵時期。

尤其，在快速迭代的AI 浪潮裹挾下，心有猛虎的公司都在尋找向上攀爬的入口——當通用人工智能時代呼嘯而來，字節手握應用層及數據層的獨特優勢，抖音擁有豐富的數據素材和充足的算力資源，必須在快速發展時期進行果斷投入（包括技術生態迭代、研發投入等），從而博一張未來的船票。

那些顛覆產業產品的誕生契機就是如此傳奇：Sora 創始團隊成立不足1 年，由兩名剛畢業的博士生帶隊，核心成員15 人，其中甚至有00 後（成員Will DePu 於2003 年出生）；而抖音前身A.me 於2016 年秋上線時，創始團隊也只有7 個年輕人。

虎嗅了解到，字節跳動的AI 策略是各個市場做各自的產品；其中，剪映或將成為中國AI 應用最先爆發的產品：截至2021 年，剪映月活用戶數已經突破1 億，是國內最大的行動影片編輯產品。

具體而言，字節跳動透過拆解明確每個部門的OKR（例如抖音主要負責拉新，而位字節門負責AI 產品的Flow 部門負責開發及產品成長）實現了部門間互不干涉，解決了網路公司迅速擴張所面臨的組織協同問題，是國內逐夢AI 浪潮網路公司中策略最清晰的一個。

張楠在2020 年抖音創作者大會發言

要知道，抖音CEO 張楠卸任前一年（2023 年）絕大多數精力都傾斜在剪映相關業務上。根據張楠自述，刺激她義無反顧投身AI 的原因之一便是希望幫助創作者對更好表達自己的想法，因為過去「幾乎無法用一個產品完成所有的創作，要橫跨幾個產品之間，用複雜的編輯和交互流程，才能完成表達。”

但據字節內部人士透露，張楠親自帶隊投身AI 研究，很大程度上源於字節管理層預判文生圖、文生視頻將是下一個引領時代的賽點。

於張楠而言，就像她在朋友圈說的那樣：「專注地從『心』出發，用始終創業的狀態，在未來的十年再折騰一些我熱愛的事情。字節跳動是最好的平台，既有夢想，又務實的浪漫，我很期待和剪映的小伙伴們一起造夢，與這個AI 的時代一起成長，共同繪製出腦海中的奇幻世界。”

而且，張楠在內部信中坦言，最近跟團隊裡的很多人聊天，有很多人還是滿腔熱血的，有很想做的事，這更讓她覺得機不可失、時不再來。「我知道這會是一條很長的路，而且會有很多激烈的競爭，也會碰到技術不確定性帶來的許多挑戰和試錯。但夢想還是應該有的，如果不極致地試一次，未來該多遺憾。”

於公司而言，字節在模型技術和資料兩個方面同時具備優勢，可以利用自身的資料資產為模型訓練提供足夠的資料來源，進而在市場中獲得更大的競爭力。

先前，《晚點LatePost》曾在報道中指出，字節廣告客戶投放總成本裡有10%~20% 為影片製作成本；去年開始，位字節在開發一些相關產品幫廣告客戶壓縮這部分投入。

接近字節人士向虎嗅表示，在位字節核心AI 業務中，剪映佔據重要位置，集團希望它成為一個獨立的工具產品。“從戰略角度看，位元字節剪映變成一個類似於過去支付寶和淘寶關係的產品，它本身是一個工具，現在得慢慢地獨立出來。”

不過，傳統影片編輯工具，如剪映的技術路線是基於一些預測性和可複現的底層操作，包括傳統圖像學和影片編輯演算法，以非常精確的方式編輯影片內容——這樣的優勢在於其操作粒度細且可控性強；缺點在於需要大量的人力投入，例如剪輯一段影片考驗製作者能力和人力成本。

順著這個邏輯所進化的工具，只能透過建立一套標準作業流程（SOP），將一些工具進行組合以形成多套模板，再透過這些模板來進行視訊剪輯和生成；然而，這些模板基本上很同質化，導致產生的變化很相似，形成了固定範式，導致這類工具適用場景有限，創新性較低——而Sora 在影像控製表達能力上結合了DALL·E 和GPT-4 的能力，其他廠商缺乏對應的圖像和語言模型能力，人才、數據和算力才是技術復現的三大核心壁壘。

一位華人工程師向虎嗅表示，OpenAI 在技術層面領先的原因之一是選擇了Transformer 架構並創新推出GPT 系列。「最早的Transformer 論文是由谷歌的科學家編寫，但在當時並未被視為主流架構；然而，OpenAI 首席科學家伊利將Transformer 架構應用於GPT-1 模型後，其展現出優於以往模型的能力。 」

他進一步指出，相較於Google這樣的科技巨頭，在新科技面前往往更重視社會影響及對現有業務的影響──字節何嘗不是如此；而OpenAI 作為一家創業公司，反而可以放開手腳，更注重創新與自我突破。

Sora只是亮個相，為何嚇到你了？

「Sora 能夠將真實世界映射到虛擬世界，無論內容真實性、視訊品質（包括解析度、碼率、像素等）還是輸出內容與用戶需求的一致性都有顯著提升，誇張點說是直接完成了1 到100 的躍遷。」一位AI 創業家如此評論道。

上述論點並非危言聳聽——與其他文生視頻模型（Runway、 Pika 等） 不同，當攝影機移動和旋轉時Sora 能輸出保持人物和場景3D 空間一致性、基本上符合物理世界規律（不能完全保持，也會出錯）的影片。

對此，OpenAI 透漏，Sora 的技術架構與傳統視訊技術路徑有所不同：其先將不同視訊和圖片資料壓縮在一個低維空間中，再分解成統一Patch 作為訓練大模型的基本單位，這一改進使得文生影片更加逼真、高品質。

Sora 輸出能力有多好呢？即使在人物、動物或物體被遮擋或離開畫面時，仍然可以進行追踪，確保物體持續呈現；而且，相較於其他大模型在文本數據上理解和湧現，Sora 在GPT（不少人猜測訓練的或許是GPT-4.5）的語意理解支撐下，能理解使用者需求以及在預訓練學習過程中理解學習的影片內容。

疑似週亞輝在朋友圈透漏GPT4.5 發佈時間

雖說，尚未對外開放測試的Sora 仍處於世界模型研究應用的初期階段；可Sora 一旦上線，用戶貢獻的素材內容能豐富資料資源增加訓練樣本。

一位AI 創業家樂觀地表示，「相對現在某些類GPT 產品插件，進化的大模型可能支持各種插件應用，解決生成內容中的各種問題，並對視頻、遊戲等內容產業產生商業層面的變革。”

所以，短期內Sora 更多會應用於實體世界內容的延展，包括使用實體世界內容拼接創造新的創新內容，例如常規內容短片、電影等；中期，Sora 可作為影片編輯工具，應用在特效添加、背景變更、人物替換方面；後期，Sora 應用程式範圍會涉及虛擬實境、擴增實境、遊戲開發等，潛在應用方向包括虛擬試衣、虛擬旅遊等。

當然，要實現真正的AGI，需要具備強大的理解能力、記憶能力和決策能力，眼下的人工智慧只是人類認知能力的一個延伸，其邏輯性仍不夠強，還需要人類來表達內容的邏輯性和意義。

不過話說回來，即便Sora 讓整個網路都為之躁動，但資本市場投資主線有兩條：

一是關注內容資產重估，文字是內容資產的最基礎層，具有最大的上升空間，因此內容資產將在多模態技術演進中迎來重估；

二是專注於AI 內容生成工具，AI 多模態技術將降低不同內容形式間轉換的門檻，並提高AI 工具在內容生成中的作用，這一進程可能會加速實現。

Sora 第一個棘手問題是廢棄問題，即可能產生大量的誤導性信息，特別是對於虛假信息的識別比較困難，因為它們是設計來欺騙的，需要人工細緻地進行審查；若處理不當，會對商業化產生較大影響。

目前，Sora 測試的重要一環便是紅隊測試（一種透過模擬攻擊者的行為來評估系統安全性和弱點的測試方法），主要為了解決廢棄和虛假資訊等問題，以提升其可靠性和可用性。

Sora 第二個棘手問題是數據和版權問題，原生AI 公司很難累積大量數據，即使OpenAI 背靠微軟也缺乏相應的原生數據，所以在學習過程中會面臨數據安全、隱私侵犯等風險。

不過，關於AI 生成內容是否具備版權，以及內容生成者、模型和營運平台之間的責權劃分，首例AIGC 版權案已經宣判，未來是否會朝著這個方向發展，值得關注。（虎嗅）

介面新聞從知情人士處獲悉，字節發布文生圖開放模型SDXL-Lightning。

從AI開源社群Hugging Face的最新名單上，介面新聞查詢到了這個模型。SDXL-Lightning 躋身模型趨勢榜，同時也成為Hugging Face Spaces上的熱門模型。

與SDXL-Lightning一同上榜的，是谷歌新推出的「最強開放大模型」Gemma系列，以及Stability AI的新一代文生圖模型Stable Cascade。

在影像生成領域，先進模型的生成技術依賴擴散過程，就是把雜訊逐步轉換為影像樣本的迭代。這個過程通常需要20到40次呼叫神經網絡，不僅會耗費龐大的運算資源，生成速度也比較慢。產生一張高品質影像，大約需要5秒。

知情人士透露，字節跳動的SDXL-Lightning透過漸進式對抗蒸餾的技術，實現前所未有的生成速度。此模型能夠在2步或4步內產生極高品質和解析度的影像，將產生速度加快十倍，是1024解析度下速度最快的文生圖模型，計算成本則降低為十分之一。

一位分析師表示，對於需要快速影像生成的應用程式場景，如即時廣告創意、遊戲角色設計等，SDXL-Lightning模型表現出一些應用潛力。這項技術也可以被運用於快速且高品質生成視訊、音訊以及其他多模態內容。

字節跳動智慧創作團隊對介面新聞回應稱，開源開放的浪潮已成為推動人工智慧迅猛發展的關鍵力量，SDXL-Lightning模型基於已有繁榮生態的文生圖開放模型SDXL，設計之初就考慮到與開放模型社群的相容。

SDXL-Lightning可以作為增速插件無縫整合到卡通、動漫等多樣風格的SDXL模型中，並支援當前流行的控制插件ControlNet、產生軟體ComfyUI，方便開發者、研究人員和創意從業者結合這些工具，助力整個產業的創新和協作。（界面新聞）

彙整鉅亨號中所有使用「SDXL-Lightning」關鍵字，所發布的內容 (依照時間排序，最新在前，舊的在後)`