一場事先張揚的發布會讓Sora 成為2024 開年頂流,而字節跳動卻在悄悄推進AI 產品迭代。
近日,字節正式發布文生圖模型SDXL-Lightning。其官方資訊稱該模型採用了新的漸進式對抗蒸餾(Progressive Adversarial Distillation)技術,能將計算時間和成本降至此前的十分之一——通常情況下,文生圖模型使用擴散式生成(diffusion )模型,單張影像處理時間大約需要5 秒,還需多次(20~40 次)調用龐大的神經網路;但SDXL-Lightning 能提速10 倍在2~4 步內生成高品質及解析度的圖像。
事實上,早於2023 年11 月,字節跳動已發表視訊生成研究成果PixelDance,提出基於文字指導+ 首尾幀圖片指導的技術方法,能產生具有高度一致性和豐富動態性的影片;今年1月,位字節發布了視訊生成模型MagicVideo-V2,透過整合文字到圖像模型、視訊運動生成器、參考圖像嵌入模組和插值模組,打造了一條視訊生成流水線,效果超越SVD-XT、Pika1.0、 Runway的Gen-2 等同類模型。
儘管,字節在研發多模態模型方面已處於國內領先狀態,但其與OpenAI 仍有較大差距,好在字節願意接入OpenAI 的模型(字節海外有兩款AI 產品,Cici 和Coze都接入了GPT 3.5/GPT 4 模型,兩者DAU 迅速攀升至百萬級),在一定程度上克服了模型能力的短板。