一場事先張揚的發布會讓Sora 成為2024 開年頂流,而字節跳動卻在悄悄推進AI 產品迭代。
近日,字節正式發布文生圖模型SDXL-Lightning。其官方資訊稱該模型採用了新的漸進式對抗蒸餾(Progressive Adversarial Distillation)技術,能將計算時間和成本降至此前的十分之一——通常情況下,文生圖模型使用擴散式生成(diffusion )模型,單張影像處理時間大約需要5 秒,還需多次(20~40 次)調用龐大的神經網路;但SDXL-Lightning 能提速10 倍在2~4 步內生成高品質及解析度的圖像。
事實上,早於2023 年11 月,字節跳動已發表視訊生成研究成果PixelDance,提出基於文字指導+ 首尾幀圖片指導的技術方法,能產生具有高度一致性和豐富動態性的影片;今年1月,位字節發布了視訊生成模型MagicVideo-V2,透過整合文字到圖像模型、視訊運動生成器、參考圖像嵌入模組和插值模組,打造了一條視訊生成流水線,效果超越SVD-XT、Pika1.0、 Runway的Gen-2 等同類模型。
儘管,字節在研發多模態模型方面已處於國內領先狀態,但其與OpenAI 仍有較大差距,好在字節願意接入OpenAI 的模型(字節海外有兩款AI 產品,Cici 和Coze都接入了GPT 3.5/GPT 4 模型,兩者DAU 迅速攀升至百萬級),在一定程度上克服了模型能力的短板。
然而,橫空出世的Sora 加速了字節的焦慮:
有鑑於此,Sora 這樣的「新物種」從創作門檻、內容質感、創作持續性等方面都會降維打擊大部分創作者,或將改變內容生產和編輯方式,從業者可能面臨技能需求和工作流程的變化——此前Runway 在《瞬息全宇宙》裡已有所應用,但4 秒到15 秒發展了半年,15 秒到1 分鐘三個月,技術的發展速度如此驚人,隨著文生視頻效果越發精進,抖音及TikTok 也將面臨新科技帶來的洗牌,這在某種程度上刺激字節更加積極推進AI 技術投入。
深層原因還在於:中國移動互聯網業到了用戶、流量趨於見頂的成熟期,監管會更側重產業互聯網的推進與建設,這意味著科技走到平台重建生態的關鍵時期。
尤其,在快速迭代的AI 浪潮裹挾下,心有猛虎的公司都在尋找向上攀爬的入口——當通用人工智能時代呼嘯而來,字節手握應用層及數據層的獨特優勢,抖音擁有豐富的數據素材和充足的算力資源,必須在快速發展時期進行果斷投入(包括技術生態迭代、研發投入等),從而博一張未來的船票。
剪映成字節刺破AI的“針”
那些顛覆產業產品的誕生契機就是如此傳奇:Sora 創始團隊成立不足1 年,由兩名剛畢業的博士生帶隊,核心成員15 人,其中甚至有00 後(成員Will DePu 於2003 年出生);而抖音前身A.me 於2016 年秋上線時,創始團隊也只有7 個年輕人。
虎嗅了解到,字節跳動的AI 策略是各個市場做各自的產品;其中,剪映或將成為中國AI 應用最先爆發的產品:截至2021 年,剪映月活用戶數已經突破1 億,是國內最大的行動影片編輯產品。
具體而言,字節跳動透過拆解明確每個部門的OKR(例如抖音主要負責拉新,而位字節門負責AI 產品的Flow 部門負責開發及產品成長)實現了部門間互不干涉,解決了網路公司迅速擴張所面臨的組織協同問題,是國內逐夢AI 浪潮網路公司中策略最清晰的一個。
要知道,抖音CEO 張楠卸任前一年(2023 年)絕大多數精力都傾斜在剪映相關業務上。根據張楠自述,刺激她義無反顧投身AI 的原因之一便是希望幫助創作者對更好表達自己的想法,因為過去「幾乎無法用一個產品完成所有的創作,要橫跨幾個產品之間,用複雜的編輯和交互流程,才能完成表達。”
但據字節內部人士透露,張楠親自帶隊投身AI 研究,很大程度上源於字節管理層預判文生圖、文生視頻將是下一個引領時代的賽點。
於張楠而言,就像她在朋友圈說的那樣:「專注地從『心』出發,用始終創業的狀態,在未來的十年再折騰一些我熱愛的事情。字節跳動是最好的平台,既有夢想,又務實的浪漫,我很期待和剪映的小伙伴們一起造夢,與這個AI 的時代一起成長,共同繪製出腦海中的奇幻世界。”
而且,張楠在內部信中坦言,最近跟團隊裡的很多人聊天,有很多人還是滿腔熱血的,有很想做的事,這更讓她覺得機不可失、時不再來。「我知道這會是一條很長的路,而且會有很多激烈的競爭,也會碰到技術不確定性帶來的許多挑戰和試錯。但夢想還是應該有的,如果不極致地試一次,未來該多遺憾。”
於公司而言,字節在模型技術和資料兩個方面同時具備優勢,可以利用自身的資料資產為模型訓練提供足夠的資料來源,進而在市場中獲得更大的競爭力。
先前,《晚點LatePost》曾在報道中指出,字節廣告客戶投放總成本裡有10%~20% 為影片製作成本;去年開始,位字節在開發一些相關產品幫廣告客戶壓縮這部分投入。
接近字節人士向虎嗅表示,在位字節核心AI 業務中,剪映佔據重要位置,集團希望它成為一個獨立的工具產品。“從戰略角度看,位元字節剪映變成一個類似於過去支付寶和淘寶關係的產品,它本身是一個工具,現在得慢慢地獨立出來。”
不過,傳統影片編輯工具,如剪映的技術路線是基於一些預測性和可複現的底層操作,包括傳統圖像學和影片編輯演算法,以非常精確的方式編輯影片內容——這樣的優勢在於其操作粒度細且可控性強;缺點在於需要大量的人力投入,例如剪輯一段影片考驗製作者能力和人力成本。
順著這個邏輯所進化的工具,只能透過建立一套標準作業流程(SOP),將一些工具進行組合以形成多套模板,再透過這些模板來進行視訊剪輯和生成;然而,這些模板基本上很同質化,導致產生的變化很相似,形成了固定範式,導致這類工具適用場景有限,創新性較低——而Sora 在影像控製表達能力上結合了DALL·E 和GPT-4 的能力,其他廠商缺乏對應的圖像和語言模型能力,人才、數據和算力才是技術復現的三大核心壁壘。
一位華人工程師向虎嗅表示,OpenAI 在技術層面領先的原因之一是選擇了Transformer 架構並創新推出GPT 系列。「最早的Transformer 論文是由谷歌的科學家編寫,但在當時並未被視為主流架構;然而,OpenAI 首席科學家伊利將Transformer 架構應用於GPT-1 模型後,其展現出優於以往模型的能力。 」
他進一步指出,相較於Google這樣的科技巨頭,在新科技面前往往更重視社會影響及對現有業務的影響──字節何嘗不是如此;而OpenAI 作為一家創業公司,反而可以放開手腳,更注重創新與自我突破。
Sora只是亮個相,為何嚇到你了?
「Sora 能夠將真實世界映射到虛擬世界,無論內容真實性、視訊品質(包括解析度、碼率、像素等)還是輸出內容與用戶需求的一致性都有顯著提升,誇張點說是直接完成了1 到100 的躍遷。」一位AI 創業家如此評論道。
上述論點並非危言聳聽——與其他文生視頻模型(Runway、 Pika 等) 不同,當攝影機移動和旋轉時Sora 能輸出保持人物和場景3D 空間一致性、基本上符合物理世界規律(不能完全保持,也會出錯)的影片。
對此,OpenAI 透漏,Sora 的技術架構與傳統視訊技術路徑有所不同:其先將不同視訊和圖片資料壓縮在一個低維空間中,再分解成統一Patch 作為訓練大模型的基本單位,這一改進使得文生影片更加逼真、高品質。
Sora 輸出能力有多好呢?即使在人物、動物或物體被遮擋或離開畫面時,仍然可以進行追踪,確保物體持續呈現;而且,相較於其他大模型在文本數據上理解和湧現,Sora 在GPT(不少人猜測訓練的或許是GPT-4.5)的語意理解支撐下,能理解使用者需求以及在預訓練學習過程中理解學習的影片內容。
雖說,尚未對外開放測試的Sora 仍處於世界模型研究應用的初期階段;可Sora 一旦上線,用戶貢獻的素材內容能豐富資料資源增加訓練樣本。
一位AI 創業家樂觀地表示,「相對現在某些類GPT 產品插件,進化的大模型可能支持各種插件應用,解決生成內容中的各種問題,並對視頻、遊戲等內容產業產生商業層面的變革。”
所以,短期內Sora 更多會應用於實體世界內容的延展,包括使用實體世界內容拼接創造新的創新內容,例如常規內容短片、電影等;中期,Sora 可作為影片編輯工具,應用在特效添加、背景變更、人物替換方面;後期,Sora 應用程式範圍會涉及虛擬實境、擴增實境、遊戲開發等,潛在應用方向包括虛擬試衣、虛擬旅遊等。
當然,要實現真正的AGI,需要具備強大的理解能力、記憶能力和決策能力,眼下的人工智慧只是人類認知能力的一個延伸,其邏輯性仍不夠強,還需要人類來表達內容的邏輯性和意義。
不過話說回來,即便Sora 讓整個網路都為之躁動,但資本市場投資主線有兩條:
此外,Sora 也面臨新的困境。
Sora 第一個棘手問題是廢棄問題,即可能產生大量的誤導性信息,特別是對於虛假信息的識別比較困難,因為它們是設計來欺騙的,需要人工細緻地進行審查;若處理不當,會對商業化產生較大影響。
目前,Sora 測試的重要一環便是紅隊測試(一種透過模擬攻擊者的行為來評估系統安全性和弱點的測試方法),主要為了解決廢棄和虛假資訊等問題,以提升其可靠性和可用性。
Sora 第二個棘手問題是數據和版權問題,原生AI 公司很難累積大量數據,即使OpenAI 背靠微軟也缺乏相應的原生數據,所以在學習過程中會面臨數據安全、隱私侵犯等風險。
不過,關於AI 生成內容是否具備版權,以及內容生成者、模型和營運平台之間的責權劃分,首例AIGC 版權案已經宣判,未來是否會朝著這個方向發展,值得關注。(虎嗅)