抖音快手激戰AI大模型


圖源:unsplash


曾在網路短視頻平台領域對戰的兩家中國公司,如今則悄悄展開著一場圍繞中國領先AI視頻大模型的新競爭。

備受關注的中國版Sora視訊模型快手可靈,即將迎來新的對手。

鈦媒體AGI獲悉,位元組跳動團隊將在7月19日(本週五)大規模分享文生圖、類sora新影片等全新人工智慧(AI)模型技術進展,尤其在長影片、高動態方向上具備創新技術。

早前,「字節跳動開源」公眾號發布消息稱,其將在新加坡舉辦關於世界模型(World Models)探索的AI技術精英論壇(ByteDance AI Luminary Talks)活動,字節跳動研究科學家周大權將會圍繞著「連續高動態的長影片生成方案」展開演講。

一位消息人士對鈦媒體App表示,位元組跳動內部將AI 大模型設為集團P0最高等級的方向。另一位消息人士則指出,除了上述研究團隊之外,抖音、剪映等內部多個團隊也在研發AI 視訊模型應用,預計近期發表。

而同時,國內唯二的短視頻龍頭快手在AI 視訊大模型領域進展迅速。繼6月6日快手13週年發布並邀請可靈模型應用之後,7月6日,快手在世界人工智慧大會(WAIC 2024)期間開源可圖文生圖大模型,以及免費上線可靈Web端。

快手透露,全球首個用戶可用的真實影像級影片生成大模型可靈平台申請用戶數超過50萬,開通用戶數超過30萬,產生影片數達700萬以上。

這意味著,曾在網路短視頻平台領域對戰的兩家中國公司抖快(抖音/字節跳動、快手),如今則悄然展開著一場圍繞中國領先AI 視頻大模型的新競爭。


中國兩大短視頻巨頭轉向人工智慧

實際上,AI 是短視訊平台中關係最密切的底層技術。

「只有短視頻平台業務,在沒有機器學習的時候是不成立的。大家想像一下,大部分用戶是不會因為一兩個你記得的短視頻去打開一個APP的,打開APP一定是相當長一段時間的沉浸式體驗,能帶給非常多收穫的感覺。人蓋坤(快手於越)表示,相較於電商、搜尋等場景,短片更需要AI 技術加持。

而有趣的是,負責AI 產品的蓋坤曾在位元組任職。

實際上,過去10餘年中國行動互聯網時期下,從桌面、瀏覽器,到輸入法、天氣軟體,都在尋找能夠佔領用戶心智的下一個「微信」。然而,最終我們發現,能夠與微信相提並論的產品是兩款短視頻直播產品——抖音和快手,當然這背後有5G、疫情等因素,但抖快確實已經成為國民應用級別產品,抖音日活用戶超過6億,快手日活用戶則已達3.94億(2024年Q1)。

2024年2月,繼ChatGPT之後,OpenAI公佈的Sora AI影片生成模型再引爆全網。透過簡短或詳細的提示詞描述,或一張靜態圖片,Sora就能生成類似電影的逼真場景,涵蓋多個角色、不同類型動作和背景細節等,最高能生成1分鐘左右的1080P高清視頻。

「Sora是能夠理解和模擬現實世界的模型的基礎,我們相信這一功能將成為實現通用人工智慧(AGI)的重要里程碑。」OpenAI指出,Sora不只是視頻生成模型,而是“世界模擬器” 。

自今年5月起,國內達到類Sora等級的AI 視訊模型技術陸續公佈,包括生數、智象未來(HiDream.ai)等多家企業都在積極佈局。而就在6月6日,快手可靈AI 影片生成模型開啟邀測,整個生成效果直逼Sora,引發關注。


蓋坤指出,快手的AI 技術主要在短視頻內容推薦、內容生產和內容理解三個層面進行應用佈局,大模型時代落地的則是快手快意語言大模型、十萬億參數規模的推薦模型SIM、 5月公佈的可圖文生圖模型、6月發布的可靈AI 視訊模型等技術。

不只是技術,快手也在商業化層面進行佈局。蓋坤表示,基於快意大模型建構的影片和直播腳本產生、廣告搜尋客服疊加數位人技術,使得AIGC日均消耗成長達到2,000萬。

相較於快手,由於企業暫未上市,導致抖音和位元組跳動對於AI 大模型的佈局略顯神秘。

過去一年多,隨著AI 大模型浪潮席捲國內外,位元組跳動全面追趕,並對AI大模型進行模型層到應用層的全面佈局。

其中,在基礎大模型領域,2023年8月,該公司上線首個大語言模型「豆包」及多模態大模型BuboGPT。其抖音雲雀大模型透過首批《生成式人工智慧服務管理暫行辦法》備案,對外開放。同時,位元組跳動基礎模型在語言和圖像兩種模態上均進行了佈局,兩個團隊均向TikTok技術負責人朱文佳匯報。

在AI應用層,位元組跳動已於去年11月成立新AI部門Flow,目前已推出三款AI對話類產品,包括豆包、釦子和Cici。其中,豆包為一款聊天機器人產品,可完成問答、文字生成、語言翻譯等多種任務,還可根據使用者需求和情境進行自適應問答,提供個人化服務。釦子是一站式AI Bot開發平台,無論使用者是否有程式設計基礎,都可以在釦子平台上快速搭建基於AI模型的各類問答Bot,可完成解決簡單的問答,並處理複雜邏輯的對話。

進入2024年,位元組跳動加大產品研發速度,持續推出AI學習夥伴河馬愛學、AI劇情互動產品貓箱、AI生圖產品PicPci、多模態數位人產品以及AI生圖、AI生視訊產品等多款AI大模型領域產品。

同時,最新消息顯示,位元組跳動還在圍繞AI硬體進行佈局。其中一條產品線聚焦可穿戴AI設備,以剛被位元組跳動收購的耳機品牌Oladance團隊為基礎進行探索;另一條產品線負責探索手持類AI設備,更接近對現有主流運算設備的AI化延展,成立更早,與AI應用團隊Flow也更緊密。而且,位元組跳動旗下剪映也在研發AI產品,名為即夢。

位元組已佈局的AI領域相關技術和產品


對於AI 算力底層,先前位元組跳動旗下火山引擎首次發布了自研的視訊編解碼晶片。位元組跳動副總裁楊震原曾透露,公司無通用晶片商業計劃,沒有涉足CPU、GPU等通用晶片業務。

因此,整體來說,抖音/位元組跳動和快手從底層研發,到產品和商業化層面都在佈局AI 大模型技術,希望在AI 時代下搶得先機。但截至目前,更多暫未出現抖音利用AI 大模型實現商業化的資訊。


場景難通用 用AI賺錢的時代才剛開始

「過去一年,全產業都持續投入生成式AI和大模型熱潮當中,每家企業都在努力思考如何將AI 融入業務,都深信AI 將會成為未來技術創新和商業模式變革的核心,甚至有望帶來比互聯網更大的影響。

「亂翻書」主理人潘亂的這句話,打中了當下大模型熱潮背後的隱憂與真實情況。

創新工場聯合創辦人汪華曾做過一個統計,中國實際上處於美國上半年第一階段的應用爆發前期。雖然最近大家看到很多產品在大量推廣,用戶量也在迅速增長,但是把所有應用加在一起,日活也不過就是1000 萬,中國有12 億網民;而美國3 億人口就有大幾千萬的日活,相較之下還有很大的差距。

這說明,雖然AI 未來已來,但是模型的產品化還遠遠沒有到來,甚至可以說是模型應用落地才剛開始。

「大家還是太焦慮了,大模型從開始到現在才一年多時間,整個的應用發展,本質上還是要隨著模型的成熟和整個應用生態的構建逐漸發展。」汪華認為,ChatGPT 作為通用工具,使用者平均長度是七、八分鐘,但我看過很多做社交娛樂的新創公司,他們的平均使用時間超過150 分鐘。推理成本只要降10 倍,工具類的應用就可以做大體量免費。推理成本降得更低,高時長娛樂性的應用程式才能做到大體量免費,所以大用戶量的工具,我覺得今年年底到明年年初就會實現。再往後走是衣食住行,這類應用需要更高的模型性能,以及商業模式整合,從吃喝玩樂到衣食住行,這個時間週期大約在3-4 年之內走完。

而作為抖音和快手這種短視頻龍頭來說,將AI 技術「隨風潛入夜,潤物細無聲」實現落地,這可能他們想要達到的終極目的。

多位AI 領域從業者向鈦媒體App坦言,目前AI 大模型技術更像是“文科生”,很難理解數學問題,所以其應用場景的範圍非常有限,當前模型的最大作用是提升效率的“生產力工具」。

很顯然,用AI 賺錢的時代才剛開始。

根據麥肯錫最新發布的一份全球調查報告稱,65%的受訪者表示企業會經常使用生成式AI。這比10個月前的調查(33%)幾乎翻了一番。其中,服務業對於AI 技術的使用率增幅最大。

同時,四分之三(75%)的受訪者預測,生成式AI 將在未來幾年內為其產業帶來重大或顛覆性的變化。

有熟悉字節的消息人士曾告訴鈦媒體App,字節跳動內部對於AI 模型的技術應用佈局非常廣泛,且存在一定的內部“優勝劣汰”競爭策略,多個團隊加緊比拼當中。

蓋坤則表示,快手希望堅定為使用者做最好的AI 技術。

MiniMax創辦人、CEO髕俊傑曾對鈦媒體App表示,今年上半年,公司開始意識到,在一些偏生產力的場景裡,「我們開始具備局部優勢了」。至少三年後,國內才有可能出現「殺手級」AI應用。預計MiniMax首款AI 影片應用程式將最快於8月推出。

「坦白講,我覺得大部分(國內)公司都還沒有拉開差異化,大家都差不多,可能模型水平也差不多,產品也差不多,然後就會開始'拼價格'。我覺得這個東西不是壞事,其實是逼著大家能夠更好來做技術創新。(鈦媒體)