阿里HappyHorse1.1上線,我用它把中國足球送進世界盃

五大維度能力提升。

智東西6月22日報導,今天,阿里巴巴發佈了其最新一代視訊生成模型HappyHorse 1.1(快樂小馬1.1)。阿里稱,相比HappyHorse 1.0,這代模型在動態表現力、主體一致性、指令遵循、視覺質感和音訊能力等維度有了一定提升。

HappyHorse 1.1的技術規格與HappyHorse 1.0保持一致,單次生成時長為3至15秒,支援720p和1080p解析度和自由寬高比。

阿里官方曬出了幾個HappyHorse 1.1的生成結果。在舞蹈這類考驗模型動態表現力和動作連貫性的任務上,HappyHorse 1.1生成的動作流暢自然,沒有像過去許多視訊生成模型一樣出現慢動作、殘影等問題,人體特徵符合正常情況,長相也保持了一致。

在風格化內容方面,HappyHorse 1.1在下方案例中很好地保持了傳統中國畫的畫風,沒有出現風格偏移等問題。

模型發佈後,智東西第一時間對HappyHorse 1.1進行了實測,並將其表現與HappyHorse 1.0和近期發佈的Seedance 2.0 Mini進行了對比。

從實測結果看來,HappyHorse 1.1較上一代模型的確實現了一定提升,尤其是畫面“油膩感”問題得到了較好的解決。不過,在部分邊緣場景、多參考主體的任務上,其生成結果的真實感、物理規律遵循還有最佳化空間

目前,HappyHorse 1.1已經上線阿里雲百煉平台和HappyHorse官網。以文生視訊為例,其生成720p清晰度畫面的價格為每秒0.9元(優惠後0.54元),與HappyHorse 1.0保持一致;生成1080p清晰度畫面的價格為每秒1.2元(優惠後為0.72元),與HappyHorse 1.0相比下調了25%

體驗連結:www.happyhorse.cn

API接入:bailian.console.aliyun.com

我們的實測依照五大維度展開。動態表現力方面,阿里稱過去HappyHorse 1.0版本存在部分畫面動作遲緩、節奏不足的問題,1.1版本最佳化了運動建模與時序一致性能力,提升了動作的連貫性和力量感。

我們用一個摩托車駕駛的案例測試了HappyHorse 1.1的表現。可以看到,HappyHorse 1.1生成的畫面內容速度正常,也符合基本物理規律,只是摩托車尾燈的光線有點不符合真實情況。在畫面拉到近景之後,摩托車擋風玻璃反射出的景色也比較符合邏輯。

而HappyHorse 1.0在同樣任務中生成的視訊出現了慢動作的問題。此外,畫面中摩托車正在逆行,頭盔中的倒影也與實際畫面內容不符。

主體一致性方面,HappyHorse 1.1支援9張角色參考圖同時輸入,可靈活組合商品細節、品牌元素、角色與場景。針對多分鏡與N宮格圖片參考這些熱門玩法,HappyHorse 1.1對參考圖的理解能力也有了增強。

我們上傳了三張描繪某個特定人物離職的參考圖,並讓HappyHorse 1.1和HappyHorse 1.0都生成了1段10秒鐘的視訊。HappyHorse 1.1在視訊中精準還原了人物的面容和衣著特徵,在兩個鏡頭中,場景和人物細節都保持穩定一致,即便是畫面邊角的細節也是如此。

HappyHorse 1.0生成的畫面雖然也基本保持了主體一致性,但畫面中出現的物理bug更多,相比之下HappyHorse 1.1的畫面基本沒有破綻。

指令遵循方面,我們對比了HappyHorse 1.1和Seendance 2.0 Mini的表現,提示詞內容如下:

一家現代風格咖啡館內,重力突然消失。顧客、桌椅、書本和各種物品緩慢漂浮到空中。咖啡師漂浮著繼續製作咖啡,液態咖啡從杯中溢出後形成無數漂浮液球。一隻橘貓像在水中游泳一樣緩慢穿過空間。鏡頭持續旋轉並自由移動,展示整個失重環境。所有漂浮物體都必須遵循真實慣性和動量規律,液體運動需要符合流體物理特徵。整體呈現極高真實感和複雜物理模擬能力。

HappyHorse 1.1和Seendance 2.0 Mini都能做到按照提示詞順序逐一還原細節,不過,在這種超現實的場景裡,HappyHorse 1.1和Seendance 2.0 Mini最終的畫面其實都有明顯的問題。HappyHorse 1.1的穿幫鏡頭會更多一些:人物的表情呆滯、畫面中還憑空從地裡鑽出了一把椅子。

Seendance 2.0 Mini的生成結果對液體在真空狀態下漂浮的樣子刻畫得不夠符合物理定律,人物表情則比較符合整體風格。

視覺質感方面,我們要求HappyHorse 1.1生成一個中國國家隊在世界盃決賽打進一粒進球的畫面。在這種涉及大量人物的畫面中,能感覺到HappyHorse 1.1在畫面主要人物的刻畫上,少了一些“油膩感”、“過度銳化”的問題。但是在畫面背景中,人物的面部已經有些模糊,真實性、動態感略顯欠缺。

最後,在音訊能力方面,我們對比了HappyHorse 1.1和HappyHorse 1.0的效果,測試案例是樂器演奏場景。在這一細分場景,HappyHorse 1.1和HappyHorse 1.0相比沒有什麼明顯的提升,演奏畫面的變化和音訊的變化對不上。

結語:提升幅度符合小版本迭代預期

從此次實測結果來看,HappyHorse 1.1的升級幅度基本符合我們對小版本迭代的預期。針對上一代產品中暴露出的實際問題,它進行了較為紮實的最佳化,在運動表現、角色還原以及整體視覺觀感等方面均實現了較為明顯的提升。

與此同時,這一代模型的成本進一步降低,體現出阿里在提升模型效果的同時,也在持續兼顧性價比。未來,隨著視訊生成模型朝著更長時長、更強可控性、更高真實感、更低成本以及即時互動等方向不斷演進,我們有望看到這項技術在更多場景中實現規模化落地。 (智東西)