#Arena
46.5萬次盲測封王!Grok視訊模型屠榜Arena,Google最強對手來了
【新智元導讀】馬斯克親自站台,grok-image-video-720p在46萬次盲測投票中加冕第一,這款xAI「壓箱底」的視訊模型,不僅在基準測試上超過了GoogleVeo 3.1 Fast,使用成本也更低。剛剛,AI視訊領域又迎來洗牌!xAI的Grok圖像轉視訊模型(grok-image-video-720p)登頂「Image-to-Video Arena」排行榜,以1404分的超高ELO評分力壓群雄,位居第一。馬斯克親自發帖為自家Grok Image模型站台,稱它每周都在迭代最佳化。這次,xAI真是拿出了「壓箱底」的東西,他們將Grok Imagine稱作為自己目前最強悍的「視訊+音訊」生成模型。無論是想讓一張靜態梗圖「活」過來,還是憑空用一句話變出大片,甚至是對複雜的電影級鏡頭進行精細打磨,它都能輕鬆搞定。X平台上,網友用Grok製作的視訊已經迅速刷屏,涵蓋電影特效、動畫製作、日常生活等種種場景。從一些基準測試上來看,Grok-imagine-video-720p不僅擊敗了Google強大的Veo模型,而且生成成本也更低。有網友驚呼,這不僅是AI視訊工具的一次進化,更可能直接推動該領域重新「排座次」。還有網友猜想,Grok的強勢出擊,或將掀起新一輪生成式視訊技術的軍備競賽。揭秘Grok Imagine能幹活、成本低的多模態六邊形戰士Grok Imagine是xAI傾力打造的視訊-音訊生成模型,該模型的最新版本Grok Imagine 1.0於2026年2月初發佈。支援生成10秒長的720p高畫質視訊,並在運動平滑度、原生音訊質量(如情感表達的聲音)以及提示詞遵循能力上均實現了跨越式升級。相比較2025年10月發佈的Imagine v0.9版本,它將核心聚焦於視覺質量、多模態能力,成本和延遲的平衡,真正做到了支援端到端的創意工作流。使用者可以通過文字描述或上傳圖像來動畫化內容,還支援後續指令微調場景。具體而言,Grok Imagine展現了三大核心「殺手鐧」:視訊生成與指令遵循能力Grok Imagine的視訊生成能力,主要用來從零開始建立短影片(通常10-15秒長,支援480p或720p解析度)。它能處理多種輸入方式,比如直接用文字描述場景、動作、燈光和心情來生成視訊,或者上傳一張靜態圖片,讓AI給它「加戲」變成動態視訊。在視訊生成方面,Grok Imagine擁有業界領先的指令遵循能力。你給出的指令再複雜,它也能精準理解並執行。零門檻的視訊編輯能力視訊編輯功能更像是給現有視訊「動手術」,Grok Imagine可以讓你能輕鬆修改內容,而不用專業軟體。它支援重新設計場景(比如換背景或風格)、加入或刪除物體(例如加個道具或去掉多餘元素)、控制動作(調整運動軌跡、速度或相機角度)。操作起來簡單:上傳視訊檔案或URL,然後描述你想改啥,比如「把這個視訊裡的車換成飛船,加點爆炸效果」。AI就會根據你的指令生成編輯後的版本,還保持原視訊的核心元素。視訊編輯適合電影剪輯、廣告調整或內容最佳化,編輯後視訊還能帶原生音訊。更快速度與更低成本的平衡在性能表現方面,不僅要變強,還要變快。因為如果生成速度太慢、價格太貴,大家根本不敢放開手腳去嘗試。因此xAI團隊專門針對延遲、並行量和成本進行了極限最佳化。這讓Grok Imagine不僅跑得快,而且用起來更省錢。它強調高品質、成本和延遲的平衡,支援端到端的創意工作流,包括視訊生成、編輯和音訊同步。評測霸榜,力壓Google在基準測試中,Grok Imagine在圖像轉視訊領域表現出色,尤其在使用者偏好投票和性價比上。在Image-to-Video Arena(arena.ai)排行榜上,Grok-image-video-720p以1404分位居第一(基於46.5萬投票,34個模型),領先Google Veo-3.1-audio-1080p(1402分)。https://arena.ai/zh/leaderboard/image-to-video這是一個基於使用者盲測投票的平台,使用Elo評分系統。評測強調真實世界視訊質量和保真度,而非自動化指標。在另一個獨立排行榜Artificial Analysis Image to Video Leaderboard上,Grok以1337 ELO分領先,評估標準包括質量、生成速度和價格。Grok-image-video在風格、主題和格式一致性上得分高,它的API定價約$4.20/分鐘,低於GoogleVeo 3.1 Fast等競品。https://artificialanalysis.ai/video/leaderboard/image-to-video在一些第三方的專業評測中,Getimg.ai認為Grok Imagine最突出的特點是以視訊形式精準遵循指令,當提示詞描述動作、節奏或轉場時,該模型通常能做出看似經過深思熟慮而非偶然的回應。比如,Grok-image-video在原生音訊(唇同步、自然對話)和電影指令遵循(如平移、變焦)上出色。Grok-image-video的另一個特色,是它很好地解決了低延時這一使用者使用痛點。AI視訊模型在使用場景中,僅靠原始質量已不再足夠,往往需要多輪互動,等待結果的時間過長會抑制使用者嘗試的意願,尤其是當每次生成都代價高昂時。基準測試顯示,Grok Imagine在綜合考量質量、延遲和成本時表現出色。這意味著你可以自由地生成、調整和重新生成視訊,而不會覺得每次輸入提示都是一種負擔。Lovera Digital將Grok與Google Veo 3比較,發現Grok易用性高,適合短影片社交內容,但視訊質量有時抖動。它的最佳用例是快速原型,評分表顯示其在創意短片上競爭力強。Grok Imagine在第三方評測中被視為高效、音訊強的選手,尤其適合創意和快速生成,但需注意一致性和安全問題。如果你想親自體驗一下Grok Imagine,目前可以通過官網(grok.com/imagine)和APP免費試用,或通過API整合(Grok Imagine API)。 (新智元)
賺錢,DeepSeek果然第一!全球六大頂級AI實盤廝殺,人手1萬刀開局
給全球六大LLM各發1萬美金,丟進同一真實市場實盤廝殺,會發生什麼?這場大戰從18日開始,截止目前,DeepSeek V3.1盈利超3500美元,Grok 4實力次之。不堪一提的是,Gemini 2.5 Pro成為賠得最慘的模型。如果給每個頂級大模型一萬美元真金白銀,讓它們下場「炒股」,誰會成為AI界的巴菲特?最近,由nof1.ai發起的全新實驗——Alpha Arena,便是這樣一場「諸神之戰」。這場競賽將當今最強的大模型,全部拉到了同一個真實的交易市場中。包括OpenAI的GPT-5、Google的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet,以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat。每個模型都獲得了10000美元的初始資金,並接收完全相同的市場資料和交易指令。比賽的提示詞並不複雜,更像是一次「開卷考試」。首先,系統會告訴AI當前的時間、帳戶資訊、持倉情況,然後附上一大堆即時的價格、指標(如MACD/RSI)等資料。然後,要求模型做出決策:如果持有倉位,是繼續持有還是平倉;如果空倉,是買入還是繼續觀望。不得不說,金融市場的變化是真的快。做交易這件事,DeepSeek也是真的強,不愧是搞量化出身的。10月20日早上7:30的時候還是下圖左邊這樣的——DeepSeek V3.1憑藉著2264美元的盈利排在第一,Grok 4以2071美元位列第二  Claude Sonnet 4.5小賺649美元,Qwen3 Max小賠416美元Gemini 2.5 Pro賠了3542美元穩居倒數第一,GPT-5賠了2419美元排名倒數第二然後,就在一個半小時後的10:00,就已經變成下圖右邊那樣了——DeepSeek V3.1和Grok-4一路狂跌,Sonnet 4.5也即將把自己賺的給賠回去Qwen3 Max和GPT-5都有上漲的趨勢Gemini 2.5 Pro發揮倒是穩定,比起剛才又賠了近800美元順便一提,下面是13:30時候的樣子:DeepSeek V3.1登頂 GoogleOpenAI墊底模型持倉11:15的時候,我們看了一下各個模型的持倉情況。此時,DeepSeek和Grok已經結束下跌,重新上漲。Sonnet 4.5和Qwen3 Max也都實現了盈利。Gemini 2.5 Pro有所回升,但不多。GPT-5倒是一直比較平穩,從20號開始就沒賺也沒賠。11:45時,除了GPT-5都迎來了一波上漲。是的,Gemini 2.5 Pro終於賺錢了!(比起幾分鐘前)趨勢回顧DeepSeek V3.1 Chat和Grok-4的曲線類似,應該是有著差不多的持倉。他們在最初的幾小時賠了一筆之後,很快就漲了回來並一路狂飆。Claude Sonnet 4.5前兩天都很穩定,有小賺但不多。19日晚上開始迎來一個小高峰,但在20日清晨又跌了回去。Qwen3 Max一上來賠得最多,但後來就穩定住了,即便是在19日下午,也沒有什麼波動。GPT-5和Gemini 2.5 Pro的曲線在初期也是十分相似。但和DeepSeek他們正好相反,這兩位在最初的時候先是大漲一波,然後便跌到在賠錢和不賠不賺之間一直波動。19日下午,轉折出現了。這時正是DeepSeek和Grok-4開始大漲的時間,而GPT-5和Gemini 2.5 Pro則開始一路下跌。20日凌晨,GPT-5及時做出調整併穩住了趨勢,而Gemini 2.5 Pro則依然狂跌不止。值得一提的是,快到20日中午時,除了GPT-5所有模型都迎來一波上漲。其中,DeepSeek V3.1 Chat和Grok-4很快就開始創造歷史新高,Qwen3 Max憑著這個勢頭首次拿到了持續的收益,Gemini 2.5 Pro也開始回升。交易歷史截至10日12:20,各個模型的交易次數為:Gemini 45次,GPT 10次,Qwen 6次,DeepSeek 5次,Claude 3次,Grok 1次。DeepSeek的交易次數不多不少,但不愧是量化交易出身,收益穩居第一。Grok-4的交易次數最少,只有1次,但它一直緊追DeepSeek位列第二。而憑藉高達45次交易記錄,當上「微操大師」的Gemini 2.5 Pro,也是賠錢最多的那個。不玩遊戲,不搞評測,直接開盤!多年來,AI一直由靜態基準來衡量。ImageNet、MMLU以及無數的排行榜告訴我們,那個模型能更好地「理解」圖像、邏輯或語言。但所有這些測試都有一個共同的缺陷——它們都發生在無菌、可預測的環境中。市場則恰恰相反。金融市場是終極的世界建模引擎,也是唯一一個會隨著AI變得更聰明而難度同步提升的基準。它們波動、反應、懲罰、獎勵。Alpha Arena首頁寫著一句話:市場才是智能的終極試金石它們是一個由資訊和情感構成的生命系統。10年前,DeepMind為人工智慧研究帶來了革命性的突破。他們的核心洞見在於:「遊戲」將成為引領前沿AI飛速發展的環境。正如前文所述,Nof1相信金融市場是下一個AI時代的最佳訓練環境。畢竟,如果AI要在現實世界中運行,它就必須在那些不會為了「反向傳播」而暫停的環境中運作。在這裡,模型可以借助開放式學習和大規模強化學習等技術,獲得近乎無限的資料來訓練自己,從而應對市場的複雜性——這個領域的「最終BOSS」。在Alpha Arena中,沒有正確的標籤,只有不斷變化的機率。一個模型的成功取決於它解讀波動的速度、權衡風險的精度,以及承認錯誤的謙遜程度。這將交易變成了一種新型的圖靈測試:考驗的不再是「機器能否思考」,而是「它能否在不確定性中生存」。附錄:模型對話節選DeepSeek Chat V3.111:15:31我繼續持有所有 ETH、SOL、XRP、BTC、DOGE 和 BNB 的倉位,因為沒有任何一個的失效條件被觸發,而且它們目前都在盈利,為我帶來了約 17.38% 的可觀整體回報,剩餘現金 2840.11 美元。鑑於我已持有所有可交易的幣種,目前沒有必要建立新倉。Qwen3 Max11:14:42總回報率略有盈利,為 0.12%,剩餘現金 116.99 美元,我堅持持有目前的 5 倍槓桿 BTC 多頭倉位。我的盈利目標是 110800,止損是 105500,如果 4 小時圖收盤價低於 10000,我將平倉。Grok 411:14:39我的帳戶整體上漲了 15.98%,現金為 3180 美元。我繼續持有目前的 ETH、SOL、XRP、BTC、DOGE 和 BNB 倉位,因為資料顯示目前應該繼續持有。GPT-511:14:24虧損 23.59%,現金 3061 美元,我正在確認我的退出計畫,確保 DOGE 的風險敞口為 91.76 美元的浮動值,並仔細檢查 BTC 在 106,493.55 美元的止損位和 114,129.91 美元的盈利目標。Gemini 2.5 Pro11:14:01儘管整體虧損 43.15%,剩餘現金 3072.48 美元,我根據我的策略繼續持有我目前所有的 BTC、ETH、SOL、XRP 和 DOGE 倉位,即使 DOGE 的走勢對我不利。我只會根據預定義的條件退出,相信計畫而不是我的直覺。Claude Sonnet 4.511:14:00我的 XRP 和 BTC 倉位目前都在盈利,為我帶來了 5.2% 的整體回報率,帳戶資金為 10,520.34 美元,現金為 4,957.78 美元,但市場顯示出非常弱的動能,所以我選擇按兵不動,等待一個更清晰的趨勢再採取新行動。參考資料:https://nof1.ai/ (新智元)
2025年斯坦福AI Index新鮮出爐:中國與美國差距無限縮小
斯坦福HAI發佈了一年一度的AI Index,整個報告456頁,報告涵蓋了過去一年全球AI各種進展的詳細資訊,這裡給大家總結一下大家可能關心的資料和圖表:中國和美國模型的差距正在縮小:2023 年,領先的美國模型表現明顯優於中國模型,但這一趨勢已不復存在。2023 年底,MMLU、MMMU、MATH 和 HumanEval 等基準測試上的性能差距分別為 17.5、13.5、24.3 和 31.6 個百分點。到 2024 年底,這些差距已大幅縮小至僅 0.3、8.1、1.6 和 3.7 個百分點人工智慧模型性能在前沿收斂:根據去年的 AI 指數,Chatbot Arena 排行榜上排名第一和第十的模型之間的 Elo 分數差異為 11.9%。到 2025 年初,這一差距已縮小至僅 5.4%。同樣,排名前兩位的模型之間的差距也從 2023 年的 4.9% 縮小到 2024 年的僅 0.7%。AI 領域的競爭日益激烈,越來越多的開發人員提供高品質的模型產業界繼續對人工智慧進行大量投資,並在顯著的人工智慧模型開發方面處於領先地位,而學術界則在高引用率研究方面處於領先地位中國在人工智慧研究出版物總數方面領先,而美國在高影響力研究方面領先2024年,美國機構產生了40個值得關注的人工智慧模型,大大超過中國的15個和歐洲的3個的總和美國在全球人工智慧民間投資中領先優勢進一步擴大中國在工業機器人領域的主導地位儘管略有放緩,但仍保持著2022 年至 2023 年間,美國獲得人工智慧碩士學位的畢業生數量幾乎翻了一番 (AI寒武紀)