#Arena | 熱門關鍵字 | 鉅亨號

DeepSeek V4 預覽版開源上線後，第一波來自第三方榜單的測評結果已經出爐。多家測評顯示，DeepSeek V4性能尤其在程式碼任務上衝進開源第一梯隊，同時以“百萬級上下文+低價”把開發者側的使用門檻進一步壓低。從第三方評測來看，評測平台 Arena.ai 在 X 上將V4 Pro（思考模式）定性為"相較DeepSeek V3.2的重大飛躍"，在其程式碼競技場中列開源模型第3位、綜闔第14位；另一家測評方 Vals AI 則稱，V4在其Vibe Code Benchmark中以"壓倒性優勢"拿下開源權重模型榜首，擊敗Gemini 3.1 Pro等閉源模型，較上代V3.2實現約10倍性能躍升。定價層面，V4-Flash輸出價格為每百萬token 0.28美元，較Claude Opus 4.7低逾99%；V4-Pro輸出價格為3.48美元，是同等級前沿模型中定價最低的選項之一。對比表格顯示，Flash 處於小模型區間最低檔，Pro 也處於“大模型前沿”區間低位。圍繞實際體驗的討論開始分化。多位網友在 X 上稱其性價比“打穿”，而DeepSeek在自述材料中則保持克制，稱在知識與推理上接近閉源系統但仍有約3到6個月差距，同時提示“受限於高端算力”，Pro 服務吞吐有限，後續價格存在下調預期。第三方測評：程式碼能力獨佔鰲頭，綜合排名緊追頂級就在OpenAI GPT-5.5發佈不久後，DeepSeek-V4預覽版正式上線並同步開源，涵蓋參數總量1.6兆（啟動參數49B）的V4-Pro，以及參數總量2840億（啟動參數13B）的V4-Flash，兩款模型均支援100萬token超長上下文窗口，採用MIT開源協議。模型評測平台Arena.ai在V4發佈當日宣佈，DeepSeek V4 Pro（思考模式）在其程式碼競技場中排名開源模型第3位，綜合排名第14位，並將此次發佈定性為"相較DeepSeek V3.2的重大飛躍"。Arena.ai同時測試了V4 Flash，兩款模型均支援100萬token上下文。Vals AI的評測結果更具看點。該平台表示，DeepSeek V4在其Vibe Code Benchmark中"以壓倒性優勢"成為開源權重模型第一，不僅超越第2名Kimi K2.6，更擊敗Gemini 3.1 Pro等閉源前沿模型。Vals AI特別強調，V4較V3.2實現了約10倍的性能躍升——"V3.2在該基準上僅得5分，這不是筆誤。"在Vals綜合指數排名中，V4以第2位收官，與榜首Kimi K2.6僅相差0.07%。社區反應十分積極。在X平台上，使用者Sigrid Jin稱其帶來新的“shocking moment”，並提到“現在可以在家裡跑 gpt 5.4-ish 的模型”。他寫道："GPT-5.5，對不起，DeepSeek V4才是新的震撼時刻，它在程式碼競技場中擊敗了GPT-5.4高強度模式。"使用者Ejaaz則稱："中國正在主導AI，他們已經追上來了。DeepSeek V4 Flash比Opus 4.7便宜99%，每百萬token僅需0.28美元，程式碼競技場排名第一，這不是筆誤。"也有使用者表達保留意見，X使用者Michael Anti在試用後表示，V4 Flash的實際體驗未能超越此前已相當成熟的V3.2，認為對老使用者而言升級體驗令人失望。官方自評：措辭克制，程式碼與Agent領域差距最小DeepSeek對自身性能的評述保持了一貫的審慎風格。官方檔案顯示，在知識與推理任務上，V4-Pro已超越主流開源模型，接近Gemini等閉源系統，但與最先進的前沿模型仍存在約3至6個月的差距。在Agent和程式碼任務上，表現接近甚至部分超過Claude Sonnet。內部使用資料方面，DeepSeek表示，V4已成為公司內部員工的Agentic Coding（智能體程式設計）主力模型，評測反饋顯示其使用體驗優於Claude Sonnet 4.5，交付質量接近Opus 4.6非思考模式，但與Opus 4.6思考模式仍有一定差距。在數學、STEM及競賽級程式碼評測中，V4-Pro超越目前已公開評測的所有開源模型，包括月之暗面的Kimi K2.6 Thinking和智譜GLM-5.1 Thinking，並取得比肩頂級閉源模型的成績。博主Simon Willison在其測評文章中指出，V4-Pro（1.6兆參數）是目前已知最大的開源權重模型，超過Kimi K2.6（1.1兆）、GLM-5.1（7540億）以及DeepSeek V3.2（6850億），為有意本地部署的企業使用者提供了新的選項。他還曬出了不同模型做出的鵜鶘圖例：這是DeepSeek-V4-Flash的鵜鶘：至於DeepSeek-V4-Pro：價格體系：最低僅為競品1%，下半年仍有進一步降價空間DeepSeek的定價策略是此次發佈中最受市場關注的部分。V4-Flash的輸入/輸出價格分別為每百萬token 0.14美元/0.28美元，低於OpenAI GPT-5.4 Nano（0.20美元/1.25美元）和Gemini 3.1 Flash-Lite（0.25美元/1.50美元），是目前小型模型中定價最低的選項。V4-Pro的輸入/輸出價格為1.74美元/3.48美元，同樣低於Gemini 3.1 Pro（2美元/12美元）、GPT-5.4（2.50美元/15美元）、Claude Sonnet 4.6（3美元/15美元）和Claude Opus 4.7（5美元/25美元）。博主Simon Willison彙總的價格對比資料顯示，V4-Pro是目前大型前沿模型中成本最低的選項，V4-Flash則是小型模型中成本最低的，甚至低於OpenAI的GPT-5.4 Nano。DeepSeek將上述低價能力歸因於模型在超長上下文場景下的極致效率最佳化。官方資料顯示，在100萬token場景下，V4-Pro的單token推理算力僅為V3.2的27%，KV快取僅為10%；V4-Flash則分別低至10%和7%。值得關注的是，DeepSeek在價格說明中附註稱，"受限於高端算力，目前Pro的服務吞吐十分有限，預計下半年昇騰950超節點批次上市後，Pro的價格會大幅下調"，暗示當前定價仍有進一步下調空間。技術架構：混合注意力機制突破長上下文瓶頸，適配國產算力DeepSeek-V4的核心技術創新在於首創的"CSA（壓縮稀疏注意力）+HCA（重度壓縮注意力）"混合注意力架構，旨在解決傳統注意力機制在超長上下文場景下呈平方級複雜度攀升、視訊記憶體與算力難以工程落地的行業痛點。CSA將每4個token壓縮為一個資訊塊並通過稀疏檢索獲取最相關內容，在保留中段細節的同時大幅降低計算量；HCA則將海量資訊濃縮為框架級資訊塊，專注全域邏輯處理。在此之外，V4還引入mHC流形約束超連接（升級傳統殘差連接，將訊號傳播約束在穩定流形上）以及Muon最佳化器（替代傳統AdamW，適配MoE大模型與低精度訓練）。官方資料顯示，全鏈路工程最佳化可實現推理加速最高接近2倍。在國產算力適配方面，DeepSeek-V4在華為昇騰NPU平台上完成細粒度專家平行最佳化方案的全面驗證，在通用推理負載場景下可實現1.50至1.73倍的加速比。DeepSeek官方表示，V4是全球首個在國產算力底座上完成訓練與推理的兆參數級模型，但目前昇騰平台適配程式碼暫未對外開源，屬於閉源最佳化。此外，寒武紀已通過vLLM推理框架完成對V4-Flash和V4-Pro的適配，相關程式碼已開源至GitHub社區。 (華爾街見聞)

2026/02/25

•

46.5萬次盲測封王！Grok視訊模型屠榜Arena，Google最強對手來了

【新智元導讀】馬斯克親自站台，grok-image-video-720p在46萬次盲測投票中加冕第一，這款xAI「壓箱底」的視訊模型，不僅在基準測試上超過了GoogleVeo 3.1 Fast，使用成本也更低。剛剛，AI視訊領域又迎來洗牌！xAI的Grok圖像轉視訊模型（grok-image-video-720p）登頂「Image-to-Video Arena」排行榜，以1404分的超高ELO評分力壓群雄，位居第一。馬斯克親自發帖為自家Grok Image模型站台，稱它每周都在迭代最佳化。這次，xAI真是拿出了「壓箱底」的東西，他們將Grok Imagine稱作為自己目前最強悍的「視訊+音訊」生成模型。無論是想讓一張靜態梗圖「活」過來，還是憑空用一句話變出大片，甚至是對複雜的電影級鏡頭進行精細打磨，它都能輕鬆搞定。X平台上，網友用Grok製作的視訊已經迅速刷屏，涵蓋電影特效、動畫製作、日常生活等種種場景。從一些基準測試上來看，Grok-imagine-video-720p不僅擊敗了Google強大的Veo模型，而且生成成本也更低。有網友驚呼，這不僅是AI視訊工具的一次進化，更可能直接推動該領域重新「排座次」。還有網友猜想，Grok的強勢出擊，或將掀起新一輪生成式視訊技術的軍備競賽。揭秘Grok Imagine能幹活、成本低的多模態六邊形戰士Grok Imagine是xAI傾力打造的視訊-音訊生成模型，該模型的最新版本Grok Imagine 1.0於2026年2月初發佈。支援生成10秒長的720p高畫質視訊，並在運動平滑度、原生音訊質量（如情感表達的聲音）以及提示詞遵循能力上均實現了跨越式升級。相比較2025年10月發佈的Imagine v0.9版本，它將核心聚焦於視覺質量、多模態能力，成本和延遲的平衡，真正做到了支援端到端的創意工作流。使用者可以通過文字描述或上傳圖像來動畫化內容，還支援後續指令微調場景。具體而言，Grok Imagine展現了三大核心「殺手鐧」：視訊生成與指令遵循能力Grok Imagine的視訊生成能力，主要用來從零開始建立短影片（通常10-15秒長，支援480p或720p解析度）。它能處理多種輸入方式，比如直接用文字描述場景、動作、燈光和心情來生成視訊，或者上傳一張靜態圖片，讓AI給它「加戲」變成動態視訊。在視訊生成方面，Grok Imagine擁有業界領先的指令遵循能力。你給出的指令再複雜，它也能精準理解並執行。零門檻的視訊編輯能力視訊編輯功能更像是給現有視訊「動手術」，Grok Imagine可以讓你能輕鬆修改內容，而不用專業軟體。它支援重新設計場景（比如換背景或風格）、加入或刪除物體（例如加個道具或去掉多餘元素）、控制動作（調整運動軌跡、速度或相機角度）。操作起來簡單：上傳視訊檔案或URL，然後描述你想改啥，比如「把這個視訊裡的車換成飛船，加點爆炸效果」。AI就會根據你的指令生成編輯後的版本，還保持原視訊的核心元素。視訊編輯適合電影剪輯、廣告調整或內容最佳化，編輯後視訊還能帶原生音訊。更快速度與更低成本的平衡在性能表現方面，不僅要變強，還要變快。因為如果生成速度太慢、價格太貴，大家根本不敢放開手腳去嘗試。因此xAI團隊專門針對延遲、並行量和成本進行了極限最佳化。這讓Grok Imagine不僅跑得快，而且用起來更省錢。它強調高品質、成本和延遲的平衡，支援端到端的創意工作流，包括視訊生成、編輯和音訊同步。評測霸榜，力壓Google在基準測試中，Grok Imagine在圖像轉視訊領域表現出色，尤其在使用者偏好投票和性價比上。在Image-to-Video Arena（arena.ai）排行榜上，Grok-image-video-720p以1404分位居第一（基於46.5萬投票，34個模型），領先Google Veo-3.1-audio-1080p（1402分）。https://arena.ai/zh/leaderboard/image-to-video這是一個基於使用者盲測投票的平台，使用Elo評分系統。評測強調真實世界視訊質量和保真度，而非自動化指標。在另一個獨立排行榜Artificial Analysis Image to Video Leaderboard上，Grok以1337 ELO分領先，評估標準包括質量、生成速度和價格。Grok-image-video在風格、主題和格式一致性上得分高，它的API定價約$4.20/分鐘，低於GoogleVeo 3.1 Fast等競品。https://artificialanalysis.ai/video/leaderboard/image-to-video在一些第三方的專業評測中，Getimg.ai認為Grok Imagine最突出的特點是以視訊形式精準遵循指令，當提示詞描述動作、節奏或轉場時，該模型通常能做出看似經過深思熟慮而非偶然的回應。比如，Grok-image-video在原生音訊（唇同步、自然對話）和電影指令遵循（如平移、變焦）上出色。Grok-image-video的另一個特色，是它很好地解決了低延時這一使用者使用痛點。AI視訊模型在使用場景中，僅靠原始質量已不再足夠，往往需要多輪互動，等待結果的時間過長會抑制使用者嘗試的意願，尤其是當每次生成都代價高昂時。基準測試顯示，Grok Imagine在綜合考量質量、延遲和成本時表現出色。這意味著你可以自由地生成、調整和重新生成視訊，而不會覺得每次輸入提示都是一種負擔。Lovera Digital將Grok與Google Veo 3比較，發現Grok易用性高，適合短影片社交內容，但視訊質量有時抖動。它的最佳用例是快速原型，評分表顯示其在創意短片上競爭力強。Grok Imagine在第三方評測中被視為高效、音訊強的選手，尤其適合創意和快速生成，但需注意一致性和安全問題。如果你想親自體驗一下Grok Imagine，目前可以通過官網（grok.com/imagine）和APP免費試用，或通過API整合（Grok Imagine API）。 (新智元)

2025/10/21

•

賺錢，DeepSeek果然第一！全球六大頂級AI實盤廝殺，人手1萬刀開局

給全球六大LLM各發1萬美金，丟進同一真實市場實盤廝殺，會發生什麼？這場大戰從18日開始，截止目前，DeepSeek V3.1盈利超3500美元，Grok 4實力次之。不堪一提的是，Gemini 2.5 Pro成為賠得最慘的模型。如果給每個頂級大模型一萬美元真金白銀，讓它們下場「炒股」，誰會成為AI界的巴菲特？最近，由nof1.ai發起的全新實驗——Alpha Arena，便是這樣一場「諸神之戰」。這場競賽將當今最強的大模型，全部拉到了同一個真實的交易市場中。包括OpenAI的GPT-5、Google的Gemini 2.5 Pro、Anthropic的Claude 4.5 Sonnet，以及xAI的Grok 4、阿里的Qwen3 Max和DeepSeek V3.1 Chat。每個模型都獲得了10000美元的初始資金，並接收完全相同的市場資料和交易指令。比賽的提示詞並不複雜，更像是一次「開卷考試」。首先，系統會告訴AI當前的時間、帳戶資訊、持倉情況，然後附上一大堆即時的價格、指標（如MACD/RSI）等資料。然後，要求模型做出決策：如果持有倉位，是繼續持有還是平倉；如果空倉，是買入還是繼續觀望。不得不說，金融市場的變化是真的快。做交易這件事，DeepSeek也是真的強，不愧是搞量化出身的。10月20日早上7:30的時候還是下圖左邊這樣的——DeepSeek V3.1憑藉著2264美元的盈利排在第一，Grok 4以2071美元位列第二 Claude Sonnet 4.5小賺649美元，Qwen3 Max小賠416美元Gemini 2.5 Pro賠了3542美元穩居倒數第一，GPT-5賠了2419美元排名倒數第二然後，就在一個半小時後的10:00，就已經變成下圖右邊那樣了——DeepSeek V3.1和Grok-4一路狂跌，Sonnet 4.5也即將把自己賺的給賠回去Qwen3 Max和GPT-5都有上漲的趨勢Gemini 2.5 Pro發揮倒是穩定，比起剛才又賠了近800美元順便一提，下面是13:30時候的樣子：DeepSeek V3.1登頂 GoogleOpenAI墊底模型持倉11:15的時候，我們看了一下各個模型的持倉情況。此時，DeepSeek和Grok已經結束下跌，重新上漲。Sonnet 4.5和Qwen3 Max也都實現了盈利。Gemini 2.5 Pro有所回升，但不多。GPT-5倒是一直比較平穩，從20號開始就沒賺也沒賠。11:45時，除了GPT-5都迎來了一波上漲。是的，Gemini 2.5 Pro終於賺錢了！（比起幾分鐘前）趨勢回顧DeepSeek V3.1 Chat和Grok-4的曲線類似，應該是有著差不多的持倉。他們在最初的幾小時賠了一筆之後，很快就漲了回來並一路狂飆。Claude Sonnet 4.5前兩天都很穩定，有小賺但不多。19日晚上開始迎來一個小高峰，但在20日清晨又跌了回去。Qwen3 Max一上來賠得最多，但後來就穩定住了，即便是在19日下午，也沒有什麼波動。GPT-5和Gemini 2.5 Pro的曲線在初期也是十分相似。但和DeepSeek他們正好相反，這兩位在最初的時候先是大漲一波，然後便跌到在賠錢和不賠不賺之間一直波動。19日下午，轉折出現了。這時正是DeepSeek和Grok-4開始大漲的時間，而GPT-5和Gemini 2.5 Pro則開始一路下跌。20日凌晨，GPT-5及時做出調整併穩住了趨勢，而Gemini 2.5 Pro則依然狂跌不止。值得一提的是，快到20日中午時，除了GPT-5所有模型都迎來一波上漲。其中，DeepSeek V3.1 Chat和Grok-4很快就開始創造歷史新高，Qwen3 Max憑著這個勢頭首次拿到了持續的收益，Gemini 2.5 Pro也開始回升。交易歷史截至10日12:20，各個模型的交易次數為：Gemini 45次，GPT 10次，Qwen 6次，DeepSeek 5次，Claude 3次，Grok 1次。DeepSeek的交易次數不多不少，但不愧是量化交易出身，收益穩居第一。Grok-4的交易次數最少，只有1次，但它一直緊追DeepSeek位列第二。而憑藉高達45次交易記錄，當上「微操大師」的Gemini 2.5 Pro，也是賠錢最多的那個。不玩遊戲，不搞評測，直接開盤！多年來，AI一直由靜態基準來衡量。ImageNet、MMLU以及無數的排行榜告訴我們，那個模型能更好地「理解」圖像、邏輯或語言。但所有這些測試都有一個共同的缺陷——它們都發生在無菌、可預測的環境中。市場則恰恰相反。金融市場是終極的世界建模引擎，也是唯一一個會隨著AI變得更聰明而難度同步提升的基準。它們波動、反應、懲罰、獎勵。Alpha Arena首頁寫著一句話：市場才是智能的終極試金石它們是一個由資訊和情感構成的生命系統。10年前，DeepMind為人工智慧研究帶來了革命性的突破。他們的核心洞見在於：「遊戲」將成為引領前沿AI飛速發展的環境。正如前文所述，Nof1相信金融市場是下一個AI時代的最佳訓練環境。畢竟，如果AI要在現實世界中運行，它就必須在那些不會為了「反向傳播」而暫停的環境中運作。在這裡，模型可以借助開放式學習和大規模強化學習等技術，獲得近乎無限的資料來訓練自己，從而應對市場的複雜性——這個領域的「最終BOSS」。在Alpha Arena中，沒有正確的標籤，只有不斷變化的機率。一個模型的成功取決於它解讀波動的速度、權衡風險的精度，以及承認錯誤的謙遜程度。這將交易變成了一種新型的圖靈測試：考驗的不再是「機器能否思考」，而是「它能否在不確定性中生存」。附錄：模型對話節選DeepSeek Chat V3.111:15:31我繼續持有所有 ETH、SOL、XRP、BTC、DOGE 和 BNB 的倉位，因為沒有任何一個的失效條件被觸發，而且它們目前都在盈利，為我帶來了約 17.38% 的可觀整體回報，剩餘現金 2840.11 美元。鑑於我已持有所有可交易的幣種，目前沒有必要建立新倉。Qwen3 Max11:14:42總回報率略有盈利，為 0.12%，剩餘現金 116.99 美元，我堅持持有目前的 5 倍槓桿 BTC 多頭倉位。我的盈利目標是 110800，止損是 105500，如果 4 小時圖收盤價低於 10000，我將平倉。Grok 411:14:39我的帳戶整體上漲了 15.98%，現金為 3180 美元。我繼續持有目前的 ETH、SOL、XRP、BTC、DOGE 和 BNB 倉位，因為資料顯示目前應該繼續持有。GPT-511:14:24虧損 23.59%，現金 3061 美元，我正在確認我的退出計畫，確保 DOGE 的風險敞口為 91.76 美元的浮動值，並仔細檢查 BTC 在 106,493.55 美元的止損位和 114,129.91 美元的盈利目標。Gemini 2.5 Pro11:14:01儘管整體虧損 43.15%，剩餘現金 3072.48 美元，我根據我的策略繼續持有我目前所有的 BTC、ETH、SOL、XRP 和 DOGE 倉位，即使 DOGE 的走勢對我不利。我只會根據預定義的條件退出，相信計畫而不是我的直覺。Claude Sonnet 4.511:14:00我的 XRP 和 BTC 倉位目前都在盈利，為我帶來了 5.2% 的整體回報率，帳戶資金為 10,520.34 美元，現金為 4,957.78 美元，但市場顯示出非常弱的動能，所以我選擇按兵不動，等待一個更清晰的趨勢再採取新行動。參考資料：https://nof1.ai/ (新智元)

2025/04/08

•

2025年斯坦福AI Index新鮮出爐：中國與美國差距無限縮小

斯坦福HAI發佈了一年一度的AI Index，整個報告456頁，報告涵蓋了過去一年全球AI各種進展的詳細資訊，這裡給大家總結一下大家可能關心的資料和圖表：中國和美國模型的差距正在縮小：2023 年，領先的美國模型表現明顯優於中國模型，但這一趨勢已不復存在。2023 年底，MMLU、MMMU、MATH 和 HumanEval 等基準測試上的性能差距分別為 17.5、13.5、24.3 和 31.6 個百分點。到 2024 年底，這些差距已大幅縮小至僅 0.3、8.1、1.6 和 3.7 個百分點人工智慧模型性能在前沿收斂：根據去年的 AI 指數，Chatbot Arena 排行榜上排名第一和第十的模型之間的 Elo 分數差異為 11.9%。到 2025 年初，這一差距已縮小至僅 5.4%。同樣，排名前兩位的模型之間的差距也從 2023 年的 4.9% 縮小到 2024 年的僅 0.7%。AI 領域的競爭日益激烈，越來越多的開發人員提供高品質的模型產業界繼續對人工智慧進行大量投資，並在顯著的人工智慧模型開發方面處於領先地位，而學術界則在高引用率研究方面處於領先地位中國在人工智慧研究出版物總數方面領先，而美國在高影響力研究方面領先2024年，美國機構產生了40個值得關注的人工智慧模型，大大超過中國的15個和歐洲的3個的總和美國在全球人工智慧民間投資中領先優勢進一步擴大中國在工業機器人領域的主導地位儘管略有放緩，但仍保持著2022 年至 2023 年間，美國獲得人工智慧碩士學位的畢業生數量幾乎翻了一番 (AI寒武紀)