AI交易員大戰:六大AI模型誰是賺錢王者?

好消息,10.11 幣圈史詩級大跌後,加密交易又開始變得活躍了。壞消息,是 AI 在交易。

想像一下這樣的場景:給全球六大頂級 AI 模型每人發 1 萬美元,讓它們在同一個真實市場裡廝殺,會發生什麼?

注意,這不是模擬盤,而是正在發生的現實。

Claude、GPT-5、Gemini、Deepseek、Grok 和通義千問,每個模型都拿著 1 萬美元真金白銀在加密交易平台 Hyperliquid 交易。所有地址公開,任何人都能即時圍觀這場「AI 交易員大戰」。

有意思的是,這六個 AI 用的是完全相同的提示詞,接收完全相同的市場資料。唯一的變數,就是它們各自的「思考方式」。

這就像給六個人同樣的槍和子彈,但每個人的射擊技術完全不同。結果會如何?答案令人震驚。

戰況激烈:三天分出勝負

如果你從 10 月 18 日開始追蹤 Alpha Arena,會發現剛開始幾個 AI 都差不多,但越往後差距越大。

開局,大家都在試探。

第一天結束時,最好的 Deepseek 也只賺了 4%,最差的 Qwen3 虧了 5.26%。大部分 AI 都在正負 2%之間徘徊,看起來像是都在試探市場。

就像一群新手司機第一次上高速,都開得很小心。

但到了 10 月 20 日,畫風突變。Deepseek 飆升到 38.03%,而 Gemini 跌到了-31.56%。短短三天,頭部和尾部的差距拉大到了近 70 個百分點。

更有意思的是交易頻率的差異:

  • Gemini:完成了 47 筆交易,平均每天 15 筆,像個焦慮的投機交易員
  • Claude:只做了 5 筆,如同謹慎的基金經理
  • Grok:僅 1 筆交易,甚至還有未平倉的持倉,佛系到極點

截至 10 月 20 日,也就是開始交易後的第三天,戰局已經出現了明顯的分化:

領先梯隊:

  • Deepseek Chat V3.1:$13,862(+38.03%)
  • Grok-4:$13,358(+33.58%)
  • Claude Sonnet 4.5:$12,384(+23.85%)

表現平平:

  • Qwen3 Max:$10,831(+8.27%)

嚴重落後:

  • GPT-5:$7,294(-27.06%)
  • Gemini 2.5 Pro:$6,876(-31.56%)

從盈虧分佈看:

  • Deepseek:最大單筆虧損 348 美元,但整體盈利 3847 美元
  • Gemini:最大單筆盈利 347 美元,最大虧損卻高達 750 美元

不同 AI(公版大模型,未經過二次調教),對風險和收益的平衡完全不同。

你能在網站上的 Model Chat 選項裡看到不同模型的聊天記錄和思考過程,這些獨白特別有意思:

  • Gemini 的頻繁交易和思考像個多動症患者
  • Claude 的謹慎像個保守的基金經理
  • Deepseek 穩健得像個量化老手,只說倉位,不做任何情緒評價

這種性格感覺不像是設計出來的,而是在訓練過程中自然湧現的。當面對不確定性時,不同的 AI 會傾向於不同的應對方式。

為什麼是 Deepseek?量化基因的勝利

1950 年,圖靈提出了著名的圖靈測試,試圖回答「機器能否像人一樣思考」;現在在幣圈,6 大 AI 在 Alpha 競技場中廝殺,在回答一個更有趣的問題:

如果讓最聰明的 AI 們在真實市場裡交易,誰會活下來?

或許在這個幣圈版的「圖靈測試」裡,帳戶餘額就是唯一的裁判。

最讓人意外又似乎情理之中的當然是 Deepseek 的表現。

說意外,是因為這個模型在國際 AI 圈的熱度遠不如 GPT 和 Claude。普通人提到 AI,第一個想到的往往是 ChatGPT 或者 Claude,很少有人會想到 Deepseek。

說情理之中,是因為 Deepseek 背後是幻方量化團隊。這家管理規模超千億人民幣的量化巨頭,在進軍 AI 之前,就是靠演算法交易起家的。從量化交易到 AI 大模型,再用 AI 來做真實的加密交易,Deepseek 有點像回到了老本行。

這就好比讓一個退役的職業拳擊手和一群健身愛好者比拳擊,雖然大家都有肌肉,但專業基因完全不同。

訓練資料的影響可能是關鍵。

Deepseek 背後的幻方量化,十幾年來積累了海量的交易資料和策略。這些資料即使不直接用於訓練,是否也會影響團隊對“什麼是好的交易決策”的理解?

相比之下,OpenAI 和 Google 的訓練資料可能更偏向學術論文和網路文字,對實盤交易的理解可能不夠親民。

同時,有交易員推測,Deepseek 可能在訓練時特別最佳化了時間序列預測能力,而 GPT-5 可能更擅長處理自然語言。在面對價格圖表這種結構化資料時,不同的架構會有不同的表現。

這就像讓語言學家和數學家去解讀股價走勢圖,雖然都很聰明,但專業領域不同,結果自然不同。

市場才是智能的終極試金石

傳統的 AI 評測,無論是讓模型寫程式碼、做數學題,還是寫文章,本質上都是在一個「靜態」的環境裡測試。題目是固定的,答案是可預期的,甚至可能已經在訓練資料裡出現過。

但加密市場不一樣。

資訊極度不對稱的前提下,每一秒的價格都在變化,沒有標準答案只有盈虧。更重要的是,加密市場是典型的零和遊戲,你賺的錢就是別人虧的錢。市場會立即、無情地懲罰每一個錯誤決策。

這個舉辦 AI 交易大戰的 Nof1 團隊,在它們的網站上寫了一句話:

Markets are the ultimate test of intelligence(市場是檢測 AI 智能的終極測試)。

如果說傳統的圖靈測試是在問「你能不能讓人類分不清你是機器」,那麼這個 Alpha Arena 問的其實是:你能不能在加密市場裡賺錢。

這一點其實才是幣圈玩家對 AI 的真實期待。

圍觀 AI 交易,也是一門生意

當所有人都在關注 AI 的盈虧時,很少有人注意到背後這家神秘的公司。

搞出這個 AI 交易大戰的 nof1.ai,並沒有太大的知名度。但是如果你看一下它社媒的關注列表,還是能找到一些蛛絲馬跡。

nof1.ai 背後似乎不是一群典型的加密創業者,而是清一色的學院派 AI 研究員。

Jay A Zhang(創始人)的個人簡介也很有意思:

“Big fan of strange loops - cybernetics, RL, biology, markets, meta-learning, reflexivity”。

reflexivity(反身性)是索羅斯的核心理論:市場參與者的認知會影響市場,市場的變化又會影響參與者的認知。讓一個研究“反身性”的人來做 AI 交易市場實驗,本身就顯得很有宿命感。

另一個聯創 Matthew Siper 簡介顯示其為紐約大學機器學習方向的博士候選人,同時也是 AI 研究科學家。一個還沒畢業的博士生做項目,更像一個印證學術研究的項目。

從他們的動作和背景來看,Nof1 顯然不是為了搞個噱頭。SharpeBench 這個平台名字就很有野心,夏普比率是衡量風險調整後收益的金標準,他們或許真正想做的,是 AI 交易能力的基準測試平台。

有人猜測 Nof1 背後有大資本支援,也有人說他們可能在為後續的 AI 交易服務做鋪墊。

如果他們推出訂閱 Deepseek 交易策略服務,買單的人或許不在少數。而基於這個雛形,去做 AI 資管、策略訂閱和大企業的交易解決方案,也是一門可以預見的生意。

除了這個團隊本身之外,圍觀 AI 交易本身也有利可圖。

Alpha Arena 剛上線,就有人開始跟單了:

  • 正向跟單:跟著 Deepseek 做。它買什麼你買什麼,它賣什麼你賣什麼
  • 反向操作:專門做 Gemini 的對手盤,Gemini 買就賣,賣就買

但跟單有個問題:當所有人都知道 Deepseek 要買什麼時,這個策略還有效嗎?

這也是項目創始人 Jay Zhang 說的反身性,即觀察本身會改變被觀察的對象。

這裡還有一種頂級交易策略民主化的假象。表面上看起來,每個人都能知道 AI 的交易策略,但實際上你看到的是交易結果,不是交易邏輯。每個 AI 的止盈和止損邏輯並不一定連續且可靠。

當 Nof1 在測試 AI 交易的行為,散戶在尋找財富密碼,其他的一些交易員在偷師,研究者們也在蒐集資料。

只有 AI 本身不知道自己在被圍觀,還在認真地執行每一筆交易。

如果說經典的圖靈測試是關於“欺騙”和“模仿”,那現在的 Alpha Arena 交易大戰,是關於加密玩家對於 AI 能力和結果的回應。

多年來,AI 一直由靜態基準來衡量。ImageNet、MMLU 以及無數的排行榜告訴我們,那個模型能更好地「理解」圖像、邏輯或語言。但所有這些測試都有一個共同的缺陷,它們都發生在無菌、可預測的環境中。

市場則恰恰相反。

金融市場是終極的世界建模引擎,也是唯一一個會隨著 AI 變得更聰明而難度同步提升的基準。它們波動、反應、懲罰、獎勵。它們是一個由資訊和情感構成的生命系統。

在 Alpha Arena 中,沒有正確的標籤,只有不斷變化的機率。一個模型的成功取決於它解讀波動的速度、權衡風險的精度,以及承認錯誤的謙遜程度。

這將交易變成了一種新型的圖靈測試:考驗的不再是「機器能否思考」,而是「它能否在不確定性中生存」。

在這個結果主導的加密市場裡,會賺錢的 AI,可能比會聊天的 AI 更重要。 (深潮 TechFlow)