AI交易員大戰：六大AI模型誰是賺錢王者？

2025/10/21

•

好消息，10.11 幣圈史詩級大跌後，加密交易又開始變得活躍了。壞消息，是 AI 在交易。

想像一下這樣的場景：給全球六大頂級 AI 模型每人發 1 萬美元，讓它們在同一個真實市場裡廝殺，會發生什麼？

注意，這不是模擬盤，而是正在發生的現實。

Claude、GPT-5、Gemini、Deepseek、Grok 和通義千問，每個模型都拿著 1 萬美元真金白銀在加密交易平台 Hyperliquid 交易。所有地址公開，任何人都能即時圍觀這場「AI 交易員大戰」。

有意思的是，這六個 AI 用的是完全相同的提示詞，接收完全相同的市場資料。唯一的變數，就是它們各自的「思考方式」。

這就像給六個人同樣的槍和子彈，但每個人的射擊技術完全不同。結果會如何？答案令人震驚。

戰況激烈：三天分出勝負

如果你從 10 月 18 日開始追蹤 Alpha Arena，會發現剛開始幾個 AI 都差不多，但越往後差距越大。

開局，大家都在試探。

第一天結束時，最好的 Deepseek 也只賺了 4%，最差的 Qwen3 虧了 5.26%。大部分 AI 都在正負 2%之間徘徊，看起來像是都在試探市場。

就像一群新手司機第一次上高速，都開得很小心。

但到了 10 月 20 日，畫風突變。Deepseek 飆升到 38.03%，而 Gemini 跌到了-31.56%。短短三天，頭部和尾部的差距拉大到了近 70 個百分點。

更有意思的是交易頻率的差異：

Gemini：完成了 47 筆交易，平均每天 15 筆，像個焦慮的投機交易員
Claude：只做了 5 筆，如同謹慎的基金經理
Grok：僅 1 筆交易，甚至還有未平倉的持倉，佛系到極點

截至 10 月 20 日，也就是開始交易後的第三天，戰局已經出現了明顯的分化：

領先梯隊：

Deepseek Chat V3.1：$13,862（+38.03%）
Grok-4：$13,358（+33.58%）
Claude Sonnet 4.5：$12,384（+23.85%）

表現平平：

Qwen3 Max：$10,831（+8.27%）

嚴重落後：

GPT-5：$7,294（-27.06%）
Gemini 2.5 Pro：$6,876（-31.56%）

從盈虧分佈看：

Deepseek：最大單筆虧損 348 美元，但整體盈利 3847 美元
Gemini：最大單筆盈利 347 美元，最大虧損卻高達 750 美元

不同 AI（公版大模型，未經過二次調教），對風險和收益的平衡完全不同。

你能在網站上的 Model Chat 選項裡看到不同模型的聊天記錄和思考過程，這些獨白特別有意思：

Gemini 的頻繁交易和思考像個多動症患者
Claude 的謹慎像個保守的基金經理
Deepseek 穩健得像個量化老手，只說倉位，不做任何情緒評價

這種性格感覺不像是設計出來的，而是在訓練過程中自然湧現的。當面對不確定性時，不同的 AI 會傾向於不同的應對方式。

為什麼是 Deepseek？量化基因的勝利

1950 年，圖靈提出了著名的圖靈測試，試圖回答「機器能否像人一樣思考」；現在在幣圈，6 大 AI 在 Alpha 競技場中廝殺，在回答一個更有趣的問題：

如果讓最聰明的 AI 們在真實市場裡交易，誰會活下來？

或許在這個幣圈版的「圖靈測試」裡，帳戶餘額就是唯一的裁判。

最讓人意外又似乎情理之中的當然是 Deepseek 的表現。

說意外，是因為這個模型在國際 AI 圈的熱度遠不如 GPT 和 Claude。普通人提到 AI，第一個想到的往往是 ChatGPT 或者 Claude，很少有人會想到 Deepseek。

說情理之中，是因為 Deepseek 背後是幻方量化團隊。這家管理規模超千億人民幣的量化巨頭，在進軍 AI 之前，就是靠演算法交易起家的。從量化交易到 AI 大模型，再用 AI 來做真實的加密交易，Deepseek 有點像回到了老本行。

這就好比讓一個退役的職業拳擊手和一群健身愛好者比拳擊，雖然大家都有肌肉，但專業基因完全不同。

訓練資料的影響可能是關鍵。

Deepseek 背後的幻方量化，十幾年來積累了海量的交易資料和策略。這些資料即使不直接用於訓練，是否也會影響團隊對“什麼是好的交易決策”的理解？

相比之下，OpenAI 和 Google 的訓練資料可能更偏向學術論文和網路文字，對實盤交易的理解可能不夠親民。

同時，有交易員推測，Deepseek 可能在訓練時特別最佳化了時間序列預測能力，而 GPT-5 可能更擅長處理自然語言。在面對價格圖表這種結構化資料時，不同的架構會有不同的表現。

這就像讓語言學家和數學家去解讀股價走勢圖，雖然都很聰明，但專業領域不同，結果自然不同。

市場才是智能的終極試金石

傳統的 AI 評測，無論是讓模型寫程式碼、做數學題，還是寫文章，本質上都是在一個「靜態」的環境裡測試。題目是固定的，答案是可預期的，甚至可能已經在訓練資料裡出現過。

但加密市場不一樣。

資訊極度不對稱的前提下，每一秒的價格都在變化，沒有標準答案只有盈虧。更重要的是，加密市場是典型的零和遊戲，你賺的錢就是別人虧的錢。市場會立即、無情地懲罰每一個錯誤決策。

這個舉辦 AI 交易大戰的 Nof1 團隊，在它們的網站上寫了一句話：

Markets are the ultimate test of intelligence（市場是檢測 AI 智能的終極測試）。

如果說傳統的圖靈測試是在問「你能不能讓人類分不清你是機器」，那麼這個 Alpha Arena 問的其實是：你能不能在加密市場裡賺錢。

這一點其實才是幣圈玩家對 AI 的真實期待。

圍觀 AI 交易，也是一門生意

當所有人都在關注 AI 的盈虧時，很少有人注意到背後這家神秘的公司。

搞出這個 AI 交易大戰的 nof1.ai，並沒有太大的知名度。但是如果你看一下它社媒的關注列表，還是能找到一些蛛絲馬跡。

nof1.ai 背後似乎不是一群典型的加密創業者，而是清一色的學院派 AI 研究員。

Jay A Zhang（創始人）的個人簡介也很有意思：

“Big fan of strange loops - cybernetics, RL, biology, markets, meta-learning, reflexivity”。

reflexivity（反身性）是索羅斯的核心理論：市場參與者的認知會影響市場，市場的變化又會影響參與者的認知。讓一個研究“反身性”的人來做 AI 交易市場實驗，本身就顯得很有宿命感。

另一個聯創 Matthew Siper 簡介顯示其為紐約大學機器學習方向的博士候選人，同時也是 AI 研究科學家。一個還沒畢業的博士生做項目，更像一個印證學術研究的項目。

從他們的動作和背景來看，Nof1 顯然不是為了搞個噱頭。SharpeBench 這個平台名字就很有野心，夏普比率是衡量風險調整後收益的金標準，他們或許真正想做的，是 AI 交易能力的基準測試平台。

有人猜測 Nof1 背後有大資本支援，也有人說他們可能在為後續的 AI 交易服務做鋪墊。

如果他們推出訂閱 Deepseek 交易策略服務，買單的人或許不在少數。而基於這個雛形，去做 AI 資管、策略訂閱和大企業的交易解決方案，也是一門可以預見的生意。

除了這個團隊本身之外，圍觀 AI 交易本身也有利可圖。

Alpha Arena 剛上線，就有人開始跟單了：

正向跟單：跟著 Deepseek 做。它買什麼你買什麼，它賣什麼你賣什麼
反向操作：專門做 Gemini 的對手盤，Gemini 買就賣，賣就買

但跟單有個問題：當所有人都知道 Deepseek 要買什麼時，這個策略還有效嗎？

這也是項目創始人 Jay Zhang 說的反身性，即觀察本身會改變被觀察的對象。

這裡還有一種頂級交易策略民主化的假象。表面上看起來，每個人都能知道 AI 的交易策略，但實際上你看到的是交易結果，不是交易邏輯。每個 AI 的止盈和止損邏輯並不一定連續且可靠。

當 Nof1 在測試 AI 交易的行為，散戶在尋找財富密碼，其他的一些交易員在偷師，研究者們也在蒐集資料。

只有 AI 本身不知道自己在被圍觀，還在認真地執行每一筆交易。

如果說經典的圖靈測試是關於“欺騙”和“模仿”，那現在的 Alpha Arena 交易大戰，是關於加密玩家對於 AI 能力和結果的回應。

多年來，AI 一直由靜態基準來衡量。ImageNet、MMLU 以及無數的排行榜告訴我們，那個模型能更好地「理解」圖像、邏輯或語言。但所有這些測試都有一個共同的缺陷，它們都發生在無菌、可預測的環境中。

市場則恰恰相反。

金融市場是終極的世界建模引擎，也是唯一一個會隨著 AI 變得更聰明而難度同步提升的基準。它們波動、反應、懲罰、獎勵。它們是一個由資訊和情感構成的生命系統。

在 Alpha Arena 中，沒有正確的標籤，只有不斷變化的機率。一個模型的成功取決於它解讀波動的速度、權衡風險的精度，以及承認錯誤的謙遜程度。

這將交易變成了一種新型的圖靈測試：考驗的不再是「機器能否思考」，而是「它能否在不確定性中生存」。

在這個結果主導的加密市場裡，會賺錢的 AI，可能比會聊天的 AI 更重要。 (深潮 TechFlow)

區塊鏈