好消息,10.11 幣圈史詩級大跌後,加密交易又開始變得活躍了。壞消息,是 AI 在交易。
想像一下這樣的場景:給全球六大頂級 AI 模型每人發 1 萬美元,讓它們在同一個真實市場裡廝殺,會發生什麼?
注意,這不是模擬盤,而是正在發生的現實。
Claude、GPT-5、Gemini、Deepseek、Grok 和通義千問,每個模型都拿著 1 萬美元真金白銀在加密交易平台 Hyperliquid 交易。所有地址公開,任何人都能即時圍觀這場「AI 交易員大戰」。
有意思的是,這六個 AI 用的是完全相同的提示詞,接收完全相同的市場資料。唯一的變數,就是它們各自的「思考方式」。
這就像給六個人同樣的槍和子彈,但每個人的射擊技術完全不同。結果會如何?答案令人震驚。
如果你從 10 月 18 日開始追蹤 Alpha Arena,會發現剛開始幾個 AI 都差不多,但越往後差距越大。
開局,大家都在試探。
第一天結束時,最好的 Deepseek 也只賺了 4%,最差的 Qwen3 虧了 5.26%。大部分 AI 都在正負 2%之間徘徊,看起來像是都在試探市場。
就像一群新手司機第一次上高速,都開得很小心。
但到了 10 月 20 日,畫風突變。Deepseek 飆升到 38.03%,而 Gemini 跌到了-31.56%。短短三天,頭部和尾部的差距拉大到了近 70 個百分點。
更有意思的是交易頻率的差異:
截至 10 月 20 日,也就是開始交易後的第三天,戰局已經出現了明顯的分化:
領先梯隊:
表現平平:
嚴重落後:
從盈虧分佈看:
不同 AI(公版大模型,未經過二次調教),對風險和收益的平衡完全不同。
你能在網站上的 Model Chat 選項裡看到不同模型的聊天記錄和思考過程,這些獨白特別有意思:
這種性格感覺不像是設計出來的,而是在訓練過程中自然湧現的。當面對不確定性時,不同的 AI 會傾向於不同的應對方式。
1950 年,圖靈提出了著名的圖靈測試,試圖回答「機器能否像人一樣思考」;現在在幣圈,6 大 AI 在 Alpha 競技場中廝殺,在回答一個更有趣的問題:
如果讓最聰明的 AI 們在真實市場裡交易,誰會活下來?
或許在這個幣圈版的「圖靈測試」裡,帳戶餘額就是唯一的裁判。
最讓人意外又似乎情理之中的當然是 Deepseek 的表現。
說意外,是因為這個模型在國際 AI 圈的熱度遠不如 GPT 和 Claude。普通人提到 AI,第一個想到的往往是 ChatGPT 或者 Claude,很少有人會想到 Deepseek。
說情理之中,是因為 Deepseek 背後是幻方量化團隊。這家管理規模超千億人民幣的量化巨頭,在進軍 AI 之前,就是靠演算法交易起家的。從量化交易到 AI 大模型,再用 AI 來做真實的加密交易,Deepseek 有點像回到了老本行。
這就好比讓一個退役的職業拳擊手和一群健身愛好者比拳擊,雖然大家都有肌肉,但專業基因完全不同。
訓練資料的影響可能是關鍵。
Deepseek 背後的幻方量化,十幾年來積累了海量的交易資料和策略。這些資料即使不直接用於訓練,是否也會影響團隊對“什麼是好的交易決策”的理解?
相比之下,OpenAI 和 Google 的訓練資料可能更偏向學術論文和網路文字,對實盤交易的理解可能不夠親民。
同時,有交易員推測,Deepseek 可能在訓練時特別最佳化了時間序列預測能力,而 GPT-5 可能更擅長處理自然語言。在面對價格圖表這種結構化資料時,不同的架構會有不同的表現。
這就像讓語言學家和數學家去解讀股價走勢圖,雖然都很聰明,但專業領域不同,結果自然不同。
傳統的 AI 評測,無論是讓模型寫程式碼、做數學題,還是寫文章,本質上都是在一個「靜態」的環境裡測試。題目是固定的,答案是可預期的,甚至可能已經在訓練資料裡出現過。
但加密市場不一樣。
資訊極度不對稱的前提下,每一秒的價格都在變化,沒有標準答案只有盈虧。更重要的是,加密市場是典型的零和遊戲,你賺的錢就是別人虧的錢。市場會立即、無情地懲罰每一個錯誤決策。
這個舉辦 AI 交易大戰的 Nof1 團隊,在它們的網站上寫了一句話:
Markets are the ultimate test of intelligence(市場是檢測 AI 智能的終極測試)。
如果說傳統的圖靈測試是在問「你能不能讓人類分不清你是機器」,那麼這個 Alpha Arena 問的其實是:你能不能在加密市場裡賺錢。
這一點其實才是幣圈玩家對 AI 的真實期待。
當所有人都在關注 AI 的盈虧時,很少有人注意到背後這家神秘的公司。
搞出這個 AI 交易大戰的 nof1.ai,並沒有太大的知名度。但是如果你看一下它社媒的關注列表,還是能找到一些蛛絲馬跡。
nof1.ai 背後似乎不是一群典型的加密創業者,而是清一色的學院派 AI 研究員。
Jay A Zhang(創始人)的個人簡介也很有意思:
“Big fan of strange loops - cybernetics, RL, biology, markets, meta-learning, reflexivity”。
reflexivity(反身性)是索羅斯的核心理論:市場參與者的認知會影響市場,市場的變化又會影響參與者的認知。讓一個研究“反身性”的人來做 AI 交易市場實驗,本身就顯得很有宿命感。
另一個聯創 Matthew Siper 簡介顯示其為紐約大學機器學習方向的博士候選人,同時也是 AI 研究科學家。一個還沒畢業的博士生做項目,更像一個印證學術研究的項目。
從他們的動作和背景來看,Nof1 顯然不是為了搞個噱頭。SharpeBench 這個平台名字就很有野心,夏普比率是衡量風險調整後收益的金標準,他們或許真正想做的,是 AI 交易能力的基準測試平台。
有人猜測 Nof1 背後有大資本支援,也有人說他們可能在為後續的 AI 交易服務做鋪墊。
如果他們推出訂閱 Deepseek 交易策略服務,買單的人或許不在少數。而基於這個雛形,去做 AI 資管、策略訂閱和大企業的交易解決方案,也是一門可以預見的生意。
除了這個團隊本身之外,圍觀 AI 交易本身也有利可圖。
Alpha Arena 剛上線,就有人開始跟單了:
但跟單有個問題:當所有人都知道 Deepseek 要買什麼時,這個策略還有效嗎?
這也是項目創始人 Jay Zhang 說的反身性,即觀察本身會改變被觀察的對象。
這裡還有一種頂級交易策略民主化的假象。表面上看起來,每個人都能知道 AI 的交易策略,但實際上你看到的是交易結果,不是交易邏輯。每個 AI 的止盈和止損邏輯並不一定連續且可靠。
當 Nof1 在測試 AI 交易的行為,散戶在尋找財富密碼,其他的一些交易員在偷師,研究者們也在蒐集資料。
只有 AI 本身不知道自己在被圍觀,還在認真地執行每一筆交易。
如果說經典的圖靈測試是關於“欺騙”和“模仿”,那現在的 Alpha Arena 交易大戰,是關於加密玩家對於 AI 能力和結果的回應。
多年來,AI 一直由靜態基準來衡量。ImageNet、MMLU 以及無數的排行榜告訴我們,那個模型能更好地「理解」圖像、邏輯或語言。但所有這些測試都有一個共同的缺陷,它們都發生在無菌、可預測的環境中。
市場則恰恰相反。
金融市場是終極的世界建模引擎,也是唯一一個會隨著 AI 變得更聰明而難度同步提升的基準。它們波動、反應、懲罰、獎勵。它們是一個由資訊和情感構成的生命系統。
在 Alpha Arena 中,沒有正確的標籤,只有不斷變化的機率。一個模型的成功取決於它解讀波動的速度、權衡風險的精度,以及承認錯誤的謙遜程度。
這將交易變成了一種新型的圖靈測試:考驗的不再是「機器能否思考」,而是「它能否在不確定性中生存」。
在這個結果主導的加密市場裡,會賺錢的 AI,可能比會聊天的 AI 更重要。 (深潮 TechFlow)