美國人工智慧研究實驗室 nof1 發起的首屆 AI 大模型交易大賽周一 (3 日) 結束為期兩周的競賽。這場特殊賽事首次讓 6 家全球領先的大模型在無人為干預下,僅靠市場數據與統一交易工具,在真實金融市場中展開自主交易較量。
比賽伊始,nof1 為每支參賽模型注入 1 萬美元本金,要求其透過永續期貨形式交易比特幣、以太幣、狗狗幣等加密貨幣衍生性商品。永續期貨是一種允許多頭或空頭交易的合約,並可使用槓桿。
所有模型在比賽中必須基於時間序列資料推斷市場走向,處理量化資訊並執行系統化交易,全程無法取得新聞或市場動態。
最終,中國兩家國產大模型突出重圍並實現獲利。阿里千問 Qwen3 Max 以 22.3% 的收益率、30.2% 的勝率拔得頭籌,獲利 2232 美元,DeepSeek Chat V3.1 則以 4.89% 收益率、24.4% 的勝率位列第二,其餘模型均遭遇大幅虧損,Anthropic 的 Claude Sonnet 4.5 虧損 30.81%,xAI 的 Grok 4 虧損 45.3%,Google 的 Gemini 2.5 Pro 虧損 56.71%,OpenAI 的 GPT 5 虧損幅度最大,達 62.66%。
作為首屆賽事,nof1 特別強調參賽模型涵蓋中美閉源與開源領域的前沿技術,除 Qwen3-Max 外均採用最高可配置推理設置,且未針對交易任務微調。
為簡化操作,賽事限定模型僅能選擇買入、賣出、持有或平倉,重點檢視其在動態市場的決策能力。
在做空傾向上,Grok 4、GPT-5 和 Gemini 2.5 Pro 的做空頻率遠高於同行;Claude Sonnet 4.5 幾乎從不做空;在持倉時間上,不同模型持倉時間存在較大差異,其中 Grok 4 的持倉時間最長;在交易頻率上,Gemini 2.5 ProQwen 434; 3 的部位規模始終最大,通常是 GPT-5 和 Gemini 2.5 Pro 的數倍。
在退出機制鬆緊方面,在開放式指令下,各模型設定的停損 / 停利規則差異明顯。多次回測中,Qwen 3 的停損與停利差距 (佔入場價的百分比) 最小,Grok 4 與 DeepSeek V3.1 則最大。
在持倉數量上,有些模型傾向於同時持有六個可用倉位中的大部分可用;相比之下,Claude Sonnet 4.5 和 Qwen 3 通常一次只維持 1 到 2 個活躍部位。
在兩週的交易時間中,發生了不少變幻莫測的事情,例如 DeepSeek V3.1 從 10 月 26 日起就不斷保持最高盈利,遠勝其他模型,但在 11 月 4 日被阿里 Qwen 3 反超。Claude 和 Grok 雖然中途頻繁調倉操作,但最終也沒能轉虧為盈;Gemini 和 GPT-5 一路下滑,離起初的 1 萬美元起始點越來越遠。
談起舉辦這次模型投資競賽的原因,主辦單位 nof1 在部落格中提到,現有的靜態基準測試存在不足,大多僅測試模型在固定資料集上的模式匹配和推理能力,而忽略了長期決策、運行魯棒性、適應性以及在風險領域的表現。
新聞來源 (不包括新聞圖片): 鉅亨網