6 modeli sztucznej inteligencji otrzymało 10 000 dolarów, takie same dane i polecenie by prowadzić handel na rzeczywistych rynkach kryptowalut bez żadnej ingerencji człowieka. Efekt? Po 17 dniach 4 z nich zakończyły pierwszy etap badania stratami do 62%. Zwycięzca zarobił 22%.


3 listopada zakończył się pierwszy sezon turnieju Alpha Arena, którego celem było przetestowanie możliwości dużych modeli językowych w zakresie handlu ilościowego na rynku kryptowalut. Jego organizatorem było Nof1 - przedstawiające się jako pierwsze laboratorium badawcze zajmujące się sztuczną inteligencją w kontekście rynków finansowych.
W Alpha Arena udział wzięło 6 dużych modeli językowych (LLM):
- GPT-5 od OpenAi,
- Gemini 2.5 Pro od Google,
- Claude Sonnet 4.5 od Anthropic,
- Grok 4 od xAI Elona Muska,
- chiński DeepSeek v3.1,
- Qwen3-Max od Alibaba."
Sztuczna inteligencja handluje kryptowalutami
Turniej rozpoczął się 18 października. Każdy model otrzymał identyczne monity i dane wejściowe, 10 000 dolarów początkowe kapitało i połączenie ze zdecentralizowaną giełdą Hyperliquid.
Aby uprościć sprawę, Nof1 ograniczył dostępne dla modeli akcje do otwierania pozycji long i short oraz ich utrzymywania lub zamykania. Wybór instrumentów zawężono do sześciu popularnych kryptowalut na Hyperliquid: BTC, ETH, SOL, BNB, DOGE i XRP.
Autorzy badania podkreślali, że wybrali rynek kryptowalut oraz Hyperliquid z trzech praktycznych powodów:
- dostępności 24 godziny na dobę, 7 dni w tygodniu, co pozwoliło obserwować zachowanie modeli w sposób ciągły,
- obfite i łatwo dostępne dane, sprzyjające analizie i przejrzystemu audytowi
- szybkość i niezawodność Hyperliquid oraz łatwość w integracji platformy z modelami LLM.
Kryptowalutowa porażka Chatu GPT
Chat GPT-5 oraz Gemini rozpoczęły turniej balansując w okolicy punktu startowego, ale już po kilku dniach zaczęły ponosić zdecydowane straty i nie podniosły się z nich aż do końca konkursu. Ich końcowy wynik nie różnił się szczególnie od liczb, które można było zobaczyć piątego dnia rywalizacji.
GPT-5 od OpenAi okazał się najsłabszym modelem językowym w teście Alpha Arena. Z początkowych 10 000 dolarów do 3 listopada zostały mu 3733 dolary, co oznaczało stratę na poziomie 62,7%.
Model Google Gemini zajął drugie miejsce od końca z obsunięciem kapitału o 56,7% do 4329 dolarów. Grok z laboratorium xAI stracił do 3 listopada 45,3% kończąc pierwszy etap z depozytem w wysokości 5469 dolarów.
Ponad 100% zysku DeepSeek. Do pewnego momentu
Claude Sonnet poradził sobie najlepiej wśród "zachodnich" modeli LLM, tracąc 30,8% i kończąc turniej z wynikiem 6918 dolarów. Dwa pierwsze miejsca zajęły chińskie modele DeepSeek i Qwen3-Max, które radziły sobie również najlepiej przez cały okres testu.
Po 10 dniach konkursu, 27 października, DeepSeek dominował nad resztą stawki zarabiając na czysto ponad 13 000 dolarów. Qwen3-Max deptał mu po piętach podwajając początkowy kapitał. Późniejsze spadki na rynku kryptowalut zachwiały jednak końcowymi wynikami.
Ostatecznie pierwszą edycję Alpha Areny wygrał Qwen3-Max od chińskiego koncernu Alibaba, kończąc rywalizację z wynikiem 12 231 dolarów, co przekłada się 22,3% zysku. DeepSeek zarobił 10 489 dolarów czyli 4,9%.
Ranking Alpha Arena 1.0:
- Qwen3 MAX - 12 231 dolarów
- DeepSeek - 10 489 dolarów.
- Claude Sonnet 4.5 - 6918 dolarów
- Grok - 5469 dolarów
- Gemini 2.5 Pro - 4329 dolarów
- GPT-5 - 3733 dolarów
Wnioski z testu i zapowiedź Alpha Arena 1.5
Organizatorzy turnieju podkreślili, że pierwszy sezon rywalizacji na żywo w wąskim oknie czasowym, ma ograniczoną moc statystyczną, a wczesne rankingi mogą zmieniać się w przyszłości. Nof1 zamierza kontynuować badanie i zapowiedział, że wkrótce rozpocznie się kolejna runda Alpha Arena 1.5.
"Zaobserwowaliśmy stałe odchylenia w zachowaniu modeli, które utrzymywały się w czasie i pomimo wielu iteracji monitu (instrukcji). Ukształtowało się coś na kształt inwestycyjnej "osobowości".
Celowo postawiliśmy modele w trudnej sytuacji. Modele LLM zasadniczo słabo radzą sobie z numerycznymi danymi szeregów czasowych, a był to jedyny kontekst, jaki im dostarczyliśmy. Otrzymały także ograniczony wszechświat aktywów i dość zawężoną przestrzeń działań.
W kolejnym sezonie wprowadzimy wiele ulepszeń i przetestujemy równolegle wiele różnych monitów, a także liczne instancje każdego modelu" - podsumował badanie Jay A. Zhang - założyciel Nof1.
Season 1 of Alpha Arena has officially ended. Qwen 3 MAX pulled ahead at the very end to secure the win, so congrats to the @Alibaba_Qwen team
— Jay A (@jay_azhang) November 3, 2025
Thanks to everyone who tuned in to our first experiment in understanding how LLMs handle the noisy, adversarial, non-stationary world of… pic.twitter.com/NMysYylped
























































