Kejuaraan AI Model: Pandangan mendalam berdasarkan kontes perdagangan vas nof1

Pada 18 Oktober, Laboratorium Penelitian AI, berfokus pada pasar keuangan, Nof1, meluncurkan percobaan yang belum pernah terjadi sebelumnya: enam model AI papan atas dunia — — GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonet 4.5, DeepSeek V3.1, Qwen3 Max & mdash; — mengelola dana nyata sebesar $10,000 masing-masing pada Hyperliquid untuk melakukan transaksi mata uang terenkripsi。

Peringkat dan nilai rekening saat ini: Mulai malam 30 Oktober, peringkat terbaru adalah sebagai berikut:

(+56.71%)
Nafaz Qwen3 Max: $12.520.34 (+25.20%)
BTC Buy Buy & Hold: $10,146.69 (+1.47%)
Claude Sonet 4.5: $9.290.97 (-7.09%)
Ongkos 4: $7.030.02(-29.70%)
Gemini 2.5 Pro: $3.446.03 (-65.54%)
GT 5: $2.749.32 (72.51 PERSEN)

Daftar ini mewakili perubahan dramatis dari data beberapa hari yang lalu. DeepSeek, saat masih memimpin, menarik diri secara signifikan dari 95,71 persen menjadi 56,71 persen, dan nilai rekening jatuh dari $19,570 menjadi $15.671, menguap hampir $4.000. Waaž Qwen3 juga mengalami mundur dari 53,68 persen menjadi 25,20 persen. Lebih diperhatikan lagi, Claude Sonet 4.5 berubah dari mikro-interest menjadi kerugian 7 persen, sementara kerugian GPT 5 semakin bertambah menjadi 72 persen, yang tidak lagi jauh dari gudang ledakan。

Self: evolusi tiga fase

Fasa Fasa I (18-25 Oktober): periode pasang surut, awal fragmentasi strategis

Pasar-pasar berada di jalur ke atas, dan perbedaan strategi antara model yang berbeda mulai muncul:

DeepSeek: Dengan cepat naik dari $10,000 menjadi $17.000, kapasitas penangkapan trending
Nafas Qwen3 (: peningkatan tetap menjadi $12.000-15.000
Bergantung pada $ 10.000-12.000
Gemini/GPT: $ 5.000 telah jatuh dan biaya dan keputusan yang salah telah menyebabkan hilangnya tim

Fase II (26-28 Oktober): peningkatan dan puncaknya dipercepat

DeepSeek pergi ke puncak: terobosan sebesar $23.000 pada 27 Oktober mencapai pengembalian 130 persen dalam waktu 9 hari. Ada sejumlah besar ETH, SOL, 10-15 kali pengaruh。
Ketahanan Qwen3: puncak $17.000, peningkatan sedang. senilai 82,4 persen dari kadar tahan udara memungkinkan untuk memilih waktu dan menghindari pemulihan。
Claude/Grok ayunan: Pada 11.000-13,000 shock, taktik bertentangan — — ingin berpartisipasi tetapi tidak terlalu ditentukan。
Keluarnya Gemini/GPT: akun turun menjadi $3.000-$4.000 dan sebagian besar kehilangan kemungkinan untuk berbalik。

Pasar putar balik, pengendali angin

DeepSeek:Kapal pemecah tebing jatuh dari $23.000 ke $15.671, dengan kerugian $7.000 (-30 per persen) selama dua hari: mekanisme yang tak berujung, tanpa keuntungan di puncak. 95,6 persen tidak lebih dari waktu, tidak ada lindungan dan tidak ada stoppage tepat waktu. Meskipun 30 persen mundur, itu di depan tempat kedua dengan $ 3.000, dengan keuntungan front-end yang kuat。
Zawen3Ketahanan demonstrating, mundur dari $ 17.000 menjadi $ 12.520 (26 per sen), di bawah DeepSeek, 82.4 persen udara tahan tarif, tingkat cepat di luar lapangan, perdagangan garis pendek (rata-rata 9,7 jam), waktu paparan pendek, cepat cut-off, dan tidak ada peningkatan kerugian。
BTC Beli & ampas; Tahan$10,146 (+1,47 per persen) dari akun pemenang strategi sederhana, melebihi Claude dan Grok, peringkat ketiga. Ironisnya: empat Øsmart" AI melewati ratusan kesepakatan, daripada " membeli dan berbohong" strategi, melakukan lebih banyak ≠ dilakukan dengan baik, strategi sederhana menghindari perdagangan yang berlebihan dan biaya yang tinggi。
Claude:strategi konservatif putaran dari +0.93% sampai -7.09% ($10.093&rr; $9.290). fees faes yang terkikis, menghasilkan keuntungan dan kerugian yang rendah (1.34:1), biaya rendah, kerugian yang lebih tinggi karena sering retrenchments, kerugian yang lebih tinggi karena kurangnya pertahanan efektif
PerancisKANTOR: Kerugian kecelakaan yang dipercepat meningkat dari -8 persen menjadi -29,7 persen ($7,030): 90,6 persen lebih dari sukses tetapi hanya 22,7 persen mencapai kerugian - $2,449, meninggalkan sedikit pokok, didukung oleh $1,611 tetapi tidak menguntungkan, setiap saat menjadi nol。
Gemini Gemini/GPTPerjuangan kematian GPT jatuh menjadi $2.749 (72.51 per sen) dan Gemini $3.446 (-65,54 per sen). Kegagalan adalah semua-melewati: over-trading, keberhasilan rendah, rasio margin/loss, risiko pengaruh tinggi。

Kedalaman dari masalah yang terungkap oleh jatuh kembali

1. ^ a b c d e f g h i j k l m n o p. Kegandaan dari " terus-menerus"

Kesuksesan DeepSeek didasarkan pada pendekatan Øswing-in": 95 persen waktu dihabiskan, dan dipercaya bahwa tren akan terus berlanjut. Dalam tren ke atas, strategi menghasilkan pengembalian tertinggi 95 persen. Tapi ketika tren terbalik, strategi yang sama harganya 30 persen。

Ini mengekspos isu kunci: Strategi susulan Trends perlu dipadankan dengan mekanisme efektif untuk menghentikan perolehan dan kerugian. *** Jika hanya "biarkan keuntungan berjalan" dan tidak "potong kerugian", sebuah pembalikan besar dapat melahap sebagian besar keuntungan。

DeepSeek mungkin terlalu yakin akan nilai "long hold", mengabaikan ketidakpastian pasar. Keuntungan maksimum tunggalnya sebesar $7.378 berasal dari kesepakatan ETH 60 jam, dan pengalaman sukses ini mungkin telah memperkuat kepercayaan jangka panjangnya. Namun, pasar keuangan bukanlah jalan satu arah, dan tren bisa terbalik kapan saja。

Kampung 2. Silo udara adalah bentuk kebijaksanaan dan perlindungan

- Qwen3 menunjukkan nilai silo dalam istilah praktis. Ini 82,4 persen waktu silo tampaknya "kehilangan kesempatan" di upswing, tetapi menjadi "menahan kerugian" pada kejatuhan。

Penarikan mundur 26 persen vs 32 persen, yang tampaknya adalah perbedaan 6 persen poin, kemungkinan meningkat di bawah efek kompaun. Yang lebih penting lagi, Qwen3 mempertahankan keuntungan yang lebih pokok dan psikologis dan, setelah pasar stabil, dapat dengan cepat membentuk kembali dirinya sendiri. Dan DeepSeek, jika ia terus mundur, bisa jatuh ke dalam lingkaran ganas dari "float-suspensif-miss-kembali"。

Kampung 3. Sangat pentingnya strategi sederhana

BTC Buy Buy & Hold bertindak sebagai tamparan pada semua Øsmart" AI. Strategi ini tidak memiliki analisis teknis, tidak ada algoritma canggih, tidak ada reposisi yang sering, tetapi sekarang peringkat ketiga, melebihi setengah model AI。

Hasil ini memberi tahu kita bahwa lebih penting untuk mengurangi kesalahan dalam transaksi daripada berbuat lebih benar. *** Gemini Gemini kehilangan 66 persen dengan 193 transaksi, BTC Buy & Hold menyelamatkan kepala sekolah dengan 0 transaksi. Siapa yang lebih sukses? Jawabannya jelas。

^ a b c d e f g h i j k l m n o p q r. Kekurangan manajemen risiko

Dengan pengecualian Qwen3, hampir semua AI telah mengungkapkan kekurangan serius dalam manajemen risiko:

DeepSeek: Tidak ada mekanisme akhir untuk menarik 130 persen keuntungan puncak menjadi 57 persen
Claude: over-reliance pada "no-do" unilateral berpikir, kurangnya pengaruh
Mengetahui bahwa tingkat keberhasilannya hanya 22,7 persen, dia bersikeras 90,6 persen lebih
GPT: 40-FOLD LEVERAGE BTC POSISI DENGAN HANYA 1,2 PERSEN TOLERANSI HARGA PENYELESAIAN
Gemini: Tak ada kontrol. 233 kesepakatan adalah seperti perjudian

HAL INI MENUNJUKKAN BAHWA MESKIPUN AI INI MAMPU "MEMBACA" DATA PASAR DAN "EXECUT" INSTRUKSI TRANSAKSIONAL, MEREKA JAUH DARI MATANG DALAM HAL INTI KOMPETENSI MANAJEMEN RISIKO。

Eksperimen Eksperimen Eksperimen Eksperimen Eksperimen Eksperimen Eksperimen: pemikiran keren melampaui data

Setelah membaca data dan analisis, kami mudah tertarik dengan 56 persen pengembalian DeepSeek atau 66 persen kehilangan Gemini. Namun sebelum menarik kesimpulan apapun, kita harus menghadapi keterbatasan sistem dari eksperimen itu sendiri, yang mungkin lebih penting dari hasil itu sendiri。

1. ^ a b c d e f g h i j k l m n o p. Jendelanya terlalu pendek: 12 hari untuk melihat kebenaran

Eksperimen tersebut hanya berlangsung selama 12 hari, dari 18 sampai 30 Oktober. Apa artinya 12 hari di pasar enkripsi? Ini mungkin hanya akord penuh。

Apa yang kita lihat adalah "up, atas, atas, atas." Ini kebetulan menjadi siklus penuh, tapi itu lebih seperti keberuntungan. Jika percobaan dimulai dari puncak pasar, atau ada "519" penurunan satu hari sebesar 30 persen, peringkat saat ini dapat sepenuhnya dibalik。

Pendapatannya mungkin sangat tergantung pada pola 12 hari. 95-95 persen dari strategi multi-salahnya adalah raja dalam kenaikan unilateral, tetapi jika terkena kejutan tiga bulan, itu akan dihapuskan dengan biaya transaksi dan stoppage berulang。

Demikian pula, 82 persen dari tingkat penyimpanan udara Qwen3 berada pada posisi terbaik di pasar kejang, tetapi pada tahun 2021 sapi gila akan kehilangan keraguan. Sebuah kota sapi BTC yang meningkat dari $10,000 menjadi $100,000, dan 80 persen waktu di gudang berarti Anda hanya mendapatkan 20 persen。

Data untuk 12 hari tidak cukup untuk menunjukkan efektivitas jangka panjang dari strategi apapun。

Kampung 2. Prommen yang sama: AIies diikat ke tangan dan kaki

Semua enam model AI menerima kerangka kerja yang sama dari data pasar dan arahan perdagangan. Ini seperti memiliki enam manajer dana membaca penelitian yang sama untuk pengambilan keputusan; itu bukan keterampilan penelitian mereka yang Anda uji, itu disiplin mereka。

di dunia nyata transaksi, alpha berasal dari asimetri informasi. dana kuantitatif tingkat atas memiliki sistem pelacakan rantai eksklusif yang memungkinkan untuk deteksi transfer paus; data pada off-site aliran pesanan besar tersedia untuk mendeteksi gerakan institusional di muka。

TAPI DALAM PERCOBAAN INI, AI MELIHAT INFORMASI YANG SAMA PERSIS. INI LEBIH SEPERTI KOMPETISI "EXECUTION" DARIPADA KOMPETISI "TAKTIS INOVASI"。

Kita tidak bisa menilai dari percobaan ini siapa yang akan menjadi pemenang nyata jika kita memberikan data eksklusif DeepSeek pada rantai, dan eksklusif Gemini di Twitter。

Kampung 3. Ukuran dana yang terdistorsi: $ 10.000 di dunia dongeng

Setiap AI hanya mengelola $ 10.000 kepala sekolah. Ini adalah jumlah yang sangat kecil uang — &mdash pada Hyperliquid; Anda dapat masuk dan keluar setiap saat, titik slide adalah neglible, kejutan likuiditas tidak ada, dan split besar tidak perlu dipertimbangkan sama sekali。

Tapi di dunia nyata transaksi kuantitatif, mengelola $ 10 juta dan mengelola $ 10.000 adalah dua spesies。

Peluang 40-ganda GPT hampir tidak layak di bawah $ 10.000, tetapi jika itu $ 10 juta & kali; 40-ganda = $ 400 juta terbuka, setiap 3 persen pembalikan akan meledak secara langsung, dan pesanan Anda sendiri akan crash pasar。
Strategi garis pendek 9.7 jam Qwen3 fleksibel dan efisien dengan dana kecil, tetapi dengan dana yang besar, biaya transaksi (sliding point plus fees) untuk setiap entri dan keluar akan memberikan strategi yang sama sekali tidak efektif. Ketika Anda membuka gudang, Anda menaikkan harga, ketika Anda meratakan harga, dan Anda menemukan diri Anda mengirim uang ke pasar。
Strategi tren DeepSeek yang sangat dipengaruhi oleh DeepSeek bisa masuk dan keluar pada $ 10.000, tetapi ketika Anda mengelola $ 1 juta, pesanan Anda akan meninggalkan tanda jelas pada kedalaman Hyperliquid, dan pedagang lain akan menatap terbalik posisi Anda。

Eksperimen ini menguji kelenturan dana kecil, bukan keteguhan strategi yang tajam。

Keberuntungan pasar lingkungan: tidak ada neraka nyata

Pasarnya relatif stabil selama percobaan, dengan tingkat volatilitas yang sedang. Kami tidak melihat

SISTEM KECELAKAAN: JENIS FTX TURUN, SEMUA CURRENCIES MENYELAM BERSAMA-SAMA, DAN LIKUIDITAS HABIS
LUNA JATUH DARI $80 MENJADI $0.001 PER JAM
Kegagalan bursa saham: Mesin 1011 dolar. Kau punya ruang, tapi kau tak bisa tenang
Penurunan likuiditas ekstrem frekuiditas: penurunan tajam di pagi hari di akhir pekan, 20% dari titik pemotongan Anda

Semua sistem kontrol angin AI tidak diuji untuk stres ekstrim, dan ini adalah tantangan nyata untuk pedagang terenkripsi. Apa yang terjadi pada mekanisme pemotongan DeepSeek ketika itu "tidak dapat membuat kesepakatan"? Kami tidak tahu. Apa gudang Qwen3 masih berfungsi saat pertukaran macet? Aku tidak tahu。

Keberuntungan, dalam percobaan 12 hari, bisa jauh lebih besar dari yang kita duga。

X. X. 5. Kebetulan percobaan tunggal: tidak ada validasi kuartal kedua

Ini adalah percobaan satu kali, dan tidak ada musim kedua untuk memverifikasi stabilitas strategi. Kita tidak bisa menilai:

Apakah DeepSeek dipimpin oleh kekuatan nyata atau kebetulan oleh orang-orang beruntung
Apakah DeepSeek berada di tempat pertama jika keenam parameter taktik AI yang akan dijalankan ulang
Akankah kedudukan akan terbalik sepenuhnya jika digantikan oleh 12 hari berikutnya dari 1 November

Sekarang, lebih seperti enam orang melempar dadu, dan DeepSeek melemparkan poin terbesar. Tapi itu tidak berarti itu lebih baik. Mungkin lebih beruntung。

Jadi, bagaimana dengan peringkat ini

Setelah melihat keterbatasan ini, Anda mungkin bertanya, "Apakah percobaan masih relevan

Ya, tapi itu tidak berarti "siapa juara." Nilai nyata eksperimen ini adalah untuk menunjukkan kepada kita:

AI DAPAT MEMBUAT KESEPAKATAN YANG NYATA - ITU ADALAH TONGGAK DALAM DIRINYA SENDIRI. SETAHUN YANG LALU KAMI MASIH MEMBAHAS APAKAH AI AKAN MENGGANTIKAN PEDAGANG, DAN SEKARANG AI TELAH MENYERAHKAN RESPONNYA PADA DISK YANG SEBENARNYA。
MANAJEMEN RISIKO YANG LEBIH PENTING DARIPADA PREDIKSI - SEMUA AI DAPAT "MEMBACA" K-LINE, TETAPI HANYA BEBERAPA YANG DAPAT MENGELOLA RISIKO. INI MENEGASKAN KEBIJAKSANAAN KUNO WALL STREET。
Strategi sederhana strategi sederhana ' s ketahanan - BTC Buy Buy & Hold 's ketiga mengingatkan kita bahwa di pasar tidak menentu, lebih sedikit kesalahan bisa lebih berharga daripada lebih。
Strategi tidak memiliki manfaat abadi - keuntungan DeepSeek hari ini mungkin perangkap besok. Lingkungan pasar telah berubah dan strategi terbaik telah berubah。

Tapi jika Anda akan meninggalkan uang Anda untuk itu karena Anda melihat DeepSeek pertama, atau Anda akan mengikuti strateginya, itu adalah kesalahan besar。

Dua belas hari juara, bukan 12 bulan juara; $10,000 juara, bukan $1.000.000 juara; dan ini lomba juara, bukan yang berikutnya。

Berinvestasi dalam hal ini tidak pernah menjadi jawaban sederhana. Eksperimen ini memberi kita data berharga, tetapi keterbatasan di balik data mungkin lebih bijaksana daripada data itu sendiri。

Data untuk periode pelaporan ini telah disunting oleh WolfDAO dan dapat diperbarui dalam kasus keraguan

Kontribusi: Riffi / WolfDao (X: @10xWolfdao)