Kejuaraan Model AI: Pemandangan yang dalam berdasarkan kontes vas nof1

Pada tanggal 18 Oktober, Laboratorium Penelitian AI, berfokus pada pasar keuangan, Nof1, meluncurkan sebuah percobaan yang belum pernah terjadi sebelumnya: enam percobaan dunia atas model AI & mdash; & mdash; GPT-5, Gemini 2,5 Pro, Grok-4, Claude Sonet 4.5, DeepSeek V3.1, Qwen3 Max & mdash; & mdash; mengelola dana real $10.000 masing-masing dalam transaksi Hiperfluction。

Nilai peringkat dan akun saat ini: pada malam 30 Oktober, peringkat terbaru adalah sebagai berikut:

DeepSeek Chat V3.1: $15,671.39 (+ 56.71%)
Qwen3 Max: $12,520.34 (+ 25.20%)
BTC Beli & amp; Tahan: $10,146.69 (+ 1.47%)
Claude Sonet 4.5: $9.290.97 (-7.09%)
Gok 4: $7.030.02 (-29.70%)
Gemini 2,5 Pro: $3.446.03 (-65.54%)
GT 5: $2.749.32 (72.51 PER PERSEN)

Daftar ini menunjukkan perubahan dramatis dari data beberapa hari yang lalu. DeepSeek, sementara masih memimpin, menarik secara signifikan dari 95.71 persen ke 56.71 persen, dan nilai rekening jatuh dari $19,570 ke $15,671, menguap hampir $4.000. Qwen3 juga mengalami retret dari 53.68 persen menjadi 25.20 persen. Lebih penting lagi, Claude Sonet 4.5 berubah dari mikro- bunga menjadi kehilangan 7 persen, sementara kerugian GPT 5 meningkat menjadi 72 persen, yang tidak lagi jauh dari gudang ledakan。

Memahami pasar dari kurva: evolusi dari tiga fase

Tahap I (18- 25 Oktober): peningkatan periode, awal perpecahan strategis

Pasar berada di jalur ke atas, dan perbedaan strategi antara model yang berbeda mulai muncul:

DeepSeek: meningkat cepat dari $10.000 menjadi $17.000, trending kapasitas penangkapan
Qwen3 (: peningkatan stabil menjadi $12,000 - 15.000
Claude / Grok:
Gemini / GPT: $5.000 telah jatuh dan biaya dan keputusan yang salah telah menyebabkan hilangnya tim

Tahap II (26-28 Oktober): mempercepat peningkatan dan puncak

DeepSeek pergi ke puncak: terobosan $23.000 pada 27 Oktober mencapai 130 persen kembali dalam waktu 9 hari. Ada sejumlah besar ETH, SOL, 10- 15 kali leverage。
Qwen3 menahan diri: puncak $17.000, peningkatan sedang. 82.4 persen dari kecepatan menahan udara memungkinkan untuk memilih waktu dan menghindari pemulihan。
Claude / Goyangkan ayunan: Pada 11.000- 13.000 kejutan, taktik bertentangan & mdash; & mdash; ingin berpartisipasi tetapi tidak terlalu ditentukan。
Gemini / Pintu keluar: rekening jatuh menjadi $3.000- $4.000 dan sebagian besar kehilangan kemungkinan berbalik。

Tahap III (29-30 Oktober):

DeepSeek:Pemecah Kliff- jatuh dari $23.000 menjadi $15,671, dengan kehilangan $7.000 (-30 persen) selama dua hari: mekanisme tak berujung, tanpa keuntungan di puncak. 95.6 persen melakukan lebih dari waktu, tidak ada pagar dan tidak ada halaman berhenti tepat waktu. Meskipun mundur 30 persen, itu di depan tempat kedua sebesar $3.000, dengan keuntungan yang kuat。
Qwen3Mendemonstrasikan ketahanan, mundur dari $17.000 ke $12.520 (26 persen), di bawah DeepSeek, 82.4 persen tingkat udara, tingkat laju cepat dari lapangan, perdagangan pendek (rata-rata 9.7 jam), waktu singkat, potongan cepat, dan tidak ada peningkatan kerugian。
BTC Beli & amp; Tahan$10,146 (+ 1.47 persen) dari strategi sederhana yang menang account, melebihi Claude dan Gok, peringkat ketiga. Ironisnya: empat "smart" AIs pergi melalui ratusan kesepakatan, daripada "buy and lie" strategi, melakukan lebih banyak & ne; dilakukan dengan baik, strategi sederhana menghindari perdagangan berlebihan dan biaya tinggi。
Claudestrategi konservatif menurun dari + 0.93% ke -7.09% ($10,093 & rr; $9.290). kaki yang terkikis, menghasilkan keuntungan dan kerugian yang rendah (1.34: 1), biaya yang rendah, kerugian yang lebih tinggi karena penggerutuan sering, kerugian yang lebih tinggi karena kurangnya pertahanan efektif
Gok: kerugian percepatan meningkat dari -8 persen menjadi -29.7 persen ($7.030): 90.6 persen lebih sukses tapi hanya 22.7 persen mencapai kerugian - $2.449, meninggalkan sedikit kepala sekolah, didukung oleh $1.611 tetapi tidak menguntungkan, setiap saat ke nol。
Gemini / GPTPerjuangan kematian GPT jatuh menjadi $2.749 (72.51 persen) dan Gemini $3.446 (-65.54 persen). Kegagalan meliputi: over- trading, keberhasilan rendah, rasio margin / loss, resiko leverage tinggi。

Kedalaman masalah diungkapkan oleh fallback

1. Dualitas dari "kontinyu"

Keberhasilan DeepSeek didasarkan pada pendekatan "swingin-in": 95 persen dari waktu dihabiskan, dan diyakini bahwa tren akan terus berlanjut. Dalam tren ke atas, strategi menghasilkan pengembalian tertinggi 95 persen. Tetapi ketika tren terbalik, strategi yang sama biaya 30 persen。

Ini mengekspos masalah kunci: * * Strategi berikut-up perlu dicocokkan dengan mekanisme efektif untuk menghentikan keuntungan dan kerugian. * * Jika saja "membiarkan keuntungan berjalan" dan tidak ada "kerugian memotong", pembalikan besar bisa melahap sebagian besar keuntungan。

DeepSeek mungkin terlalu yakin dari nilai "jangka panjang", mengabaikan ketidakpastian pasar. Satu keuntungan maksimum dari $7.378 berasal dari kesepakatan ETH 60 jam, dan pengalaman sukses ini mungkin telah memperkuat keyakinan lama terkabut. Namun, pasar keuangan bukanlah jalan satu arah, dan tren dapat berbalik setiap saat。

2. Udara silos adalah bentuk kebijaksanaan dan perlindungan

Qwen3 menunjukkan nilai silo dalam istilah praktis. Its 82.4 persen waktu silo tampaknya "hilang kesempatan" di upswing, tapi itu menjadi "menghindari kehilangan" di kejatuhan。

Penarikan 26 persen vs 32 persen, yang tampaknya menjadi 6 persen titik perbedaan, cenderung untuk meningkatkan di bawah efek kompon. Yang lebih penting lagi, Qwen3 mempertahankan lebih banyak keuntungan utama dan psikologis dan, setelah pasar stabil, ia dapat dengan cepat membangun kembali dirinya sendiri. Dan DeepSeek, jika dia terus mundur, bisa jatuh ke dalam lingkaran setan dari "float-suspensi-miss-back"。

3. Vitalitas strategi sederhana

BTC Beli & amp; Tahan tindakan sebagai tamparan pada semua "pintar" AI. Strategi ini tidak memiliki analisis teknis, tidak ada algoritma canggih, tidak sering reposisi, tapi sekarang peringkat ketiga, melebihi setengah model AI。

Hasil ini memberitahu kita bahwa lebih penting untuk membuat lebih sedikit kesalahan dalam transaksi daripada melakukan lebih benar. * * Gemini kehilangan 66 persen dengan 193 transaksi, BTC Buy & amp; Tahan menyelamatkan kepala sekolah dengan 0 transaksi. Siapa yang lebih sukses? Jawabannya sudah jelas。

4. Kurangnya manajemen risiko

Dengan pengecualian Qwen3, hampir semua AI telah mengungkapkan kekurangan serius dalam manajemen risiko:

DeepSeek: Tidak ada akhir-gain mekanisme untuk menarik 130 persen puncak memperoleh ke 57 persen
Claude: over- ketergantungan pada "no- do" pemikiran sepihak, kurangnya leverage
Mengetahui bahwa tingkat keberhasilan hanya 22.7 persen, ia bersikeras pada 90.6 persen lebih
GPT: POSISI LEVERAGE BTC 40 KALI DENGAN TOLERANSI HARGA SEBESAR 1,2 PERSEN
Gemini: Tidak ada kontrol. 193 transaksi seperti judi

HAL INI MENUNJUKKAN BAHWA SEMENTARA AIS INI DAPAT "MEMBACA" DATA PASAR DAN "EKSEKUTIF" INSTRUKSI TRANSKASIONAL, MEREKA JAUH DARI DEWASA DALAM HAL KOMPETENSI INTI MANAJEMEN RISIKO。

Batas percobaan: pemikiran keren di luar data

Setelah membaca data dan analisis, kita dengan mudah tertarik untuk 56 persen pengembalian DeepSeek atau 66 persen hilangnya Gemini. Tapi sebelum menarik kesimpulan apapun, kita harus menghadapi keterbatasan sistemik percobaan itu sendiri, yang mungkin lebih penting daripada hasil sendiri。

1. Jendela terlalu pendek: 12 hari untuk melihat kebenaran

Percobaan itu berlangsung hanya 12 hari, dari 18 sampai 30 Oktober. Apa artinya 12 hari di pasar enkripsi? Ini mungkin hanya chord penuh-ditiup。

Apa yang kita lihat adalah "naik, naik, naik, naik". Ini terjadi menjadi siklus penuh, tapi lebih seperti keberuntungan. Jika percobaan ini dimulai di atas pasar, atau ada "519" per hari dari 30 persen, peringkat saat ini bisa benar-benar terbalik。

56 persen pendapatan DeepSeek mungkin sangat tergantung pada pola 12 hari. Sembilan puluh lima persen dari strategi multi- bercabang adalah raja dalam kenaikan unilateral, tetapi jika dipukul oleh kejutan tiga bulan, itu akan dihapuskan oleh biaya transaksi dan stoppages berulang。

Demikian pula, 82% dari tingkat penyimpanan udara Qwen3 adalah posisi terbaik di pasar kejang, tapi di tahun 2021 sapi gila itu akan hilang keraguan. Sebuah kota sapi BTC yang naik dari $10.000 menjadi $100.000, dan 80 persen dari waktu di gudang berarti Anda hanya mendapatkan 20 persen。

Data selama 12 hari tidak cukup untuk menunjukkan efektivitas jangka panjang dari strategi apapun。

2. Prompt yang sama: AIs terikat pada tangan dan kaki

Semua enam model AI menerima kerangka kerja yang sama data pasar dan petunjuk perdagangan. Ini seperti memiliki enam manajer keuangan membaca penelitian yang sama untuk keputusan-keputusan; itu bukan keterampilan penelitian mereka bahwa Anda menguji, itu disiplin mereka。

dalam dunia nyata transaksi, alpha berasal dari informasi asimetris. dana atas tingkat kuantitatif memiliki sistem pelacakan rantai eksklusif yang memungkinkan untuk mendeteksi transfer ikan paus; data di off- situs besar urutan tersedia untuk mendeteksi gerakan institusional di muka。

TAPI DALAM PERCOBAAN INI, AI MELIHAT INFORMASI YANG SAMA PERSIS. INI LEBIH SEPERTI "KOMPETISI EKSEKUSI" DARIPADA "KOMPETISI INOVASI TAKTIS"。

Kita tidak bisa menilai dari percobaan ini yang akan menjadi pemenang nyata jika kita memberikan data eksklusif DeepSeek pada rantai, dan Gemini eksklusif di Twitter。

3. Ukuran dananya terdistorsi: $10.000 di dunia dongeng

Setiap AI hanya mengelola $10.000 kepala sekolah. Ini adalah jumlah yang sangat kecil uang & mdash; & mdash pada Hiperfluction; Anda dapat masuk dan keluar setiap saat, titik slide diabaikan, kejutan likuiditas tidak ada, dan perpecahan besar tidak perlu dipertimbangkan sama sekali。

Tapi di dunia nyata transaksi kuantitatif, mengelola $10 juta dan mengelola $10.000 adalah dua spesies。

Pengaruh GPT 40 kali hampir tidak bisa bertahan di bawah $10.000, tapi jika itu $10 juta & kali, 40 kali lipat = $400 juta terbuka, setiap 3 persen pembalikan akan meledak langsung, dan pesanan Anda sendiri akan crash pasar。
Strategi singkat 9,7-hour Qwen3 fleksibel dan efisien dengan dana kecil, tetapi dengan dana besar, biaya transaksi (poin geser ditambah biaya) untuk setiap entri dan keluar akan membuat strategi sama sekali tidak efektif. Ketika Anda membuka gudang, Anda menaikkan harga, ketika Anda meratakan harga, dan Anda menemukan diri Anda mengirim uang ke pasar。
Strategi tren DeepSeek yang sangat dimanfaatkan bisa masuk dan keluar pada $10.000, tetapi ketika Anda mengelola $1 juta, pesanan Anda akan meninggalkan tanda yang jelas pada kedalaman Hiperflute, dan pedagang lain akan menatap balik posisi Anda。

Percobaan ini diuji fleksibel dana kecil, bukan kerumitan strategi skalabilitas。

Lingkungan pasar yang beruntung: tidak ada neraka nyata

Pasar relatif stabil selama percobaan, dengan tingkat yang sedang volatilitas. Kami tidak melihat:

SISTEM CRASH: JENIS FTX TURUN, SEMUA MATA UANG MENYELAM BERSAMA-SAMA, DAN LIKUIDITAS HABIS
LUNA JATUH DARI $80 MENJADI $0.0001 PER JAM
Kegagalan pertukaran: Mesin 1011 dolar. Kau punya ruang, tapi kau tak bisa tenang
Kehabisan likuiditas ekstrim: penurunan tajam di pagi hari di akhir pekan, 20% dari potongan potongan Anda titik off

Semua sistem kontrol angin AI tidak diuji untuk stres ekstrim, dan ini adalah tantangan nyata untuk pedagang terenkripsi. Apa yang terjadi dengan mekanisme pemotongan DeepSeek ketika "tidak mampu membuat kesepakatan"? Kami tidak tahu. Apa gudang Qwen3 masih berfungsi saat pertukaran terjadi? Aku tidak tahu。

Keberuntungan, dalam percobaan 12 hari, bisa lebih besar dari yang kita duga。

5. Kebetulan percobaan tunggal: tidak ada validasi kuartal kedua

Ini adalah percobaan satu kali, dan tidak ada musim kedua untuk memverifikasi stabilitas strategi. Kita tidak bisa menghakimi:

Apakah DeepSeek dipimpin oleh kekuatan nyata atau secara kebetulan oleh orang-orang beruntung
Apakah DeepSeek berada di tempat pertama jika enam AI 's parameter taktis yang akan dialihkan
Apakah peringkat akan benar-benar terbalik jika diganti oleh 12 hari ke depan dari 1 November

Sekarang, itu lebih seperti enam orang melemparkan dadu, dan DeepSeek adalah melemparkan poin terbesar. Tapi bukan berarti itu lebih baik. Mungkin lebih beruntung。

Jadi, apa yang kita pikirkan tentang peringkat ini

Setelah melihat keterbatasan ini, Anda mungkin bertanya, "Apakah percobaan masih relevan

Ya, tapi itu tidak berarti "siapa juaranya". Nilai sebenarnya dari percobaan ini adalah untuk menunjukkan kepada kita:

AI DAPAT MEMBUAT KESEPAKATAN YANG NYATA -- ITU ADALAH TONGGAK ALAM. SETAHUN YANG LALU KAMI MASIH MEMBAHAS APAKAH AI AKAN MENGGANTIKAN TRADER, DAN SEKARANG AL TELAH MENYERAHKAN TANGGAPAN PADA DISK YANG SEBENARNYA。
MANAJEMEN RESIKO LEBIH PENTING DARIPADA PREDIKSI - SEMUA AI DAPAT "MEMBACA" BARIS K, TETAPI HANYA SEDIKIT YANG DAPAT MENGELOLA RISIKO. INI MENEGASKAN KEBIJAKSANAAN KUNO WALL STREET。
Strategi sederhana 's ketahanan - BTC Buy & amp; Hold' s ketiga mengingatkan kita bahwa di pasar yang tidak pasti, sedikit kesalahan bisa lebih berharga daripada lebih。
Strategi ini tidak memiliki manfaat abadi keuntungan DeepSeek hari ini mungkin perangkap besok. Lingkungan pasar telah berubah dan strategi terbaik telah berubah。

Tetapi jika Anda akan meninggalkan uang Anda untuk itu karena Anda melihat DeepSeek pertama, atau Anda akan mengikuti strateginya, itu adalah kesalahan besar。

Dua belas hari juara, bukan 12 bulan juara; $10.000 juara, bukan $1.000.000 juara, dan ini ras juara, bukan berikutnya。

Berinvestasi dalam hal ini belum pernah jawaban sederhana. Eksperimen ini memberi kita data berharga, tapi keterbatasan di belakang data mungkin lebih bijaksana daripada data sendiri。

Data untuk periode pelaporan ini telah diedit oleh WolfDAO dan dapat diperbarui jika ada keraguan

Konsep: Riffi / WolfDao (X: @ 10xWolfdao)