Claude Opus 4.7: apakah itu model terkuat
Opus 4.7 adalah rilis yang tidak dimaksudkan untuk menjadi "model terbaik" sama sekali, dan itu adalah publikasi dengan perdagangan yang jelas - off, "pisau presisi" gaya。

Judul asli: "Opus 4.7 tidak ingin menjadi model terkuat: Anda tidak dapat bersaing dengan Anthropic"
Sumber asli: Silicon Starman Pro
Pada tanggal 16 April 2026, Anthropic resmi merilis Claude Opus 4.7, hanya lebih dari dua bulan dari generasi terakhir Opus 4.6。
Setelah gelombang terbaru produk intensif dan gila dan model update, Anthropic yang membuang model baru secara alami memberikan orang rasa pembesaran. Dan Anda telah melihat banyak laporan model pertama-waktu menyisir, semua yang mengacu pada Opus 4.7 sebagai "model paling kuat" -- "orang-orang sudah mati" dan "peringatan pengangguran" dan sebagainya。
Tapi mari kita lihat apa Anthropic mengirim dirinya sendiri。
Nada rilis ini tidak benar-benar normal。
Anthropic menulis langsung dalam buletin bahwa Opus 4.7 memiliki kapasitas kurang dari Claude Mythos Preview - dan Mythos hanya terbuka kepada beberapa mitra seperti Apple, Google, Microsoft, Nvidia, dan tidak tersedia untuk pengembang dan pengguna biasa。
Pada saat yang sama, apa yang lebih menarik daripada retorika nya adalah bahwa tidak hanya lebih lemah dari Mythos, sebagai legenda, tetapi juga lebih lemah daripada model generasi sebelumnya, tetapi juga dalam beberapa kemampuan kuncinya。
Opus 4.7, angka yang tidak biasa dari runout sendiri:MRCR v2 @ 1M dari 78.3% dari Opus 4.6 turun ke 32.2%46 persen penurunan tajam。
Sangat sedikit model kapal terbang mampu memotong setengah dari kemampuan mereka untuk menjadi kartu as。
Dan itulah pilihannya。
Jadi, ketika Anda melanjutkan dengan inersia otak Anda, setiap model yang pukulan itu adalah yang terkuat, itu tidak bersaing dengan irama Anthropic sendiri

bahkan tidak peduli untuk memperbaiki pencucian mobil ini
Opus 4.7 adalah publikasi yang tidak memiliki niat untuk menjadi model yang paling kuat - sebuah perdagangan yang jelas, sebuah "pisau presisi" -gaya rilis yang berbeda dari berbagai ide model produsen sebelumnya, dan arah baru yang hari ini kepala produsen akan bergerak bersama-sama ketika mereka jelas merasa bahwa model itu sendiri "lompatan besar" tidak lagi berkelanjutan - Anthropic sudah, sampai beberapa titik, selaras dengan strategi pemasaran Apple, Microsoft, dan lain-lain dari produk mereka yang sangat matang。
Mungkin di mana 4.7 benar-benar penting。
I. Kemampuan pemrograman: perbaikan nyata di balik angka
Cara terbaik untuk memahami perubahan ini lebih baik secara alami untuk melihat lebih dekat pada apa yang sebenarnya dilakukannya saat ini。
Berikut adalah kombo informasi lengkap yang Opus 4.7 rilis kali ini - di mana kemajuan telah dibuat, di mana telah hancur, apa umpan balik pertama-tangan dari pengembang, harus itu dipindahkan。
Buletin resmi:https: / / www.antropic.com / news / claude-opus -4-7
Pencapaian pemrograman Opus 4.7 adalah sumbu utama rilis ini。

Keadilan Diverifikasi(500 real GitHub issues, model perlu menulis patch yang lulus tes) dari 80.8% dari Opus 4.6 sampai 87,6%, dekat dengan 7 persen poin, adalah yang pertama dari model yang saat ini tersedia publik. Dibandingkan Gemini 3.1 Pro 80.6%, kesenjangan signifikan。
AstagaIni adalah versi yang lebih sulit, meliputi teknik lengkap Garis aliran dalam empat bahasa pemrograman. Opus 4.7 melompat dari 53.4% ke 64,3%, 11 persen poin. Dibandingkan dengan 57.7 persen GPT-54, 54.2 persen Gemini 3.1 Pro, Opus 4.7 jelas di depan benchmark ini。
Kursor BenchIni adalah standar berbasis field- dari Cursor, yang secara khusus mengukur kualitas dukungan pemrograman model dalam lingkungan IDE nyata. Opus 4.6 adalah 58%, Opus 4.7 melompat ke 70%, 12 persen poin. Pendiri utama dari Cursor, Michael Truell, dalam buletin resminya, berkata, "Ini adalah lompatan yang berarti dalam kapasitas, dengan alasan yang lebih kreatif dalam memecahkan masalah sulit"
Ukuran pasangan:
Rakuten:Opus 4.7 memecahkan tiga kali lebih banyak tugas produksi sebagai Opus 4.6, dengan peningkatan ganda-digit dalam kualitas kode dan kualitas tes
Fakta:Tingkat keberhasilan misi meningkat 10-15 persen, dan jumlah model berhenti menurun secara signifikan
Regulasi:(Devin di belakang perusahaan): Model "mungkin bekerja selama berjam-jam tanpa kehilangan garis"
CodeRabbit:Tingkat penarikan meningkat lebih dari 10%, "sedikit lebih cepat daripada GPT-5.4 xhigh"
Bolt:Pada misi pembangunan aplikasi yang lebih panjang, Opus 4.7 adalah 4.6
Aku tidak tahu Terminal- Bench 2.0:Opus 4.7 memecahkan tiga tugas yang sebelumnya tidak dapat dikelola oleh Claude Model (atau pesaing), salah satunya diperlukan multi- file penalaran di seluruh perpustakaan kode kompleks untuk memperbaiki kondisi kompetitif (kondisi ras)

Data-data ini terkonsentrasi dalam satu arah: Opus 4.7 jelas-jelas telah ditingkatkan dalam pemrograman tugas-tugas yang kompleks yang lama, jangka panjang, dokumenter silang dan membutuhkan kondisi- konsistensi konteks. Dan itulah titik di mana pengguna telah paling banyak jatuh dalam dua bulan terakhir -- ketika pekerjaan dilakukan setengah jalan, ketika mereka menghadapi beberapa file, ketika mereka tersesat。
Visualisasi: peningkatan yang paling kurang nilai dari peluncuran
Visual akurasi benchmarkXBOW MELOMPAT DARI 54,5% KE 98,5%。Ini bukan peningkatan bertahap, tapi lompatan ke depan pada tingkat rekonstruksi。
Spesifikasi perubahan tertentu:
Aku tidak tahuResolusi gambar maksimum meningkat dari sekitar 1.15 juta piksel (panjang ujung 1.568 piksel) menjadi sekitar 3.75 juta piksel (pinggiran panjang 2.576 piksel), lebih dari tiga kali generasi sebelumnya
Aku tidak tahuKoordinat model dan piksel aktual dicapai1: 1 Counterpartsebelum suatu tugas memerlukan konversi manual dari faktor penskalaan, langkah ini menghilang
Aku tidak tahuCharXiv Visual penalaran benchmark: tidak ada alat 82.1%, alat 91.0%

Apa jenis adegan ini memiliki dampak nyata pada
Untuk tim produk, peningkatan ini bisa menentukan. Penggunaan komputer Opus 4.6-era dalam keadaan "mampu tapi takut untuk menghasilkan" -- terlalu tinggi tingkat kesalahan untuk memprediksi. Sebuah akurasi visual dari 98,5 persen berarti bahwa untuk pertama kalinya fungsi ini memiliki ambang batas untuk penyebaran dapat diandalkan. Dalam evaluasi, sejumlah narablog teknis menulis: "Jika Anda mengesampingkan program penggunaan produk komputer karena frekuensi tinggi dari kesalahan Opus 4.6, 4.7 menghilangkan penghalang ini。
Umpan balik pertama-tangan di Reddit(r / ClaudeAI): Pengguna menyebutkan bahwa "peningkatan kemampuan visual terlalu kritis, dan saya telah melakukan banyak proyek marjinal sebelumnya, mencoba untuk mendapatkan model untuk meningkatkan keluaran mereka dalam siklus umpan balik visual, yang telah membingungkan dan sangat banyak untuk mengantisipasi bagaimana 4.7 dapat mengatasinya"
Selain penggunaan komputer, manfaat termasuk memindai analisis dokumen (membaca fonta lebih kecil, mengidentifikasi rincian grafik yang lebih canggih), amplifikasi pemahaman, aplikasi tipe dashboard, pemrosesan PDF kompleks。
Masalah biaya membutuhkan perhatian:gambar resolusi yang lebih tinggi mengkonsumsi lebih banyak token. jika adegan aplikasi tidak memerlukan gambar rinci, disarankan bahwa sampel diambil sebelum mereka diunggah。

III. Kemerosotan terbesar: konteks panjang telah runtuh
MRR v2 @ 1M(jutaan token context memory test):
Aku tidak tahu4.6:78.3%
Aku tidak tahu4.7:32.2 persen
Runtuhnya 46 persen, dari hampir 80 persen menjadi sepertiga。
Penurunan ini memiliki sedikit preseden dalam sejarah model flagship. MRCR v2 adalah kemampuan dari Anthropic sendiri untuk disorot di era Opus 4.6, ketika Anthropic disebut "perubahan kualitatif dalam skala massa konteks yang sebenarnya dibuat model". Dengan 4.7, "transformasi massal" ini menghilang begitu saja。
Kenapa? Tokenizer berubah。
Opus 4.7 Dengan tokenizer baru, teks masukan yang sama akan dihasilkan sekitar1.0- 1.35 Gandajumlah token, jumlah yang bervariasi menurut tipe isi。
Reaksi berantai langsung adalah:
Aku tidak tahuJENDELA KONTEKS UNTUK 200K / 1M MASIH TERSEDIA DALAM ISTILAH NOMINAL, TETAPI TEKS YANG SAMA KURANG DIMUAT
Aku tidak tahukonsumsi token aktual meningkat oleh sekitar 35 persen untuk penugasan angent aliran kerja panjang
Aku tidak tahuharga tidak berubah ($5, keluaran $25 per juta token) tapi biaya penggunaan aktual meningkat
Versi resmi dari Anthropic adalah bahwa tokenizer baru "meningkatkan efisiensi pemrosesan teks", tapi data benchmark menunjukkan regresi yang ditandai dalam konteks konteks konteks panjang。
Kemampuan pencarian juga menurun:
Aku tidak tahuBrowneComp (web in-depth access): 83.7% dari Opus 4.6
Aku tidak tahuGPT-5.4 Pro skor 89.3%, Gemini 3.1 Pro skor 85.9%, Opus 4.7 saat ini dalam model kompetisi utama Bawah
Pencarian dan teks panjang adalah adegan yang paling umum bagi banyak pengguna bisnis。
Umpan balik langsung dari pengembang di Hacker News (poster 275, komentar 215, sumber: HN diskusi):
"Untuk mematikan berpikir ofensif dan menarik upaya secara manual ke atas untuk mendapatkan saya kembali ke dasar." Penilaian internal kita tampak baik "tidak cukup, dan semua orang melihat masalah yang sama." "4.7 Default tidak lagi berisi manusia dapat dibaca token dicerna dalam keluaran, yang harus dikembalikan dengan meminta tampilan Riga: dikembalikan"
Ini adalah isu yang tercermin oleh pengguna sebenarnya. Tapi ini juga pilihan yang dibuat Anthropic pada inisiatif sendiri。
IV. Perilaku baru karakteristik: self-validasi dan lebih harfiah mengikuti instruksi
Opus 4.7 Pengumuman resmi berisi pernyataan tunggal yang layak diambil:Model memverifikasi hasilnya sebelum melaporkan hasilnya。
Tim teknis Hex memberikan kasus spesifik dalam tes: ketika data hilang, Opus 4.7 melaporkan seolah-olah data tidak ada, daripada memberikan jawaban yang tampaknya masuk akal tapi sebenarnya adalah fiktif - yang terakhir adalah lubang di mana Opus 4.6 melangkah. Platform teknologi finansial, Blok, adalah tentang mengatakan, "Ini dapat mendeteksi kesalahan logisnya sendiri pada tahap perencanaan, mempercepat implementasi, dan kecepatan model Claude tua"
Tapi sertifikasi diri membawa perubahan perilaku lain yang terkait: interpretasi Opus 4.7 tentang perintah lebih harfiah。
Ini adalah risiko migrasi penting. Jika Anda telah ditarik dengan hati-hati prompt, 4.7 untuk Opus 4.6, itu mungkin tidak "membaca" seperti 4.6, tapi itu dilakukan secara ketat sesuai dengan apa yang Anda tulis. Antropik secara eksplisit menyebutkan ini dalam panduan migrasi resmi, menunjukkan bahwa prompt kunci diuji untuk regresi sebelum online 4.7。
Sebuah nomor referensi fungsional dari CTO di Hex:Opus 4.7 untuk usaha rendah, kinerja kira-kira sama dengan Opus 4.6 untuk upaya menengah。
v. eliminasi control mechanims: xheigh, tugas bug dan / ultraeview
Opus 4.6 Ada peristiwa yang mempengaruhi kepercayaan pengguna: 9 Februari ke model default untuk berpikir adaptif, 3 Maret resmi pergeseran kedalaman penalaran baku Claude Code dari atas ke mediaium pada alasan "keseimbangan antara kecerdasan, penundaan, biaya". Hal ini disebut oleh pengguna sebagai "Deceptive Gate", dan pertanyaan dari direktur senior di GitHub telah banyak ditransmisikan。
Opus 4.7 menanggapi dengan memberikan kontrol atas kedalaman penalaran lebih terlihat kepada pengguna。
usaha xhighTingkat baru dari kekuatan penalaran, antara tinggi dan maksimal. Claude Code kini telah memperbarui semua slot bawaan yang direncanakan ke xheigh。
Tapi komunitas pengembang memiliki pertanyaan langsung tentang xheigh, dan kata asli pengguna Reddit adalah: "Opus 4.6 Baku adalah medium, 4.7 Default adalah xheigh. Saya ingin tahu apa yang terjadi di balik keputusan ini, karena jelas bahwa peningkatan dalam berkas upaya akan menyebabkan konsumsi lebih banyak token"
dengan kata lain, pengguna melihat "return control to the user" fix, tetapi berkas baku sebenarnya terangkat, berarti bahwa tugas yang sama ditetapkan untuk membakar lebih banyak token. tambahkan perubahan tokenizer, yaitu peningkatan biaya ganda。
bug tugasMekanisme pengendalian anggaran Token untuk misi panjang. Pengembang mengatur total anggaran token (minimum 20K), yang memungkinkan model untuk melihat jumlah yang tersisa secara real time selama implementasi, dengan demikian mengalokasikan sumber daya, menghindari berhenti sampai setengah karena token overspend dan mencegah limbah komputasi yang tidak perlu。
Claude Code menambahkan perintah / ultraeview:Sesi tinjauan kode khusus, menjalankan tinjauan in-depth fokus pada bug pencarian dan masalah desain, dan pengguna Pro dan Max memberi mereka tiga kali bebas sebulan。
mode otomatis terbuka bagi pengguna Max:Sebelumnya hanya dalam program Enterprise, sekarang pengguna Max dapat menggunakannya. Claude bebas untuk membuat keputusan dan mengurangi jumlah pertanyaan kepada pengguna. Pemimpin tim Claude Boris Cherny berkata, "Berikan Claude sebuah misi, biarkan dia lari, kembali dan lihat apa yang terjadi"
Dimana harus menang, di mana harus kalah
Berikut ini adalah data baseline utama yang saat ini tersedia (sumber: kartu sistem anthropic dan penilaian mitra)。
Pemrograman dan Teknik (Opus 4.7 memimpin)

Visual dan multi- modular (Opus 4.7 sejauh ini)

Kerja pengetahuan (Opus 4.7 memimpin)

Penilaian komprehensif (Opus 4.7 jelas di atas langkah)

Alasan umum (tiga flat dasar)

Benchmark ini telah jenuh dan tidak lagi air yang efektif kompetitif。
Tugas penelitian (GPT-54 lead, Opus 4.7 retreat)

Konteks panjang (Regresi substansial Opus 4.7)

Merangkum logika seleksi: empat bidang pemrograman, agen teknik, visual, ilmu pengetahuan finansial, Opus 4.7 memiliki keuntungan yang jelas; misi insensif dan pencarian web terbuka GPT-5.4 lebih kuat; dan dalam konteks konteks, Opus 4.7 jauh lebih sedikit dari sebelumnya, titik paling mengkhawatirkan。
VII. Pagar keamanan: batu beraspal Mythos
Bagian ini dapat dengan mudah digunakan sebagai "pernyataan rutin keamanan" dalam rilis, tapi itu adalah kunci untuk memahami strategi Anthropic saat ini。
Pada 7 April, Anthropic mengumumkan Proyek Glasswing: Membuka Claude Mythos Preview ke Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JP Morgan Chase dan Broadcom rekan-rekan yang didedikasikan untuk skenario keamanan cyber defensif。
Mythos adalah model paling kuat dari Anthropic sejauh ini, dan menurut The Hacker News, ia mampu mendeteksi lubang zero- hari pada dirinya sendiri dan menemukan ribuan lubang sebelumnya tidak diketahui dalam sistem operasi utama dan browser. Namun, justru karena kemampuan ini, juga telah ditemukan untuk membawa risiko signifikan penyalahgunaan dan tidak tersedia secara terbuka。
Opus 4.7 adalah sampel tes pertama pada baris ini。Pada tahap pelatihan, Anthropic mengambil inisiatif untuk mengurangi kemampuan serangan cyber model (sambil mempertahankan kemampuan pertahanannya) dan online dengan sistem keamanan waktu untuk mendeteksi dan mencegat permintaan keamanan jaringan tinggi risiko. Teks buletin: "Kami akan belajar dari penyebaran yang sebenarnya dari Opus 4.7 tentang efektivitas pagar dan kemudian memutuskan apakah untuk memperpanjang ke Mythos"
Dengan kata lain, setiap pengembang menggunakan Opus 4.7 membantu Anthropic untuk mematikan pagar keamanan。
Evaluasi Gizmodo:Peluncuran mengadopsi strategi "Strategi Pemasaran Tebal - Proaktif Promosi model baru-pekerja" Dengan kemampuan yang kurang umum daripada pilihan lain, yang jarang dalam rilis pesawat terbang。
Para praktisi keamanan yang perlu menggunakan Opus 4.7 untuk tes penetrasi hukum, studi kesenjangan atau tes tim merah perlu diterapkan untuk Program Verifikasi Cyber。
VIII. Harga dan migrasi: tidak ada perubahan dalam istilah nominal, peningkatan nyata
Harga:Masukkan $5 juta token, keluaran $25 / juta token, sama seperti Opus 4.6. ID model API adalah claude-opus -4-7. Platform tersedia termasuk Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundation, GitHub Copilot juga on line。
tapi, seperti yang disebutkan sebelumnya, perubahan tokenizer membuat perkiraan masukan yang sama1.0- 1.35gandakan jumlah token, menggantikan pemikiran default yang lebih tinggi di bawah token slot usahaBiaya sebenarnya untuk sebuah misi panjang arus kerja angent mungkin 2- 3 kali pengaturan yang sama di Opus 4.6。
Anthropic juga mengurangi singgahan Claude Code dari satu jam sampai lima menit -- Ini berarti bahwa jika Anda meninggalkan komputer selama lebih dari lima menit dan kembali, cache konteks akan gagal, Anda harus reload, dan token akan mengkonsumsi lebih cepat. Komunitas Reddit sudah memiliki banyak pengguna yang "terbakar lebih cepat daripada jatuh"。
Daftar perubahan destruktif bagi pengguna Opus 4.6 yang ada:
Extended Thinking Budgets Parameter dihapus, dikirim kembali 400 kesalahan, perlu diubah ke mode berpikir maju
2. sampling parameter seperti suhu (suhu), top p, top k telah dihapus dan kontrol keluaran diperlukan dengan mendorong
Perintah berdasarkan teks stricter berikut - prompt yang diubah untuk Opus 4.6 perlu diuji ulang dan tidak dapat diganti secara langsung dengan ID model on line
4 tokenizer berubah hasilnya dalam jumlah perubahan token, dan disarankan untuk menjalankan sampel pada lalu lintas nyata sebelum migrasi penuh
keluaran baku tidak lagi berisi ringkasan token penalaran dan membutuhkan pengaturan terlihat untuk mendapatkan kembali
Rekomendasi praktis:Panduan migrasi resmi Anthropic merekomendasikan bahwa switch run resmi Opus 4.7 dengan perwakilan produksi mengalir sebelum memutuskan pada konsumsi token dan kualitas misi。
Ini cara yang paling menakutkan untuk melepaskan pisau yang tepat
Opus 4.7 adalah upgrade dengan target arah yang jelas dan upgrade pada biaya yang jelas. Dan ini semua desain Anthony, dan Anda harus membayar untuk mereka untuk tingkat yang besar。
Di sisi progresif dari model ini:
Aku tidak tahu87.6% dari bangku SWE-terverifikasi, 64.3% dari bangku SWE- Pro, 70% dari Cursor Bench, 3 kali tugas Rakuten - Ini adalah peningkatan program yang dirasakan dalam lingkungan produksi
Aku tidak tahuPembangunan ulang visual (XBOW 54,5% 98,5%, resolusi 3 kali, pixel 1: 1), memungkinkan untuk pertama kalinya ambang batas untuk penyebaran dapat diandalkan
Aku tidak tahuxhigh, tsk buttons, / ultraeview, adalah respon yang terlihat untuk "truktur"
Aku tidak tahuHukum Besar 90.9 persen, Otoritas Keuangan 64,4 persen, dengan petunjuk yang jelas dalam keahlian seperti hukum keuangan
Menyerahlah:
Aku tidak tahuMRCR v2 @ 1M dari 78.3% ke 32.2%, dengan hampir setengah kemampuan konteks
Aku tidak tahuBrownecomp dijatuhkan dari 83.7% menjadi 79.3%, dan kemampuan pencarian dua kali melewati GPT-54 dan Gemini 3.1 Pro
Aku tidak tahutokenizer Ubah + Default Upaya tinggi + Cache TTL Pendek = Triple Invisible Price Invisible Increase
Aku tidak tahuMythos terus menekan, yang berarti Anthropic masih memiliki kartu yang lebih besar tapi tidak bisa melakukannya
Kali ini, yang sebenarnya bukan "model terkuat" atau "model terbuka terkuat" tapi:Satu dengan perdagangan yang jelas。
Berita terbaru adalah bahwa Claude Code apos; s pendapatan pembatalan pada Februari telah mencapai $2,5 miliar. Opus 4.7 adalah taruhan berikutnya di baris ini。
Pemrograman dan visualisasi ditambahkan, konteks panjang dan pencarian berkurang, dan harga tetap nominal tapi tagihan meningkat. Anthropic menyeimbangkan dengan Opus 4.7 - baik untuk memperbaiki kerusakan kepercayaan yang tersisa dari Opus 4.6 dan untuk melakukan latihan pagar keamanan lapangan untuk masa depan yang lebih besar model kelas Mythos-. Dan, yang lebih penting, perlu mengambil keuntungan penuh dari memimpin itu di hari ini, mengubah preferensi pengguna untuk produk-produk itu menjadi inersia yang tetap diperlukan untuk generasi produk, bahkan jika mereka cacat, dan kemudian membangun viseralitas penuh kasih dan kebencian seperti apel, dan benar-benar berharga ekologi。
