Litecoin

Apakah itu model terkuat

2026/04/18 03:17
🌐ms

Ofous 4.7 adalah rilis yang tidak dimaksudkan untuk menjadi modelmodel terbaik" sama sekali, dan merupakan publikasi dengan trade-off yang jelas, sebuah "precision pisau" gaya。

Apakah itu model terkuat
Judul asli: "Opus 4.7 tidak ingin menjadi model terkuat: Anda tidak dapat bersaing dengan Anthropic"
Sumber asli: Silicon Starman Pro

Pada 16 April 2026, Anthropic resmi merilis Claude Opus 4.7, hanya lebih dari dua bulan dari generasi terakhir Opus 4.6。

Setelah gelombang terbaru produk intensif dan gila dan model update, Anthropic yang membuang model baru secara alami memberikan orang rasa pembesaran. Dan Anda telah melihat banyak laporan model pertama kali yang menyisir, yang semuanya menyebut Opus 4.7 sebagai model yang paling kuat" -- orang-orang sudah mati" dan " peringatan pengangguran" dan sebagainya。

Tapi mari kita lihat apa yang Anthropic kirim sendiri。

Nada dari rilis ini tidak benar-benar normal。

Anthropic menulis langsung di buletin bahwa Opus 4.7 memiliki kapasitas yang kurang dari Claude Mythos Preview - dan Mythos terbuka hanya untuk beberapa mitra seperti Apple, Google, Microsoft, Nvidia, dan tidak tersedia untuk pengembang dan pengguna biasa。

Pada saat yang sama, yang lebih menarik daripada retorikanya adalah bahwa tidak hanya lebih lemah daripada Mythos, sebagai legenda, tetapi juga lebih lemah daripada model generasi sebelumnya, tetapi juga dalam beberapa kemampuan kuncinya。

Opus 4,7, sebuah angka luar biasa dari pelariannya sendiri:MRCR v2@1M dari 78,3% dari Opus 4,6 turun menjadi 32,2%persentase persentase persentase persentase persentase penurunan tajam。

Amat sedikit model kapal bendera mampu memotong setengah dari kemampuan mereka untuk menjadi ace。

Dan itulah pilihannya。

Jadi, ketika Anda melanjutkan dengan inertia otak Anda, setiap model yang pukulan itu adalah yang terkuat, itu tidak bersaing dengan irama Anthropic sendiri

ini bahkan tidak peduli untuk memperbaiki cucian mobil ini

Opus 4.7 adalah publikasi yang tidak memiliki niat untuk menjadi model " yang paling kuat" – sebuah trade-off yang jelas, sebuah "precision pisau" gaya rilis yang berbeda dari berbagai ide produsen model kepala sebelumnya, dan arah baru yang sekarang produsen kepala akan secara kolektif bergerak ketika mereka dengan jelas merasa bahwa model itu sendiri’kelompatan besar" tidak lagi berkelanjutan – Antropik sudah, sampai batas tertentu, sejajar dengan strategi pemasaran Apple, Microsoft, dan lain-lain pada tahap produk mereka yang sangat matang。

Ini mungkin di mana 4,7 benar-benar penting。

Kapasitas pemrograman: peningkatan nyata di balik angka

Cara terbaik untuk memahami perubahan ini dengan lebih baik adalah secara alami untuk mencermati apa yang sebenarnya dilakukan saat ini。

Ini adalah kombo informasi lengkap yang dirilis oleh Opus 4.7 kali ini -- di mana kemajuan telah dibuat, di mana telah hancur, apa yang merupakan umpan balik pertama dari pengembang, haruskah itu dipindahkan。

Buletin resmi:https://www.antropic.com/news/claude-opus-4-7

Pencapaian pemrograman dari Opus 4.7 adalah sumbu utama dari rilis ini。

Diverifikasi oleh SWE-benchVodana (500 isu GitHub nyata, model perlu menulis patch yang lulus ujian) dari 80,8% Opus 4,6 hingga 87,6%, dekat dengan 7 poin persentase, adalah yang pertama dari model yang tersedia publik saat ini. Dibandingkan dengan Gemini 3.1 Pro 80.6%, kesenjangannya signifikan。

SWARNE-bench ProIni adalah versi yang lebih sulit, meliputi jalur aliran rekayasa lengkap dalam empat bahasa pemrograman. Arondisemen Opus 4.7 melonjak dari 53.4% ke 64.3%, 11 persentase poin. Dibandingkan dengan 57,7 persen GPT-54, 54,2 persen Gemini 3.1 Pro, Opus 4.7 jelas mendahului benchmark ini。

Kursor BenchIni adalah benchmark berbasis lapangan dari Cursor, yang secara khusus mengukur kualitas dukungan pemrograman dari model dalam lingkungan IDE nyata. Opus 466 adalah 58%, Opus 4,7 melompat ke 70%, 12 persen poin. Ini adalah lompatan yang berarti dalam kapasitas, dengan penalaran yang lebih kreatif dalam memecahkan masalah sulit."

Pengukuran mitra:

Rakuten:Opus 4.7 diselesaikan tiga kali lebih banyak tugas produksi sebagai Opus 4.6, dengan peningkatan double digit dalam kualitas kode dan kualitas tes

Fakta:Tingkat keberhasilan misi penerbangan meningkat 10-15 persen, dan jumlah model berhenti menurun secara signifikan

Regulasi(Devin belakang perusahaan): Model model "mungkin bekerja berjam-jam tanpa kehilangan garis."

• CodeRabbit:Laju recall meningkat lebih dari 10%, " sedikit lebih cepat dari GPT-5,4 xhigh"

Bolt:Opus 4.7 adalah 4.6

Aku tidak tahu Terminal-Bench 2.0:Opus 4.7 menyelesaikan tiga tugas yang sebelumnya tidak dikelola oleh Claude Model (atau pesaing), salah satunya membutuhkan penalaran multi-berkas di seluruh kompleks perpustakaan kode untuk memperbaiki kondisi kompetitif (kondisi balap)

Data-data ini terkonsentrasi dalam satu arah: Opus 4.7 telah jelas ditingkatkan dalam tugas-tugas pemrograman kompleks yang jangka panjang, lintas-dokumenter dan membutuhkan konsistensi konteks. Dan itulah titik di mana pengguna telah turun paling banyak dalam dua bulan terakhir -- ketika pekerjaan dilakukan setengah jalan, ketika mereka menghadapi beberapa berkas, ketika mereka tersesat。

Visualisasi: peningkatan yang paling dinilai paling rendah dari peluncuran

Tanda aras akurasi visual untuk akuratXBOW XBOW MELOMPAT DARI 54,5% KE 98,5%。Ini bukan perbaikan bertahap, tetapi lompatan ke depan pada tingkat rekonstruksi。

Perubahan spesifikasi khusus:

Aku tidak tahuResolusi gambar maksimum ultimatum meningkat dari sekitar 1,15 juta piksel (pinggir panjang 1.568 piksel) menjadi sekitar 3,75 juta piksel (pinggir panjang 2.576 piksel), lebih dari tiga kali generasi sebelumnya

Aku tidak tahuModel koordinat dan piksel aktual dicapaiNEGERI 1:1sebelum tugas membutuhkan konversi manual faktor skala, langkah ini menghilang

Aku tidak tahuBenchmark penalaran Visual CharXiv: tidak ada alat 82,1%, alat 91,0%

Adegan macam apa ini berdampak nyata

Untuk tim produk, upgrade ini bisa menentukan. Opus 4.6-era penggunaan komputer berada dalam keadaan "mampu tetapi takut untuk menghasilkan" -- terlalu tinggi tingkat kesalahan untuk memprediksi. Akurasi visual 98,5 persen berarti untuk pertama kalinya fungsi ini memiliki ambang untuk penyebaran yang dapat diandalkan. Dalam evaluasi tersebut, sejumlah blogger teknis menulis: "Jika Anda menyisihkan program produk penggunaan Komputer karena frekuensi kesalahan Opus 4.6, 4,7 menghilangkan penghalang ini。

Umpan balik dari tangan pertama pada Reddit(R/ClaudeAI): Pengguna tersebut menyebutkan bahwa "perbaikan kemampuan visual terlalu kritis, dan saya telah melakukan banyak proyek marginal sebelumnya, mencoba untuk mendapatkan model untuk meningkatkan keluaran mereka dalam siklus umpan balik visual, yang telah membingungkan dan sangat mengantisipasi bagaimana 4,7 dapat mengatasinya."

Selain penggunaan Komputer, manfaat meliputi pemindaian analisis dokumen (membaca fon yang lebih kecil, mengidentifikasi rincian bagan yang lebih canggih), pemahaman amplifikasi, aplikasi tipe dashboard, pengolahan PDF yang kompleks。

Isu biaya yang membutuhkan perhatian:gambar resolusi yang lebih tinggi mengkonsumsi lebih banyak token. jika adegan aplikasi tidak memerlukan gambaran terperinci, disarankan agar sampel diambil sebelum diunggah。

/ III. Kemunduran terbesar: konteks panjang telah runtuh

MRRRR v2@1M(jutaan tes memori konteks token):

Aku tidak tahu4 4.6:3%

Aku tidak tahu4 4.:6.2 persen

Keruntuhan dari 46 persen poin, dari hampir 80 persen menjadi sepertiga。

Penurunan ini memiliki sedikit preseden dalam sejarah model kapal bendera. MRCR v2 adalah kemampuan Anthropic sendiri untuk disorot di era Opus 4.6, ketika Anthropic disebut "perubahan kualitatif dalam skala massa konteks bahwa model benar-benar bekerja." x 4.7, transformasi ini "massa" menghilang begitu saja。

Kenapa? Tokenizer berubah。

Opus 4.7 Dengan tokenizer baru, teks masukan yang sama akan dihasilkan secara perkiraan1 1.035 Doubleangka token, jumlah yang bervariasi menurut jenis isi。

Reaksi berantai langsung adalah:

Aku tidak tahuJENDELA KONTEKS UNTUK 200K/1M MASIH TERSEDIA DALAM ISTILAH NOMINAL, TETAPI TEKS YANG SAMA KURANG DIMUAT

Aku tidak tahukonsumsi token aktual meningkat sekitar 35 persen untuk tugas panjang angent workflow

Aku tidak tahudasar tidak berubah ($5, output $ 25 per juta token) tetapi biaya penggunaan sebenarnya meningkat

Versi resmi dari Antropika adalah bahwa tokenizer baru "memperbaiki efisiensi pemrosesan teks", tetapi data benchmark menunjukkan regresi yang ditandai dalam konteks konteks panjang。

Kemampuan pencarian juga menurun:

Aku tidak tahu(web in-depth comp): 83.7% dari Opus 4.6

Aku tidak tahu2-5.4 Pro skor 89,3%, Gemini 3.1 ATP menang skor 85,9%, Opus 4,7 saat ini di kompetisi utama model Bottom

Cari dan teks panjang adalah adegan paling umum bagi banyak pengguna bisnis。

Umpan balik dari para pengembang di Hacker News (poster 275, komentar 215, sumber: diskusi HN):

Untuk mematikan pemikiran ofensif dan menarik upaya secara manual ke atas untuk mendapatkan saya kembali ke garis dasar. Penilaian internal kami terlihat baik" tidak cukup, dan semua orang melihat masalah yang sama. """4.7 Standar tidak lagi berisi ringkasan token penalaran yang dapat dibaca manusia dalam keluaran, yang harus dikembalikan dengan meminta tampilan Riga: dikembalikan."

Ini adalah isu-isu yang tercermin oleh pengguna aktual. Tapi ini juga pilihan yang dibuat Antropik atas inisiatifnya sendiri。

\"OV IV\". Karakteristik perilaku baru: evaluasi diri sendiri dan lebih harfiah mengikuti instruksi

Opus 4.7 Pengumuman resmi berisi pernyataan tunggal yang layak diambil:Model ini membenarkan keluarannya sebelum melaporkan hasilnya。

Tim teknisnya Hex memberikan kasus tertentu dalam tes: ketika data hilang, Opus 4.7 melaporkan seolah-olah data tidak ada, daripada memberikan jawaban yang tampaknya masuk akal tetapi sebenarnya adalah fiksi -- yang terakhir adalah lubang di mana Opus 4.6 melangkah. Platform teknologi keuangan, Block, akan mengatakan, "Ini dapat mendeteksi sendiri kesalahan logika pada tahap perencanaan, mempercepat implementasinya, dan melampaui model Claude lama."

Akan tetapi identifikasi diri yang dilakukan oleh orang lain berkaitan dengan perubahan perilaku: Penafsiran Opus 4.7 terhadap perintah lebih harfiah。

Ini adalah risiko migrasi yang penting. Jika Anda telah dengan hati-hati menarik prompt, 4.7 untuk Opus 4.6, itu mungkin tidak "dibaca" seperti 4.6, tetapi dilakukan dengan ketat sesuai dengan apa yang Anda tulis. Antropik secara eksplisit menyebutkan hal ini dalam panduan migrasi resmi, menunjukkan bahwa prompt kunci akan diuji untuk regresi sebelum pergi online 4.7。

Nomor referensi fungsional dari CTO di Hex:Opus 4,7 untuk usaha rendah, kinerja kira-kira sama dengan Opus 4,6 untuk usaha menengah。

kontrol mechanisms: xheigh, bug tugas dan /ultrareview

Opus 466 Ada peristiwa yang mempengaruhi kepercayaan pengguna: 9 Februari ke model baku untuk pemikiran adaptif, 3 Maret pergeseran resmi dasar penalaran kedalaman Claude Code dari atas ke mediaium dengan alasan "keseimbangan antara kecerdasan, penundaan, biaya." Hal ini disebut oleh pengguna sebagai "the Deceptive Gate", dan pertanyaan dari sutradara senior di GitHub ditransmisikan secara luas。

Muktamar Opus 4.7 menanggapinya dengan memberikan kontrol atas kedalaman penalaran yang lebih terlihat oleh pengguna。

usaha xhighTingkat baru kekuatan penalaran, antara tinggi dan maksimum asli. Claude Code kini telah memperbarui semua slot baku yang direncanakan ke xheigh。

Namun komunitas pengembang memiliki pertanyaan langsung tentang xheigh, dan kata asli pengguna Reddit adalah: "Opus 4.6 Default adalah sedang, 4.7 Default adalah xheigh. Saya ingin tahu apa yang terjadi di balik keputusan ini, karena jelas bahwa peningkatan berkas usaha akan menyebabkan konsumsi token lebih banyak."

dengan kata lain, pengguna melihat sebuah "return control ke pengguna" fix, tetapi berkas baku sebenarnya dinaikkan, berarti bahwa tugas yang sama ditetapkan untuk membakar lebih banyak token. tambahkan perubahan tokenizer, yaitu peningkatan biaya ganda。

task bugsMekanisme pengendalian anggaran untuk misi panjang. Pengembang developer menetapkan total anggaran token (minimum 20K), yang memungkinkan model untuk melihat jumlah yang tersisa dalam waktu nyata selama implementasi, dengan demikian mengalokasikan sumber daya, menghindari berhenti ke setengah karena token overspent dan mencegah limbah komputasi yang tidak perlu。

Kode Claude menambahkan perintah /ultrareview:Sesi review kode khusus, jalankan ulasan in-depth berfokus pada masalah pencarian bug dan desain, dan pengguna Pro dan Max memberikan mereka tiga kali gratis sebulan。

mode Otoofier dibuka untuk pengguna Max:Sebelumnya hanya dalam program Enterprise, sekarang pengguna Max dapat menggunakannya. Claude bebas membuat keputusan dan mengurangi jumlah pertanyaan kepada pengguna. Pemimpin tim Claude Code Boris Cherny mengatakan, "Berikan Claude misi, biarkan dia lari, kembali dan melihat apa yang dilakukan."

Dimana menang, di mana kalah

Berikut ini adalah data dasar utama yang saat ini tersedia (sumber: Anthropic official system card and partner matement)。

Programming dan Teknik Opus 4.7 memimpin)

Visual dan multi-modul (Opus 4.7 sejauh ini)

Pekerjaan pengetahuan ilmu pengetahuan (Opus 4.7 memimpin)

Penilaian komprehensif (Opus 4.7 jelas di atas langkah)

Penalaran Umum Bhikkhu (tiga flat dasar)

benchmark ini telah jenuh dan tidak lagi menjadi gudang air kompetitif yang efektif。

Tugas-tugas penelitian (GPT-54 memimpin, Opus 4.7 mundur)

Konteks Panjang (Opus 4.7 Regresi Substansial)

Dianugerahi logika seleksi: empat bidang pemrograman, agen teknik, visual, melek hukum keuangan, Opus 4.7 memiliki keunggulan yang jelas; misi penelitian-intensif dan pencarian web terbuka GPT-5.4 lebih kuat; dan dalam konteks konteks konteks, Opus 4.7 jauh lebih sedikit daripada pendahulunya, titik yang paling mengkhawatirkan。

VII. Pagar keamanan: batu beraspal Mythos

Bagian ini dapat dengan mudah digunakan sebagai pernyataan rutin "keamanan" dalam rilis, tetapi merupakan kunci untuk memahami strategi Antropik saat ini。

Pada 7 April, Anthropic mengumumkan Project Glasswing: Opening Claude Mythos Preview to Apple, Google, Microsoft, Nvidia, Amazon, Cisco, CrowdStrike, JP Morgan Chase dan Broadcom sembilan mitra yang didedikasikan untuk defensif skenario keamanan cyber。

Anado Mythos adalah model Antropik yang paling kuat sejauh ini, dan menurut The Hacker News, ia mampu mendeteksi lubang-lubang hari nol sendiri dan menemukan ribuan lubang yang sebelumnya tidak diketahui di sistem operasi utama dan peramban. Namun, tepatnya karena kemampuan ini, ia juga ditemukan membawa risiko penyalahgunaan yang signifikan dan tidak tersedia di depan umum。

Opas 4,7 adalah sampel tes pertama di baris ini。Pada tahap pelatihan, Anthropic mengambil inisiatif untuk mengurangi model ' s cybersecurity attack kapability (sementara mempertahankan sebanyak mungkin kemampuan pertahanannya) dan pergi online dengan sistem penjaga waktu nyata untuk secara otomatis mendeteksi dan mencegat permintaan keamanan jaringan berisiko tinggi. Teks buletin: "Kami akan belajar dari penyebaran Opus 4,7 tentang efektivitas pagar dan kemudian memutuskan apakah akan memperpanjangnya ke Mythos."

Dengan kata lain, setiap pengembang yang menggunakan Opus 4.7 membantu Anthropic untuk mendemarkasi pagar keamanan。

Evaluasi mengenai Gizmodo:Peluncuran ini mengadopsi strategi pemasaran "Bold marketing - Promosi proaktif model baru dari swakarya" dengan kapabilitas yang kurang umum daripada pilihan lain, yang jarang terjadi dalam rilis flagship。

Para praktisi Keselamatan Kebidanan yang perlu menggunakan Opus 4.7 untuk tes penetrasi hukum, studi celah atau tes tim merah perlu mengajukan permohonan Cyber Verification Programme。

VIII. Harga dan migrasi: tidak ada perubahan dalam istilah nominal, kenaikan nyata

Pricing:Masukkan koin $ 5 juta, keluaran $ 25 juta, sama seperti Opus 4.6. ID model API adalah claude-opus-4-7. Platform yang tersedia antara lain Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundation, GitHub Copilot juga on line。

tapi, seperti yang disebutkan sebelumnya, perubahan tokenizer membuat perkiraan input yang sama1 1.035double jumlah token, superseding tinggi pikiran baku di bawah token slot usahaKos sebenarnya untuk stream kerja angent misi panjang mungkin 2-3 kali pengaturan yang sama di Opus 4.6。

Antropika juga mengurangi cache Claude Code dari satu jam menjadi lima menit -- Ini berarti bahwa jika Anda meninggalkan komputer selama lebih dari lima menit dan kembali, konteks cache akan gagal, Anda harus memuat ulang, dan token akan mengkonsumsi lebih cepat. komunitas Reddit sudah memiliki banyak pengguna yang "terbakar lebih cepat daripada jatuh."。

Daftar perubahan merusak ke pengguna Opus 4.6 yang ada:

Pembiayaan Berpikir Ekstended Extended Budgets Parameter dihapus, mengirim kembali 400 kesalahan, perlu diubah ke mode berpikir lanjutan

2. parameter sampling seperti suhu (temperature), top p, top k telah dihapus dan kontrol output diperlukan dengan promting

Perintah berbasis teks Stricter untuk Opus 4.6 yang dimodifikasi berikut ini perlu diuji ulang dan tidak dapat diganti langsung dengan model ID pada baris

4. perubahan tokenkenizer mengakibatkan perubahan jumlah token, dan disarankan untuk menjalankan sampel pada lalu lintas nyata sebelum migrasi penuh

keluaran bawaan tidak lagi memuat ringkasan token penalaran dan membutuhkan pengaturan yang dapat dilihat untuk mendapatkannya kembali

Saran praktis:Panduan migrasi resmi suku Antropik menyarankan agar switch resmi menjalankan Opus 4.7 dengan produksi perwakilan mengalir sebelum memutuskan pada konsumsi token dan kualitas misi。

Ini cara paling menakutkan untuk melepaskan pisau yang tepat

Ofolus 4.7 adalah upgrade dengan arah target yang jelas dan tatar dengan biaya yang jelas. Dan ini semua desain Anthony, dan Anda harus membayar mereka sampai batas yang besar。

Di sisi progresif model ini:

Aku tidak tahuKenderaan 87,6% dari SWE-bench Verified, 64,3% dari SWE-bench Pro, 70% dari Kursor Bench, 3 kali tugas Rakuten - Ini adalah perbaikan yang dapat diprogram yang dirasakan di lingkungan produksi

Aku tidak tahuPengembangan ulang visual (XBOW 54,5% 98,5%, resolusi 3 kali, piksel 1:1), memungkinkan untuk pertama kalinya ambang batas untuk penyebaran tepercaya

Aku tidak tahuxhigh, tombol tsk, /ultrareview, adalah respon terlihat untuk "tructure."

Aku tidak tahuDiarsipkan BigLaw 90,9 persen, Otoritas Keuangan 64,4 persen, dengan petunjuk yang jelas dalam keahlian seperti hukum keuangan

Berikan sisi:

Aku tidak tahuMRCR v2@1M dari 78,3% menjadi 32,2%, dengan hampir setengah kemampuan kontekstal

Aku tidak tahuFülinade Brownecomp turun dari 83,7% menjadi 79,3%, dan kemampuan pencarian dilawan ganda oleh GPT-54 dan Gemini 3.1 Pro

Aku tidak tahupengalihan Tokenizer

Aku tidak tahuMythos terus menekan, yang berarti Anthropic masih memiliki kartu yang lebih besar tetapi tidak bisa melakukannya

Kali ini, hal yang nyata bukan "model terkuat" atau "model terbuka terkuat" tetapi:Satu dengan perdagangan yang jelas。

Berita terbaru adalah bahwa pendapatan tahunan Claude Code pada bulan Februari telah mencapai $ 2,5 miliar. Opus 4,7 adalah taruhan berikutnya di baris ini。

Pemrograman dan visualisasi wondering ditambahkan, konteks panjang dan pencarian dikurangi, dan harga tetap nominal tetapi tagihan meningkat. Antropik adalah menyeimbangkan dengan Opus 4.7 - keduanya untuk memperbaiki kerusakan kepercayaan yang tersisa dari Opus 4.6 dan untuk melakukan latihan lapangan pagar keamanan untuk masa depan yang lebih besar dari model kelas Mythos. Dan, yang lebih penting, perlu mengambil keuntungan penuh dari timah itu sekarang, mengubah preferensi pengguna untuk produk-produknya menjadi inersia yang tetap tidak diperlukan untuk generasi produk, bahkan jika mereka cacat, dan kemudian membangun rasa cinta dan kebencian pengguna visceralitas seperti apel, dan ekologi yang benar-benar berharga secara komersial。

Bahasa Asli

QQlink

Không có cửa hậu mã hóa, không thỏa hiệp. Một nền tảng xã hội và tài chính phi tập trung dựa trên công nghệ blockchain, trả lại quyền riêng tư và tự do cho người dùng.

© 2024 Đội ngũ R&D QQlink. Đã đăng ký Bản quyền.