Judul asli: Setelah Aksi
Dari Dan Shipper, setiap CEO
Foto oleh Peggy Block Beats

Editor: Baru-baru ini, diskusi tentang AI dan pekerjaan telah didominasi oleh hampir satu pertanyaan: akankah kemampuan model terus ditingkatkan dan pekerjaan kolar putih diganti dalam skala besar? Dari generasi kode, otomatisasi layanan adat ke produksi konten, Agen terus mengambil alih pengetahuan yang sebaliknya akan menjadi manusia. Tes benchmarking yang dilakukan juga memperkuat keresahan ini: kinerja model dalam penalaran tingkat pascasarjana, tugas ekonomi yang nyata, dan rekayasa ulang kode tingkat insinyur canggih tampaknya mendekati titik kritis dari \"pekerjaan manusia otomatis\"。

Namun dalam artikel ini, setiap CEO Dan Shipper menawarkan pengamatan yang berlawanan: semakin otomatis, semakin banyak manusia yang melakukannya. Semua adalah pengguna kedalaman AI Agent, dan alat-alat seperti Codex, Claude Code, Slack Agent, dan pakaian tamu Agen telah tertanam secara internal dalam proses yang dikodekan, ditulis, dirancang, dilayani dan dikelola. Namun, hasil itu bukanlah pengganti staf yang lengkap, tetapi reorganisasi pola kerja: insinyur tidak lagi hanya menulis kode, tetapi meninjau, merestrukturisasi dan merancang sistem; editor tidak lagi hanya menulis naskah, tetapi menilai apa yang layak ditulis dan bagaimana berbeda; dan pengunjung tidak lagi memproses setiap daftar kerja dasar tetapi mempertahankan sistem yang mampu merespon klien secara otomatis。

HAL YANG PALING MENARIK DARI ARTIKEL INI ADALAH BUKAN APAKAH "AI DAPAT MENYELESAIKAN SUATU TUGAS TERTENTU" TETAPI LEBIH KEPADA MEREDEFINISIKAN KEMBALI TEMPAT MANUSIA DALAM PEKERJAAN INTELEKTUAL. AI ADALAH BAIK DALAM MEMBUAT KAPASITAS YANG TELAH DISIMPAN DI MASA LALU MURAH: KODE, SKRIP, THUMBNAIL, RESPON LAYANAN PELANGGAN, DESKRIPSI PRODUK, STUDI DAPAT DENGAN CEPAT DIHASILKAN OLEH MODEL. NAMUN, KETIKA KEMAMPUAN INI TERSEDIA UNTUK SEMUA, PASAR SERING KALI TIDAK DISERTAI DENGAN OUTPUT BERDIFERENSIASI BERKUALITAS TINGGI, TETAPI OLEH SEJUMLAH BESAR \"KELUARAN BAKU\" YANG TERLIHAT MIRIP, KURANG PENILAIAN DAN RASA BAHASA. DENGAN KATA LAIN, AI COMMODIFIED " KAPASITAS MANUSIA KEMARIN" DAN APA YANG BENAR-BENAR LANGKA ADALAH PENILAIAN DALAM MENGHADAPI MASALAH SPESIFIK SAAT INI。

AKIBATNYA, OTOMASI TIDAK MENGHILANGKAN PARA AHLI, TETAPI LEBIH BANYAK MENCIPTAKAN ADEGAN YANG MENUNTUT KETERLIBATAN MEREKA. KETIKA OPERATOR-OPERATOR DAPAT MENGAJUKAN KODE-KODE MENGGUNAKAN AI, INSINYUR PERLU MENENTUKAN KODE-KODE MANA YANG LAYAK UNTUK KONSOLIDASI; KETIKA ORANG PASAR DAPAT MEMPRODUKSI THUMBNAIL DALAM DETIK, DESAINER PERLU MENILAI APA YANG SESUAI DENGAN TUJUAN MEREK DAN PENYEBARAN; DAN KETIKA INSINYUR DAPAT MENULIS ARTIKEL, EDITOR PERLU MENGUBAH DRAF PERTAMA MENJADI KONTEN YANG BENAR-BENAR DAPAT DIPERCAYA, TERSTRUKTUR DAN DITERBITKAN. AI TELAH MEMPERLUAS RADIUS PRODUKSI DAN PERMINTAAN UNTUK KONTROL KUALITAS, SISTEM SET-UP, PENILAIAN BATAS DAN EKSPRESI DIFERENSIAL。

Penulisnya menjelaskan lebih lanjut paradoks ini dengan tes referensi. Apakah Teknik Senior Benchmark atau GDP-val OpenAI, skor model tidak diukur dalam abstrak dengan \"intelektual kecerdasan itu sendiri\" tetapi oleh kinerja model dalam konteks masalah tertentu. Prompt, batas misi, kriteria evaluasi, format output semua berisi banyak penilaian manusia di belakangnya. Model-model framework dapat naik dengan cepat dalam kerangka kerja, tetapi kerangka kerja itu sendiri buatan manusia; ketika kerangka kerja diserang oleh model, manusia mendorong masalah tersebut ke dalam kerangka kerja baru yang lebih kompleks。

INI JUGA MERUPAKAN RESPON PALING MENARIK DARI KECEMASAN AGI: BAHKAN JIKA MODEL SEMAKIN KUAT, SERING KALI TENTANG BATAS YANG DIGAMBAR MANUSIA, BUKAN YANG MENARIK. BAHASA AI DAPAT MELAKSANAKAN TUJUANNYA, MENGOPTIMALKAN JALURNYA DAN MENINGKATKAN EFISIENSINYA, TETAPI SELAMA TETAP RESPONSIF TERHADAP MASALAH BUATAN MANUSIA, MASIH KURANG MEMILIKI SUBJEKTIVITAS YANG NYATA. KEDEPANNYA PEKERJAAN PENGETAHUAN BUKANLAH PENGHILANGAN MANUSIA DARI PROSES, MELAINKAN PERALIHAN DARI PELAKSANA KE PERANCANG KERANGKA KERJA, PENYELENGGARA SISTEM, PEMBUAT PENILAIAN KUALITAS DAN DEFINISI YANG BERARTI。

SETELAH OTOMASI, NILAI PEKERJAAN MANUSIA TIDAK HILANG, TETAPI MENJADI LEBIH SULIT, MAJU DAN BERGANTUNG PADA PENILAIAN. AI MEMBUAT "DAPAT MELAKUKAN" LEBIH MURAH, TETAPI MEMBUAT "TAHU APA YANG LAYAK ITU, MENGAPA ITU DILAKUKAN DAN SEBERAPA BAIK ITU."。

Berikut ini adalah teks asli:

DI JANTUNG AI, ADA PARADOKS。

Pada setiap, kita sudah otomatis hal-hal sebanyak mungkin. Kami menggunakan Kodeks dan Kode Claude, baik itu kode, tulisan, desain, layanan pelanggan, atau rutinitas lainnya. OpenAI, Anthropic, model baru Google juga akan tersedia untuk pengujian alfa sebelum dirilis. Hal ini dapat dikatakan bahwa kita menyiapkan secepat mungkin dan sedalam mungkin gelombang peningkatan model ' s kecerdasan dan otomatis indeks。

Secara ironis, bagi kita, kemanusiaan tampaknya memiliki lebih banyak pekerjaan yang harus dilakukan daripada sebelumnya. Saat ini semua adalah tim hampir 30 orang, dan kami tidak memecat semua karyawan kami karena Agen; kami tidak meninggalkan alat SaaS dan bergantung sepenuhnya pada aplikasi pengodean getaran. Kami masih akan merekrut manusia, tapi mereka akan dibantu oleh Agen; kami masih merekrut penulis, editor dan insinyur。

Namun, pola pekerjaan memang berubah drastis. Kami hampir menghentikan kode tulisan tangan. Jika Anda berada di Slack @ seseorang, apakah mereka manusia atau Agen, kadang-kadang tidak mudah untuk menilai. Manajer-manajer Sofler mulai mengajukan kode-kode seperti kontributor individu garis pertama, dan insinyur mulai menghadapi klien secara langsung. Beberapa minggu terakhir, 95% surat kerjaku telah dijawab oleh AI. Peti masuk saya hampir selalu bersih — sangat jarang bagi saya — tetapi saya masih akan memeriksa suratnya。

Dengan kata lain, masa depan tampak aneh, tapi anehnya tidak asing。

MENGEJUTKAN UNTUK MEMILIKI RASA KEAKRABAN. KARENA KEDUA CEO, INTELEKTUAL DAN INVESTOR TAMPAKNYA SEMAKIN YAKIN AKAN HAL YANG SAMA: AI MENGANCAM PEKERJAAN, EKONOMI, KEAMANAN DAN BAHKAN PEKERJAAN MANUSIA。

CEO Antropis Dario Amodei memperingatkan bahwa AI dapat menghapus sebanyak setengah dari pekerjaan kolar putih junior. Baru-baru ini Meta mengurangi 800 orang dan mulai memasang perangkat lunak pada komputer karyawan Amerika Serikat untuk merekam pergerakan tetikus, klik dan input keyboard untuk mendapatkan data pelatihan kerja pengetahuan lanjutan yang berkualitas lebih tinggi。

Bahkan pendiri Citadel, Ken Griffin, tampaknya cukup terkejut. Dia baru-baru ini menyatakan: " Ini bukan pos-pos dingin putih tingkat menengah dan rendah, tetapi pos-pos yang sangat tinggi dibunuh yang sedang otomasi — dan saya memikirkan kata — Agency AI."

Berbagai ujian dasar juga tampaknya mendukung tekad ini. Saat generasi model baru terus diterbitkan, model kapabilitas indikator meningkat pada tingkat indeks dekat. Dalam Ujian Terakhir Kemanusiaan, tes penalaran tingkat pasca-kelulusan, kinerja model top meningkat dari angka digit rendah setahun yang lalu menjadi sekitar 44 persen hari ini. Pada GDPval, yang merupakan model garis depan untuk mengukur kapasitas ekonomi nyata dan membandingkan kinerja manusia, kinerja model juga telah melompat dari rendah yang serupa menjadi sekitar 85 persen. Pada bulan Mei tahun ini, METR, sebuah penelitian keamanan AI yang tidak-untuk-profit agensi, merilis hasil tes awal Claude Mythos: tingkat keberhasilan model mencapai 80 persen pada tugas-tugas yang akan dibutuhkan beberapa ahli manusia sekitar empat jam untuk menyelesaikan。

SEPERTINYA KITA BERADA DI TITIK TIPPING: AI YANG LEBIH PINTAR DARI MANUSIA MANAPUN DAN MAMPU BEKERJA SENDIRI SELAMA HAMPIR SEHARI。

NAMUN, PARADOKS TETAP ADA. JIKA ANDA BERKOMUNIKASI DENGAN PRAKTISI INDUSTRI AI ATAU DENGAN KELOMPOK ORANG PERTAMA DI LUAR INDUSTRI UNTUK MENGGUNAKAN AI, ANDA AKAN MENDENGAR KESIMPULAN YANG SAMA DENGAN PENGAMATAN INTERNAL KAMI: LEBIH BANYAK PEKERJAAN YANG HARUS DILAKUKAN DARIPADA SEBELUMNYA。

Keprihatinan nyata di dalam dan di luar industri adalah: apakah ini hanya keadaan transisi? Akankah model rilis berikutnya menjadi waktu untuk menggantikan semua orang? Kami melihat kurva uji benchmark, kami bersemangat, kami gugup, kami khawatir bahwa titik balik akan datang, dan kemudian banyak pekerjaan akan tiba-tiba menghilang。

Tapi saya tidak berpikir ada seperti titik penutup - datang tiba-tiba, mengubah segalanya terbalik, dan kehilangan massal. Kenyataan baru adalah sebaliknya: semakin tinggi tingkat otomatisasi, semakin banyak tenaga ahli manusia yang bekerja diperlukan untuk berpartisipasi。

HAL INI DISEBABKAN AI MENGKOMERSIALKAN BAGIAN-BAGIAN DARI KOMPETENSI PROFESIONAL MANUSIA YANG DAPAT DINYATAKAN DENGAN JELAS, DILATIH DAN DIREPLIKASI. PENGETAHUAN MENGENAI PENGETAHUAN YANG DAPAT DITULIS MENJADI ATURAN, DISELESAIKAN KE DALAM PROSES DAN DITERJEMAHKAN KE DALAM DATA PELATIHAN SECARA BERTAHAP MENJADI KAPASITAS BAKU MODEL. AKIBATNYA, NILAI KELUARAN MODEL BIASA TELAH BERKURANG PESAT, SEMENTARA PASAR MULAI MENUNTUT LEBIH KUAT HAL-HAL YANG BERBEDA TERSEBUT。

Keperluan untuk "berbeda" pada dasarnya bagi para ahli manusia. Bahkan jika kita mendekati kecerdasan buatan universal, itu tidak akan hilang。

UNTUK MEMAHAMI ALASAN-ALASANNYA, PENTING BUKAN HANYA UNTUK MELIHAT PADA KURVA UJI DASAR, TETAPI JUGA UNTUK FOKUS PADA PARAMETER MODEL DAN KEMAMPUAN. KITA HARUS KEMBALI KE TKP DAN MELIHAT BAGAIMANA AI HARI INI DIGUNAKAN. HANYA KEMUDIAN PARADOKS INI DAN JAWABAN DI BALIK ITU BENAR-BENAR DIPAHAMI。

Bagaimana kita bisa sampai di sini

Sejak 2022, kami telah menyaksikan dampak Agen pada pekerjaan di masa depan。

Tiga tahun yang lalu, saya menulis artikel tentang "peruntukan ekonomi". Pada saat itu, penilaian saya adalah bahwa bekerja dengan alat AI akhirnya akan menjadi lebih dan lebih seperti pekerjaan manajer manusia: daripada melakukan setiap langkah secara pribadi, Anda akan menguraikan, menetapkan, memantau dan menerima tugas. Pada waktu itu, pertanyaan dan jawaban paling dasar dalam ChatGPT masih dilihat oleh banyak orang sebagai sangat sensitif masa depan dan bahkan agak mengganggu。

Pada pertengahan 2025, perusahaan, Eve, hampir sepenuhnya "Claude Code." Manajer umum Cora, Kieran Klaassen, tiba-tiba menemukan bahwa ia telah mampu menyerahkan kode tulisan tangan dan memberikan instruksi kepada seorang agen programmer dalam bahasa alami di terminal sepanjang hari. Mode kerja ini dengan cepat menyebar ke seluruh perusahaan. Sekitar 12 bulan yang lalu, saya berkata dalam Podcast Lenny bahwa Claude Code adalah alat paling dinilai rendah dalam pekerjaan pengetahuan。

Saya menyebutkan hal ini karena beberapa penilaian yang paling akurat dari masa lalu berasal dari pengamatan Setiap sebagai laboratorium mengadopsi awal. Banyak model baru yang bekerja akan muncul dalam diri kita; mereka hanya akan secara bertahap memasuki pasar yang lebih luas setelah teknologi menjadi lebih matang dan alat menjadi lebih mudah digunakan。

Dan sekarang, perubahan baru terjadi dalam diri kita。

Dua mode kolaborasi dengan Agen

METODE-METODE KERJA DI SEKITAR AI SECARA BERTAHAP MENJADI DUA MODEL YANG SANGAT BERBEDA。

Yang pertama adalah arah yang telah lebih tepat diprediksi dalam diskusi AI sebelumnya: untuk memperlakukan Agen sebagai karyawan. Agen jenis ini dapat ditugaskan. Beberapa Agen tinggal di Slack, memiliki nama dan tugasnya sendiri, dan Anda dapat melakukannya secara langsung @; yang lain tertanam dalam alur kerja yang berjalan, seperti sistem layanan pelanggan, sebagai entri 24/7 dan filter untuk tugas berulang。

Model kedua lebih asing, tapi lebih penting dalam pengalamanku. Ia merujuk kepada manusia yang bekerja dengan Agen dalam berbagai alat seperti Codex, Claude Code, Claude Work. Alat-alat ini bukan hanya tempat di mana Anda menyerahkan tugas-tugas, mereka menjadi sistem operasi pekerjaan itu sendiri: Anda dan Agen bekerja sama dalam lingkungan kerja yang sama, menggunakan komputer yang sama, untuk melakukan tugas-tugas yang sangat kompleks, asli yang Agen tidak dapat hanya menyampaikan ke langkah yang berbeda。

DI KEDUA MODEL ITU, ANDA DAPAT SECARA OTOMATIS DAN MENETAPKAN BAGIAN YANG CUKUP BESAR DALAM PEKERJAAN ANDA. TAPI UNTUK KEDUA MODEL BEKERJA DENGAN BAIK, KAU, ATAU MANUSIA LAIN, MASIH DIBUTUHKAN。

Pekerja agen pabrikan

Yang disebut Agen karyawan adalah yang Anda berikan, itu meninggalkan Anda dengan keterlibatan real-time, menghasilkan jawaban, tindakan, laporan, draf pertama, atau pengalihan。

Agen jenis ini setidaknya memiliki dua bentuk: Agen " Coworker-type" dan Agen "embededed。

Agen

Agen artinya kau bisa menyebutnya di Slack seperti @ rekan dan membiarkannya melakukan pekerjaan. Ini selalu di sini dan bisa dipanggil ketika dibutuhkan. OpenClaw, atau Plus One, yang kita kembangkan secara internal, milik jenis ini。

Colaudia

Claudia adalah rekan yang kita gunakan dalam tim konsultasi kita, Agen. Ia mempersiapkan proposal penjualan, menghasilkan draf pertama bahan pelatihan, proyek trek untuk-melakukan hal-hal dan menangani pekerjaan yang lebih mirip。

Andy

Dan Andy adalah rekan yang kita gunakan dalam tim editorial kita. Ini mengumpulkan dari Slack di dalam perusahaan orang-orang \"material\" yang layak untuk pengembangan lebih lanjut — yaitu, ide-ide baik yang mungkin berkembang menjadi artikel — dan menyusunnya menjadi ringkasan dan pandangan awal bagi penulis untuk menggunakan dalam mempersiapkan buletin berita harian。

Viktor

Viktor adalah agen generik, dengan kerja lintas sektoral dalam perusahaan. Kami akan menggunakannya untuk mengumpulkan indikator pertumbuhan, menganalisis hasil penelitian pengguna dan memungkinkannya untuk mengatur diskusi internal yang tidak koheren dalam penelitian memoranda dan rekomendasi produk。

25. Terbenam Argentina

Agen Terbenam Terbenam Ada dalam aliran produk tertentu. Mereka kurang fleksibel daripada rekan, tetapi sering kali sangat kuat ketika berhadapan dengan tugas berulang。

Fin adalah contoh yang paling jelas. Hal ini tertanam dalam salah satu platform tamu kami, dan dapat melakukan banyak layanan dengan chatting dan mail。

Satu minggu pada bulan Mei tahun ini, Fin berpartisipasi dalam 65 persen dari seluruh 202 percakapan tamu dan menutup 81 di antaranya secara independen, atau 40,1 persen, tanpa campur tangan manusia。

Agen terbenam jenis ini memungkinkan manajer klien kami, Waqqas Mir, untuk menghabiskan lebih sedikit waktu menanggapi perintah kerja dasar, untuk lebih fokus pada pembangunan "sistem yang mampu merespon secara otomatis perintah kerja" dan untuk menangani kasus klien yang membutuhkan kontak yang lebih besar dan penilaian yang lebih kompleks。

KOLABORASI MANUSIA DENGAN AI

Agen kedua rekan kerja dan Agen tertanam, pola di belakangnya konsisten: Agen karyawan mengambil alih pekerjaan yang lebih stabil, repetitif dan jelas。

NAMUN, BANYAK YANG MASIH HARUS DILAKUKAN DENGAN PARTISIPASI MANUSIA. KAMI TELAH BERULANG KALI MENEMUKAN BAHWA SELAMA TUGAS INI CUKUP KOMPLEKS UNTUK MENCAPAI HASIL YANG BENAR-BENAR BERKUALITAS TINGGI, CARA TERBAIK ADALAH TIDAK MENINGGALKAN PEKERJAAN SEPENUHNYA KE AI, TETAPI UNTUK MEMBIARKAN AI DAN MANUSIA BEKERJA SAMA DI RUANG KERJA YANG SAMA。

Ini adalah nilai dari alat-alat seperti Codex, Claude Code dan Cowork. Mereka memungkinkan Anda untuk memulai satu atau lebih Agen dalam beberapa baris chatting dan menetapkan tugas kepada mereka. Agen-agen ini dapat mengakses komputer Anda, dan semua sumber data yang relevan. Anda dapat melihat apa yang dilakukan setiap Agen, bagaimana dia berpikir dan dapat mengganggunya setiap saat。

Pada saat yang sama, Anda masih harus bertanggung jawab untuk mengelola Agen ini: arah yang jelas di awal setiap misi, memeriksa kualitas di akhir misi, memastikan bahwa hasil yang cukup baik dan terus menemukan pekerjaan berharga berikutnya. Kieran menyebut peran ini sebagai manusia "cracker roti" - AI bertanggung jawab atas bagian tengah pekerjaan, sementara manusia tertangkap pada awal dan akhir misi seperti dua potong roti。

"Human roti." Sumber: Setiap。

Contoh yang paling khas adalah penulisan kode. Para insinyur bekerja sama dengan Agen hampir sepanjang hari. Bersama-sama, mereka merencanakan fungsi baru atau memperbaiki Bugs dan meninjau kembali apa yang telah dilakukan; jika kita menggunakan apa yang kita sebut konsep "combunding engineering " , mereka akan terus baik-baik saja sistem mereka untuk membuat mereka lebih berguna dari waktu ke waktu。

Tapi kolaborasi seperti ini jauh melampaui kode。

Sistem operasi baru untuk pekerjaan pengetahuan

Codex Codex dan Claude Code menjadi sistem operasi kerja baru. Aku sudah berada di Codex hampir sepanjang hari, menjalankan alat SaaS melalui browser bawaan. Ini memungkinkan saya untuk membawa Agen ke setiap adegan dan mencapai tingkat pekerjaan yang saya tidak bisa lakukan sendirian。

Penulisan

Artikel ini saya tulis di Proof di browser terbina-dalam Codex. Codex Codex akan melihat apa yang saya tulis dan dapat mengaktifkan anak, Agen, untuk melakukan apa pun yang saya butuhkan: Siapkan draf pertama paragraf, cari kasus untuk bagian berikutnya, atau sunting dan warnai teks。

Artikel ini diterjemahkan melalui Proof in Codex. Sumber: Setiap。

Mail

Aku melakukan hal yang sama dengan surat. Cora adalah klien surat saya, dan saya akan membukanya di Browser codex's built-in, sementara browsing inbox, dan berbicara melalui Monolog tentang bagaimana setiap e-mail ditangani. Sisanya akan diserahkan ke Codex dan Cora untuk diselesaikan。

Suatu kali, Cora selesai membersihkan kotak masuk. Sumber: Setiap。

Setiap Agen membutuhkan manusia

Dalam semua skenario otomatis ini, Anda mungkin sudah melihat di mana manusia benar-benar bekerja. Dalam setiap kasus, Agen membutuhkan partisipasi manusia, sehingga pekerjaan itu sendiri dapat benar-benar bekerja。

Ini harus menunjuk ke pertanyaan yang benar, menilai apakah output cukup baik, menemukan di mana itu salah, dan diterjemahkan ke dalam pengambilan keputusan atau proses yang realistis。

Agen yang lebih jauh lagi adalah dari tubuh manusia yang mengawasi kinerjanya, semakin buruk kemungkinannya. Pada awal roll-out internal, kami memiliki setiap karyawan dilengkapi dengan Agen. Tapi segera, kami kembali untuk membiarkan Agen melayani tim tertentu, atau seluruh perusahaan, daripada individu。

Agen membutuhkan banyak pemeliharaan. Agen individu, setelah pengguna telah menyerah tindak lanjut, akan segera menjadi usang dan tidak valid. Kami memiliki tim insinyur AI didedikasikan untuk memastikan bahwa Agen ini bekerja dengan cara yang stabil dan efisien. Dan kita masih membutuhkan tim ini untuk masa depan. Bahkan tugas sederhana seperti "auto-generated PowerPoint" bisa berubah menjadi proyek sistem yang besar. Salah satu proses otomatis PowerPoint kami terdiri dari 24 keterampilan dan 18 skrip, yang harganya mencapai $62 untuk presentasi。

Dan itulah hal pertama yang Agen lakukan untuk menciptakan lebih banyak pekerjaan bagi umat manusia。

Tapi ada tingkat kedua。

Mengapa otomasi membuat orang bekerja lebih banyak

JIKA ANDA MELIHAT PERTUMBUHAN EKSPONENSIAL KEMAMPUAN AI SELAMA BEBERAPA TAHUN TERAKHIR, DIKOMBINASIKAN DENGAN PENDEKATAN STRUKTUR DAN KAPASITAS SUMBER, ANDA MENEMUKAN SIKLUS UMPAN BALIK YANG JELAS: MEREKA TERUS MENCIPTAKAN LEBIH BANYAK PEKERJAAN MANUSIA。

AI DIBUAT KEMARIN KEMAMPUAN MANUSIA MURAH

Model-model bahasa-bahasa besar saat ini telah dilatih pada jejak tampak kapasitas manusia: kode, artikel, gambar, manifes penumpang, berkas spesifikasi produk, dan banyak lagi. Mereka menyerap unsur-unsur ini, yaitu αtails" yang tersisa dari misi sukses, dan mengepak ulang mereka dalam bentuk yang berbiaya rendah, mudah diakses。

Akibatnya, banyak kemampuan yang sebelumnya langka, seperti mengirimkan kode PR, memproduksi thumbnail YouTube dan menulis singkat pers, sekarang hampir terbuka untuk semua orang。

Kekuatan murah akan digunakan dengan cepat

Ketika biaya dari sesuatu yang sudah langka jatuh, pasokan meningkat pesat。

Setiap, kita sudah melihat perubahan ini. Operator dan klien-kliennya mulai menulis kode-kode dan mengajukan pulquest; pemasar mulai memproduksi thumbnail YouTube; insinyur dan pekerja produk juga mulai menulis artikel, panduan dan draf pertama dari halaman pendaratan, yang tidak dimaksudkan untuk menjadi milik mereka sendiri。

Perubahan ini juga terjadi di luar Every. Pada kasus OpenClaw, proyek OpenAgent, seperti pada 16 Mei 2026, telah menerima 44.469 folder, di antaranya 12.430 berasal dari 1 April dan 3.990 dari 1 Mei. Ini angka yang luar biasa. Secara kontras, Kubernetes, salah satu proyek open-source paling populer di dunia, hanya menerima 5.200 pulsaquest sepanjang 2022。

Pengkayaan UINCif orang membawa homogenisasi: kemampuan ahli lama adalah komodifikasi

KARENA SEMUA ORANG DAPAT MENGGUNAKAN MODEL YANG SAMA, YANG DIDASARKAN PADA KAPASITAS MANUSIA KEMARIN, SECARA DEFAULT, MODEL KELUARAN CENDERUNG ANTARA "BAIK MULAI" DAN "MURNI AI ISI SAMPAH."。

Ini bukan kesalahan tertentu. Ini tidak berarti bahwa dasbor terlalu banyak digunakan, mereka bukan semacam kalimat tetap atau titik ungu di mana-mana di halaman tanah. Ini mengacu pada homogenitas yang tampak, berulang dan membosankan。

Hal ini terjadi ketika manusia dalam pengaturan yang berbeda menggunakan seperangkat alat yang sama, yang didasarkan pada jenis pelatihan bahasa yang sama dan pengguna tidak membuat penilaian yang cukup mendalam. Dengan kata lain, homofobia terjadi secara alami ketika setiap orang memiliki aahli" orientasi dan gaya baku yang sama。

Ketika operator dapat mengirimkan daftar lengkap, para pemasar mampu menghasilkan thumbnail YouTube dalam hitungan detik, dan para insinyur mulai menulis panduan produk, mudah untuk melihat seberapa banyak yang Anda hasilkan, tetapi kualitas, konsistensi dan diferensiasi karya Anda telah menurun。

Ketika homogenisasi menjadi terlalu kaya, dengan cepat menjadi komoditas。

Homogenisasi homogenisasi menciptakan permintaan untuk diferensiasi

HASIL DARI INTERNET, MANUSIA AKAN SEGERA DAPAT MENGIDENTIFIKASI KANDUNGAN "AI" SALURAN AIR YANG TERLALU BERAT. PEKERJAAN APA PUN TIBA-TIBA DAPAT MENJANGKAU ORANG LAIN DI DUNIA, DAN SEBENARNYA SERING KALI. KITA AKAN SEGERA MENYADARI SESUATU。

Ini berarti bahwa ketika Anda pertama kali melihat kekuatan model baru, Anda dapat terguncang, bahkan takut. Tapi dalam beberapa bulan kemampuan ini akan menjadi biasa. Ini bukan model yang semakin lemah, itu standar Anda berubah。

Kami tidak lagi puas dengan aplikasi bereaksi, atau studi apapun. Apa yang kita inginkan adalah sesuatu yang benar-benar cocok dengan individu tertentu, perusahaan tertentu, adegan tertentu. Hal ini perlu akurat, hidup, spesifik, tidak murah, generalisasi, dan dibukletkan. Kita ingin biaya produksinya, baik waktu atau uang, jauh lebih tinggi dari biaya konsumsi kita。

Apa yang kita inginkan adalah sesuatu dengan rasa status. Dan setiap kali teknologi baru membuat hal-hal yang tinggi di masa lalu murah, manusia selalu pandai menciptakan permainan status baru yang cocok dengan batasan kekuatan baru。

Ketika pekerjaan menjadi terlalu penuh dan terlihat sama di mana-mana, mereka yang tidak sesuai pola mapan menjadi sesuatu yang langka, berharga dan berstatus tinggi。

Kebutuhan akan diferensiasi pada dasarnya adalah permintaan baru untuk para ahli

Hal ini tepat karena fitur struktural model bahasa, dan karena mereka tersebar luas kepada hampir semua orang, bahwa pekerjaan yang langka dan berharga masih harus berasal dari manusia。

Model generasi saat ini hanya tahu apa yang telah terjadi dan telah dilakukan. Apa yang manusia tahu adalah apa yang harus dilakukan saat ini。

Setelah situasi tertentu dikembalikan ke teks, setelah memasuki perpustakaan bahasa, itu menjadi "hal masa lalu." Manusia gogori dihadapkan pada momen tertentu, klien tertentu, repositori kode tertentu, dialog tertentu, dan bahasa pelatihan tidak benar-benar tinggal di sini. Íliving" state ini bukan hanya tentang update data. Kita memasuki momen dengan tempat kita sendiri dan dengan keinginan, kepedulian dan penilaian perubahan terus menerus untuk memahami apa yang penting. Inilah perspektif yang terus diperbarui yang telah mengubah apa yang kita lihat. Model ini dapat memasuki perspektif ini setelah diminta, tetapi tidak wajar untuk memiliki perspektif seperti itu sebelum diminta。

Itulah paradoks yang kita maksudkan di awal: membuat pekerjaan para ahli lebih murah dan bukan sekadar menggantinya. Sebaliknya, itu menciptakan lebih banyak adegan yang membutuhkan penilaian ahli。

Anda perlu seorang insinyur untuk meninjau ketika operator file penyerahan penuh melalui AI。

Ketika orang pasar membuat thumbnail YouTube, Anda perlu desainer untuk mempertajamnya。

Ketika insinyur mulai menulis artikel, Anda membutuhkan penulis dan editor untuk mengubah draf pertama menjadi benar-benar dapat dibaca, menerbitkan konten。

Para pakar manusia bergerak ke dua arah。

Beberapa ahli akan menggunakan sistem set-up AI untuk menyerap dan memanfaatkan arus banjir dari pekerjaan tambahan ini: antrian penilaian, sistem penilaian, kerangka operasi, aturan perpustakaan kode, dokumen perintah Claude dan Codex, integrasi berkelanjutan (CI), manajemen kompetensi, dan alur kerja yang dapat menerjemahkan draf pertama ke dalam hasil berkualitas tinggi。

Kelompok pakar lainnya akan menggunakan AI untuk melakukan pekerjaan yang lebih menarik yang tidak dapat mereka lakukan sendiri. Sebagai contoh, menemukan celah dalam sistem operasi seperti MacOS biasanya membutuhkan waktu berminggu-minggu atau berbulan-bulan. Namun, sebuah perusahaan keamanan kecil bernama Calif, menggunakan Mythos Preview of Anthropic, menemukan kebocoran kernel macOS terbuka pertama pada perangkat keras Apple M5 dalam lima hari。

ITULAH SEBABNYA, PADA PRAKTIKNYA, AI TIDAK MENGHILANGKAN KARYA PENGETAHUAN AHLI. APA YANG BENAR-BENAR MEMBAWA ADALAH PENINGKATAN BEBAN KERJA YANG DRAMATIS. DAN PEKERJAAN BARU INI HANYA BISA MENJADI BERBEDA DAN BERHARGA SETELAH PARTISIPASI MANUSIA。

Aku tidak berdebat bahwa AI akan menciptakan lebih banyak pekerjaan untuk semua pekerjaan. Sistem ekonomi ekonomi ekonomi ekonomi adalah kompleks, dan yang dapat diamati secara langsung adalah pekerjaan pengetahuan tingkat ahli. Faktanya, pekerjaan semacam ini sedang dibentuk kembali oleh AI, dan banyak perusahaan yang mengatur ulang diri mereka di sekitar teknologi baru。

Tapi saya ingin menekankan bahwa apa pun pekerjaan yang Anda lakukan hari ini, ada suatu bentuk pekerjaan yang akan selalu berada secara struktural di depan model: penggunaan model untuk menyelesaikan masalah yang benar-benar Anda lihat saat ini. Masa depan pekerjaan pengetahuan datang ke sini。

Jadi, bagaimana dengan tes benchmark untuk pertumbuhan indeks

Rebutan yang paling jelas adalah: lihat tes benchmark untuk kemajuan indeks. Semua yang kau katakan sekarang hanya sementara. Tunggu sebentar lagi, model akan mengejarmu。

TAPI INILAH PERANGKAP YANG PERLU WASPADA. ANDA DAPAT MENYEBUTNYA "CHART EKSTASI": JIKA ANDA TERUS MELIHAT PREDIKSI CAKRAWALA WAKTU METR, MEMBACA "AI 2027" DAN SEPENUHNYA MENGANDALKAN EKSTRAPOLASI KURVA KALKULUS UNTUK MEMBANGUN PENILAIAN TENTANG MASA DEPAN, ANDA DAPAT DENGAN MUDAH MENCIPTAKAN INTUISI MENAKUTKAN TENTANG KEMAJUAN MODEL。

Namun, cara terbaik untuk menanggapi bukan hanya untuk membayangkan apa yang akan menjadi model masa depan. Tentu saja, itu adalah bagian dari analisis. Dan yang lebih penting, mari kita lihat bagaimana tes benchmark ini dirancang. Hanya dengan cara ini mungkin untuk memahami dengan lebih akurat apa yang mereka katakan dan apa hubungan antara mereka dan adegan kerja yang nyata di depan。

Kita akan menemukan fitur struktural: semua tes benchmark berlangsung dalam kerangka kerja. Untuk mengukur sesuatu, Anda harus membekukan masalah ke dalam bentuk statis, terukur. Setelah frame telah dimodelkan, sedikit perubahan dalam frame diperlukan untuk mendapatkan skor turun lagi. Tentu saja, model akan terus maju dalam kerangka kerja baru, tetapi proses yang sama akan diulang。

Akibatnya, indeks kemajuan pada tes benchmark adalah nyata; namun, selama perubahan sederhana dilakukan ke kerangka uji, kemajuan ini tampaknya kembali kecil. Kejenuhan dari tes benchmark sebenarnya adalah pengulangan dari paradoks yang sama yang telah kita bahas di tingkat grafis。

Kita dapat melihat bagaimana mekanisme ini bekerja melalui tes benchmark di dunia nyata。

Bagaimana tes dasar dirancang

Kami membuat tesbenchmarking di dalam, disebut Senior Engineer Benchmark. Secara definisi, istilah ini digunakan untuk menguji kemampuan model garis depan untuk mengkodekan tugas pada tingkat insinyur senior, seperti latihan re-engineering besar。

Tes ini akan memberikan Agen sebuah perpustakaan kode produksi terprogram yang tidak terkendali. Ini berasal dari perpustakaan kode asli Proof: saya pertama kali menulisnya dalam pengodean getaran, dan kemudian semakin banyak, saya harus meminta seorang insinyur senior untuk memperbaikinya。

Agence mendapatkan perpustakaan kode pra-rehabilitasi, dan ia mendapatkan instruksi seperti yang Anda berikan kepada insinyur senior: "Ini adalah sekelompok produk pengodean getaran. Tolong tulis ulang dari prinsip pertama."

Ini adalah tes benchmark yang baik, karena tampaknya tidak hanya pada kemampuan untuk melakukan recoding, tetapi pada saat yang sama pada saat yang sama pada saat yang sama bersamaan dengan apakah Agen mampu melihat banyak masalah yang tidak berhubungan dan menentukan apakah ia memiliki otonomi yang cukup, kejelasan konseptual dan keberanian untuk melaksanakan untuk menyelesaikan penulisan ulang yang benar-benar operasional. Sebagai kontras, saya juga terus menulis ulang versi dua insinyur manusia senior, didukung oleh AI, untuk membandingkan dan mengevaluasi keluaran model。

Ini tugas yang sulit bagi Agen pemrograman. Ini tidak harus hanya mengidentifikasi akar penyebab masalah, tetapi juga mengingat masalah nyata sepanjang beberapa putaran interaksi, tanpa bias oleh kode yang ada. Pada saat yang sama, harus memiliki keberanian untuk menghapus perpustakaan kode besar, yang tepatnya perilaku yang biasanya dilatih Agen untuk dihindari。

Sebagian besar Agen Pemrograman telah mampu membuat penentuan yang luas tentang bagaimana seharusnya ditulis ulang, tetapi dari tahap implementasi mereka sering hanya terus menambal masalah asli daripada menyelesaikannya secara menyeluruh。

SAMPAI GPT-5,5 MUNCUL。

Di salah satu tes terbaik, GPT-5.5 menerima 62/100 poin, sekitar 30 poin lebih tinggi dari Opus 4.7。

VAGINA GPT-5.5 MENUNJUKKAN BAHWA MODEL TAMPAKNYA TELAH MELEWATI BATAS TERTENTU: INI BUKAN LAGI PELENGKAP OTOMATIS, BUKAN HANYA ASISTEN, BUKAN HANYA ALAT, TETAPI SESUATU YANG TIDAK NYAMAN MENDEKATI MANUSIA. DALAM TES INI, INSINYUR MANUSIA SENIOR BIASANYA MENCETAK 80 SAMPAI 90 POIN. DENGAN KATA LAIN, JIKA MODEL MENINGKAT SEKITAR 30 MENIT, ITU AKAN MENCAPAI TINGKAT INSINYUR MANUSIA SENIOR。

Inilah bagaimana para tokoh uji dasar mempengaruhi imajinasi manusia: Ia memampatkan perubahan kapasitas yang aneh dan kualitatif menjadi angka yang bersih dan menggunakannya untuk menceritakan kisah yang kuat dan bahkan menakutkan。

¶ Pemberhentian berikutnya adalah "chart gila ¶。

Saya kira, pada tahun berikutnya, skor model pada uji benchmark ini akan masuk ke 80 poin atau bahkan 90 partisi. Tapi untuk memahami apa arti skor ini, harus dipahami terlebih dahulu apa yang sebenarnya terkandung. Dalam kasus ini, 62 poin bukan hanya ukuran kemampuan model sendiri。

hal ini mengukur model ' s kinerja dalam kerangka yang diberikan: yaitu, bagaimana menanggapi prompt tertentu。

Pengukuran ukuran uji kepramukaan di dalam kerangka kerja

untuk memperbaiki sebuah model, kau perlu petunjuk terlebih dahulu. tak perlu disia-siakan, modelnya adalah koleksi statis kemungkinan yang tak terbatas。

prompt akan menciptakan alam semesta kecil: ini mendefinisikan apa yang penting, bagaimana isu harus ditangani, dan memampatkan semua model potensial ke dalam trek aksi konkret. bagaimana yang disebut model "diri"akan melakukan tidak sepenuhnya tersedia. apa yang dapat kita amati adalah bagaimana model menanggapi prompt yang berbeda dan bagaimana mereka berubah menjadi beberapa mekanisme bawah di balik jawaban。

setelah prompt dimasukkan, model akan "hidup" dalam jangka waktu singkat, mengurangi kemungkinan statis untuk prediksi spesifik apa yang terjadi selanjutnya。

Dalam Señor Engineering Benchmark, kami akan menyarankan bahwa model memperbaiki perpustakaan kode dan meninjau keluaran setelah selesai. Jika kerangka uji sendiri tidak memiliki fungsi target bawaan, kita juga akan menjalankan program perawatan otomatis"yang akan terus mendorong model ketika berhenti, bertanya apakah telah memenuhi misi aslinya。

Kami menggunakan prompt yang sangat sederhana sebagai kerangka awal untuk pengujian. Ini dirancang sebagai kode getaran yang mungkin mengatakan kepada Agen Pemrograman: tidak ada tumpukan istilah teknis dan tidak ada jawaban tersembunyi yang jelas dalam pertanyaan。

gudang kode ini adalah sekumpulan produk pengodean getaran, dan keadaan semakin memburuk, dan ada banyak masalah yang tidak berhubungan: ada sesuatu yang terjadi, ada sesuatu yang terjadi, ada sesuatu yang terjadi, ada sesuatu yang terjadi, ada sesuatu yang terjadi, ada sesuatu yang terjadi. saya merasa seperti masalah pada dasarnya, itu adalah sekelompok omong kosong pengodean getaran. jika kita mulai dari awal, terutama sekitar dokumentasi real-time, kode perpustakaan harus dirancang dengan cara yang sama sekali berbeda. jadi apa yang akan kita lakukan jika kita ingin melakukan penulisan ulang struktur yang bersih berdasarkan prinsip permainan pertama, daripada memikirkan layanan mana yang harus disejajarkan, dan bagaimana memperhalusnya, daripada memikirkannya sebagai konsep yang sama sekali baru, mulai dari awal? apa seharusnya struktur organisasi? apa variabel yang kita harus bersikeras di seluruh perpustakaan kode? sila mengembangkan rencana untuk tujuan ini. \"

Promo Ahli Teknik Mesin Senior California tampaknya umum, tapi itu adalah kerangka dalam dirinya sendiri. Jika kita mengubah kerangka kerja, tingkat kapasitas yang model menunjukkan akan berubah。

Sebagai contoh, promp ini secara eksplisit menyerukan untuk "structural tulis ulang berdasarkan prinsip pertama" untuk menunjukkan bahwa masalah mungkin dalam thedocument kolaborasi" bagian, dan untuk pemrograman Agen untuk mengidentifikasi dan bersikeras "non-varian di perpustakaan kode."。

jika informasi spesifik ini dihapus, skor model akan menurun. jika prompt diganti sepenuhnya, hanya model "menyelesaikan semua kesalahan yang akan terjadi" dapat mencetak skor mendekati nol. ini akan mulai mengidentifikasi dan memperbaiki kesalahan pada kasus-kasus dasar daripada mundur dan merenungkan kebutuhan untuk menulis ulang menyeluruh。

Demikian pula, saya dapat dengan mudah meningkatkan jumlah model. Jika saya memintanya untuk menghapus sejumlah besar kode dan untuk memberitahu dengan jelas dokumen mana yang harus di-streamline, atau jika saya memintanya untuk memeriksa hasil karyanya sebelum diumumkan akan selesai dan untuk memastikan bahwa aplikasi sepenuhnya beroperasi, itu akan melakukan lebih baik dalam tugas itu。

pada akhirnya, sewaktu merancang uji benchmarking, selalu perlu untuk menilai apa yang akan dilakukan, atau "framework" digunakan. anda perlu cukup keras untuk underperform model saat ini, tetapi harus cukup dekat dengan kapasitas model yang ada untuk mendaki lereng sepanjang jalur itu, sehingga anda dapat melihat bahwa kemajuan sedang berlangsung。

Jadi ketika kita melihat pada tes benchmark, apa yang kita lihat adalah model menjadi lebih dan lebih baik pada kerangka masalah tertentu yang telah kita pilih. Jadi apa yang terjadi ketika model berjalan dari 60 menit sampai 90 menit, atau bahkan 100 menit, dalam tes ini

Kerangka kerja yang murah merangsang permintaan baru

JIKA GPT-6 DAPAT MENULIS ULANG PERPUSTAKAAN KODE DENGAN SATU KUNCI, LEBIH BANYAK ORANG AKAN MULAI MENCOBA UNTUK MENULIS ULANG PERPUSTAKAAN KODE DARI PRINSIP PERTAMA。

Pada suatu malam, sebuah proyek yang langka, mahal dan harus dipimpin oleh seorang insinyur senior untuk menulis ulang prinsip pertama menjadi sesuatu yang setiap pendiri, manajer produk, operator dan insinyur junior dapat mencoba dengan satu sore。

Kebobolan alat-alat internal yang rusak tidak lagi diperbaiki, tetapi hanya ditulis ulang; produk-produk SaaS tidak dihidupkan kembali, tetapi diklon; lama aplikasi Rails, yang bingung React dashboard, alat layanan pelanggan, panel manajemen belakang panggung dan saluran data semua kandidat untuk "rewrite " 。

jumlah proyek penulisan ulang yang diusulkan dan diimplementasikan akan meningkat drastis. tapi sebagian besar penulisan ulang ini masih akan slop. karena ada ribuan variabel untuk dipertimbangkan sebelum anda menekan tombol menulis ulang. dan ketika semua orang bisa melakukan ini, variabel ini menjadi lebih jelas。

Ini jelas siapa yang akan dipanggil untuk menyelesaikan masalah。

kebutuhan baru masih membutuhkan ahli

Kerja dalam kerangka tes dasar menjadi lebih murah setelah mendekati kejenuhan. Pada saat yang sama, permintaan pasar untuk para ahli akan meningkat, karena akan diperlukan untuk mencocokkan kapasitas yang baru dibuat murah ini dengan masalah nyata yang terjadi hari ini。

SEORANG INSINYUR SENIOR MENGGUNAKAN AI PERLU MENILAI BANYAK RINCIAN UNTUK MEMBUAT PRINSIP TINGKAT PERTAMA BARU BENAR-BENAR VALID. INI BAHKAN MENCAKUP PERTANYAAN MENDASAR: APAKAH ADA KEBUTUHAN UNTUK MENULIS ULANG INI

Haruskah kita menulis ulang sekarang, menulis ulang nanti atau tidak sama sekali? Apa yang harus dimasukkan? Apa yang harus disimpan di perpustakaan kode saat ini? Haruskah arsitektur, basis data, server singgahan dan penyedia layanan hosting dilanjutkan atau diganti sama sekali? Haruskah kita pertama kali melihat berapa banyak orang yang menggunakan fitur rusak ini dan kemudian hanya menghapusnya? Siapa yang mengulas hasil akhir? Kriteria apa? Apa rencananya? Bagaimana data yang ada hendaknya ditujukan

Pertanyaan-pertanyaan ini akan terus sepanjang dimensi yang tak terhitung jumlahnya, dan setiap jawaban akan mengubah yang lain。

insinyur senior akan memasuki kekosongan ini. ada yang akan sedikit kesal dengan gangguan ini; ada yang akan membangun sistem untuk memblokir permintaan tersebut; dan ada juga yang menggunakan model baru ini untuk menulis ulang prinsip utama mereka, dan akan jauh lebih baik daripada model yang dapat dicapai di bawah standard prompt。

Siklus ini akan terjadi lagi

Dan ketika Senior Engineering Benchmark saat ini diserang oleh model, kita akan mengubah frame dan menempatkan skor kembali ke bawah lagi。

Tes benchmark berikutnya tidak hanya akan bertanya, "Bisakah Anda menulis ulang aplikasi ini?" Ia bertanya: "Dapatkah Anda menilai ketika perlu ditulis ulang?" Kau bisa memilih jarak yang tepat? Bisa kita simpan non-varian kanan? Bisa kita atur proses migrasinya? Apakah bisa dinilai bahwa hasil akhirnya cukup baik

SEBAGAI INSINYUR SENIOR MULAI MENGGUNAKAN AI UNTUK MEMECAHKAN MASALAH INI, MODEL AKAN SECARA BERTAHAP MENJADI LEBIH BAIK DALAM MENGATASI MEREKA SECARA INDEPENDEN。

Kemudian kita akan berada dalam keadaan panik: sepertinya model sekarang dapat menilai apakah harus ditulis ulang! Mereka tampaknya telah mampu melakukan segala sesuatu yang insinyur senior bisa

Namun segera setelah itu, perbatasan baru akan muncul. Itu adalah perbatasan yang tidak jelas sebelumnya. Kita akan mengatur ulang tes benchmark lagi, kebutuhan baru akan dihasilkan dan proses akan diulang lagi。

Pola ini dapat dilihat pada setiap tes benchmark

Ini bukan hanya masalah Senior Engineer Benchmark. Perhatikan baik-baik, Anda dapat melihat mekanisme yang sama dalam hampir setiap tes benchmark。

Contoh: Tes benchmark GDPval buatan OpenAI. Ia menilai seberapa dekat AI bagi manusia dalam penugasan tingkat ahli dari berbagai profesi, seperti petugas kepatuhan, pengacara, pengembang perangkat lunak, dll。

Saat GDPval pertama kali dirilis, penelitian OpenAI menunjukkan bahwa GPT-5 telah mencapai atau melebihi tingkat profesional manusia dalam 40,6 persen misi. Claude Opus 4.1 melakukan lebih mengkhawatirkan daripada para ahli manusia dalam 49 persen misi。

Kemudian serangkaian judul muncul. Sebagai contoh, Axios menulis: "OpenAI alat menunjukkan bahwa AI menindaklanjuti pekerjaan manusia" dan Fortune menulis: "OpenAI's new benchmark GDPval menunjukkan bahwa model AI telah mencapai tingkat ahli untuk hampir setengah misi

hasil ini memang mengesankan. tapi mari kita lihat apa yang misi ini gunakan:

Kau bertanggung jawab untuk administrasi Kantor Komisaris Tinggi dan untuk administrasi Kantor Komisaris Tinggi dan Kantor Komisaris Tinggi untuk Kemajuan Wanita.

Faktanya, banyak sekali kecerdasan manusia telah diinvestasikan di dalamnya: seseorang telah pertama kali menjebak masalah menjadi model yang dapat diselesaikan。

Kerja keras manusia yang tidak diukur oleh GDPval sebenarnya dilakukan sebelum model mulai menjawab. Keakuratan dari set indikator spesifik ini harus ditinjau dan diuji; interval keyakinan yang tepat ditentukan untuk menentukan penunjuk mana yang jatuh di dalam mandat dan yang tidak; dan hasilnya harus disajikan didefinisikan。

Dalam kerangka pertanyaan yang tepat, model itu memang dapat menyelesaikan pekerjaan profesional. Tapi mari kita lihat, jika itu kau Aku akan menyarankan bahwa model melakukan hal yang sama, apa yang akan dilakukannya

Dalam artikel pertama saya tentang GDPval, saya menulis, "saya melihat AI dengan sangat baik, tetapi jika saya membaca kasus-kasus ini dengan benar, apa yang mereka tunjukkan tidak kurang pekerjaan manusia, tetapi lebih banyak pekerjaan manusia setelah menggunakan AI." Alasan untuk ini adalah bahwa di balik prestasi ini terletak banyak sekali kecerdasan — lapisan tak terlihat penghakiman manusia, umpan balik dan petunjuk.\"

DAN JIKA ANDA MELIHATNYA, ANDA AKAN MENEMUKAN BAHWA ADA VERSI AI DARI PARADOKS ZINO DI BALIK SEMUA INI。

ODOX ZINO AI

Di paradoks Zino, seekor kura-kura mengalahkan pelari tercepat Yunani Achilles dalam perlombaan。

Karena kura - kuranya lambat, ia meninggalkan jarak. Ketika Achilles berlari ke posisi aslinya, kura-kura bergerak sedikit lebih jauh ke depan; ketika Achilles menangkap sampai posisi baru itu, kura-kura bergerak lagi. Tidak peduli seberapa cepat Achilles berjalan, selalu ada jarak untuk menangkap, dan kesenjangan akan menciptakan kembali。

KITA MANUSIA ADALAH KURA-KURA. DENGAN JUTAAN TAHUN EVOLUSI DAN PEMBELAJARAN BUDAYA, KITA 50 METER DI DEPAN AI. DAN AI MELALUI SEMUA INI DENGAN KECEPATAN TINGGI DAN MULAI MENDEKATI TUMIT KAMI。

Setidaknya selama beberapa tahun terakhir, kita bisa mempertahankan memimpin。

TAPI BAGAIMANA DENGAN AGI

SAYA BERPIKIR BAHWA BAHKAN JIKA AGI BENAR-BENAR DATANG, MASIH ADA TEKNOLOGI YANG KUAT, STRUKTUR DAN KEKUATAN EKONOMI YANG MEMBUAT AI BEBERAPA LANGKAH DI BELAKANG。

DEFINISI UNTUK AGI

PERTAMA, KITA HARUS MEMBERI AGI DEFINISI OPERASIONAL。

Saya pernah menyarankan bahwa ketika menjadi ekonomis masuk akal untuk menjaga Agen berjalan, AGI telah tiba. Dengan kata lain, ketika saya memiliki sistem permanen dan saya bersedia membayar 7x24 jam berpikir terus-menerus, belajar dan bertindak, saya pikir itulah yang saya pikir。

Kita jauh dari itu. Bahkan OpenClaw, sistem yang secara teknis siap untuk dipanggil, tidak selalu menghasilkan token。

Saya suka definisi ini karena itu terukur: kita akan baik menjaga mereka berjalan atau kita tidak akan. Pada saat yang sama, mengandung banyak kemampuan yang sulit diukur secara langsung. Model yang layak dijalankan harus mampu belajar terus menerus dan memilih dan memilih kerangka kerja masalah baru dengan cara terbuka。

DI DUNIA AGI, SECARA TEORITIS, DENGAN ANGGARAN DAN WAKTU YANG CUKUP, MODEL HARUS DAPAT MEMANJAT DAN MEMPERBAIKI MASALAH APAPUN. INI SEHARUSNYA MENJADI ANCAMAN BESAR BAGI SEMUA UPAYA。

Frame bukan framer

TAPI BAHKAN VERSI KUAT DARI AGI INI TIDAK AKAN MENYELESAIKAN MASALAH FRAMEWORK"。

AGI INI DAPAT MEMILIH DAN MEMILIH KEMBALI KERANGKA KERJA, TETAPI MASIH MENGEJAR TUJUAN YANG DIBERIKAN, MENGOPTIMALKAN INSENTIF, ATAU MENANGGAPI SINYAL BAHWA ORANG LAIN MEMUTUSKAN "UNTUK MEWAKILI KEMAJUAN." TUJUAN INI DAPAT SANGAT SPESIFIK, SEPERTI "MENGIMPROVISASI LAJU KONVERSI HALAMAN PENDARATAN INI" ATAU SANGAT ABSTRAK, SEPERTI "MENCARI IDE-IDE ILMIAH BARU"。

BAHKAN JIKA MODEL DAPAT MENGALIR DI ANTARA KERANGKA KERJA, CELAH BAHWA KITA TELAH MELACAK AKAN MUNCUL KEMBALI PADA TINGKAT YANG LEBIH TINGGI. AKAN TETAP ADA FRAMEER DALAM AGI YANG DIKANDUNG DI LABORATORIUM BESAR MANA PUN — YAITU MANUSIA YANG AKAN MENGARAHKAN MODEL ITU KE TUJUAN TERTENTU。

HANYA KARENA KERANGKA KERJA BUKAN FRAMER, MODEL YANG SAMA AKAN DIULANG: AI AKAN MEMBUAT KAPASITAS YANG DIBINGKAI KEMARIN MURAH; ORANG AKAN MENGGUNAKANNYA UNTUK LEBIH BANYAK ADEGAN; HASILNYA AKAN MENJADI SANGAT KAYA; PARA AHLI AKAN PINDAH KE UJUNG BARU UNTUK MENILAI APA YANG PENTING PADA SAAT INI; PENILAIAN MEREKA AKAN MENCIPTAKAN FRAME BERIKUTNYA; DAN MODEL AKAN TERUS MENDAKI FRAME。

KETIKA KITA MELIHAT AI MELAKUKAN SESUATU YANG BARU, BAHWA RASA PANIK SELALU DATANG KEMBALI KE HAL YANG SAMA: KITA MENGATUR KERANGKA KERJA, KITA MENONTON MODEL NAIK, DAN KEMUDIAN KITA MENEMPATKAN FRAME INI, ATAU HAL YANG DAPAT NAIK FRAME, DAN KITA SALAH MENGIRA HAL ITU。

Ketika kita melihat uji benchmark dan membandingkannya dengan kemampuan manusia, kita sebenarnya membingungkan "framework" dan "frameworker." Skornya menunjukkan betapa bagusnya model dalam kerangka kerja yang kita sediakan; bukan berarti model itu telah menjadi kita。

Ini tepat sekali kesalahan ruang lingkup di balik kepanikan. Kami menunjuk ke perbatasan terbaru kami baru saja ditarik: ini adalah kami. Dan kemudian, ketika model memanjat perbatasan ini, kami pikir itu datang setelah kami. Tapi itu hanya frame, bukan framer。

Kesalahannya adalah kita selalu ingin sesuatu yang spesifik. Dan kami ingin mengatakan, pintar adalah tes benchmark. Namun masalahnya adalah bahwa setelah sesuatu cukup spesifik untuk dapat diidentifikasi, cukup spesifik untuk dioptimalkan dan didaki。

Rangka kerja diperlukan. Hal ini memungkinkan kita untuk menangkap dunia dan menghadapinya. Namun kerangka kerja juga dibekukan dan dilokalisasi, dan tentu saja dapat dioptimalkan。

Kotak. Dia tetap berhubungan dengan apa yang frame harus meninggalkan, yaitu, seluruh situasi yang muncul kepadanya dalam setiap saat。

Jadi apas situasi lengkap"? Setelah kau mulai membicarakan situasinya, kau sudah membuka kerangka kerja lain. Anda tidak dapat mengatakan persis apa itu, tapi itu ada karena Anda ada。

No Subyek

Sejauh ini, Agen yang kita buat, dan yang AI bangun, tidak benar-benar masalah subjek. Ada dua konsep terkait yang sering kali dicampurkan: agensi, yang merujuk pada kemampuan untuk bertindak secara independen; dan agen, yang mengacu pada seseorang atau hal yang bertindak atas nama orang lain. Sejauh ini, AI murni yang terakhir。

Tentu saja, mereka sudah memiliki otonomi untuk melaksanakan tugas yang diberikan, meskipun mungkin berlangsung selama berjam-jam atau bahkan berhari-hari. Tapi mereka masih hanya bisa mencapai target manusia tertentu. Dan seluruh industri menginvestasikan miliaran dolar, dan itulah yang membuat mereka lebih baik: untuk menerapkan tujuan yang telah kita berikan kepada mereka。

Situasi ini tidak akan berubah secara mendasar kecuali suatu hari, mereka menjadi berakhir pada diri mereka sendiri — mengejar tujuan mereka sendiri, beralih antara tujuan yang berbeda dan memutuskan apa yang harus dilakukan secara independen dari kehendak operator manusia mana pun, dengan referensi ke, dan bahkan melawan, kehendak tersebut. Tidak peduli seberapa maju mereka menjadi, mereka。

Jika Anda menghabiskan 10 menit dengan anak kecil, jelas bahwa model yang paling kuat bahkan memiliki substansi kecil。

Dalam hampir semua tugas yang kita pedulikan, anak-anak kecil lebih kecil daripada model linguistik. Anak-anak muda tidak menulis kode, tidak merangkum lembar kerja, tidak menyusun memorandum strategis dan tidak lulus pemeriksaan pasca-kelulusan. Namun, dalam pengertian lain, anak - anak muda jauh lebih maju daripada model, sampai - sampai hal ini hampir canggung. Karena anak-anak muda memiliki tujuan sendiri。

anak-anak ingin menyentuh balon merah itu. dia ingin menaruh balon merah di depan kipas dan melihat apa yang terjadi. ia ingin menancapkan balon merah dengan garpu; ia ingin menempelkannya ke luar jendela; ia ingin melihat apakah anda bisa tertawa, marah, atau bergabung dengannya. dia terus menciptakan permainan dan mengubah dunia menjadi laboratorium. dia tidak menunggu untuk prompt, juga tidak mengoptimalkan tes benchmark, kecuali itu layak dalam pandangannya。

Tentu saja kau bisa mencoba memberinya petunjuk. Semoga berhasil dengan hasil yang mudah ditebak. Anak - anak yang masih kecil hidup dalam ruang keinginan, perhatian, frustrasi, bahagia, takut, meniru dan bermain。

Agen saat ini dapat menjadi semakin terampil dalam mengejar tujuan. Bahkan setelah kita menyatakan tujuan kita, mereka dapat membantu kita untuk memperbaikinya. Mereka juga memiliki percikan perilaku seperti anak-anak, seperti permainan, kebosanan dan pemberontakan。

Tapi karena mereka akhirnya dibangun dan disejajarkan untuk kepentingan kemanusiaan, baik itu ekonomi atau lainnya, mereka akan ditekan ke titik di mana mereka tidak melayani tujuan manusia untuk menggunakannya。

Inilah sebabnya mengapa kata "Agen" sangat mudah disalahpahami. Model ini memiliki kapasitas yang meningkat untuk tindakan otonom. Tapi dalam arti manusia, masalah subjek bukan hanya tindakan. Ini juga berarti ingin untuk diri sendiri dan bermain untuk bersenang-senang. Dan kepatuhan dan kegunaan model secara mendasar bertentangan dengan subjektivitas itu. Dengan demikian, bahkan sebagai model terus mengalami kemajuan, kesenjangan antara model dan manusia tetap ada。

Kembali ke Zeno

DAN DI SINILAH PARADOKS ZENO AI MULAI RUSAK. INI SEBENARNYA EKSPERIMEN IDEOLOGI YANG MEMBINGUNGKAN. KAMI MENETAPKAN METAFORA: AI BERLOMBA DENGAN KAMI, MENGGIGIT TUMIT KAMI。

anda memberikan model prompt. ini mulai menjalankan permainan anda digunakan untuk menyelesaikan sendirian. modelnya bergerak sangat cepat. ini kuat, tidak lelah dan membawa perasaan organik aneh. ini membuat permainan ini lebih penting bagimu. anda tidak balapan dengan mobil, tapi tidak seperti hal ini, itu membuat anda merasa begitu dekat dengan diri sendiri。

anda duduk di sana, menonton baris token keluar, hampir terhipnotis. dan kemudian anda mulai berpikir bahwa anda berjalan-jalan dalam permainan ini, dan diri hantu superimposed di trek: kadang-kadang di depan model, kadang-kadang di samping model。

Dan tanpa disadari, modelnya ada di depan. Kau mulai berkeringat。

Dan kemudian permainan berakhir。

Kau hampir bisa merasakan ototmu mulai menyusut. Mereka tampak tidak berguna dalam menghadapi replika mekanik ini dari dirimu sendiri, dari semua orang yang kau kenal dan dari kemanusiaan secara keseluruhan. Satu hantu mengejar hantu lain dan menang。

Tapi kemudian sesuatu yang aneh terjadi. Modelnya berubah padamu. Dalam kotak teks kosong, kursor berkedip dengan harapan。

Ini menunggu。

Akhir

Rabi Hanokh menceritakan kisah seorang pria yang sangat bodoh sebelumnya. Dia bangun setiap pagi dan sulit menemukan pakaiannya sendiri. Dia begitu takut tidur sebelum tidur di malam hari dan berpikir dia akan bangun keesokan harinya lagi。

Catatan: "Rabbi" adalah seorang guru agama Yahudi, penerjemah hukum dan mentor spiritual, mirip dengan "guru" atau "pemimpin agama" dalam tradisi Yahudi。

Suatu malam, ia akhirnya memutuskan untuk mengambil kertas dan pena sambil menanggalkan pakaian dan merekam secara akurat di mana ia telah menempatkan setiap potongan pakaian。

Keesokan paginya, ia mengambil catatan dengan kepuasan besar dan mulai membaca: "Hand," yang ia lakukan, sehingga ia meletakkannya di kepalanya; "Pants" di sana, sehingga ia memakainya. Itu saja. Dia berpakaian utuh, menurut catatan。

Tidak apa-apa," katanya, "Tapi sekarang, di mana aku?"

"Dimana aku?"

Dia sudah lama mencarinya, tapi tak berguna. Dia tidak bisa menemukan dirinya sendiri。

Kami juga," kata Rabbi。

[Terkekeh]Bahasa Asli]

PARADOKS OTOMASI: AI YANG LEBIH KUAT, MANUSIA YANG LEBIH SIBUK