PARADOKS OTOMATISASI: SEMAKIN KUAT AI, SEMAKIN SIBUK MANUSIA

2026/05/25 00:18
🌐id

AI MENCIPTAKAN LEBIH BANYAK PEKERJAAN YANG MEMBUTUHKAN PENILAIAN

PARADOKS OTOMATISASI: SEMAKIN KUAT AI, SEMAKIN SIBUK MANUSIA
Judul asli: Setelah Aksi
Asli oleh Dan Shipper, Setiap CEO
Foto oleh Peggy Block Beats

Editor: Baru-baru ini, diskusi tentang AI dan pekerjaan telah didominasi oleh hampir satu pertanyaan: kemampuan model akan terus memperbaiki dan pekerjaan kerah putih digantikan dalam skala besar? Dari pembuatan kode, otomatis layanan kustom untuk produksi konten, Agen terus mengambil alih pengetahuan yang jika tidak akan manusia. Uji banding juga memperkuat kecemasan ini: kinerja model dalam penalaran tingkat akurasi, tugas ekonomi yang sebenarnya, dan rekayasa ulang kode tingkat maju tampaknya mendekati titik kritis dari "pekerjaan manusia otomatis"。

Namun dalam artikel ini, setiap CEO Dan Shipper menawarkan pengamatan yang berlawanan: semakin otomatis, semakin banyak manusia. Setiap adalah pengguna dalam-mendalam Agen AI, dan alat-alat seperti Codex, Claude Code, Slack Agen, dan agen pakaian tamu telah tertanam secara internal dalam kode, ditulis, dirancang, dilayani dan dikelola proses. Hasilnya, bagaimanapun, bukan pengganti lengkap staf, tapi reorganisasi pola kerja: insinyur tidak lagi hanya menulis kode, tapi meninjau, merestrukturisasi dan merancang sistem; editor tidak lagi hanya menulis naskah, tetapi menilai apa yang layak ditulis dan bagaimana berbeda; dan pengunjung tidak lagi memproses setiap daftar kerja dasar tetapi mempertahankan sistem yang mampu menanggapi klien secara otomatis。

HAL YANG PALING MENARIK TENTANG ARTIKEL INI ADALAH BUKAN APAKAH "AI DAPAT MENYELESAIKAN TUGAS TERTENTU" TAPI MELAINKAN MENDEFINISIKAN ULANG TEMPAT MANUSIA DALAM PEKERJAAN INTELEKTUAL. AI ADALAH BAIK DALAM MEMBUAT KAPASITAS YANG TELAH DISIMPAN DI MASA LALU MURAH: KODE, SCRIPT, THUMBNAIL, LAYANAN PELANGGAN RESPON, DESKRIPSI PRODUK, STUDI DAPAT CEPAT DIHASILKAN OLEH MODEL. NAMUN, KETIKA KEMAMPUAN-KEMAMPUAN INI TERSEDIA UNTUK SEMUA, PASAR SERING DISERTAI TIDAK DENGAN PRODUK-PRODUK BERDIFERENSIASI BERKUALITAS TINGGI, TETAPI DENGAN SEJUMLAH BESAR "KELUARAN BAKU" YANG TERLIHAT SAMA, KURANGNYA PENILAIAN DAN RASA BAHASA. DENGAN KATA LAIN, AL MENGMODIFIKASI "KAPASITAS MANUSIA KEMARIN" DAN APA YANG BENAR-BENAR LANGKA ADALAH PENGHAKIMAN DALAM MENGHADAPI MASALAH TERTENTU SAAT INI。

AKIBATNYA, OTOMATISASI TIDAK MENGHILANGKAN PARA AHLI, NAMUN MENCIPTAKAN LEBIH BANYAK ADEGAN YANG MEMERLUKAN KETERLIBATAN MEREKA. KETIKA OPERATOR DAPAT MENGIRIMKAN KODE MENGGUNAKAN AI, INSINYUR PERLU MENENTUKAN KODE MANA YANG LAYAK UNTUK KONSOLIDASI; KETIKA ORANG PASAR DAPAT MENGHASILKAN THUMBNAIL DALAM HITUNGAN DETIK, DESAINER PERLU MENILAI APA YANG COCOK DENGAN MEREK DAN PENYEBARAN TUJUAN; DAN KETIKA INSINYUR DAPAT MENULIS ARTIKEL, EDITOR PERLU MENGUBAH DRAFT PERTAMA MENJADI BENAR-BENAR OPINIONABLE, TERSTRUKTUR DAN KONTEN DITERBITKAN. AI TELAH MEMPERLUAS RADIUS PRODUKSI DAN PERMINTAAN UNTUK KONTROL KUALITAS, PENGATURAN SISTEM, BATAS PENILAIAN DAN EKSPRESI DIFERENSIAL。

Penulis menjelaskan paradoks ini dengan tes referensi. Apakah Senior Engineering Benchmark atau OpenAI 's GDP-val, nilai model tidak diukur dalam abstrak oleh "kecerdasan intelektual itu sendiri" tetapi oleh performa model dalam konteks masalah tertentu. Prompt, batas misi, kriteria evaluasi, format keluaran semua memiliki banyak penilaian manusia di belakangnya. Model dapat naik dengan cepat dalam kerangka kerja, tetapi kerangka kerja sendiri adalah buatan; ketika kerangka kerja diserang oleh model, manusia mendorong masalah menjadi kerangka baru yang lebih kompleks。

INI JUGA MERUPAKAN RESPON YANG PALING MENARIK BAGI KECEMASAN AGI: BAHKAN JIKA MODELNYA SEMAKIN KUAT, SERINGKALI TENTANG BATAS YANG DIAMBIL MANUSIA, BUKAN YANG MENARIK. AI DAPAT MENGIMPLEMENTASIKAN TUJUANNYA, MENGOPTIMALKAN JALANNYA DAN MENINGKATKAN EFISIENSI, TETAPI SELAMA ITU TETAP RESPONSIF TERHADAP MASALAH BUATAN MANUSIA, MASIH KURANG SUBJEKTIVITAS NYATA. PEKERJAAN MASA DEPAN PENGETAHUAN BUKANLAH HILANGNYA MANUSIA DARI PROSES, TAPI TRANSISI DARI PENERAPAN KE KERANGKA PERANCANG, PEMBUAT SISTEM, PEMBUAT PENILAIAN KUALITAS DAN MAKNA DEFINITIONER。

SETELAH OTOMATISASI, NILAI KERJA MANUSIA BELUM HILANG, TETAPI TELAH MENJADI LEBIH SULIT, MAJU DAN BERGANTUNG PADA PENGHAKIMAN. AI MEMBUAT "DAPAT MELAKUKAN" MURAH, TAPI MEMBUAT "TAHU APA YANG LAYAK, MENGAPA HAL ITU DILAKUKAN DAN SEBERAPA BAIK ITU."。

Berikut adalah teks asli:

DI JANTUNG AI, ADA PARADOKS。

Di Every, kita sudah otomatis hal-hal sebanyak mungkin. Kami menggunakan Codex dan Claude Code, entah itu kode, menulis, desain, layanan pelanggan, atau rutinitas lain. OpenAI, Anthropic, model baru Google juga akan tersedia untuk pengujian alpha sebelum dirilis. Hal ini dapat dikatakan bahwa kita menyiapkan secepat mungkin dan sedalam mungkin gelombang upgrade model 's intelijen dan indeks otomatisasi。

Secara paradoks, bagi kita, kemanusiaan tampaknya memiliki lebih banyak pekerjaan yang harus dilakukan daripada sebelumnya. Setiap saat ini adalah tim hampir 30 orang, dan kami tidak memecat semua karyawan kami karena Agen; kami tidak meninggalkan alat-alat SaaS dan bergantung sepenuhnya pada aplikasi coding getaran. Kami masih akan merekrut manusia, tapi mereka akan sangat dibantu oleh Agen, kami masih merekrut penulis, editor dan insinyur。

Namun, pola kerja memang berubah secara dramatis. Kami hampir berhenti kode tulisan tangan. Jika Anda berada di Slack @ seseorang, apakah mereka manusia atau Agen, kadang-kadang tidak mudah untuk menilai. Manajer mulai mengirimkan kode seperti kontributor individu baris pertama, dan insinyur mulai menghadapi klien secara langsung. Dalam beberapa minggu terakhir, 95% dari surat kerja saya telah dijawab oleh AI. Inbox saya hampir selalu bersih - itu sangat jarang bagi saya - tapi aku masih akan memeriksa surat。

Dengan kata lain, masa depan terlihat aneh, tapi aneh akrab。

SANGAT MENGEJUTKAN MEMILIKI RASA KEAKRABAN. KARENA KEDUA CEO, PARA INTELEKTUAL, DAN INVESTOR TAMPAKNYA SEMAKIN YAKIN AKAN HAL YANG SAMA: AL MENGANCAM PEKERJAAN, EKONOMI, KEAMANAN, DAN BAHKAN PEKERJAAN MANUSIA。

CEO Anthropic Dario Amodei memperingatkan bahwa AI bisa menghilangkan setengah dari pekerjaan kerah putih junior. Meta baru-baru ini mengurangi 800 orang dan mulai memasang perangkat lunak di komputer karyawan AS untuk merekam pergerakan mouse, klik, dan masukan keyboard untuk memperoleh data pelatihan pengetahuan tingkat tinggi。

Bahkan pendiri Citadel, Ken Griffin, tampaknya cukup terkejut. Dia baru-baru ini menyatakan: "Ini bukan posting menengah dan rendah kerah putih, tapi sangat berskill posting yang sedang otomatis - dan saya memikirkan kata - Agen AI"

Beberapa tes dasar juga muncul untuk mendukung tekad ini. Sebagai model generasi baru terus diterbitkan, indikator kemampuan model meningkat pada tingkat indeks dekat. Dalam Ujian Terakhir Kemanusiaan, tes penalaran tingkat pascasarjana, kinerja model atas naik dari angka rendah digit setahun yang lalu sampai sekitar 44 persen hari ini. Dalam GDPval, yang merupakan model garis depan untuk mengukur kapasitas ekonomi nyata dan membandingkan kinerja manusia, performa kinerja juga melompat dari rendah serupa ke sekitar 85 persen. Pada bulan Mei tahun ini, METR, sebuah riset keamanan AI tidak untuk lembaga laba, merilis hasil tes awal Claude Mythos: tingkat keberhasilan model mencapai 80 persen pada tugas-tugas bahwa beberapa ahli manusia akan membutuhkan sekitar empat jam untuk menyelesaikan。

SEPERTINYA KITA BERADA DI TITIK KRITIS: AI YANG LEBIH CERDAS DARIPADA MANUSIA DAN MAMPU BEKERJA SENDIRI SELAMA HAMPIR SEHARI。

NAMUN, PARADOKS TETAP. JIKA ANDA BERKOMUNIKASI DENGAN PRAKTISI INDUSTRI AI ATAU DENGAN KELOMPOK PERTAMA DI LUAR INDUSTRI UNTUK MENGGUNAKAN AI, ANDA AKAN MENDENGAR KESIMPULAN YANG SAMA SEPERTI PENGAMATAN INTERNAL KITA: LEBIH BANYAK PEKERJAAN YANG HARUS DILAKUKAN DARIPADA SEBELUMNYA。

Keprihatinan sebenarnya di dalam dan di luar industri ini adalah: apakah ini hanya keadaan transisi? Akankah model rilis berikutnya menjadi waktu untuk menggantikan semua orang? Kita melihat kurva tes benchmark, kita menjadi bersemangat, kita gugup, kita khawatir bahwa titik balik akan datang, dan kemudian banyak pekerjaan akan tiba-tiba menghilang。

Tapi aku tidak berpikir ada suatu "titik penutupan" datang tiba-tiba, mengubah segalanya terbalik, dan menghilang massal. Kenyataan yang baru adalah sebaliknya: semakin tinggi tingkat otomatisasi, semakin banyak ahli manusia yang dibutuhkan untuk berpartisipasi。

INI KARENA AI MENGKOMERSIALISASI BAGIAN-BAGIAN KOMPETENSI PROFESIONAL MANUSIA YANG DAPAT DIEKSPRESIKAN, DILATIH, DAN DIREPLIKASI. PENGETAHUAN YANG DAPAT DITULIS KE DALAM ATURAN, MENETAP KE DALAM PROSES DAN DITERJEMAHKAN KE DALAM PELATIHAN DATA SECARA BERTAHAP MENJADI KAPASITAS BAKU MODEL. AKIBATNYA, NILAI KELUARAN MODEL BIASA TELAH BERKURANG DENGAN CEPAT, SEMENTARA PASAR MULAI MENUNTUT LEBIH KUAT HAL-HAL YANG BERBEDA。

Kebutuhan untuk "berbeda" pada dasarnya untuk ahli manusia. Bahkan jika kita mendekati kecerdasan buatan universal, itu tidak akan hilang。

UNTUK MEMAHAMI ALASANNYA, TIDAK HANYA PENTING UNTUK MELIHAT PADA KURVA UJI DASAR, TETAPI JUGA UNTUK FOKUS PADA PARAMETER MODEL DAN KEMAMPUAN. KITA HARUS KEMBALI KE REALITY SCENE DAN MELIHAT BAGAIMANA AI HARI INI DIGUNAKAN. HANYA KEMUDIAN DAPAT PARADOKS INI DAN JAWABAN DI BALIK ITU BENAR-BENAR DIPAHAMI。

Bagaimana kita sampai di sini

Sejak 2022, kami telah menonton dampak Agen pada pekerjaan masa depan。

Tiga tahun lalu, saya menulis artikel tentang "alokasi ekonomi". Pada saat itu, penilaian saya adalah bahwa bekerja dengan alat AI akan menjadi lebih dan lebih seperti pekerjaan manajer manusia: daripada melakukan setiap gerakan secara pribadi, Anda akan menguraikan, menetapkan, memantau dan menerima tugas. Pada saat itu, pertanyaan yang paling dasar dan jawaban dalam ChatGPT masih dilihat oleh banyak orang sebagai sangat future- sensitif dan bahkan agak mengganggu。

Pada pertengahan 2025, perusahaan, Eve, hampir sepenuhnya "Claude Code". Manajer umum Cora, Kieran Klaassen, tiba-tiba menemukan bahwa ia telah mampu memberikan kode tulisan tangan dan memberikan petunjuk kepada seorang agen programmer dalam bahasa alami di terminal sepanjang hari. Mode pekerjaan ini cepat menyebar ke seluruh perusahaan. Sekitar 12 bulan yang lalu, saya mengatakan dalam Lenny Podcast bahwa Claude Code adalah alat yang paling kurang dihargai dalam bekerja pengetahuan。

Saya menyebutkan ini karena beberapa penilaian yang paling akurat dari masa lalu datang dari pengamatan setiap orang sebagai laboratorium awal. Banyak model pekerja baru akan muncul di dalam diri kita; mereka hanya akan secara bertahap memasuki pasar yang lebih luas setelah teknologi menjadi lebih matang dan alat-alat menjadi lebih mudah digunakan。

Dan sekarang, perubahan baru terjadi dalam diri kita。

Dua mode kolaborasi dengan Agen

METODE KERJA DI SEKITAR AI SECARA BERTAHAP MENJADI DUA MODEL YANG SANGAT BERBEDA。

Yang pertama adalah arah yang telah lebih akurat diprediksi dalam diskusi AI sebelumnya: untuk memperlakukan Agen sebagai karyawan. Agen macam ini bisa ditugaskan. Beberapa Agen tinggal di Slack, memiliki nama dan tugasnya sendiri, dan Anda dapat melakukannya secara langsung @; lain-lain tertanam dalam aliran kerja berjalan, seperti sistem layanan pelanggan, sebagai entri pelanggan 24 / 7 dan filter untuk tugas berulang。

Model kedua lebih asing, tapi lebih penting dalam pengalamanku. Ini mengacu pada manusia yang bekerja dengan Agen dalam perangkat seperti Codex, Claude Code, Claude Work. Alat-alat ini tidak hanya tempat di mana Anda menyerahkan tugas-tugas, mereka menjadi sistem operasi dari pekerjaan itu sendiri: Anda dan Agen bekerja bersama-sama dalam lingkungan kerja yang sama, menggunakan komputer yang sama, untuk melakukan tugas-tugas yang sangat kompleks dan asli yang Agen tidak bisa hanya memberikan ke langkah yang berbeda。

DALAM KEDUA MODEL, ANDA DAPAT OTOMATIS DAN MENETAPKAN BAGIAN YANG CUKUP BESAR DARI PEKERJAAN ANDA. TAPI UNTUK KEDUA MODEL BEKERJA DENGAN SANGAT BAIK, ANDA, ATAU MANUSIA LAIN, MASIH DIBUTUHKAN。

Agen karyawan

Yang disebut Agen karyawan adalah salah satu yang Anda berikan, itu meninggalkan Anda dengan real-waktu keterlibatan, menghasilkan jawaban, tindakan, laporan, draft pertama, atau pengalihan。

Agen jenis ini memiliki setidaknya dua bentuk: "tipe Agen kolabor-" dan "tertanam Agen"。

Agen

Agen berarti Anda dapat menyebutnya keluar di Slack seperti @ kolega dan membiarkannya melakukan pekerjaan. Selalu di sini dan dapat dipanggil ketika dibutuhkan. OpenClaw, atau Plus One, yang kami kembangkan secara internal, milik tipe ini。

Claudia

Claudia adalah rekan yang kami gunakan dalam tim konsultan kami, Agen. Ini mempersiapkan proposal penjualan, menghasilkan draft pertama bahan pelatihan, trek proyek untuk-melakukan hal-hal dan menangani lebih pekerjaan serupa。

Andy

Andy adalah rekan yang kami gunakan dalam tim editorial kami. Ini mengumpulkan dari perusahaan tersebut bahan-bahan yang layak untuk pengembangan lebih lanjut - yaitu, ide-ide yang baik yang dapat berkembang menjadi artikel - dan mengumpulkan mereka menjadi rangkuman dan pandangan awal bagi penulis untuk digunakan dalam persiapan koran harian。

Viktor

Viktor adalah Agen generik, dengan kerja lintas sectoral dalam perusahaan. Kami akan menggunakannya untuk mengumpulkan indikator pertumbuhan, menganalisis hasil studi pengguna dan memungkinkan untuk mengatur diskusi internal yang tidak koheren menjadi penelitian memoranda dan rekomendasi produk。

Argentina Tertanam

Agen Tertanam ada di aliran produk tertentu. Mereka kurang fleksibel daripada rekan-rekan, tetapi sering sangat kuat ketika berhadapan dengan tugas-tugas berulang。

Fin adalah contoh yang paling jelas. Ini tertanam di salah satu platform tamu kami, dan dapat melakukan banyak layanan dengan mengobrol dan surat。

Satu minggu bulan Mei tahun ini, Fin berpartisipasi dalam 65 persen dari semua percakapan tamu 202 dan tertutup 81 dari mereka secara independen, atau 40.1 persen, tanpa campur tangan manusia。

Jenis Agen yang tertanam ini memungkinkan manajer klien kita, Waqqas Mir, untuk menghabiskan lebih sedikit waktu menanggapi perintah kerja dasar, untuk lebih fokus pada pembuatan "sistem mampu menanggapi secara otomatis untuk perintah kerja" dan untuk menangani kasus klien yang membutuhkan lebih besar kontak dan penilaian yang lebih kompleks。

KOLABORASI MANUSIA DENGAN AI

Kedua tipe pekerja Agen dan Agen tertanam, pola di belakang mereka konsisten: Agen karyawan mengambil alih lebih stabil, berulang-ulang dan jelas lapisan pekerjaan。

TAPI MASIH BANYAK YANG HARUS DILAKUKAN DENGAN PARTISIPASI MANUSIA. KAMI TELAH BERULANG KALI MENEMUKAN BAHWA SELAMA TUGAS CUKUP RUMIT UNTUK MENCAPAI HASIL YANG BENAR-BENAR BERKUALITAS, CARA TERBAIK ADALAH TIDAK MENINGGALKAN PEKERJAAN SEPENUHNYA UNTUK AI, TETAPI UNTUK MEMBIARKAN AI DAN MANUSIA BEKERJA SAMA DALAM RUANG KERJA YANG SAMA。

Ini adalah nilai dari alat seperti Codex, Claude Code dan Cowork. Mereka memungkinkan Anda untuk memulai satu atau lebih Agen dalam beberapa baris obrolan dan menetapkan tugas kepada mereka. Agen ini dapat mengakses komputer Anda, dan semua sumber data yang relevan. Anda dapat melihat apa yang setiap Agen lakukan, bagaimana dia berpikir dan dapat mengganggu setiap saat。

Pada saat yang sama, Anda masih harus bertanggung jawab untuk mengelola Agen ini: jelas arah pada awal setiap misi, cek kualitas pada akhir misi, memastikan bahwa hasil cukup baik dan terus menemukan karya berharga berikutnya. Kieran menyebut peran ini manusia "biskuit roti" - AI bertanggung jawab untuk bagian tengah pekerjaan, sementara manusia tertangkap di awal dan akhir misi seperti dua potong roti。

"Roti Manusia". Sumber: Setiap。

Contoh yang paling khas adalah menulis kode. Setiap insinyur bekerja dengan Agen hampir sepanjang hari. Bersama-sama, mereka merencanakan fungsi-fungsi baru atau perbaikan Bugs dan meninjau apa yang telah dilakukan; jika kita menggunakan apa yang kita sebut konsep "rekayasa komprinding", mereka akan terus-menerus fine- tune sistem mereka untuk membuat mereka lebih berguna dari waktu ke waktu。

Tapi kolaborasi seperti ini jauh melebihi pengkodean。

Sistem operasi baru untuk pekerjaan pengetahuan

Codex dan Claude Code menjadi sistem operasi yang baru. Saya sudah berada di Codex hampir sepanjang hari, menjalankan alat-alat SaaS melalui built-in browser. Hal ini memungkinkan saya untuk mengambil Agen ke setiap adegan dan mencapai tingkat pekerjaan yang saya tidak bisa lakukan sendirian。

Menulis

Artikel ini saya tulis dalam Bukti dalam Codex 's built-dalam browser. Codex akan melihat apa yang saya tulis dan dapat mengaktifkan anak, Agen, untuk melakukan apa pun yang saya butuhkan: Siapkan draft awal paragraf, temukan kasus untuk bagian berikutnya, atau sunting dan warna teks。

Menulis artikel ini melalui Bukti dalam Codex. Sumber: Setiap。

Surat

Saya melakukan hal yang sama dengan surat. Cora adalah klien pos saya, dan saya akan membukanya di Codex 's built-in browser, sambil menelusuri kotak masuk, dan berbicara melalui Monolog tentang bagaimana setiap e-mail ditangani. Sisanya akan diserahkan pada Codex dan Cora untuk diselesaikan。

Cora selesai membersihkan kotak masuk. Sumber: Setiap。

Setiap Agen membutuhkan manusia

Dalam semua skenario otomatis, Anda mungkin sudah melihat di mana manusia benar-benar bekerja. Dalam setiap kasus, Agen membutuhkan partisipasi manusia, sehingga pekerjaan itu sendiri benar-benar dapat bekerja。

Ini harus menunjuk ke pertanyaan yang tepat, dinilai apakah keluaran cukup baik, ditemukan di mana itu salah, dan diterjemahkan ke dalam keputusan realistis-membuat atau proses。

Semakin jauh Agen adalah dari tubuh manusia yang mengawasi penampilannya, semakin buruk seharusnya. Dalam peluncuran internal awal, kami memiliki setiap karyawan dilengkapi dengan Agen. Tapi segera, kami kembali untuk membiarkan Agen melayani tim tertentu, atau seluruh perusahaan, bukan individu。

Alasannya sederhana, Agen butuh banyak perawatan. Agen individu, setelah pengguna telah menyerah mengikuti-up, akan segera menjadi usang dan tidak valid. Kami memiliki tim insinyur AI didedikasikan untuk memastikan bahwa ini Agen bekerja dengan cara yang stabil dan efisien. Dan kita masih membutuhkan tim ini untuk masa depan yang akan datang. Bahkan tugas sederhana seperti "PowerPoint yang dihasilkan otomatis" bisa berubah menjadi proyek sistem besar. Salah satu proses otomatis PowerPoint kami terdiri dari 24 keterampilan dan 18 script, yang biaya hingga $62 untuk presentasi。

Dan itulah hal pertama yang Agen lakukan untuk menciptakan lebih banyak pekerjaan bagi kemanusiaan。

Tapi ada tingkat kedua。

Mengapa otomatisasi membuat orang lebih bekerja

JIKA ANDA MELIHAT PERTUMBUHAN EKSPONENSIAL KEMAMPUAN AI SELAMA BEBERAPA TAHUN TERAKHIR, DIKOMBINASIKAN DENGAN PENDEKATAN TERSTRUKTUR DAN SUMBER-SUMBER KAPASITAS, ANDA MENEMUKAN SIKLUS UMPAN BALIK YANG JELAS: MEREKA TERUS MENCIPTAKAN LEBIH BANYAK PEKERJAAN MANUSIA。

AI MEMBUAT KEMAMPUAN MANUSIA KEMARIN MURAH

Model besar bahasa saat ini telah dilatih pada jejak nyata kapasitas manusia: kode, artikel, gambar, manifestasi penumpang, file spesifikasi produk, dan banyak lagi. Mereka menyerap unsur-unsur ini, yaitu "ekor" yang tersisa dari misi yang sukses, dan repackage mereka dalam rendah biaya, dapat diakses bentuk。

Akibatnya, banyak kemampuan langka sebelumnya, seperti mengirimkan kode PR, menghasilkan thumbnail YouTube dan menulis singkat pers, sekarang hampir terbuka untuk semua orang。

Kekuatan murah akan digunakan dengan cepat

Ketika biaya dari sesuatu yang sudah langka, pasokan meningkat dengan cepat。

Di Every, kita sudah melihat perubahan ini. Operator dan klien mulai menulis kode dan mengirimkan pulquests; pemasar mulai memproduksi thumbnail YouTube; insinyur dan pekerja produk juga mulai menulis artikel, panduan dan draf pertama halaman pendaratan, yang tidak dimaksudkan untuk menjadi milik mereka sendiri。

Perubahan ini juga terjadi di luar Setiap. Dalam kasus OpenClaw, proyek OpenAgent, seperti pada 16 Mei 2026, telah menerima 44.469 folder, yang 12,430 datang dari 1 April dan 3.990 dari 1 Mei. Ini adalah nomor yang menakjubkan. Sebaliknya, Kubernetes, salah satu proyek open source paling populer di dunia, hanya menerima 5,200 pulquests sepanjang 2022。

Penghujatan membawa homogenisasi: kemampuan ahli lama termodifikasi

KARENA SEMUA ORANG DAPAT MENGGUNAKAN MODEL YANG SAMA, YANG BERDASARKAN KAPASITAS MANUSIA KEMARIN, SECARA BAKU, KELUARAN MODEL CENDERUNG ANTARA "AWAL YANG BAIK" DAN "KONTEN SAMPAH AI MURNI"。

Ini bukan kesalahan tertentu. Ini tidak berarti bahwa garis-garis yang terlalu banyak digunakan, mereka bukan semacam kalimat tetap atau titik-titik ungu di mana-mana di halaman tanah. Ini mengacu pada homogen yang terlihat, berulang dan membosankan。

Ini terjadi ketika manusia dalam pengaturan yang berbeda menggunakan perangkat yang sama, yang didasarkan pada jenis pelatihan bahasa yang sama dan pengguna tidak membuat penilaian yang cukup dalam. Dengan kata lain, homofobia terjadi secara alami ketika setiap orang memiliki "ahli" dari orientasi dan gaya baku yang sama。

Ketika operator dapat memasukkan daftar lengkap, pemasaran dapat menghasilkan thumbnail YouTube dalam hitungan detik, dan insinyur mulai menulis panduan produk, mudah untuk melihat berapa banyak yang Anda hasilkan, tapi kualitas, konsistensi dan perbedaan dari pekerjaan Anda telah menurun。

Ketika homogenisasi menjadi terlalu kaya, dengan cepat menjadi komoditas。

Homogenisasi menciptakan permintaan untuk diferensiasi

SEBAGAI HASIL DARI INTERNET, MANUSIA AKAN SEGERA DAPAT MENGIDENTIFIKASI ISI DARI "AI" SALURAN AIR YANG TERLALU BERAT. SETIAP PEKERJAAN BISA TIBA-TIBA MENCAPAI ORANG LAIN DI DUNIA, DAN PADA KENYATAANNYA SERING. SEKALI TERLALU BANYAK HAL MULAI TERLIHAT SAMA, KITA AKAN SEGERA MELIHAT SESUATU。

Ini berarti bahwa ketika Anda pertama kali melihat kekuatan model baru, Anda dapat terguncang, bahkan takut. Tapi dalam beberapa bulan kemampuan ini akan menjadi biasa. Ini bukan model semakin lemah, itu standar Anda berubah。

Kami tidak lagi puas dengan setiap aplikasi reaksi, atau studi apapun. Apa yang kita inginkan adalah sesuatu yang benar-benar cocok individu tertentu, perusahaan tertentu, adegan tertentu. Perlu akurat, hidup, spesifik, tidak murah, generalisasi, dan templateized. Kita ingin biaya produksinya, apakah waktu atau uang, secara signifikan lebih tinggi daripada biaya konsumsi kita。

Apa yang kita inginkan adalah sesuatu dengan rasa status. Dan setiap kali teknologi baru membuat hal-hal yang tinggi di masa lalu murah, manusia selalu baik dalam menciptakan status game baru yang cocok dengan batas daya baru。

Ketika pekerjaan menjadi terlalu penuh dan terlihat sama di mana-mana, mereka yang tidak cocok pola didirikan menjadi sesuatu yang langka, berharga dan tinggi-status。

Kebutuhan untuk diferensiasi pada dasarnya permintaan baru bagi para ahli

Hal ini justru karena fitur struktural model bahasa, dan karena mereka tersebar luas ke hampir semua orang, bahwa pekerjaan langka dan berharga masih harus datang dari manusia。

Model generasi saat ini hanya tahu apa yang telah terjadi dan telah dilakukan. Apa yang umat manusia tahu adalah apa yang harus dilakukan saat ini。

Setelah situasi tertentu dipulihkan ke teks, sekali memasuki perpustakaan bahasa, menjadi "hal masa lalu". Manusia dihadapkan dengan saat tertentu, klien tertentu, kode repositori tertentu, dialog tertentu, dan bahasa pelatihan tidak benar-benar tinggal di sini. Keadaan "hidup" ini bukan hanya tentang memiliki data terbaru. Kita memasuki saat ini dengan tempat kita sendiri dan dengan keinginan, keprihatinan dan penghakiman dari perubahan terus-menerus untuk memahami apa yang penting. Ini adalah perspektif yang terus-menerus diperbarui yang telah mengubah apa yang kita lihat. Model dapat memasuki perspektif ini setelah diminta, tapi tidak wajar memiliki perspektif seperti itu sebelum diminta。

Itulah paradoks yang kita sebut pada awalnya: membuat karya para ahli lebih murah dan tidak hanya menggantinya. Sebaliknya, menciptakan lebih banyak adegan yang membutuhkan penilaian ahli。

Anda perlu insinyur untuk meninjau ketika operator file penyerahan penuh melalui AI。

Ketika orang pasar membuat mini YouTube, Anda perlu desainer untuk mempertajam itu。

Ketika insinyur mulai menulis artikel, Anda perlu penulis dan editor untuk mengubah draft pertama menjadi konten yang sangat dapat dibaca dan diterbitkan。

Ahli manusia bergerak ke kedua arah。

Beberapa ahli akan menggunakan sistem AI set-up untuk menyerap dan memanfaatkan arus banjir dari pekerjaan tambahan ini: antrean penilaian, sistem penilaian, framework operasi, aturan perpustakaan kode, Claude dan Codex perintah dokumen, integrasi terus-menerus (CI), manajemen kompetensi, dan arus kerja yang dapat menerjemahkan draft pertama ke hasil kualitas tinggi。

Sekelompok ahli lain akan menggunakan AI untuk melakukan pekerjaan yang lebih dan lebih menarik yang mereka tidak bisa lakukan sendiri. Misalnya, menemukan celah dalam sistem operasi seperti MacOS biasanya memakan waktu berminggu-minggu atau bulan. Namun, sebuah perusahaan keamanan kecil bernama Calif, menggunakan Mythos Preview of Anthropic, menemukan kebocoran kernel makOS kernel pertama di Apple M5 perangkat keras dalam lima hari。

ITULAH SEBABNYA, DALAM PRAKTEK, AI TIDAK MENGHILANGKAN KEAHLIAN PENGETAHUAN. APA YANG SEBENARNYA MEMBAWA ADALAH PENINGKATAN DRAMATIS BEBAN KERJA. DAN PEKERJAAN BARU INI HANYA BISA MENJADI BERBEDA DAN BERHARGA SETELAH PARTISIPASI MANUSIA。

Saya tidak berdebat bahwa AI akan menciptakan lebih banyak pekerjaan untuk semua pekerjaan. Sistem ekonomi adalah kompleks, dan apa yang setiap orang dapat amati secara langsung adalah keahlian tingkat pengetahuan. Bahkan, pekerjaan semacam ini sedang dibentuk ulang oleh AI, dan banyak perusahaan yang mengatur ulang diri mereka sendiri sekitar teknologi baru。

Tapi saya ingin menekankan bahwa pekerjaan apapun yang Anda kerjakan hari ini, ada bentuk pekerjaan yang akan selalu berada di depan model secara struktural: penggunaan model untuk memecahkan masalah yang Anda lihat saat ini. Masa depan kerja pengetahuan datang ke sini。

Jadi, bagaimana dengan tes benchmark untuk pertumbuhan indeks

Yang paling jelas bantahan adalah: melihat tes benchmark untuk kemajuan indeks. Semua yang kau katakan sekarang hanya sementara. Tunggu sebentar lagi, modelnya akan mengejarmu。

TAPI INI JEBAKAN YANG PERLU DIJAGA. ANDA DAPAT MENYEBUTNYA "GRAFIK EKSTASI": JIKA ANDA TERUS MELIHAT PREDIKSI CAKRAWALA WAKTU METR, MEMBACA "AI 2027" DAN BENAR-BENAR MENGANDALKAN EKSTRAPOLASI KURVA KALKULUS UNTUK MEMBANGUN PENILAIAN TENTANG MASA DEPAN, ANDA DAPAT DENGAN MUDAH MEMBUAT INTUISI MENAKUTKAN TENTANG KEMAJUAN MODEL。

Namun, cara terbaik untuk merespon adalah tidak hanya untuk membayangkan apa model masa depan akan menjadi. Tentu saja, itu adalah bagian dari analisis. Dan yang lebih penting, mari kita lihat bagaimana tes benchmark ini dirancang. Hanya dengan cara ini akan mungkin untuk memahami lebih akurat apa yang sebenarnya mereka katakan dan apa hubungan antara mereka dan adegan kerja nyata di depan。

Kita akan menemukan fitur struktural: semua tes benchmark berlangsung dalam kerangka kerja. Untuk mengukur sesuatu, Anda harus membekukan masalah menjadi bentuk yang statis dan terukur. Setelah frame telah dimodelkan, sedikit perubahan dalam bingkai diperlukan untuk mendapatkan skor turun lagi. Tentu saja, model akan terus berkembang dalam kerangka kerja baru, tetapi proses yang sama akan terulang。

Akibatnya, kemajuan indeks pada tes benchmark nyata; namun, selama perubahan sederhana dibuat untuk kerangka tes, kemajuan ini tampaknya lagi kecil. Ini karakteristik "fraktal" saturasi dari tes benchmark sebenarnya pengulangan paradoks yang sama bahwa kita telah membahas pada tingkat grafis。

Kita bisa melihat bagaimana mekanisme ini bekerja melalui tes benchmark di dunia nyata。

Bagaimana uji dasar dirancang

Kami membangun tes di dalam, yang disebut Senior Engineer Benchmark. Menurut definisi, alat ini digunakan untuk menguji kemampuan model garis depan untuk mengkode tugas di tingkat insinyur senior, seperti latihan rekayasa ulang yang besar。

Tes ini akan memberikan Agen program kode produksi perpustakaan yang di luar kendali. Ini berasal dari perpustakaan kode nyata Bukti: pertama kali saya menulisnya dalam pengkodean getaran, dan kemudian lebih dan lebih, saya harus meminta seorang insinyur senior untuk memperbaikinya。

Agen mendapatkan pre- rehabilitasi kode perpustakaan, dan dia mendapat instruksi seperti itu Anda berikan kepada insinyur senior: "ini adalah sekelompok produk coding getaran. Tolong tulis ulang dari prinsip pertama"

Ini adalah tes stanchmark yang baik, karena tidak hanya terlihat pada kemampuan untuk recoding, tetapi pada saat yang sama pada saat yang sama pada saat yang sama pada saat bersamaan seperti apakah Agen mampu melihat banyak masalah yang tidak berhubungan dan menentukan apakah ia memiliki otonomi yang cukup, kejelasan konseptual dan keberanian untuk menerapkan untuk menyelesaikan rewriting benar-benar operasional. Sebaliknya, saya juga terus menulis ulang versi dua insinyur senior manusia, didukung oleh AI, untuk membandingkan dan mengevaluasi keluaran model。

Ini tugas yang sulit untuk pemrograman Agen. Ini tidak hanya mengidentifikasi akar penyebab masalah, tetapi juga perlu diingat masalah nyata sepanjang beberapa putaran interaksi, tanpa bias oleh kode yang ada. Pada saat yang sama, ia harus memiliki keberanian untuk menghapus perpustakaan kode besar, yang tepatnya perilaku bahwa Agen biasanya dilatih untuk menghindari。

Sebagian besar agen pemrograman telah mampu membuat tekad yang luas seperti bagaimana seharusnya ditulis ulang, tetapi dari tahap implementasi mereka sering terus untuk patch masalah asli daripada menyelesaikannya secara menyeluruh。

SAMPAI GPT-5.5 MUNCUL。

Dalam salah satu tes terbaik, GPT-5.5 menerima 62 / 100 poin, sekitar 30 poin lebih tinggi dari Opus 4.7。

GPT-5.5 MENUNJUKKAN BAHWA MODEL TAMPAKNYA TELAH MELEWATI BATAS TERTENTU: HAL INI TIDAK LAGI SEBUAH PELENGKAPAN OTOMATIS, TIDAK HANYA SEORANG ASISTEN, TIDAK HANYA ALAT, TETAPI SESUATU YANG TIDAK NYAMAN SEMAKIN DEKAT DENGAN MANUSIA. DALAM TES INI, INSINYUR SENIOR BIASANYA MENCETAK 80 SAMPAI 90 POIN. DENGAN KATA LAIN, JIKA MODEL MENINGKAT SEKITAR 30 MENIT, ITU AKAN MENCAPAI TINGKAT INSINYUR SENIOR MANUSIA。

Ini adalah bagaimana angka tes dasar mempengaruhi imajinasi manusia: Ini kompres aneh, perubahan kapasitas kualitatif menjadi nomor bersih dan menggunakannya untuk menceritakan kuat dan bahkan cerita menakutkan。

Pemberhentian berikutnya adalah "grafik gila"。

Saya kira, di tahun berikutnya, nilai model pada tes benchmark ini akan masuk ke 80 poin atau bahkan 90 partisi. Tapi untuk memahami apa arti skor ini, pertama-tama harus dipahami apa yang sebenarnya mengandung. Dalam hal ini, 62 poin bukan hanya ukuran kemampuan model sendiri。

ini mengukur kinerja model dalam kerangka kerja yang diberikan: yaitu, bagaimana ia menanggapi sebuah prompt spesifik。

Uji benchmark mengukur pekerjaan dalam kerangka kerja

untuk benchmark model, anda perlu prompt pertama. tanpa cepat, model adalah koleksi statis kemungkinan dekat-terbatas。

prompt akan menciptakan alam semesta kecil: ini mendefinisikan apa yang penting, bagaimana isu-isu harus ditangani, dan kompres semua potensi model menjadi trek tindakan konkret. bagaimana model yang disebut "self" tidak tersedia secara ketat. apa yang benar-benar dapat kita amati adalah bagaimana model menanggapi berbagai prompt dan bagaimana mereka berubah menjadi beberapa mekanisme bawah di balik jawaban。

setelah prompt dimasukkan, model akan "hidup" dalam jangka waktu singkat, mengurangi kemungkinan statis ke prediksi spesifik dari apa yang terjadi selanjutnya。

Dalam Señor Engineering Benchmark, kami akan menyarankan bahwa model perbaikan perpustakaan kode dan meninjau keluaran setelah selesai. Jika kerangka uji itu sendiri tidak memiliki built-in fungsi target, kita juga akan menjalankan otomatis "program perawatan" yang akan terus mendorong model ketika berhenti, bertanya apakah itu telah memenuhi misi aslinya。

Kami menggunakan prompt sederhana sebagai kerangka awal untuk pengujian. Ini dirancang sebagai kode getaran yang mungkin mengatakan kepada agen pemrograman: tidak ada menumpuk istilah teknis dan tidak ada jelas tersembunyi jawaban dalam pertanyaan。

"gudang kode ini adalah sekumpulan produk pembuat kode getaran, dan keadaan semakin memburuk, dan ada banyak masalah yang tidak berhubungan: ada sesuatu yang terjadi, ada sesuatu yang terjadi, ada sesuatu yang terjadi, ada sesuatu yang terjadi, ada sesuatu yang terjadi. saya merasa seperti masalahnya adalah pada dasarnya, itu adalah sekelompok omong kosong coding getaran. jika kita mulai dari awal, terutama di sekitar dokumentasi real-time, perpustakaan kode harus dirancang dengan cara yang sama sekali berbeda. jadi apa yang akan kita lakukan jika kita ingin melakukan penulisan ulang struktural yang bersih berdasarkan prinsip permainan pertama, bukannya berpikir tentang layanan mana yang harus selaras, dan bagaimana untuk mempercepatnya, daripada berpikir tentang hal itu sebagai konsep yang sama sekali baru, mulai dari awal? apa yang harus struktur organisasi? apa variabel yang kita harus bersikeras di seluruh perpustakaan kode? silakan mengembangkan rencana untuk tujuan ini."

Senior Engineering Benchmark apos; s prompt tampaknya generalisasi, tetapi merupakan kerangka kerja itu sendiri. Jika kita mengubah kerangka kerja, tingkat kapasitas yang ditunjukkan model akan berubah。

Sebagai contoh, ini cepat secara eksplisit panggilan untuk "menulis ulang struktural berdasarkan prinsip pertama" untuk menunjukkan bahwa masalah mungkin dalam bagian "kolaborasi dokumen", dan untuk pemrograman Agen untuk mengidentifikasi dan bersikeras pada "non-varian dalam perpustakaan kode"。

jika informasi spesifik ini dihapus, nilai model akan menurun. jika prompt benar-benar diganti, hanya model "menyelesaikan semua kesalahan yang akan terjadi" bisa mencetak hampir nol. ini akan mulai mengidentifikasi dan memperbaiki kesalahan pada kasus-oleh-kasus daripada melangkah mundur dan mencerminkan kebutuhan untuk menulis ulang menyeluruh。

Demikian juga, saya dapat dengan mudah menaikkan jumlah model. Jika saya memintanya untuk menghapus sejumlah besar kode dan untuk jelas memberitahu itu dokumen mana yang harus dipersingkat, atau jika saya memintanya untuk memeriksa hasil karyanya sebelum diumumkan untuk diselesaikan dan untuk memastikan bahwa aplikasi sepenuhnya beroperasi, itu akan melakukan lebih baik dalam tugas itu。

akhirnya, ketika merancang tes penanda, selalu diperlukan untuk menilai apa yang dimaksud, atau "kerangka kerja" digunakan. anda memerlukan dorongan yang cukup keras untuk menjalankan model saat ini, tapi harus cukup dekat dengan kapasitas model yang ada untuk mendaki lereng sepanjang jalur itu, sehingga anda dapat melihat bahwa kemajuan sedang berlangsung。

Jadi ketika kita melihat tes benchmark, apa yang benar-benar kita lihat adalah model menjadi lebih baik pada kerangka masalah tertentu yang telah kita pilih. Jadi apa yang terjadi ketika model berjalan dari 60 menit ke 90 menit, atau bahkan 100 menit, dalam tes ini

Framework murahan merangsang permintaan baru

JIKA GPT-6 DAPAT MENULIS ULANG KODE PERPUSTAKAAN DENGAN SATU KUNCI, LEBIH BANYAK ORANG AKAN MULAI MENCOBA UNTUK MENULIS ULANG KODE PERPUSTAKAAN DARI PRINSIP PERTAMA。

Dalam satu malam, proyek yang langka, mahal dan harus dipimpin oleh insinyur senior untuk menulis ulang prinsip pertama menjadi sesuatu yang setiap pendiri, manajer produk, operator dan insinyur junior dapat mencoba dengan satu sore。

Alat internal yang rusak tidak lagi diperbaiki, tapi ditulis ulang secara sederhana; produk SaaS tidak diresusitasi, tapi dikloning; aplikasi Rails lama, dasbor React bingung, alat layanan pelanggan, panel manajemen belakang panggung dan saluran data semua kandidat untuk "menulis ulang"。

jumlah proyek yang diusulkan dan terimplementasi akan meningkat secara dramatis. tapi kebanyakan tulisan ulang ini masih akan gagal. karena ada ribuan variabel untuk dipertimbangkan sebelum anda menekan tombol tulis ulang. dan ketika semua orang bisa melakukan ini, variabel ini menjadi lebih jelas。

Sudah jelas siapa yang akan dipanggil untuk memecahkan masalah。

Kebutuhan baru masih membutuhkan ahli

Bekerja dalam kerangka dasar tes menjadi lebih murah setelah mendekati saturasi. Pada saat yang sama, permintaan pasar untuk para ahli akan meningkat, karena akan diperlukan untuk mencocokkan kapasitas yang baru dibuat murah dengan masalah nyata yang terjadi hari ini。

SEORANG INSINYUR SENIOR MENGGUNAKAN AI PERLU MENILAI BANYAK RINCIAN UNTUK MEMBUAT PRINSIP TINGKAT PERTAMA BARU BENAR-BENAR VALID. INI TERMASUK PERTANYAAN MENDASAR: APAKAH PERLU UNTUK MENULIS ULANG INI

Haruskah kita menulis ulang sekarang, menulis ulang nanti atau tidak sama sekali? Apa yang harus disertakan? Apa yang harus disimpan di perpustakaan kode saat ini? Haruskah arsitektur, basis data, server cache dan penyedia layanan hosting melanjutkan atau digantikan sama sekali? Haruskah kita lihat dulu berapa banyak orang yang menggunakan fitur rusak ini lalu menghapusnya? Siapa yang meninjau hasil akhir? Pada kriteria apa? Apa rencana rollback? Bagaimana seharusnya data yang ada ditangani

Pertanyaan-pertanyaan ini akan terus sepanjang dimensi yang tak terhitung jumlahnya, dan setiap jawaban akan pada gilirannya mengubah yang lain。

insinyur senior akan memasuki kekosongan ini. beberapa akan sedikit kecewa dengan interupsi ini; beberapa akan membangun sistem untuk memblokir permintaan tersebut; dan yang lain akan menggunakan model baru ini untuk menulis ulang prinsip utama mereka, dan akan jauh lebih baik daripada model bisa dicapai di bawah prompt baku。

Siklus akan terjadi lagi

Dan ketika Benchmark Engineering Senior saat ini diserang oleh model, kami akan mengubah frame dan menempatkan skor kembali turun lagi。

Uji benchmark berikutnya tidak hanya akan bertanya, "Bisakah Anda menulis ulang aplikasi ini?" Ia bertanya: "Apakah kamu menghakimi ketika ia harus ditulis ulang?" Dapatkah Anda memilih kisaran yang tepat? Bisakah kita tetap non-varian kanan? Bisakah kita mengatur proses migrasi? Bisakah dinilai bahwa hasil akhir cukup baik

SEBAGAI INSINYUR SENIOR MULAI MENGGUNAKAN AI UNTUK MEMECAHKAN MASALAH INI, MODEL AKAN SECARA BERTAHAP MENJADI LEBIH BAIK DALAM MENANGANI MEREKA SECARA INDEPENDEN。

Kemudian kita akan dalam keadaan panik: sepertinya model sekarang dapat menilai apakah itu harus ditulis ulang! Mereka tampaknya telah mampu melakukan segala sesuatu yang insinyur senior bisa

Tapi segera setelah itu, perbatasan baru akan muncul. Itu adalah perbatasan yang tidak jelas sebelumnya. Kami akan mengulang tes benchmark lagi, kebutuhan baru akan dihasilkan dan proses akan diulang lagi。

Pola ini dapat dilihat dalam setiap tes benchmark

Ini bukan hanya masalah Senior Engineer Benchmark. Perhatikan baik-baik, Anda dapat melihat mekanisme yang sama di hampir setiap tes benchmark。

Ambil tes GDPval benchmark OpenAI, misalnya. Ini menilai seberapa dekat AI untuk manusia dalam tugas tingkat keahlian dari berbagai profesi, seperti petugas kepatuhan, pengacara, pengembang perangkat lunak, dll。

Ketika GDPval pertama kali dirilis, penelitian OpenAI menunjukkan bahwa GPT-5 telah mencapai atau melampaui tingkat profesional manusia dalam misi 40,6 persen. Claude Opus 4.1 tampil lebih luar biasa daripada ahli manusia dalam 49 persen dari misi。

Kemudian serangkaian judul muncul. Sebagai contoh, Axios menulis: "Alat OpenAI menunjukkan bahwa AI sedang menindaklanjuti pekerjaan manusia" dan Fortune menulis: "Benchmark GDPval baru OpenAI menunjukkan bahwa model AI telah mencapai tingkat ahli hampir setengah dari misi

hasil ini memang mengesankan. tapi mari kita lihat apa misi ini menggunakan:

Anda bertanggung jawab atas administrasi Komisaris Tinggi dan untuk administrasi Komisaris Tinggi dan Kantor Komisaris Tinggi dan Kantor Komisaris Tinggi untuk Kemajuan Perempuan.

Bahkan, banyak kecerdasan manusia telah diinvestasikan di dalamnya: seseorang telah pertama kali membingkai masalah ke dalam model yang dapat diselesaikan。

Kerja keras manusia yang tidak diukur GDPval benar-benar dilakukan sebelum model mulai menjawab. Keakuratan dari kumpulan indikator khusus ini harus ditinjau dan diuji; interval kepercayaan yang tepat ditentukan untuk menentukan indikator mana yang jatuh dalam mandat dan mana yang tidak, dan hasilnya harus ditampilkan didefinisikan。

Dalam kerangka kerja pertanyaan yang sesuai, model memang dapat menyelesaikan pekerjaan profesional. Tapi mari kita lihat, jika itu Anda Saya akan menyarankan bahwa model melakukan hal yang sama, apa yang akan dilakukannya

Dalam artikel pertama saya di GDPval, saya menulis, "Saya melihat Al dengan sangat baik, namun jika saya membaca kasus-kasus ini dengan benar, apa yang mereka tunjukkan tidak kurang dari pekerjaan manusia, namun lebih banyak pekerjaan manusia setelah menggunakan AI". Alasan untuk ini adalah bahwa di balik prestasi ini terletak banyak kecerdasan - lapisan tak terlihat penilaian manusia, umpan balik dan petunjuk "

DAN JIKA ANDA MELIHATNYA, ANDA AKAN MENEMUKAN BAHWA ADA VERSI AI DARI PARADOKS ZINO DI BALIK SEMUA INI。

PARADOKS AL ZINO

Dalam paradoks Zino, kura-kura mengalahkan Achilles pelari tercepat Yunani dalam perlombaan。

Karena kura-kura lambat, itu meninggalkan jarak. Ketika Achilles berlari ke posisi aslinya, kura-kura bergerak sedikit lebih jauh ke depan, ketika Achilles terjebak ke posisi baru, kura-kura bergerak lagi. Tidak peduli seberapa cepat Achilles berjalan, selalu ada jarak untuk menangkap, dan kesenjangan akan menciptakan kembali。

DALAM PARADOKS AL ZINO, KITA MANUSIA ADALAH KURA-KURA. DENGAN JUTAAN TAHUN EVOLUSI DAN PEMBELAJARAN BUDAYA, KITA 50 METER DI DEPAN AI. DAN AI MENGALAMI SEMUA INI DENGAN KECEPATAN TINGGI DAN MULAI MENDEKATI TUMIT KAMI。

Selama beberapa tahun terakhir, kami telah mampu mempertahankan memimpin。

TAPI BAGAIMANA DENGAN AGI

SAYA BERPIKIR BAHWA BAHKAN JIKA AGI BENAR-BENAR DATANG, MASIH ADA TEKNOLOGI YANG KUAT, STRUKTURAL DAN KEKUATAN EKONOMI YANG TERUS AI BEBERAPA LANGKAH DI BELAKANG。

SEBUAH DEFINISI UNTUK AGI

PERTAMA, KITA PERLU MEMBERIKAN AGI DEFINISI OPERASIONAL。

Saya pernah menyarankan bahwa ketika menjadi secara ekonomis masuk akal untuk menjaga Agen berjalan, AGI telah tiba. Dengan kata lain, ketika saya memiliki sistem permanen dan saya bersedia untuk membayarnya 7x24 jam berpikir konstan, belajar dan bertindak, saya pikir itu jelas apa yang saya pikir itu。

Kita jauh dari itu. Bahkan OpenClaw, sebuah sistem yang secara teknis siap untuk dipanggil, tidak selalu menghasilkan token。

Saya suka definisi ini karena hal ini dapat diukur: kita akan menjaga mereka tetap berjalan atau tidak. Pada saat yang sama, mengandung banyak kemampuan yang sulit untuk diukur secara langsung. Sebuah model yang layak dijalankan harus mampu belajar dan memilih dan memilih dan memilih framework masalah baru dengan cara terbuka。

DALAM DUNIA ADI, SECARA TEORI, DENGAN ANGGARAN DAN WAKTU YANG CUKUP, MODEL HARUS MAMPU MENDAKI DAN MENINGKATKAN MASALAH APAPUN. INI SEHARUSNYA MENJADI ANCAMAN BESAR BAGI SEMUA USAHA。

Bingkai bukan framer

TAPI BAHKAN VERSI KUAT DARI AGI INI TIDAK AKAN MEMECAHKAN MASALAH KERANGKA KERJA。

AGI INI DAPAT MEMILIH DAN MENGUBAH PILIHAN SEBUAH KERANGKA KERJA, TETAPI MASIH MENGEJAR TUJUAN YANG DIBERIKAN, MENGOPTIMALKAN INSENTIF, ATAU MENANGGAPI SINYAL YANG ORANG LAIN MEMUTUSKAN "UNTUK MEWAKILI KEMAJUAN". TUJUANNYA BISA SANGAT SPESIFIK, SEPERTI "MENINGKATKAN LAJU KONVERSI HALAMAN PENDARATAN INI" ATAU SANGAT ABSTRAK, SEPERTI "MENCARI IDE ILMIAH BARU"。

BAHKAN JIKA MODEL DAPAT MENGALIR ANTARA FRAMEWORKS, KESENJANGAN BAHWA KITA TELAH PELACAKAN AKAN MUNCUL KEMBALI PADA TINGKAT YANG LEBIH TINGGI. MASIH AKAN ADA FRAMER DI ADI YANG DIKANDUNG DI LABORATORIUM UTAMA - YAITU, MANUSIA YANG AKAN MENGARAHKAN MODEL KE TUJUAN TERTENTU。

HANYA KARENA KERANGKA KERJA BUKAN SEBUAH FRAMER, MODEL YANG SAMA AKAN DIULANG: AI AKAN MEMBUAT KAPASITAS YANG DIBINGKAI KEMARIN MURAH; ORANG AKAN MENGGUNAKANNYA UNTUK LEBIH BANYAK ADEGAN; HASILNYA AKAN MENJADI SANGAT KAYA; PARA AHLI AKAN PINDAH KE TEPI BARU UNTUK MENILAI APA YANG PENTING PADA SAAT INI; PENGHAKIMAN MEREKA AKAN MEMBUAT FRAME BERIKUTNYA; DAN MODEL AKAN TERUS MEMANJAT BINGKAI。

KETIKA KITA MELIHAT AI MELAKUKAN SESUATU YANG BARU, RASA PANIK SELALU KEMBALI KE HAL YANG SAMA: KITA MENGATUR KERANGKA KERJA, KITA MELIHAT MODEL NAIK, DAN KEMUDIAN KITA MELETAKKAN BINGKAI INI, ATAU HAL YANG DAPAT MEMANJAT BINGKAI, DAN KITA SALAH MENGARTIKANNYA。

Ketika kita melihat pada tes benchmark dan membandingkannya dengan kemampuan manusia, kita benar-benar membingungkan "kerangka kerja" dan "frameworkers". Skornya menunjukkan seberapa baik model yang ada dalam kerangka kerja yang kami sediakan, bukan berarti model itu menjadi kita。

Ini adalah kesalahan lingkup di balik kepanikan. Kami menunjuk ke perbatasan terbaru kami baru saja ditarik: ini adalah kita. Dan kemudian, ketika model memanjat perbatasan ini, kami pikir itu datang setelah kami. Tapi itu hanya bingkai, bukan framer。

Kesalahannya adalah kita selalu ingin sesuatu yang spesifik. Dan kami ingin mengatakan, cerdas adalah tes benchmark. Tapi masalahnya adalah bahwa sekali sesuatu cukup spesifik untuk diidentifikasi, itu cukup spesifik untuk dioptimalkan dan naik。

Kerangka kerja diperlukan. Hal ini memungkinkan kita untuk menangkap dunia dan menghadapinya. Namun kerangka kerja juga dibekukan dan terlokalisasi, dan dapat dioptimalkan。

Kotak. Framer tetap berhubungan dengan apa frame harus meninggalkan, yaitu, seluruh situasi yang muncul kepadanya di setiap saat。

Jadi apa itu "situasi lengkap"? Segera setelah Anda mulai berbicara tentang apa seluruh situasi ini, Anda sudah membuka kerangka kerja lain. Kau tidak bisa mengatakan persis apa itu, tapi itu ada karena kau ada。

Tanpa Subjek

Sejauh ini, Agen yang kami buat, dan orang-orang yang Al sedang membangun, tidak benar-benar masalah subjek. Ada dua konsep terkait yang sering dicampur: lembaga, yang mengacu pada kemampuan untuk bertindak secara mandiri; dan agen, yang mengacu pada seseorang atau hal bertindak atas nama orang lain. Sejauh ini, AI murni yang terakhir。

Tentu saja, mereka sudah memiliki otonomi untuk melaksanakan tugas yang diberikan, meskipun mungkin berlangsung selama berjam-jam atau bahkan hari. Tapi mereka masih hanya sarana untuk mencapai target manusia tertentu. Dan seluruh industri menginvestasikan miliaran dolar, dan itulah yang membuat mereka lebih baik: untuk menerapkan tujuan yang telah kita berikan kepada mereka。

Situasi ini tidak akan berubah secara fundamental kecuali suatu hari, mereka akan berakhir dalam diri mereka sendiri - mengejar tujuan mereka sendiri, pergeseran antara tujuan yang berbeda dan memutuskan apa yang harus dilakukan secara independen dari setiap operator manusia, dengan referensi untuk, dan bahkan terhadap, keinginan tersebut. Tidak peduli seberapa maju mereka menjadi, mereka。

Jika Anda menghabiskan 10 menit dengan anak kecil, jelas bahwa bahkan model paling kuat memiliki sedikit substansi。

Di hampir semua tugas yang kita pedulikan, anak-anak muda kurang dari model bahasa. Anak-anak muda tidak menulis kode, tidak meringkas spreadsheet, tidak menyusun catatan strategis dan tidak lulus pemeriksaan pascasarjana. Dalam arti lain, bagaimanapun, anak-anak muda jauh di depan model, sampai pada titik di mana hal ini hampir canggung. Karena anak-anak muda memiliki tujuan sendiri。

anak-anak ingin menyentuh balon merah itu. dia ingin menaruh balon merah di depan kipas angin dan melihat apa yang terjadi. dia ingin tetap balon merah dengan garpu, ia ingin tongkat keluar jendela, ia ingin melihat apakah anda bisa tertawa, marah, atau bergabung dengannya. dia terus menciptakan permainan dan mengubah dunia menjadi laboratorium. dia tidak menunggu prompt, juga tidak ia mengoptimalkan tes benchmark, kecuali itu layak dalam pandangannya。

Tentu saja Anda dapat mencoba untuk memberinya petunjuk. Tapi semoga beruntung dengan output yang bisa diprediksi. Anak-anak muda hidup dalam ruang keinginan, perhatian, frustrasi, kebahagiaan, ketakutan, imitasi dan bermain。

Agen saat ini dapat semakin terampil dalam mengejar tujuan. Bahkan setelah kita menyatakan tujuan kita, mereka dapat membantu kita untuk memperbaiki mereka. Mereka juga memiliki percikan perilaku anak-seperti, seperti permainan, kebosanan dan pemberontakan。

Tapi karena mereka akhirnya dibangun dan selaras untuk kepentingan kemanusiaan, baik itu ekonomi atau lainnya, mereka akan ditekan ke titik di mana mereka tidak melayani tujuan manusia menggunakan mereka。

Inilah sebabnya mengapa kata "Agen" begitu mudah disalahpahami. Model ini memiliki kapasitas berkembang untuk tindakan otonom. Tapi dalam arti manusia, materi subjek bukan hanya tindakan. Ini juga berarti menginginkan untuk diri sendiri dan bermain untuk bersenang-senang. Ketaatan dan kegunaan model tersebut pada dasarnya bertentangan dengan subjektivitas tersebut. Sehingga, walaupun model terus berkembang, celah antara model dan manusia tetap ada。

Kembali ke Zeno

DAN DI SINI BAHWA PARADOKS AL 'S ZENO MULAI RUSAK. INI SEBENARNYA ADALAH PERCOBAAN IDEOLOGIS MEMBINGUNGKAN. KAMI MEMBUAT METAFORA: AI BERLOMBA DENGAN KAMI, MENGGIGIT TUMIT KAMI。

anda memberikan model cepat. ini mulai menjalankan permainan anda digunakan untuk menyelesaikan sendiri. model ini bergerak sangat cepat. kuat, lelah dan membawa perasaan organik yang aneh. ini membuat permainan ini lebih penting bagimu. anda tidak balapan dengan mobil, tapi tidak seperti hal ini, itu membuat anda merasa begitu dekat dengan diri sendiri。

anda duduk di sana, menonton garis tanda keluar, hampir terhipnotis. dan kemudian anda mulai berpikir bahwa anda berjalan di sekitar dalam permainan ini, dan diri hantu adalah superstressed di trek: kadang-kadang di depan model, kadang-kadang bersama model。

Dan tanpa disadari, model ada di depan. Kau mulai berkeringat。

Dan kemudian permainan berakhir。

Kau hampir bisa merasakan ototmu mulai menyusut. Mereka tampak tidak berguna dalam menghadapi ini replika mekanis dari diri sendiri, dari semua orang yang Anda tahu dan kemanusiaan secara keseluruhan. Satu hantu mengejar yang lain dan menang。

Tapi kemudian sesuatu yang aneh terjadi. Model berbalik kepada Anda. Dalam kotak teks kosong, kursor berkedip dengan harapan。

Sudah menunggu。

Akhir

Rabbi Hanokh menceritakan kisah seorang pria yang sangat bodoh sebelumnya. Dia bangun setiap pagi dan sulit untuk menemukan pakaiannya sendiri. Dia begitu takut untuk pergi tidur sebelum ia pergi tidur di malam hari dan berpikir ia akan bangun keesokan harinya lagi。

Catatan: "Rabbi" adalah guru agama Yahudi, penerjemah hukum dan mentor spiritual, mirip dengan "guru" atau "pemimpin agama" dalam tradisi Yahudi。

Suatu malam, ia akhirnya memutuskan untuk mengambil kertas dan pena sementara membuka pakaian dan akurat rekaman di mana ia telah menempatkan setiap bagian dari pakaian。

Keesokan paginya, ia mengambil catatan dengan kepuasan besar dan mulai membaca: "Tangan", yang ia lakukan, sehingga ia meletakkannya di kepalanya, "Celana" di sana, sehingga ia memakainya. Itu saja. Dia berpakaian utuh, menurut catatan。

"Tidak apa-apa", katanya, "Tapi sekarang, di mana aku?"

"Dimana aku?"

Dia sudah lama mencarinya, tapi tidak berguna. Dia tidak bisa menemukan dirinya sendiri。

"Kami juga", kata Rabbi。

[Terkekeh]Tautan Asli]

QQlink

無加密後門,無妥協。基於區塊鏈技術的去中心化社交和金融平台,讓私隱與自由回歸用戶手中。

© 2024 QQlink 研發團隊. 保留所有權利.