Bagaimana Codex menggunakan komputer? Tiga titik masuk dan akses perbatasan

2026/06/21 12:21
🌐ms

INI BUKAN TENTANG MEMBERIKAN AI LEBIH OTORITAS, INI TENTANG MEMILIH GARIS TINDAKAN

Bagaimana Codex menggunakan komputer? Tiga titik masuk dan akses perbatasan
Judul asli: Kodeks Tiga Cara Dapat Menggunakan Perusahaan
oleh jason
Foto oleh Peggy Block Beats

Penyunting oleh: Artikel ini menyisir tiga portal ke Codex yang mengoperasikan lingkungan eksternal: Computer Use, Chrome Extension and Application in Brownser. Hal ini tampaknya dikerjakan oleh ketiga orang tersebut pada isu "mengkomputasi Codex dengan komputer" tetapi sesuai dengan skenario misi yang berbeda, batas izin dan tingkat kepercayaan。

Dari semua ini, Computer Use memiliki cakupan terluas dan dapat secara langsung mengoperasikan aplikasi primer yang berwenang, pengaturan sistem, emulator iOS dan bahkan beberapa aplikasi. Hal ini sesuai dengan proses GUI yang tidak didukung oleh API, plugin atau alat terstruktur, tetapi dengan biaya yang jauh lebih lambat dan dengan batas akses yang paling lebar. Ekstensi Crome sesuai untuk misi yang mengandalkan login, cookie, multiple tab dan identitas browser, seperti Gmail, LinkedIn, Salesforce, internal belakang panggung, atau studi login di seluruh situs web multiple. Aplikasi Browner lebih berorientasi pengembangan dan dikalibrasi, terutama untuk layanan lokal, bug visual, tata letak responsif dan catatan desain; aplikasi ini tidak mewarisi status log-in peramban normal pengguna ' s, lebih sempit, tetapi lebih terisolasi。

Inti artikelnya adalah bahwa Codex bukanlah satu-satunya pendekatan "komputer", tetapi bahwa benar-benar penting untuk memilih antarmuka paling sempit, paling aman, paling terstruktur dalam misi. Jika Anda dapat menggunakan plugin atau MCP, Anda tidak harus pertama kali menggunakan kontrol visual; jika tugas hanya melibatkan pengembangan web, Anda harus memprioritaskan aplikasi Brownser; jika Anda membutuhkan identitas peramban pengguna dan status log masuk, beralih ke Crome; dan ketika alat terstruktur tidak dapat tertutup dan tugas harus mengandalkan antarmuka grafis desktop, itu adalah kilometre terakhir。

Appshots bukanlah cara keempat untuk mengendalikan komputer, tetapi alat untuk menunjuk konteks saat ini ke Codex. Ia menyelesaikan masalah input konteks, sementara Browner, Chrome and Company Use menyelesaikan masalah operasional. Dengan melihat bersama-sama, lapisan ini sebenarnya mengungkapkan kunci produkisasi AI Agent: daripada memberikan akses tanpa batas pada model, hal ini membuatnya sempit dalam tugas tertentu, memperjelas batasan dan memungkinkan pengguna untuk mempertahankan hak untuk mengaudit operasi kritis。

Berikut ini adalah teks asli:

Kodeks Codex menggunakan komputer dengan tiga cara: Penggunaan Komputer, ekstensi Chrome, dan penerapan peramban internal。

Ada beberapa tumpang tindih di antara mereka, yang cukup membingungkan。

Setelah membaca artikel ini, Anda akan tahu cara memasang dan memicu tiga cara ini, cara menggunakannya, cara menghubungkannya dengan Appshots dan Devloper Mode, dan apa yang harus ditulis dalam AGENTS.md, sehingga Codex dapat memilih antarmuka yang tepat。

Versi sederhananya adalah:

Meskipun demikian, penggunaan plugin atau MCPs lebih disukai, selama mungkin. Sebagai contoh, plugin Slack dapat mencari benang lebih tepat daripada klik di sekitar Slack; operasi yang dihasilkan oleh plugin GitHub lebih mudah diperiksa daripada membuat halaman web Codex drive. Kontrol visual terbaik cocok untuk mencapai perbatasan di mana alat-alat terstruktur tersedia。

@Komputer

Komputer Use adalah yang paling banyak tertutup dari ketiga antarmuka ini. Ini memungkinkan Codex untuk melihat dan mengoperasikan antarmuka grafis pada MacOS dan Windows, termasuk jendela, menu, input keyboard, dan papan klip yang Anda otorisasi dalam aplikasi。

Biasanya yang paling lambat. Plugin terstruktur dapat memanggil API secara langsung; Penggunaan Komputer perlu mengamati antarmuka, menentukan di mana harus klik, menunggu respon aplikasi dan memeriksa keadaan berikutnya. Siklus visual ini memakan waktu, tetapi juga berarti bahwa Codex dapat beroperasi pada aplikasi yang benar-benar tidak dapat digunakan untuk API。

Pada MacOS, lambat tidak berarti Anda akan terganggu. Anda dapat mengoperasikan aplikasi yang diizinkan di belakang panggung, dan Anda masih dapat menggunakan seluruh komputer. Banyak kali, ketika saya membuka aplikasi dengan Codex, saya menemukan bahwa Codex telah melakukan aliran kerja diam-diam di belakang panggung。

Menurut aplikasi mana yang Anda pasang dan beri wewenang pada komputer Anda, aplikasi ini dapat mencakup Spotify, Xcode, Pengaturan Sistem, simulator iOS, atau bahkan iPhone Mirroring untuk mengendalikan iPhone Anda. Hal ini juga dapat beralih antara berbagai aplikasi dan menangani alur kerja melintasi aplikasi yang berbeda。

Ini dapat digunakan ketika misi bergantung pada:

Aplikasi desktop pribumi seperti Spotify atau aplikasi keuangan

simulator iOS, iPhone Mirroring, atau proses lain yang hanya dapat dioperasikan melalui antarmuka grafis

Sistem atau pengaturan aplikasi

TAK ADA PLUGIN ATAU SUMBER DATA API

Aliran kerja difford perlu ditukar antara aplikasi ganda

Langkah terakhir yang hilang dalam integrasi terstruktur。

Pemasangan: Membuka Settlings & gt; Penggunaan Komputer Codex dan kemudian klik Pasang。

Mode Pemicu: mengacu pada @Komputer, atau secara eksplisit mengharuskan Codex untuk menggunakan Penggunaan Komputer. Sebagai kapasitas model membaik, ia akan disebut dirinya sendiri di masa depan ketika dibutuhkan。

Beberapa contoh dapat diberikan:

Contoh favorit saya adalah bahwa paket dicuri. Amazon mengatakan kepada saya akan mengambil sekitar 25 menit untuk sampai ke layanan penumpang. Aku memberikan benang Cordex ke Komputer Guna untuk memeriksa jendela chatting setiap lima menit, dan kemudian seragam penumpang diperiksa setiap menit, dan saya mencoba untuk mendapatkan pengembalian uang saya. Ketika aku kembali dari kamar mandi, pengembalian uang selesai。

♪ Gunakan @Komputer untuk membuka Spotify, temukan Discover Weekly Playlist, dan mulailah. Jangan ubah akunku atau pengaturan langganan. Use @Computer untuk membuka iPhone Mirroring, mengambil bug pemuatan dalam aplikasi iOS, dan mengambil cuplikan layar dari keadaan peri.

Saya juga menggunakan Penggunaan Komputer sebagai kilometer terakhir dalam aliran kerja terstruktur. Dalam satu video rilis, Codex dapat membaca umpan balik dari Slack, memodifikasi kode dan memberikan video baru, tetapi integrasi Slack dalam thread tersebut tidak dapat memuat berkas pada waktu itu. Akibatnya, Computer Use diklik Menambah file untuk mengisi langkah yang hilang ini。

Ini juga yang paling luas dari tiga. Ini hanya diberikan satu aplikasi atau proses yang jelas pada satu waktu. Kedekatan ketika aplikasi sensitif tertentu bukan bagian dari misi; memeriksa dengan cermat jendela akses; dan paling baik dipantau dalam kehadiran seseorang ketika keuangan, akun, pembayaran, voucher, privasi dan perubahan keamanan sistem terlibat。

Pemegangan kelipan tab dan status login dengan @Chrome

Codex Chrome Extension mengizinkan Codex untuk mengakses status Chrome yang telah anda login. Ini harus digunakan ketika tugas tergantung pada nomor rekening, kuki, profil peramban atau tab yang telah dibuka dan disertifikasi。

Antarmuka - antarmuka ini cocok untuk digunakan dalam alat - alat berikut:

Eliza Gmail atau LinkedIn

Pengedaran atau belakang panggung

Papan dashboard internal

Studi log-in di seluruh situs web ganda

Reliance nomor rekening Anda atau formulir peramban diperpanjang。

Instalasi: Membuka Plugin Codex, menambahkan Chrome dan beroperasi sesuai dengan proses pengaturan. Codex Codex Codex akan memandu Anda untuk memasang ekstensi Cordex Chrome dan menyetujui izin Chrome. Mulailah benang baru ketika ekstensi ditampilkan。

Pemicu: mengacu pada @Chrome, atau secara eksplisit meminta Codex untuk menggunakan peramban Shrome login Anda:

Kami @Chrome untuk meninjau akun CEO terbuka, membandingkannya dengan piket dukungan di tab lain, dan Draf bidang yang hilang.

Tugas Chrome akan berjalan dalam kelompok tab, yang akan membantu mengelompokkan tab-tab yang terkait dengan benang Cordex. Antar muka ini membawa identitas peramban Anda. Itu membuatnya lebih kuat dan lebih sensitif。

Keuntungan utama lainnya adalah kontrol multi-platform. Chrome dapat menghubungkan tab multiple ke tugas yang sama, membaca konteks dalam satu halaman, menyilang informasi di halaman lain, dan melanjutkan alur kerja di halaman ketiga. Zobia Penggunaan Komputer juga dapat mendorong peramban secara visual, tetapi Krom memahami tugas sebagai alur kerja peramban alih-alih serangkaian koordinat layar。

Baru-baru ini ada benang, dan saya memberi Codex yang sudah dibuka Strudel Composer tab untuk membuat musik lebih menarik. WOW Krom memberinya tab terpilih dan alat WebMCP yang diungkap halaman ini. Codex Codex Codex memeriksa struktur musik, menulis ulang chorus dan empat menit seluruh bentuk, memodifikasi kecepatan, melestarikan trek dan memungkinkan untuk terus bermain. Ini tidak perlu memvisualisasikan setiap kontrol pada antarmuka karena Krom dapat menggabungkan konteks tab dan kemampuan terstruktur yang disediakan oleh halaman。

Aku juga menggunakannya untuk menjalankan benang twitter jangka panjang. Petunjuk yang luas adalah:

Setiap hari, gunakan Crome untuk memeriksa DM saya, membaca berita yang relevan, dan mencari umpan balik atau dokumen yang harus saya ketahui.

Ini menarik, bukan bahwa Codex dapat menghidupkan Twitter, tetapi bahwa benang dapat kembali ke lingkungan log-in yang sama, menghubungkan isi yang ditemukan ke file lokal, dan meninggalkan hasil yang dapat saya periksa。

Batas kepercayaan di sini penting. Situs web ini mungkin menganggap hits Cordex, penyerahan formulir dan pesan sebagai tindakan yang diambil oleh Anda. Kandungan laman web itu sendiri bukanlah input yang dipercaya. Perbedaan yang jelas dibuat antara langkah - langkah yang lebih serius: penelitian, navigasi dan penyusunan dapat dilakukan secara otomatis; Anda diharuskan meninjaunya sebelum mereka dikirim, diterbitkan, dibeli atau diajukan。

Jika seluruh tugas dilakukan di browser, lebih suka Chrome daripada Penggunaan Komputer. Chrome memiliki konteks asli dari peramban yang diperlukan untuk tugas tersebut tanpa memperpanjang akses ke seluruh desktop。

Use @Browser untuk memproses situs web yang Anda kembangkan

Memanfaatkan peramban dalam adalah peramban yang ada di dalam benang Cordex. Anda dan Codex berbagi halaman terjemahan yang sama, sehingga sangat cocok untuk membangun dan debug aplikasi Web。

Biasanya aku mulai dari sini:

Server pengembangan lokal

Halaman pratonton berdasarkan dokumen

Buka halaman yang tidak memerlukan log masuk

serangga visual permainan ulang

Sarapan respon pemeriksaan

Woaldon meninggalkan umpan balik desain untuk elemen halaman。

kekangan yang paling penting adalah isolasi. memanfaatkan sebuah peramban internal tidak menggunakan berkas konfigurasi peramban normal, kuki, ekstensi, sesi log masuk atau halaman tab yang ada. ini adalah batas ketika misi membutuhkan identifikasi akun; tetapi ketika misi tidak membutuhkan nomor rekening, itu adalah perbatasan yang berguna。

Pengaturan: Membuka Plugin Kodeks, menambahkan plugin Browner dan mengaktifkannya。

Pemicu: merujuk @Pelayar dalam petunjuk, atau secara eksplisit mengharuskan Codex untuk menggunakan peramban aplikasi:

Kegunaan @browser untuk membuka aplikasi vite pada http://localhost:3000/, mereproduksi overfug mobile, memperbaikinya, dan tentu rute yang sama lagi di di dissktop dan telepon seluler.

Ini akan menghasilkan loop umpan balik yang dekat: Codex dapat menyunting kode, mengoperasikan halaman, memeriksa rendering, cuplikan layar, dan kemudian merevalidasi proses yang sama setelah perbaikan。

Bagian favoritku adalah label. Ketika saya mengevaluasi aplikasi lokal, Anda dapat mengklik langsung pada elemen atau memilih daerah dan meninggalkan komentar. Style control juga memungkinkan saya untuk preview dan memberikan lebih presisi untuk teks, font, jarak dan warna. Saya biasanya menggabungkannya dengan input suara, arah proses: Saya meninjau halaman, meninggalkan komentar, dan terus mengantre untuk lebih banyak komentar ketika Cordex memproses umpan balik saat ini. Halaman itu sendiri menjadi spesifikasi。

Ini sangat berguna untuk karya desain. Saya sering meminta Codex untuk mengurutkan ide, paket penelitian, atau proyek ke dalam sebuah berkas tunggal, indeks.html, dan kemudian membukanya dengan peramban aplikasi. Dibandingkan dengan mencoba menggambarkan paket desain dalam petunjuk lain, saya dapat meletakkannya langsung di halaman nyata, " Tingkat ini adalah sebaliknya" "tidak begitu banyak seperti kartu" Kontrol ini membutuhkan lebih banyak ruang" atau " rasio kata ini untuk semua stasiun." Codex Codex menerima komentar dengan cuplikan dan unsur yang relevan dalam konteks, mengubah berkas dan kemudian membuka kembali halaman yang sama ke babak berikutnya。

Index.html untuk proyek ini singkat dan membukanya dalam in-app @Browser.

Siklus ini terasa lebih dekat untuk bekerja dengan seorang desainer di kanvas yang sama daripada memintas balik dan deskripsi teks。

Aplikasi dari peramban internal juga sesuai sebagai titik awal untuk aliran kerja campuran. Pada baris lain, saya membuka pos X dengan peramban aplikasi untuk mendapatkan Cordex untuk menyelidiki diskusi. Halaman-halaman yang terlihat membantunya untuk mengkonfirmasi pos mana yang saya maksudkan; kemudian Cordex beralih ke Twitter CLI dan mendapatkan 38 respon, termasuk respon tertanam tersembunyi dari tampilan peramban. Ini adalah praktik prinsip ofmenggunakan antarmuka tersempit": untuk mengkonfirmasi konteks di layar dengan peramban, dan untuk membuat pencarian lebih mendalam dengan alat terstruktur。

Ada perdagangan-off. Memanfaatkan isolasi peramban internal menjadikannya antarmuka pengembangan yang baik, tetapi juga berarti tidak cocok untuk menangani login Google, passkey, atau situs web yang mengandalkan ekstensi browser. Bila identitas penting, beralih ke Crome。

Appshots

Appshot bukan cara keempat Codex mengontrol komputer. Ini adalah cara untuk menunjuk Codex dalam konteks di depan mata Anda。

Pada Mac, tekan CMD dua kali untuk menangkap jendela terdekat. Kodeks Codex akan memasang gambar dan semua teks yang tersedia ke benang. Anda dapat melakukan Appshot dengan kesalahan, email, desain, panel setup, atau bentuk aneh, dan kemudian Anda hanya dapat mengatakan:

Ini adalah model mental yang paling mudah saya ingat: Appshots adalah cara Anda menunjuk pada sesuatu pada komputer; Brownser, Chrome and Company Use adalah cara yang Codex bertindak。

Saat ini Appshots dibuat melalui aplikasi MacOS Codex. Ini menangkap jendela depan, bukan seluruh desktop. Ini menjadikannya cara yang sangat berguna: Anda dapat memberikan konteks fokus tanpa memberikan kontrol atas aplikasi。

Cara menindaklanjuti perkembangan ini

Antarmuka ini berubah dengan cepat. Jika Anda ingin mendapatkan rincian praktis daripada menunggu pengumuman besar:

Fokus pada Ari Weinstein (@AriX), tahu Perusahaan Penggunaan dan Aplikasi

Mengikuti James Sun (@JamesZmSun) tentang Brownser

Salah satu kekhawatiran tentang Andrew Ambrosino (@arjambrosino), tentang aplikasi Codex dan narasi produk desktop yang lebih besar

Parameter watch Pembangun OpenAI (@OpenAIDevs) dan belajar lebih banyak tentang Codex dan berita Platform OpenAI。

[Terkekeh]Bahasa Asli]

QQlink

Tidak ada "backdoor" kripto, tidak ada kompromi. Platform sosial dan keuangan terdesentralisasi berdasarkan teknologi blockchain, mengembalikan privasi dan kebebasan kepada pengguna.

© 2024 Tim R&D QQlink. Hak Cipta Dilindungi Undang-Undang.