Bagaimana Codex menggunakan komputer? Tiga titik masuk dan batas akses

2026/06/21 12:18
🌐id

INI BUKAN TENTANG MEMBERIKAN OTORITAS AI LEBIH, INI TENTANG MEMILIH GARIS TINDAKAN

Bagaimana Codex menggunakan komputer? Tiga titik masuk dan batas akses
Judul asli: Kode Tiga Cara Dapat Menggunakan Perusahaan
original by jason
Foto oleh Peggy Block Beats

Editor oleh: Artikel ini menggabungkan tiga portal ke Codex yang mengoperasikan lingkungan eksternal: Penggunaan Komputer, Ekstensi Chrome dan Aplikasi di Brownser. Ketiga tampaknya bekerja pada masalah "Codex komputasi dengan komputer" tapi sesuai dengan skenario misi yang berbeda, izin batas dan tingkat kepercayaan。

Di antara mereka, Komputer Menggunakan memiliki cakupan terluas dan dapat secara langsung mengoperasikan aplikasi primer, pengaturan sistem, emulator iOS dan bahkan beberapa aplikasi. Ini sesuai proses GUI yang tidak didukung oleh API, plugin atau alat terstruktur, tetapi pada biaya yang jauh lebih lambat dan dengan batas akses terluas. Ekstensi Crome cocok untuk misi yang bergantung pada login, cookies, banyak tab dan identitas peramban, seperti Gmail, LinkedIn, Saleforce, internal belakang panggung, atau studi log masuk di berbagai situs. Peramban aplikasi lebih berorientasi dan dikalibrasi, terutama untuk layanan lokal, bug visual, tata letak responsif dan catatan desain; tidak mewarisi log peramban normal pengguna, status, lebih sempit, tapi lebih terisolasi。

Inti dari artikel ini adalah Codex bukanlah satu-satunya pendekatan "komputer", namun sangat penting untuk memilih antarmuka paling sempit, paling aman, dan paling terstruktur dalam misi. Jika Anda dapat menggunakan plugin atau MCP, Anda seharusnya tidak memakai kendali visual pertama; jika tugas ini hanya melibatkan pengembangan web, Anda harus memberikan prioritas kepada Brownser aplikasi; jika Anda memerlukan pengguna browser identitas dan status login, beralih ke Crome; dan ketika alat terstruktur tidak dapat ditutupi dan tugas harus mengandalkan antarmuka grafis desktop, itu adalah kilometer terakhir。

Aplikasi bukanlah cara keempat untuk mengendalikan komputer, tapi alat untuk mengarahkan konteks ke Codex. Ini memecahkan masalah masukan konteks, sementara Browner, Chrome and Company Gunakan untuk memecahkan masalah operasional. Dengan melihat bersama-sama, lapisan ini sebenarnya mengungkapkan kunci untuk produksi Al Agent: daripada memberikan model akses tak terbatas, itu adalah membuatnya tetap sempit dalam tugas-tugas tertentu, mengklarifikasi batas-batas dan memungkinkan pengguna untuk mempertahankan hak untuk mengaudit operasi penting。

Berikut adalah teks asli:

Codex menggunakan komputer dalam tiga cara: Penggunaan Komputer, ekstensi Chrome, dan aplikasi peramban internal。

Ada beberapa tumpang tindih di antara mereka, yang cukup membingungkan。

Setelah membaca artikel ini, Anda akan tahu bagaimana memasang dan memicu ketiga cara ini, bagaimana menggunakannya, bagaimana menghubungkannya dengan Appshot dan Devloper Mode, dan apa yang akan ditulis dalam AbentS.md, sehingga Codex dapat memilih antarmuka yang tepat。

Versi sederhana adalah:

Namun demikian, penggunaan plugin atau MCPs lebih disukai, selama mungkin. Sebagai contoh, sebuah plugin Slack dapat mencari suatu thread lebih tepat daripada klik di sekitar suatu Slack; operasi yang dihasilkan oleh plugin GitHub lebih mudah untuk memeriksa daripada membuat halaman drive Codex. Kontrol visual paling cocok untuk mencapai perbatasan di mana peralatan terstruktur tersedia。

@ Komputer

Komputer Penggunaan adalah yang paling banyak ditutupi dari tiga antarmuka. Ini memungkinkan Codex untuk melihat dan mengoperasikan antarmuka grafis di MacOS dan Windows, termasuk jendela, menu, masukan keyboard, dan papan klip yang Anda otorisasi dalam aplikasi。

Biasanya yang paling lambat. Plugin terstruktur dapat memanggil API secara langsung; Komputer Menggunakan kebutuhan untuk mengamati antarmuka, menentukan di mana untuk mengklik, menunggu tanggapan aplikasi dan memeriksa keadaan berikutnya. Siklus visual ini memakan waktu, tetapi juga berarti bahwa naskah kuno dapat beroperasi pada aplikasi yang benar-benar tidak dapat digunakan untuk API。

Di MacOS, lambat tidak berarti Anda akan terganggu. Komputer Gunakan dapat mengoperasikan aplikasi yang berwenang Anda di belakang panggung, dan Anda masih dapat menggunakan sisa komputer. Sering kali, ketika saya membuka aplikasi dengan Codex, saya menemukan bahwa Codex telah melakukan aliran kerja diam-diam di belakang panggung。

Menurut aplikasi mana yang Anda instal dan berwenang di komputer Anda, ini dapat termasuk Spotify, Xcode, Pengaturan Sistem, simulator iOS, atau bahkan iPhone Mirroring untuk mengendalikan iPhone Anda. Hal ini juga dapat beralih antara beberapa aplikasi dan penanganan mengalir melalui aplikasi yang berbeda。

Hal ini dapat digunakan ketika misi bergantung pada:

Aplikasi desktop asli seperti Spotify atau aplikasi keuangan

simulator iOS, iPhone Mirroring, atau proses lain yang hanya dapat dioperasikan melalui antarmuka grafis

Pengaturan sistem atau aplikasi

TAK ADA PLUGIN ATAU SUMBER DATA API

Workstream perlu diaktifkan diantara beberapa aplikasi

Langkah terakhir yang hilang dalam integrasi terstruktur。

Instalasi: Buka Settlings & gt; Komputer Gunakan Codex dan kemudian klik Pasang。

Mode pemicu: mengacu ke @ Computer, atau secara eksplisit memerlukan Codex untuk menggunakan Penggunaan Komputer. Sebagai kapasitas pertumbuhan model, itu akan disebut dirinya sendiri di masa depan ketika dibutuhkan。

Beberapa contoh dapat diberikan:

Contoh favorit saya adalah sebuah paket dicuri. Amazon mengatakan kepada saya itu akan mengambil sekitar 25 menit untuk sampai ke layanan penumpang. Saya memberikan thread Cordex ke Komputer Gunakan untuk memeriksa jendela obrolan setiap lima menit, dan kemudian seragam penumpang diperiksa setiap menit, dan saya mencoba untuk mendapatkan pengembalian dana saya. Saat aku kembali dari kamar mandi, pengembalian uangnya selesai。

Gunakan @ Computer untuk membuka Spotify, temukan Discover Weekly Playlist saya, dan mulailah. Jangan mengubah account saya atau pengaturan berlangganan. Gunakan @ Computer untuk membuka Mirroring iPhone, mengambil bug pemuatan dalam aplikasi iOS, dan mengambil cuplikan layar dari negara peri.

Saya juga menggunakan Komputer Gunakan sebagai kilometer terakhir dalam aliran kerja terstruktur. Dalam satu video rilis, Codex dapat membaca umpan balik dari Slack, mengubah kode dan membuat video baru, tetapi integrasi Slack dalam thread yang tidak bisa meng-upload file pada saat itu. Akibatnya, Komputer Gunakan klik Tambahkan berkas untuk mengisi langkah yang hilang ini。

Hal ini juga yang paling luas dari tiga. Ini hanya diberikan satu aplikasi yang jelas atau proses pada suatu waktu. Menutup ketika aplikasi sensitif tertentu bukan bagian dari misi; hati-hati memeriksa jendela akses; dan yang terbaik dipantau di hadapan seseorang ketika keuangan, akun, pembayaran, voucher, privasi dan sistem perubahan keamanan terlibat。

Menangani multiple tab dan status login dengan @ Chrome

Codex Chrome Extension memungkinkan Codex untuk mengakses status Chrome Anda memiliki login. Ini harus digunakan ketika tugas tergantung pada nomor akun, cookie, profil peramban, atau tab yang telah dibuka dan disertifikasi。

Antarmuka ini cocok untuk bekerja dalam alat-alat berikut:

Gmail atau LinkedIn

Sales atau belakang panggung

Dashboard internal

Studi log di beberapa situs web

Reliance nomor akun Anda atau bentuk peramban diperpanjang。

Instalasi: Buka Plugin Codex, tambahkan Chrome dan jalankan sesuai dengan proses pengaturan. Codex akan membimbing Anda untuk menginstal Cordex Chrome ekstensi dan menyetujui izin Chrome. Memulai thread baru ketika ekstensi ditampilkan。

Trigger: mengacu ke @ Chrome, atau secara eksplisit meminta Codex untuk menggunakan peramban Shrome log masuk Anda:

Kami @ Chrome untuk meninjau akun CEO terbuka, membandingkannya dengan piket dukungan di tab lain, dan Draft bidang yang hilang.

Tugas Chrome akan dijalankan dalam kelompok tab, yang akan membantu mengelompokkan tab yang terkait dengan thread Cordex. Antarmuka ini membawa identitas peramban Anda. Itu membuatnya lebih kuat dan lebih sensitif。

Keuntungan besar lainnya adalah pengendalian multi- platform. Krom dapat menghubungkan banyak tab ke tugas yang sama, membaca konteks dalam satu halaman, menyilang informasi di halaman lain, dan melanjutkan alur kerja pada halaman ketiga. Komputer juga dapat mendorong peramban secara visual, tapi Chrome memahami tugasnya sebagai alur kerja peramban ketimbang serangkaian koordinat layar。

Baru-baru ini ada sebuah benang, dan saya memberikan Codex sebuah tab Strudel Composer untuk membuat musik lebih menarik. Chrome memberikannya tab yang dipilih dan alat WebMCP yang ditunjukkan oleh halaman ini. Codex memeriksa struktur musik, rewrited paduan suara dan empat menit seluruh bentuk, dimodifikasi kecepatan, diawetkan trek dan memungkinkan untuk terus bermain. Tidak perlu memvisualisasikan setiap kontrol pada antarmuka karena Chrome dapat menggabungkan konteks tab dan kemampuan terstruktur yang disediakan oleh halaman。

Saya juga menggunakannya untuk menjalankan jangka panjang benang twitter. Arah yang luas adalah:

Setiap hari, gunakan Crome untuk memeriksa DM saya, membaca berita yang relevan, dan mencari umpan balik atau dokumen yang harus saya ketahui.

Ini menarik, bukan berarti Codex dapat menghidupkan Twitter, tapi benang ini dapat kembali ke log yang sama di lingkungan, menghubungkan isi yang ditemukan ke berkas lokal, dan meninggalkan hasil yang dapat saya periksa。

Batas-batas kepercayaan di sini adalah penting. Website mungkin mempertimbangkan hits Cordex, formulir pengiriman dan pesan sebagai tindakan yang diambil oleh Anda. Isi halaman web itu sendiri bukan masukan yang terpercaya. Perbedaan yang jelas dibuat antara langkah-langkah yang lebih serius: penelitian, navigasi dan penggambaran dapat dilakukan secara otomatis; Anda diminta untuk mengulas mereka sebelum mereka dikirim, diterbitkan, dibeli atau dikirimkan。

Jika seluruh tugas dilakukan di peramban, lebih suka Chrome ke Pemakaian Komputer. Chrome memiliki konteks asli dari peramban yang diperlukan untuk tugas-tugas tersebut tanpa memperluas akses ke seluruh desktop。

Gunakan @ Browser untuk memproses situs web yang sedang Anda kembangkan

Terapkan peramban dalam adalah peramban yang ada di dalam thread Cordex. Anda dan Codex berbagi halaman render yang sama, sehingga sangat cocok untuk membangun dan debug aplikasi Web。

Aku biasanya mulai dari sini:

Server pengembangan lokal

Pratilik halaman berdasarkan dokumen

Buka halaman yang tidak memerlukan login

putar ulang bug visual

Memeriksa tata letak respon

Meninggalkan umpan balik desain untuk elemen halaman。

yang paling penting kendala adalah isolasi. terapkan peramban internal tidak menggunakan berkas konfigurasi peramban normal anda, cookie, ekstensi, sesi login atau halaman tab yang ada. ini adalah keterbatasan ketika sebuah misi membutuhkan identifikasi akun; tetapi ketika sebuah misi tidak perlu nomor akun, itu adalah perbatasan yang berguna。

Pengaturan: Membuka Plugin dari Codex, menambahkan plugin Browner dan memfungsikannya。

Trigger: mengacu ke @ Browser dalam petunjuk, atau secara eksplisit memerlukan Codex untuk menggunakan peramban aplikasi:

Gunakan @ browser untuk membuka aplikasi vite pada http: / / localhost: 3000 /, mereproduksi ponsel overfug, memperbaikinya, dan sesungguhnya rute yang sama lagi di dissktop dan ponsel.

Ini akan menghasilkan loop umpan balik yang dekat: Codex dapat menyunting kode, mengoperasikan halaman, memeriksa rendering, cuplikan layar, dan kemudian mengubah proses yang sama setelah perbaikan。

Bagian favoritku adalah label. Ketika saya mengevaluasi aplikasi lokal, Anda dapat mengklik langsung pada elemen atau memilih area dan meninggalkan komentar. Kontrol gaya juga memungkinkan saya untuk pratilik dan memberikan lebih banyak presisi untuk teks, fonta, jarak dan warna. Saya biasanya menggabungkannya dengan input suara, arah proses: saya mengulas halaman, meninggalkan komentar, dan terus berbaris untuk lebih banyak komentar ketika proses Kordex umpan balik saat ini. Halaman itu sendiri menjadi spesifikasi。

Hal ini sangat berguna untuk pekerjaan desain. Saya sering meminta Codex untuk mengurutkan sebuah ide, sebuah paket penelitian, atau sebuah proyek ke dalam satu berkas, index.html, dan kemudian membukanya dengan sebuah peramban aplikasi. Dibandingkan dengan mencoba menggambarkan paket desain di petunjuk lain, saya dapat meletakkannya langsung di halaman nyata, "Tingkat ini adalah berlawanan" "tidak begitu banyak seperti kartu" "Kontrol ini membutuhkan lebih banyak ruang" atau "rasio kata ini untuk semua stasiun". Codex menerima komentar dengan cuplikan layar dan elemen yang relevan dalam konteks, mengubah berkas dan kemudian membuka kembali halaman yang sama ke putaran berikutnya。

Buat satu berkas index.html untuk singkat proyek ini dan buka dalam in- app @ Browser.

Siklus ini terasa lebih dekat untuk bekerja dengan seorang desainer pada kanvas yang sama daripada back- to- back mencegat dan teks deskripsi。

Aplikasi peramban internal juga sesuai dengan titik awal untuk arus kerja campuran. Di baris lain, saya membuka pos X dengan peramban aplikasi untuk mendapatkan Cordex untuk menyelidiki diskusi. Terlihat halaman membantu untuk mengkonfirmasi yang posting saya mengacu, kemudian Cordex switch ke Twitter Cli dan mengambil 38 tanggapan, termasuk respon tertanam tersembunyi dari tampilan peramban. Ini adalah praktek dari prinsip "menggunakan antarmuka tersempit": untuk mengkonfirmasi konteks pada layar dengan peramban, dan membuat pencarian lebih dalam dengan alat terstruktur。

Ada pertukaran. Menerapkan isolasi peramban internal membuatnya menjadi antarmuka pengembangan yang baik, tetapi juga tidak cocok untuk menangani Google login, passkey, atau situs web yang bergantung pada ekstensi peramban. Ketika identitas penting, beralih ke Crome。

Foto-foto

Appshot bukan cara keempat Codex mengendalikan komputer. Ini adalah cara untuk titik Codex dalam konteks depan mata Anda。

Di Mac, tekan CMD dua kali untuk menangkap jendela terdekat. Codex akan melampirkan gambar dan semua teks yang tersedia ke thread. Anda dapat melakukan Appshot dengan kesalahan, email, desain, panel setup, atau bentuk yang aneh, dan kemudian Anda dapat mengatakan:

Ini adalah model mental yang paling mudah yang saya ingat: Foto adalah cara Anda menunjuk pada sesuatu di komputer; Brownser, Chrome dan Perusahaan menggunakan cara Codex bertindak。

Aplikasi kini dibuat melalui aplikasi Codex MacOS. Ini menangkap jendela depan, bukan seluruh desktop. Hal ini membuat cara yang sangat berguna: Anda dapat menyediakan konteks fokus tanpa memberikan kendali atas aplikasi。

Bagaimana menindaklanjuti perkembangan ini

Antarmuka ini berubah dengan cepat. Jika Anda ingin mendapatkan rincian praktis daripada menunggu pengumuman besar:

Fokus pada Ari Weinstein (@ AriX), tahu Company Use and Appliots

Mengikuti James Sun (@ JamesZmSun) tentang Brownser

Mengenai Andrew Ambrosino (@ amjambrosino), tentang aplikasi Codex dan narasi produk desktop yang lebih besar

Saksikan Pengembang OpenAI (@ OpenAIDevs) dan pelajari lebih lanjut tentang Codex dan berita OpenAI Platform。

[Terkekeh]Tautan Asli]

QQlink

Tiada pintu belakang kripto, tiada kompromi. Platform sosial dan kewangan terdesentralisasi berasaskan teknologi blockchain, mengembalikan privasi dan kebebasan kepada pengguna.

© 2024 Pasukan R&D QQlink. Hak Cipta Terpelihara.