Codex sử dụng máy tính như thế nào? Ba loại lối vào và ranh giới cho phép

2026/06/21 12:26
🌐vi

Điều quan trọng không phải là trao cho AI nhiều quyền hơn mà là để nó chọn ranh giới phù hợp cho hành động của mình.

Codex sử dụng máy tính như thế nào? Ba loại lối vào và ranh giới cho phép
Tiêu đề gốc: Ba cách Codex có thể sử dụng máy tính
Tác giả gốc: jason
Trình biên dịch: Peggy, BlockBeats

Lưu ý của người biên tập: Bài viết này sắp xếp ba lối vào để Codex vận hành môi trường bên ngoài: Sử dụng máy tính, tiện ích mở rộng Chrome và Trình duyệt trong ứng dụng. Cả ba dường như đều giải quyết được vấn đề "cho phép Codex sử dụng máy tính", nhưng chúng tương ứng với các kịch bản nhiệm vụ, ranh giới cấp phép và mức độ tin cậy khác nhau.

Trong số đó, Sử dụng máy tính có phạm vi phủ sóng rộng nhất và có thể vận hành trực tiếp các ứng dụng gốc được ủy quyền, cài đặt hệ thống, trình mô phỏng iOS trên macOS/Windows và thậm chí hoàn thành quy trình công việc trên nhiều ứng dụng. Nó phù hợp với các quy trình GUI không được API, plug-in hoặc công cụ có cấu trúc hỗ trợ nhưng phải trả giá bằng tốc độ chậm hơn và ranh giới cấp phép rộng nhất. Tiện ích mở rộng của Chrome lý tưởng cho các tác vụ dựa vào trạng thái đăng nhập, cookie, nhiều tab và danh tính trình duyệt, chẳng hạn như Gmail, LinkedIn, Salesforce, chương trình phụ trợ nội bộ hoặc nghiên cứu đăng nhập trên nhiều trang web. Trình duyệt trong ứng dụng hướng đến các kịch bản phát triển và gỡ lỗi nhiều hơn, đồng thời đặc biệt phù hợp với các dịch vụ cục bộ, lỗi hình ảnh, bố cục phản hồi và chú thích thiết kế; nó không kế thừa trạng thái đăng nhập của trình duyệt thông thường của người dùng, có khả năng thu hẹp hơn nhưng cũng cô lập hơn.

Nhận định cốt lõi của bài viết là Codex không chỉ là một cách để "sử dụng máy tính". Điều thực sự quan trọng là chọn giao diện vận hành hẹp nhất, an toàn nhất và có cấu trúc nhất theo nhiệm vụ. Nếu bạn có thể sử dụng plug-in hoặc MCP, trước tiên bạn không nên sử dụng điều khiển trực quan; nếu nhiệm vụ chỉ liên quan đến phát triển web, hãy ưu tiên sử dụng Trình duyệt trong ứng dụng; khi cần có danh tính trình duyệt và trạng thái đăng nhập của người dùng, hãy chuyển sang Chrome; chỉ khi các công cụ có cấu trúc không thể giải quyết được nó và nhiệm vụ phải dựa vào giao diện đồ họa của máy tính để bàn thì Sử dụng Máy tính mới là chặng cuối.

Appshots không phải là cách thứ tư để điều khiển máy tính mà là một công cụ "trỏ tới Codex" bối cảnh màn hình hiện tại. Nó giải quyết vấn đề nhập theo ngữ cảnh, trong khi Sử dụng trình duyệt, Chrome và máy tính giải quyết vấn đề hành động. Kết hợp lại với nhau, tập hợp các lớp này thực sự tiết lộ chìa khóa cho việc sản xuất Tác nhân AI: thay vì cho phép mô hình có được quyền không giới hạn, các quyền phải liên tục được thu hẹp, ranh giới rõ ràng và cho phép người dùng giữ quyền xem xét các hành động chính trong các nhiệm vụ cụ thể.

Sau đây là văn bản gốc:

Codex có ba cách để sử dụng máy tính của bạn: Sử dụng máy tính, tiện ích mở rộng của Chrome và trình duyệt trong ứng dụng.

Có một số điểm trùng lặp giữa chúng, vừa đủ để gây nhầm lẫn.

Sau khi đọc bài viết này, bạn sẽ biết cách cài đặt và kích hoạt ba phương pháp này, chúng nên được sử dụng trong những trường hợp nào, cách kết nối chúng trong chế độ Appshots và Nhà phát triển cũng như những gì cần viết trong AGENTS.md để Codex có thể chọn giao diện hoạt động phù hợp.

Phiên bản đơn giản là:

Đã nói rằng, bất cứ khi nào có thể, trước tiên hãy sử dụng plugin hoặc MCP. Ví dụ: plug-in Slack có thể truy xuất một chuỗi chính xác hơn so với việc nhấp vào mọi nơi trong Slack; các hoạt động được tạo bởi plug-in GitHub cũng dễ kiểm tra hơn so với việc để Codex điều khiển một trang web. Kiểm soát trực quan được sử dụng tốt nhất khi khả năng của các công cụ có cấu trúc đạt đến giới hạn.

Mọi thứ đều có thể là @Computer

Sử dụng máy tính là giao diện toàn diện nhất trong ba giao diện điều hành. Nó cho phép Codex xem và thao tác các giao diện đồ họa trên macOS và Windows, bao gồm cửa sổ, menu, đầu vào bàn phím và bảng tạm trong các ứng dụng bạn ủy quyền.

Nó cũng thường là chậm nhất. Các plugin có cấu trúc có thể gọi trực tiếp API; Sử dụng Máy tính yêu cầu quan sát giao diện, xác định vị trí cần nhấp, chờ phản hồi của ứng dụng và sau đó kiểm tra trạng thái bước tiếp theo. Vòng lặp trực quan này tiêu tốn thời gian nhưng cũng có nghĩa là Codex có thể hoạt động trên các ứng dụng hoàn toàn không có API.

Trên macOS, chậm không nhất thiết có nghĩa là sẽ làm phiền bạn. Sử dụng Máy tính có thể chạy các ứng dụng bạn cho phép ở chế độ nền trong khi bạn vẫn có thể tiếp tục sử dụng các phần khác của máy tính. Nhiều khi tôi mở một ứng dụng trong khi sử dụng Codex, tôi thấy rằng Codex đã âm thầm hoàn thành một loạt quy trình công việc ở chế độ nền.

Tùy thuộc vào ứng dụng nào được cài đặt và cấp phép trên máy tính của bạn, những ứng dụng này có thể bao gồm Spotify, Xcode, Cài đặt hệ thống, Trình mô phỏng iOS và thậm chí điều khiển iPhone của bạn bằng iPhone Mirroring. Nó cũng có thể chuyển đổi giữa nhiều ứng dụng và xử lý quy trình làm việc trên các ứng dụng khác nhau.

Sử dụng nó khi nhiệm vụ phụ thuộc vào:

Các ứng dụng gốc trên máy tính để bàn, chẳng hạn như Spotify hoặc các ứng dụng tài chính;

Trình mô phỏng iOS, Phản chiếu iPhone hoặc các quy trình khác chỉ có thể được vận hành thông qua giao diện đồ họa;

Cài đặt hệ thống hoặc ứng dụng;

Không có plugin hoặc API Nguồn dữ liệu;

Quy trình công việc yêu cầu chuyển đổi giữa nhiều ứng dụng;

Bước cuối cùng còn thiếu trong quá trình tích hợp có cấu trúc.

Phương pháp cài đặt: Mở Cài đặt của Codex > Sử dụng máy tính, sau đó nhấp vào Cài đặt.

Được kích hoạt bằng cách đề cập đến @Computer hoặc yêu cầu Codex sử dụng Computer Use một cách rõ ràng. Khi khả năng của mô hình được cải thiện, nó cũng sẽ được gọi khi cần thiết trong tương lai.

Trước tiên, bạn có thể thử một vài ví dụ:

Ví dụ tôi thích nhất là một gói hàng đã bị đánh cắp. Amazon nói với tôi rằng sẽ mất khoảng 25 phút để chuyển sang bộ phận dịch vụ khách hàng. Tôi đã cung cấp cho Máy tính Sử dụng một chuỗi Codex và yêu cầu nó kiểm tra cửa sổ trò chuyện cứ năm phút một lần, sau đó đổi thành mỗi phút khi bộ phận dịch vụ khách hàng xuất hiện và cố gắng yêu cầu tôi hoàn lại tiền. Khi tôi đi tắm về thì việc hoàn tiền đã hoàn tất.

Sử dụng @Computer để mở Spotify, tìm danh sách phát Discover Weekly của tôi và bắt đầu danh sách phát đó. Không thay đổi cài đặt tài khoản hoặc đăng ký của tôi. Sử dụng @Computer để mở iPhone Mirroring, tái hiện lỗi cài đặt trong ứng dụng iOS và chụp ảnh màn hình trạng thái lỗi. Trong khi xuất bản video, Codex có thể đọc phản hồi từ Slack, sửa đổi mã và hiển thị video mới, nhưng việc tích hợp Slack trong chuỗi đó vào thời điểm đó không thể tải tệp lên. Vì vậy Computer Use nhấn Add file để điền vào bước còn thiếu.

Đây cũng là công ty có ranh giới tin cậy rộng nhất trong ba công ty. Mỗi lần chỉ cung cấp cho nó một ứng dụng hoặc quy trình rõ ràng. Khi một số ứng dụng nhạy cảm nhất định không phải là một phần của nhiệm vụ, hãy đóng chúng lại; kiểm tra cẩn thận các cửa sổ bật lên về quyền; và tốt nhất là nên có người có mặt để giám sát những thay đổi liên quan đến tài chính, tài khoản, thanh toán, thông tin xác thực, quyền riêng tư và bảo mật hệ thống.

Xử lý nhiều tab và trạng thái đăng nhập bằng @Chrome

Tiện ích mở rộng Codex của Chrome cấp cho Codex quyền truy cập vào trạng thái đăng nhập Chrome của bạn. Nó nên được sử dụng khi tác vụ dựa trên tài khoản, cookie, hồ sơ trình duyệt hoặc tab mà bạn đã mở và xác thực.

Loại giao diện này phù hợp để làm việc trên các công cụ sau:

Gmail hoặc LinkedIn;

Nhân viên phụ trợ của lực lượng bán hàng hoặc dịch vụ khách hàng;

Trang tổng quan nội bộ;

Nghiên cứu đã đăng nhập trên nhiều trang web;

Các biểu mẫu dựa vào tài khoản hoặc tiện ích mở rộng trình duyệt của bạn.

Phương pháp cài đặt: Mở Plugin của Codex, thêm Chrome và làm theo quy trình thiết lập. Codex sẽ hướng dẫn bạn cài đặt tiện ích mở rộng Codex Chrome và phê duyệt quyền của Chrome. Khi tiện ích mở rộng hiển thị Đã kết nối, hãy bắt đầu một chuỗi mới.

Được kích hoạt bởi: Đề cập đến @Chrome hoặc yêu cầu Codex sử dụng trình duyệt Chrome mà bạn đã đăng nhập một cách rõ ràng:

Sử dụng @Chrome để xem lại tài khoản khách hàng đang mở, so sánh tài khoản đó với phiếu hỗ trợ trong tab khác và soạn thảo các trường còn thiếu. Hãy dừng lại trước khi gửi.

Các tác vụ của Chrome sẽ chạy trong các nhóm tab, giúp giữ các tab liên quan đến chuỗi Codex lại với nhau. Không giống như trình duyệt trong ứng dụng, giao diện này mang danh tính trình duyệt của bạn. Điều này làm cho nó có khả năng hơn và nhạy cảm hơn.

Một ưu điểm lớn khác là khả năng kiểm soát nhiều tab. Chrome có thể liên kết nhiều tab với cùng một tác vụ, đọc ngữ cảnh trên một trang, so sánh thông tin trên một trang khác và tiếp tục quy trình làm việc trên trang thứ ba. Việc sử dụng máy tính cũng có thể điều khiển trình duyệt một cách trực quan nhưng Chrome sẽ hiểu tác vụ như một quy trình làm việc của trình duyệt chứ không phải là một loạt thao tác phối hợp trên màn hình.

Gần đây có một chủ đề trong đó tôi đã mở tab Strudel Composer cho Codex để làm cho âm nhạc trở nên thú vị hơn. Chrome cung cấp cho nó tab đã chọn cũng như công cụ WebMCP được trang này hiển thị. Codex đã kiểm tra cấu trúc của bản nhạc, viết lại hòa âm và hình thức tổng thể của bốn phút, sửa đổi nhịp độ, lưu bản nhạc và cho phép nó tiếp tục phát. Nó loại bỏ nhu cầu tìm kiếm trực quan mọi điều khiển trong giao diện vì Chrome có thể kết hợp ngữ cảnh tab với khả năng cấu trúc do trang cung cấp.

Tôi cũng sử dụng nó để chạy một chủ đề dài hạn trên Twitter. Hướng dẫn chung là:

Hàng ngày, hãy sử dụng Chrome để kiểm tra tin nhắn trực tiếp của tôi, đọc tin tức liên quan và tìm kiếm phản hồi hoặc đề cập mà tôi nên biết.

Ranh giới tin cậy ở đây rất quan trọng. Các trang web có thể coi các lần nhấp chuột, gửi biểu mẫu và tin nhắn Codex là hành động do bạn thực hiện. Bản thân nội dung của trang web cũng là đầu vào không đáng tin cậy. Phân tách rõ ràng các bước mang lại kết quả cao: Nghiên cứu, điều hướng và soạn thảo có thể được tự động hóa; bạn cần xem lại trước khi gửi, xuất bản, mua hoặc gửi.

Nếu toàn bộ tác vụ được hoàn thành trong trình duyệt, hãy sử dụng Chrome thay vì Sử dụng máy tính. Chrome có ngữ cảnh trình duyệt gốc cần thiết cho loại tác vụ này mà không cần mở rộng quyền truy cập vào toàn bộ màn hình.

Sử dụng @Browser trong ứng dụng cho trang web bạn đang phát triển

Trình duyệt trong ứng dụng là trình duyệt nằm bên trong chuỗi Codex. Bạn và Codex chia sẻ cùng một trang được hiển thị, vì vậy nó đặc biệt thích hợp để xây dựng và gỡ lỗi các ứng dụng web.

Tôi thường bắt đầu ở đây:

Máy chủ phát triển cục bộ;

Trang xem trước dựa trên tệp;

Trang công khai không yêu cầu đăng nhập;

Tái tạo các lỗi hình ảnh;

Kiểm tra bố cục đáp ứng;

Để lại phản hồi về thiết kế trên các thành phần của trang.

Hạn chế quan trọng nhất của nó là sự cô lập. Trình duyệt trong ứng dụng không sử dụng cấu hình trình duyệt thông thường, cookie, tiện ích mở rộng, phiên đăng nhập hoặc các tab hiện có của bạn. Đây là hạn chế khi tác vụ yêu cầu nhận dạng tài khoản; nhưng đó là ranh giới hữu ích khi tác vụ không yêu cầu tài khoản.

Phương pháp cài đặt: Mở Plugin của Codex, thêm plug-in Trình duyệt và kích hoạt nó.

Phương pháp kích hoạt: đề cập đến @Browser trong từ được nhắc hoặc yêu cầu rõ ràng Codex sử dụng trình duyệt trong ứng dụng:

Sử dụng @Browser để mở ứng dụng vite trên http://localhost:3000/, tái tạo lỗi tràn thiết bị di động, sửa lỗi đó và xác minh lại cùng một lộ trình ở độ rộng máy tính để bàn và thiết bị di động.

Điều này sẽ tạo thành một vòng phản hồi chặt chẽ: Codex Bạn có thể chỉnh sửa mã, thao tác trang, kiểm tra trạng thái hiển thị, thực hiện chụp ảnh màn hình và sau đó xác minh lại quy trình tương tự sau khi sửa nó.

Phần tôi thích nhất là phần chú thích. Khi tôi đánh giá một ứng dụng gốc, tôi có thể nhấp trực tiếp vào một thành phần hoặc chọn một khu vực và để lại nhận xét. Điều khiển kiểu cũng cho phép tôi xem trước chính xác hơn và cung cấp phản hồi về văn bản, phông chữ, khoảng cách và màu sắc. Tôi thường kết hợp điều này với tính năng nhập bằng giọng nói và hướng dẫn xử lý: Tôi xem lại trang, để lại nhận xét và tiếp tục xếp hàng thêm nhận xét trong khi Codex xử lý phản hồi hiện tại. Bản thân trang này sẽ trở thành bảng thông số kỹ thuật.

Điều này đặc biệt hữu ích cho công việc thiết kế. Tôi thường yêu cầu Codex sắp xếp một ý tưởng, gói nghiên cứu hoặc trạng thái dự án vào một tệp duy nhất, index.html, sau đó mở nó bằng trình duyệt trong ứng dụng. Thay vì cố gắng mô tả toàn bộ thiết kế bằng một lời nhắc khác, tôi có thể đánh dấu trực tiếp nó trên trang thực: "Hệ thống phân cấp này bị đảo ngược", "Nó trông không giống thẻ ở đây", "Những điều khiển này cần nhiều không gian hơn" hoặc "Sử dụng tỷ lệ kích thước phông chữ này trên toàn bộ trang web." Codex nhận nhận xét kèm theo ảnh chụp màn hình và ngữ cảnh phần tử có liên quan, sửa đổi tệp rồi mở lại cùng một trang cho vòng tiếp theo.

Tạo một tệp index.html cho bản tóm tắt dự án này và mở nó trong @Browser trong ứng dụng.

Vòng lặp này giống như làm việc trên cùng một khung vẽ với tư cách là nhà thiết kế, thay vì gửi qua lại ảnh chụp màn hình và mô tả văn bản.

Trình duyệt trong ứng dụng cũng phù hợp làm điểm khởi đầu cho quy trình làm việc kết hợp. Trong một chuỗi khác, tôi đã mở chuỗi X bằng trình duyệt trong ứng dụng và yêu cầu Codex điều tra cuộc thảo luận. Trang hiển thị đã giúp nó xác nhận bài đăng nào tôi đang đề cập đến; Codex sau đó chuyển sang Twitter CLI và truy xuất 38 câu trả lời, bao gồm cả các câu trả lời lồng nhau đã bị ẩn khỏi chế độ xem trình duyệt. Đây là cách thực hành nguyên tắc "sử dụng giao diện hẹp nhất": sử dụng trình duyệt để xác nhận ngữ cảnh trên màn hình, sau đó sử dụng các công cụ có cấu trúc để thực hiện tìm kiếm sâu hơn.

Ở đây cũng có sự đánh đổi. Sự cô lập của trình duyệt trong ứng dụng làm cho nó trở thành một giao diện phát triển tuyệt vời, nhưng điều đó cũng có nghĩa là nó không phù hợp để xử lý thông tin đăng nhập, mật mã hoặc trang web dựa trên tiện ích mở rộng của trình duyệt. Khi danh tính quan trọng, hãy chuyển sang Chrome.

Appshots

Appshot không phải là cách thứ tư Codex kiểm soát máy tính của bạn. Đó là một cách hướng Codex đến ngữ cảnh trực tiếp của bạn.

Trên Mac, nhấn phím CMD hai lần để chụp cửa sổ gần đây nhất. Codex sẽ nối thêm hình ảnh và mọi văn bản có sẵn vào chuỗi. Bạn có thể Appshot một lỗi, một email, một thiết kế, một bảng cài đặt hoặc một biểu mẫu lạ rồi chỉ cần nói:

Đây là mô hình tinh thần mà tôi thấy dễ nhớ nhất: Ảnh chụp ứng dụng là cách bạn trỏ đến thứ gì đó trên máy tính của mình; Sử dụng trình duyệt, Chrome và máy tính là cách Codex thực hiện hành động.

Ảnh chụp ứng dụng hiện được tạo thông qua ứng dụng Codex trên macOS. Nó chụp cửa sổ ngoài cùng, không phải toàn bộ màn hình. Điều này khiến đây trở thành một cách hữu ích để cung cấp bối cảnh tập trung mà không cần cấp quyền kiểm soát ứng dụng.

Cách theo dõi những phát triển này

Những giao diện này thay đổi nhanh chóng. Nếu bạn muốn có thông tin chi tiết thực tế thay vì chờ đợi một bản tóm tắt phát hành khổng lồ:

Hãy theo dõi Ari Weinstein (@AriX) về Sử dụng máy tính và Ảnh chụp ứng dụng;

Theo dõi James Sun (@JamesZmSun) để biết nội dung Trình duyệt;

Theo dõi Andrew Ambrosino (@ajambrosino) để biết các bản phát hành ứng dụng Codex và tường thuật lớn hơn về sản phẩm máy tính để bàn;

Theo dõi các Nhà phát triển OpenAI (@OpenAIDevs) để biết tin tức rộng hơn về Codex và Nền tảng OpenAI.

[Liên kết gốc]

QQlink

암호화 백도어 없음, 타협 없음. 블록체인 기술 기반의 탈중앙화 소셜 및 금융 플랫폼으로, 사용자에게 프라이버시와 자유를 돌려줍니다.

© 2024 QQlink R&D 팀. 모든 권리 보유.