Codex怎么用電腦的? 3個入境點和出入邊界

2026/06/21 12:23
🌐zh-Hant

不是給AI更多權力 而是選擇行動線

Codex怎么用電腦的? 3個入境點和出入邊界
原名: 三法碼可以使用公司
原件:杰森
照片來自Peggy Block Beats

由編輯: 這篇文章梳理了三個啟動外部環境的關門: 電腦使用, Brownser的Chrome延伸和应用 。 這三個人似乎在研究「用電腦計算 Codex」的問題。

其中,電腦使用覆盖范围最广,可以直接操作授权的主應用程式,系統設定,iOS模擬器,甚至多重應用程式. 它适合不由 API 、 插件或結構工具支持的 GUI 行程, 但成本要慢得多, 且存取邊界最寬 。 Crome 延伸區適合於那些依赖于登入, cookie, 多個分頁和瀏覽器身份的任務, 例如Gmail, LinkedIn, Salesforce, 內部後台, 或是多個網站的登入研究。 應用程式 Browser 更注重發展與校准, 特別是當地服務、視覺錯誤、應用排版及設計備註解; 它不繼承使用者正常的瀏覽器登入狀態, 更窄, 而是更孤立 。

文章的核心是 Codex 不是唯一的「電腦」方式, 如果您可以使用插件或 MCP, 您不該先使用視覺控制; 如果工作只涉及網路發展, 您應該优先使用應用程式 Brownser; 如果您需要使用者瀏覽器身份與登入狀態, 請切換到 Crome; 當结构化工具無法覆盖, 而工作必須依靠桌面圖像介面時, 這是最後的公里 。

Appshots 不是控制電腦的第四种方式, 而是指向目前上下文 Codex 的工具 。 它能解決上下文的輸入問題,而Browser,Chrome和Company Use則能解決操作問題. 這層圖片透過共同觀察, 實際上揭示了AI Agent產品化的關鍵:它不是給模型无限的存取權, 而是在具体任務中保持狭小。

原文如下:

Codex使用電腦的方式有三:電腦使用,Chrome延伸,以及內部瀏覽器的应用。

它們之間有些重合,令人很困惑。

在讀完這篇文章後, 你會知道如何安裝及啟動這三种方式, 如何使用它們, 如何用 Appshots 和 Devloper 模式連接, 以及用 AGENTS. md 寫什麼, 讓 Codex 可以選擇正確的介面 。

簡單的版本是:

然而, 使用插件或 MCP 是最可取的, 只要可能 。 例如, Slack 外掛程式可以更精确地搜尋線線, 而不是在 Slack 周圍按下; GitHub 外掛程式產生的操作比製作 Codex 驱动器的網頁更容易檢查 。 視覺控制最適合到有結構工具的邊界 。

@ 電腦

電腦 使用是這三種介面中覆盖最廣的. 它可以讓 Codex 在 MacOS 和 Windows 上查看和操作圖像介面, 包括視窗、 選單、 鍵盤輸入, 以及應用程式中您授权的剪貼板 。

它通常是最慢的。 結構插件可以直接呼叫 API; 電腦使用需要觀察介面, 确定點擊位置, 等待應用程式的回應, 並檢查下一個狀態 。 此視頻周期很耗時, 但也意味著 Codex 可以操作於完全不可用於 API 的應用程式 。

在MacOS上 慢點不一定意味著你會被打擾 電腦使用可以在後台操作您的授權應用程式, 您仍然可以使用其余的電腦 。 很多時候,當我用 Codex 開啟應用程式時, 我發現 Codex 做了一個悄悄的後台工作流。

根据您在電腦上安裝與授權的應用程式, 這些可以包括Spotify, Xcode, 系統設定, iOS 模擬器, 甚至iPhone Mirroring 來控制您的 iPhone 。 它也可以在多個應用程式中切換,並處理跨不同應用程式的工作流程。

當任務依賴於:

原始桌面應用程式, 如Spotify或金融應用程式

iOS模拟器、 iPhone Mirroring 或其他只能通过圖像介面操作的流程

系統或應用程式設定

沒有插件或 API 資料來源

工作流需要在多個應用程式中切換

最後一步。

安裝: 開啟 Settlings & gt; 電腦使用 Codex , 然后按下安裝 。

觸發模式: 參考@ Computer, 或是明确要求 Codex 使用電腦 。 随着模型能力的提高,它將在未來需要的時候被稱為自己。

例如:

我最喜歡的例子是 一個包裹被偷了 亞馬遜說要25分鐘才能到客運服務站 我給電腦用戶Cordex線條 每5分鐘檢查一次聊天窗 然後乘客制服每分鐘都檢查一次 我試圖得到退款 等我洗完澡回來 退款就完了。

使用@ Computer來開啟Spotify, 找到我的《發現周刊》播放清單, 並啟動它 。 不要改變我的帳戶或訂閱設定 。 使用@ computer 來開啟 iPhone Mirroring , 在 iOS 應用程式中帶載錯誤, 並拍下仙境的截圖 .

我亦使用電腦用法, 在一款放行影片中, Codex 可以讀取Slack的回應, 變更碼及翻譯新影片, 因此, 電腦使用按下添加檔以填充此缺失的步數 。

亦是三种最广. 它每次只得到一個明确的應用程式或流程 。 關閉某些敏感應用程式並非任務的一部分; 仔细檢查存取視窗。

用 @ Chrome 處理多個分頁及登入狀態

Codex Chrome 延伸讓 Codex 存取您登入的 Chrome 狀態 。 當工作依赖于帳號、 cookie、 瀏覽器設定檔或您已開啟與驗證的分頁時, 應該使用此功能 。

這些介面适合于下列工具的工作:

Gmail 或 LinkedIn

出售力或后台

内部仪表板

跨越多个网站的登入研究

使用您的帳號或扩展瀏覽器表格 。

安裝: 開啟 Codex 的插件, 新增 Chrome 并按設定行程運作 。 Codex 會指引您安裝 Cordex Chrome 延伸, 並且批准 Chrome 權限 。 顯示延伸時啟動新線程 。

觸發器: 參考@ Chrome, 或者明确要求 Codex 使用您的登入的 Shrome 瀏覽器 :

我們@Chrome來檢查開放的CEO帳戶.

Chrome 工作會在 Tab 群組中執行, 這會有助于將與 Cordex 線程相關的 Tabs 群組 。 此介面包含您的瀏覽器身份 。 它使它更強和敏感。

另一主要优点是多平台控制。 Chrome 可以將多個分頁連結到同一工作, 在一頁上下文讀取, 在另一頁上交叉資訊, 在第三頁繼續工作流程 。 電腦用戶也可以以視覺方式驅動瀏覽器, 但Chrome理解此工作是瀏覽器的工作流程, 而不是一系列的螢幕座標 。

我給了Codex一個已經打開的 Strudel Composer 分頁, Chrome 給了它選取的分頁和此頁披露的 WebMCP 工具 。 Codex檢查了音樂結構, 重寫了合唱和四分鐘的整體形式, 修改了速度, 保留了音軌并允許它繼續播放 。 因為Chrome可以將分頁的背景與頁面提供的结构化能力结合起来。

我也用它來經營長期的推特線索。 主要指示如下:

每天用克羅姆來檢查我的DM 讀取相關新聞 尋找我應該知道的回馈或文件.

但線線可以回到相同的登入環境, 連接找到的內容與本地檔案。

信任的界限很重要 網站可能會將Cordex的点击量, 形成呈文與訊息, 網頁本身的內容不是可信任的輸入 。 更嚴肅的一步有清楚的分別:研究、航行和起草可以自動完成;在送交、出版、购买或提交之前,您需要先加以审查。

如果全部工作都是在瀏覽器中完成的, 更喜歡Chrome而不是電腦使用 。 Chrome 有此工作需要的瀏覽器的原始上下文, 但沒有延伸到整個桌面 。

使用@ Browser 處理您正在發展的网站

套用內部瀏覽器是 Cordex 線條內存在的瀏覽器 。 您和 Codex 共享同樣的渲染頁面, 所以它尤其适合建立與調试 Web 應用程式 。

我通常從這裡開始:

本地發展伺服器

基于文件的預覽頁面

不需要登入的開啟頁面

重放視覺錯誤

檢查反應布局

留下頁面元素的設計回應 。

它最重要的限制因素是孤立。 套用內部瀏覽器不使用正常的瀏覽器設定檔、 cookie、 extension、 登入會議或已有的分頁頁 。 但當任務不需要帳號時, 這是一個有用的邊框。

設定 : 開啟 Codex 的插件, 新增 Browser 插件并啟用 。

觸發器: 指向提示中的@ Browser, 或是明确要求 Codex 使用應用瀏覽器 :

使用@browser 在 http://localhost:30/00/ 上開啟 vite app.

這會導致一個關閉的回馈環路: Codex 可以編輯碼, 操作頁面, 檢查渲染, 截圖, 然後在修复後重新驗證相同的行程 。

我最喜歡的是標籤 當我評估本地應用程式時, 您可以直接點擊元素或選擇區域並留下註解 。 樣式控件也允許我預覽和更加精確化文字、字体、間距和顏色。 我通常會將它與聲音輸入、處理方向结合起来:我翻譯頁面、留下註解, 頁面本身就成了規定。

這對設計工作尤其有用 我常常要求 Codex 將一個想法、一個研究套件或專案排序成一個單一的檔案, index.html, 然后用應用瀏覽器開啟它 。 與試圖用另一個提示描述設計套件相比, 我可以直接放在真正的頁面上, 「這個關卡是相反的」 「不像卡片一樣」 「這些控制需要更多的空間」 或是「所有站台的這個單字比例」。 Codex 接收與上下文相關的截圖與元素的註解, 更改檔案, 然后再重新開啟同一頁面到下一轮 。

建立此專案簡介的單一檔案索引( I) html, 并在 in- app @ Browser 中開啟 .

這個周期比反向截取和文字描述更接近於與同一個畫布上的設計者合作。

內部瀏覽器的應用性也是混合工作流程的起始點. 在另一條線上, Cordex轉換到Twitter CLI, 並取回38個回應, 這是「 使用最窄的介面」 的原理: 用瀏覽器來確認屏幕上的上下文, 用結構工具來做更深的搜尋 。

有取舍. 套用內部瀏覽器的隔離使得它是一個很好的開發介面,但也表示它不適合處理依赖瀏覽器延伸的Google登入,密碼或網站. 身份重要時,轉接克羅姆。

圖片

Appshot不是 Codex控制電腦的第四种方式. 這是在你的眼睛面前 用Codex的上下文來指標的方法。

在Mac上 按兩次CMD來抓取最近的視窗 Codex 將附上圖片和所有可用的文字到線程 。 你可以用錯誤的 Appshot 、 電子郵件、 設計、 設置面板、 或奇怪的形式來做, 然後你可以直接說:

這是最簡單的心理模型, 我記得: Appshots是您在電腦上指向某件事的方式; Brownser, Chrome and Company Use 是 Codex 的行為方式。

Appshot 目前是通过 MacOS Codex 應用程式建立 。 它捕捉到前窗,而不是整個桌面. 這讓它成為一個非常有用的方式: 您可以提供焦點上下文而不給予應用程式控制 。

如何追蹤這些發展

這些介面會很快變化 。 如果你想得到實際的細節 而不是等待一個大公告:

專注於Ari Weinstein(@AriX)

追蹤詹姆斯·孫(@JamesZmSun)

關注安德魯·安布羅西諾(@ajambrosino)

觀看 OpenAI 開發者 (@ OpenAIDevs) , 並了解更多 Codex 和 OpenAI 平台新聞 。

[ 笑 ]原始链接]

QQlink

Không có cửa hậu mã hóa, không thỏa hiệp. Một nền tảng xã hội và tài chính phi tập trung dựa trên công nghệ blockchain, trả lại quyền riêng tư và tự do cho người dùng.

© 2024 Đội ngũ R&D QQlink. Đã đăng ký Bản quyền.