Codex はコンピュータを使用するには? 3つのエントリポイントとアクセス境界

2026/06/21 12:19
🌐ja

AI の権限を付与するというわけではなく、アクションの行を選択することです

Codex はコンピュータを使用するには? 3つのエントリポイントとアクセス境界
元のタイトル: 3 つの方法Codexは会社を使用できます
jason(ジェイソン)
ペギーブロックビートによる写真

編集者:この記事は、外部環境を操作するコーデックスに3つのポータルを構成します。: コンピュータ使用、Chrome拡張、およびBrownserのアプリケーション。 3つは「コンピュータでコーデックスを入力」の問題に取り組んでいるようですが、さまざまなミッションシナリオ、許可境界、信頼レベルに対応しています。

これらのうち、コンピュータの使用には最も広い範囲があり、認定プライマリアプリケーション、システム設定、iOSエミュレータ、さらには複数のアプリケーションを直接操作できます。 API、プラグイン、構造化されたツールではサポートされていないGUIプロセスに適していますが、より遅いコストで、最も広いアクセス境界で。 Cromeの拡張は、Gmail、LinkedIn、Salesforce、内部のバックステージ、または複数のWebサイトでのログイン調査など、ログイン、クッキー、複数のタブやブラウザーの識別に依存するミッションに適しています。 アプリケーションBrownerは、特にローカルサービス、ビジュアルバグ、レスポンシブレイアウト、設計ノートのために、より開発指向でキャリブレーションされています。 それはユーザーの「通常のブラウザのログイン状態を継承しません、より狭く、より分離されています。

記事のコアは、Codexが唯一の「コンピュータ」アプローチではないことですが、ミッションの最も狭い、最も安全な、最も構造化されたインターフェイスを選択することは本当に重要です。 プラグインやMCPを使用できるのであれば、まずビジュアルコントロールを使うべきではありません。タスクがWeb開発だけに関与している場合は、アプリケーションBrownserに優先順位を付ける必要があります。ユーザーブラウザのアイデンティティとログイン状態が必要な場合は、Cromeに切り替えます。構造化されたツールがカバーできず、タスクはデスクトップのグラフィックインターフェイスに依存しなければならない場合、それは最後のキロメートルです。

Appshots はコンピューターを制御する4番目の方法ではありませんが、現在のコンテキストを Codex に指すツールです。 Browner、Chrome および Company の使用が操作上の問題を解決する間、それはコンテキスト入力問題を解決します。 一緒に見てみると、このレイヤーは実際にAIエージェントの製品化の鍵を明らかにします。モデルの無制限アクセスを付与するのではなく、特定のタスクに絞り込み、境界を明確にし、ユーザーが重要な操作を監査する権利を保持できるようにします。

以下は元のテキストです

Codex は、コンピューター使用、Chrome 拡張、および内部ブラウザーのアプリケーション 3 つの方法でコンピューターを使用します。

それらの間には、かなり混乱しています。

この記事では、これらの3つの方法をインストールしてトリガーする方法、それらを使用する方法、AppshotsとDevloper Modeでそれらを接続する方法、およびAGENTS.mdで書き込む方法を知っているので、Codexは適切なインターフェイスを選択できます。

シンプルなバージョンは:

それにもかかわらず、プラグインまたはMCPの使用は、可能な限り優先されます。 たとえば、Slack プラグインは、Slack の周りのクリックよりも正確にスレッドを検索できます。GitHub プラグインによって生成された操作は、Codex ドライブの Web ページを作るよりも簡単に確認できます。 構造化されたツールが利用可能な境界線に到達するためのビジュアルコントロールが最適です。

@コンピュータ

コンピュータ 使用はこれらの3つのインターフェイスの最も広く覆われています。 コードックスは、Windows、メニュー、キーボード入力、アプリケーションで承認するクリップボードなど、MacOSとWindows上でグラフィカルインターフェイスを表示および操作することができます。

それは通常最も遅いです。 構造化されたプラグインは、APIを直接呼び出すことができます。コンピューターの使用は、インターフェイスを観察し、クリックする場所を決定し、アプリケーション応答を待ち、次の状態をチェックする必要があります。 このビジュアルサイクルは時間がかかりますが、APIでは完全に使えないアプリケーションでCodexが動作できるということです。

MacOSでは、遅くは、あなたが邪魔されるという意味ではありません。 コンピュータの使用は、承認されたアプリケーションをバックステージで動作させることができます。また、コンピュータの残りの部分を使用することができます。 何度も、Codexでアプリケーションを開いたとき、Codexは作業の流れを静かにバックステージにしました。

お使いのコンピュータにインストールされ、承認されたアプリケーションによると、これらは、Spotify、Xcode、システム設定、iOSシミュレータ、またはiPhoneミラーリングを使用してiPhoneを制御することができます。 また、複数のアプリケーション間で切り替え、異なるアプリケーション間でワークフローを処理します。

ミッションが従うときに使うことができます

Spotifyや金融アプリケーションなどのネイティブデスクトップアプリケーション

iOSシミュレータ、iPhoneミラーリング、またはグラフィカルインターフェイスを介してのみ操作できる他のプロセス

システムまたはアプリケーション設定

プラグインやAPIのデータソースはありません

複数のアプリケーション間でワークストリームを切り替える必要があります

構造化された統合で欠落している最後のステップ。

インストール:Settlingsとgtを開きます。 Codexのコンピュータ使用してからインストールをクリックします。

トリガーモード: @Computer を参照するか、または 明示的に コンピューター使用に使用する Codex が必要です。 モデルの能力が向上するため、必要に応じて将来的に呼び出されます。

いくつかの例を指定できます

私の好きな例は、パッケージが盗まれたことです。 アマゾンは、旅客サービスを受けるために約25分かかると言いました。 チャットウィンドウを5分ごとに確認するために、コンピュータ使用にCordexスレッドを与え、乗客の制服が毎分チェックされ、返金を受けようとしました。 シャワーから戻ったら、返金完了です。

@Computer を使用して、Spotify を開き、Discover Weekly Playlist を見つけて、Spotify を起動します。 アカウントやサブスクリプションの設定を変更しないでください。 @Computer を使用して、iPhone ミラーリングを開き、iOS アプリの読み込みバグを取り、フェアリー状態のスクリーンショットを撮ることができます.

また、構造化されたワークフローの最後のキロメートルとしてコンピュータの使用も行います。 1つのリリースビデオでは、CodexはSlackからフィードバックを読み、コードを変更し、新しい動画をレンダリングすることができますが、そのスレッドのSlack統合は、その時点でファイルをアップロードできませんでした。 その結果、コンピュータは、この不足しているステップを埋めるためにファイルを追加をクリックしてクリックしました。

3つの最も広いです。 一度に1つの明確な適用かプロセスだけ与えられます。 特定の機密アプリケーションがミッションの一部ではないときに閉じます。アクセスウィンドウを慎重に検査し、財務、アカウント、支払い、バウチャー、プライバシー、およびシステムセキュリティの変更が関与したときに、人のプレゼンスで監視されます。

@Chromeで複数のタブとログイン状態を処理します

Codex Chrome Extension では、Codex がログインしている Chrome ステータスにアクセスすることができます。 タスクがアカウント番号、クッキー、ブラウザのプロファイル、または開いたタブ、認証に依存するときに使用されます。

これらのインターフェイスは、次のツールで作業に適しています

GmailかLinkedIn

セールスフォースまたはバックステージ

内部ダッシュボード

複数のウェブサイトを横断したログイン学習

アカウント番号または拡張ブラウザフォームの信頼性。

インストール:Codexのプラグインを開き、Chromeを追加し、設定プロセスに従って動作します。 Codex は、Cordex Chrome 拡張機能をインストールし、Chrome の許可を承認するためのガイドです。 エクステンションが表示されたら新しいスレッドを開始します。

トリガー: ログインShromeブラウザを使用するには、@Chrome、または明示的にCodexを要求します

弊社は、オープンCEOのアカウントをレビューし、他のタブでサポートピケットと比較し、不足しているフィールドをドラフトします.

Chrome タスクはタブグループで実行されます。これは、Cordex スレッドに関連付けられたタブをグループ化するのに役立ちます。 このインターフェイスは、ブラウザのアイデンティティを処理します。 それはより強く、より敏感になります。

もう一つの大きな利点は、マルチプラットフォーム制御です。 Chrome は複数のタブを同じタスクにリンクし、コンテキストを 1 ページで読み、別のページで情報を横断し、3番目のページでワークフローを継続できます。 コンピュータの使用はブラウザを視覚的に動かすことができますが、Chromeは一連の画面座標の代わりにブラウザのワークフローとしてタスクを理解します。

最近はスレッドがあり、コーデックスを既に開いているStrudel Composerタブで音楽をもっと面白くするようになりました。 Chrome は選択したタブと、このページが明らかにした WebMCP ツールを提供しました。 Codexは音楽構造をチェックし、コーラスと4分のフォームを刷新し、速度を変更し、トラックを保存し、再生を続けることを可能にします。 Chrome はタブのコンテキストとページが提供する構造化された機能を組み合わせたため、インターフェイス上のすべての制御を視覚化する必要はありません。

久しぶりのツイッタースレッドを実行するためにも使用しました。 ディレクティブは:

毎日、Cromeを使用してDMをチェックし、関連したニュースを読んで、私が知っているべきフィードバックや文書を探します.

興味深いことに、CodexはTwitterをオンにすることができませんが、スレッドは同じログイン環境に戻り、見つかったコンテンツをローカルファイルに接続し、調べることができる結果を残します。

ここでの信頼の境界は重要です。 当サイトは、お客様が受け取る行動として、Cordexのヒット、フォーム送信、メッセージを検討することができます。 ウェブページ自体のコンテンツは信頼できる入力ではありません。 明確な区別は、より深刻であるステップ間で行われます:研究、ナビゲーション、ドラフトは、自動的に行うことができます。 彼らは送信される前にそれらを確認する必要があります、出版、購入または提出。

ブラウザでタスク全体が終わったら、Chromeをコンピュータ使用に優先します。 Chromeは、デスクトップ全体へのアクセスを拡張することなく、そのようなタスクに必要なブラウザの元のコンテキストを持っています。

@Browser を使用して、開発中のウェブサイトを処理する

内部ブラウザを適用すると、Cordexスレッド内に存在するブラウザです。 お客様とCodexは同じレンダリングページを共有しているため、Webアプリケーションの構築とデバッグに適しています。

私は通常ここに開始します:

ローカル開発サーバー

ドキュメントに基づくプレビューページ

ログインを必要としないページを開きます

ビジュアルバグの再生

応答レイアウトの確認

ページ要素の設計フィードバックを残します。

その最も重要な制約は分離です。 内部ブラウザは、通常のブラウザ設定ファイル、クッキー、拡張機能、ログインセッション、または既存のタブページを使用しません。 これは、ミッションがアカウントの識別を必要とする場合の制限です。しかし、ミッションがアカウント番号を必要としない場合、それは有用な境界です。

設定:Codexのプラグインを開き、Brownerプラグインを追加し、有効にします。

トリガー:ヒントの@Browserを参照するか、または明示的にアプリケーションブラウザを使用するCodexが必要です

@browser を使用して http://localhost:3000/ で vite アプリケーションを開き、モバイル オーバーファグを再現し、それを修正し、dissktop と携帯電話で再び同じルートを繰り返します.

これは、近いフィードバックループになります:Codexは、コードを編集したり、ページを操作したり、レンダリング、スクリーンショットをチェックしたり、修理後に同じプロセスを再検証したりすることができます。

私の好きな部分はラベルです。 ローカルアプリケーションを評価するとき、要素に直接クリックしたり、エリアを選択してコメントを残したりすることができます。 スタイルコントロールは、テキスト、フォント、間隔、色にさらに精密をプレビューし、与えることができます。 私は通常、ボイス入力、プロセスの方向と組み合わせます。 私はページを見直し、コメントを残し、Cordexが現在のフィードバックを処理するとき、より多くのコメントのために並べ続けます。 ページ自体が仕様になりました。

設計作業には特に便利です。 アイデア、リサーチパッケージ、またはプロジェクトを単一のファイル、index.htmlにソートし、アプリケーションブラウザで開きます。 別のヒントにデザインパッケージを記述しようとすると、実際のページに直接「このレベルは反対です」に「カードのようにそれほど多くありません」と「これらのコントロールはより多くのスペースを必要とします」または「すべてのステーションのこの単語の比率」を入力できます。 Codex は、関連するスクリーンショットとコンテキスト内の要素でコメントを受信し、ファイルを変更し、次のラウンドに同じページを再オープンします。

このプロジェクトを簡略化し、アプリ内 @Browser で開きます.

このサイクルは、バックツーバックのインターセプトやテキストの説明よりも、同じキャンバス上のデザイナーと作業に近い感じです。

内部ブラウザのアプリケーションは、混合ワークフローの開始点としても適切です。 一方、X投稿をアプリケーションブラウザで開くと、コーデックスが議論を調べるようになりました。 目に見えるページは、私が言及している投稿を確認するのに役立ちます。 その後、CordexはTwitter CLIに切り替え、ブラウザビューから隠されている埋め込み応答を含む38応答を取得します。 これは、「最も狭いインターフェイスを使用して」の原則の実践です。ブラウザで画面のコンテキストを確認し、構造化されたツールでより深い検索を行うためのものです。

トレードオフがあります。 内部ブラウザの分離を適用すると、それは良い開発インタフェースになりますが、それはまた、ブラウザ拡張に依存するGoogleのログイン、パスキー、またはWebサイトを処理するのには適していません。 アイデンティティが重要である場合は、Cromeに切り替えます。

アプリショット

Appshot は、Codex がコンピューターを制御する 4 番目の方法ではありません。 目の前のコンテキストでCodexを指す方法です。

Mac では、CMD を 2 回押して、最も近いウィンドウをキャプチャします。 Codex は、画像と利用可能なすべてのテキストをスレッドに添付します。 エラー、メール、デザイン、セットアップパネル、または奇妙なフォームでAppshotを実行できます

これは私が覚えることができる最も簡単な精神的モデルです: Appshotsは、コンピュータ上で何かを指す方法です。 Brownser、Chrome、Company Useは、Codexが機能する方法です。

MacOSのCodexアプリケーションでAppshotsが作成されます。 デスクトップ全体ではなく、フロントウィンドウをキャプチャします。 これにより、アプリケーションをコントロールすることなくフォーカスコンテキストを提供できます。

これらの開発をフォローアップする方法

これらのインターフェイスはすぐに変わります。 大規模な発表を待っているのではなく、実用的な詳細を取得したい場合:

Ari Weinstein (@AriX) の焦点は、会社の使用およびAppshots を知っています

ジェームズ・サン(@JamesZmSun)のブラウンザーについて

Andrew Ambrosino(@ajambrosino)、Codexアプリケーション、より大きなデスクトップ製品に関するナレーションに関する懸念

OpenAI Developers (@OpenAIDevs) を見て、Codex と OpenAI Platform のニュースについて詳しく知る。

[ チャック ]オリジナルリンク]

QQlink

无加密后门,无妥协。基于区块链技术的去中心化社交和金融平台,让隐私与自由回归用户手中。

© 2024 QQlink 研发团队. 保留所有权利.