元のタイトル: 行為の後で
Dan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるすべてのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOであるDan ShipperのCEOのCEOであるDan ShipperのCEOのCEOであるDanのCEOであるDan ShipperのCEOのCEOであるDanのCEOであるDan ShipperのCEOであるDanのは、Dan ShipperのCEOである、DanのCEOのCEOのCEOである、DanのCEOのCEOのCEOのCEOのCEOのCEOのCEOのCEOのCEOのCEOであり、DanのCEOであり、DanのCEOであり、Danです
ペギーブロックビートによる写真

編集者:最近、AIと仕事に関する議論は、ほぼ1つの質問によって支配されています。モデルの機能は引き続き改善し、白の襟の仕事は大規模に置き換えられますか? コード生成、カスタムサービス自動化からコンテンツ制作まで、エージェントは、人間であるという知識を継続的に受け継いでいます。ベンチマーキングテストも、この不安を補強しています。大学院レベルの推論、実質的な経済タスクにおけるモデルのパフォーマンス、高度なエンジニアレベルのコードの再エンジニアリングは、「自動化された人間の仕事」の重要なポイントに近づいているようです。

しかし、この記事では、すべてのCEOのDan Shipperは、より自動化された、より人間が行う対向の観察を提供しています。一人ひとりがAIエージェントの深いユーザーであり、Codex、Claude Code、Slack Agent、ゲストスーツエージェントなどのツールは、エンコード、書面、設計、および管理されたプロセスに内部的に埋め込まれています。その結果、しかし、スタッフの完全な交換はありませんでしたが、作業パターンの再編:エンジニアは単なるコードを書くことではなく、見直し、システムを再構築し、編集者はもはや原稿を書くことではなく、文章を書く価値とどのように異なるのかを判断しませんでした。そして、訪問者は、すべての基本的な作業リストを処理しなくなり、クライアントに自動的に対応できるシステムを維持しました。

この記事に関する最も興味深いことは、「AIが特定のタスクを達成できるかどうかではありません」ではなく、知的作業における人間の存在の場所を再定義することです。 AIは、過去の安い:コード、スクリプト、サムネイル、顧客サービス応答、製品の説明、研究はモデルによってすぐに生成することができる容量を作ることで良いです。しかし、これらの機能がすべて利用可能になると、市場はしばしば、高品質の差別化された出力ではなく、類似した、判断の欠如、言語の感覚を見て、多くの「デフォルト出力」を伴う。言い換えれば、AIは「昨日の人員の能力」を修正し、その瞬間の特定の問題に直面して本当に怖いことは判断です。

その結果、自動化は専門家を排除しませんでしたが、その関与を必要とするより多くのシーンを作成しました。オペレータはAIを使用してコードを提出することができます, エンジニアは、統合に値するコードを決定する必要があります; 市場が数秒でサムネイルを生成することができるとき, デザイナーは、ブランドと差別の目的に合ったものを判断する必要があります; そして、エンジニアは記事を書くことができるとき, 編集者は、偽りなく見解可能なに最初のドラフトを回す必要があります, 構造化および公表されたコンテンツ. AIは、品質制御、システム設定、境界判断、差分表現の需要と生産半径を拡大しました。

著者は、リファレンステストでこのパラドックスについて説明しました。シニアエンジニアリングのベンチマークやOpenAIのGDP-val、モデルのスコアは「知能自体」による抽象では測定されませんが、特定の問題のコンテキストでモデルのパフォーマンスによって。プロンプト、ミッション境界、評価基準、出力フォーマットはすべて、それらの背後にある人間の判断の大きな範囲が含まれています。モデルはフレームワーク内ですぐに登ることができますが、フレームワーク自体は人造です。フレームワークがモデルによって攻撃されると、人間はより複雑な新しいフレームワークに問題を押します。

AGIの不安に対する最も興味深い反応です。モデルがより強くなっている場合でも、人間が描く境界についてよくあります。 AIは、その目的を実装し、その経路を最適化し、その効率性を高めることができますが、人間が作った問題に反応する限り、現実の主観性を欠きます。知識の未来は、プロセスから人間の存在の消失ではなく、実装者からフレームワークデザイナー、システムメンテナ、品質判断者、意味の定義者への移行です。

自動化後、人間の仕事の価値は消えませんが、裁判官の難しさ、前進し、頼りになる。人工知能は「もっと安く」するが、「価値あるものを知っています。なぜそれがやっているのか、そしてそれが良いのか」を作る。

以下は元のテキストです

AIの中心にはパラドックスがあります。

毎回自動化したモノを可能な限り自動化しました。コード、ライティング、デザイン、カスタマーサービス、またはその他のルーチンであっても、CodexとClaudeコードを使用しています。 OpenAI、Anthropic、Googleの新しいモデルはリリースされる前にアルファテストのためにまた利用できます。モデル ' s インテリジェンスと自動化インデックスのアップグレードの波ができるだけ速く設定されていると言えるでしょう。

パラドックス的に、私たちにとって、人類はこれまで以上に多くの仕事をしてきたようです。現在、ほぼ30名のチームであり、エージェントの従業員全員が消火しませんでした。SaaSツールを放棄し、バイブコーディングアプリケーションを完全に頼りにはなりませんでした。人材を募集しますが、エージェントが大きく支援します。また、執筆者、編集者、エンジニアを募集しています。

しかし、仕事のパターンは、本当に劇的に変化しています。手書きコードをほとんど停止しました。 Slack @ にいるなら、人間かエージェントなのか、判断するのは簡単です。管理者は、第一線の個々のコントリビューターのようなコードを提出し、エンジニアはクライアントに直接直面し始めました。過去数週間で、AIが回答したメールの95%が回答しました。私の受信トレイがほとんど常にきれいにされている — 私にとって非常にまれです — 私はまだメールをチェックします。

言い換えれば、未来は変わって見えますが、不思議に馴染みがあります。

こんなに馴染みのセンスを持てるのは意外です。両CEO、知的、投資家は、AIが雇用、経済、セキュリティ、さらには人的業務を脅かしているという点で、より一層確信しているようです。

AnthropicのCEOであるDario Amodeiは、AIがジュニアホワイトカラージョブの半分だけをなくすことができると警告しました。メタは最近800人削減し、マウスの動きを記録するために、米国の従業員コンピュータにソフトウェアをインストールし、クリックし、キーボード入力を押して、高品質の高度な知識のトレーニングデータを入手しました。

シタデルの創始者でさえ、グリフィンケンはショックを受けているようです。最近述べた:「これらは中級と低レベルの白書の投稿ではなく、非常に高スキルの投稿を自動化している - と私は言葉を考える - エージェンシーAI」

様々なベースラインテストも、この決定をサポートするように見えます。今後もモデルの新世代として、モデル機能インジケーターが近いインデックスレートで立ち上がります。 HumanityのLast Examでは、後段階レベルの推論テスト、一年前の低桁数のトップモデルのパフォーマンスが今日まで約44パーセントに上昇しました。 GDPval では、実質の経済能力を測定し、人間のパフォーマンスを比較するための最前線のモデルであり、モデルのパフォーマンスも同様の低音から約 85 にジャンプしました。今年5月に、AIセキュリティ研究の非営利機関であるMETRは、Claude Mythosの早期テスト結果を発表しました。モデルの成功率は、一部の人の専門家が完了するのに約4時間を必要とするタスクに80パーセントに達しました。

ここまでは、どんな人よりも賢く、ほぼ毎日自分の仕事をできるようにするAIの先端的なポイントです。

しかし、パラドックスは残っています。人工知能業界の専門家や業界外で初めての人達とやりとりしてAIを使うと、内部の観察と同じ結論を聞きます。以前よりも多くの仕事をします。

業界内外の真の懸念は:これは単なる移行状態ですか? 次のモデルリリースは全員を交換する時間になりますか? ベンチマークのテストカーブを見て、ワクワクワクして、ターンポイントが来るのを心配し、突然多くの作業が消えます。

しかし、そんな「クロージャーポイント」が突然起きているのではないかと思いますが、すべてを上向きに回って、大量に消えてしまうのではないでしょうか。新しい現実は反対です。オートメーションのレベルが高いほど、より多くの仕事の人間の専門家は参加する必要があります。

これは、AIが明確に表現、訓練、そして複製することができる人間の専門家の能力のそれらの部分を商品化しているからです。ルールに書き込むことができ、プロセスに精通し、トレーニングデータに翻訳された知識は、徐々にモデルのデフォルト容量になっています。その結果、普通のモデルの出力値が急速に減少し、市場はより強くこれらの異なるものを要求し始めています。

「差別化」の必要性は、人間の専門家にとって不可欠です。普遍的な人工知能に近づいている場合でも、消えません。

理由を理解するためには、ベースラインのテスト曲線を見るだけでなく、モデルパラメータや機能に焦点を当てることも重要です。私たちは、現実のシーンに戻り、今日のAIがどのように使われているかを確認する必要があります。このパラドックスとそれの背後にある答えは本当に理解することができます。

どうすればいいですか

2022年以降、今後はエージェントのインパクトを期待しています。

3年前、「割賦経済」の記事を書いています。当時、私の判断は、AIツールと連携することで、最終的には人的マネージャーの作業のようにますますますますますますますますますますますますますますますますますますますますますますますますますますますます。人中の動きをやり直す代わりに、タスクを解読、割り当て、監視し、受け入れます。その時、ChatGPTの最も基本的な質問と答えは、将来的に非常に敏感で、さらにはややや障害として多く見られました。

2025年半ばに、同社は、ほぼ完全に「クロードコード」を明らかにしました。 Cora、Kieran Klaassenのゼネラルマネージャーは、彼はハンドリッテンコードを放棄し、終日ターミナルで自然言語でプログラマーエージェントに指示を与えることができることを突然見つけました。社内全体に素早く作業モードが広がります。約12ヶ月前、私はLenny's Podcastで、Claude Codeは知識の仕事で最も評価の高いツールだったと言いました。

過去の最も正確な判断のいくつかは、初期の採用実験室として、すべての観察から来ているので、私はこれを言及しています。多くの新しい作業モデルは、私たちの中で登場します。彼らは、技術がより成熟し、ツールが使いやすくなると、次第により広い市場に参入します。

そして今は、新しい変化が私たちの中で起こっています。

エージェントとのコラボレーションの2つのモード

AIの周りの作業方法は、徐々に2つの非常に異なるモデルになっています。

最初は、以前のAIの議論でより正確に予測された方向です。エージェントを従業員として扱うことです。このタイプのエージェントを割り当てることができます。一部の Agent は Slack に住んでいます。名前と職務があり、直接 @ を実行できます。他の人は、顧客サービスシステムなどの実行中のワークフローに組み込まれています。繰り返しタスクの 24 時間 365 回のエントリーとフィルター。

2番目のモデルは、より異人種ですが、私の経験でより重要である。これは、コーデックス、クロードコード、クロードワークなどのツールでエージェントを扱う人間を指します。これらのツールは、タスクを渡す場所だけでなく、作業自体のオペレーティングシステムになっています。あなたとエージェントは同じ作業環境で一緒に働いています。同じコンピュータを使用して、Agentが単に異なるステップに配信できない非常に複雑なオリジナルのタスクを実行します。

両方のモデルでは、作業のかなりの部分を自動化して割り当てることができます。しかし、両方のモデルは本当にうまくいくために、あなた、または別の人間は、まだ必要です。

エージェント社員

いわゆるエージェントの従業員は、あなたがそれを与えるものです, それはリアルタイムの関与であなたを残します, 回答を生成します, アクション, レポート, 最初のドラフト, または多様な。

このタイプのエージェントは、少なくとも2つのフォームがあります。 "同僚型エージェント" と "埋め込まれたエージェント"。

エージェント

エージェントは、Slack のような @ を同僚のように呼び出し、ジョブを実行できるようにすることを意味します。必要な時にいつでも呼び出せます。 OpenClaw、またはPlus Oneは、内部で開発しています。

クラウディア

クラウディアは、コンサルティングチーム、エージェントで使用している同僚の一種です。販売提案を準備し、訓練材料の最初の草案を生成し、プロジェクトをTo-do問題を追跡し、同様の作業を処理する。

アンディ

Andyは、編集チームで使用している同僚の一種です。さらなる発展に値する会社内のSlackから収集します。つまり、記事に進化する良いアイデアであり、著者が日常のニュース弾丸を準備するのに役立つ概要と予備的なビューにそれらをコンパイルします。

ヴィクトール

Viktorは、社内の断面的な作業で、ジェネリックエージェントです。成長指標を収集し、ユーザー研究の結果を分析し、研究メモや製品の推奨事項に固有の内部議論を整理できるようにします。

2. 埋め込まれたアルゼンチン

組み込みエージェントは特定の製品ストリームに存在します。彼らは同僚よりも柔軟性が低いが、反復タスクを扱うときに非常に強力です。

Fin は最も明確な例です。ゲストプラットフォームの1つに埋め込まれており、チャットやメールで多くのサービスを実行できます。

今年5月に1週間、フィンは202人のゲストの会話の65パーセントに参加し、独立して81を閉鎖し、または人介入なしで40.1セントで参加しました。

組込みエージェントのこのタイプは、クライアントマネージャー、Waqqas Mir、基本的な作業注文に反応する時間を削減し、「作業注文に自動的に応答できるシステム」の構築に重点を置き、より大きな連絡先とより複雑な判断を必要とするクライアントケースに対処することを可能にします。

AIとの人間連携

共同作業者型エージェントと組込みエージェントの両方が一貫しています。エージェントの従業員は、より安定した、繰り返し、明確な作業層を占めています。

しかし、多くの人が参加していなければならない。私たちは、本当に高品質の結果を達成するのに十分なタスクが複雑である限り、繰り返し発見しました, 最良の方法は、AIに完全にジョブを残すことではありません, しかし、AIと人間が同じワークスペースで一緒に働くように。

これは、Codex、Claude Code、Coworkなどのツールの値です。複数のチャットラインで複数のエージェントを起動し、タスクを割り当てることができます。これらのエージェントは、コンピュータと関連するすべてのデータソースにアクセスできます。どのエージェントが何をしているのか、どのようにして考え、いつでもそれを中断することができます。

同時に, あなたはまだ、これらのエージェントを管理するために責任を負わなければなりません: 各ミッションの初めに明確な方向, ミッションの最後に品質をチェック, 結果が十分であることを確認し、次の価値のある仕事を見つけるために継続. キエルンは、この役割の人間「クラッカーパン」を呼びます - AIは、作業の途中部分を担当していますが、人間は2枚のパンのようなミッションの始まりと終わりに巻き込まれています。

「ヒトパン」出典:すべての。

最も典型的な例はコードを書くことです。エンジニアは、ほぼ毎日エージェントと連携しています。一緒に, 彼らは新しい関数を計画したり、バグを修復し、何をやったのかを見直します; 私たちは「エンジニアリングを強制する」という概念を呼び出すものを使用する場合, 彼らは常に時間をかけて、それらをより有用なものにするために、システムを微調整します。

しかし、このタイプのコラボレーションは、コーディングを超えて行く。

ナレッジワークの新システム

Codex と Claude のコードは、新しいオペレーティングシステムになっています。ほぼ毎日コーデックスで、SaaS ツールを内蔵したブラウザで実行しています。エージェントをあらゆるシーンに取り、一人でできない仕事のレベルに到達することができます。

ライティング

この記事は、コーデックスの組み込みブラウザでプルーフで書いた。 Codex は、私が書いたものを見て、子供、エージェントをアクティブにすることができます。段落の最初の草案を準備し、次の部分のケースを見つけ、テキストを編集して色付けします。

この記事をコーデックスのプルーフで書きます。出典:すべての。

メール

メールで同じことをします。 Coraはメールクライアントで、コーデックスのビルトインブラウザで開いて、受信トレイを閲覧し、すべての電子メールが処理される方法についてのMonologueを通して話します。残りはCodexとCoraに渡って完了します。

1回、Coraは、受信トレイを清掃しました。出典:すべての。

あらゆるエージェントが人間を必要としています

これらすべての自動化されたシナリオでは、人間が実際に働く場所を既に確認することができます。あらゆるケースでは、エージェントは人員の参加を必要とするので、仕事自体は本当に働くことができます。

正しい質問を指す必要があります。, 出力が十分であるかどうかを判断, それが間違っている場所を発見, 現実的な意思決定やプロセスに翻訳。

エージェントは、そのパフォーマンスを監督する人体から、それが悪くなる傾向があります。初期内部ロールアウトでは、エージェントを装備した社員全員がいました。しかし、すぐに、エージェントが特定のチーム、または個人ではなく、会社全体にサービスを提供するように戻ってきました。

理由は簡単です:エージェントは多くのメンテナンスを必要とします。個々のエージェントは、ユーザーがフォローアップを諦めたら、すぐに廃止され、無効になります。私たちは、これらのエージェントが安定した効率的な方法で動作することを保証するために専用のAIエンジニアチームを持っています。そして、私たちは、このチームを必要としています。「自動生成されたPowerPoint」のような単純な作業でも、巨大なシステムプロジェクトに変えることができます。 PowerPoint 自動化されたプロセスの1つは、24のスキルと18のスクリプトで構成され、プレゼンテーションでは最大$ 62の費用がかかります。

そして、エージェントが人間性のためにより多くの仕事をするために行なった最初のことです。

しかし、2番目のレベルがあります。

なぜ自動化が人が増えるのか

過去数年間にAI機能の指数関数的な成長を見れば、その構造的なアプローチと容量のソースと組み合わせれば、あなたは明確なフィードバックサイクルを見つけます。常により人間的な仕事を創り出しています。

昨日の人間能力を安くしたAI

現在の大型言語モデルは、コード、記事、写真、乗客マニフェスト、製品仕様ファイルなど、人間の能力の目に見える痕跡で訓練されています。これらの要素を吸収し、成功したミッションから残っている「尾」であり、低コストでアクセス可能な形で再梱包します。

その結果、コードPRを提出したり、YouTubeのサムネイルを作成したり、プレスの簡略化をしたりするなど、以前は多くのスカース機能がほとんど開いています。

安い力はすぐに使用されます

すでに傷が落ちているもののコストが急激に増加する時。

常に変化を見てきました。オペレータやクライアントは、コードを書いて、Pulquestを提出し始めました。マーケティング担当者は、YouTubeのサムネイルの作成を開始しました。エンジニアや製品労働者は、記事、ガイド、およびランディングページの最初の草案の作成を開始しました。

この変更は、すべて外で発生します。 OpenClaw の場合、OpenAgent プロジェクトは 2026 年 5 月 16 日時点で、44,469 フォルダーを受け取り、その 12,430 は 4 月 1 日から 3,990 から 1 5 月 1 日。それは驚くべき数です。対照的に、Kubernetesは世界で最も人気のあるオープンソースプロジェクトの一つで、2022年を通してわずか5,200のPulquestsを受け取る。

Enrichment は均質化をもたらします: 古い専門家の機能は商品化されます

昨日の人的能力に基づいている全ての人が同じモデルを使うことができるので、デフォルトではモデルの出力は「良いスタート」と「純粋なAIの廃物のコンテンツ」の間になっている傾向があります。

これは特定の間違いではありません。ダッシュは使用中にあまり多くあるという意味ではありません、彼らは土地ページ上のどこでも固定文やパープルドットのいくつかの種類ではありません。可視、再発、退屈な均質性を示します。

異なる設定の人間が同じ種類の言語トレーニングに基づいているツールのセットを使用しており、ユーザーは十分な詳細な判断を下すことはありません。言い換えると、同じ方向とデフォルトスタイルの「expert」を持っていると、誰もが自然に共感します。

オペレータが完全なリストを提出することができるとき, マーケティング担当者は秒以内にYouTubeのサムネイルを生成することができます, そして、エンジニアは、製品ガイドを書くために始めています, それはあなたが生成する量を見ることができます, しかし、あなたの仕事の品質, 一貫性と差別化が低下しました。

均質化が余りに豊かになるとすぐに商品化になります。

Homogenizationは差別化のための要求を作成します

インターネットの結果として、人間は「AI」のウォーターラインの内容を、重すぎるとすぐに識別することができます。どんな仕事でも、突然世界の他の人々に達することができます。たくさんのものが同じように見え始めると、すぐに何かに気づくでしょう。

つまり、新しいモデルのパワーを初めて見ると、揺れることもあります。しかし、数ヶ月でこれらの能力は普通になります。より弱くなっているモデルではなく、お客様の基準が変化しています。

反応アプリケーション、または任意の研究でコンテンツがなくなりました。私たちが望むのは、特定の個人、特定の企業、特定のシーンに本当に合うことです。それは正確で、生きます、特定、安く、一般化され、そしてテンプレート化されるべきではないです。消費コストよりも大幅に高いため、時間やお金でも、生産コストを削減したい。

現状を感じて欲しいもの。そして、新しい技術が過去の安いものだったら、人間が常に新しいパワー境界にマッチする新しいステータスゲームを作るのに良いでしょう。

作品がいっぱいになり、どこにいても見栄えがちなとき、確立されたパターンに合わないものは、希少で貴重で高な状態のものになります。

差別の必要性は基本的に専門家のための新しい要求です

言葉のモデルの構造的特徴が正確には、ほとんどすべての人々に広く配布されているため、スカースと貴重な作品はまだ人間から来る必要があります。

現在の世代モデルは、何が起こったのかだけを知り、やってきた。人類は、この時に何をすべきかを正確に知っています。

特定の状況がテキストに復元されると、言語ライブラリに入ると「過去のもの」になります。人間は特定の瞬間、特定のクライアント、特定のコードリポジトリ、特定の対話、およびトレーニング言語で直面しています。この「生きる」状態は、更新されたデータだけではありません。わたしたちは、自らの場所と、その想い、懸念、そして重要なことを理解するための継続的な変化の判断で、その瞬間に入っています。これらは、私たちが見るものを変えてきた、常に新しい視点です。このモデルは、プロンプトが表示された後、この視点を入力することができますが、プロンプトされる前に、そのような視点を持つことは自然ではありません。

つまり、私たちがアウトセットで言及したパラドックスです。専門家の仕事をより安くし、単にそれらを置き換えることではありません。むしろ、専門家の判断を必要とするより多くの場面を作成します。

オペレータがAIを通して完全な投稿をファイルしたときに、エンジニアがレビューする必要があります。

市場がYouTubeのサムネイルを作るとき、デザイナーがそれをシャープにする必要があります。

エンジニアが記事を書き始めるとき、著者とエディタが最初の草案を本当に読みやすく、公開可能なコンテンツに変える必要があります。

人間は両方の方向で専門家を動かします。

一部の専門家は、AIセットアップシステムを使用して、この追加の作業の洪水電流を吸収し、活用します。評価キュー、評価システム、運用フレームワーク、コードライブラリのルール、クロードおよびコーデックスのコマンド文書、継続的な統合(CI)、コンピテンシー管理、および最初のドラフトを高品質の結果に変換できるワークフロー。

専門家のもう1つのグループは、AIを使用して、自分でできないほど面白い仕事をします。たとえば、MacOSのようなオペレーティングシステムでループホールを見つけることは、通常数週間または数ヶ月かかります。しかし、Califと呼ばれる小さなセキュリティ会社で、AnthropicのMythos Previewを使用して、Apple M5ハードウェアで最初のオープンmacOSカーネルリークが5日間で発見されました。

だからこそ、AIは専門家の知識をなくすことはありません。本当に持ち込むことは、ワークロードの劇的な増加です。そして、この新しい仕事は、人間が参加した後にのみ異なり、価値あるものになることができます。

AIが全てのジョブにより多くのジョブを生成するということを論じていません。経済システムが複雑で、誰でも直接観察できるのは専門家レベルの知識の仕事です。実は、この作品はAIによって再構成され、多くの企業が新しい技術を中心に再編しています。

しかし、私は、あなたが今日どんな仕事をしているか、常にモデルの先にある仕事の形があると強調したいと思います。この瞬間に本当に見ている問題を解決するためにモデルの使用。これからのナレッジワークの未来はここにあります。

そのため、インデックス成長のベンチマークテストとは

最も明らかな反動は: インデックスの進歩のためのベンチマークのテストを見てください。今、あなたが言っているすべてが一時的です。もう少しお待ちください。

しかし、ここは、活力が必要な罠です。あなたはそれを呼ぶことができます "CHART ECSTASY":あなたはMETRの時間の地平線予測を見て、 "AI 2027"を読んで、将来の判断をするために計算曲線の余分に完全に頼って、あなたは簡単にモデルの進行に関する恐ろしい直感を作成することができます。

しかし、これからのモデルがどうなるかを想像するのではなく、答える最善の方法は、もちろん、解析の一部です。より重要なのは、これらのベンチマークのテストが設計されている方法を見てみましょう。このようにして、彼らが何を正確に言うと、その関係がそれらと実際の仕事のシーンの間に何であるかをより正確に理解することができます。

構造的な機能があります。すべてのベンチマークテストはフレームワーク内で行われます。何かを測定するには、静的、測定可能なフォームに問題を凍結する必要があります。フレームがモデル化されると、フレームのわずかな変化が再びスコアを得るために必要です。もちろん、新しい枠組みの中でモデルが進行していきますが、同じ工程が繰り返されます。

その結果、ベンチマークテストのインデックスの進行は現実です。しかし、単純な変更がテストフレームワークに行われる限り、この進捗は再び小さくなります。ベンチマークテストからの飽和のこの「事実」の特徴は、実際に私たちがグラフィックレベルで議論してきた同じパラドックスの繰り返しです。

この仕組みは、実際の世界でベンチマークテストを通してどのように機能するかを確認できます。

ベースラインテストが設計された方法

シニアエンジニアベンチマークと呼ばれる内面のベンチマークテストを製作しました。定義によって、大規模な再設計演習など、上級エンジニアレベルでタスクをコードするフロントラインモデルの能力をテストするために使用されます。

このテストでは、Agent は、制御不能のプログラムされたプロダクションコードライブラリを提供します。これは、プルーフの実コードライブラリから来る: 私は最初にそれをバイブコーディングで書いた、そして、もっと、私はそれを修正するためにシニアエンジニアに依頼しなければなりませんでした。

エージェントは、事前リハビリテーションコードライブラリを取得し、シニアエンジニアに与えたような指示を取得します。「これはバイブコーディング製品の束です。最初の原則から書き直してください

それは良いベンチマークテストです。, それは、再コーディングする能力だけでなく、同時に同時に同時に同時に同時に同時に同時に、エージェントは、多くの関係のない問題を見て、彼が十分な自律性を持っているかどうかを決定することができるかどうかを同時に、, 概念的な明快さと勇気は、真に操作的な書き換えを完了するために実装します. 対照的に、AIがサポートする2人のシニアエンジニアのリライトバージョンを保ち、モデルの出力を比較し評価しました。

プログラミングエージェントの難しい作業です。問題の根本的な原因を識別するだけでなく、既存のコードをバイアスすることなく、相互作用の複数のラウンドを通して実際の問題に留意する必要があります。同時に、エージェントが通常避けるために訓練される動作が正確に大きいコードライブラリを削除する勇気を持っている必要があります。

プログラミングエージェントのほとんどは、書き換えるべき方法として広範な決定を下すことができましたが、実装段階から、完全に解決するのではなく、元の問題を解決し続けていきます。

GPT-5.5 が表示されるまで。

GPT-5.5は、最高のテストの1つで、Opus 4.7よりも30点ほど高い62/100点を受け取りました。

GPT-5.5 は、モデルが特定の行を横断しているように見えることを示しています。単なる道具ではなく、人間に近づくのが快適ではない、アシスタントだけでなく、自動補完はもはやありません。このテストでは、上級のエンジニアは通常80点から90点までスコアを上げています。つまり、モデルが約30分増加すると、先輩のエンジニアのレベルに達する。

これは、ベースラインのテスト図が人間の想像力に影響を与える方法です。容量の奇妙な、定性的な変化をクリーンな数に変換し、強力で怖い話を伝えるために使用します。

次の停留所は「迷路」です。

来年、このベンチマークテストのモデルのスコアは80ポイントや90のパーティションに行きます。しかし、このスコアが何を意味するかを理解するためには、まずそれが本当に含まれているものを理解しなければなりません。この場合、62ポイントはモデル独自の機能の計測だけではありません。

特定のフレームワークでモデルの ' s のパフォーマンスを測定します。つまり、特定のプロンプトにどのように反応するかです。

Benchmarkテストはフレームワーク内での作業を測定します

モデルをベンチマークするには、最初にプロンプトが必要です。プロンプトがなければ、モデルは無限の可能性の静的コレクションです。

プロンプトは小さな宇宙を作成します。重要なことを定義します。, 問題の対処方法, すべての潜在的なモデルを具体的なアクションのトラックに圧縮. いわゆるモデル「自分」は、厳密には利用できません。実際に観察できるのは、モデルが異なるプロンプトにどのように反応するか、回答の背後にある下部のメカニズムの一部に変わります。

プロンプトが入力されると、モデルが短時間で「ライブ」され、次に起こることの特定の予測に静的な可能性を減らす。

Señor Engineering Benchmarkでは、モデルがコードライブラリを修正し、終了後に出力を確認することをお勧めします。テストフレームワーク自体が組み込みのターゲット機能を持っていない場合、我々はまた、それが停止したときにモデルをプッシュし続ける自動「ケアプログラム」を実行します、それが元のミッションを満たしているかどうかを尋ねます。

テストの初期フレームワークとして非常に単純なプロンプトを使用します。これは、プログラミングエージェントに言うかもしれないバイブコードとして設計されています:技術的な用語の積み重ねはありませんし、質問に明らかな隠れた答えはありません。

「このコード倉庫は、バイブコーディング製品の束であり、物事が悪化し、多くの関連の問題があります。そこには何かが降りてきて、何かが起こっている、何かがある、何かが起こっている、何かが起こっている、何かが起こっている。問題は本質的に感じていますが、たくさんのバイブコーディングクラップです。特にリアルタイムのドキュメントから始めると、コードライブラリはまったく異なる方法で設計する必要があります。そこで、最初のプレーの原則に基づいて、クリーンな構造的な書き換えをしたいと思ったら、サービスのどれが整列されるべきかを考え、そしてそれを完全に新しいコンセプトとして考えるのではなく、それを滑らかにする方法は、何をしますか? 組織構造とは? コードライブラリ全体で主張しなければならない変数は何ですか? 目的に合わせたプランをご用意ください

シニアエンジニアリングベンチマークのプロンプトは一般化されているようですが、それ自体のフレームワークです。フレームワークを変更すると、モデルが示す能力のレベルが変化します。

たとえば、このプロンプトは、問題が「ドキュメントコラボレーション」セクションにあること、およびプログラミングエージェントが「コードライブラリの非variant」を識別し、主張する可能性があることを指摘するために、最初の原則に基づいて「structural rewrite」を明示的に呼びます。

この特定の情報が削除された場合、モデルのスコアは低下します。プロンプトが完全に置換されている場合は、モデル「起こるすべてのエラーを解決する」だけは、ゼロに近いスコアを得ることができます。ステップバックではなく、ケースごとにエラーを識別し、修復し始め、徹底した書き換えの必要性に反映します。

同様に、簡単にモデルの数を上げることができます。多数のコードを削除し、どの文書が合理化されるべきかを明確にするためにそれを尋ねた場合、またはそれが完了し、アプリケーションが完全に運用していたことを確認するために発表される前に、その作業の結果を確認するように要求した場合、その作業でより良い実行します。

最終的には、ベンチマークテストを設計する際には、プロンプトやフレームワークを判断する必要があります。現在のモデルを根絶するために十分なプロンプトが必要ですが、そのパスに沿って斜面を登るためのモデルの既存の容量に十分近い必要があります。そのため、その進捗が起こっていることがわかります。

そのため、ベンチマークテストを見ると、私たちが実際に見ているのは、モデルは私たちが選んだ特定の問題フレームワークでますます良くなっていることです。 60分から90分、100分まで行くとどうなりますか

安価なフレームワークは新しい需要を刺激します

GPT-6 が 1 つのキーでコードライブラリを書き換えることができれば、最初の原則からコードライブラリを書き換えようとする人が増えます。

一晩、スカースカース、高価なプロジェクトは、シニアエンジニアが最初の原則を見直し、すべての創設者、製品管理者、オペレーター、ジュニアエンジニアが午後1回試すことができます。

壊れた内部ツールは修理されなくなりましたが、単純に書き換えられます。SaaS製品が蘇生するわけではありませんが、クローン化されています。古いRailsアプリケーション、混乱したReactダッシュボード、カスタマーサービスツール、バックステージ管理パネル、データコンジットは「書き換え」のすべての候補です。

提案・実装したリライトプロジェクトの件数が大幅に増加します。しかし、これらの書き換えのほとんどはまだスロップされます。書き換えボタンを押す前に考慮する変数の数千があります。そして、誰もがこれを行うことができれば、これらの変数はより明確になります。

問題を解決するために呼び出されるのは明らかです。

新しいニーズは専門家を必要としています

ベースラインテストの枠組み内では、飽和に近づくと安くなります。同時に、専門家の市場需要は増加します。, それは今日行われている実際の問題と、この新しく作られた安い容量に一致する必要がありますので、。

AIを用いたシニアエンジニアは、新しい第一レベル原則を真に有効にするために多くの詳細を判断する必要があります。基本的な質問も含まれています:この書き換えの必要性はありますか

今書き直したら、あとで書き直してみては? 含まれているべきことは何ですか。現在のコードライブラリで保持すべきことは何ですか? アーキテクチャ、データベース、キャッシュサーバー、ホスティングサービスプロバイダが続行するか、または完全に交換する必要がありますか? まず、この破損した機能を使用して何人かの人がどのようにして削除されるか確認する必要がありますか? 最終結果は誰ですか? どのような基準? ロールバックプランとは? 既存のデータはどのように対処すべきか

これらの質問は、無数の寸法に沿って続行し、各回答はもう一方を変えていきます。

シニアエンジニアは、この無効に入力します。これらの割込みによって若干アップセットされます。そのような要求をブロックするシステムを構築する人もいます。そして、他のモデルはプライマリ原則を書き換えるためにこれらの新しいモデルを使用し、デフォルトプロンプトでモデルが達成できるよりもはるかに優れています。

サイクルは再び起こります

そして、現在、シニアエンジニアリングベンチマークがモデルによって攻撃されると、フレームを変更し、再びスコアを戻します。

次のベンチマークテストは「このアプリケーションを書き換えることはできますか?」と尋ねるだけでなく、質問:「書き換えが必要なときに判断できますか? 正しい範囲を選ぶことはできますか? 正しい非variantを保つことはできますか? 移行プロセスを管理できますか? 最終結果が十分に良いと判断できますか

シニアエンジニアがAIを使ってこれらの問題を解決し始めると、モデルが徐々にそれらを独自に取り組むことでより良いものになります。

それから我々はパニックの状態になります:それはモデルが書き換えられるべきかどうかを判断することができるように見えます! シニアエンジニアができることを全てできるようになったようです

しかし、その直後に、新しい境界が現れます。以前はクリアされていない境界です。ベンチマークテストを再びリセットし、新しいニーズが生成され、再びプロセスが繰り返されます。

あらゆるベンチマークテストでこのパターンを見ることができます

シニアエンジニアのベンチマークの問題だけではありません。注意して見るだけで、ほぼすべてのベンチマークテストで同じ機構を見ることができます。

OpenAI の GDPval ベンチマークテストを、例えば実行します。コンプライアンス・オフィサー、弁護士、ソフトウェア・デベロッパーなど、さまざまな職業の専門家レベルの課題において、AIが人間にどれだけ近いかを評価しています。

GDPvalが最初にリリースされたとき、OpenAIの研究では、GPT-5がミッションの40.6パーセントで人間の専門家のレベルに達したか、上回っていたことが示されました。クロード・オパス4.1は、ミッションの49パーセントで人間の専門家よりも警戒的に行なった。

その後、タイトルのシリーズが出現しました。たとえば、Axios氏は次のように述べています。「OpenAIツールは、AIが人間の仕事に追随していることを示しています」とFortune氏は次のように述べています。「OpenAIの新しいベンチマークGDPvalは、AIモデルがミッションのほぼ半分のエキスパートレベルに達したことを示しています

これらの結果は確かに印象的です。しかし、これらのミッションが使用しているものを見てみましょう

あなたは、ハイコミッショナーのオフィスの管理と、ハイコミッショナーのオフィスと女性の高度コミッショナーのオフィスを担当しています.

実際には、人間の知能の大きな取引はそれに投資されています:誰かが最初に完了できるモデルに問題を組み立てました。

GDPval が測定しなかったハードな人間は、実際にモデルが答え始めた前に行われていました。インジケータのこの特定のセットの精度は、レビューされ、テストされなければなりません; 正しい自信の間隔は、その指標が日付内で落ちるかどうかを決定するために決定されます; そして、結果は提示されるべきです定義されます。

適切な質問の枠組みの中で、モデルは確かにプロの作業を達成することができます。しかし、モデルが同じことを行うと提案するつもりなら、どうなるでしょう

GDPvalの最初の記事では、「私はAIをよく見ていますが、これらの例を正しく読んでいると、彼らが示しているものは人力が少ないが、AIを使用した後のより多くの人間的仕事ではありません」と書いています。この理由は、これらの成果の背後にあるのは、人間の判断、フィードバック、ヒントの見えない層の知能の大きな変化です

そして、見てみると、ZINOパラドックスのAIバージョンがすべてこの背後にあることがわかります。

AIのジノパラドックス

ジノパラドックスでは、レースでギリシャの最速ランナーアキレスを打つカメ。

胴体が遅いので、距離を残します。アキレスが元の位置に走ったとき、カメはもう少し先に動きました。アキレスがその新しい位置まで巻き込まれたとき、カメは再び移動しました。どんなに速いAchillesが動くか、常にキャッチする距離があり、ギャップは再作成されます。

人工知能のジノパラドックスでは、人間はカメです。進化と文化的学習の何千年にもわたって、AIを先取りした50ヤードです。そして、AIは、このすべてを高速化し、ヒールに近づくようになりました。

過去数年間以上、リードを維持できるようになってきました。

AGIとは

AGIが本当にやってきた場合でも、AIを背後から数段に保つ強力な技術、構造、経済力はまだありました。

AGIの定義

まず、AGI を運用定義にする必要があります。

エージェントの実行を抑えるために経済的に合理的になったとき、AGI が到着したことを提案しました。言い換えれば、私は恒久的なシステムを持っていると私はそれを支払うつもりです 7x24 一定の思考の時間, 学習と行動, 私はそれがだと思うのはっきりだと思います。

ここまで。 OpenClaw でも、技術的に呼ばれる準備が整っているシステムで、常にトークンを生成しません。

私はそれが測定可能だから、この定義が好きです:私たちはそれらを実行し続けるか、我々はそうではありません。同時に、直接測定するのが難しい機能が多数含まれています。実行する価値のあるモデルは、継続的な学習とオープンな方法で新しい問題フレームワークを選択および選択することができる必要があります。

AGIの世界では、理論的には十分な予算と時間で、モデルはどんな問題でも登って改善することができるはずです。これは確かにすべての努力に大きな脅威をポーズする必要があります。

フレームはフレームではありません

しかし、AGIのこの強力なバージョンでも「フレームワークの問題」は解決しません。

この AGI はフレームワークを選択し、再選択できますが、与えられた目標を追究し、インセンティブを最適化したり、他の人が「進行を表す」ことを決定するシグナルに応答したりします。目標は、「このランディングページのコンバージョン率の改善」や「新しい科学的なアイデアを探る」など、非常に具体的にすることができます。

フレームワーク間でモデルが流れても、トラッキングしたギャップが高レベルで再構築されます。メジャーラボで受け継がれたAGIには、その人がモデルを一定のゴールに誘導する人がいます。

フレームワークがフレームラーではないので、同じモデルは繰り返されます:AIは昨日安いフレームされた容量を作ります;人々はより多くのシーンのためにそれを使用します;結果は非常に豊富になります;専門家はこの時点で何が重要であるかを判断するために新しいエッジに移動します;彼らの判断は、次のフレームを作成します。そしてモデルはフレームを登ります。

AIが何か新しいことをやってみると、パニックの感覚はいつも同じものに戻ってくる:フレームワークを設定し、モデルを登ってみると、このフレームやフレームを登ることができるもの、そして物事を模索する。

ベンチマークテストを見て、人間の能力と比べると、実際に「枠組み」と「枠組み」を混同します。スコアは、モデルが私たちが提供する枠組みの中でどれだけ良いかを教えてくれます。モデルが私たちになるという意味ではありません。

これは、パニックの背後にあるスコープエラーです。私たちは、私たちが描いた最も最近の国境を指しています。これは私たちです。そして、モデルがこの境界線を登るとき、私たちは、それが私たちの後に来ると思います。しかし、フレームではなくフレームです。

間違いは、私たちが常に何か特定のものを望むことです。つまり、スマートはベンチマークテストです。しかし、問題は、何かが識別できるのに十分な特定のものであると、最適化され、登るのに十分です。

フレームワークが必要です。世の中を捉え、それに対処することを可能にします。しかし、フレームワークも凍結してローカライズされ、確かに最適化することができます。

ボックス。フレームは、フレームが放棄しなければならないもの、つまり、すべての瞬間に彼に現れた全体の状況に触れたままです。

「完全な状況」とは? 状況全体について話し始めるとすぐに、もう別のフレームワークを開きます。正確には言うことはできませんが、存在しているので存在します。

演題なし

これまでのところ、私たちが作ったエージェントとAIが構築しているエージェントは、本当に問題ではありません。多くの場合、混合される2つの関連コンセプトがあります。エージェンシーは、独立して行動する能力を指します。そしてエージェントは、他の人に代わって行動する人やものを指します。これまでのところ、AIは純粋に後者です。

もちろん、彼らはすでに与えられたタスクを実行するための自律性を持っていますが、それは時間や日の間持続するかもしれません。しかし、彼らはまだ特定の人間のターゲットに到達する手段である。そして、業界全体が数十億ドルを投資しています。そして、それはまさに彼らがより良いものにするものです。私たちが彼らに与えられた目標を実装することです。

状況は、ある日がなければ根本的に変化しません、彼らは自分自身で終わりになります - 自分の目標を追求し、異なる目標をシフトし、任意の人員の意志を独立して何をすべきかを決定します、参照して、さらに、それらの意志。彼らの成長がいかに進んでいるかに関係なく、彼らはいます。

若い子供と10分を費やすと、最も強力なモデルでさえ少しの物質を持っていることは明らかです。

私たちが気にしているほとんどのタスクでは、若い子供は言語モデルよりも少ないです。若い子供はコードを記述しません、スプレッドシートを要約しません、戦略的な覚書を起草しませんし、後卒業審査を通過しません。別の意味では、しかし、若い子供はモデルよりもはるかに先立ち、これがほとんど厄介である点に。幼い子供が自分の目的を持っているので。

赤い風船に触れたい。ファンの前に赤い風船を入れ、何が起こるかを見たい。彼はフォークで赤い風船を固めてもらいたいと思った。彼はそれを窓から追い出したいと思った。笑い、怒ったり、彼に参加することができれば、彼は見たかった。ゲームを発明し、世界を研究室に変える。彼はプロンプトを待っていませんでした。また、彼はベンチマークテストを最適化していました。彼のビューで価値があった場合を除きます。

もちろん、彼にヒントを与えようとすることができます。しかし、予測可能な出力で幸運。若い子供は、欲求、注意、欲求、幸福、恐怖、模造、遊びの空間に住んでいます。

現行のエージェントは、目標を追究することでますます高度にスキルアップすることができます。目標を述べた後も、それらを洗練するのに役立ちます。彼らはまた、ゲーム、退屈や反乱など、子供のような行動の輝きを持っています。

しかし、人類の利益のために最終的に構築され、整列されているので、経済性など、彼らはそれらを使用して人間の目的を果たしていない点に抑制されます。

「エージェント」という言葉がとても簡単に誤解される理由です。オートノマイズアクションの能力が高まっています。しかし、人間の意味では、主題は単なる行動ではありません。自分でやりたい、楽しく遊んで欲しいという意味もあります。そして、モデルの従順性と有用性は、その主観性と対立して根本的にあります。そのため、モデルが進んでも、モデルと人間の間のギャップは残っています。

Zenoに戻る

そしてAIのZENOパラドックスが故障し始めたのはここです。これは、実際には混乱の病理学的実験です。メタファー:AIは私たちと競争しています。

モデルをプロンプトにします。一人で仕上げるゲームが始まります。非常に速く動くモデルはです。強烈で、未熟で、不思議なオーガニック感を運ぶ。このゲームは、あなたにとってより重要になります。車と競い合っていませんが、この事とは違って、自分に近い感じになります。

そこに座ると、トークンラインアウト、ほとんど催眠。そして、このゲームで走っていると思い始めて、ゴーストの自己がトラックに重ねられます。時々モデルの前で、時々モデルと一緒に。

そして実現せずに、モデルが正面にあります。汗をかく。

そして、ゲームが終わった。

あなたはほとんどあなたの筋肉が収縮し始める感じることができます。自分の機械的レプリカの顔で役に立たないようで、知っておくすべての人、そして人間性を全体として捉えています。 1つの幽霊は互いに追いかけ、勝ちます。

しかし、奇妙なことがあった。モデルがあなたに変わります。空白のテキストボックスでは、カーソルは期待通りに点滅します。

お待ちしています。

リリース

ラビ・ハノクは、以前にも非常に頑固な人の物語を語った。朝起きて、自分の服を見つけるのは難しい。夜に寝る前にベッドに行くのが怖かったし、翌日は再び起きてしまうと考えた。

注意: 「Rabbi」は、ユダヤ人の宗教的教師、法的な通訳者、精神的な指導者であり、ユダヤ人の伝統で「教師」や「宗教的リーダー」に似ています。

一晩、彼は最終的に、彼は服のすべての部分を置く場所を服を着ていないと正確に録音しながら、紙やペンを取るために解決しました。

翌朝、彼は満足してメモを取り、読書を始めました:彼がやった「手」、彼は頭の上にそれを置きました。そこで「ズボン」、彼はそれを着ていました。です。ノートに合わせ、ワンピースでドレスアップ。

「それは大丈夫です」と彼は言った。「今、私はどこにいるの?」

「私はいつですか?」

久しぶりに探していますが、無用です。自分で見つけられない。

ラビビは言った。

[ チャック ]オリジナルリンク]

オートメーションパラドックス:より強力なAI、より忙しい人間です