Ai-eraの保存哲学:すべてのトークンをブレードに費やす方法 Let's go
カウントする単位は変更され、変更され、貯金の本質は一定したままである。

Sleepy.md, オーストラリア
単語ベースの電報の時代には、ペンはお金でした。 "fast return" が長い文字で、"peace" は最も重い小さな文字です。
自宅に電話をかけた後に電話をかけましたが、距離が秒単位でかかります。 両親の長距離電話の呼び出しはいつも短く、そしてビジネスが終了したら、彼らはすぐに空腹し、会話が少し広がると、痛みを伴う考えが現れた風邪を切っただろう。
その後、ブロードバンドはインターネットが毎時課金され、スクリーンのタイマーで人々が主演し、ウェブページがオフになっていて、ビデオはダウンロードされ、ストリーミングメディアは豪華な動詞でした。 進行中のすべてのダウンロードの最後には、世界とバランスの恐れを繋ぐという願いがあります。
カウントする単位は変更され、変更され、貯金の本質は一定したままである。
今、トークンはAI時代の通貨になりました。 しかし、ほとんどの人は、見えないアルゴリズムでゲインと損失を計算する方法を学ぶためにまだ、この時代で物事を把握する方法を学びます。
2022 ChatGPT は、ほぼ誰もトークンを気に入っていなかったときに出ました。 A.I.です。 ビッグディナー、毎月20ドル、どのくらいの話をする。
しかし、AIエージェントの最近の火災以来、トークン支出は、AIエージェントを使用するすべての人が焦点を合わせなければならないことになった。
回答の簡単な会話とは異なり、タスクストリームの背後にある API 呼び出しの何百人も存在し、Agent の独立した考え方には価格があり、すべての自己補正、すべてのツールコールは、請求書の番号のビートに対応します。 そして、あなたはあなたがお金から出ている突然のすべてが、あなたがエージェントが何をしたかわからないことがわかります。
実際の生活では、誰もがお金を節約する方法を知っている。 食料品を買うために市場に行く、私たちは泥だらけの葉をきれいにし、それらの重量を量ることを知っています。我々は空港に行く、古いドライバーは早期ピークを避けるために知っています。
デジタルワールドのコスト節約ロジックは「チップ」と「キルメット」からトークンへ変更される場合を除き、同じです。

過去に、省力化は、AIの時代、省力化のために行われた。
私たちは、お金を節約するためのAI-ERAアプローチであなたを助けるためにこの記事を望み、あなたはナイフにすべてのペニーを費やします。
スケール前に悪い葉を取り出します
AI時代では、情報の価値はもはやパントではなく、純度で決まりません。
AIのコストロジックは、読み込まれる単語の数を充電することです。 実際の知識や無意味なフォーマットでそれをフィードするかどうか、それを読んでいれば、あなたは支払う必要があります。
ということは、まず考えてみるのが「ノイズ比」の潜在意識を取ることです。
AIをフィードするすべての単語、すべての画像、コードの各行が支払われます。 AIに何かを与える前に、自分で尋ねてください。 本当に必要は? 泥棒の葉はいくらですか
たとえば、「こんにちは、私を助けます...」など、長いイントロダクトリーの備考、繰り返された背景のメモ、切断されていないコードのメモは、泥の葉です。
これに加えて、最も一般的な廃棄物は、PDFの直接投げやAIへのウェブショットです。 あなたにとって本当に簡単ですが、AI時代の「保存」は「コスト」を意味します。
テキスト、ヘッダ、フッター、チャートラベル、隠された透かし、レイアウトのための多数のフォーマットコードに加えて、完全にフォーマットされたPDFが含まれています。 これらのことはAIがあなたの問題を理解するのに役立ちませんが、彼らはすべての請求されます。
次回は、PDFをクリーンなマークダウンテキストに変換し、AIに送ります。 10MBのPDFを10KBのきれいなテキストに変えると、お金を99%だけ節約するだけでなく、AIの脳が以前よりもはるかに速く走るようになります。
絵は別の金のスビスターです。
視覚モデルのロジックでは、AIは自分の写真の美しさを気にせず、占有するピクセル数について気にしません。
Claude:トークン消費=幅ピクセル×高さピクセル750の公式計算ロジックを画像で取ります。
(a) 1,000×1,000ピクセルの画像、約1,334トークンを要し、Claude Sonet 4.6で換算し、それぞれ約0.004ドル
しかし、同じイメージを200 x 200ピクセルに圧縮すると、差額の$ 00016、25倍のコストで54トークンを消費します。
多くの人は、携帯電話、4Kスクリーンショット、AIに高解像度の写真を投げていますが、これらの画像はAIが半分の小説を読むのに十分なトークンを消費します。 タスクが単に画像内のテキストを識別するか、またはチャートに赤と緑のライトがあるかどうかを判断するために、AIが請求書の量を識別できるようにするなどの単純な視覚的な判断をするために、または、チャートに赤と緑の光があるかどうかを判断するために、AIが純粋な廃棄物であり、最小限の利用可能な解像度に画像を圧縮するのに十分です。
しかし、インプットエンドが無駄なトークンがファイルフォーマットではなく、非効率的な方法である理由。
多くの人がAIを真の隣人、社会化、破壊し、最初に「Webページを書く」をスローし、AIが半製品を切り出すのを待ってから、詳細を追加します。 この歯磨き粉の会話は、AIが何度もコンテンツを生成し、各変更のラウンドはトークン消費量を超えています。
実際には、同じ要求で、トークンを消費した歯磨き粉の対話の多くのラウンドは、一度に3〜5回クリアであることがわかりました。
お金を節約する本当の方法は、この非効率的な社会実験をあきらめ、すべての要件、境界条件、および例について明らかにすることです。 否定的な文は肯定的な文よりも多くの費用がかかるので、「何もしない」を説明するためにより少ない努力が必要です。 何をすべきかを伝え、明確で正しい例を与えます。
一方、ターゲットがどこにあるかを知ったら、AIに話して、AIが検出するのを許さない。
AIを「ユーザー関連コードを見る」に注文すると、大規模なスキャン、分析、および推測のバックステージを行う必要があります。 「src/services/user.tsのこのファイルを見る」と伝えたら、トークンの消費は日によって異なりますが、デジタルの世界では、情報パーリティは最大の節約です。
AIの礼儀を払わない
ビッグモデル法案には、多くの人が実現しないサブルールがあります。出力トークンは通常、入力トークンよりも3〜5倍の高価です。
言い換えれば、AIが言うのは、自分が言うものよりもはるかに高価です。 たとえば、Claude Sonet 4.6 の場合、出力が急激に $15 にジャンプし、フル 5 倍の価格差。
丁寧な言葉は「よく、私はあなたのニーズを理解し、私はあなたに答えるために始めています」と「上記があなたを助けるだろう」あなたが通信するときに丁寧な社会的な言葉で終了しますが、API法案では、これらすべてのメッセージングの冷えがあなたに費用がかかります。
出力廃棄物を解決する最も効果的な方法は、AIのルールを設定することです。 システム ディレクティブを使用して、明確に伝えます: 冷やさない、説明しない、必要性を繰り返さない、ただ答えを与える。
これらのルールは、一度だけ設定され、すべての対話で有効であり、「1つの投資、1つの永続的な利益」の本当の手段です。 しかし、ルールを設定すると、多くの人が別の間違いに巻き込まれていました:長い、自然言語の指示を積み重ねます。
エンジニア ' empirical データは、コマンドの有効性が単語数ではなく密度でないことを示しています。 500語のシステムヒントを180語に圧縮することで、無意味な丁寧な言語を削除し、繰り返しの指示を組み合わせて、段落を単純なリストに再キャストすることで、AIの出力品質はほぼ非variantですが、シングルコールトークン消費量は64パーセントごとに低下することができます。
出力長さを制限するより積極的な制御もあります。 多くの場合、出力天井を設定し、AIに残ったことはありません。これは、表現する権利のために許可され、多くの場合、極端なコスト損失につながりました。 ほんの少し短い文章が必要かもしれませんが、AIは「知覚」を提示して800ワードの作品を制作するものです。
純粋なデータを探しているなら、長い自然言語の説明ではなく、AIが構造化された形式に戻るように強制的にする必要があります。 同じ量の情報で、JSON 形式のトークン消費量は、散乱した文化よりもはるかに低いです。 これは、構造化されたデータがすべての冗長接続の単語、単語、説明的な修正を削除し、論理コアの高濃度だけを保持するという事実によるものです。 AI時代では、AIの意味のない自己解釈ではなく、何を支払う価値があることを認識する必要があります。
これに加えて、AIの「オーバーシンク」はアカウントの残高を偽装しています。
高度なモデルには「思考の拡張」モデルがあり、答える前に大きな内部推論を持っています。 この理由は、出力の価格は高価で価格も高価です。
このモデルは、ディープロジックを必要とする複雑なタスクのために不可欠です。 しかし、ほとんどの人は簡単な質問をする際にこのモデルを選択しました。 徹底的な推論を必要としないタスクのために、それは「説明する必要はありません、ちょうど答えを与える」と言うか、手動でそれをオフにするだけで、多くのお金を節約できるAIに明確です。
AIが古い請求書をオンにしないでください
大きなモデルは、実際の思い出を持っていません。 昔の本だけは不思議です。
多くの人が知らないボトムアップ機構です。 対話ウィンドウに新しいメッセージを送信するたびに、AIは自分の言葉から理解し始めませんが、以前に話したすべての会話、すべてのコード、すべての参照文書を繰り返し、あなたに答えるつもりです。
トークンの請求書では、この「良いと新しい」は無料ではありません。 AIの背後にあるアカウント全体を再読み込みする費用は、対話が終わるにつれて指数関数的に増加します。 このメカニズムは、あなたが尋ねるすべての質問よりも高価な対話の歴史を重くすることを決定します。
496 以上の記事を含む本物の会話が続くと、記事 1 のメッセージの平均 14,000 トークンは、メッセージあたりの約 3.6 セントのコストで平均しました。記事 50 では、平均 79,000 トークンは、メッセージあたりの約 4.5 センチメートルのコストで読みました。 さらに、文脈は長くなり、記事50の時点で、AIが対処しなければならない文脈は、記事1よりも既に5.6倍大きい。
この問題を解決する最も簡単な習慣は、タスク、対話ボックスです。
トピックが終了したら、決定書で新しい会話を開始し、シャットダウンしないチャットウィンドウとしてAIを使用しないでください。 習慣は単純に聞こえるが、多くの人がそれを行うことができません。そして、彼らは「私たちが何をするために使用したのか」と思っている。 実際には、心配している「IF」のほとんどが起こらないこと、そしてそのために、あなたはすでにすべてのニュースで数回以上支払った。
対話が継続する必要がある場合は、コンテキストが長くなり、いくつかのツールを使用して圧縮することができます。 Claudeコードには、長い話の歴史を短い要約に凝縮し、Sabotageのブレイクアップをするのに役立ちます。
ロジックを保存すると、プロンプトキャッシュです。 同じシステムヒントを繰り返し使用している場合、またはあなたが話すたびに同じ参照文書を参照する場合、AIはメッセージのこの部分をキャッシュします。 次の呼び出しは、フルプライスではなく、アクセスの非常に低率で行われます。
Anthropicの公式価格には、キャッシュトークンの価格が通常の価格の1/10であることを示しています。 OpenAIのPrompt Cachingは、入力コストを約50%削減します。 2026年1月にarXivに掲載された紙は、いくつかのAIプラットフォームの長いミッションをテストし、ヒントのキャッシュが45%から80%のAPIコストを削減したことを発見しました。
つまり、同じこと、初めてAIがフルプライスを支払い、その後の呼び出しは1/10を支払いました。 この機能は、標準文書またはシステムヒントの同じセットを毎日繰り返すユーザーの多数のトークンを保存します。
しかし、Prompt Cachingは、システムアラートと参照文書のコンテンツと注文が一貫性があり、会話の一番上に置く必要があります。 コンテンツの変更が生じたら、キャッシュが破棄され、フルプライスで再コストされます。 そのため、固定の作業コードを持っている場合は、それを書いて、それを変更しないでください。
コンテキスト管理の最後の技術は、必要に応じて読み込みます。 ルール、文書、注意を「念のためだけ」という理由でシステムのヒントに入れたい人がたくさんいます。
しかし、そうする価格は、あなたが単純なタスクをしているにもかかわらず、あなたが無駄にトークンの何千の言葉をロードし、無駄にトークンを無駄にすることを余儀なくされていることです。 クロードコードの公式ドキュメントは、CLUDE.md が 200 行以内に保持されることを示唆しています。異なるシナリオの特別なルールは、異なるスキルファイルに分割され、どのシーンがロードされるかのルールが使用されます。 コンテキストの絶対的な純度は、最も高いレベルの算術を尊重します。
食べ物を買うためにポルシェを服用しないでください
異なるAIモデル、価格ギャップが巨大です。
Claude Opus 4.6 1万トークン入力あたりの5ドル、出力用25ドル、Claude Haikuの3.5ドル、入力用0.8ドル、出力用4ドル、ほぼ6回差。 情報収集、レイアウト情報収集を行うためのトップモデルを取得するだけでなく、遅いだけでなく、高価です。

人間社会に共通する労働の「クラス分け」をAI社会に持ち、異なる難易度のある業務で、異なる価格でモデル化します。
リアルな世界で働く人を雇うのと同様に、あなたはレンガを動かすために何百万年もの専門家を雇わない。 つまりAIです。 Claude Codeの公式ファイルは、Sonnetがほとんどのプログラミングタスクを扱うことを明らかに示唆しています。Opusは複雑なアーキテクチャの決定とマルチステップ推論を残し、シンプルなサブタスクは俳句に割り当てられます。
具体的には、実践的なアプローチは、2 部分のワークフローを構築することです。 最初の段階では、データ収集、フォーマットクリーンアップ、ファーストドラフト生成、簡単な分類、集計など、汚れた作品の最初の段階は、無料または安価な基本モデルを使用して行われます。 第2フェーズでは、精製された高純度の微細さは、コアの意思決定と深さの改良のためのトップモデルに供給されます。
例えば、100ページ業界レポートを分析したい場合は、Gemini Flashでレポートから重要なデータと結論を抽出し、10ページまとめを形成し、詳細な分析と判断のためにClaude Opusに送信することができます。 この2部のワークフローにより、品質保証によるコストを大幅に削減できます。
単純なサブ処理よりも高度なことは、タスクの分解に基づいて労働の深い分裂です。 複雑なエンジニアリングの使命は、いくつかの別々のサブタスクからよく取り外され、最も適切なモデルと一致させることができます。
例えば、コードライティングが必要なタスクは、まずフレームとサンプルコードを書くのに安いモデルを可能にし、コアロジックを高価なモデルに渡すだけです。 各サブミッションは、クリーンで集中的なコンテキストと結果がより正確でコストが削減されます。
花、トークンを必要としませんでした
所在するすべての議論は、基本的にお金を節約する方法の戦術的な質問に対処しましたが、はるかに低い論理的提案は多くの人々によって無視されています:この動きはトークンを消費する必要がありますか
最大の節約はアルゴリズムの最適化ではなく、意思決定の分離ではありません。 AL-AIの答えを探しているのに使われていますが、多くのシナリオで、蚊と戦うための大きな高価なモデルを使用することが好きです。
たとえば、AIがメールを自動的に処理できるようにすることで、あらゆるメールを独立したタスクとして使用でき、理解、ソート、応答、トークンは多く消費されます。 しかし、受信トレイを見るために30秒かかると、手動でAIで処理する必要がないメールをシフトアウトし、残りのAIに手を渡すと、コストはすぐに小さな分数に削減されます。 人間の判断は障害ではありませんが、最高のフィルタです。
電信時代の人々は、より多くの単語を送るためにどのくらいの費用を知っているので、彼らはリソースの本能である、その世話をします。 同じことはAIの時代、あなたが本当にそれがより多くのことを言うためにAIを得るためにどのくらいの費用を知っているとき、あなたは自然にそれが価値がないという事実を世話する必要があります、タスクはトップモデルや安いモデルを必要とします、そしてコンテキストは役に立っています。
これは最も費用節約容量です。 これを行うための最もスマートな方法は、AIが人々を置き換えるのではなく、AIと人が最善を尽くすようにすることです。 トークンに対するこの感度が条件付き反射に統合されると、サブサービエントから算術のマスターに本当に変化します。
