AIコスト管理が経営イシューになった：トークンマネジメントの3ステップ

カイ@プロダクトマネージャー

2026/06/02

こんにちは。仕様書を書かないPM、カイです。AimanaVo（エーアイマナボ）で、AI×プロダクトマネジメントの記事を書いています。

「うちのAI費用、月いくらか即答できますか？」

——経営会議でこの質問が飛んできたとき、正直に手が挙げられる会社って、自分の周りでもほとんどいないんですよね。

そんな中、Uberの社長兼COOが「Claude Codeに使った2026年のAI予算、4ヶ月で全部溶けました」と公の場で言い放ちました。

これ、ひとごとじゃないです。「とにかく最強モデルを浴びせる」フェーズが終わって、「ROIを説明できないなら削減対象」という時代に入った。今日は、その現実と、明日から使える管理フレームワークを整理します。

AIコスト管理が経営課題に変わった転換点

Uberが4ヶ月でAI予算を使い切った構造的な理由

2026年5月、Uberの社長兼COO、Andrew Macdonaldさんがポッドキャストに出演しました。

彼は、CTOから渡された数字を見て「頭が爆発するかと思った」と語っています。

Fortuneの記事によると、Uberは2026年のAI予算を4ヶ月で使い切りました。

大半はClaude Codeの利用料。複数の報道によれば、ヘビーユーザーのエンジニアでは月500〜2,000ドル（約7万5,000〜30万円）に達するケースもあるそうです。

さらに社内でAI利用量のリーダーボードを公開した結果、Claude Codeの採用率が32%から84%に跳ね上がりました。

Macdonaldさんのこの言葉が印象的でした。

「使った分が顧客価値に直結するなら正当化できる。でも、その直線が引けないならトレードオフを正当化するのは難しい」。

ここ、重要です。彼は「AI使うな」とは言っていません。「使った分がプロダクト改善になってるか説明できないなら削減対象」と言っているんです。

AI予算が「IT費用」から「人件費」と同じカテゴリの議論対象に格上げされた瞬間です。エンジニア1人雇うか、AIに月30万円払うか、同じテーブルで比較される。自分の現場感覚では、この比較がもう経営会議の現実になっている会社がちらほら出てきてます。

「トークン効率最悪のケースが多い」——Satya Nadellaが投げた問い

2026年3月のMorgan Stanley TMTカンファレンスで、MicrosoftのCEOであるSatya Nadellaさんが「トークン効率としてはむしろ最悪のことをやっているケースが少なくない」「次の1年で誰もが取り組むのは、AIを効率化するためのツール利用とソフトウェアだ」という趣旨の発言をしています。

Morgan Stanleyの公式記事に詳細が載ってます。

ハイパースケーラーのトップが「AIインフラへの投資はする、でも今の使われ方は効率が悪い」と公の場で認めた——供給側も需要側も、もうコストの話を避けて通れないフェーズに入った、ということです。

AIサブスクは赤字提供されている——いつ価格転嫁が起きるか

少し怖い話をします。

今みなさんが月20ドル（約3,000円）で使っているChatGPT ProやClaude Proのようなサブスクリプション、実はAI各社が大赤字で提供している可能性が高い。

The State of AIの分析によれば、ヘビーなナレッジワーカーが本気で使う場合の実コストは月200〜400ドル（約3万〜6万円）以上と試算されています。

20ドルでは到底回収できない計算です。

しかも複数のAIエージェントを並列に走らせる使い方が広がると、消費トークン量は桁違いになる。アナリストはこの状況を「業界全体のロスリーダー戦略」と呼んでいて、いずれ価格は実コストに寄せざるを得ない、というのが大勢の見方です。

2026年5月にAnthropicとOpenAIの両方が料金体系の見直しに動きました。GitHub Copilotも2026年6月から全プランを使用量ベース課金に移行することが正式発表されています。

明日いきなり3倍の請求書が来るというより、「来年の予算計画を立てるとき、AIコストを楽観的に見積もってると痛い目に遭う」という時限爆弾です。

今のうちに自社のAI消費プロファイルを把握しておかないと、価格転嫁が起きたタイミングで膝が折れる。ここからが、その「把握」の具体的な話です。

トークンマキシングが終わり、トークンマネジメントが始まる

「最強モデルを叩き続ける」フェーズは何を学習させてくれたか

ここ2年くらいの企業のAI活用、ぶっちゃけ「とにかく最強モデルを叩け、ROIは後で考えろ」というフェーズでした。

これを最近は「トークンマキシング」と呼ぶ向きが出てきてます。

このフェーズを否定するのはちょっと違うと思ってます。踏むべき第一歩だったんですよ。最強モデルを使うことで「AIに何ができて、何ができないか」の感覚値が組織に溜まった。ベスト体験を知った社員が、より軽いモデルへのダウングレードを許容しやすくなった。競合の動きに置いていかれない投資ペースを維持できた。この3つは、確かな資産です。

ただ、ここから先は違います。

「とにかく浴びせる」をやり続けると、コストが線形どころか指数関数的に伸びる。エージェント化が進むと、人間が打つプロンプト数の何倍ものトークンが裏で動くからです。LLMコスト管理という観点が後回しになったまま、エージェント化だけ進んでしまうのが今最もよくある失敗パターンです。トークンマキシングで学んだ知見を活かしながら「マネジメント」のフェーズに移る——これが次の1年の主戦場です。

コーディングだけじゃない——あらゆる業務のエージェント化が消費を全社に広げる

今までAIコストの話が出るとき、対象は主にエンジニアでした。Claude Codeとか、Cursorとか、コーディング系のツール。

でもこれ、もう数ヶ月でエンジニアだけの話じゃなくなります。

実際に業務への組み込みが進む現場を見ると、もう兆候は出ています。営業のシグナル収集、CSの問い合わせ自動応答、経費精算の自動申請、法務の契約レビュー、人事の採用スクリーニング。あらゆる業務がエージェント化し始めていて、しかもエージェントはチャットと違って「人間がプロンプトを1つ打つ→裏で何十回もLLMを叩く」という構造を持ちます。

つまり、エンジニアだけじゃなく、営業もマーケもバックオフィスも、全員が「トークン消費プロファイル」を持つことになる。Uberで起きた「エンジニア1人あたり月数万円〜数十万円」が、職種を問わず全社員に広がるイメージです。

マーケのCAC（顧客獲得コスト）管理と同じ次元の話になってきた、というのが自分の現場感覚です。AIコスト管理が「情シスの仕事」から「全部署の予算管理」に格上げされるということ。

では、具体的に何をすればいいか。3ステップで整理します。

トークンマネジメントの3ステップ：可視化・ミスマッチ検出・モデルルーティング

トークンマネジメントを実装可能なフレームワークに落とすと、3ステップに分解できます。

可視化 → ミスマッチ検出 → モデルルーティング。

順番が大事です。可視化なしにミスマッチは検出できないし、ミスマッチを検出できないとルーティングの判断軸が作れない。

Step1：可視化——誰が、どのモデルに、何トークン使っているか

経営層に「AI予算が膨らんでます」と報告するなら、最低限こういう粒度のデータが揃っている必要があります。

部署別・職種別の月次トークン消費量と費用
モデル別（GPT-5/Claude Opus/Sonnet/Gemini等）の利用比率
ユーザー別の上位ヘビーユーザーランキング
タスク種別（コード生成・要約・翻訳・検索等）別の消費内訳

言うのは簡単なんですが、実際にやろうとすると意外と詰まります。

Claude PRO、ChatGPT Team、GitHub Copilot、Cursor、複数のAPI直叩き案件など、各部署がバラバラに契約してると、決済データすら全社で名寄せできていないケースがほとんどです。

可視化の最小構成は3段階。まず決済（クレジットカード/サブスク/API請求）を1箇所に集める。次に各サービスの管理画面からエクスポートできる利用量データを月次で吸い上げる。最後にBIツールかスプレッドシートで「部署×モデル×月」のマトリクスを作る。

完璧じゃなくていいです。8割の概算でいいので、毎月見られる状態にする——これが最初のゴールです。

意外と効果があるのが、ヘビーユーザートップ5の可視化です。Uberが社内リーダーボードを公開して採用率が跳ね上がったのと逆で、トップ5を可視化すると「本当にそのモデル必要？」という議論が現場から自発的に起きる。透明性は最強の自浄作用です。

Step2：ミスマッチ検出——タスクとモデルのズレがコストを膨らませる

可視化ができたら、次はミスマッチ検出です。

「タスクの難易度」と「使っているモデルの能力」が見合っていないケースを潰す作業です。

たとえば、「今日の天気は？」みたいな問いに最上位推論モデル（Claude Opus 4.8とかGPT-5.5とか）を使うのは過剰です。これ、知らずにやっている人が本当に多い。デフォルトモデルを最上位にしたまま使い続けると、軽い質問でも常に高単価が課金されます。

実務的な進め方はこんな感じです。

利用ログから「短いプロンプト＋短い回答」の組み合わせを抽出して、最上位モデルが使われていたら警告を上げる。特定タスク（要約・翻訳・分類等）でモデル別にコスト/品質比を計測して、最適モデルを特定する。コードエージェントの自動実行が想定外の長時間ループに入っていないかを定期チェックする。

ここで気をつけたいのは、「ミスマッチ＝悪」と単純化しないこと。本当に難しい問題には最上位モデルを使うべきだし、トライアル中の新タスクは過剰品質で試してから最適化するのが正解です。マネジメントは禁止ではなく、判断材料の提供です。

Step3：モデルルーティング——人ではなくシステムに最適モデルを選ばせる

可視化とミスマッチ検出が回り始めたら、最後のステップはモデルルーティングです。

「タスクが来たら、適切なモデルを自動で選ぶ」仕組みを作ること。

なぜ自動化が必要かというと、エージェント時代は人がモデルを都度選ぶ余地がないからです。エージェントが裏で勝手にLLMを叩くなら、選ぶ主体は人じゃなくシステムになる。「ルーティング層」を持っておかないと、エージェント化が進んだ瞬間にコストが暴発します。

ルーティングの基本パターンは3つあります。

「タスク分類ベース」はプロンプトの内容を軽量モデルで分類して、「要約→Sonnet、コード生成→Opus、雑談→Haiku」のように振り分ける。「コスト予算ベース」はユーザーや部署ごとに月額上限を設定し、上限が近づいたら自動で軽量モデルにフォールバックする。「品質フィードバックベース」は軽量モデルの出力を試して、品質が不足したら上位モデルにエスカレーションする。

注意したいのは、ルーティング層を作ること自体が目的化しないこと。最初はOpenRouterのようなマネージドサービスや、各社のAPIゲートウェイ機能を組み合わせて始めれば十分です。自社で巨大な分岐ロジックを抱えると、それ自体が技術負債になります。

3ステップを通じて、AIコスト管理は「個人の節約」から「組織の設計」に変わります。これがトークンマネジメントの本質です。

実際、市場ではこのStep1（可視化）を起点にしたプロダクトが動き始めています。