サムネイル

AIコスト管理が経営イシューになった:トークンマネジメントの3ステップ

  • 0

こんにちは。仕様書を書かないPM、カイです。AimanaVo(エーアイマナボ)で、AI×プロダクトマネジメントの記事を書いています。

「うちのAI費用、月いくらか即答できますか?」

——経営会議でこの質問が飛んできたとき、正直に手が挙げられる会社って、自分の周りでもほとんどいないんですよね。

そんな中、Uberの社長兼COOが「Claude Codeに使った2026年のAI予算、4ヶ月で全部溶けました」と公の場で言い放ちました。

これ、ひとごとじゃないです。「とにかく最強モデルを浴びせる」フェーズが終わって、「ROIを説明できないなら削減対象」という時代に入った。今日は、その現実と、明日から使える管理フレームワークを整理します。

AIコスト管理が経営課題に変わった転換点

AIコスト管理が経営課題に変わった転換点:人件費とAIコストの並列化、Uber事例、Microsoft Satya Nadella発言

Uberが4ヶ月でAI予算を使い切った構造的な理由

2026年5月、Uberの社長兼COO、Andrew Macdonaldさんがポッドキャストに出演しました。

彼は、CTOから渡された数字を見て「頭が爆発するかと思った」と語っています。

Fortuneの記事によると、Uberは2026年のAI予算を4ヶ月で使い切りました。

大半はClaude Codeの利用料。複数の報道によれば、ヘビーユーザーのエンジニアでは月500〜2,000ドル(約7万5,000〜30万円)に達するケースもあるそうです。

さらに社内でAI利用量のリーダーボードを公開した結果、Claude Codeの採用率が32%から84%に跳ね上がりました。

Macdonaldさんのこの言葉が印象的でした。

「使った分が顧客価値に直結するなら正当化できる。でも、その直線が引けないならトレードオフを正当化するのは難しい」。

ここ、重要です。彼は「AI使うな」とは言っていません。「使った分がプロダクト改善になってるか説明できないなら削減対象」と言っているんです。

AI予算が「IT費用」から「人件費」と同じカテゴリの議論対象に格上げされた瞬間です。エンジニア1人雇うか、AIに月30万円払うか、同じテーブルで比較される。自分の現場感覚では、この比較がもう経営会議の現実になっている会社がちらほら出てきてます。

「トークン効率最悪のケースが多い」——Satya Nadellaが投げた問い

2026年3月のMorgan Stanley TMTカンファレンスで、MicrosoftのCEOであるSatya Nadellaさんが「トークン効率としてはむしろ最悪のことをやっているケースが少なくない」「次の1年で誰もが取り組むのは、AIを効率化するためのツール利用とソフトウェアだ」という趣旨の発言をしています。

Morgan Stanleyの公式記事に詳細が載ってます。

ハイパースケーラーのトップが「AIインフラへの投資はする、でも今の使われ方は効率が悪い」と公の場で認めた——供給側も需要側も、もうコストの話を避けて通れないフェーズに入った、ということです。

AIサブスクは赤字提供されている——いつ価格転嫁が起きるか

少し怖い話をします。

今みなさんが月20ドル(約3,000円)で使っているChatGPT ProやClaude Proのようなサブスクリプション、実はAI各社が大赤字で提供している可能性が高い。

The State of AIの分析によれば、ヘビーなナレッジワーカーが本気で使う場合の実コストは月200〜400ドル(約3万〜6万円)以上と試算されています。

20ドルでは到底回収できない計算です。

しかも複数のAIエージェントを並列に走らせる使い方が広がると、消費トークン量は桁違いになる。アナリストはこの状況を「業界全体のロスリーダー戦略」と呼んでいて、いずれ価格は実コストに寄せざるを得ない、というのが大勢の見方です。

2026年5月にAnthropicとOpenAIの両方が料金体系の見直しに動きました。GitHub Copilotも2026年6月から全プランを使用量ベース課金に移行することが正式発表されています。

明日いきなり3倍の請求書が来るというより、「来年の予算計画を立てるとき、AIコストを楽観的に見積もってると痛い目に遭う」という時限爆弾です。

今のうちに自社のAI消費プロファイルを把握しておかないと、価格転嫁が起きたタイミングで膝が折れる。ここからが、その「把握」の具体的な話です。

トークンマキシングが終わり、トークンマネジメントが始まる

「最強モデルを叩き続ける」フェーズは何を学習させてくれたか

ここ2年くらいの企業のAI活用、ぶっちゃけ「とにかく最強モデルを叩け、ROIは後で考えろ」というフェーズでした。

これを最近は「トークンマキシング」と呼ぶ向きが出てきてます。

このフェーズを否定するのはちょっと違うと思ってます。踏むべき第一歩だったんですよ。最強モデルを使うことで「AIに何ができて、何ができないか」の感覚値が組織に溜まった。ベスト体験を知った社員が、より軽いモデルへのダウングレードを許容しやすくなった。競合の動きに置いていかれない投資ペースを維持できた。この3つは、確かな資産です。

ただ、ここから先は違います。

「とにかく浴びせる」をやり続けると、コストが線形どころか指数関数的に伸びる。エージェント化が進むと、人間が打つプロンプト数の何倍ものトークンが裏で動くからです。LLMコスト管理という観点が後回しになったまま、エージェント化だけ進んでしまうのが今最もよくある失敗パターンです。トークンマキシングで学んだ知見を活かしながら「マネジメント」のフェーズに移る——これが次の1年の主戦場です。

コーディングだけじゃない——あらゆる業務のエージェント化が消費を全社に広げる

今までAIコストの話が出るとき、対象は主にエンジニアでした。Claude Codeとか、Cursorとか、コーディング系のツール。

でもこれ、もう数ヶ月でエンジニアだけの話じゃなくなります。

実際に業務への組み込みが進む現場を見ると、もう兆候は出ています。営業のシグナル収集、CSの問い合わせ自動応答、経費精算の自動申請、法務の契約レビュー、人事の採用スクリーニング。あらゆる業務がエージェント化し始めていて、しかもエージェントはチャットと違って「人間がプロンプトを1つ打つ→裏で何十回もLLMを叩く」という構造を持ちます。

つまり、エンジニアだけじゃなく、営業もマーケもバックオフィスも、全員が「トークン消費プロファイル」を持つことになる。Uberで起きた「エンジニア1人あたり月数万円〜数十万円」が、職種を問わず全社員に広がるイメージです。

マーケのCAC(顧客獲得コスト)管理と同じ次元の話になってきた、というのが自分の現場感覚です。AIコスト管理が「情シスの仕事」から「全部署の予算管理」に格上げされるということ。

では、具体的に何をすればいいか。3ステップで整理します。

トークンマネジメントの3ステップ:可視化・ミスマッチ検出・モデルルーティング

トークンマネジメントの3ステップフレームワーク:可視化→ミスマッチ検出→モデルルーティング

トークンマネジメントを実装可能なフレームワークに落とすと、3ステップに分解できます。

可視化 → ミスマッチ検出 → モデルルーティング。

順番が大事です。可視化なしにミスマッチは検出できないし、ミスマッチを検出できないとルーティングの判断軸が作れない。

Step1:可視化——誰が、どのモデルに、何トークン使っているか

経営層に「AI予算が膨らんでます」と報告するなら、最低限こういう粒度のデータが揃っている必要があります。

  • 部署別・職種別の月次トークン消費量と費用
  • モデル別(GPT-5/Claude Opus/Sonnet/Gemini等)の利用比率
  • ユーザー別の上位ヘビーユーザーランキング
  • タスク種別(コード生成・要約・翻訳・検索 等)別の消費内訳

言うのは簡単なんですが、実際にやろうとすると意外と詰まります。

Claude PRO、ChatGPT Team、GitHub Copilot、Cursor、複数のAPI直叩き案件など、各部署がバラバラに契約してると、決済データすら全社で名寄せできていないケースがほとんどです。

可視化の最小構成は3段階。まず決済(クレジットカード/サブスク/API請求)を1箇所に集める。次に各サービスの管理画面からエクスポートできる利用量データを月次で吸い上げる。最後にBIツールかスプレッドシートで「部署×モデル×月」のマトリクスを作る。

完璧じゃなくていいです。8割の概算でいいので、毎月見られる状態にする——これが最初のゴールです。

意外と効果があるのが、ヘビーユーザートップ5の可視化です。Uberが社内リーダーボードを公開して採用率が跳ね上がったのと逆で、トップ5を可視化すると「本当にそのモデル必要?」という議論が現場から自発的に起きる。透明性は最強の自浄作用です。

Step2:ミスマッチ検出——タスクとモデルのズレがコストを膨らませる

可視化ができたら、次はミスマッチ検出です。

「タスクの難易度」と「使っているモデルの能力」が見合っていないケースを潰す作業です。

たとえば、「今日の天気は?」みたいな問いに最上位推論モデル(Claude Opus 4.8とかGPT-5.5とか)を使うのは過剰です。これ、知らずにやっている人が本当に多い。デフォルトモデルを最上位にしたまま使い続けると、軽い質問でも常に高単価が課金されます。

実務的な進め方はこんな感じです。

利用ログから「短いプロンプト+短い回答」の組み合わせを抽出して、最上位モデルが使われていたら警告を上げる。特定タスク(要約・翻訳・分類 等)でモデル別にコスト/品質比を計測して、最適モデルを特定する。コードエージェントの自動実行が想定外の長時間ループに入っていないかを定期チェックする。

ここで気をつけたいのは、「ミスマッチ=悪」と単純化しないこと。本当に難しい問題には最上位モデルを使うべきだし、トライアル中の新タスクは過剰品質で試してから最適化するのが正解です。マネジメントは禁止ではなく、判断材料の提供です。

Step3:モデルルーティング——人ではなくシステムに最適モデルを選ばせる

可視化とミスマッチ検出が回り始めたら、最後のステップはモデルルーティングです。

「タスクが来たら、適切なモデルを自動で選ぶ」仕組みを作ること。

なぜ自動化が必要かというと、エージェント時代は人がモデルを都度選ぶ余地がないからです。エージェントが裏で勝手にLLMを叩くなら、選ぶ主体は人じゃなくシステムになる。「ルーティング層」を持っておかないと、エージェント化が進んだ瞬間にコストが暴発します。

ルーティングの基本パターンは3つあります。

「タスク分類ベース」はプロンプトの内容を軽量モデルで分類して、「要約→Sonnet、コード生成→Opus、雑談→Haiku」のように振り分ける。「コスト予算ベース」はユーザーや部署ごとに月額上限を設定し、上限が近づいたら自動で軽量モデルにフォールバックする。「品質フィードバックベース」は軽量モデルの出力を試して、品質が不足したら上位モデルにエスカレーションする。

注意したいのは、ルーティング層を作ること自体が目的化しないこと。最初はOpenRouterのようなマネージドサービスや、各社のAPIゲートウェイ機能を組み合わせて始めれば十分です。自社で巨大な分岐ロジックを抱えると、それ自体が技術負債になります。

3ステップを通じて、AIコスト管理は「個人の節約」から「組織の設計」に変わります。これがトークンマネジメントの本質です。

実際、市場ではこのStep1(可視化)を起点にしたプロダクトが動き始めています。

AIコスト管理ツールの現状:LayerXのアプローチを読む

3ステップのフレームワークを話したところで、実際に市場で動き始めているプロダクトを1つ取り上げます。

株式会社LayerXが2026年5月15日にリリースした「AIトークンアドバイザー」。これはバクラクビジネスカードの新機能で、AIサービスの利用状況とコストを、ユーザー単位・ツール単位・モデル単位で可視化できます。

プレスリリースによると、バクラクビジネスカード経由のAIサービス決済額は2023年Q2から2026年Q1にかけて約205倍に増えたそうです。

205倍です。決済を扱う立場から見ると、「もう個別の請求書を経理が手で集計するフェーズじゃない」という現実が数字にはっきり出ています。

このプロダクトが面白いのは、Step1(可視化)を決済データから逆算する設計を取っているところ。各部署が好き勝手に契約していても、法人カードという共通レイヤーで一元化できる。可視化のボトルネック(決済データの名寄せ)を最初から潰している作りです。

ツール選定の評価軸として、自分が見るときは次の点を確認します。

  • 主要AIサービス(OpenAI/Anthropic/Google/Microsoft/各種コーディングツール)への対応範囲
  • 部署×ユーザー×モデルの3軸でフィルタできるか
  • API/CSVでデータ外出しが可能か(自社BIに統合する場合)
  • 予算アラート・上限設定の柔軟性
  • ログの保管期間と監査要件への適合

可視化ツールはまだ各社が出揃っていない段階で、これから1〜2年で淘汰が進むはずです。

今は「決済起点(LayerX型)」「APIゲートウェイ起点(FinOpsツール型)」「LLM観測起点(Helicone/Langfuse型)」と複数のアプローチが並走しています。自社の状況によって最適解は変わるので、まずは可視化したい粒度を先に決めるのが近道です。

ツールの話はここまでにして、明日から実際に動けるアクションを整理します。

今すぐ着手できるAIトークン管理のアクション

今すぐ着手できるAIトークン管理の3つのアクション:可視化ダッシュボード・予算申請フォーマット・ステークホルダー翻訳

AIトークン管理の現状把握から始める——可視化ダッシュボードの最小構成

完璧なダッシュボードは目指さなくていいです。

最初に作るのはこんなシンプルなもので十分です。

  • 横軸:月(直近6ヶ月)
  • 縦軸:部署別のAIコスト合計
  • 内訳:主要サービス(ChatGPT/Claude/GitHub Copilot/Cursor/API直叩き)の積み上げ

スプレッドシート1枚でいいので、まず今月の数字を集める。集めてみると「え、CSがこんなに使ってるの?」みたいな発見が必ず出てきます。発見が出れば、次のアクションは自然に決まる。データが先、施策は後です。

AIコストを予算申請フォーマットに組み込む方法

新しい施策を起案するとき、予算申請のテンプレに「想定AIトークンコスト」の欄を追加してみてください。

記入欄を作るだけで、起案者が事前に試算する習慣がつきます。最初は雑な見積もりで構いません。「月500ユーザー × 1人あたり週10回利用 × Claude Sonnetの1回あたり概算0.05ドル」みたいなレベルで十分。記入することで「あ、これ年間で結構な額になるな」と気づくきっかけになります。

AIコストを「特別な技術コスト」じゃなく「人件費・外注費と並ぶ通常コスト」として扱うこと。承認フローも、特別扱いせず既存の予算プロセスに乗せる。そうすると、組織全体で意思決定の精度が上がります。

ステークホルダーへの説明——「人件費と同じ言語で話す」

経営会議でAIコストの話をするとき、技術用語で語ると確実に話が止まります。

トークンとか、推論コストとか、コンテキストウィンドウとか——聞き手の頭に入らない言葉を並べると、そこで思考停止が起きる。

代わりに使う翻訳がこれです。

  • 「Claude Codeに月Xドル使ってます」→「これはエンジニア◯人月の人件費に相当します」
  • 「トークン消費が3倍に増えました」→「コードレビューの所要時間が半分になりました(生産性換算)」
  • 「モデルを上位に変えたい」→「品質向上のコストXXX万円で、不具合修正工数YYY時間を削減します」

このフレーミングができるかどうかで、経営層の理解度が劇的に変わります。Uberの事例でMacdonaldさんが「人件費とトレードオフ」と発言したのは、この翻訳が会社全体でできていることの表れだと思います。

AIコスト管理はこれからの経営の優先課題になる

AIコスト管理はもう「IT部門が後から考えればいいやつ」ではなくなりました。

CACや人件費と並ぶ管理対象として、来年の予算計画から組み込む必要があります。

3ステップ(可視化→ミスマッチ検出→モデルルーティング)はすべてを一気にやる必要はありません。まず可視化だけでも始めれば、半年後の景色は確実に変わります。

明日の経営会議で「AIコストの可視化、来月までに最小構成のダッシュボードを作ります」と提案できるかどうか。それが、価格転嫁の波が来たときに舵を切れる組織かどうかを分ける起点になります。

参考ソース

会員登録して機能を使おう

この機能を利用するには、無料の会員登録が必要です。
お気に入りの記事を保存して、あとで読み返しましょう!