サムネイル

Cua DriverとOpenClawは何が違うのか:AIエージェント2層構造を整理する

  • 0

こんにちは。もるふぉです。

Claude Codeに画面操作を任せるたびに、ウィンドウが勝手に前面に飛び出してきてタイピングを邪魔される。

OpenClawでSlackやWhatsAppからAIに指示は出せるようになったけど、結局PCで手を動かす作業は自分に残っている。

この「AIに作業を渡したのに、なるほどなぜか自分の集中が途切れる問題」、ずっと気になってたんですよ。

そこに一撃を入れそうなツールが、2026年4月24日にオープンソース化されました。

trycuaが発表したcua-driverです。

ひとことで言うと、AIエージェントがmacOSアプリをバックグラウンドで操作できるようにするOSSドライバーで、Claude Code・Codex・Cursor・自作エージェントから利用できます。

この記事では、同じく自分が愛用しているOpenClawCua Driverが何が違うのか、そしてどう棲み分けて使えばいいのかを整理します。

結論から言うと、両者は競合ではなく、AIエージェントの「上と下」を担当する補完関係にあります。

「え、同じAIツールじゃないの?」って思いますよね。これが実はまったく違うレイヤーを担当してるんです。順番に見ていきます。

Cua Driverとは何か — 2026年4月にオープンソース化されたmacOS AIエージェント向けドライバー

Cua Driverが解くフォアグラウンド奪取問題のBefore/After対比図

Cua Driverは、AIエージェントがmacOS上の任意アプリをバックグラウンドで操作できるようにするOSSドライバーです。

提供元はY Combinator X25出身のCuaというチームで、trycua/cuaリポジトリの一部としてlibs/cua-driver配下で公開されています。

最新バージョンはcua-driver v0.0.4(2026-04-23リリース)。

ライセンスはMIT、リポジトリ全体のスターは13.6kです。

Cua DriverがmacOSバックグラウンド操作で解く「AIがフォーカスとカーソルを奪う問題」

まずこのツールが解くペインから整理します。

Claude CodeやCodexにcomputer useを使わせたことがあるエンジニアなら、多分全員が一度は経験してるはずなんですよ。

  • AIが画面操作を始めた瞬間、エディタの最前面が奪われる
  • マウスカーソルが勝手に動いて自分の操作と衝突する
  • Spaces(仮想デスクトップ)が切り替わって作業が中断する

「AIに任せてる間に別の作業しよう」と思ったのに、結局監視してないといけない状態になる。

trycuaのスレッドでも4/8で「バックグラウンド開発ループ」として紹介されてました。

Claude Codeが視覚的なバグを再現して修正を書いてQAする間、エージェントハーネスはずっと最前面にある。

これを解くのがCua Driverです。

カーソル・フォーカス・Spaceを奪わずに、AIが裏でアプリを操作し続けられる。

つまり、AIに作業を渡したまま自分は別のことを続けられる

これ、地味に見えて体験としてはめちゃくちゃ大きいんですよ。

「AIに任せる」が名実ともに成立する、初めての仕組みだと思ってます。

SkyLight + yabaiで実現したCua Driverのバックグラウンド コンピュータ使用の仕組み

技術的な仕組みが結構エモいので紹介させてください。

Cua Driverは、以下の2つの組み合わせでバックグラウンド操作を実現しています。

  • SkyLight プライベートAPI: macOS内部で使われているウィンドウ管理用の非公開API
  • yabai の focus-without-raise パターン: ウィンドウをフォーカスするが最前面には出さない挙動

yabaiはmacOSのタイル型ウィンドウマネージャとして有名なOSSで、キーボードだけで高速にウィンドウを操作するために一部のエンジニアに愛用されてます。

ここが面白いポイントなんですよ。

「ウィンドウをフォーカスするが最前面に出さない」というyabaiのコンセプトは、もともとキーボード操作の快適さのために生まれたもの。

それをAIエージェント向けのドライバーとして再構成した、という発想が好きなんです。

もう1つ重要なのが、非AX(Accessibility)サーフェスに対応しているという点です。

macOSの通常のUI自動化はAccessibility APIを使うんですが、Chromiumのコンテンツエリア、Figma、Blender、DAW(音楽制作ソフト)などはAXでは読み取れない領域が多い。

つまり、従来の自動化ツールが「諦めていた領域」までCua Driverは操作できます。

ただし公式ドキュメントによると、Canvas系アプリ(Blenderやゲーム等)は初回のみフォアグラウンド起動が必要という制限もあるので、そこは頭に入れておくといいですね。

これは「AIエージェントがどんなアプリでも動かせる汎用ドライバー」としての地ならしとして、かなり意味が大きいです。

Cua Driverの対応エージェント(Claude Code、Codex、Cursor、カスタムクライアント)

Cua Driverは特定のエージェント製品ではなく、エージェントが使う下回りのインフラです。

現在想定されている主な対応クライアントは以下です。

  • Claude Code
  • Codex
  • Cursor
  • カスタムクライアント(自前のエージェントループ)

自分が普段使ってるエージェントをそのまま使いつつ、実行レイヤーだけCua Driverに置き換えるイメージです。

「どのエージェントが好きか」は変えなくていい。ただ「どうPCを動かすか」の部分だけが変わる。

次は、もうひとつの主役・OpenClawの話です。

OpenClawとは何か — 40+チャネル対応のパーソナルAIアシスタント

一方、OpenClawの立ち位置を再確認しておきます。

OpenClawはOSSのパーソナルAIアシスタントで、WhatsApp、Telegram、Slack、Discord、Signal、iMessage、BlueBubbles、Feishu、LINE、WeChatなど40以上のチャネルから対話できるのが最大の特徴です。

最新バージョンはv2026.4.22(2026-04-23リリース)。

ライセンスはMIT、スターは363k。数字のスケールがCua Driverとは一桁違う、成熟したプロジェクトですね。

OpenClawとCua Driverの位置づけの違い(チャネル接点 vs 実行基盤)

ここが核心です。

OpenClawCua Driverまったく違うレイヤーを担当しています

  • OpenClaw: ユーザーとAIの接点(入り口)を作る。「どこからAIに指示を出すか」を担当
  • Cua Driver: AIがmacOSアプリを実行する手段を提供する。「どうやってPCを動かすか」を担当

いわば、OpenClawは「フロントデスクの受付」で、Cua Driverは「実際に手を動かす現場スタッフ」です。

OpenClawを使っていても、実際にPCを操作する部分は別の仕組みが必要だった。

そこにCua Driverがはまる。

「なんだ競合なのかと思ったら、全然違う役割じゃないか」という腹落ち感、これが今回の記事のキモです。

OpenClaw v2026.4.22の主な変更点:xAI統合・ローカル埋め込みモード

ちなみにOpenClawは2026-04-23にv2026.4.22がリリースされていて、以下が目玉アップデートです。

  • xAI統合拡張(画像生成、TTS、STTのサポート)
  • Deepgram/ElevenLabs/Mistralのボイスコール字幕
  • ローカル埋め込みモード(ゲートウェイ不要)
  • WhatsApp改善(グループごとのsystemPrompt設定)

さらに直近のリリースでは以下のような変更も入っています。

  • v2026.4.21(4/22): gpt-image-2をデフォルト化、プラグイン依存修復
  • v2026.4.20(4/21): Moonshot Kimi K2.6デフォルト化、セットアップウィザードUI刷新、セッション管理強化、tiered model pricing対応

OpenClawはOpenAI/Anthropic/Moonshot Kimi/ローカルLLM(vLLM、llama.cpp、Ollama)/xAIと、対応プロバイダがかなり広いのも特徴です。

つまりモデルの好みを問わず「自分の受付チャネル」として機能する、という設計になってます。

比較表で見るとさらに整理しやすいので、次でまとめます。

Cua Driver vs OpenClaw:機能比較表で見るAIエージェント2層構造

Cua DriverとOpenClawの担当レイヤーを示すAIエージェント2層構造スタック図

ここで両者を並べて整理します。

比較表を先に置いておきます。

観点
Cua Driver
OpenClaw
位置づけ
エージェント用インフラ(下回り)
ユーザー用アシスタント(上位)
中心価値
AIがmacOSアプリをバックグラウンド操作
既存チャネルからAIに指示
対応OS
macOS 14+(Apple Silicon/Intel)
macOS/iOS/Android/Web
接点
エージェントSDK・コード
WhatsApp/Slack/Discord等40+チャネル
音声
なし
ローカル音声合成(MLX)、Voice Wake
UI
なし(ドライバー)
Live Canvas
対応エージェント
Claude Code, Codex, Cursor, カスタム
OpenAI, Anthropic, Kimi K2.6, ローカルLLM
インストール
curlスクリプト
npm
ライセンス
MIT
MIT
最新版
cua-driver v0.0.4(2026-04-23)
v2026.4.22(2026-04-23)
スター
13.6k
363k

担当レイヤーで整理するCua DriverとOpenClawのOSドライバー層 vs アプリケーション層

この表をもう一段抽象化すると、こういう階層図になります。

┌─────────────────────────────────────┐
│  ユーザー                            │
└────────────┬────────────────────────┘
             │ メッセージ・音声
             ▼
┌─────────────────────────────────────┐
│  OpenClaw(アプリケーション層)      │
│  - 40+チャネル受付                   │
│  - Live Canvas                       │
│  - Task Brain                        │
└────────────┬────────────────────────┘
             │ AIエージェント呼び出し
             ▼
┌─────────────────────────────────────┐
│  AIエージェント                      │
│  (Claude Code / Codex / Cursor etc.) │
└────────────┬────────────────────────┘
             │ アプリ操作要求
             ▼
┌─────────────────────────────────────┐
│  Cua Driver(OSドライバー層)        │
│  - macOS バックグラウンド操作        │
│  - SkyLight + yabai                  │
└────────────┬────────────────────────┘
             │ OS API
             ▼
┌─────────────────────────────────────┐
│  macOS                               │
└─────────────────────────────────────┘

これを見ると「あ、そういうことか」となりませんか。

OpenClawが「ユーザーとAIの会話」を受けて、AIが「PCを動かす」必要があるときにCua Driverを呼ぶ、という構造。

ウェブアプリで言えば、OpenClawがAPIサーバー、Cua DriverがDBドライバー、みたいな関係です。

Cua DriverとOpenClawのインストール方法・必要環境の違い

インストール方法も担当レイヤーの違いがそのまま出てます。

Cua DriverはmacOS向けのドライバーなので、curlスクリプトで一撃。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

macOS 14(Sonoma)以降のMacで動作します(Apple Silicon / Intel Mac両対応)。

一方OpenClawはNode.js製のアプリなので、npmでグローバルインストール。

npm install -g openclaw@latest

推奨環境はNode 24、最低でもNode 22.16+です。

Cua DriverとOpenClawのライセンス・スター数・開発主体の違い

  • ライセンス: どちらもMIT(商用利用OK)
  • スター: Cua Driver(trycua/cua)は13.6k、OpenClawは363k
  • 開発主体: Cua DriverはY Combinator X25出身のCuaチーム、OpenClawはOSSコミュニティ

スター数には差がありますが、これはOpenClawが長期間にわたってコミュニティを育ててきた結果で、Cua Driverは2026年4月に出たばかり。

これから伸びるフェーズですね。

ここまでで「なぜこの2つが違うのか」は整理できました。次は、個人的に今回一番刺さったポイントの話です。

OpenAI Codexとの比較 — OSSで解放されたバックグラウンド コンピュータ使用

ここが個人的には今回一番刺さるポイントでした。

Codexのバックグラウンド コンピュータ使用がOpenAI限定である背景

Codexはつい先週、バックグラウンドでのコンピュータ使用機能を導入しました。

ただし、これはOpenAI限定機能なんですよ。

  • Codexのbackground computer use機能はCodexアプリ内でのみ動作する
  • Claude CodeやCursorが自分のエージェントとして同等のバックグラウンド操作を行う公式手段はない
  • つまり「Claude CodeやCursorを使いながらバックグラウンド操作する」体験は得られない

つまり「OpenAIエコシステムに乗っている人だけが、バックグラウンド操作という便利な体験を享受できる」状態だったわけです。

Claude Codeをメインで使っている自分のようなエンジニアからすると、ちょっと指をくわえて見る感じでした。

Cua DriverがOSSで同等機能を実現した技術的アプローチ

trycuaのスレッド2/8にこう書いてあります。

CodexはOpenAI限定でバックグラウンドcomputer useを出したが、我々はSkyLightプライベートAPIとyabaiのfocus-without-raiseパターンの組み合わせで、同じような基本機能をオープンソースで実現した。

これが個人的にエモいポイントなんですよ。

OpenAI専用の囲い込み機能 → OSSで誰でも使える。

Claude Codeユーザーも、Cursorユーザーも、自作エージェントユーザーも、全員がバックグラウンド操作を手に入れられる。

正直、「よくやってくれた」という気持ちです。

つまり、Claude CodeユーザーがCodexのバックグラウンド操作機能を横目で羨む必要は、もうないってことです。

ライセンスがMITという点も重要で、企業内で使うときの法務確認もほぼ障壁ゼロです。

Cua DriverとOpenClawの併用シナリオ

外出先のスマホからOpenClaw経由で自宅のMacを裏で動かす併用シナリオのフロー図

さて、ここが一番気になる人も多いはず。

Cua DriverとOpenClawの理論上のアーキテクチャ(フロント受付 → バック実行の流れ)

理論的には、以下のような使い方ができます。

  1. ユーザーがWhatsAppで「このPDFを読んで要約して」とOpenClawに送る
  2. OpenClawがメッセージを受け取り、バックエンドのAIエージェントに指示を渡す
  3. AIエージェントがCua Driver経由でmacOSのPDFビューアやブラウザをバックグラウンドで操作
  4. 結果をOpenClaw経由でWhatsAppに返す

ユーザーの画面は一切動かないし、作業中のエディタも邪魔されない。

全部裏で完結する。これは夢のある構成です。

「外出先からスマホで指示して、家のMacが勝手に作業を終わらせてる」という体験に、かなり近づきます。

現時点のCua DriverとOpenClaw併用の制限と追加実装が必要な部分

ただし、正直に書いておくと現時点ではそのまま繋がりません

cua-driver v0.0.4の対応クライアントは、Claude Code、Codex、Cursor、カスタムクライアント向けです。

OpenClawから直接cua-driverを呼ぶためには、以下のどちらかが必要になります。

  • OpenClawのプラグインとしてcua-driver連携を書く
  • OpenClawが呼び出すエージェント層(自作ループなど)を挟み、そこからcua-driverを叩く

つまり「OpenClaw + Cua Driverのシームレスな公式統合」は、2026-04-24時点では存在しません。

「じゃあまだ早いか」——そう思うかもしれませんが、ただ両方MITのOSSで、両方とも活発に開発されているので、3〜6ヶ月以内にコミュニティからプラグインが出てくる可能性は高いんじゃないかと見てます。

今すぐ試したいならCua Driver単体からが現実的です。次でその手順を書きます。

Cua Driverのインストールと初期設定

ここまで読んで「とりあえず触ってみたい」というエンジニア向けに、セットアップ手順を簡単にまとめておきます。

curlスクリプトによるCua Driverの1コマンドインストール

公式のインストールコマンドはこれ1行です。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"

Homebrewすら要らない。

このシンプルさはエンジニア体験として好感度高いですね。

curl1行で入るなら、ドキュメントを全部読む前に触ってみるのもアリだと思ってます。

cua-driver v0.0.4の動作確認と対応チェック

前提条件として以下が必要です。

  • macOS 14(Sonoma)以降(Apple Silicon / Intel Mac)
  • SkyLightのプライベートAPIにアクセスできる権限設定(アクセシビリティ許可)

インストール後はリポジトリのREADMEで対応エージェントと連携サンプルを確認するのが近道です(trycua/cua)。

併せて、関連コンポーネントの最新版も押さえておくと良いです。

  • cua-sandbox v0.1.16: エージェント実行用のサンドボックス環境
  • cua-computer-server v0.3.39: リモートからcomputer useを呼び出すためのサーバー

Cua全体としては、macOS/Linux/Windows対応のComputer-Use Agent基盤として設計されているので、今後のプラットフォーム拡大にも期待できます。

Cua Driver / OpenClawを使うべきエンジニアの判断基準

最後に、どちらを使うべきかの判断軸を整理します。

Cua Driverだけを使うべきケース

以下に当てはまるなら、まずCua Driverから入るのが良いです。

  • Claude CodeやCodexでcomputer useを使っているが、画面占有がストレスになっている
  • バックグラウンドでAIにアプリ操作を任せつつ、自分は別作業を続けたい
  • エージェント基盤(実行レイヤー)だけOSSで固めたい
  • macOSアプリの自動化を、AX非対応サーフェス(Figma、Blender等)まで含めて実現したい

OpenClawだけを使うべきケース

一方、これに当てはまるならOpenClawから入るのが自然です。

  • WhatsAppやSlackからAIに指示を出したい
  • 音声でAIを呼び出したい(Voice Wake、Talk Mode)
  • macOS以外(iOS、Android、Web)からもAIを使いたい
  • ローカルLLM(vLLM、llama.cpp、Ollama)を活用したい
  • Live Canvasのようなビジュアルワークスペースが欲しい

Cua DriverとOpenClawの両方を組み合わせる将来的なケース

両方を組み合わせたい場合はこのケースです。

  • フロント受付(チャネル対応)と実行レイヤー(バックグラウンド操作)を両方OSSで固めたい
  • 自分で統合プラグインを書ける、または書く人を待てる
  • 「外出先からWhatsAppで指示 → Mac上で裏作業が進む → 結果を受け取る」という体験を作りたい

現状は追加実装が必要なので、今すぐ両立させたいなら自分でプラグインを書けるエンジニア向けのフェーズです。

まとめ:Cua Driverは「AIの手足」、OpenClawは「AIの受付窓口」

改めて整理すると、Cua DriverOpenClawの関係はシンプルです。

  • Cua DriverAIの手足(macOSを実際に動かすドライバー)
  • OpenClawAIの受付窓口(ユーザーとAIを繋ぐチャネル層)

この2つは競合ではなく、AIエージェントというシステムの「上位」と「下位」を分担しているペアです。

2026年4月時点ではCua Driverが出たばかりで、OpenClawとの公式統合はまだありません。

でも両方MIT・両方OSS・両方活発に開発されているので、コミュニティ発のブリッジが出てくるのは時間の問題かなと思ってます。

とりあえずCua Driver、curl一発で入るので、Claude Codeユーザーなら試してみる価値は十分あります。

まず自分のMacに入れてみて、Claude Codeとの組み合わせで「カーソルが奪われない」体験を確かめてみてください。

それでは、良いAI駆動開発ライフを。

会員登録して機能を使おう

この機能を利用するには、無料の会員登録が必要です。
お気に入りの記事を保存して、あとで読み返しましょう!