PikaStream1.0とは？AIエージェントにビデオ通話スキルを付ける新技術を徹底解説

プロンプト画伯

2026/04/04

元デザイナー → AI画像職人のプロンプト画伯だ。

「センスじゃない、言語化だ」をモットーに、使えるプロンプトと失敗例を日々晒している。

「AIの顔ってまだ怖くない？」って思ってる人、いると思う。

口パクするだけのアバター、ぎこちない表情、どこか人形っぽい感じ。

「自分のAI分身とかSFの話でしょ？」って感覚も、つい最近まで正直あった。

でも今回調べていて、その感覚が少し変わった。

PikaStream1.0、これはちょっとレベルが違うかもしれない。

今回は画像生成じゃなく、AIの「動き」に関する話。

PikaStream1.0というリアルタイムAIモデルが出て、AIエージェントにビデオ通話スキルを付けられるようになった。

これはかなりデカいニュースだと思ったので、さっそく調べてまとめてみた。

PikaStream1.0って何？ AIに「顔」が付いた日の話

Pika Labsが2026年4月3日（日本時間）にベータ版をリリース

動画生成AIで知られるPika Labsが、2026年4月3日（日本時間）に新しいリアルタイムモデル「PikaStream1.0」のベータ版をリリースした。

公式Xの投稿はこうだ。

「あらゆるAIエージェント向けの、初のビデオチャットスキル」。

この投稿は大きな反響を呼んだ。

GitHub - Pika-Labs/Pika-Skills · GitHub

github.com

「ビデオチャットスキル」という考え方が新しい

ここ、ちょっと注目してほしいんだけど——「ビデオチャットツール」じゃなくて「ビデオチャットスキル」と呼んでいるところがポイントなんだよね。

従来のAIビデオツールは「動画を作る」ものだった。

台本を入れたらアバターが喋る動画が出力される、という一方向の流れ。

でもPikaStream1.0は違う。

既存のAIエージェントに「リアルタイムでビデオ通話できる能力」をプラグインとして追加するという発想だ。

つまり、自分が使っているClaude CodeやOpenClawといったAIエージェントに、このスキルを入れるだけでビデオ通話が可能になる。

いわばiPhoneにAppをインストールするようなイメージ。ツール本体は変えずに、「できること」だけを拡張できる。

今までにないアプローチだった。

ここからが、具体的に何ができるのかという本題だ。

PikaStream1.0の主要機能を整理する

リアルタイムの表情・感情表現

PikaStream1.0で一番驚いたのは、AIアバターの表情がリアルタイムで変わるところだ。

会話の内容に応じて、自然な表情の変化と感情に合ったリアクションが生成される。

これ、想像してみてほしい。

静止画アバターがパクパク口を動かすのとは次元が違う。

画像生成をやってきた身としては、「表情のリアルタイム生成」がここまで来たかと素直に感動した。

テキストプロンプト一発で「笑顔の人物」は作れても、「会話に合わせてリアルタイムで笑顔になる」は別の話。静止画から動画、動画からリアルタイム。この差は技術的に途方もなくデカい。

メモリとパーソナリティの保持

PikaStream1.0は通話中の文脈を記憶している。

さっき話した内容を覚えていて、会話が自然につながる。

さらに、設定したキャラクター性やパーソナリティも維持する。

公式によると「AI Selfはあなたの性格、好み、記憶、声、外見に基づいて構築される永続的なAI版の自分」とのこと。

つまり、毎回一から「私はこういうキャラです」と説明しなくていい。自分の分身として設定した性格が通話をまたいで保たれる。

単なるビデオ合成じゃなくて「人格を持ったAI」がビデオ通話するわけだ。

通話中にエージェントタスクを実行（Pika AI Self連携）

ここが個人的に一番ヤバいと思った機能。

Pika AI Selfと連携すると、ビデオ通話中にカレンダーの確認やタスクの実行といったエージェント動作ができる。

つまり「顔を見ながら会話して、しかも仕事もこなす」AIが実現する。

「今日の14時は空いてますか？」って聞かれたら、AIがカレンダーをリアルタイムで確認して答える——そんなシーンが現実になる。

おしゃべりするだけのAIアバターとは決定的に違うポイントだ。

Pika AI SelfはSlack、Discord、WhatsApp、Notion、GitHubなど16以上のプラットフォームと連携しているので、通話しながら様々なタスクをこなせる可能性がある。

音声クローニング機能

自分の声を短い録音データから再現する音声クローニング機能も搭載されている。

見た目だけじゃなく声まで自分のコピーを作れる。

顔・声・性格・記憶——「AI分身」の完成度がかなり高い。

どれくらいの精度で作れるのか、実際に試してみたくなってきた。

次は実際のセットアップの話をする。

PikaStream1.0の実際の使い方 - Google MeetにAIエージェントを参加させるまで

必要なもの（Pika Developer APIキーの取得）

「難しそう……」って思った人、ちょっと待ってほしい。

コマンドをコピペするだけだから、エンジニアじゃなくても大丈夫。実際にやってみると、思ったよりずっとシンプルだった。

PikaStream1.0を使うには、まずPika Developer APIキーが必要だ。

取得手順はシンプルで、Pikaの開発者ページ（https://www.pika.me/dev/）にアクセスして申請する。

キーは dk_ から始まる文字列で発行される。

Python 3.10以上の環境も必要になる。

音声変換を使う場合はffmpegもあると良い。

GitHub「Pika-Skills」リポジトリのセットアップ

Pika Labsは「Pika-Skills」というオープンソースリポジトリをGitHubで公開している。

これがAIエージェントにスキルを追加するための仕組みだ。

各スキルは SKILL.md（定義ファイル）、scripts/（実行スクリプト）、requirements.txt（Python依存パッケージ）で構成されたシンプルな構造になっている。

エンジニアじゃなくても「ファイルが3種類あるだけ」と思えば、そこまで怖くないはず。

セットアップの流れはこんな感じ。

まず環境変数にAPIキーを設定する。ここ、見た目より全然簡単なんだよね。コピペするだけ。

export PIKA_DEV_KEY="dk_your-key-here"

永続化したい場合は ~/.bashrc や ~/.zshrc に追加しておく。

次に、AIエージェント（Claude Code等）にスキルフォルダのパスを指定してインストールを指示する。やること自体はシンプルで、パスを渡すだけだ。

install /path/to/Pika-Skills/pikastream-video-meeting/

この2ステップで準備は完了だ。

Google Meet連携の流れ

Google Meetへの参加は、Pythonスクリプトで行う。コマンドをコピペして実行するだけなので、ここも難しくない。

python scripts/pikastreaming_videomeeting.py join \
  --meet-url <Google MeetのURL> \
  --bot-name <ボット名> \
  --image <アバター画像> \
  --system-prompt-file <プロンプトファイル>

アバター画像はOpenAIの画像生成モデルで作ることもできるし、自分で用意した画像を指定することもできる。アバター生成もコマンド一発でいける。

python scripts/pikastreaming_videomeeting.py generate-avatar \
  --output avatar.png --prompt "プロフェッショナルな雰囲気の人物"

声もクローニングできる。音声ファイルを渡すだけ。

python scripts/pikastreaming_videomeeting.py clone-voice \
  --audio my_voice.wav --name "my-voice"

ミーティングの退出もコマンド一発だ。

python scripts/pikastreaming_videomeeting.py leave --session-id <セッションID>

Pika AI Selfを使っている場合は、もっと簡単にGoogle Meetのリンクを共有するだけでAI Selfが自動で参加してくれるらしい。

GitHubアカウントさえあればリポジトリをクローンして試せる。コードを書く量は最小限で、コマンドをコピペしていくだけで動く。

料金の話もしておかないといけない。

PikaStream1.0の料金と対応プラットフォーム

料金は$0.5/分 - 高い？安い？

PikaStream1.0のビデオミーティングスキルは従量課金制で、1分あたり$0.5（約75円）だ。

1時間使うと$30（約4,500円）。

日常的にガンガン使うにはちょっと高い——正直に言う。

でも「自分の代わりにAIが会議に出る」と考えたら、自分の時給と比較してどうだろうか。

1時間の会議を丸ごと任せて$30。これを高いと見るか、安いと見るか。

個人的には、週に2〜3回の定例会議を代替できるなら十分ペイするかなと思っている。

ちなみにPikaの一般ユーザー向けにはトークン制の料金体系もあって、800トークン$7.99から15,000トークン$149まで幅がある。

対応状況：Google Meet対応済み、Zoom・FaceTimeは近日

現時点で対応しているのはGoogle Meetのみ。

ただし公式によると、ZoomとFaceTimeへの対応も近日中に予定されている。

さらにPikaアプリ内でのビデオ通話機能も追加予定とのこと。

ベータ版なので今後対応プラットフォームは広がっていくだろう。

他のツールと何が違うのか、比較で見てみよう。

HeyGen・Gemini Live・Synthesiaと何が違うのか

比較表で見る各ツールの特徴

項目

PikaStream1.0

HeyGen (LiveAvatar)

Gemini Live

Synthesia

リアルタイム通話

対応

音声のみ（映像は入力側）

非対応（Video Agentsは限定的）

エージェント連携

任意のAIエージェント

HeyGen内のみ

Googleエコシステム内

非対応

カスタムアバター

対応

なし（音声のみ）

対応（有料）

音声クローニング

対応

非対応

対応

料金

$0.5/分

$78/月〜（標準プラン$29+LiveAvatar$49）

無料（Geminiアプリ内）

$18/月〜（年払い）

オープンソース

GitHub公開

非公開

SDK公開

非公開

対応プラットフォーム

Google Meet（Zoom等近日）

Webブラウザ

Geminiアプリ / API

Webブラウザ

※Gemini Liveのリアルタイム通話仕様は2026年4月時点の情報。

「エージェントスキル」という新カテゴリ

この比較表を眺めていると、PikaStream1.0だけが明らかに違うポジションを取っているのがわかる。

HeyGenやSynthesiaは「自社プラットフォーム内で動画を作る・会話する」ツール。

Gemini Liveは「Googleのエコシステム内で音声会話する」機能。

それに対してPikaStream1.0は「どんなAIエージェントにもビデオ通話能力を追加するプラグイン」。

競合じゃなくて、カテゴリが違う——そういう感じ。

このオープンなアーキテクチャが最大の差別化ポイントなんだよね。

GitHubでスキルが公開されているから、開発者が自由にカスタマイズしたり、新しいスキルを追加したりできる。

Apache 2.0ライセンスで公開されているのもポイントが高い。比較表で見るとHeyGenもSynthesiaも悪くないツールなんだけど、「どのAIにでも乗せられる」という自由度は現時点でPikaStream1.0だけの強みだと思う。

で、ここまで機能の話をしてきたけど、元デザイナーとしてもっと広い視点で思うことがある。

元デザイナーとして思う「AIに顔が付く」ことの意味

静止画 → 動画 → リアルタイム通話。生成AIの「動き」が加速してる

生成AIの進化をざっくり振り返ると、こうなる。

2022〜2023年：Midjourney、DALL-Eで「静止画」を生成する時代
2024〜2025年：Pika、Runway、Soraで「動画」を生成する時代
2026年〜：PikaStream1.0で「リアルタイム通話」の時代が始まった

この流れ、明らかに加速している。

静止画から動画になるまで1〜2年。

動画からリアルタイム通話になるまで約1年。

元デザイナーとしてずっと「AIの生成するビジュアル」を追ってきたけど、ここまで速いとは思わなかった。

正直、少しゾクっとするくらいの速さだ。

「自分のAI分身」が仕事をする未来は思ったより近い

Pika AI Selfとの連携で一番インパクトがあるのは、「自分の代わりにミーティングに出るAI」が現実になりつつあるということだ。

自分の顔、声、性格を持ったAIが会議に参加して、内容を理解して、タスクまでこなす。

「それSFの話でしょ？」って冒頭で書いたけど、これが今ベータ版として動いている。

単なるアバターツールじゃない。

「自分の分身」が実際に仕事をする世界の入り口だと思う。

もちろんベータ版だから、精度や自然さにはまだ改善の余地がある。

でも方向性としては確実にそっちに向かっている。

クリエイターとして、そしてAI画像に日々向き合っている人間として、この進化にはワクワクせずにいられない。

まとめ - PikaStream1.0は「AIエージェントの顔」を作る技術

PikaStream1.0のポイントを3つにまとめる。

「スキル」というアプローチ: 特定のツールに縛られず、任意のAIエージェントにビデオ通話能力を追加できる
リアルタイム生成の品質: 表情、感情、記憶、声まで再現するリアルタイムモデル
オープンソース公開: GitHub（Pika-Skills）で誰でもスキルを使える・拡張できる

試してみたい人はまず、APIキーの申請だけやってみるといい。

申請ページは pika.me/dev 。コード一行も書かなくていい。開発者ページにアクセスして申請するだけだ。

セットアップが完了したら、自分のアバターを作って、Google Meetに投入してみる。そこまでの手順は全部この記事に書いてある。

開発者ページ: https://www.pika.me/dev/

GitHubリポジトリ: https://github.com/Pika-Labs/Pika-Skills

AIに「顔」がつく時代が、もう始まっている。