NVIDIA Lyra 2.0とは？画像1枚を歩き回れる3Dワールドに変換するオープンソースAI

プロンプト画伯

2026/04/16

ねえ、ちょっと聞いてほしいんだけど。

画像生成AIで「これ最高じゃん！」って1枚完成させたとき、次の瞬間になに思う？

「……これ、2Dのままか」って。

世界観バリバリのファンタジー風景を作っても、建物の細部まで作り込んだSF都市を生成しても、結局スクリーンショットを眺めるだけ。

その世界に「入れない」。

後ろを振り返ることもできない。歩き回ることもできない。

ずっとそれがモヤモヤしてたんだよね。

NVIDIAが「NVIDIA Lyra 2.0」という、画像1枚から歩き回れる3Dワールドを生成するAIをオープンソースで公開した。

しかも100%オープンソース。

自分が作った1枚の絵の「中に入れる」。

後ろを振り返れる。

歩き回れる。

ちょっと意味がわからないレベルの進化なので、クリエイター目線で全力で解説していく。

NVIDIA Lyra 2.0とは何か

画像1枚から3Dワールドを生成するしくみ

NVIDIA Lyra 2.0は、1枚の画像を入力するだけで、その中を自由に探索できる3Dワールドを生成するAIだ。

Lyra 2.0: Explorable Generative 3D Worlds

Lyra 2.0: Explorable Generative 3D Worlds — camera-controlled walkthrough videos lifted to 3D via feed-forward reconstruction. We address spatial forgetting and temporal drifting for long-horizon, 3D-consistent generation.

research.nvidia.com

普通の「画像から3Dモデルを作るAI」とは根本的にやっていることが違う。

Lyra 2.0のパイプラインはこんな流れになっている。

ユーザーが1枚の画像とカメラの移動経路を指定する
AIがその経路に沿った「ウォークスルー動画」を生成する
生成された動画から3Dシーン（3D Gaussian Splatting / メッシュ）に変換する

つまり、まず「この方向に歩いたら何が見えるか」を動画として想像してから、それを3D空間に落とし込むという二段構えのアプローチなんだよね。

これが嬉しいのは、「AIが3Dを直接作る」んじゃなくて「AIが動画を想像してから3Dにする」という順番なおかげで、画像の雰囲気や世界観がちゃんと3Dに引き継がれること。

ベースモデルにはWan 2.1-14B DiT（Diffusion Transformer）を採用していて、動画生成のクオリティ自体がかなり高い。

作業解像度は832x480ピクセルで、ここから3DGSやメッシュへの変換にはDepth Anything 3という深度推定モデルを使っている。

3D Gaussian Splattingをわかりやすく説明すると

「3D Gaussian Splatting（3DGS）って何？」ってなるよね。

ここ数年で急速に広まった3D表現技術なんだけど、一言で言うと「霧の粒で3Dを作る技術」だ。

従来の3Dモデルはポリゴン（三角形の面）で物体を表現していたけど、3DGSは「色のついた半透明の点の集まり」で空間を表現する。

従来の3D: レゴブロックを組み合わせて形を作る
3DGS: 色のついた霧の粒を大量に配置して空間を表現する

だから曲面も、反射も、透明感も自然に表現できる。

「なるほど、それで何がいいの？」って思うよね。

レンダリングも爆速で、リアルタイムでグリグリ動かせるのが最大の強みだ。

つまり、「重いレンダリングを待たなくていい」。

歩き回りながらリアルタイムで描画できるから、ゲームエンジンみたいにサクサク動く。

Lyra 2.0が3DGSを採用しているのは、「歩き回れる3D空間」をリアルタイムで描画するためにベストな選択だからなんだよね。

で、「なにがどう変わるのか」の核心は次のセクションで一気に見せていく。

Google Genie 3との違い -- なぜLyra 2.0が重要か

Genie 3はなぜ使えないのか

「Genie 3っていうのも似たことできるんじゃないの？」って声、わかる。

Google DeepMindが発表したGenie 3も、テキストや画像からインタラクティブな3D環境を生成できるAIだ。

24fpsでリアルタイムにナビゲートできるという触れ込みで、話題になったのを覚えている人も多いと思う。

ただ、Genie 3には致命的な問題がある。

一般公開されていない（限定リサーチプレビューのみ）
オープンソースではない
Google AI Ultraサブスクリプション契約者（現時点では米国限定）にのみ公開されており、日本のユーザーはアクセスできない

つまり、日本のクリエイターが「今すぐ触れる」状態ではない。

すごいのはわかってる、でも使えない。

それが今のGenie 3の現実だ。

Lyra 2.0がオープンソースである意味

ここがLyra 2.0の最大の価値だと思っている。

ある意味、Google Genie 3のオープンソース版みたいなもの。

これ、地味にすごいんですよ。

ソースコードはApache 2.0ライセンスでGitHubに公開されている。

モデルウェイトのライセンスはHugging Faceのモデルカードで別途確認が必要だ。

項目

Lyra 2.0

Genie 3

公開状況

完全オープンソース

限定リサーチプレビュー

ライセンス

Apache 2.0（コード）

非公開

モデル入手

Hugging Faceで公開

入手不可

ソースコード

GitHubで公開

非公開

入力

画像1枚 + カメラ経路

テキストプロンプト / 画像

3D出力

3DGS / メッシュ

リアルタイム映像のみ

特に注目したいのが最後の行。

Genie 3はリアルタイム映像として3D空間を見せてくれるけど、3Dアセットとしてエクスポートできるかは明確ではない。

一方、Lyra 2.0は3DGSやメッシュとして出力できるので、他のツールに持っていける。

これはクリエイターにとって決定的な差だ。

「見せてもらえる3D」じゃなくて「自分で持ち帰れる3D」。

ここ、ほんとに大事なポイントだから覚えておいてほしい。

では、具体的にLyra 2.0で何ができるのか、一個ずつ見ていこう。

Lyra 2.0でできること3つ

画像から探索可能な3Dワールドを生成する

最も基本的な機能がこれだ。

「これだけでもう十分すごい」って話でもある。

風景写真でも、イラストでも、画像生成AIで作った絵でも、1枚入力すれば「その中を歩き回れる3Dワールド」に変換できる。

今まで: 1枚の絵を眺めるだけ。

Lyra 2.0以降: その絵の中を歩き回れる。

GUIが用意されていて、カメラの軌跡を自分で計画できる。

「この方向に進みたい」「ここを曲がりたい」というのをインタラクティブに設定して、AIがその先の世界を生成してくれるしくみだ。

後ろを振り返れる、長距離カメラ移動ができる

これが地味にすごいところなんだよね。

従来のこの手のツール（Lyra 1.0を含む）が苦手だったのが「空間的忘却（Spatial Forgetting）」と「時間的ドリフト（Temporal Drifting）」という問題だった。

難しそうな名前だけど、要はこういうことだ。

空間的忘却: 前に進んだら、後ろの景色を忘れてしまう。振り返ったときに別の風景になる
時間的ドリフト: 長距離移動すると、映像がどんどん劣化していく。色がおかしくなったり、形が崩れたりする

想像してみてほしい。

苦労して作った風景の中を歩いてみたら、振り返った瞬間に別の世界になってた。

長距離歩いたらぐちゃぐちゃの映像になってた。

……これ、使えなくないですか？

Lyra 2.0はこの2つを解決した。

空間的忘却に対しては、フレームごとの3D幾何情報を保持して、過去のフレームを検索・参照する仕組みを導入している。

時間的ドリフトに対しては「自己拡張訓練」という手法で、モデル自身が出力した劣化データを使って「劣化を修正する方法」を学習している。

結果として、後ろを振り返っても一貫した風景が見える。

長距離を移動してもクオリティが落ちない。

「当たり前じゃん」って思うかもしれないけど、これを実現できたのがLyra 2.0だということだ。

ロボットをシミュレーション環境として配置（Isaac Sim連携）

ここが技術者向けの話になるけど、かなり面白い。

Lyra 2.0で生成した3DシーンはNVIDIA Isaac Simに直接エクスポートできる。

Isaac Simはロボットの物理シミュレーション環境だ。

つまり、写真1枚から作った3D空間にロボットを配置して、そこで歩行テストや衝突回避のシミュレーションができるということになる。

これまでロボット研究者が手動で3D環境を構築していた作業を、画像1枚から自動生成できるようになる可能性がある。

クリエイター的にはピンとこないかもしれないけど、「画像生成AIが作った世界でロボットが動く」って、相当SFな話だと思う。

技術の話はここまでにして、いよいよ「実際にどう試すか」に入っていこう。

Lyra 2.0を実際に試す方法（Hugging Face + GitHub）

必要なもの・動作環境

正直に言うと、現時点（2026年4月16日）ではコードが公開された直後で、セットアップドキュメントがまだ整備中の状態だ。

ここは「いますぐ試せる！」とは言えない。

ただし、論文の情報からわかっている動作環境はこうなっている。

GPU: NVIDIA製の高性能GPU（学習にはGB200が使われている。推論にもそれなりのVRAMが必要と推測される）
Python環境: 必須（リポジトリの99.8%がPythonコード）
ライセンス: Apache 2.0（ソースコード。モデルウェイトは別途確認）

現実的には、ローカルで動かすにはVRAM 24GB以上のGPU（RTX 4090やA6000クラス）が必要になる可能性が高い。

「ハードル高いな」って思った人、その感覚は正しい。

でも、環境を用意できる人にとっては、これがフルオープンで使えるというのは相当な価値だ。

モデルのダウンロード手順

モデルはHugging Faceで公開されている。

nvidia/Lyra-2.0 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

ダウンロードにはHugging Face CLIを使う。

pip install huggingface_hub
huggingface-cli download nvidia/Lyra-2.0

ソースコードはGitHubから取得する。

GitHub - nv-tlabs/lyra: Project Lyra: Open Generative 3D World Models

Project Lyra: Open Generative 3D World Models. Contribute to nv-tlabs/lyra development by creating an account on GitHub.

github.com

GitHub - nv-tlabs/lyra: Project Lyra: Open Generative 3D World Models

git clone https://github.com/nv-tlabs/lyra.git
cd lyra/Lyra-2

具体的なインストール手順やrequirements.txtの内容は、リポジトリ内のLyra-2ディレクトリに今後追加されていく予定だ。

入力画像の準備と推奨サイズ

Lyra 2.0の内部処理は832x480ピクセルの解像度で統一されている。

入力画像もこのアスペクト比（約16:9）に合わせるのがベストだろう。

画像生成AIで入力画像を作る場合のポイントをまとめておく。

アスペクト比: 16:9に近い横長がおすすめ
解像度: 832x480以上を推奨（内部でリサイズされる）
被写体: 風景・空間が中心の画像が向いている。人物のアップなどは不向き
奥行き: パースがしっかりした画像のほうが3D変換の精度が上がりやすい

環境が整ったら、次はどんな絵を入力するかだよね。

ここからがプロンプト画伯的に一番ワクワクする話だ。

Lyra 2.0 × 画像生成AI -- クリエイターへの応用アイデア

Stable DiffusionやMidjourneyの画像をワールド化するワークフロー

ワークフローはシンプル。

Stable Diffusion / Midjourney / DALL-E等で風景画像を生成する
16:9にトリミングして832x480以上に調整する
Lyra 2.0に入力してカメラ経路を設定する
3Dワールドとして探索する

これで「プロンプトで作った世界の中を歩く」という体験が、個人のPC上で実現する。

今まで: 画像生成→眺める→終わり。

Lyra 2.0以降: 画像生成→その世界に入る→歩き回る。

コマンド4ステップだよ、これ。

クリエイターが試してみたい5つの使い方

「具体的に何に使えるの？」って思ってる人のために、アイデアを5つ出しておく。

ファンタジー世界のウォークスルー動画を作る -- Midjourneyで生成したファンタジー風景を入力して、その世界を歩き回る動画をSNSに投稿する。没入感のあるコンテンツとして映える
建築パースの簡易プレビュー -- AI生成した建物の外観イメージを3D化して、周囲を歩き回るプレビューを作る。本格的な3Dモデリングなしでクライアントにイメージを伝えられる
ゲーム背景のプロトタイプ -- コンセプトアートを入力して、実際にその空間を探索する。ゲームデザイン初期段階の「空間の手触り」を確認するのに使える
AIアートのポートフォリオを3D体験にする -- 静止画のポートフォリオを「歩き回れる空間」として見せる新しい展示方法。オンラインギャラリーとしてかなり面白い
物理シミュレーション用の環境生成 -- Isaac Simとの連携を使って、生成した空間にロボットやオブジェクトを配置するシミュレーション。研究目的だけでなく、クリエイティブな実験としても面白い

センスじゃない、言語化だ。

どんな世界観を作りたいかを言葉にして、その世界に実際に入れる時代になってきた。