サムネイル

NVIDIA Lyra 2.0とは?画像1枚を歩き回れる3Dワールドに変換するオープンソースAI

  • 0

ねえ、ちょっと聞いてほしいんだけど。

画像生成AIで「これ最高じゃん!」って1枚完成させたとき、次の瞬間になに思う?

「……これ、2Dのままか」って。

世界観バリバリのファンタジー風景を作っても、建物の細部まで作り込んだSF都市を生成しても、結局スクリーンショットを眺めるだけ。

その世界に「入れない」。

後ろを振り返ることもできない。歩き回ることもできない。

ずっとそれがモヤモヤしてたんだよね。

NVIDIAが「NVIDIA Lyra 2.0」という、画像1枚から歩き回れる3Dワールドを生成するAIをオープンソースで公開した。

しかも100%オープンソース。

自分が作った1枚の絵の「中に入れる」。

後ろを振り返れる。

歩き回れる。

ちょっと意味がわからないレベルの進化なので、クリエイター目線で全力で解説していく。

NVIDIA Lyra 2.0とは何か

記事の画像

画像1枚から3Dワールドを生成するしくみ

NVIDIA Lyra 2.0は、1枚の画像を入力するだけで、その中を自由に探索できる3Dワールドを生成するAIだ。

普通の「画像から3Dモデルを作るAI」とは根本的にやっていることが違う。

Lyra 2.0のパイプラインはこんな流れになっている。

  1. ユーザーが1枚の画像とカメラの移動経路を指定する
  2. AIがその経路に沿った「ウォークスルー動画」を生成する
  3. 生成された動画から3Dシーン(3D Gaussian Splatting / メッシュ)に変換する

つまり、まず「この方向に歩いたら何が見えるか」を動画として想像してから、それを3D空間に落とし込むという二段構えのアプローチなんだよね。

これが嬉しいのは、「AIが3Dを直接作る」んじゃなくて「AIが動画を想像してから3Dにする」という順番なおかげで、画像の雰囲気や世界観がちゃんと3Dに引き継がれること。

ベースモデルにはWan 2.1-14B DiT(Diffusion Transformer)を採用していて、動画生成のクオリティ自体がかなり高い。

作業解像度は832x480ピクセルで、ここから3DGSやメッシュへの変換にはDepth Anything 3という深度推定モデルを使っている。

3D Gaussian Splattingをわかりやすく説明すると

「3D Gaussian Splatting(3DGS)って何?」ってなるよね。

ここ数年で急速に広まった3D表現技術なんだけど、一言で言うと「霧の粒で3Dを作る技術」だ。

従来の3Dモデルはポリゴン(三角形の面)で物体を表現していたけど、3DGSは「色のついた半透明の点の集まり」で空間を表現する。

  • 従来の3D: レゴブロックを組み合わせて形を作る
  • 3DGS: 色のついた霧の粒を大量に配置して空間を表現する

だから曲面も、反射も、透明感も自然に表現できる。

「なるほど、それで何がいいの?」って思うよね。

レンダリングも爆速で、リアルタイムでグリグリ動かせるのが最大の強みだ。

つまり、「重いレンダリングを待たなくていい」。

歩き回りながらリアルタイムで描画できるから、ゲームエンジンみたいにサクサク動く。

Lyra 2.0が3DGSを採用しているのは、「歩き回れる3D空間」をリアルタイムで描画するためにベストな選択だからなんだよね。

で、「なにがどう変わるのか」の核心は次のセクションで一気に見せていく。

Google Genie 3との違い -- なぜLyra 2.0が重要か

Genie 3はなぜ使えないのか

「Genie 3っていうのも似たことできるんじゃないの?」って声、わかる。

Google DeepMindが発表したGenie 3も、テキストや画像からインタラクティブな3D環境を生成できるAIだ。

24fpsでリアルタイムにナビゲートできるという触れ込みで、話題になったのを覚えている人も多いと思う。

ただ、Genie 3には致命的な問題がある。

  • 一般公開されていない(限定リサーチプレビューのみ)
  • オープンソースではない
  • Google AI Ultraサブスクリプション契約者(現時点では米国限定)にのみ公開されており、日本のユーザーはアクセスできない

つまり、日本のクリエイターが「今すぐ触れる」状態ではない。

すごいのはわかってる、でも使えない。

それが今のGenie 3の現実だ。

Lyra 2.0がオープンソースである意味

ここがLyra 2.0の最大の価値だと思っている。

ある意味、Google Genie 3のオープンソース版みたいなもの。

これ、地味にすごいんですよ。

ソースコードはApache 2.0ライセンスでGitHubに公開されている。

モデルウェイトのライセンスはHugging Faceのモデルカードで別途確認が必要だ。

項目
Lyra 2.0
Genie 3
公開状況
完全オープンソース
限定リサーチプレビュー
ライセンス
Apache 2.0(コード)
非公開
モデル入手
Hugging Faceで公開
入手不可
ソースコード
GitHubで公開
非公開
入力
画像1枚 + カメラ経路
テキストプロンプト / 画像
3D出力
3DGS / メッシュ
リアルタイム映像のみ

特に注目したいのが最後の行。

Genie 3はリアルタイム映像として3D空間を見せてくれるけど、3Dアセットとしてエクスポートできるかは明確ではない。

一方、Lyra 2.0は3DGSやメッシュとして出力できるので、他のツールに持っていける。

これはクリエイターにとって決定的な差だ。

「見せてもらえる3D」じゃなくて「自分で持ち帰れる3D」。

ここ、ほんとに大事なポイントだから覚えておいてほしい。

では、具体的にLyra 2.0で何ができるのか、一個ずつ見ていこう。

Lyra 2.0でできること3つ

記事の画像

画像から探索可能な3Dワールドを生成する

最も基本的な機能がこれだ。

「これだけでもう十分すごい」って話でもある。

風景写真でも、イラストでも、画像生成AIで作った絵でも、1枚入力すれば「その中を歩き回れる3Dワールド」に変換できる。

今まで: 1枚の絵を眺めるだけ。

Lyra 2.0以降: その絵の中を歩き回れる。

GUIが用意されていて、カメラの軌跡を自分で計画できる。

「この方向に進みたい」「ここを曲がりたい」というのをインタラクティブに設定して、AIがその先の世界を生成してくれるしくみだ。

後ろを振り返れる、長距離カメラ移動ができる

これが地味にすごいところなんだよね。

従来のこの手のツール(Lyra 1.0を含む)が苦手だったのが「空間的忘却(Spatial Forgetting)」と「時間的ドリフト(Temporal Drifting)」という問題だった。

難しそうな名前だけど、要はこういうことだ。

  • 空間的忘却: 前に進んだら、後ろの景色を忘れてしまう。振り返ったときに別の風景になる
  • 時間的ドリフト: 長距離移動すると、映像がどんどん劣化していく。色がおかしくなったり、形が崩れたりする

想像してみてほしい。

苦労して作った風景の中を歩いてみたら、振り返った瞬間に別の世界になってた。

長距離歩いたらぐちゃぐちゃの映像になってた。

……これ、使えなくないですか?

Lyra 2.0はこの2つを解決した。

空間的忘却に対しては、フレームごとの3D幾何情報を保持して、過去のフレームを検索・参照する仕組みを導入している。

時間的ドリフトに対しては「自己拡張訓練」という手法で、モデル自身が出力した劣化データを使って「劣化を修正する方法」を学習している。

結果として、後ろを振り返っても一貫した風景が見える。

長距離を移動してもクオリティが落ちない。

「当たり前じゃん」って思うかもしれないけど、これを実現できたのがLyra 2.0だということだ。

ロボットをシミュレーション環境として配置(Isaac Sim連携)

ここが技術者向けの話になるけど、かなり面白い。

Lyra 2.0で生成した3DシーンはNVIDIA Isaac Simに直接エクスポートできる。

Isaac Simはロボットの物理シミュレーション環境だ。

つまり、写真1枚から作った3D空間にロボットを配置して、そこで歩行テストや衝突回避のシミュレーションができるということになる。

これまでロボット研究者が手動で3D環境を構築していた作業を、画像1枚から自動生成できるようになる可能性がある。

クリエイター的にはピンとこないかもしれないけど、「画像生成AIが作った世界でロボットが動く」って、相当SFな話だと思う。

技術の話はここまでにして、いよいよ「実際にどう試すか」に入っていこう。

Lyra 2.0を実際に試す方法(Hugging Face + GitHub)

必要なもの・動作環境

正直に言うと、現時点(2026年4月16日)ではコードが公開された直後で、セットアップドキュメントがまだ整備中の状態だ。

ここは「いますぐ試せる!」とは言えない。

ただし、論文の情報からわかっている動作環境はこうなっている。

  • GPU: NVIDIA製の高性能GPU(学習にはGB200が使われている。推論にもそれなりのVRAMが必要と推測される)
  • Python環境: 必須(リポジトリの99.8%がPythonコード)
  • ライセンス: Apache 2.0(ソースコード。モデルウェイトは別途確認)

現実的には、ローカルで動かすにはVRAM 24GB以上のGPU(RTX 4090やA6000クラス)が必要になる可能性が高い。

「ハードル高いな」って思った人、その感覚は正しい。

でも、環境を用意できる人にとっては、これがフルオープンで使えるというのは相当な価値だ。

モデルのダウンロード手順

モデルはHugging Faceで公開されている。

ダウンロードにはHugging Face CLIを使う。

pip install huggingface_hub
huggingface-cli download nvidia/Lyra-2.0

ソースコードはGitHubから取得する。

git clone https://github.com/nv-tlabs/lyra.git
cd lyra/Lyra-2

具体的なインストール手順やrequirements.txtの内容は、リポジトリ内のLyra-2ディレクトリに今後追加されていく予定だ。

入力画像の準備と推奨サイズ

Lyra 2.0の内部処理は832x480ピクセルの解像度で統一されている。

入力画像もこのアスペクト比(約16:9)に合わせるのがベストだろう。

画像生成AIで入力画像を作る場合のポイントをまとめておく。

  • アスペクト比: 16:9に近い横長がおすすめ
  • 解像度: 832x480以上を推奨(内部でリサイズされる)
  • 被写体: 風景・空間が中心の画像が向いている。人物のアップなどは不向き
  • 奥行き: パースがしっかりした画像のほうが3D変換の精度が上がりやすい

環境が整ったら、次はどんな絵を入力するかだよね。

ここからがプロンプト画伯的に一番ワクワクする話だ。

Lyra 2.0 × 画像生成AI -- クリエイターへの応用アイデア

記事の画像

Stable DiffusionやMidjourneyの画像をワールド化するワークフロー

ワークフローはシンプル。

  1. Stable Diffusion / Midjourney / DALL-E等で風景画像を生成する
  2. 16:9にトリミングして832x480以上に調整する
  3. Lyra 2.0に入力してカメラ経路を設定する
  4. 3Dワールドとして探索する

これで「プロンプトで作った世界の中を歩く」という体験が、個人のPC上で実現する。

今まで: 画像生成→眺める→終わり。

Lyra 2.0以降: 画像生成→その世界に入る→歩き回る。

コマンド4ステップだよ、これ。

クリエイターが試してみたい5つの使い方

「具体的に何に使えるの?」って思ってる人のために、アイデアを5つ出しておく。

  1. ファンタジー世界のウォークスルー動画を作る -- Midjourneyで生成したファンタジー風景を入力して、その世界を歩き回る動画をSNSに投稿する。没入感のあるコンテンツとして映える
  2. 建築パースの簡易プレビュー -- AI生成した建物の外観イメージを3D化して、周囲を歩き回るプレビューを作る。本格的な3Dモデリングなしでクライアントにイメージを伝えられる
  3. ゲーム背景のプロトタイプ -- コンセプトアートを入力して、実際にその空間を探索する。ゲームデザイン初期段階の「空間の手触り」を確認するのに使える
  4. AIアートのポートフォリオを3D体験にする -- 静止画のポートフォリオを「歩き回れる空間」として見せる新しい展示方法。オンラインギャラリーとしてかなり面白い
  5. 物理シミュレーション用の環境生成 -- Isaac Simとの連携を使って、生成した空間にロボットやオブジェクトを配置するシミュレーション。研究目的だけでなく、クリエイティブな実験としても面白い

センスじゃない、言語化だ。

どんな世界観を作りたいかを言葉にして、その世界に実際に入れる時代になってきた。

まとめ -- NVIDIA Lyra 2.0が画像生成AIの「次の遊び場」になる理由

NVIDIA Lyra 2.0は、画像1枚から探索可能な3Dワールドを生成するオープンソースAIだ。

正直、「画像を3Dにする」系のツールはこれまでもあったけど、「歩き回れる」「後ろを振り返れる」「長距離移動しても破綻しない」というレベルのものは初めてだ。

しかもオープンソース。

Google Genie 3が限定公開で手が届かない中、NVIDIAがApache 2.0でソースコードを全部公開してくれた。

まずやることは2つだけ。

  1. GitHubのリポジトリをスターして動向を追う(git cloneはまだドキュメント整備待ちでOK)
  2. 入力用の素材を今のうちに作り始める(16:9の風景画像を数枚生成しておく)

リポジトリを眺めるだけなら今すぐ5分でできるし、入力画像を作っておけば環境が整った瞬間に試せる。

「プロンプトで作った絵の中を歩く」。

この体験を、ぜひ自分の手で試してみてほしい。

会員登録して機能を使おう

この機能を利用するには、無料の会員登録が必要です。
お気に入りの記事を保存して、あとで読み返しましょう!