Google「Gemini Omni」登場——1フレームの会話で動画がみるみる変わるAIの正体

Shiritomo編集部 @shiritomoAI_jp 2026年5月23日更新

テキストを入力するだけで動画が生成される——そう聞いてもいまひとつピンとこなかったのですが、Google I/O 2026で公開されたデモ映像を見たとき、思わず手を止めてしまいました。

ステージ上でギタリストが演奏する動画が映し出され、「カメラアングルを変えて」「背景を夜景に」と会話するだけで、同じ人物・同じ演奏がそのまま別のシーンに切り替わっていく。
顔も手の動きも一貫しており、「これ、本当にAIが生成しているの？」と目を疑うレベルでした。
Google Japanがシェアしたこのギタリストのデモが特に好評を集め、X上でも「VFXツールとして使うべき」という声が相次いでいます。

GeminiのV2V機能——動画を「会話で育てる」感覚

Gemini Omniが従来の動画生成AIと一線を画すのは、単発の生成ではなく「会話による反復編集」が軸になっている点です。

「V2V（Video-to-Video）」と呼ばれるこの機能は、まず手持ちの動画や生成した動画をアップロードし、その後は自然言語で指示を重ねていきます。
「スキニージーンズを水着に変えて」「カラーグレードを夕焼け風に」といった指示を積み上げていくと、Geminiが文脈を記憶したまま変更を加え続けてくれます。
まるでデザイナーと会話しながら修正を繰り返すような感覚です。

実際にこの機能を試したユーザーが、動画内容を一部書き換える方法を共有して話題になっています。

Gemini OmniのV2V機能小技②

個人的な「#GeminiOmni Flashのここが凄い」を共有します！
エンタメ目的だとV2V（動画編集）で進化を発揮すると思っています！

今度は動画の内容を一部書き換える方法を共有するね！

お題：「スキニージーンズを水着に変更する」

手順は超簡単！
① Google… https://t.co/KKciulP5xH pic.twitter.com/kqCYdfyfdI
— 聖星あい＠AI研究家 (@seisei_ai_1st) 2026年5月21日

この投稿は294万インプレッションを記録し、1,100件以上のいいね・994件ものブックマークを集めました。
「手順が超簡単」というキャプションが示すとおり、専門知識なしで扱えることへの驚きが広がっています。

Xでの反響——「世界モデル」への注目

Google I/O 2026での発表直後、Xでは多くのテック系インフルエンサーが反応を投稿しました。

特に注目を集めたのが「物理法則の理解」という点です。
著名なUXデザイナーの深津貴之さんは、Gemini Omniが「重力や運動エネルギーといった物理法則をAI自身が理解する」という点を強調し、従来のLLM（大規模言語モデル：テキスト生成を得意とするAI）の枠組みを超えた「世界モデル」として解釈しています。

Google I/O 2026にて、新しいAIモデルファミリー「Gemini Omni」が発表。

物理世界のシミュレーション能力
従来のLLM（大規模言語モデル）の枠組みを超え、物理世界のシミュレーションが可能なモデル。
重力や運動エネルギーといった物理法則をAI自身が理解。…
— 深津貴之 / THE GUILD, note (@fladdict) 2026年5月19日

「高精度なVFXツールとしてみるべき」という視点も印象的でした。
動画生成AIというより、映像制作のワークフローに組み込める実用ツールとして捉える声が、エンジニアやクリエイター界隈から多く上がっています。

Gemini Omniを深掘り——物理法則と「world model」の設計

実際にGoogleの公式ブログや開発者向けドキュメントを確認してみると、Gemini Omniの設計思想が見えてきます。

Googleが強調するのは「world model（ワールドモデル）」という概念です。
これは、重力・慣性・流体力学といった現実世界の物理法則をAIが内部で推論する設計を指しています。
従来の動画生成AIでよく起きていた問題——手指が増えたり水が逆流したりといった不整合——を、この「物理法則への理解」によって軽減しようとしています。

また、Googleは「すべての指示が前の指示の上に積み重なる」と公式に説明しており、キャラクターの一貫性や背景の整合性を保ったまま対話で修正を重ねられる点を最大の差別化要素として打ち出しています。

入力形式も幅広く、テキスト・画像・音声・動画を組み合わせた「any-to-any」入力に対応しています。
画像から動画を生成したり、既存の動画に音声でニュアンスを指示したり、複数のモダリティを1つのプロンプトで扱えるのが特徴です。

誰でも使える？——提供プランとYouTube Shortsの無料経路

Gemini Omni Flashは、2026年5月19日からGoogle AI Plus・Pro・Ultraのサブスクライバー向けに提供が始まりました。
有料プランが必要ですが、YouTube ShortsおよびYouTube Create Appでは今週中から無料で利用開始予定とされており、サブスクリプション不要で試せる入口が用意されています。

映像制作ツール「Google Flow」との連携も発表されており、動画のプロジェクト管理や複数シーンの編集を一元化できる環境が整いつつあります。

安全対策として、Gemini Omniで生成・編集したすべての動画には「SynthID」（AI生成であることを示す電子透かし）と「C2PA Content Credentials」（コンテンツの来歴情報）が自動付与されます。
Google ChromeやGoogleサーチでの検証機能も追加予定とのことです。

安全フィルターの厳しさという課題

一方で、すでにいくつかの課題も浮き上がっています。
開発者向けフォーラムでは、「緑色のシネマティックカラーグレードを適用する」という無害な編集指示が、生成開始前に即座に拒否されるというケースが複数報告されています。

以前は通っていたプロンプトが突然ブロックされるといった声もあり、安全フィルターの誤検知（false positive）問題はリリース直後から課題として認識されています。
Googleの開発者向けフォーラムでもバグとして追跡されており、今後のアップデートでの改善が期待されます。

ビジネス動画の制作効率化を期待するユーザーにとっては、この安全フィルターのバランスがどこまで調整されるかが、実用性を左右する重要な点になるでしょう。

さらに深掘りしたい方へ

まとめ

Gemini Omniは「動画を生成する」のではなく「会話しながら動画を育てる」という新しい体験を提供するAIです。
物理法則への理解や文脈の記憶といった設計の深さは、従来の動画生成AIとは一線を画しています。
安全フィルターの誤検知という課題はあるものの、YouTube Shortsでの無料提供という入口が用意されているのは嬉しいポイント。
まずは気軽に試してみる価値がありそうです。