Googleは6月19日、マルチモーダル AI アシスタント「Gemini」に動画ファイルを直接アップロードできる機能を正式リリースした。これによりスマートフォン向けGeminiアプリとブラウザ版Gemini(gemini.google.com)の双方で、手元の映像を AI に解析させながら内容を質問できるようになっている。

今回のアップデートで処理を担うのは Gemini 2.5 系列(Flash/Pro)。従来テキスト中心だった Lite モデルとは異なり、動画を扱う場合は自動的に 2.5 が選ばれる仕組みだ。アップロードが完了するとチャット画面の最上部にプレビュー付きプレーヤーが表示され、ユーザーは再生と同時に「映っている人物の服装は?」「鍵が画面に現れるのは何分頃?」といったきめ細かな質問を投げかけられる。

とはいえ長尺動画では処理時間が撮影時間に比例して延びる傾向があるほか、スマートフォンのカメラで撮影した映像をワンステップで送信する機能は、今回の段階ではまだ用意されていない。

振り返れば Google は5月、生成動画モデル「Veo 3」を披露しており、「見る・聞く・理解する」というマルチモーダル戦略を加速させている最中だ。Gemini への動画アップロード解禁は、その戦略を一般ユーザーにまで開放する第一歩と言える。今後はライブ映像のリアルタイム解析や Web 版の安定化、さらには他サービスとの連携など、AI が視覚情報を扱うシーンが一段と広がることが期待される。