Googleから登場した新しい画像生成・編集AI「Gemini 2.5 Flash Image」、クリエイティブの世界に衝撃を与えていますね。
通称「nano-banana」としても知られるこのモデルは、単に美しい画像を生成するだけではなく、再現性も非常に高い画像が生成できるのも魅力の1つです。
今回はGemini 2.5 Flash Imagenの性能や特徴について詳しく解説していきます。またVeo3との融合でどのようなことができるかも考えていきましょう。
Gemini 2.5 Flash Imageの驚くべき性能
Gemini 2.5 Flash Imageは、多くのベンチマークで競合を上回る高い評価を獲得しており、その実力は折り紙付きです。
特筆するべき点は、以下の3つの特徴です。
- 既存写真の部分編集(背景差し替え、物体削除、ポーズ変更、色味調整など)
- 複数枚の画像を合成
- “同じ人物/商品”の見た目を保ったままシーンや衣装だけを変える編集
1.既存写真の部分編集
「もう少し背景をぼかして」「この猫に帽子をかぶせて」といった自然な言葉での指示を入れるだけで、画像を少しずつ理想に近づけていくことができます。
専門的な編集ソフトの知識がなくても、チャット感覚で直感的に画像を修正でき、特定の箇所が大きく変更されてしまうことはありません。
2. 複数枚の画像を合成
複数の異なる画像をインプットし、それぞれの要素を組み合わせて全く新しい一枚のビジュアルを創り出す「マルチイメージ融合」も可能です。
例えば、ある人物の写真と美しい風景画を組み合わせて、新しい広告ビジュアルを生成するといった使い方が考えられます。
実際に下記の画像を合成するプロンプトを入力してみます。
そうして生成された画像がこちら↓
すごくないですか?完成度が非常に高く、違和感もありません。あと背景を後から編集で変更することも可能なので、利用できる幅が広がります。
他のAIではここまで人物の再現がうまくいくことは少ないので、さすがGeminiといったところです。
3. 人物の高い再現性
従来の画像生成AIが苦手としていたのが、同じ人物を異なるシチュエーションで描くことでした。
Gemini 2.5 Flash Imageは、この「キャラクターの一貫性」を高いレベルで実現しています。一度生成した人物やオブジェクトの特徴を維持したまま、服装や背景、ポーズを変えて、別のシーンの画像を簡単に作り出せます。
先ほどの女性の写真を利用して下記のプロンプトを入力して画像を変更してみます。
【Before】
【After】
人物の顔の画像は一切変わらず、服装と背景を変更することができました。
この再現性の高さは他のAIよりも群を抜いて、Geminiが現時点ではTOPといえるでしょう。
実績で見る強さ
ユーザー投票型Elo方式で画像生成・編集モデルを比較するLMArena(Image Edit Arena)では、「gemini-2.5-flash-image-preview(nano-banana)」が総合首位を獲得しています。
Geminiの公式モデルカードでも「2025年8月25日時点でLMArenaのText-to-ImageとImage Editing両方で1位」と明記されています。(LMArena/Google Cloud Storage)
スコアも他モデルを大きく引き離しています。通常ここまで差が開くことは稀であり、圧倒的な性能を誇っているのが確認できます。
LMArenaは“ユーザーの好み投票”という性質上、評価対象やタイミングで変動します。とはいえ、公開の第三者場で安定して上位を維持しているのは高い性能を持っている証です。
Gemini 2.5 Flash ImageとVeo 3の連携
Gemini 2.5 Flash Imageで生成した画像を元に、Veo 3で動画を作成することも可能です。
1つの作品で登場人物を統一することは大変な面がありましたが、Gemini 2.5 Flash ImageとVeo3を組み合わせれば、それが簡単にできてしまいます。
Veo3とは?
Veo 3はGoogleが提供する高品質な動画生成モデルです。特に優れているのが、静止画とテキストプロンプトから動画を生成する機能(image-to-video)です。これにより一枚の画像から、動きのある動画を簡単に作成することができます。
Veo3についてはこちらの記事で詳しく解説しています。
-
-
参考Gemini ProのVeo3で画像から動画を生成!Google Workpsace利用者もOK!
あなたはGoogleの高性能動画生成AIモデル「Veo 3」をご存知でしょうか? 今年5月のGoogle I/Oでの発表され、そのリアルな動画生成能力は圧倒的で、人物の動画は本物と見分け ...
続きを見る
Gemini 2.5 Flash ImageをVeo3で動かす
では実際にどのような手順で作業したかをステップごとに解説します。
Step 1: 理想の画像を生成・編集する (Gemini 2.5 Flash Image)
まずはGemini 2.5 Flash Imageを使い、会話を通じてキャラクターや背景、構図などを細かく調整し、あなたの頭の中にある完璧な「最初のフレーム」を生成します。
Step 2: 動きとストーリーを指示する (Veo 3)
次に生成した画像をVeo 3に入力します。
そして、「このキャラクターが微笑みながらゆっくりとこちらを振り向く」「背景の星がキラキラと輝き始める」といったテキストプロンプトで、動画の動きや展開を指示します。
Step 3: 高品質な動画が完成
Veo 3は元の画像のスタイルやキャラクターの一貫性を保ったまま、指示に基づいた高品質な動画(約8秒程度)を生成します。
そうして作成した動画がこちら
何も難しいことはありません。作成した画像をImage-to-videoでプロンプトを入力して生成するだけで、イメージに近い動画を生成できるこの技術すごいと思いませんか。
おわりに
Gemini 2.5 Flash Imageは、“同じ被写体の一貫性”を重視する実務に強い画像生成・編集モデルで、GoogleのVeo 3の動画生成能力の組み合わせは、まさに鬼に金棒です。
細部の描写など違和感が全くないかといえばそうではないため、まだ課題は残るものの、生成されたコンテンツにはAI生成であることを示すウォーターマークが付与されるなど、透明性を確保する仕組みも導入されています。
まずは実際に触ってその性能を確かめていただければと思います。無料ユーザーでも画像の生成は可能ですので、ぜひ早速試してみてください!