画面を見て操作するAI!Gemini 3.5 Flashに「computer use」が搭載

2026年6月24日(日本時間:6月25日)、GoogleがAIモデルGemini 3.5 Flashに 「computer use」 という機能を組み込んだと発表しました。

 

これにより、AIが画面を「見て」、自分でクリックしたり文字を入力したりできるようになりました。

 

これまでは「質問すれば答えを返す」チャットのやり取りでしたが、今回は答えるだけでなく、画面を見て実際に動かす能力が加わった。この点が大きな変化になります。

 

「便利そうだけど、具体的に何ができるの?」「自分の仕事に関係ある?」「勝手に操作されたら危なくない?」そんな疑問に答えられるよう、今回は従来のAIとの違い・できること・性能・安全面の注意点について解説していきます。

 

Computer useとは?

PCで仕事

これまでの生成AIは、こちらが文章で質問すると、文章で答えを返してくれるものでした。とても賢いのですが、最後に「実際にボタンを押す」のは人間でした。

 

一方、Computer useは、AIに 画面のスクリーンショット(今映っている画面の画像) を見せると、AIが「次はこのボタンを押す」「ここに文字を入力する」といった操作の指示を返してくれます。

 

Google AI Studioでも類似した機能があり、Streamというのがありましたが、あちらはGemini Liveと言わるような、リアルタイムの情報を目として捉えるまでしかありませんでした。

 

こちらの過去記事で紹介しています。

参考Google AI Studioの「Stream機能」とは?使い方と活用法について詳しく解説!

「AIの応答って、全部表示されるまで待つのが長い…」「もっと会話みたいにサクサク進めたい!」と感じたことはありませんか?それGoogle AI Studioの「Stream」だったら解決するかもしれま ...

続きを見る

 

そこからさらに進化したのがcomputer useで、Google公式ブログでは、ブラウザ・スマホ・パソコンの各環境で「見て・考えて・行動する」エージェントを作れるようになった、と説明されています。

 

ちなみに、この機能はまったくの新登場というわけではありません。以前は「Gemini 2.5 computer use model」という単独のモデルとして提供されていましたが、今回はそれがGemini 3.5 Flashという主力モデルに標準搭載された点が新しいところです。

 

もともとはGemini 2.5 Proの視覚理解・リーズニング機能を基盤に動いていましたが、今回は軽量で速い「Flash」系のモデルに組み込まれたことで、より使いやすくなりました。

 

Computer useは どうやって動くの?

仕組みはシンプルで、次のループ(繰り返し)で動きます。

  1. アプリが「今の画面のスクリーンショット」をAIに渡す
  2. AIが「次にやるべき操作(クリック・入力・スクロールなど)」を返す
  3. アプリがその操作を実際に画面で実行する
  4. 操作後の新しい画面を、またAIに渡す
  5. 目的を達成するまで、1〜4を繰り返す

人が画面を見ながら作業するのと、ほぼ同じ流れです。

 

AIが「見て」「判断して」「動かして」、その結果をまた「見て」次に進む。この往復で、複数の手順がある作業を最後までこなします。

 

Gemini 3.5 Flashでは、「なぜその操作をしようとしているのか」という意図も一緒に出力される点がポイントです。

 

開発者は、AIが「なぜそのボタンを押そうとしているのか」を把握しやすくなり、動きの確認や改善がしやすくなります。

 

Computer useでは何ができる?

思いつく

Googleや各報道が挙げている、主な使いみちは次のようなものです。

使い道

  • 複数の手順がある業務の自動化:いくつもの画面をまたぐ定型作業を、AIに任せる
  • アプリをまたいだ情報収集:複数の業務アプリやサイトを横断して、必要な情報を集める
  • Webアプリの動作確認:人が毎回クリックして確かめていた動作チェックを自動化する
  • アクセシビリティのテスト:サイトやアプリが使いやすいかを確認する作業を支援する

 

イメージとしては、「ブラウザやアプリ上の、クリックと入力でできる単純作業」を肩代わりしてくれる感じです。

 

たとえば「複数のサイトを順番に開いて、決まった項目を転記する」といった、地味だけれど時間のかかる作業が当てはまります。

 

ただし、現時点では主にWebブラウザの操作に最適化されています。

 

スマホのUIやパソコンのファイル操作なども視野に入っているものの、まずは「ブラウザ上の作業」から始めるのが現実的、と捉えておくとよいでしょう。

 

ベンチマークから見る性能はどのくらい?

「実際どのくらい使えるの?」を測る目安として、OSWorld-Verified という指標があります。

 

これは、パソコン上の操作をAIがどれだけ正確に実行できるかを測るテストです(数字が大きいほど高性能)。

 

公開された結果は、おおむね次の通りです。

モデル OSWorld-Verified スコア
Gemini 3.5 Flash 78.4
Gemini 3 Flash(旧) 65.1
Gemini 3.1 Pro 76.2
Claude Sonnet 4.6 78.4
Claude Opus 4.8 83.4
GPT-5.4 mini 72.1
GPT-5.5 78.7

 

注目したいのは、Gemini 3.5 Flashが78.4を記録し、旧モデル(65.1)から大きく伸びたこと。

 

さらに、上位モデルであるGemini 3.1 Pro(76.2)を上回り、競合のSonnet 4.6(78.4)と並びました。「軽量で速い」モデルでありながら、操作タスクで上位・競合に迫るのが今回のポイントになります。

※数字はあくまで一つの目安です。実際の業務でどこまで使えるかは、扱う画面やタスクによって差が出ます

 

安全面はどうなのか?

AIとセキュリティ

画面を見て操作するAIには、従来のAIにはなかったリスクがあります。それが、間接プロンプトインジェクションです。

 

プロンプトインジェクションとは、AIへの指示文(プロンプト)に細工をして、AIを意図しない動作に誘導する攻撃のことです。「間接」は、Webページなどに仕込まれた文章を通じて、こっそりAIをだますケースを指します。

 

詳しくこちらの記事でもお伝えしています。

参考プロンプトインジェクションとは?Claudeで押さえておきたいセキュリティリスクと対策

生成AIを業務に取り入れる企業や事業所が、ここ数年で一気に増えました。文書作成や記録の要約、問い合わせ対応など、活用の幅は広がる一方です。   その便利さの裏側で、これまでのITセキュリティ ...

続きを見る

 

画面を読むAIは、悪意あるページに「ここをクリックして」「この情報を送信して」といった文章が仕込まれていると、それを正しい指示と勘違いしてしまうおそれがあります。人なら『怪しい』と気づけることに、AIがだまされてします。これが注意しなければならない点です。

 

これに対してGoogleは、企業向けの任意の保護機能を用意しています。

  • 取り消しにくい操作・機密性の高い操作では、ユーザーに確認を求める仕組み
  • 間接プロンプトインジェクションを検知したら、タスクを自動的に止める仕組み

Googleは「多層防御(defense-in-depth)」の考え方を勧めており、これらの機能に加えて、安全に隔離された環境(サンドボックス)での実行、人による確認、アクセス権限の厳格な管理を組み合わせるよう案内しています。

 

「便利だから全部おまかせ」ではなく、重要な操作は人が確認する。この姿勢が、AIを使うどんな場面でも欠かせません。

 

まとめ

今回のポイントを、3つに絞ると次の通りです。

  • Gemini 3.5 Flashに、画面を見てクリック・入力する「computer use」が標準搭載された
  • 画面を見る→操作する→また見るの繰り返しで、ブラウザ上の複数手順の作業をこなせる
  • 一方で「だまされるAI」のリスクがあり、重要な操作は人の確認を組み合わせるのが安心

AIが「答える」だけでなく「操作する」段階に入ったことは、業務の自動化を考えるうえで見逃せない変化です。とはいえ、いきなり全部を任せる必要はありません。

 

AIを自社の業務にどう取り入れるか、もう少し具体的に相談したい方は、当社のAI活用支援のご紹介もあわせてご覧ください。

 

RECOMMEND

-AI, Google
-, ,