2026年6月24日(日本時間:6月25日)、GoogleがAIモデルGemini 3.5 Flashに 「computer use」 という機能を組み込んだと発表しました。
これにより、AIが画面を「見て」、自分でクリックしたり文字を入力したりできるようになりました。
これまでは「質問すれば答えを返す」チャットのやり取りでしたが、今回は答えるだけでなく、画面を見て実際に動かす能力が加わった。この点が大きな変化になります。
「便利そうだけど、具体的に何ができるの?」「自分の仕事に関係ある?」「勝手に操作されたら危なくない?」そんな疑問に答えられるよう、今回は従来のAIとの違い・できること・性能・安全面の注意点について解説していきます。
Computer useとは?

これまでの生成AIは、こちらが文章で質問すると、文章で答えを返してくれるものでした。とても賢いのですが、最後に「実際にボタンを押す」のは人間でした。
一方、Computer useは、AIに 画面のスクリーンショット(今映っている画面の画像) を見せると、AIが「次はこのボタンを押す」「ここに文字を入力する」といった操作の指示を返してくれます。
Google AI Studioでも類似した機能があり、Streamというのがありましたが、あちらはGemini Liveと言わるような、リアルタイムの情報を目として捉えるまでしかありませんでした。
こちらの過去記事で紹介しています。
-
-
参考Google AI Studioの「Stream機能」とは?使い方と活用法について詳しく解説!
「AIの応答って、全部表示されるまで待つのが長い…」「もっと会話みたいにサクサク進めたい!」と感じたことはありませんか?それGoogle AI Studioの「Stream」だったら解決するかもしれま ...
続きを見る
そこからさらに進化したのがcomputer useで、Google公式ブログでは、ブラウザ・スマホ・パソコンの各環境で「見て・考えて・行動する」エージェントを作れるようになった、と説明されています。
ちなみに、この機能はまったくの新登場というわけではありません。以前は「Gemini 2.5 computer use model」という単独のモデルとして提供されていましたが、今回はそれがGemini 3.5 Flashという主力モデルに標準搭載された点が新しいところです。
もともとはGemini 2.5 Proの視覚理解・リーズニング機能を基盤に動いていましたが、今回は軽量で速い「Flash」系のモデルに組み込まれたことで、より使いやすくなりました。
Computer useは どうやって動くの?
仕組みはシンプルで、次のループ(繰り返し)で動きます。
- アプリが「今の画面のスクリーンショット」をAIに渡す
- AIが「次にやるべき操作(クリック・入力・スクロールなど)」を返す
- アプリがその操作を実際に画面で実行する
- 操作後の新しい画面を、またAIに渡す
- 目的を達成するまで、1〜4を繰り返す
人が画面を見ながら作業するのと、ほぼ同じ流れです。
AIが「見て」「判断して」「動かして」、その結果をまた「見て」次に進む。この往復で、複数の手順がある作業を最後までこなします。
Gemini 3.5 Flashでは、「なぜその操作をしようとしているのか」という意図も一緒に出力される点がポイントです。
開発者は、AIが「なぜそのボタンを押そうとしているのか」を把握しやすくなり、動きの確認や改善がしやすくなります。
Computer useでは何ができる?

Googleや各報道が挙げている、主な使いみちは次のようなものです。
使い道
- 複数の手順がある業務の自動化:いくつもの画面をまたぐ定型作業を、AIに任せる
- アプリをまたいだ情報収集:複数の業務アプリやサイトを横断して、必要な情報を集める
- Webアプリの動作確認:人が毎回クリックして確かめていた動作チェックを自動化する
- アクセシビリティのテスト:サイトやアプリが使いやすいかを確認する作業を支援する
イメージとしては、「ブラウザやアプリ上の、クリックと入力でできる単純作業」を肩代わりしてくれる感じです。
たとえば「複数のサイトを順番に開いて、決まった項目を転記する」といった、地味だけれど時間のかかる作業が当てはまります。
ただし、現時点では主にWebブラウザの操作に最適化されています。
スマホのUIやパソコンのファイル操作なども視野に入っているものの、まずは「ブラウザ上の作業」から始めるのが現実的、と捉えておくとよいでしょう。
ベンチマークから見る性能はどのくらい?
「実際どのくらい使えるの?」を測る目安として、OSWorld-Verified という指標があります。
これは、パソコン上の操作をAIがどれだけ正確に実行できるかを測るテストです(数字が大きいほど高性能)。
公開された結果は、おおむね次の通りです。
| モデル | OSWorld-Verified スコア |
|---|---|
| Gemini 3.5 Flash | 78.4 |
| Gemini 3 Flash(旧) | 65.1 |
| Gemini 3.1 Pro | 76.2 |
| Claude Sonnet 4.6 | 78.4 |
| Claude Opus 4.8 | 83.4 |
| GPT-5.4 mini | 72.1 |
| GPT-5.5 | 78.7 |
注目したいのは、Gemini 3.5 Flashが78.4を記録し、旧モデル(65.1)から大きく伸びたこと。
さらに、上位モデルであるGemini 3.1 Pro(76.2)を上回り、競合のSonnet 4.6(78.4)と並びました。「軽量で速い」モデルでありながら、操作タスクで上位・競合に迫るのが今回のポイントになります。
※数字はあくまで一つの目安です。実際の業務でどこまで使えるかは、扱う画面やタスクによって差が出ます
安全面はどうなのか?

画面を見て操作するAIには、従来のAIにはなかったリスクがあります。それが、間接プロンプトインジェクションです。
プロンプトインジェクションとは、AIへの指示文(プロンプト)に細工をして、AIを意図しない動作に誘導する攻撃のことです。「間接」は、Webページなどに仕込まれた文章を通じて、こっそりAIをだますケースを指します。
詳しくこちらの記事でもお伝えしています。
-
-
参考プロンプトインジェクションとは?Claudeで押さえておきたいセキュリティリスクと対策
生成AIを業務に取り入れる企業や事業所が、ここ数年で一気に増えました。文書作成や記録の要約、問い合わせ対応など、活用の幅は広がる一方です。 その便利さの裏側で、これまでのITセキュリティ ...
続きを見る
画面を読むAIは、悪意あるページに「ここをクリックして」「この情報を送信して」といった文章が仕込まれていると、それを正しい指示と勘違いしてしまうおそれがあります。人なら『怪しい』と気づけることに、AIがだまされてします。これが注意しなければならない点です。
これに対してGoogleは、企業向けの任意の保護機能を用意しています。
- 取り消しにくい操作・機密性の高い操作では、ユーザーに確認を求める仕組み
- 間接プロンプトインジェクションを検知したら、タスクを自動的に止める仕組み
Googleは「多層防御(defense-in-depth)」の考え方を勧めており、これらの機能に加えて、安全に隔離された環境(サンドボックス)での実行、人による確認、アクセス権限の厳格な管理を組み合わせるよう案内しています。
「便利だから全部おまかせ」ではなく、重要な操作は人が確認する。この姿勢が、AIを使うどんな場面でも欠かせません。
まとめ
今回のポイントを、3つに絞ると次の通りです。
- Gemini 3.5 Flashに、画面を見てクリック・入力する「computer use」が標準搭載された
- 画面を見る→操作する→また見るの繰り返しで、ブラウザ上の複数手順の作業をこなせる
- 一方で「だまされるAI」のリスクがあり、重要な操作は人の確認を組み合わせるのが安心
AIが「答える」だけでなく「操作する」段階に入ったことは、業務の自動化を考えるうえで見逃せない変化です。とはいえ、いきなり全部を任せる必要はありません。
AIを自社の業務にどう取り入れるか、もう少し具体的に相談したい方は、当社のAI活用支援のご紹介もあわせてご覧ください。