画面を見て操作するAI！Gemini 3.5 Flashに「computer use」が搭載

2026年6月26日

2026年6月24日（日本時間：6月25日）、GoogleがAIモデルGemini 3.5 Flashに「computer use」という機能を組み込んだと発表しました。

これにより、AIが画面を「見て」、自分でクリックしたり文字を入力したりできるようになりました。

これまでは「質問すれば答えを返す」チャットのやり取りでしたが、今回は答えるだけでなく、画面を見て実際に動かす能力が加わった。この点が大きな変化になります。

「便利そうだけど、具体的に何ができるの？」「自分の仕事に関係ある？」「勝手に操作されたら危なくない？」そんな疑問に答えられるよう、今回は従来のAIとの違い・できること・性能・安全面の注意点について解説していきます。

Computer useとは？

PCで仕事

これまでの生成AIは、こちらが文章で質問すると、文章で答えを返してくれるものでした。とても賢いのですが、最後に「実際にボタンを押す」のは人間でした。

一方、Computer useは、AIに 画面のスクリーンショット（今映っている画面の画像） を見せると、AIが「次はこのボタンを押す」「ここに文字を入力する」といった操作の指示を返してくれます。

Google AI Studioでも類似した機能があり、Streamというのがありましたが、あちらはGemini Liveと言わるような、リアルタイムの情報を目として捉えるまでしかありませんでした。

こちらの過去記事で紹介しています。

: 参考Google AI Studioの「Stream機能」とは？使い方と活用法について詳しく解説！

「AIの応答って、全部表示されるまで待つのが長い…」「もっと会話みたいにサクサク進めたい！」と感じたことはありませんか？それGoogle AI Studioの「Stream」だったら解決するかもしれま ...

続きを見る

そこからさらに進化したのがcomputer useで、Google公式ブログでは、ブラウザ・スマホ・パソコンの各環境で「見て・考えて・行動する」エージェントを作れるようになった、と説明されています。

ちなみに、この機能はまったくの新登場というわけではありません。以前は「Gemini 2.5 computer use model」という単独のモデルとして提供されていましたが、今回はそれがGemini 3.5 Flashという主力モデルに標準搭載された点が新しいところです。

もともとはGemini 2.5 Proの視覚理解・リーズニング機能を基盤に動いていましたが、今回は軽量で速い「Flash」系のモデルに組み込まれたことで、より使いやすくなりました。

Computer useはどうやって動くの？

仕組みはシンプルで、次のループ（繰り返し）で動きます。

アプリが「今の画面のスクリーンショット」をAIに渡す
AIが「次にやるべき操作（クリック・入力・スクロールなど）」を返す
アプリがその操作を実際に画面で実行する
操作後の新しい画面を、またAIに渡す
目的を達成するまで、1〜4を繰り返す

人が画面を見ながら作業するのと、ほぼ同じ流れです。

AIが「見て」「判断して」「動かして」、その結果をまた「見て」次に進む。この往復で、複数の手順がある作業を最後までこなします。

Gemini 3.5 Flashでは、「なぜその操作をしようとしているのか」という意図も一緒に出力される点がポイントです。

開発者は、AIが「なぜそのボタンを押そうとしているのか」を把握しやすくなり、動きの確認や改善がしやすくなります。

Computer useでは何ができる？

思いつく

Googleや各報道が挙げている、主な使いみちは次のようなものです。

使い道

複数の手順がある業務の自動化：いくつもの画面をまたぐ定型作業を、AIに任せる
アプリをまたいだ情報収集：複数の業務アプリやサイトを横断して、必要な情報を集める
Webアプリの動作確認：人が毎回クリックして確かめていた動作チェックを自動化する
アクセシビリティのテスト：サイトやアプリが使いやすいかを確認する作業を支援する

イメージとしては、「ブラウザやアプリ上の、クリックと入力でできる単純作業」を肩代わりしてくれる感じです。

たとえば「複数のサイトを順番に開いて、決まった項目を転記する」といった、地味だけれど時間のかかる作業が当てはまります。

ただし、現時点では主にWebブラウザの操作に最適化されています。

スマホのUIやパソコンのファイル操作なども視野に入っているものの、まずは「ブラウザ上の作業」から始めるのが現実的、と捉えておくとよいでしょう。

ベンチマークから見る性能はどのくらい？

「実際どのくらい使えるの？」を測る目安として、OSWorld-Verified という指標があります。

これは、パソコン上の操作をAIがどれだけ正確に実行できるかを測るテストです（数字が大きいほど高性能）。

公開された結果は、おおむね次の通りです。

モデル	OSWorld-Verified スコア
Gemini 3.5 Flash	78.4
Gemini 3 Flash（旧）	65.1
Gemini 3.1 Pro	76.2
Claude Sonnet 4.6	78.4
Claude Opus 4.8	83.4
GPT-5.4 mini	72.1
GPT-5.5	78.7

注目したいのは、Gemini 3.5 Flashが78.4を記録し、旧モデル（65.1）から大きく伸びたこと。

さらに、上位モデルであるGemini 3.1 Pro（76.2）を上回り、競合のSonnet 4.6（78.4）と並びました。「軽量で速い」モデルでありながら、操作タスクで上位・競合に迫るのが今回のポイントになります。

※数字はあくまで一つの目安です。実際の業務でどこまで使えるかは、扱う画面やタスクによって差が出ます

安全面はどうなのか？

AIとセキュリティ

画面を見て操作するAIには、従来のAIにはなかったリスクがあります。それが、間接プロンプトインジェクションです。

プロンプトインジェクションとは、AIへの指示文（プロンプト）に細工をして、AIを意図しない動作に誘導する攻撃のことです。「間接」は、Webページなどに仕込まれた文章を通じて、こっそりAIをだますケースを指します。

詳しくこちらの記事でもお伝えしています。

: 参考プロンプトインジェクションとは？Claudeで押さえておきたいセキュリティリスクと対策

生成AIを業務に取り入れる企業や事業所が、ここ数年で一気に増えました。文書作成や記録の要約、問い合わせ対応など、活用の幅は広がる一方です。その便利さの裏側で、これまでのITセキュリティ ...

続きを見る

画面を読むAIは、悪意あるページに「ここをクリックして」「この情報を送信して」といった文章が仕込まれていると、それを正しい指示と勘違いしてしまうおそれがあります。人なら『怪しい』と気づけることに、AIがだまされてします。これが注意しなければならない点です。

これに対してGoogleは、企業向けの任意の保護機能を用意しています。

取り消しにくい操作・機密性の高い操作では、ユーザーに確認を求める仕組み
間接プロンプトインジェクションを検知したら、タスクを自動的に止める仕組み

Googleは「多層防御（defense-in-depth）」の考え方を勧めており、これらの機能に加えて、安全に隔離された環境（サンドボックス）での実行、人による確認、アクセス権限の厳格な管理を組み合わせるよう案内しています。

「便利だから全部おまかせ」ではなく、重要な操作は人が確認する。この姿勢が、AIを使うどんな場面でも欠かせません。

まとめ

今回のポイントを、3つに絞ると次の通りです。

Gemini 3.5 Flashに、画面を見てクリック・入力する「computer use」が標準搭載された
画面を見る→操作する→また見るの繰り返しで、ブラウザ上の複数手順の作業をこなせる
一方で「だまされるAI」のリスクがあり、重要な操作は人の確認を組み合わせるのが安心

AIが「答える」だけでなく「操作する」段階に入ったことは、業務の自動化を考えるうえで見逃せない変化です。とはいえ、いきなり全部を任せる必要はありません。

AIを自社の業務にどう取り入れるか、もう少し具体的に相談したい方は、当社のAI活用支援のご紹介もあわせてご覧ください。

RECOMMEND

-AI, Google
-computer use, Gemini, Google

comment コメントをキャンセル

2026/6/25

【自動化】AIエージェントによる「ループエンジニアリング」とは？役割と注意点をわかりやすく解説

「AIに毎回こまかく指示を出すのは、もう古い」2026年6月、AI業界でそんな話題が広がっています。キーワードは「ループエンジニアリング」。AIが自分で作業、自分でダメ出しをして、自動で修正していく。そんな自己改善ループを設計する考え方のことをループエンジニアリングといいます。 Anthropicの研究者や、元Tesla AI責任者のAndrej Karpathy氏らが、X（旧Twitter）やブログでその重要性を相次いで発信しています。専門家が言っているので ...

2026/6/20

【初心者向け】LM Studio導入ガイド－自分のPCでプライベートなAIを動かそう

ChatGPTのような生成AIの進化は目覚ましく、私たちの生活や仕事のあり方を変えようとしています。しかし、クラウドサービスを利用する場合には「プライバシーの懸念」「利用料金の負担」「インターネットへの依存」といった課題も存在します。これらの課題を解決する一つの強力な手段が、「ローカルLLM（大規模言語モデル）」です。自分のPC内でAIを動かすことで、機密情報の漏洩を防ぎつつ、自由な環境でAIを操ることができます。その中でも、特に初心者の方におすすめなツール ...

2026/6/10

Claude最強モデルが公開！「Claude Fable 5」で何が変わるのか中小企業視点で解説

Anthropicは2026年6月9日（米国時間火曜）、これまで一部の組織にしか提供していなかった最上位クラスのAIモデルを、安全装置を組み込んだうえで一般公開しました。新モデルの名前は「Claude Fable 5」です。同社はこのFable 5を、「これまで一般提供したどのモデルよりも能力が高い」と説明しています。もともとOpus4.8も性能が高かったですが、ソフトウェア開発、ナレッジワーク（調査・分析・文書作成）、画像や図の読み取り、科学研究など、幅広 ...

2026/6/9

プロンプトインジェクションとは？Claudeで押さえておきたいセキュリティリスクと対策

生成AIを業務に取り入れる企業や事業所が、ここ数年で一気に増えました。文書作成や記録の要約、問い合わせ対応など、活用の幅は広がる一方です。その便利さの裏側で、これまでのITセキュリティとは性質の異なる新しいリスクが生まれていることをご存じでしょうかその代表格が「プロンプトインジェクション」です。 IPA（情報処理推進機構）が公表した「情報セキュリティ10大脅威 2026」では、AIの利用をめぐるサイバーリスクが初めて選出され、プロンプトインジェクションはその中 ...

2026/5/21

Google I/O 2026 まとめ「AIが自分で動く時代」が本格的に始まった

2026年5月19日から、Googleの年次開発者会議「Google I/O 2026」が開幕しました。今年の発表は例年と少しトーンが違います。 AIモデルの性能アップだけでなく、「AIがユーザーに代わって自律的に動く」エージェントの実用フェーズが、はっきりと前面に出てきた回でした。「ChatGPTを使ってはいるけれど、結局自分で指示を出し続けないと進まない」「AIに任せたいのに、毎回前提を説明するのが面倒」AIを使いこなす達人なら軽々このハードルを超えることはできますが、A ...

【自動化】AIエージェントによる「ループエンジニアリング」とは？役割と注意点をわかりやすく解説

簡単ストレスチェック

RECOMMEND

2026/6/26

画面を見て操作するAI！Gemini 3.5 Flashに「computer use」が搭載

2026年6月24日（日本時間：6月25日）、GoogleがAIモデルGemini 3.5 Flashに「computer use」という機能を組み込んだと発表しました。これにより、AIが画面を「見て」、自分でクリックしたり文字を入力したりできるようになりました。これまでは「質問すれば答えを返す」チャットのやり取りでしたが、今回は答えるだけでなく、画面を見て実際に動かす能力が加わった。この点が大きな変化になります。「便利そうだけど、具体的に何ができるの？ ...

2026/6/25

【自動化】AIエージェントによる「ループエンジニアリング」とは？役割と注意点をわかりやすく解説

2026/6/22

【健康経営インタビュー】多様な働き方が選べる職場を：一般社団法人日向市観光協会さま

多様な働き方を選べる職場が、地域の観光を支える力になる株式会社アスカゼでは、健康経営に取り組む県内企業・団体を訪問し、取り組みの背景や具体的な実践についてお話を伺っています。今回は、一般社団法人日向市観光協会さまにインタビューを行いました。日向市観光協会さまは、日向市や周辺地域の観光案内、物産の販売促進、旅行に関する事業などを担い、地域の魅力を多くの人へ届けています。観光の仕事は、地域の事業者や住民、観光客など、さまざまな人と関わる仕事です。 &nbsp ...

2026/6/20

【初心者向け】LM Studio導入ガイド－自分のPCでプライベートなAIを動かそう

2026/6/17

【AIギルウド】障害福祉の現場で使えるAI実践セミナーを開催しました！

株式会社GRANDIR様主催のもと、「障害福祉の現場で今日から使えるAI実践セミナー」に登壇いたしました。お伝えしたこと今回のセミナーでは、障害福祉の現場で日々発生している記録業務や書類作成に対して、AIをどのように活用できるのかを、実際のデモを交えながらお伝えしました。障害福祉の現場では、アセスメント、モニタリング記録、個別支援計画、日々の支援記録、ヒヤリハット報告など、多くの事務作業が発生します。どれも支援の質を高めるうえで大切な業務ですが、人手不足が続くなかで、現場職員の大きな ...

画面を見て操作するAI！Gemini 3.5 Flashに「computer use」が搭載

Computer useとは？

参考Google AI Studioの「Stream機能」とは？使い方と活用法について詳しく解説！

Computer useは どうやって動くの？

Computer useでは何ができる？

ベンチマークから見る性能はどのくらい？

安全面はどうなのか？

参考プロンプトインジェクションとは？Claudeで押さえておきたいセキュリティリスクと対策

まとめ

Computer useはどうやって動くの？