「AIが勝手に画面を操作する」時代が来た——Gemini 3.5 Flashに画面操作機能が標準搭載

スマホを操作するとき、自分でアプリを開いて、タップして、文字を打ちますよね。
それをAIが代わりにやってくれるとしたら、どう感じますか？

2026年6月24日、Googleが「Gemini 3.5 Flash」に「Computer Use（コンピューター使用）」機能を標準搭載したと発表しました。
AIが画面のスクリーンショットを見て、ボタンをクリックしたり、文字を入力したり、スクロールしたりを自動で実行できる機能です。

これ、以前は「Gemini 2.5 Computer Use」という専用の独立モデルとしてのみ提供されていた高度な機能でした。
それが今回、開発者がすでに日常的に使っているGemini 3.5 Flashに組み込まれた——つまり、「特別な追加機能」から「標準装備」へと格上げされたわけです。

Xでの盛り上がり——「官発表と現場の温度差」が話題に

この発表はXでも注目を集めましたが、興味深い反応がありました。
公式アナウンスの明るいトーンと、実際の開発者コミュニティ（Hacker News等）の慎重な反応に温度差がある、という観察が話題になったのです。

中国のAI研究者・yibie氏は次のようにXに投稿しています。
「Google が今日 Gemini 3.5 Flash に Computer Use 能力を内蔵した——プラグインでも後付けでもなく、ネイティブツールとして。
しかし Hacker News と実ユーザーのフィードバックは公式発表のトーンと大きく違う」と指摘し、公式発表の明るさと現場の温度差に注目しています。

推荐这篇，Google 今天在 Gemini 3.5 Flash 中内置了 Computer Use 能力——作为原生工具，不是插件不是外挂。但 HN 和真实用户的反馈跟官宣的调性差异很大。

Gemini 3.5 Flash 内置 Computer Use：官方 vs 真实反馈

Google 今天发布 Gemini 3.5 Flash 的 Computer Use…
— yibie (@yibie) 2026年6月25日

この「官発表と現実の乖離」という視点は、AIの新機能発表でよく見られるパターンです。
機能自体の完成度と、それが実際の業務に使えるレベルかは別の話。
そのあたりを深掘りしてみました。

仕組みを知ると、なぜ「今さら？」と思われるかが分かる

Computer Useがどう動くか、簡単に説明します。

開発者のアプリが「目標とスクリーンショット」をGemini APIに送る
Geminiが画面を見て、ボタン・テキストフィールド・メニューなどのUI要素を認識する
「次に何をすべきか」を推論し、「座標（X, Y）をクリック」「この文字を入力」といった具体的なコマンドを出力する
開発者のアプリがその操作を実行し、新しい画面をGeminiに返す
このサイクルを繰り返して、タスクを完了させる

この「スクリーンショットを見てコマンドを出す」方式は、以前から研究されていた技術です。
Anthropicが2024年にClaude 3.5 Sonnetで「Computer Use」ベータ版を先行リリースして話題になりましたよね。
Geminiも2025年に独立モデルとして提供を始めていました。

今回の本質的なニュースは、この機能がGemini 3.5 Flashという「軽量・高速・安価」なモデルに統合されたことです。

数値で見ると、実力はかなり本物

OSWorld-Verified（AIがOSの操作をどれだけ正確に実行できるかを測るベンチマーク）での結果を見てみましょう。

モデル	スコア
Claude Opus 4.8	83.4
GPT-5.5	78.7
Gemini 3.5 Flash	78.4
Claude Sonnet 4.6	78.4
Gemini 3 Flash	65.1

Gemini 3.5 FlashはGPT-5.5やClaude Sonnet 4.6とほぼ同じスコアを出しています。
さらに重要なのはコストで、GPT-5.5と比べて約3分の1のトークン単価と言われています。
「同じ精度で、価格は3分の1」というのはAIエージェント開発者にとって見逃せない数字です。

前世代のGemini 3 Flashは65.1でしたから、約13ポイントの大幅な向上です。
一つ前の「軽量モデル」からここまで差がついた理由があります。
今回の統合は単純な移植ではなく、Gemini 3.5 Flashそのものをエージェント用途向けに最適化して設計されているからです。

「誤操作」「乗っ取り」リスクへの対策

実際、Computer Use系の機能には重大なリスクが存在します。
AIが「外部から差し込まれた悪意ある指示（プロンプトインジェクション）」に騙されて、意図しない操作をしてしまうケースです。
悪意のある広告や、Webページに埋め込まれた「ここをクリックして」という不可視テキストに反応して誤動作する、という問題が以前から指摘されていました。

Googleはこれに対して三層の防御を実装しています。

一つ目は「敵対的トレーニング」。
プロンプトインジェクション攻撃への耐性をモデル自体に学習させています。

二つ目は「センシティブ操作のユーザー確認」。
取り消しができない操作（メール送信・ファイル削除など）については、AIが実行前にユーザーに確認を求めるよう設定できます。

三つ目は「自動停止」。
間接的なプロンプトインジェクションを検知した場合、タスクを自動的に中断します。

Googleは「単一の防御策だけでは不十分」と明言しており、サンドボックス・人間によるレビュー・アクセス制御を組み合わせた多重防御を推奨しています。
この誠実さは評価できますが、同時に「まだ本番環境で全自動で使うには慎重さが必要」というメッセージでもあります。

対応しているのはブラウザ・スマホ・デスクトップ全部

Computer Useが対象とする環境は大きく三つです。

ブラウザ: ウェブアプリの操作、フォーム入力、データ収集などが自動化できます。

モバイル（スマートフォン）: AndroidアプリのUI操作も対象です。
スマホ向けのテスト自動化に活用できます。

デスクトップ: PCソフトのドラッグ&ドロップ、複数アプリ間の連携操作も可能です。

一つのGemini 3.5 Flashエージェントが、画面を見てから検索して、さらに地図で確認して、という複数のアクションを一本でこなせるようになりました。
以前は複数のモデルにリクエストをルーティングする必要があったのが、今回の統合で一本化されています。

さらに深掘りしたい方へ

SocialReport編集部の考察

今回の発表を「画面操作AIが使えるようになった」と受け取るのは、まだ表面的な理解です。
本質は「コンピューター使用AI（Computer Use）が、開発者の標準ツールキットに組み込まれた」という点にあります。

マーケターやSNS運用担当者の視点から考えると、これは地味に重大なニュースです。
たとえばSNS管理ツールで定期レポートを取得する、複数プラットフォームの数値を転記する、複数ツールをまたぐ承認フローを操作する。
こういった「反復的なマルチツール操作」が、今後のAIエージェント自動化の主なターゲットになってきます。

重要なのはコストの変化です。
GPT-5.5と同等のComputer Use精度が3分の1のコストで使えるようになると、「エージェント自動化」はコスト面のハードルを大きく下げます。
大企業だけでなく、中小企業の運用チームでも検討できるレベルになってきます。

一方で、「なぜHacker Newsの反応が慎重なのか」も理解できます。
Computer Useは精度が100%ではありません。
操作途中で画面が変わる、ポップアップが出る、ネットワーク遅延で表示が遅れる。
こうした「現実のPC操作」の不確かさへの対応力が、今後の実用化の鍵を握っています。
「Googleが公式で言うほど万能ではないが、確実に使い物になるケースが増えてきた」というのが正直なところでしょう。

まとめ

Gemini 3.5 Flashにコンピューター使用（Computer Use）機能が標準搭載されました。
AIが画面を見てクリック・入力・スクロールを自動実行し、ブラウザ・スマホ・デスクトップに対応しています。
OSWorldベンチマークではGPT-5.5と同水準の78.4を記録しつつ、価格は約3分の1というコスト優位があります。
プロンプトインジェクション対策など安全対策も充実していますが、本番環境での全自動運用にはまだ慎重さが必要な段階です。
Gemini APIとGemini Enterprise Agent Platformから利用できます。