1. 海外で何が起きたか(FACT)
Googleは、AI「Gemini 3.5 Flash」に「コンピューター使用機能(=AIがブラウザやアプリの画面を見て、人の代わりにクリックや入力を行う仕組み)」を、組み込みツールとして統合したと公式ブログで発表しました(出典: deepmind.google)。
ポイントは「どこに」入ったか、です。従来この機能は「Gemini 2.5」という別系統のモデルでのみ使えました。今回はメインの軽量モデルである「Flash(=高速・低コスト向けのモデル)」に内蔵された点が変更点です。これにより、ブラウザ・モバイル・デスクトップの各環境をまたいでAIが操作できるとされています。
利用経路は2つ。開発者向けの「Gemini API(=プログラムからAIを呼び出す窓口)」と、企業向けの「Gemini Enterprise Agent Platform(=業務自動化AIを構築・運用する基盤)」です。
安全面では、プロンプトインジェクション(=悪意ある指示文でAIを誤作動させる攻撃)への敵対的トレーニングを実施。加えて企業向けに「機密性の高い操作の前に確認を求める」「不正な指示を検知したら自動停止する」という2つのオプション機能も提供されます。
ここまでが公式に確認された事実です。一次ソースで確認済みのため、確定情報として扱えます。
2. 本物か、誇大か(JUDGE)
結論から言えば「実体のある進歩」ですが、「神ツール」ではありません。
評価できるのは2点。第一に、別モデル専用だった機能を主力のFlashに統合したこと。Flashは低コスト・高速が売りのモデルなので、「画面を操作するAI」のコストハードルが下がる方向に働きます。第二に、企業利用で最も怖い「AIが勝手に危険な操作を実行する」リスクに対し、確認要求と自動停止という具体的な歯止めを用意した点です。安全機能を後付けの飾りでなく標準で語っている姿勢は実務的です。
一方、慎重に見るべき点もあります。公式発表時点で示されているのは機能の存在と安全設計であり、「実際の業務でどれだけ正確に操作を完遂できたか」を示す具体的な成功率の数値は、現時点では本素材から確認できません。画面操作型AIは一般に、複雑な画面や想定外のレイアウト変更でつまずきやすく、「9割できるが、残り1割で止まる・誤操作する」という弱点が付きものです。ここが実務で効くかどうかの分かれ目になります。
つまり「方向性は本物、完遂力は要検証」という段階です。
3. 日本では今どの段階か(GAP)
現時点で、この機能は開発者向けのAPIと企業向けプラットフォーム経由での提供です。日本語UIの専用アプリとしてボタン一つで使える状態ではなく、導入には設定や開発の手間が必要です。
日本語環境での操作精度や、国内ツール(国産の会計ソフト、グループウェア、ECの管理画面など)をどこまで正確に扱えるかは、現時点では公開情報からは不明です。日本企業の導入事例もまだ表に出ていません。
それでも「今、先取りする価値」はあります。理由は、画面操作型AIは「自社のどの作業が任せられるか」を見極める社内ノウハウが効いてくる領域だからです。ツールが普及してから慌てて検討するより、今のうちに「うちの定型作業のうち、どれが画面操作の自動化に向くか」を棚卸ししておくと、提供が本格化した瞬間に動けます。準備コストはほぼ思考時間だけです。
4. 中小企業のどの業務に効くか(FIT)
画面操作型AIが効くのは「決まった画面で、決まった手順を、繰り返す」作業です。具体的には以下が候補になります。
- 複数のWebサイトから同じ項目を集めて表に転記する作業(例: 競合価格の定期チェック、補助金・入札情報の巡回収集)
- 自社の管理画面への定型入力(例: 受注情報をECの管理画面へ手入力している場合)
- スプレッドシートと社内システム間の手作業のコピペ
- 毎週同じフォーマットで作る報告画面のスクリーンショット取得や集計
逆に効きにくい・任せるべきでない業務もあります。判断や交渉が絡む業務(顧客への返信内容を決める、価格を交渉する)、入力ミスが重大事故になる操作(送金、契約確定、本番データの削除)は、人の最終確認なしに任せるべきではありません。今回の「機密操作前の確認要求」機能は、まさにこの線引きを前提にした設計と読めます。
「人がやれば単純だが、地味に時間を食う、画面をまたぐ転記作業」──ここが最も相性の良い領域です。
5. どう使うか・最小の一歩(HOW)
明日試せる粒度で、段階を分けます。
最小の一歩は「自動化の候補を1つ決める」ことです。コストもスキルもゼロで始められます。社内の定型作業の中から、「毎週・毎日・同じ画面で・同じ手順」の作業を1つだけ書き出してください。これが検証対象になります。
次の一歩は実際の試用です。この機能はAPIまたは企業向けプラットフォーム経由のため、社内に開発に触れられる人(外注先でも可)が必要です。編集メモにある「月額20ドル以下」という水準は、Geminiの個人向け有料プランの価格帯を指しますが、API利用料は使った分の従量課金になる点に注意してください。少量の試用なら数百円〜数千円規模から検証可能と見込めますが、正確な費用は使用量次第で、現時点で一律には言えません。
障壁は3つです。(1)言語・設定: 日本語の業務画面での精度は要検証。(2)スキル: ノーコードで完結するものではなく、設定・接続の知識が要る。(3)安全: いきなり本番システムに繋がず、必ず「確認要求」を有効にし、テスト用の画面で完遂率を確かめる。
現実的な進め方は、「候補作業を1つ選ぶ→開発できる人と小さく試す→10回試して成功率を測る→8割以上安定したら範囲を広げる」という順です。
6. 結論:要る/要らない/様子見(VERDICT)
判定は「条件付きで先取り検討に値する/本格導入は様子見」です。
理由は2点。画面操作型AIが低コストのFlashに統合され安全機能も用意された点で方向性は確かですが、日本語業務での完遂力や国内ツール対応の実績が現時点で不明なため、今は「自社の自動化候補を棚卸しし、小さく試す」フェーズが適切だからです。社内に試せる人がいるなら、候補1つでの検証は今日から始める価値があります。
