Askive 海外先取り #81 ・ 2026-06-27

Codexが「アプリを作らない自動化」へ—専用ソフト化できない小型業務を1人で回す時代の現在地

OpenAIのコーディングエージェント「Codex」が、開発者以外の業務にまで広がっている事実が公式レポートで示されました。この記事を読むと、Codexの「ブラウザ操作」と「操作の記録・再生」が、自社の小さな定型業務に使えるのか、それとも今は様子見すべきかを判断できます。

1. 海外で何が起きたか（FACT）

OpenAIが2026年6月に公開した経済調査レポート（how-agents-are-transforming-work）によると、Codex（＝AIが手順を判断しながらコードや作業を進める仕組み）の利用が、技術部門の外へ大きく広がっています。

確認できる事実は以下です。

同社の社内週次出力トークンのうち、99.8%をCodexが占める（2025年8月時点では10%未満）。
法務・採用・財務などの非技術部門も2026年4月頃にCodexへ移行。
2026年5月時点で、個人ユーザーの80.6%が「人間換算30分超」、70.2%が1時間超、25.6%が8時間超のタスクを依頼。
非開発者ユーザーは2025年8月比で個人137倍、組織189倍に増加。

あわせて2026年6月22日、長時間タスクでCodexを使うためのホワイトペーパー（著者Jason Liu氏）が公開され、目標を検証可能なステップに分解する手法や、AIへの委任と人間の監視の使い分けが解説されました。

さらに実務寄りの動きとして、クリーニング店（Presto Drycleaners）が「専用ソフトを作るほどではないが、頻繁に発生する定型業務」にCodexのブラウザ操作機能を試験導入した事例、そしてMac向けに操作を記録して再生する「Record & Replay」機能のリリースが報告されています。いずれも公式・一次ソースで確認済みの確定情報です。

2. 本物か、誇大か（JUDGE）

数値の根拠がOpenAI自身の社内データである点は割り引いて読む必要がありますが、「非開発者の利用が伸びている」という方向性自体は信頼できる一次情報です。

注目すべきは、Codexの位置づけが「コードを書く道具」から「画面操作を含む作業を代行する道具」へ移りつつあること。とくに中小企業にとって意味が大きいのは、技術力ではなくブラウザ操作とRecord & Replayの部分です。

ただし誇大に受け取るべきではありません。「99.8%」はAIに最適化されたOpenAI社内の数字であり、一般企業がすぐ同じ水準になるわけではありません。Record & Replayも、機能名と「操作を記録・再生する」という性質は公表されていますが、どこまで複雑な業務に耐えるかの第三者検証はまだ乏しいのが現状です。「神ツール」ではなく、「小型業務の自動化が現実的な選択肢に入り始めた」という段階の判定が妥当です。

3. 日本では今どの段階か（GAP）

現時点で、これらは英語圏の公式発表・事例が中心です。ホワイトペーパーや経済レポートは英語であり、日本語での公式解説や国内中小企業の導入事例は、確認できる範囲ではまだほとんど見当たりません。Record & ReplayもMac向けのリリースとされ、日本語環境での実務検証情報は限定的です。

それでも先取りする価値があるのは、ここで扱われている対象が「専用ソフトを作るほどではない小型業務」だからです。これは日本の中小企業がもっとも抱えている領域で、システム化の予算も人員もないまま手作業で回している部分です。海外の事例が固まってから動くと、その間ずっと人の時間が消費され続けます。今のうちに「どの業務が自動化候補か」を棚卸ししておくこと自体が、低コストで効く先取りになります。

4. 中小企業のどの業務に効くか（FIT）

向いているのは、「毎回ほぼ同じ手順」「件数が多い」「専用ツールを買うほどではない」業務です。具体例を挙げます。

複数の管理画面に同じ情報を転記する作業（受発注・予約・在庫など）
毎週決まったサイトから数字を取得して表にまとめる集計
問い合わせ内容を定型フォーマットに整理して台帳化する作業
請求・経費データの形式そろえや、月次のルーティン処理

クリーニング店の事例が示すのは、まさにこの「アプリ化できない反復作業」の自動化です。

一方で、効きにくい業務も正直に書きます。判断が毎回変わる業務、相手との交渉や例外対応が多い業務、入力データの形式が毎回バラバラな業務は、現時点では自動化に向きません。また機密性の高い顧客情報・財務情報をAIに操作させる場合は、社内の取り扱いルールが整っていないと導入すべきではありません。

5. どう使うか・最小の一歩（HOW）

明日試せる粒度に落とします。

自動化候補を1つだけ選ぶ。 「週に何度も発生し、手順が毎回同じで、ミスしても致命傷にならない」業務を1件だけ書き出します。最初から重要業務を選ばないことが重要です。
手順を文章で分解する。 ホワイトペーパーが勧める「検証可能なステップに分解する」考え方をそのまま使い、人が見て確認できる単位に区切ります。
小さく記録・再生を試す。 Record & Replay（＝操作を記録して再生する機能、現状Mac向け）で、まず一連の操作を記録し、再生が成立するか確認します。
必ず人が結果をチェックする工程を残す。 AIに任せきりにせず、出力を人が検算する前提で運用します。

概算コストは、ChatGPT/Codexの有料プラン（業務利用なら月数十ドル規模が目安。プラン詳細は要確認）に、検証にあてる担当者の時間が加わります。障壁は主に3つ。英語中心の情報、Mac前提の機能、そして手順を言語化して分解できる人が社内に必要な点です。プログラミングは不要でも、「業務を手順に分解する力」は求められます。

6. 結論：要る／要らない／様子見（VERDICT）

結論は「条件付きで様子見しつつ、棚卸しは今すぐ要る」です。

機能としては有望ですが、日本語・第三者検証・国内事例がまだ薄く、本格導入を急ぐ段階ではありません。ただし「どの小型業務が自動化候補か」を洗い出す準備は今やる価値があり、それが整っている企業ほど、機能が成熟した瞬間に最短で効果を取りに行けます。