中小企業の経理AI、請求書抽出を50枚で実測比較—ChatGPT・Claude・Geminiの正答率と弱点
請求書の山をスキャンし、AIに「金額と登録番号を読み取って」と頼む。経理のAI活用で最初に試されるのが、この地味な作業だ。だが「どのAIが一番正確に読むのか」を、数字で答えた情報は意外なほど少ない。料金や機能の一覧はどこにでもあるが、実際に読ませて間違えた率は、誰かが手を動かして測らない限り出てこない。
そこでAskive編集部は、架空の合成請求書50枚を作り、主要3サービス—ChatGPT(GPT-4o)・Claude(Sonnet 4.6)・Gemini(2.5 Flash)—に同じ条件で読み取らせ、正解と突き合わせた。本記事はその実測結果である。数値は2026年6月、当編集部が作成した合成データ・特定条件下での測定であり、各サービスの絶対的な性能を保証するものではない。条件は後述する。
結論(先に要点)
| サービス(検証モデル) | 総合正答率 | 明細の取りこぼし | 登録番号 正答率 | 平均処理時間 | 推定コスト/件 |
|---|---|---|---|---|---|
| Gemini (2.5 Flash) | 98.2% | なし(100%) | 86% | 9.3秒 | 約¥0.30 |
| Claude (Sonnet 4.6) | 98.0% | なし(100%) | 84% | 5.0秒 | 約¥1.30 |
| ChatGPT (GPT-4o) | 93.0% | 98.4% | 60% | 2.9秒 | 約¥0.80 |
※「登録番号 正答率」は50枚全体の値。取りこぼしの大半は承認印が番号に重なった画像(この条件は全AIが0%=数字が物理的に隠れる)で、印が重なっていない場合のGemini・Claudeは97〜100%。詳細は後述。
- 正確さで選ぶなら Gemini (2.5 Flash) か Claude (Sonnet 4.6)。両者はほぼ互角で、画像が多少崩れても落ちなかった。
- 速さなら ChatGPT (GPT-4o)(平均2.9秒)。ただし正答率は一段落ち、特に後述の登録番号で差が開いた。
- コストの目安は Gemini (2.5 Flash) が最安(推定¥0.30/件)。ただし処理は最も遅い。
- 「登録番号はAIの弱点」は誤解。Gemini・Claudeは番号さえ見えていれば97〜100%で読む。取りこぼしの大半は承認印が数字を覆った画像だ。ただしChatGPT (GPT-4o)だけは印が無くても登録番号で劣る。
- 推定コストは各サービスが返した実トークン数に概算単価を掛けた推計で、確定額ではない。
測定方法(再現できる形で)
- 対象:架空の合成請求書50枚(実在の企業・個人を含まない。著作権・個人情報の問題を避けるため自動生成)。
- 崩しの条件:きれいな画像のほか、低解像度・傾き・低コントラスト・スキャン風ノイズ・承認印が重なる・手書き風フォントの7種を混在させた。請求書は現場で必ずきれいとは限らないためである。
- 読み取り項目:発行元・請求書番号・発行日・登録番号(適格請求書のT+13桁)・小計・消費税・合計・明細行。各項目を正解と機械的に突き合わせ、一致率を算出した。
- 指標:総合正答率=全項目に占める正解の割合。明細の取りこぼし=正解の明細行を金額一致で拾えた割合。処理時間とコストは実測。
各サービスには同一の指示文と同一画像を渡し、JSONで構造化抽出させた。プロンプトや採点ロジックは編集部で固定している。
サービス別の所見
Gemini (2.5 Flash) ― 50枚を通して総合正答率が最も高く、明細は1件も落とさず、画像が崩れた条件でもほぼ100%を維持した。弱点は速度で、1枚あたりの平均処理時間は3者で最も遅い。大量処理ではこの差が効く。一方で推定コストは最安水準で、「枚数が多く、夜間バッチで回す」用途と相性がよい。
Claude (Sonnet 4.6) ― 総合正答率はGemini (2.5 Flash)とほぼ互角で、明細も完璧。速度は中庸で、精度と速度のバランスが取りやすい。コストは3者で最も高い推計となった。
ChatGPT (GPT-4o) ― 3者の中で明確に速い。ただし総合正答率は一段落ち、画像が崩れる条件(低画質・スキャン風など)で精度が下がった。スキャン風や低画質の請求書では、明細を取りこぼす場面もあった。速度優先で、かつ画像品質が安定している現場向きと言える。
難条件別の正答率
画像の状態別に見た正答率は次のとおり。きれいな画像ではどのサービスも高精度だが、承認印の重なりなど崩れた条件で差が出る。
| サービス | きれい | 低画質 | 低コントラスト | 傾き | スキャン風 | 手書き風 | 承認印重なり |
|---|---|---|---|---|---|---|---|
| Gemini (2.5 Flash) | 100% | 100% | 100% | 100% | 100% | 100% | 87.5% |
| Claude (Sonnet 4.6) | 100% | 100% | 100% | 100% | 98.2% | 100% | 87.5% |
| ChatGPT (GPT-4o) | 95.3% | 92.9% | 94.6% | 94.6% | 91.1% | 98.2% | 83.9% |
「登録番号がAIの弱点」は誤解だった—正体は承認印の重なり
登録番号(T+13桁)は、数字の上では全AIで最も正答率が低い項目だ。ここだけを見れば「AIは登録番号が苦手」と結論したくなる。だが取りこぼした請求書を1枚ずつ開くと、原因はAIの読解力ではなかった。
取りこぼしの原因の大半は、承認印が番号に重なることだった。その条件では3サービスとも正答率0%—印影が桁を覆っており、これは人間が見ても読めない画像だ。逆に、印が重なっていない請求書だけで見ると景色は一変する。
| サービス | 印影なし(可視)時 | 承認印が番号に重なる時 |
|---|---|---|
| Gemini (2.5 Flash) | 43/43(100%) | 0/7(0%) |
| Claude (Sonnet 4.6) | 42/43(97%) | 0/7(0%) |
| ChatGPT (GPT-4o) | 30/43(69%) | 0/7(0%) |
印影が重なっていなければ、Gemini・Claudeは登録番号をほぼ正確に読み取ります(98〜100%)。これはAIの限界ではなく撮り方・スキャンの問題で、承認印が番号欄に重ならないように取り込む方が効く。
ただし1社だけ事情が違う。ChatGPT (GPT-4o)は、印が無いきれいな請求書でも登録番号の正答率が70%前後(Gemini・Claudeは97〜100%)にとどまり、低画質や傾きが加わるとさらに落ちた。T+13桁という長い数字列で桁の読み違いが実際に起きている。登録番号の精度を重視するなら、現時点でGPT-4oは不利だ。
いずれにせよ、仕入税額控除に直結する登録番号と合計金額は、AIの一次抽出を人間が最終照合する運用が安全である。
よくある質問(FAQ)
- 中小企業の経理にはChatGPT・Claude・Geminiのどれがいいですか?
- 枚数が多くコストを抑えたいならGemini (2.5 Flash)(正答率も最高水準・推定¥0.30/件)、精度と速度のバランス重視ならClaude (Sonnet 4.6)、速さ優先で画像がきれいに揃うならChatGPT (GPT-4o)(平均2.9秒)が目安です。いずれも適格請求書の登録番号は人間確認を前提にしてください。
- 正答率98%なら、もう経理をAIに自動化して任せていいですか?
- 合計金額や消費税はほぼ100%ですが、項目によって信頼度は異なります。登録番号(T+13桁)は全体では低めに見えますが、取りこぼしの大半は承認印が番号に重なって数字が隠れた画像で、その場合は全AIが0%です。印が重なっていなければGemini・Claudeは97〜100%で読み取ります。一方ChatGPT (GPT-4o)以外のChatGPT (GPT-4o)は印が無くても69%と低めです。登録番号と合計金額は人間の最終照合を残すのが安全です。
- 請求書AIの検証になぜ合成データを使うのですか?
- 実在の請求書は著作権と個人情報の問題があり再現実験に向きません。正解が確定した合成データなら、同じ条件で何度でも測り直せます。
- 請求書抽出でAIが一番間違える項目は何ですか?
- 見かけ上は適格請求書の登録番号(T+13桁)で、50枚の取りこぼしはClaude8枚・Gemini7枚・ChatGPT20枚でした。ただしGemini・Claudeの取りこぼしはほぼ全て承認印が番号に重なった画像で、印が隠していなければ97〜100%で読み取れます。印影が記載項目に重なると桁が物理的に隠れ、全AIが読めなくなるのが実態です。一方ChatGPT (GPT-4o)は印が無くても登録番号の取りこぼしが多めでした。
- この実測結果は今後も同じですか?
- 各サービスはモデル更新で精度が変わります。本検証は2026年6月時点(ChatGPT=GPT-4o / Claude=Sonnet 4.6 / Gemini=2.5 Flash)の測定で、Askiveは定期的に測り直す予定です。
詳細データの無料配布
この記事の制作チーム
Askive の記事は、リサーチ → 編集 → 監修の3段階で制作されています。各担当者の役割と責任範囲を明示します。
-
ResearchソラSola
リサーチ補助・ファクトチェック。価格表・スペック表・引用情報の整合性を確認。
-
EditorialミラMira
比較記事 編集。SaaS / クラウド業界に5年。料金・機能差分を中小企業視点で整理。
-
Supervisor四月 鶉Yotsuki Uzra
Askive 編集長。中小企業のAI導入を10年以上支援。記事の最終監修と論理整合性を担当。