最終更新: 05 Jan, 2026
もし文書をスキャンして、コンピュータが画像からテキストを検索可能・編集可能なコンテンツに変換する仕組みを不思議に思ったことがあるなら、**光学文字認識(OCR)**の世界に触れたことがあります。しかし、単に画像からテキストを抽出するだけで話は終わりません。本当の魔法は、その情報がどのように保存・構造化されるかにあります。
歴史的アーカイブをデジタル化したり、ビジネスの請求書を処理したり、印刷された本をデジタルライブラリへ変換したりする際、適切なOCR 出力フォーマットを選ぶことが重要になります。この領域を支配するフォーマットは HOCR、ALTO、PDF/A の3つです。各フォーマットは異なる目的に特化しており、その違いを理解すれば、後々のフラストレーションを何時間も削減できます。
ここでは、これらのフォーマットについて技術的基礎から実用的な活用例まで、知っておくべきすべてを解説します。
OCR ファイルフォーマットとは? 特定のフォーマットに入る前に、OCR ファイルフォーマットが実際に何をするのかを確認しましょう。OCR ソフトウェアが文書を処理するとき、単なるプレーンテキストだけでなく、貴重な構造情報や位置情報も取得します。具体的には以下の要素が含まれます。
テキストコンテンツ: 実際の単語や文字 レイアウト情報: ページ上のテキストの位置(段落、列、ヘッダーなど) 書式データ: フォントのスタイル、サイズ、色 信頼度スコア: 各文字に対する OCR エンジンの確信度 構造階層: 章、節、見出し、脚注 OCR ファイルフォーマットは、抽出されたテキストとともにこの豊富なメタデータをパッケージ化し、元の文書の視覚的・構造的完全性を保ったデジタルツインを作り出します。
HOCR:HTML ベースの挑戦者 HOCR とは? HOCR(HTML OCR の略)は、OCR 結果を HTML ファイルに埋め込むオープンスタンダードです。Tesseract OCR エンジンのエコシステムの一部として開発され、標準的な HTML マークアップにカスタムクラスや属性を追加して OCR データを表現します。
技術構造 典型的な HOCR ファイルは、以下のように見慣れた HTML ですが、専用要素が組み込まれています。title 属性にはバウンディングボックス座標(bbox)が含まれ、ページ上の各テキスト要素の正確な位置を示します。