最終更新: 05 Jan, 2026

OCR ファイルフォーマットの理解:HOCR vs ALTO vs PDF/A の解説

もし文書をスキャンして、コンピュータが画像からテキストを検索可能・編集可能なコンテンツに変換する仕組みを不思議に思ったことがあるなら、**光学文字認識(OCR)**の世界に触れたことがあります。しかし、単に画像からテキストを抽出するだけで話は終わりません。本当の魔法は、その情報がどのように保存・構造化されるかにあります。

歴史的アーカイブをデジタル化したり、ビジネスの請求書を処理したり、印刷された本をデジタルライブラリへ変換したりする際、適切なOCR 出力フォーマットを選ぶことが重要になります。この領域を支配するフォーマットは HOCR、ALTO、PDF/A の3つです。各フォーマットは異なる目的に特化しており、その違いを理解すれば、後々のフラストレーションを何時間も削減できます。

ここでは、これらのフォーマットについて技術的基礎から実用的な活用例まで、知っておくべきすべてを解説します。

OCR ファイルフォーマットとは?

特定のフォーマットに入る前に、OCR ファイルフォーマットが実際に何をするのかを確認しましょう。OCR ソフトウェアが文書を処理するとき、単なるプレーンテキストだけでなく、貴重な構造情報や位置情報も取得します。具体的には以下の要素が含まれます。

  • テキストコンテンツ: 実際の単語や文字
  • レイアウト情報: ページ上のテキストの位置(段落、列、ヘッダーなど)
  • 書式データ: フォントのスタイル、サイズ、色
  • 信頼度スコア: 各文字に対する OCR エンジンの確信度
  • 構造階層: 章、節、見出し、脚注

OCR ファイルフォーマットは、抽出されたテキストとともにこの豊富なメタデータをパッケージ化し、元の文書の視覚的・構造的完全性を保ったデジタルツインを作り出します。

HOCR:HTML ベースの挑戦者

HOCR とは?

HOCR(HTML OCR の略)は、OCR 結果を HTML ファイルに埋め込むオープンスタンダードです。Tesseract OCR エンジンのエコシステムの一部として開発され、標準的な HTML マークアップにカスタムクラスや属性を追加して OCR データを表現します。

技術構造

典型的な HOCR ファイルは、以下のように見慣れた HTML ですが、専用要素が組み込まれています。

<div class='ocr_page' title='bbox 0 0 1700 2200'>
 <div class='ocr_carea' title='bbox 100 200 800 500'>
   <span class='ocr_line' title='bbox 110 210 790 240'>
     <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
     <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
   </span>
 </div>
</div>

title 属性にはバウンディングボックス座標(bbox)が含まれ、ページ上の各テキスト要素の正確な位置を示します。

主な特徴と利点

  • ウェブフレンドリー: HTML 上に構築されているため、ブラウザで簡単に表示可能
  • スタイル分離: CSS でプレゼンテーションを管理し、コンテンツと見た目を分離
  • アクセシビリティ: セマンティックな HTML 構造はスクリーンリーダーや支援技術に対応
  • 柔軟性: JavaScript や CSS フレームワークなど他のウェブ技術と組み合わせ可能
  • オープンスタンダード: プロプライエタリな制限やライセンス料が不要

主な利用ケース

  • ウェブベースの文書ビューアを備えたデジタルライブラリ・アーカイブ
  • ウェブアプリケーションへの容易な統合が求められるプロジェクト
  • OCR データファイルの人間可読性が重要なシーン
  • オープンソースプロジェクトや共同デジタル化作業

ALTO:アーカイブ担当者の選択

ALTO とは?

ALTO(Analyzed Layout and Text Object)は、テキストページのレイアウトと内容を表現するために特化した XML ベースのフォーマットです。米国議会図書館が開発・維持しており、文化遺産のデジタル化プロジェクトで標準となっています。

技術構造

ALTO は構造化された XML スキーマを使用し、ページ構成要素ごとに専用要素を持ちます。

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
 <Layout>
   <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
     <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
       <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
         <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
           <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
           <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
         </TextLine>
       </TextBlock>
     </PrintSpace>
   </Page>
 </Layout>
</alto>

主な特徴と利点

  • リッチメタデータ: 詳細なタイポグラフィ、レイアウト、言語情報をサポート
  • 標準化: 図書館、アーカイブ、文化機関で広く採用
  • バリデーション: XML Schema Definition(XSD)により厳格な検証が可能
  • 拡張性: 追加の名前空間で専門的なニーズにカスタマイズ可能
  • 保存に適した構造: 長期的なデジタル保存に最適

主な利用ケース

  • 国立図書館のデジタル化プロジェクト
  • 歴史文書の保存
  • 大規模新聞のデジタル化
  • 詳細なテキスト分析が必要な学術研究
  • 文化遺産分野における機関間データ交換

PDF/A:保存のパワーハウス

PDF/A とは?

PDF/A(Portable Document Format/Archival)は、OCR フォーマットだけでなく、電子文書の長期保存を目的とした ISO 標準化された PDF のサブセットです。OCR と組み合わせることで、検索可能かつ保存性の高い文書を作成できます。

技術構造

PDF/A は OCR テキストを「隠し」レイヤーとしてページ画像の下に埋め込み、元の視覚的外観を保持しつつ検索性を付加します。

  1. 画像レイヤー: スキャンされたページ画像(ビットマップ)
  2. テキストレイヤー: 画像に合わせて配置された不可視の検索可能テキスト
  3. メタデータ: 保存情報を含む標準化 XMP メタデータ

主な特徴と利点

  • 視覚的忠実性: 元文書の外観を正確に保持
  • 自己完結性: 必要なフォントやカラープロファイルをすべて埋め込み
  • ISO 標準化: 将来の可読性と一貫性が保証
  • 汎用アクセシビリティ: 任意の PDF ビューアで開くことが可能
  • 複数の適合レベル:
    • PDF/A-1(最も制限が厳しく、最も安定)
    • PDF/A-2(透過やレイヤーを許可)
    • PDF/A-3(ソースファイルの埋め込みを許可)

主な利用ケース

  • 法務・政府機関の文書アーカイブ
  • 企業の記録保持プログラム
  • 医療記録の保存
  • 視覚的真正性と検索性の両立が求められる文書ワークフロー
  • 文書管理における規制遵守

比較分析:HOCR vs ALTO vs PDF/A

構造比較

No.FeatureHOCRALTOPDF/A
1Base TechnologyHTML/CSSXMLPDF + 埋め込み要素
2Primary FocusWeb displayDetailed metadataVisual preservation
3Text/Image RelationshipSeparateSeparateCombined(画像下のテキスト)
4Styling ApproachCSS stylesheetsAttribute-basedPDF rendering
5Human ReadabilityExcellent(text editor)Good(XML editor)Poor(binary format)

メタデータ機能

HOCR: 基本的なレイアウト情報、限定的なセマンティックマークアップ
ALTO: 広範な書誌情報、タイポグラフィ、構造メタデータ
PDF/A: 標準化された保存メタデータ(XMP)、OCR 固有データは限定的

業界での採用状況

  • HOCR: オープンソースコミュニティ、小規模デジタル化プロジェクト
  • ALTO: 文化遺産機関、大規模デジタル化
  • PDF/A: 政府、法務、企業部門で世界的に採用

フォーマット間の変換

多くの OCR ソフトウェアとデジタル保存プラットフォームは、これらのフォーマット間の変換をサポートしています。
主な変換パス:

  • OCR エンジン → ALTO → HOCR(ウェブ表示用)
  • OCR エンジン → ALTO → PDF/A(保存用)
  • PDF/A → ALTO/HOCR(テキスト抽出ツールを介して)

変換ツール

  • OCR プロセッサー: Tesseract、Abbyy FineReader、Google Cloud Vision
  • 変換ツール: pdftotext、pdf2xml、各種 XML 変換ツール
  • デジタル保存プラットフォーム: Rosetta、Preservica、Archivematica

実装のベストプラクティス

  1. 最終目的から始める: デジタル化コンテンツの利用方法に合わせてフォーマットを選択
  2. ワークフロー全体を考慮: スキャンから配信、保存までのプロセスを俯瞰
  3. 相互運用性を検討: 誰がどのツールでデータにアクセスするかを把握
  4. 長期的視点で計画: デジタル保存はフォーマットの寿命を見据えて実施
  5. 選択理由を文書化: デジタル化チーム向けに明確なガイドラインを作成
  6. 実ユーザーでテスト: 選択したフォーマットが実際の利用者ニーズを満たすか検証

結論:目的に合わせたフォーマット選択

「最適な」OCR ファイルフォーマットは存在しません。用途に応じて最適なものを選ぶ必要があります。HOCR はウェブ環境に最適、ALTO は文化遺産の保存に最適、PDF/A は規制遵守や長期保存に最適です。各フォーマットの強みと制限を理解すれば、デジタル化プロジェクトを数年先まで支える賢い判断が可能になります。

FAQ

Q1: HOCR と ALTO フォーマットの主な違いは何ですか?
A: HOCR はウェブ表示に適した HTML ベースのフォーマットで、ALTO は詳細なメタデータ保存を重視する XML ベースのフォーマットです。

Q2: OCR 文書に PDF/A を選ぶべきタイミングは?
A: 法的コンプライアンスや長期保存が求められ、かつ文書の視覚的外観を正確に保持したい場合に PDF/A を選択します。

Q3: デジタルヒューマニティーズ研究に最適な OCR フォーマットは?
A: 詳細な XML 構造が高度なテキスト分析と複雑なレイアウト情報の保持を可能にするため、ALTO が一般的に最適です。

Q4: HOCR、ALTO、PDF/A の間で変換は可能ですか?
A: はい、ほとんどの OCR ソフトウェアとデジタル保存ツールはこれらのフォーマット間の変換をサポートしていますが、変換時に一部メタデータが失われることがあります。

Q5: PDF/A は通常の検索可能 PDF と同じですか?
A: いいえ、PDF/A は長期保存向けに設計された ISO 標準化されたサブセットで、通常の PDF よりも厳格な要件が課されています。

参考リンク