最近更新: 05 Jan, 2026

了解 OCR 文件格式:HOCR 与 ALTO 与 PDF/A 详解

如果你曾经扫描过文档并好奇计算机是如何将文本图像转换为可搜索、可编辑的内容,那么你已经接触到了 光学字符识别(OCR) 的世界。但故事并不止于从图像中提取文本,真正的魔力在于这些信息如何被存储和结构化。

当你对历史档案进行数字化、处理商务发票,或 将印刷书籍转换为数字图书馆 时,选择合适的 OCR 输出格式 变得至关重要。当前有三种主流格式主导这一领域:HOCR、ALTO 和 PDF/A。它们各自服务于不同的目的,了解它们的差异可以为你节省大量的时间和精力。

下面,我将带你全面了解这些格式,从技术基础到实际应用。

什么是 OCR 文件格式?

在深入具体格式之前,先明确 OCR 文件格式 的作用。当 OCR 软件处理文档时,它不仅提取纯文本,还捕获宝贵的结构和位置信息,包括:

  • 文本内容:实际的单词和字符
  • 布局信息:文本在页面上的位置(段落、列、标题)
  • 格式数据:字体样式、大小和颜色
  • 置信度分数:OCR 引擎对每个字符的确定程度
  • 结构层次:章节、节、标题和脚注

OCR 文件格式将这些丰富的元数据与提取的文本一起打包,生成原始文档的数字孪生,保持其视觉和结构完整性。

HOCR:基于 HTML 的竞争者

什么是 HOCR?

HOCR(HTML OCR 的缩写)是一种开放标准,将 OCR 结果嵌入 HTML 文件中。它是 Tesseract OCR 引擎生态系统的一部分,使用标准 HTML 标记并通过自定义类和属性来表示 OCR 数据。

技术结构

典型的 HOCR 文件看起来像普通的 HTML,只是带有专用元素:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
  <div class='ocr_carea' title='bbox 100 200 800 500'>
    <span class='ocr_line' title='bbox 110 210 790 240'>
      <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
      <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
    </span>
  </div>
</div>

title 属性包含边界框坐标(bbox),精确定位页面上每个文本元素。

关键特性与优势

  • 网页友好:基于 HTML,HOCR 文件可直接在浏览器中显示
  • 样式分离:使用 CSS 进行呈现,内容与样式分离
  • 可访问性:语义化 HTML 结构支持屏幕阅读器和辅助技术
  • 灵活性:可与 JavaScript、CSS 框架等其他网页技术结合
  • 开放标准:无专有限制或授权费用

常见使用场景

  • 具备网页文档查看器的数字图书馆和档案
  • 需要轻松集成到网页应用的项目
  • 人类可读的 OCR 数据文件尤为重要的情况
  • 开源项目和协作式数字化工作

ALTO:档案工作者的首选

什么是 ALTO?

ALTO(Analyzed Layout and Text Object)是一种基于 XML 的格式,专门用于表示文本页面的布局和内容。它由美国国会图书馆维护,已成为文化遗产数字化项目的标准。

技术结构

ALTO 使用结构化的 XML 架构,为不同页面组件提供专用元素:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
  <Layout>
    <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
      <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
        <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
          <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
            <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
            <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>
  </Layout>
</alto>

关键特性与优势

  • 丰富的元数据:支持详细的排版、布局和语言信息
  • 标准化:被图书馆、档案馆和文化机构广泛采用
  • 可验证性:XML Schema Definition(XSD)可进行严格校验
  • 可扩展性:可通过额外命名空间定制特定需求
  • 适合长期保存:非常适合长期数字档案

常见使用场景

  • 国家图书馆的数字化项目
  • 历史文献保存
  • 大规模报纸数字化
  • 需要详细文本分析的学术研究
  • 文化遗产领域的跨机构数据交换

PDF/A:保存的强力引擎

什么是 PDF/A?

PDF/A(Portable Document Format/Archival)并非专门的 OCR 格式,而是 ISO 标准化的 PDF 版本,专为电子文档的长期保存而设计。与 OCR 结合后,可生成可搜索且可保存的文档。

技术结构

PDF/A 将 OCR 文本作为“隐藏”层嵌入在页面图像之下,既保持原始视觉外观,又实现可搜索性:

  1. 图像层:扫描的页面图像(位图)
  2. 文本层:不可见、可搜索的 OCR 文本,与图像对齐
  3. 元数据:用于保存信息的标准化 XMP 元数据

关键特性与优势

  • 视觉保真度:完整保留原始文档的外观
  • 自包含:所有必要资源(字体、颜色配置文件)均嵌入文件中
  • ISO 标准化:保证未来可读性和一致性
  • 通用可访问性:任何 PDF 阅读器均可打开
  • 多种符合级别
    • PDF/A-1(最严格、最稳定)
    • PDF/A-2(支持透明度和图层)
    • PDF/A-3(允许嵌入源文件)

常见使用场景

  • 法律和政府文档档案
  • 企业记录保留计划
  • 医疗记录保存
  • 需要同时保证视觉真实性和可搜索性的文档工作流
  • 符合监管要求的文档管理

对比分析:HOCR vs ALTO vs PDF/A

结构对比

序号特性HOCRALTOPDF/A
1基础技术HTML/CSSXMLPDF + 嵌入元素
2主要关注点网页展示详细元数据视觉保存
3文本/图像关系分离分离合并(图像下的文本层)
4样式处理方式CSS 样式表基于属性PDF 渲染
5人类可读性极佳(文本编辑器)良好(XML 编辑器)较差(二进制格式)

元数据能力

HOCR:基本布局信息,语义标记有限
ALTO:丰富的书目、排版和结构元数据
PDF/A:标准化的保存元数据(XMP),OCR 相关数据有限

行业采纳情况

  • HOCR:开源社区,小型数字化项目
  • ALTO:文化遗产机构,大规模数字化
  • PDF/A:全球政府、法律、企业部门

格式之间的转换

大多数 OCR 软件和数字保存平台都支持这些格式之间的相互转换:

常见转换路径

  • OCR 引擎 → ALTO → HOCR(用于网页展示)
  • OCR 引擎 → ALTO → PDF/A(用于归档)
  • PDF/A → ALTO/HOCR(通过文本提取工具)

转换工具

  • OCR 处理器:Tesseract、Abbyy FineReader、Google Cloud Vision
  • 转换工具:pdftotext、pdf2xml、各种 XML 转换工具
  • 数字保存平台:Rosetta、Preservica、Archivematica

实施最佳实践

  1. 从最终目标出发:根据数字化内容的使用方式选择格式
  2. 考虑完整工作流:从扫描到交付再到保存的每一步
  3. 关注互操作性:谁需要访问数据,使用何种工具
  4. 规划长期保存:数字保存需要对格式寿命进行前瞻性思考
  5. 记录决策过程:为数字化团队制定明确指南
  6. 进行用户测试:确保所选格式满足真实用户需求

结论:格式匹配用途

没有所谓“最佳” OCR 文件格式,只有最适合特定需求的格式。HOCR 在网页环境中表现出色,ALTO 在文化遗产保存方面占据主导,PDF/A 在合规和监管场景中领先。了解它们的优势与局限,能帮助你做出明智决策,使数字化项目在未来多年保持高效可靠。

常见问答

问 1:HOCR 与 ALTO 格式的主要区别是什么?
答:HOCR 是基于 HTML 的格式,适合网页展示;而 ALTO 是更丰富的 XML 格式,受到图书馆和档案馆青睐,用于详细的元数据保存。

问 2:何时应为 OCR 文档选择 PDF/A?
答:当你需要在法律合规或长期归档的同时保留文档的精确视觉外观,并添加可搜索文本时,选择 PDF/A。

问 3:哪种 OCR 格式最适合数字人文研究?
答:ALTO 通常是最佳选择,因为其详细的 XML 结构支持高级文本分析,并能保留复杂的布局信息。

问 4:HOCR、ALTO 与 PDF/A 之间可以相互转换吗?
答:可以,大多数 OCR 软件和数字保存工具都支持这些格式之间的转换,但在转换过程中可能会丢失部分元数据。

问 5:PDF/A 与普通可搜索 PDF 相同吗?
答:不相同。PDF/A 是一种专门的 ISO 标准子集,旨在长期保存,具有比普通 PDF 更严格的要求。

参见