Последнее обновление: 05 Jan, 2026

Понимание форматов файлов OCR: HOCR vs ALTO vs PDF/A

Если вы когда‑нибудь сканировали документ и задавались вопросом, как компьютеры преобразуют изображения текста в поисковый и редактируемый контент, вы уже столкнулись с миром Optical Character Recognition (OCR). Но история не заканчивается простым извлечением текста из изображений. Настоящая магия происходит в том, как эта информация хранится и структурируется.

Когда вы оцифровываете исторические архивы, обрабатываете бизнес‑счета или конвертируете печатные книги в цифровые библиотеки, выбор правильного формата вывода OCR становится критически важным. Три формата доминируют в этой сфере: HOCR, ALTO и PDF/A. Каждый из них служит своей цели, и понимание их различий может сэкономить вам бесчисленное количество часов разочарования в дальнейшем.

Позвольте мне провести вас через всё, что нужно знать об этих форматах, от их технических основ до практических применений.

Что такое форматы файлов OCR?

Прежде чем погрузиться в конкретные форматы, давайте уточним, что именно делают форматы файлов OCR. Когда OCR‑программное обеспечение обрабатывает документ, оно не просто извлекает чистый текст — оно захватывает ценную структурную и позиционную информацию. Это включает:

  • Текстовое содержание: сами слова и символы
  • Информацию о макете: где находится текст на странице (абзацы, колонки, заголовки)
  • Данные форматирования: стили шрифтов, размеры, цвета
  • Оценки уверенности: насколько уверенно OCR‑движок распознал каждый символ
  • Структурную иерархию: главы, разделы, заголовки и сноски

Форматы файлов OCR упаковывают эти богатые метаданные вместе с извлечённым текстом, создавая цифровой двойник оригинального документа, сохраняющий его визуальную и структурную целостность.

HOCR: конкурент на основе HTML

Что такое HOCR?

HOCR (сокращение от HTML OCR) — открытый стандарт, который встраивает результаты OCR в HTML‑файлы. Разработан в рамках экосистемы движка Tesseract OCR и использует стандартную разметку HTML, расширенную пользовательскими классами и атрибутами для представления OCR‑данных.

Техническая структура

Типичный файл HOCR выглядит как привычный HTML, но с специализированными элементами:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
  <div class='ocr_carea' title='bbox 100 200 800 500'>
    <span class='ocr_line' title='bbox 110 210 790 240'>
      <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
      <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
    </span>
  </div>
</div>

Атрибуты title содержат координаты ограничивающих рамок (bbox), точно указывающие расположение каждого текстового элемента на странице.

Ключевые особенности и преимущества

  • Удобство для веба: Поскольку основан на HTML, файлы HOCR легко отображаются в браузерах
  • Разделение стилей: Использует CSS для презентации, отделяя контент от оформления
  • Доступность: Семантическая HTML‑структура поддерживает скрин‑ридеры и вспомогательные технологии
  • Гибкость: Можно комбинировать с другими веб‑технологиями (JavaScript, CSS‑фреймворки)
  • Открытый стандарт: Нет проприетарных ограничений или лицензий

Типичные сценарии использования

  • Цифровые библиотеки и архивы с веб‑ориентированными просмотрщиками документов
  • Проекты, требующие лёгкой интеграции с веб‑приложениями
  • Ситуации, где важна читаемость файла OCR человеком
  • Открытые проекты и совместные усилия по оцифровке

ALTO: выбор архивариусов

Что такое ALTO?

ALTO (Analyzed Layout and Text Object) — формат на основе XML, специально разработанный для представления макета и содержимого текстовых страниц. Разработан и поддерживается Библиотекой Конгресса США, ALTO стал стандартом в проектах оцифровки культурного наследия.

Техническая структура

ALTO использует структурированную схему XML с выделенными элементами для разных компонентов страницы:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
  <Layout>
    <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
      <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
        <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
          <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
            <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
            <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>
  </Layout>
</alto>

Ключевые особенности и преимущества

  • Богатые метаданные: Поддерживает детальную типографскую, макетную и лингвистическую информацию
  • Стандартизация: Широко приняты библиотеками, архивами и культурными учреждениями
  • Валидация: XML Schema Definition (XSD) позволяет строгую проверку
  • Расширяемость: Можно добавить собственные пространства имён для специализированных нужд
  • Дружелюбность к сохранению: Отлично подходит для долгосрочного цифрового архивирования

Типичные сценарии использования

  • Проекты оцифровки национальных библиотек
  • Сохранение исторических документов
  • Масштабная оцифровка газет
  • Научные исследования, требующие детального текстового анализа
  • Межинституциональный обмен данными в сфере культурного наследия

PDF/A: мощный инструмент сохранения

Что такое PDF/A?

PDF/A (Portable Document Format/Archival) — не столько формат OCR, сколько стандартизированная версия PDF, разработанная ISO специально для долгосрочного сохранения электронных документов. В сочетании с OCR он создаёт поисковые, сохраняемые документы.

Техническая структура

PDF/A встраивает OCR‑текст как «скрытый» слой под изображением страницы, сохраняя оригинальный визуальный вид и добавляя возможность поиска:

  1. Слой изображения: Сканированное изображение страницы (bitmap)
  2. Слой текста: Невидимый, поисковый OCR‑текст, выровненный с изображением
  3. Метаданные: Стандартизированные XMP‑метаданные для информации о сохранении

Ключевые особенности и преимущества

  • Визуальная точность: Сохраняет точный внешний вид оригинальных документов
  • Самодостаточность: Все необходимые ресурсы (шрифты, цветовые профили) встроены
  • Стандартизация ISO: Гарантирует будущую читаемость и согласованность
  • Универсальная доступность: Открывается любым PDF‑просмотрщиком
  • Разные уровни соответствия:
    • PDF/A‑1 (самый строгий, самый стабильный)
    • PDF/A‑2 (разрешает прозрачность и слои)
    • PDF/A‑3 (разрешает встраивание исходных файлов)

Типичные сценарии использования

  • Архивы юридических и государственных документов
  • Программы корпоративного удержания записей
  • Сохранение медицинских карт
  • Рабочие процессы, требующие как визуальной аутентичности, так и поисковой функции
  • Соответствие нормативным требованиям в управлении документами

Сравнительный анализ: HOCR vs ALTO vs PDF/A

Структурное сравнение

ФункцияHOCRALTOPDF/A
1Базовая технологияHTML/CSSXMLPDF + встроенные элементы
2Основная цельВеб‑отображениеПодробные метаданныеВизуальное сохранение
3Отношения текст/изображениеОтдельныеОтдельныеКомбинированные (текст под изображением)
4Подход к стилямCSS‑таблицы стилейАтрибутыРендеринг PDF
5Читаемость человекомОтлично (текстовый редактор)Хорошо (XML‑редактор)Плохо (бинарный формат)

Возможности метаданных

HOCR: базовая информация о макете, ограниченная семантическая разметка
ALTO: обширные библиографические, типографские и структурные метаданные
PDF/A: стандартизированные метаданные сохранения (XMP), ограниченные данные OCR‑специфики

Принятие в отрасли

  • HOCR: сообщество открытого кода, небольшие проекты оцифровки
  • ALTO: учреждения культурного наследия, крупномасштабные проекты оцифровки
  • PDF/A: правительственные, юридические, корпоративные сектора по всему миру

Конвертация между форматами

Большинство OCR‑программ и платформ цифрового сохранения поддерживают конвертацию между этими форматами:

Типичные пути конвертации

  • OCR‑движок → ALTO → HOCR (для веб‑отображения)
  • OCR‑движок → ALTO → PDF/A (для архивирования)
  • PDF/A → ALTO/HOCR (через инструменты извлечения текста)

Инструменты конвертации

  • OCR‑процессоры: Tesseract, Abbyy FineReader, Google Cloud Vision
  • Инструменты конвертации: pdftotext, pdf2xml, различные XML‑трансформеры
  • Платформы цифрового сохранения: Rosetta, Preservica, Archivematica

Лучшие практики внедрения

  1. Начните с конечных целей: Выбирайте формат в зависимости от того, как вы будете использовать оцифрованный контент
  2. Учтите весь рабочий процесс: От сканирования до доставки и сохранения
  3. Подумайте о совместимости: Кто будет получать доступ к данным и какими инструментами
  4. Планируйте на долгосрочную перспективу: Цифровое сохранение требует продуманного выбора формата
  5. Документируйте выбор: Создайте чёткие рекомендации для команды оцифровки
  6. Тестируйте с реальными пользователями: Убедитесь, что выбранный формат удовлетворяет их потребности

Заключение: подбор формата под задачу

Не существует единственного «лучшего» формата OCR‑файлов — существует лучший формат для ваших конкретных нужд. HOCR превосходно подходит для веб‑окружения, ALTO доминирует в сохранении культурного наследия, а PDF/A лидирует в нормативных и комплаенс‑контекстах. Понимание их сильных и слабых сторон помогает принимать обоснованные решения, которые будут служить вашим проектам оцифровки в течение многих лет.

FAQ

Q1: Какова главная разница между форматами HOCR и ALTO?
A: HOCR — это формат на основе HTML, идеальный для веб‑отображения, тогда как ALTO — более богатый XML‑формат, предпочтительный для библиотек и архивов благодаря детальному сохранению метаданных.

Q2: Когда следует выбирать PDF/A для OCR‑документов?
A: Выбирайте PDF/A, когда необходимо сохранить точный визуальный вид документов для юридического соответствия или долгосрочного архивирования, одновременно добавив поисковый текст.

Q3: Какой формат OCR лучше всего подходит для исследований в области цифровых гуманитарных наук?
A: Формат ALTO обычно лучше всего подходит для исследований, поскольку его детальная XML‑структура поддерживает продвинутый текстовый анализ и сохраняет сложную макетную информацию.

Q4: Можно ли конвертировать между форматами HOCR, ALTO и PDF/A?
A: Да, большинство OCR‑программ и инструментов цифрового сохранения поддерживают конвертацию между этими форматами, хотя часть метаданных может быть утеряна при переводе.

Q5: Является ли PDF/A тем же, что обычный поисковый PDF?
A: Нет, PDF/A — это специализированный подмножество PDF, стандартизированное ISO для долгосрочного сохранения, с более строгими требованиями, чем у обычных поисковых PDF.

Смотрите также