Последнее обновление: 05 Jan, 2026

Если вы когда‑нибудь сканировали документ и задавались вопросом, как компьютеры преобразуют изображения текста в поисковый и редактируемый контент, вы уже столкнулись с миром Optical Character Recognition (OCR). Но история не заканчивается простым извлечением текста из изображений. Настоящая магия происходит в том, как эта информация хранится и структурируется.
Когда вы оцифровываете исторические архивы, обрабатываете бизнес‑счета или конвертируете печатные книги в цифровые библиотеки, выбор правильного формата вывода OCR становится критически важным. Три формата доминируют в этой сфере: HOCR, ALTO и PDF/A. Каждый из них служит своей цели, и понимание их различий может сэкономить вам бесчисленное количество часов разочарования в дальнейшем.
Позвольте мне провести вас через всё, что нужно знать об этих форматах, от их технических основ до практических применений.
Что такое форматы файлов OCR?
Прежде чем погрузиться в конкретные форматы, давайте уточним, что именно делают форматы файлов OCR. Когда OCR‑программное обеспечение обрабатывает документ, оно не просто извлекает чистый текст — оно захватывает ценную структурную и позиционную информацию. Это включает:
- Текстовое содержание: сами слова и символы
- Информацию о макете: где находится текст на странице (абзацы, колонки, заголовки)
- Данные форматирования: стили шрифтов, размеры, цвета
- Оценки уверенности: насколько уверенно OCR‑движок распознал каждый символ
- Структурную иерархию: главы, разделы, заголовки и сноски
Форматы файлов OCR упаковывают эти богатые метаданные вместе с извлечённым текстом, создавая цифровой двойник оригинального документа, сохраняющий его визуальную и структурную целостность.
HOCR: конкурент на основе HTML
Что такое HOCR?
HOCR (сокращение от HTML OCR) — открытый стандарт, который встраивает результаты OCR в HTML‑файлы. Разработан в рамках экосистемы движка Tesseract OCR и использует стандартную разметку HTML, расширенную пользовательскими классами и атрибутами для представления OCR‑данных.
Техническая структура
Типичный файл HOCR выглядит как привычный HTML, но с специализированными элементами:
<div class='ocr_page' title='bbox 0 0 1700 2200'>
<div class='ocr_carea' title='bbox 100 200 800 500'>
<span class='ocr_line' title='bbox 110 210 790 240'>
<span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
<span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
</span>
</div>
</div>
Атрибуты title содержат координаты ограничивающих рамок (bbox), точно указывающие расположение каждого текстового элемента на странице.
Ключевые особенности и преимущества
- Удобство для веба: Поскольку основан на HTML, файлы HOCR легко отображаются в браузерах
- Разделение стилей: Использует CSS для презентации, отделяя контент от оформления
- Доступность: Семантическая HTML‑структура поддерживает скрин‑ридеры и вспомогательные технологии
- Гибкость: Можно комбинировать с другими веб‑технологиями (JavaScript, CSS‑фреймворки)
- Открытый стандарт: Нет проприетарных ограничений или лицензий
Типичные сценарии использования
- Цифровые библиотеки и архивы с веб‑ориентированными просмотрщиками документов
- Проекты, требующие лёгкой интеграции с веб‑приложениями
- Ситуации, где важна читаемость файла OCR человеком
- Открытые проекты и совместные усилия по оцифровке
ALTO: выбор архивариусов
Что такое ALTO?
ALTO (Analyzed Layout and Text Object) — формат на основе XML, специально разработанный для представления макета и содержимого текстовых страниц. Разработан и поддерживается Библиотекой Конгресса США, ALTO стал стандартом в проектах оцифровки культурного наследия.
Техническая структура
ALTO использует структурированную схему XML с выделенными элементами для разных компонентов страницы:
<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
<Layout>
<Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
<PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
<TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
<TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
<String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
<String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
Ключевые особенности и преимущества
- Богатые метаданные: Поддерживает детальную типографскую, макетную и лингвистическую информацию
- Стандартизация: Широко приняты библиотеками, архивами и культурными учреждениями
- Валидация: XML Schema Definition (XSD) позволяет строгую проверку
- Расширяемость: Можно добавить собственные пространства имён для специализированных нужд
- Дружелюбность к сохранению: Отлично подходит для долгосрочного цифрового архивирования
Типичные сценарии использования
- Проекты оцифровки национальных библиотек
- Сохранение исторических документов
- Масштабная оцифровка газет
- Научные исследования, требующие детального текстового анализа
- Межинституциональный обмен данными в сфере культурного наследия
PDF/A: мощный инструмент сохранения
Что такое PDF/A?
PDF/A (Portable Document Format/Archival) — не столько формат OCR, сколько стандартизированная версия PDF, разработанная ISO специально для долгосрочного сохранения электронных документов. В сочетании с OCR он создаёт поисковые, сохраняемые документы.
Техническая структура
PDF/A встраивает OCR‑текст как «скрытый» слой под изображением страницы, сохраняя оригинальный визуальный вид и добавляя возможность поиска:
- Слой изображения: Сканированное изображение страницы (bitmap)
- Слой текста: Невидимый, поисковый OCR‑текст, выровненный с изображением
- Метаданные: Стандартизированные XMP‑метаданные для информации о сохранении
Ключевые особенности и преимущества
- Визуальная точность: Сохраняет точный внешний вид оригинальных документов
- Самодостаточность: Все необходимые ресурсы (шрифты, цветовые профили) встроены
- Стандартизация ISO: Гарантирует будущую читаемость и согласованность
- Универсальная доступность: Открывается любым PDF‑просмотрщиком
- Разные уровни соответствия:
- PDF/A‑1 (самый строгий, самый стабильный)
- PDF/A‑2 (разрешает прозрачность и слои)
- PDF/A‑3 (разрешает встраивание исходных файлов)
Типичные сценарии использования
- Архивы юридических и государственных документов
- Программы корпоративного удержания записей
- Сохранение медицинских карт
- Рабочие процессы, требующие как визуальной аутентичности, так и поисковой функции
- Соответствие нормативным требованиям в управлении документами
Сравнительный анализ: HOCR vs ALTO vs PDF/A
Структурное сравнение
| № | Функция | HOCR | ALTO | PDF/A |
|---|---|---|---|---|
| 1 | Базовая технология | HTML/CSS | XML | PDF + встроенные элементы |
| 2 | Основная цель | Веб‑отображение | Подробные метаданные | Визуальное сохранение |
| 3 | Отношения текст/изображение | Отдельные | Отдельные | Комбинированные (текст под изображением) |
| 4 | Подход к стилям | CSS‑таблицы стилей | Атрибуты | Рендеринг PDF |
| 5 | Читаемость человеком | Отлично (текстовый редактор) | Хорошо (XML‑редактор) | Плохо (бинарный формат) |
Возможности метаданных
HOCR: базовая информация о макете, ограниченная семантическая разметка
ALTO: обширные библиографические, типографские и структурные метаданные
PDF/A: стандартизированные метаданные сохранения (XMP), ограниченные данные OCR‑специфики
Принятие в отрасли
- HOCR: сообщество открытого кода, небольшие проекты оцифровки
- ALTO: учреждения культурного наследия, крупномасштабные проекты оцифровки
- PDF/A: правительственные, юридические, корпоративные сектора по всему миру
Конвертация между форматами
Большинство OCR‑программ и платформ цифрового сохранения поддерживают конвертацию между этими форматами:
Типичные пути конвертации
- OCR‑движок → ALTO → HOCR (для веб‑отображения)
- OCR‑движок → ALTO → PDF/A (для архивирования)
- PDF/A → ALTO/HOCR (через инструменты извлечения текста)
Инструменты конвертации
- OCR‑процессоры: Tesseract, Abbyy FineReader, Google Cloud Vision
- Инструменты конвертации: pdftotext, pdf2xml, различные XML‑трансформеры
- Платформы цифрового сохранения: Rosetta, Preservica, Archivematica
Лучшие практики внедрения
- Начните с конечных целей: Выбирайте формат в зависимости от того, как вы будете использовать оцифрованный контент
- Учтите весь рабочий процесс: От сканирования до доставки и сохранения
- Подумайте о совместимости: Кто будет получать доступ к данным и какими инструментами
- Планируйте на долгосрочную перспективу: Цифровое сохранение требует продуманного выбора формата
- Документируйте выбор: Создайте чёткие рекомендации для команды оцифровки
- Тестируйте с реальными пользователями: Убедитесь, что выбранный формат удовлетворяет их потребности
Заключение: подбор формата под задачу
Не существует единственного «лучшего» формата OCR‑файлов — существует лучший формат для ваших конкретных нужд. HOCR превосходно подходит для веб‑окружения, ALTO доминирует в сохранении культурного наследия, а PDF/A лидирует в нормативных и комплаенс‑контекстах. Понимание их сильных и слабых сторон помогает принимать обоснованные решения, которые будут служить вашим проектам оцифровки в течение многих лет.
FAQ
Q1: Какова главная разница между форматами HOCR и ALTO?
A: HOCR — это формат на основе HTML, идеальный для веб‑отображения, тогда как ALTO — более богатый XML‑формат, предпочтительный для библиотек и архивов благодаря детальному сохранению метаданных.
Q2: Когда следует выбирать PDF/A для OCR‑документов?
A: Выбирайте PDF/A, когда необходимо сохранить точный визуальный вид документов для юридического соответствия или долгосрочного архивирования, одновременно добавив поисковый текст.
Q3: Какой формат OCR лучше всего подходит для исследований в области цифровых гуманитарных наук?
A: Формат ALTO обычно лучше всего подходит для исследований, поскольку его детальная XML‑структура поддерживает продвинутый текстовый анализ и сохраняет сложную макетную информацию.
Q4: Можно ли конвертировать между форматами HOCR, ALTO и PDF/A?
A: Да, большинство OCR‑программ и инструментов цифрового сохранения поддерживают конвертацию между этими форматами, хотя часть метаданных может быть утеряна при переводе.
Q5: Является ли PDF/A тем же, что обычный поисковый PDF?
A: Нет, PDF/A — это специализированный подмножество PDF, стандартизированное ISO для долгосрочного сохранения, с более строгими требованиями, чем у обычных поисковых PDF.