Poslední aktualizace: 05 Jan, 2026

Pokud jste někdy skenovali dokument a přemýšleli, jak počítače převádějí obrázky textu na prohledávatelný, editovatelný obsah, setkali jste se se světem Optické rozpoznávání znaků (OCR). Příběh však nekončí pouhým extrahováním textu z obrázků. Skutečná magie nastává v tom, jak jsou tyto informace uloženy a strukturovány.
Když digitalizujete historické archivy, zpracováváte firemní faktury nebo převádíte tištěné knihy do digitálních knihoven, výběr správného formátu výstupu OCR se stává kritickým. Tři formáty dominují tomuto prostoru: HOCR, ALTO a PDF/A. Každý slouží odlišnému účelu a pochopení jejich rozdílů vám může ušetřit nespočet hodin frustrace.
Nechte mě vás provést vším, co potřebujete vědět o těchto formátech, od jejich technických základů po praktické aplikace.
Co jsou formáty souborů OCR?
Než se ponoříme do konkrétních formátů, stanovme, co formáty souborů OCR ve skutečnosti dělají. Když OCR software zpracuje dokument, neextrahuje jen prostý text – zachytí cenné strukturované a poziční informace. To zahrnuje:
- Textový obsah: Skutečná slova a znaky
- Informace o rozložení: Kde se text na stránce nachází (odstavce, sloupce, záhlaví)
- Formátovací data: Styly písma, velikosti a barvy
- Skóre důvěryhodnosti: Jak si OCR engine je jistý každým znakem
- Strukturální hierarchie: Kapitoly, sekce, nadpisy a poznámky pod čarou
Formáty souborů OCR balí tato bohatá metadata spolu s extrahovaným textem a vytvářejí digitální dvojče originálního dokumentu, které zachovává jeho vizuální i strukturovanou integritu.
HOCR: HTML‑založený kandidát
Co je HOCR?
HOCR (zkratka pro HTML OCR) je otevřený standard, který vkládá výsledky OCR do HTML souborů. Vyvinutý jako součást ekosystému OCR enginu Tesseract, používá standardní HTML značkování rozšířené o vlastní třídy a atributy pro reprezentaci OCR dat.
Technická struktura
<div class='ocr_page' title='bbox 0 0 1700 2200'>
<div class='ocr_carea' title='bbox 100 200 800 500'>
<span class='ocr_line' title='bbox 110 210 790 240'>
<span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
<span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
</span>
</div>
</div>
Atributy title obsahují souřadnice ohraničujících rámečků (bbox), které přesně určují polohu každého textového prvku na stránce.
Klíčové vlastnosti a výhody
- Web‑přátelské: Protože jsou postaveny na HTML, soubory HOCR lze snadno zobrazit ve webových prohlížečích
- Oddělení stylu: Používá CSS pro prezentaci, udržuje obsah a styl oddělené
- Přístupnost: Sémantická struktura HTML podporuje čtečky obrazovky a asistenční technologie
- Flexibilita: Lze kombinovat s dalšími webovými technologiemi (JavaScript, CSS frameworky)
- Otevřený standard: Žádná proprietární omezení ani licenční poplatky
Běžné případy použití
- Digitální knihovny a archivy s webovými prohlížeči dokumentů
- Projekty vyžadující snadnou integraci s webovými aplikacemi
- Situace, kde je důležitá čitelnost OCR datového souboru pro člověka
- Open‑source projekty a kolaborativní digitalizační úsilí
ALTO: Volba archiváře
Co je ALTO?
ALTO (Analyzed Layout and Text Object) je XML‑založený formát speciálně navržený pro reprezentaci rozložení a obsahu textových stránek. Vyvíjený a udržovaný Kongresovou knihovnou, ALTO se stal standardem v projektech digitalizace kulturního dědictví.
Technická struktura
<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
<Layout>
<Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
<PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
<TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
<TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
<String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
<String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
Klíčové vlastnosti a výhody
- Bohaté metadata: Podporuje podrobné typografické, rozložení a jazykové informace
- Standardizace: Široce přijaté knihovnami, archivy a kulturními institucemi
- Validace: XML Schema Definition (XSD) umožňuje přísnou validaci
- Rozšiřitelnost: Lze přizpůsobit pomocí dalších jmenných prostorů pro specifické potřeby
- Přátelské k archivaci: Vynikající pro dlouhodobé digitální archivování
Běžné případy použití
- Projekty digitalizace národních knihoven
- Zachování historických dokumentů
- Digitalizace novin ve velkém měřítku
- Akademické výzkumné projekty vyžadující podrobnou textovou analýzu
- Mezinstitucionální výměna dat v sektoru kulturního dědictví
PDF/A: Silná stránka archivace
Co je PDF/A?
PDF/A (Portable Document Format/Archival) není výhradně OCR formát, ale spíše ISO‑standardizovaná verze PDF speciálně navržená pro dlouhodobou archivaci elektronických dokumentů. V kombinaci s OCR vytváří prohledávatelné, archivovatelné dokumenty.
Technická struktura
- Vrstva obrazu: Naskenovaný obrázek stránky (bitmapa)
- Vrstva textu: Neviditelný, prohledávatelný OCR text zarovnaný s obrázkem
- Metadata: Standardizovaná XMP metadata pro informace o archivaci
Klíčové vlastnosti a výhody
- Vizuální věrnost: Zachovává přesný vizuální vzhled originálních dokumentů
- Samostatnost: Všechny potřebné zdroje (písma, barevné profily) jsou vloženy
- ISO standardizace: Zaručuje budoucí čitelnost a konzistenci
- Univerzální přístupnost: Lze otevřít libovolným PDF prohlížečem
- Více úrovní shody:
- PDF/A-1 (nejpřísnější, nejstabilnější)
- PDF/A-2 (umožňuje průhlednost a vrstvy)
- PDF/A-3 (umožňuje vkládání zdrojových souborů)
Běžné případy použití
- Právní a vládní archivace dokumentů
- Programy uchovávání záznamů ve firmách
- Archivace lékařských záznamů
- Pracovní postupy dokumentů vyžadující jak vizuální autenticitu, tak prohledatelnost
- Soulad s regulacemi v řízení dokumentů
Srovnávací analýza: HOCR vs ALTO vs PDF/A
Strukturní srovnání
| Č. | Vlastnost | HOCR | ALTO | PDF/A |
|---|---|---|---|---|
| 1 | Základní technologie | HTML/CSS | XML | PDF + embedded elements |
| 2 | Primární zaměření | Web display | Detailed metadata | Visual preservation |
| 3 | Vztah text/obrázek | Separate | Separate | Combined (text under image) |
| 4 | Přístup ke stylování | CSS stylesheets | Attribute-based | PDF rendering |
| 5 | Čitelnost pro člověka | Excellent (text editor) | Good (XML editor) | Poor (binary format) |
Schopnosti metadat
HOCR: Základní informace o rozložení, omezené sémantické značkování
ALTO: Rozsáhlá bibliografická, typografická a strukturální metadata
PDF/A: Standardizovaná archivní metadata (XMP), omezená OCR‑specifická data
Přijetí v průmyslu
- HOCR: Komunita open‑source, menší digitalizační projekty
- ALTO: Instituce kulturního dědictví, digitalizace ve velkém měřítku
- PDF/A: Vládní, právní, korporátní sektory celosvětově
Konverze mezi formáty
Většina OCR softwaru a digitálních archivních platforem podporuje konverzi mezi těmito formáty:
Běžné konverzní cesty:
- OCR Engine → ALTO → HOCR (pro webové zobrazení)
- OCR Engine → ALTO → PDF/A (pro archivaci)
- PDF/A → ALTO/HOCR (prostřednictvím nástrojů pro extrakci textu)
Nástroje pro konverzi:
- OCR procesory: Tesseract, Abbyy FineReader, Google Cloud Vision
- Nástroje pro konverzi: pdftotext, pdf2xml, různé nástroje pro transformaci XML
- Platformy digitální archivace: Rosetta, Preservica, Archivematica
Nejlepší postupy pro implementaci
- Začněte s koncovými cíli: Vyberte formát na základě toho, jak budete digitalizovaný obsah používat
- Zvažte celý pracovní postup: Od skenování přes doručení až po archivaci
- Přemýšlejte o interoperabilitě: Kdo potřebuje přístup k vašim datům a jakými nástroji?
- Plánujte dlouhodobě: Digitální archivace vyžaduje předvídavost ohledně trvanlivosti formátu
- Dokumentujte své volby: Vytvořte jasné pokyny pro váš digitalizační tým
- Testujte s reálnými uživateli: Zajistěte, že vybraný formát splňuje skutečné potřeby uživatelů
Závěr: Výběr formátu podle účelu
Neexistuje jediný „nejlepší“ formát souboru OCR – existuje jen nejlepší formát pro vaše konkrétní potřeby. HOCR vyniká v webových prostředích, ALTO dominuje v archivaci kulturního dědictví a PDF/A vede v regulovaných a souladových kontextech. Porozumění jejich silným a slabým stránkám vám pomůže učinit informovaná rozhodnutí, která vašim digitalizačním projektům poslouží po mnoho let.
Často kladené otázky
Q1: Jaký je hlavní rozdíl mezi formáty HOCR a ALTO?
A: HOCR je formát založený na HTML, ideální pro webové zobrazení, zatímco ALTO je bohatší formát založený na XML, preferovaný knihovnami a archivy pro podrobnou archivaci metadat.
Q2: Kdy bych měl zvolit PDF/A pro své OCR dokumenty?
A: Zvolte PDF/A, když potřebujete zachovat přesný vizuální vzhled dokumentů pro právní soulad nebo dlouhodobé archivování a zároveň přidat prohledávatelný text.
Q3: Který formát OCR je nejlepší pro výzkum v digitálních humanitních vědách?
A: Formát ALTO je obvykle nejlepší pro výzkum, protože jeho podrobná XML struktura podporuje pokročilou textovou analýzu a zachovává komplexní informace o rozložení.
Q4: Mohu konvertovat mezi formáty HOCR, ALTO a PDF/A?
A: Ano, většina OCR softwaru a nástrojů pro digitální archivaci podporuje konverzi mezi těmito formáty, i když některá metadata mohou být při převodu ztracena.
Q5: Je PDF/A stejný jako běžný prohledávatelný PDF?
A: Ne, PDF/A je specializovaná, ISO‑standardizovaná podmnožina PDF, která je navržena speciálně pro dlouhodobou archivaci a má přísnější požadavky než běžné PDF.