HOCR vs ALTO vs PDF/A: Oikean OCR-muodon valinta projektiisi

Viimeksi päivitetty: 05 Jan, 2026

OCR-tiedostomuotojen ymmärtäminen: HOCR vs ALTO vs PDF/A selitettynä

Jos olet koskaan skannannut asiakirjan ja miettinyt, miten tietokoneet muuntavat tekstikuvat haettavaksi ja muokattavaksi sisällöksi, olet törmännyt Optisen merkkien tunnistuksen (OCR) maailmaan. Mutta tarina ei pääty pelkkään tekstin poimintaan kuvista. Todellinen taika tapahtuu siinä, miten tieto tallennetaan ja jäsennetään.

Kun digitalisoit historiallisia arkistoja, käsittelet yrityslaskuja tai muunnat painettuja kirjoja digitaalisiksi kirjastoiksi, oikean OCR‑tulostemuodon valinta on kriittinen. Kolme formaattia hallitsevat tätä kenttää: HOCR, ALTO ja PDF/A. Jokainen palvelee eri tarkoituksia, ja niiden erojen ymmärtäminen voi säästää sinulta lukemattomia tunteja turhautumista.

Käydään läpi kaikki, mitä sinun tarvitsee tietää näistä formaateista, teknisistä perusteista käytännön sovelluksiin.

Mitä OCR-tiedostomuodot ovat?

Ennen kuin sukellamme yksittäisiin formaatteihin, määritellään, mitä OCR-tiedostomuodot oikeastaan tekevät. Kun OCR‑ohjelmisto käsittelee asiakirjan, se ei vain poimi pelkkää tekstiä – se tallentaa arvokasta rakenteellista ja sijaintitietoa. Tämä sisältää:

Tekstisisältö: Varsinaiset sanat ja merkit
Asettelu‑tiedot: Missä teksti sijaitsee sivulla (kappaleet, sarakkeet, otsikot)
Muotoilutiedot: Fonttityylit, koot ja värit
Luottamuspisteet: Kuinka varma OCR‑moottori on jokaisesta merkistä
Rakenne‑hierarkia: Luvut, osat, otsikot ja alaviitteet

OCR‑tiedostomuodot pakkaavat tämän rikkaan metatiedon poimitun tekstin kanssa, luoden digitaalisen kaksosen alkuperäisestä asiakirjasta, joka säilyttää sen visuaalisen ja rakenteellisen eheyden.

HOCR: HTML-pohjainen ehdokas

Mikä on HOCR?

HOCR (lyhenne sanoista HTML OCR) on avoin standardi, joka upottaa OCR‑tulokset HTML‑tiedostoihin. Se on kehitetty osana Tesseract‑OCR‑moottorin ekosysteemiä, ja se käyttää tavallista HTML‑merkintää, jota on laajennettu omilla luokilla ja attribuuteilla OCR‑datan esittämiseksi.

Tekniset rakenne

Tyypillinen HOCR‑tiedosto näyttää tutulta HTML:ltä, mutta siinä on erikoiselementtejä:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
  <div class='ocr_carea' title='bbox 100 200 800 500'>
    <span class='ocr_line' title='bbox 110 210 790 240'>
      <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
      <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
    </span>
  </div>
</div>

title‑attribuutit sisältävät raja‑laatikko‑koordinaatit (bbox), jotka paikantavat tarkasti jokaisen tekstielementin sivulla.

Keskeiset ominaisuudet ja edut

Verkkoystävällinen: Koska se perustuu HTML:ään, HOCR‑tiedostoja voidaan helposti näyttää selaimissa
Tyylien erottelu: Käyttää CSS‑tyylejä esitykseen, pitäen sisällön ja muotoilun erillään
Saavutettavuus: Semanttinen HTML‑rakenne tukee ruudunlukijoita ja muita avustavia teknologioita
Joustavuus: Voidaan yhdistää muihin web‑teknologioihin (JavaScript, CSS‑kehyksiä)
Avoin standardi: Ei omistusoikeuksia tai lisenssimaksuja

Yleiset käyttötapaukset

Digitaaliset kirjastot ja arkistot, joissa on web‑pohjaiset asiakirjakatselimet
Projektit, jotka vaativat helppoa integrointia web‑sovelluksiin
Tilanteet, joissa OCR‑datatiedoston luettavuus ihmisille on tärkeää
Avoimen lähdekoodin projektit ja yhteistyöhön perustuvat digitalisointihankkeet

ALTO: Arkistonvalinta

Mikä on ALTO?

ALTO (Analyzed Layout and Text Object) on XML‑pohjainen formaatti, joka on erityisesti suunniteltu tekstisivujen asettelun ja sisällön esittämiseen. Sen on kehittänyt ja ylläpitää Library of Congress, ja siitä on tullut standardi kulttuuriperinnön digitalisointiprojekteissa.

Tekniset rakenne

ALTO käyttää jäsenneltyä XML‑skeemaa, jossa on omat elementtinsä eri sivukomponenteille:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
  <Layout>
    <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
      <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
        <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
          <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
            <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
            <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>
  </Layout>
</alto>

Keskeiset ominaisuudet ja edut

Rikas metatieto: Tukee yksityiskohtaista typografista, asettelullista ja kielellistä tietoa
Standardointi: Laajasti käytössä kirjastoissa, arkistoissa ja kulttuurilaitoksissa
Validointi: XML‑skeeman (XSD) avulla voidaan tehdä tiukkaa validointia
Laajennettavuus: Voidaan räätälöidä lisänimiavaruuksilla erityistarpeisiin
Säilytysystävällinen: Erinomainen pitkäaikaiseen digitaaliseen arkistointiin

Yleiset käyttötapaukset

Kansallisten kirjastojen digitalisointiprojektit
Historiallisten asiakirjojen säilytys
Laajamittainen sanomalehtien digitalisointi
Akateemiset tutkimusprojektit, jotka vaativat tarkkaa tekstianalyysiä
Laitosten välinen datan vaihto kulttuuriperinnön alalla

PDF/A: Säilytyksen voimala

Mikä on PDF/A?

PDF/A (Portable Document Format/Archival) ei ole pelkästään OCR‑formaatti, vaan ISO‑standardisoitu PDF‑versio, joka on suunniteltu erityisesti sähköisten asiakirjojen pitkäaikaiseen säilytykseen. Kun siihen yhdistetään OCR, syntyy haettavia ja säilytettäviä asiakirjoja.

Tekniset rakenne

PDF/A upottaa OCR‑tekstin “piilotettuun” kerrokseen sivukuvan alle, säilyttäen alkuperäisen visuaalisen ulkoasun ja lisäten haettavuutta:

Kuvakerros: Skannattu sivukuva (bittikartta)
Tekstikerros: Näkymättömänä, haettavissa oleva OCR‑teksti, joka on kohdistettu kuvaan
Metatiedot: Standardoidut XMP‑metatiedot säilytystietoa varten

Keskeiset ominaisuudet ja edut

Visuaalinen tarkkuus: Säilyttää tarkasti alkuperäisen asiakirjan ulkoasun
Itse‑sisältöinen: Kaikki tarvittavat resurssit (fontit, väriprofiilit) upotetaan tiedostoon
ISO‑standardointi: Takaa tulevan luettavuuden ja yhdenmukaisuuden
Yleinen saavutettavuus: Avaa mikä tahansa PDF‑lukija
Useita yhteensopivuustasoja:
- PDF/A‑1 (tiukin, vakaa)
- PDF/A‑2 (sallii läpinäkyvyyden ja kerrokset)
- PDF/A‑3 (sallii lähdetiedostojen upottamisen)

Yleiset käyttötapaukset

Lakien ja hallituksen asiakirjojen arkistot
Yritysten tallennusohjelmat
Lääketieteellisten tietojen säilytys
Työnkulut, jotka vaativat sekä visuaalista aitoutta että haettavuutta
Sääntelyn noudattaminen asiakirjahallinnassa

Vertailu: HOCR vs ALTO vs PDF/A

Rakennevertailu

Nro	Ominaisuus	HOCR	ALTO	PDF/A
1	Perusteknologia	HTML/CSS	XML	PDF + upotetut elementit
2	Pääasiallinen fokus	Web‑näyttö	Yksityiskohtainen metatieto	Visuaalinen säilytys
3	Teksti/Kuva‑suhde	Erillinen	Erillinen	Yhdistetty (teksti kuvan alla)
4	Tyylien lähestymistapa	CSS‑tyylitiedostot	Attribuuttipohjainen	PDF‑renderöinti
5	Ihmisen luettavuus	Erinomainen (tekstieditori)	Hyvä (XML‑editori)	Huono (binääritiedosto)

Metatietokyvyt

HOCR: Perusasettelutiedot, rajoitettu semanttinen merkintä
ALTO: Laajat bibliografiset, typografiset ja rakenteelliset metatiedot
PDF/A: Standardoidut säilytys‑metatiedot (XMP), rajoitetut OCR‑spesifiset tiedot

Alan käyttöönotto

HOCR: Avoimen lähdekoodin yhteisö, pienemmät digitalisointiprojektit
ALTO: Kulttuuriperinnön laitokset, laajamittaiset digitalisoinnit
PDF/A: Hallituksen, oikeudelliset ja yrityssektorit maailmanlaajuisesti

Muunnos formaattien välillä

Useimmat OCR‑ohjelmistot ja digitaaliset säilytysalustat tukevat muunnosta näiden formaattien välillä:
Yleisiä muunnospolkuja:

OCR‑moottori → ALTO → HOCR (web‑näyttöön)
OCR‑moottori → ALTO → PDF/A (arkistointiin)
PDF/A → ALTO/HOCR (tekstin poimintatyökalujen avulla)

Työkalut muuntamiseen:

OCR‑prosessorit: Tesseract, Abbyy FineReader, Google Cloud Vision
Muunnostyökalut: pdftotext, pdf2xml, erilaiset XML‑muunnostyökalut
Digitaaliset säilytysalustat: Rosetta, Preservica, Archivematica

Parhaat käytännöt toteutukseen

Aloita lopputavoitteista: Valitse formaatti sen perusteella, miten aiot käyttää digitalisoitua sisältöä
Harkitse koko työnkulkua: Skannauksesta toimitukseen ja säilytykseen
Mieti yhteentoimivuutta: Kuka tarvitsee dataa ja millä työkaluilla?
Suunnittele pitkän aikavälin säilytys: Digitaalinen säilytys vaatii pohdintaa formaatin kestävyydestä
Dokumentoi valintasi: Luo selkeät ohjeet digitalisointitiimillesi
Testaa oikeilla käyttäjillä: Varmista, että valitsemasi formaatti täyttää todelliset käyttäjätarpeet

Yhteenveto: Oikean formaatin valinta tarkoitukseen

Ei ole yhtä “parasta” OCR‑tiedostomuotoa – on vain paras formaatti juuri sinun tarpeisiisi. HOCR loistaa web‑ympäristöissä, ALTO hallitsee kulttuuriperinnön säilytystä, ja PDF/A on ykkönen sääntelyn ja vaatimusten noudattamisessa. Näiden vahvuuksien ja rajoitusten ymmärtäminen auttaa tekemään päätöksiä, jotka palvelevat digitalisointiprojektejasi vuosien ajan.

Usein kysytyt kysymykset

K1: Mikä on tärkein ero HOCR- ja ALTO-formaattien välillä?
V: HOCR on HTML‑pohjainen formaatti, joka on ihanteellinen web‑näyttöön, kun taas ALTO on rikkaampi XML‑formaatti, jota kirjastot ja arkistot suosivat yksityiskohtaisen metatiedon säilyttämiseksi.

K2: Milloin minun pitäisi valita PDF/A OCR‑asiakirjoilleni?
V: Valitse PDF/A, kun sinun täytyy säilyttää asiakirjojen tarkka visuaalinen ulkoasu juridisten vaatimusten tai pitkäaikaisen arkistoinnin vuoksi, samalla lisäten haettavan tekstin.

K3: Mikä OCR‑formaatti on paras digitaalisen humanistisen tutkimuksen kannalta?
V: ALTO‑formaatti on tyypillisesti paras tutkimukseen, koska sen yksityiskohtainen XML‑rakenne tukee edistynyttä tekstianalyysiä ja säilyttää monimutkaiset asettelutiedot.

K4: Voinko muuntaa HOCR‑, ALTO‑ ja PDF/A‑formaatteja keskenään?
V: Kyllä, useimmat OCR‑ohjelmistot ja digitaaliset säilytystyökalut tukevat muunnosta näiden formaattien välillä, vaikka osa metatiedoista saattaa kadota muunnoksen aikana.

K5: Onko PDF/A sama kuin tavallinen haettava PDF?
V: Ei, PDF/A on erikoistunut ISO‑standardisoitu PDF‑ala‑versio, joka on suunniteltu pitkäaikaiseen säilytykseen ja sisältää tiukempia vaatimuksia kuin tavalliset haettavat PDF‑tiedostot.

Mitä OCR-tiedostomuodot ovat?#

HOCR: HTML-pohjainen ehdokas#

Mikä on HOCR?#

Tekniset rakenne#

Keskeiset ominaisuudet ja edut#

Yleiset käyttötapaukset#

ALTO: Arkistonvalinta#

Mikä on ALTO?#

Tekniset rakenne#

Keskeiset ominaisuudet ja edut#

Yleiset käyttötapaukset#

PDF/A: Säilytyksen voimala#

Mikä on PDF/A?#

Tekniset rakenne#

Keskeiset ominaisuudet ja edut#

Yleiset käyttötapaukset#

Vertailu: HOCR vs ALTO vs PDF/A#

Rakennevertailu#

Metatietokyvyt#

Alan käyttöönotto#

Muunnos formaattien välillä#

Työkalut muuntamiseen:#

Parhaat käytännöt toteutukseen#

Yhteenveto: Oikean formaatin valinta tarkoitukseen#

Usein kysytyt kysymykset#

Katso myös#

Mitä OCR-tiedostomuodot ovat?

HOCR: HTML-pohjainen ehdokas

Mikä on HOCR?

Tekniset rakenne

Keskeiset ominaisuudet ja edut

Yleiset käyttötapaukset

ALTO: Arkistonvalinta

Mikä on ALTO?

Tekniset rakenne

Keskeiset ominaisuudet ja edut

Yleiset käyttötapaukset

PDF/A: Säilytyksen voimala

Mikä on PDF/A?

Tekniset rakenne

Keskeiset ominaisuudet ja edut

Yleiset käyttötapaukset

Vertailu: HOCR vs ALTO vs PDF/A

Rakennevertailu

Metatietokyvyt

Alan käyttöönotto

Muunnos formaattien välillä

Työkalut muuntamiseen:

Parhaat käytännöt toteutukseen

Yhteenveto: Oikean formaatin valinta tarkoitukseen

Usein kysytyt kysymykset

Katso myös