Kemas Kini Terakhir: 05 Jan, 2026

Memahami Format Fail OCR: HOCR vs ALTO vs PDF/A Dijelaskan

Jika anda pernah mengimbas dokumen dan tertanya-tanya bagaimana komputer menukar imej teks menjadi kandungan yang boleh dicari dan disunting, anda telah menemui dunia Pengenalan Aksara Optik (OCR). Tetapi cerita tidak berakhir hanya dengan mengekstrak teks daripada imej. Keajaiban sebenar berlaku dalam cara maklumat itu disimpan dan disusun.

Apabila anda mendigitalkan arkib sejarah, memproses invois perniagaan, atau menukar buku bercetak ke perpustakaan digital, memilih format output OCR yang tepat menjadi kritikal. Tiga format menguasai lanskap ini: HOCR, ALTO, dan PDF/A. Setiap satu berkhidmat untuk tujuan yang berbeza, dan memahami perbezaannya dapat menjimatkan anda berjam‑jam frustrasi di masa depan.

Izinkan saya menerangkan segala yang anda perlu tahu tentang format‑format ini, daripada asas teknikal hingga aplikasi praktikal.

Apa Itu Format Fail OCR?

Sebelum menyelami format khusus, mari kita tetapkan apa yang format fail OCR sebenarnya lakukan. Apabila perisian OCR memproses dokumen, ia tidak hanya mengekstrak teks biasa—ia menangkap maklumat struktur dan kedudukan yang berharga. Ini termasuk:

  • Kandungan teks: Perkataan dan aksara sebenar
  • Maklumat susun atur: Di mana teks muncul pada halaman (perenggan, lajur, tajuk)
  • Data pemformatan: Gaya fon, saiz, dan warna
  • Skor keyakinan: Sejauh mana enjin OCR pasti tentang setiap aksara
  • Hierarki struktur: Bab, bahagian, tajuk, dan nota kaki

Format fail OCR membungkus metadata kaya ini bersama teks yang diekstrak, menghasilkan kembar digital dokumen asal yang mengekalkan integriti visual dan struktur.

HOCR: Penyerang Berasaskan HTML

Apa itu HOCR?

HOCR (singkatan bagi HTML OCR) ialah standard terbuka yang menyematkan hasil OCR dalam fail HTML. Dibangunkan sebagai sebahagian daripada ekosistem enjin OCR Tesseract, ia menggunakan markup HTML standard yang diperkaya dengan kelas dan atribut khusus untuk mewakili data OCR.

Struktur Teknikal

Fail HOCR tipikal kelihatan seperti HTML biasa tetapi dengan elemen khusus:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
  <div class='ocr_carea' title='bbox 100 200 800 500'>
    <span class='ocr_line' title='bbox 110 210 790 240'>
      <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
      <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
    </span>
  </div>
</div>

Atribut title mengandungi koordinat kotak sempadan (bbox) yang menandakan dengan tepat setiap elemen teks pada halaman.

Ciri Utama dan Manfaat

  • Mesra web: Oleh kerana dibina atas HTML, fail HOCR boleh dipaparkan dengan mudah dalam pelayar web
  • Pemisahan gaya: Menggunakan CSS untuk persembahan, memisahkan kandungan dan gaya
  • Kebolehcapaian: Struktur HTML semantik menyokong pembaca skrin dan teknologi bantuan
  • Fleksibiliti: Boleh digabungkan dengan teknologi web lain (JavaScript, rangka kerja CSS)
  • Standard terbuka: Tiada sekatan proprietari atau yuran lesen

Kes Penggunaan Biasa

  • Perpustakaan digital dan arkib dengan penonton dokumen berasaskan web
  • Projek yang memerlukan integrasi mudah dengan aplikasi web
  • Situasi di mana kebolehbacaan manusia fail data OCR penting
  • Projek sumber terbuka dan usaha digitasi kolaboratif

ALTO: Pilihan Arkivist

Apa itu ALTO?

ALTO (Analyzed Layout and Text Object) ialah format berasaskan XML yang direka khusus untuk mewakili susun atur dan kandungan halaman teks. Dibangunkan dan diselenggara oleh Perpustakaan Kongres Amerika, ALTO telah menjadi standard dalam projek digitasi warisan budaya.

Struktur Teknikal

ALTO menggunakan skema XML berstruktur dengan elemen khusus untuk komponen halaman yang berbeza:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
  <Layout>
    <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
      <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
        <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
          <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
            <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
            <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>
  </Layout>
</alto>

Ciri Utama dan Manfaat

  • Metadata kaya: Menyokong maklumat tipografi, susun atur, dan linguistik terperinci
  • Standardisasi: Digunakan meluas oleh perpustakaan, arkib, dan institusi kebudayaan
  • Pengesahan: Definisi Skema XML (XSD) membolehkan pengesahan ketat
  • Keupayaan meluaskan: Boleh disesuaikan dengan ruang nama tambahan untuk keperluan khusus
  • Mesra pemeliharaan: Sangat sesuai untuk arkib digital jangka panjang

Kes Penggunaan Biasa

  • Projek digitasi perpustakaan kebangsaan
  • Pemeliharaan dokumen sejarah
  • Digitasi surat khabar berskala besar
  • Projek penyelidikan akademik yang memerlukan analisis teks terperinci
  • Pertukaran data antara institusi dalam sektor warisan budaya

PDF/A: Kuasa Pemeliharaan

Apa itu PDF/A?

PDF/A (Portable Document Format/Archival) bukan sekadar format OCR tetapi versi PDF yang distandardkan ISO khusus untuk pemeliharaan jangka panjang dokumen elektronik. Apabila digabungkan dengan OCR, ia menghasilkan dokumen yang boleh dicari dan dipelihara.

Struktur Teknikal

PDF/A menyematkan teks OCR sebagai lapisan “tersembunyi” di bawah imej halaman, mengekalkan penampilan visual asal sambil menambah kebolehcarian:

  1. Lapisan imej: Imej halaman yang diimbas (bitmap)
  2. Lapisan teks: Teks OCR yang tidak kelihatan, boleh dicari dan selaras dengan imej
  3. Metadata: Metadata XMP yang distandardkan untuk maklumat pemeliharaan

Ciri Utama dan Manfaat

  • Kesetiaan visual: Mengekalkan penampilan visual tepat dokumen asal
  • Kemandirian: Semua sumber yang diperlukan (fon, profil warna) disematkan
  • Standard ISO: Menjamin kebolehbacaan dan konsistensi masa depan
  • Kebolehcapaian sejagat: Boleh dibuka oleh mana-mana pelayar PDF
  • Tahap kepatuhan berbilang:
    • PDF/A-1 (paling ketat, paling stabil)
    • PDF/A-2 (membenarkan ketelusan dan lapisan)
    • PDF/A-3 (membenarkan penyematan fail sumber)

Kes Penggunaan Biasa

  • Arkib dokumen undang‑undang dan kerajaan
  • Program pengekalan rekod korporat
  • Pemeliharaan rekod perubatan
  • Aliran kerja dokumen yang memerlukan keaslian visual serta kebolehcarian
  • Pematuhan regulatori dalam pengurusan dokumen

Analisis Perbandingan: HOCR vs ALTO vs PDF/A

Perbandingan Struktur

No.CiriHOCRALTOPDF/A
1Teknologi AsasHTML/CSSXMLPDF + elemen tersemat
2Fokus UtamaPaparan webMetadata terperinciPemeliharaan visual
3Hubungan Teks/ImbasBerasinganBerasinganDigabungkan (teks di bawah imej)
4Pendekatan GayaLembaran gaya CSSBerasaskan atributRendering PDF
5Kebolehbaca ManusiaCemerlang (penyunting teks)Baik (penyunting XML)Lemah (format binari)

Keupayaan Metadata

HOCR: Maklumat susun atur asas, markup semantik terhad
ALTO: Metadata bibliografi, tipografi, dan struktur yang meluas
PDF/A: Metadata pemeliharaan terstandard (XMP), data OCR terhad

Penggunaan Industri

  • HOCR: Komuniti sumber terbuka, projek digitasi berskala kecil
  • ALTO: Institusi warisan budaya, digitasi berskala besar
  • PDF/A: Kerajaan, undang‑undang, sektor korporat di seluruh dunia

Penukaran Antara Format

Kebanyakan perisian OCR dan platform pemeliharaan digital menyokong penukaran antara format‑format ini:

Laluan Penukaran Biasa

  • Enjin OCR → ALTO → HOCR (untuk paparan web)
  • Enjin OCR → ALTO → PDF/A (untuk arkib)
  • PDF/A → ALTO/HOCR (melalui alat pengekstrakan teks)

Alat untuk Penukaran

  • Pemproses OCR: Tesseract, Abbyy FineReader, Google Cloud Vision
  • Alat penukaran: pdftotext, pdf2xml, pelbagai alat transformasi XML
  • Platform pemeliharaan digital: Rosetta, Preservica, Archivematica

Amalan Terbaik untuk Pelaksanaan

  1. Mulakan dengan matlamat akhir anda: Pilih format berdasarkan bagaimana anda akan menggunakan kandungan yang didigitalkan
  2. Pertimbangkan keseluruhan aliran kerja anda: Dari pengimbasan hingga penghantaran ke pemeliharaan
  3. Fikirkan tentang kebolehubungan: Siapa yang perlu mengakses data anda dan dengan alat apa?
  4. Rancang untuk jangka panjang: Pemeliharaan digital memerlukan pemikiran jauh tentang ketahanan format
  5. Dokumentasikan pilihan anda: Buat panduan jelas untuk pasukan digitasi anda
  6. Uji dengan pengguna sebenar: Pastikan format yang dipilih memenuhi keperluan pengguna

Kesimpulan: Memadankan Format dengan Tujuan

Tiada satu “format OCR terbaik” — hanya format terbaik untuk keperluan khusus anda. HOCR cemerlang dalam persekitaran web, ALTO mendominasi dalam pemeliharaan warisan budaya, dan PDF/A memimpin dalam konteks regulatori dan pematuhan. Memahami kekuatan dan batasan masing‑masing membantu anda membuat keputusan berinformasi yang akan menyokong projek digitasi anda selama bertahun‑tahun.

Soalan Lazim

S1: Apakah perbezaan utama antara format HOCR dan ALTO?
J: HOCR ialah format berasaskan HTML yang ideal untuk paparan web, manakala ALTO ialah format XML yang lebih kaya dan dipilih oleh perpustakaan serta arkib untuk pemeliharaan metadata terperinci.

S2: Bilakah saya harus memilih PDF/A untuk dokumen OCR saya?
J: Pilih PDF/A apabila anda perlu memelihara penampilan visual tepat dokumen untuk pematuhan undang‑undang atau arkib jangka panjang sambil menambah teks yang boleh dicari.

S3: Q: Format OCR mana yang terbaik untuk penyelidikan kemanusiaan digital?
J: Format ALTO biasanya terbaik untuk penyelidikan kerana struktur XML terperincinya menyokong analisis teks lanjutan dan mengekalkan maklumat susun atur yang kompleks.

S4: Q: Bolehkah saya menukar antara format HOCR, ALTO, dan PDF/A?
J: Ya, kebanyakan perisian OCR dan alat pemeliharaan digital menyokong penukaran antara format‑format ini, walaupun beberapa metadata mungkin hilang semasa penukaran.

S5: Adakah PDF/A sama dengan PDF boleh cari biasa?
J: Tidak, PDF/A ialah subset khusus yang distandardkan ISO untuk pemeliharaan jangka panjang, dengan keperluan yang lebih ketat berbanding PDF boleh cari biasa.

Lihat Juga