HOCR vs ALTO vs PDF/A: Memilih Format OCR yang Tepat untuk Projek Anda

Kemas Kini Terakhir: 05 Jan, 2026

Memahami Format Fail OCR: HOCR vs ALTO vs PDF/A Dijelaskan

Jika anda pernah mengimbas dokumen dan tertanya-tanya bagaimana komputer menukar imej teks menjadi kandungan yang boleh dicari dan disunting, anda telah menemui dunia Pengenalan Aksara Optik (OCR). Tetapi cerita tidak berakhir hanya dengan mengekstrak teks daripada imej. Keajaiban sebenar berlaku dalam cara maklumat itu disimpan dan disusun.

Apabila anda mendigitalkan arkib sejarah, memproses invois perniagaan, atau menukar buku bercetak ke perpustakaan digital, memilih format output OCR yang tepat menjadi kritikal. Tiga format menguasai lanskap ini: HOCR, ALTO, dan PDF/A. Setiap satu berkhidmat untuk tujuan yang berbeza, dan memahami perbezaannya dapat menjimatkan anda berjam‑jam frustrasi di masa depan.

Izinkan saya menerangkan segala yang anda perlu tahu tentang format‑format ini, daripada asas teknikal hingga aplikasi praktikal.

Apa Itu Format Fail OCR?

Sebelum menyelami format khusus, mari kita tetapkan apa yang format fail OCR sebenarnya lakukan. Apabila perisian OCR memproses dokumen, ia tidak hanya mengekstrak teks biasa—ia menangkap maklumat struktur dan kedudukan yang berharga. Ini termasuk:

Kandungan teks: Perkataan dan aksara sebenar
Maklumat susun atur: Di mana teks muncul pada halaman (perenggan, lajur, tajuk)
Data pemformatan: Gaya fon, saiz, dan warna
Skor keyakinan: Sejauh mana enjin OCR pasti tentang setiap aksara
Hierarki struktur: Bab, bahagian, tajuk, dan nota kaki

Format fail OCR membungkus metadata kaya ini bersama teks yang diekstrak, menghasilkan kembar digital dokumen asal yang mengekalkan integriti visual dan struktur.

HOCR: Penyerang Berasaskan HTML

Apa itu HOCR?

HOCR (singkatan bagi HTML OCR) ialah standard terbuka yang menyematkan hasil OCR dalam fail HTML. Dibangunkan sebagai sebahagian daripada ekosistem enjin OCR Tesseract, ia menggunakan markup HTML standard yang diperkaya dengan kelas dan atribut khusus untuk mewakili data OCR.

Struktur Teknikal

Fail HOCR tipikal kelihatan seperti HTML biasa tetapi dengan elemen khusus:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
  <div class='ocr_carea' title='bbox 100 200 800 500'>
    <span class='ocr_line' title='bbox 110 210 790 240'>
      <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
      <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
    </span>
  </div>
</div>

Atribut title mengandungi koordinat kotak sempadan (bbox) yang menandakan dengan tepat setiap elemen teks pada halaman.

Ciri Utama dan Manfaat

Mesra web: Oleh kerana dibina atas HTML, fail HOCR boleh dipaparkan dengan mudah dalam pelayar web
Pemisahan gaya: Menggunakan CSS untuk persembahan, memisahkan kandungan dan gaya
Kebolehcapaian: Struktur HTML semantik menyokong pembaca skrin dan teknologi bantuan
Fleksibiliti: Boleh digabungkan dengan teknologi web lain (JavaScript, rangka kerja CSS)
Standard terbuka: Tiada sekatan proprietari atau yuran lesen

Kes Penggunaan Biasa

Perpustakaan digital dan arkib dengan penonton dokumen berasaskan web
Projek yang memerlukan integrasi mudah dengan aplikasi web
Situasi di mana kebolehbacaan manusia fail data OCR penting
Projek sumber terbuka dan usaha digitasi kolaboratif

ALTO: Pilihan Arkivist

Apa itu ALTO?

ALTO (Analyzed Layout and Text Object) ialah format berasaskan XML yang direka khusus untuk mewakili susun atur dan kandungan halaman teks. Dibangunkan dan diselenggara oleh Perpustakaan Kongres Amerika, ALTO telah menjadi standard dalam projek digitasi warisan budaya.

Struktur Teknikal

ALTO menggunakan skema XML berstruktur dengan elemen khusus untuk komponen halaman yang berbeza:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
  <Layout>
    <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
      <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
        <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
          <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
            <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
            <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>
  </Layout>
</alto>

Ciri Utama dan Manfaat

Metadata kaya: Menyokong maklumat tipografi, susun atur, dan linguistik terperinci
Standardisasi: Digunakan meluas oleh perpustakaan, arkib, dan institusi kebudayaan
Pengesahan: Definisi Skema XML (XSD) membolehkan pengesahan ketat
Keupayaan meluaskan: Boleh disesuaikan dengan ruang nama tambahan untuk keperluan khusus
Mesra pemeliharaan: Sangat sesuai untuk arkib digital jangka panjang

Kes Penggunaan Biasa

Projek digitasi perpustakaan kebangsaan
Pemeliharaan dokumen sejarah
Digitasi surat khabar berskala besar
Projek penyelidikan akademik yang memerlukan analisis teks terperinci
Pertukaran data antara institusi dalam sektor warisan budaya

PDF/A: Kuasa Pemeliharaan

Apa itu PDF/A?

PDF/A (Portable Document Format/Archival) bukan sekadar format OCR tetapi versi PDF yang distandardkan ISO khusus untuk pemeliharaan jangka panjang dokumen elektronik. Apabila digabungkan dengan OCR, ia menghasilkan dokumen yang boleh dicari dan dipelihara.

Struktur Teknikal

PDF/A menyematkan teks OCR sebagai lapisan “tersembunyi” di bawah imej halaman, mengekalkan penampilan visual asal sambil menambah kebolehcarian:

Lapisan imej: Imej halaman yang diimbas (bitmap)
Lapisan teks: Teks OCR yang tidak kelihatan, boleh dicari dan selaras dengan imej
Metadata: Metadata XMP yang distandardkan untuk maklumat pemeliharaan

Ciri Utama dan Manfaat

Kesetiaan visual: Mengekalkan penampilan visual tepat dokumen asal
Kemandirian: Semua sumber yang diperlukan (fon, profil warna) disematkan
Standard ISO: Menjamin kebolehbacaan dan konsistensi masa depan
Kebolehcapaian sejagat: Boleh dibuka oleh mana-mana pelayar PDF
Tahap kepatuhan berbilang:
- PDF/A-1 (paling ketat, paling stabil)
- PDF/A-2 (membenarkan ketelusan dan lapisan)
- PDF/A-3 (membenarkan penyematan fail sumber)

Kes Penggunaan Biasa

Arkib dokumen undang‑undang dan kerajaan
Program pengekalan rekod korporat
Pemeliharaan rekod perubatan
Aliran kerja dokumen yang memerlukan keaslian visual serta kebolehcarian
Pematuhan regulatori dalam pengurusan dokumen

Analisis Perbandingan: HOCR vs ALTO vs PDF/A

Perbandingan Struktur

No.	Ciri	HOCR	ALTO	PDF/A
1	Teknologi Asas	HTML/CSS	XML	PDF + elemen tersemat
2	Fokus Utama	Paparan web	Metadata terperinci	Pemeliharaan visual
3	Hubungan Teks/Imbas	Berasingan	Berasingan	Digabungkan (teks di bawah imej)
4	Pendekatan Gaya	Lembaran gaya CSS	Berasaskan atribut	Rendering PDF
5	Kebolehbaca Manusia	Cemerlang (penyunting teks)	Baik (penyunting XML)	Lemah (format binari)

Keupayaan Metadata

HOCR: Maklumat susun atur asas, markup semantik terhad
ALTO: Metadata bibliografi, tipografi, dan struktur yang meluas
PDF/A: Metadata pemeliharaan terstandard (XMP), data OCR terhad

Penggunaan Industri

HOCR: Komuniti sumber terbuka, projek digitasi berskala kecil
ALTO: Institusi warisan budaya, digitasi berskala besar
PDF/A: Kerajaan, undang‑undang, sektor korporat di seluruh dunia

Penukaran Antara Format

Kebanyakan perisian OCR dan platform pemeliharaan digital menyokong penukaran antara format‑format ini:

Laluan Penukaran Biasa

Enjin OCR → ALTO → HOCR (untuk paparan web)
Enjin OCR → ALTO → PDF/A (untuk arkib)
PDF/A → ALTO/HOCR (melalui alat pengekstrakan teks)

Alat untuk Penukaran

Pemproses OCR: Tesseract, Abbyy FineReader, Google Cloud Vision
Alat penukaran: pdftotext, pdf2xml, pelbagai alat transformasi XML
Platform pemeliharaan digital: Rosetta, Preservica, Archivematica

Amalan Terbaik untuk Pelaksanaan

Mulakan dengan matlamat akhir anda: Pilih format berdasarkan bagaimana anda akan menggunakan kandungan yang didigitalkan
Pertimbangkan keseluruhan aliran kerja anda: Dari pengimbasan hingga penghantaran ke pemeliharaan
Fikirkan tentang kebolehubungan: Siapa yang perlu mengakses data anda dan dengan alat apa?
Rancang untuk jangka panjang: Pemeliharaan digital memerlukan pemikiran jauh tentang ketahanan format
Dokumentasikan pilihan anda: Buat panduan jelas untuk pasukan digitasi anda
Uji dengan pengguna sebenar: Pastikan format yang dipilih memenuhi keperluan pengguna

Kesimpulan: Memadankan Format dengan Tujuan

Tiada satu “format OCR terbaik” — hanya format terbaik untuk keperluan khusus anda. HOCR cemerlang dalam persekitaran web, ALTO mendominasi dalam pemeliharaan warisan budaya, dan PDF/A memimpin dalam konteks regulatori dan pematuhan. Memahami kekuatan dan batasan masing‑masing membantu anda membuat keputusan berinformasi yang akan menyokong projek digitasi anda selama bertahun‑tahun.

Soalan Lazim

S1: Apakah perbezaan utama antara format HOCR dan ALTO?
J: HOCR ialah format berasaskan HTML yang ideal untuk paparan web, manakala ALTO ialah format XML yang lebih kaya dan dipilih oleh perpustakaan serta arkib untuk pemeliharaan metadata terperinci.

S2: Bilakah saya harus memilih PDF/A untuk dokumen OCR saya?
J: Pilih PDF/A apabila anda perlu memelihara penampilan visual tepat dokumen untuk pematuhan undang‑undang atau arkib jangka panjang sambil menambah teks yang boleh dicari.

S3: Q: Format OCR mana yang terbaik untuk penyelidikan kemanusiaan digital?
J: Format ALTO biasanya terbaik untuk penyelidikan kerana struktur XML terperincinya menyokong analisis teks lanjutan dan mengekalkan maklumat susun atur yang kompleks.

S4: Q: Bolehkah saya menukar antara format HOCR, ALTO, dan PDF/A?
J: Ya, kebanyakan perisian OCR dan alat pemeliharaan digital menyokong penukaran antara format‑format ini, walaupun beberapa metadata mungkin hilang semasa penukaran.

S5: Adakah PDF/A sama dengan PDF boleh cari biasa?
J: Tidak, PDF/A ialah subset khusus yang distandardkan ISO untuk pemeliharaan jangka panjang, dengan keperluan yang lebih ketat berbanding PDF boleh cari biasa.

Apa Itu Format Fail OCR?#

HOCR: Penyerang Berasaskan HTML#

Apa itu HOCR?#

Struktur Teknikal#

Ciri Utama dan Manfaat#

Kes Penggunaan Biasa#

ALTO: Pilihan Arkivist#

Apa itu ALTO?#

Struktur Teknikal#

Ciri Utama dan Manfaat#

Kes Penggunaan Biasa#

PDF/A: Kuasa Pemeliharaan#

Apa itu PDF/A?#

Struktur Teknikal#

Ciri Utama dan Manfaat#

Kes Penggunaan Biasa#

Analisis Perbandingan: HOCR vs ALTO vs PDF/A#

Perbandingan Struktur#

Keupayaan Metadata#

Penggunaan Industri#

Penukaran Antara Format#

Alat untuk Penukaran#

Amalan Terbaik untuk Pelaksanaan#

Kesimpulan: Memadankan Format dengan Tujuan#

Soalan Lazim#

Lihat Juga#

Apa Itu Format Fail OCR?

HOCR: Penyerang Berasaskan HTML

Apa itu HOCR?

Struktur Teknikal

Ciri Utama dan Manfaat

Kes Penggunaan Biasa

ALTO: Pilihan Arkivist

Apa itu ALTO?

Struktur Teknikal

Ciri Utama dan Manfaat

Kes Penggunaan Biasa

PDF/A: Kuasa Pemeliharaan

Apa itu PDF/A?

Struktur Teknikal

Ciri Utama dan Manfaat

Kes Penggunaan Biasa

Analisis Perbandingan: HOCR vs ALTO vs PDF/A

Perbandingan Struktur

Keupayaan Metadata

Penggunaan Industri

Penukaran Antara Format

Alat untuk Penukaran

Amalan Terbaik untuk Pelaksanaan

Kesimpulan: Memadankan Format dengan Tujuan

Soalan Lazim

Lihat Juga