HOCR vs ALTO vs PDF/A: Lựa chọn định dạng OCR phù hợp cho dự án của bạn

Cập nhật lần cuối: 05 Jan, 2026

Hiểu về các định dạng tệp OCR: Giải thích HOCR vs ALTO vs PDF/A

Nếu bạn đã từng quét một tài liệu và tự hỏi máy tính chuyển đổi hình ảnh văn bản thành nội dung có thể tìm kiếm và chỉnh sửa như thế nào, bạn đã gặp thế giới của Nhận dạng ký tự quang học (OCR). Nhưng câu chuyện không chỉ dừng lại ở việc trích xuất văn bản từ hình ảnh. Phép màu thực sự xảy ra trong cách thông tin đó được lưu trữ và cấu trúc.

Khi bạn số hoá các kho lưu trữ lịch sử, xử lý hóa đơn doanh nghiệp, hoặc chuyển đổi sách in thành thư viện kỹ thuật số, việc lựa chọn định dạng đầu ra OCR phù hợp trở nên quan trọng. Ba định dạng chiếm ưu thế trong lĩnh vực này: HOCR, ALTO và PDF/A. Mỗi định dạng phục vụ các mục đích khác nhau, và hiểu sự khác nhau của chúng có thể giúp bạn tiết kiệm vô số giờ đồng hồ bực bội trong tương lai.

Hãy để tôi dẫn bạn qua tất cả những gì bạn cần biết về các định dạng này, từ nền tảng kỹ thuật đến các ứng dụng thực tiễn.

Các định dạng tệp OCR là gì?

Trước khi đi sâu vào các định dạng cụ thể, hãy xác định định dạng tệp OCR thực sự làm gì. Khi phần mềm OCR xử lý một tài liệu, nó không chỉ trích xuất văn bản thuần mà còn nắm bắt thông tin cấu trúc và vị trí có giá trị. Điều này bao gồm:

Nội dung văn bản: Các từ và ký tự thực tế
Thông tin bố cục: Vị trí xuất hiện của văn bản trên trang (đoạn, cột, tiêu đề)
Dữ liệu định dạng: Kiểu phông chữ, kích thước và màu sắc
Điểm tin cậy: Mức độ chắc chắn của engine OCR đối với mỗi ký tự
Cấu trúc phân cấp: Chương, mục, tiêu đề và chú thích

Các định dạng tệp OCR gói gọn siêu dữ liệu phong phú này cùng với văn bản đã trích xuất, tạo ra một bản sao kỹ thuật số của tài liệu gốc, duy trì tính toàn vẹn về hình ảnh và cấu trúc.

HOCR: Đối thủ dựa trên HTML

HOCR là gì?

HOCR (viết tắt của HTML OCR) là một tiêu chuẩn mở nhúng kết quả OCR vào các tệp HTML. Được phát triển như một phần của hệ sinh thái engine OCR Tesseract, nó sử dụng markup HTML tiêu chuẩn được tăng cường bằng các lớp và thuộc tính tùy chỉnh để biểu diễn dữ liệu OCR.

Cấu trúc kỹ thuật

Một tệp HOCR điển hình trông giống như HTML quen thuộc nhưng có các phần tử chuyên biệt:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
  <div class='ocr_carea' title='bbox 100 200 800 500'>
    <span class='ocr_line' title='bbox 110 210 790 240'>
      <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
      <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
    </span>
  </div>
</div>

Các thuộc tính title chứa tọa độ hộp bao (bbox) xác định chính xác vị trí của mỗi phần tử văn bản trên trang.

Các tính năng và lợi ích chính

Thân thiện với web: Vì được xây dựng trên HTML, các tệp HOCR có thể dễ dàng hiển thị trong trình duyệt web
Tách kiểu dáng: Sử dụng CSS để trình bày, giữ nội dung và kiểu dáng riêng biệt
Khả năng truy cập: Cấu trúc HTML ngữ nghĩa hỗ trợ trình đọc màn hình và công nghệ hỗ trợ
Tính linh hoạt: Có thể kết hợp với các công nghệ web khác (JavaScript, framework CSS)
Tiêu chuẩn mở: Không có hạn chế sở hữu hoặc phí bản quyền

Các trường hợp sử dụng phổ biến

Thư viện kỹ thuật số và kho lưu trữ với trình xem tài liệu dựa trên web
Các dự án yêu cầu tích hợp dễ dàng với ứng dụng web
Các tình huống mà khả năng đọc được của tệp dữ liệu OCR bởi con người là quan trọng
Các dự án mã nguồn mở và nỗ lực số hoá hợp tác

ALTO: Lựa chọn của người lưu trữ

ALTO là gì?

ALTO (Analyzed Layout and Text Object) là một định dạng dựa trên XML được thiết kế đặc biệt để biểu diễn bố cục và nội dung của các trang văn bản. Được phát triển và duy trì bởi Thư viện Quốc hội Hoa Kỳ, ALTO đã trở thành tiêu chuẩn trong các dự án số hoá di sản văn hoá.

Cấu trúc kỹ thuật

ALTO sử dụng một schema XML có cấu trúc với các phần tử dành riêng cho các thành phần trang khác nhau:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
  <Layout>
    <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
      <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
        <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
          <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
            <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
            <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>
  </Layout>
</alto>

Các tính năng và lợi ích chính

Siêu dữ liệu phong phú: Hỗ trợ thông tin chi tiết về kiểu chữ, bố cục và ngôn ngữ
Tiêu chuẩn hoá: Được nhiều thư viện, kho lưu trữ và tổ chức văn hoá áp dụng rộng rãi
Xác thực: Định nghĩa Schema XML (XSD) cho phép kiểm tra chặt chẽ
Mở rộng: Có thể tùy chỉnh với các namespace bổ sung cho nhu cầu chuyên biệt
Thân thiện với bảo tồn: Tuyệt vời cho lưu trữ kỹ thuật số lâu dài

Các trường hợp sử dụng phổ biến

Các dự án số hoá thư viện quốc gia
Bảo tồn tài liệu lịch sử
Số hoá báo chí quy mô lớn
Các dự án nghiên cứu học thuật yêu cầu phân tích văn bản chi tiết
Trao đổi dữ liệu liên tổ chức trong lĩnh vực di sản văn hoá

PDF/A: Công cụ bảo tồn mạnh mẽ

PDF/A là gì?

PDF/A (Portable Document Format/Archival) không phải là một định dạng OCR duy nhất mà là phiên bản PDF được tiêu chuẩn hoá ISO, được thiết kế đặc biệt cho việc bảo tồn lâu dài các tài liệu điện tử. Khi kết hợp với OCR, nó tạo ra các tài liệu có thể tìm kiếm và bảo quản.

Cấu trúc kỹ thuật

PDF/A nhúng văn bản OCR dưới dạng lớp “ẩn” phía dưới hình ảnh trang, duy trì ngoại hình gốc trong khi thêm khả năng tìm kiếm:

Lớp hình ảnh: Hình ảnh trang đã quét (bitmap)
Lớp văn bản: Văn bản OCR vô hình, có thể tìm kiếm, căn chỉnh với hình ảnh
Siêu dữ liệu: Siêu dữ liệu XMP tiêu chuẩn hoá cho thông tin bảo tồn

Các tính năng và lợi ích chính

Độ trung thực hình ảnh: Bảo tồn ngoại hình chính xác của tài liệu gốc
Tự chứa: Tất cả tài nguyên cần thiết (phông chữ, hồ sơ màu) được nhúng
Tiêu chuẩn ISO: Đảm bảo khả năng đọc và tính nhất quán trong tương lai
Khả năng truy cập toàn cầu: Có thể mở bằng bất kỳ trình đọc PDF nào
Nhiều mức độ tuân thủ:
- PDF/A-1 (hạn chế nhất, ổn định nhất)
- PDF/A-2 (cho phép trong suốt và lớp)
- PDF/A-3 (cho phép nhúng các tệp nguồn)

Các trường hợp sử dụng phổ biến

Kho lưu trữ tài liệu pháp lý và chính phủ
Chương trình lưu trữ hồ sơ doanh nghiệp
Bảo tồn hồ sơ y tế
Quy trình tài liệu yêu cầu cả tính xác thực hình ảnh và khả năng tìm kiếm
Tuân thủ quy định trong quản lý tài liệu

Phân tích so sánh: HOCR vs ALTO vs PDF/A

So sánh cấu trúc

STT	Tính năng	HOCR	ALTO	PDF/A
1	Công nghệ nền tảng	HTML/CSS	XML	PDF + các phần tử nhúng
2	Mục tiêu chính	Hiển thị web	Siêu dữ liệu chi tiết	Bảo tồn hình ảnh
3	Mối quan hệ Văn bản/Hình ảnh	Riêng biệt	Riêng biệt	Kết hợp (văn bản dưới hình ảnh)
4	Cách tiếp cận kiểu dáng	Bảng kiểu CSS	Dựa trên thuộc tính	Kết xuất PDF
5	Khả năng đọc của con người	Xuất sắc (trình soạn thảo văn bản)	Tốt (trình soạn thảo XML)	Kém (định dạng nhị phân)

Khả năng siêu dữ liệu

HOCR: Thông tin bố cục cơ bản, đánh dấu ngữ nghĩa hạn chế
ALTO: Siêu dữ liệu thư mục, kiểu chữ và cấu trúc phong phú
PDF/A: Siêu dữ liệu bảo tồn tiêu chuẩn hoá (XMP), dữ liệu OCR hạn chế

Áp dụng trong ngành

HOCR: Cộng đồng mã nguồn mở, các dự án số hoá quy mô nhỏ
ALTO: Các tổ chức di sản văn hoá, số hoá quy mô lớn
PDF/A: Các lĩnh vực chính phủ, pháp lý, doanh nghiệp trên toàn cầu

Chuyển đổi giữa các định dạng

Hầu hết phần mềm OCR và nền tảng bảo tồn kỹ thuật số hỗ trợ chuyển đổi giữa các định dạng này:

Các đường chuyển đổi phổ biến:

Engine OCR → ALTO → HOCR (để hiển thị web)
Engine OCR → ALTO → PDF/A (để lưu trữ)
PDF/A → ALTO/HOCR (thông qua công cụ trích xuất văn bản)

Công cụ chuyển đổi:

Bộ xử lý OCR: Tesseract, Abbyy FineReader, Google Cloud Vision
Công cụ chuyển đổi: pdftotext, pdf2xml, các công cụ chuyển đổi XML khác
Nền tảng bảo tồn kỹ thuật số: Rosetta, Preservica, Archivematica

Các thực tiễn tốt nhất cho việc triển khai

Bắt đầu với mục tiêu cuối cùng: Chọn định dạng dựa trên cách bạn sẽ sử dụng nội dung đã số hoá
Xem xét toàn bộ quy trình làm việc: Từ quét, giao hàng đến bảo tồn
Suy nghĩ về khả năng tương tác: Ai cần truy cập dữ liệu của bạn và bằng công cụ nào?
Lập kế hoạch dài hạn: Bảo tồn kỹ thuật số đòi hỏi suy nghĩ trước về độ bền của định dạng
Ghi lại lựa chọn của bạn: Tạo hướng dẫn rõ ràng cho đội ngũ số hoá
Kiểm tra với người dùng thực tế: Đảm bảo định dạng đã chọn đáp ứng nhu cầu thực tế của người dùng

Kết luận: Phù hợp định dạng với mục đích

Không có một “định dạng tệp OCR” nào là tốt nhất cho mọi trường hợp—chỉ có định dạng phù hợp nhất với nhu cầu cụ thể của bạn. HOCR tỏa sáng trong môi trường web, ALTO chiếm ưu thế trong bảo tồn di sản văn hoá, và PDF/A dẫn đầu trong các ngữ cảnh quy định và tuân thủ. Hiểu rõ điểm mạnh và hạn chế của chúng giúp bạn đưa ra quyết định thông minh, hỗ trợ các dự án số hoá của bạn trong nhiều năm tới.

Câu hỏi thường gặp

Câu hỏi 1: Sự khác biệt chính giữa các định dạng HOCR và ALTO là gì?
Trả lời: HOCR là một định dạng dựa trên HTML, lý tưởng cho hiển thị trên web, trong khi ALTO là một định dạng dựa trên XML phong phú hơn, được các thư viện và kho lưu trữ ưa chuộng để bảo tồn siêu dữ liệu chi tiết.

Câu hỏi 2: Khi nào nên chọn PDF/A cho các tài liệu OCR của tôi?
Trả lời: Chọn PDF/A khi bạn cần bảo tồn ngoại hình chính xác của tài liệu để tuân thủ pháp lý hoặc lưu trữ lâu dài, đồng thời thêm văn bản có thể tìm kiếm.

Câu hỏi 3: Định dạng OCR nào tốt nhất cho nghiên cứu nhân văn số?
Trả lời: Định dạng ALTO thường là lựa chọn tốt nhất cho nghiên cứu vì cấu trúc XML chi tiết của nó hỗ trợ phân tích văn bản nâng cao và bảo tồn thông tin bố cục phức tạp.

Câu hỏi 4: Tôi có thể chuyển đổi giữa các định dạng HOCR, ALTO và PDF/A không?
Trả lời: Có, hầu hết phần mềm OCR và công cụ bảo tồn kỹ thuật số hỗ trợ chuyển đổi giữa các định dạng này, mặc dù một số siêu dữ liệu có thể bị mất trong quá trình chuyển đổi.

Câu hỏi 5: PDF/A có giống với PDF có thể tìm kiếm thông thường không?
Trả lời: Không, PDF/A là một tập con được tiêu chuẩn hoá ISO của PDF, được thiết kế đặc biệt cho bảo tồn lâu dài, với các yêu cầu nghiêm ngặt hơn so với các PDF thông thường.

Các định dạng tệp OCR là gì?#

HOCR: Đối thủ dựa trên HTML#

HOCR là gì?#

Cấu trúc kỹ thuật#

Các tính năng và lợi ích chính#

Các trường hợp sử dụng phổ biến#

ALTO: Lựa chọn của người lưu trữ#

ALTO là gì?#

Cấu trúc kỹ thuật#

Các tính năng và lợi ích chính#

Các trường hợp sử dụng phổ biến#

PDF/A: Công cụ bảo tồn mạnh mẽ#

PDF/A là gì?#

Cấu trúc kỹ thuật#

Các tính năng và lợi ích chính#

Các trường hợp sử dụng phổ biến#

Phân tích so sánh: HOCR vs ALTO vs PDF/A#

So sánh cấu trúc#

Khả năng siêu dữ liệu#

Áp dụng trong ngành#

Chuyển đổi giữa các định dạng#

Công cụ chuyển đổi:#

Các thực tiễn tốt nhất cho việc triển khai#

Kết luận: Phù hợp định dạng với mục đích#

Câu hỏi thường gặp#

Xem thêm#

Các định dạng tệp OCR là gì?

HOCR: Đối thủ dựa trên HTML

HOCR là gì?

Cấu trúc kỹ thuật

Các tính năng và lợi ích chính

Các trường hợp sử dụng phổ biến

ALTO: Lựa chọn của người lưu trữ

ALTO là gì?

Cấu trúc kỹ thuật

Các tính năng và lợi ích chính

Các trường hợp sử dụng phổ biến

PDF/A: Công cụ bảo tồn mạnh mẽ

PDF/A là gì?

Cấu trúc kỹ thuật

Các tính năng và lợi ích chính

Các trường hợp sử dụng phổ biến

Phân tích so sánh: HOCR vs ALTO vs PDF/A

So sánh cấu trúc

Khả năng siêu dữ liệu

Áp dụng trong ngành

Chuyển đổi giữa các định dạng

Công cụ chuyển đổi:

Các thực tiễn tốt nhất cho việc triển khai

Kết luận: Phù hợp định dạng với mục đích

Câu hỏi thường gặp

Xem thêm