Cập nhật lần cuối: 05 Jan, 2026

Nếu bạn đã từng quét một tài liệu và tự hỏi máy tính chuyển đổi hình ảnh văn bản thành nội dung có thể tìm kiếm và chỉnh sửa như thế nào, bạn đã gặp thế giới của Nhận dạng ký tự quang học (OCR). Nhưng câu chuyện không chỉ dừng lại ở việc trích xuất văn bản từ hình ảnh. Phép màu thực sự xảy ra trong cách thông tin đó được lưu trữ và cấu trúc.
Khi bạn số hoá các kho lưu trữ lịch sử, xử lý hóa đơn doanh nghiệp, hoặc chuyển đổi sách in thành thư viện kỹ thuật số, việc lựa chọn định dạng đầu ra OCR phù hợp trở nên quan trọng. Ba định dạng chiếm ưu thế trong lĩnh vực này: HOCR, ALTO và PDF/A. Mỗi định dạng phục vụ các mục đích khác nhau, và hiểu sự khác nhau của chúng có thể giúp bạn tiết kiệm vô số giờ đồng hồ bực bội trong tương lai.
Hãy để tôi dẫn bạn qua tất cả những gì bạn cần biết về các định dạng này, từ nền tảng kỹ thuật đến các ứng dụng thực tiễn.
Các định dạng tệp OCR là gì?
Trước khi đi sâu vào các định dạng cụ thể, hãy xác định định dạng tệp OCR thực sự làm gì. Khi phần mềm OCR xử lý một tài liệu, nó không chỉ trích xuất văn bản thuần mà còn nắm bắt thông tin cấu trúc và vị trí có giá trị. Điều này bao gồm:
- Nội dung văn bản: Các từ và ký tự thực tế
- Thông tin bố cục: Vị trí xuất hiện của văn bản trên trang (đoạn, cột, tiêu đề)
- Dữ liệu định dạng: Kiểu phông chữ, kích thước và màu sắc
- Điểm tin cậy: Mức độ chắc chắn của engine OCR đối với mỗi ký tự
- Cấu trúc phân cấp: Chương, mục, tiêu đề và chú thích
Các định dạng tệp OCR gói gọn siêu dữ liệu phong phú này cùng với văn bản đã trích xuất, tạo ra một bản sao kỹ thuật số của tài liệu gốc, duy trì tính toàn vẹn về hình ảnh và cấu trúc.
HOCR: Đối thủ dựa trên HTML
HOCR là gì?
HOCR (viết tắt của HTML OCR) là một tiêu chuẩn mở nhúng kết quả OCR vào các tệp HTML. Được phát triển như một phần của hệ sinh thái engine OCR Tesseract, nó sử dụng markup HTML tiêu chuẩn được tăng cường bằng các lớp và thuộc tính tùy chỉnh để biểu diễn dữ liệu OCR.
Cấu trúc kỹ thuật
Một tệp HOCR điển hình trông giống như HTML quen thuộc nhưng có các phần tử chuyên biệt:
<div class='ocr_page' title='bbox 0 0 1700 2200'>
<div class='ocr_carea' title='bbox 100 200 800 500'>
<span class='ocr_line' title='bbox 110 210 790 240'>
<span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
<span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
</span>
</div>
</div>
Các thuộc tính title chứa tọa độ hộp bao (bbox) xác định chính xác vị trí của mỗi phần tử văn bản trên trang.
Các tính năng và lợi ích chính
- Thân thiện với web: Vì được xây dựng trên HTML, các tệp HOCR có thể dễ dàng hiển thị trong trình duyệt web
- Tách kiểu dáng: Sử dụng CSS để trình bày, giữ nội dung và kiểu dáng riêng biệt
- Khả năng truy cập: Cấu trúc HTML ngữ nghĩa hỗ trợ trình đọc màn hình và công nghệ hỗ trợ
- Tính linh hoạt: Có thể kết hợp với các công nghệ web khác (JavaScript, framework CSS)
- Tiêu chuẩn mở: Không có hạn chế sở hữu hoặc phí bản quyền
Các trường hợp sử dụng phổ biến
- Thư viện kỹ thuật số và kho lưu trữ với trình xem tài liệu dựa trên web
- Các dự án yêu cầu tích hợp dễ dàng với ứng dụng web
- Các tình huống mà khả năng đọc được của tệp dữ liệu OCR bởi con người là quan trọng
- Các dự án mã nguồn mở và nỗ lực số hoá hợp tác
ALTO: Lựa chọn của người lưu trữ
ALTO là gì?
ALTO (Analyzed Layout and Text Object) là một định dạng dựa trên XML được thiết kế đặc biệt để biểu diễn bố cục và nội dung của các trang văn bản. Được phát triển và duy trì bởi Thư viện Quốc hội Hoa Kỳ, ALTO đã trở thành tiêu chuẩn trong các dự án số hoá di sản văn hoá.
Cấu trúc kỹ thuật
ALTO sử dụng một schema XML có cấu trúc với các phần tử dành riêng cho các thành phần trang khác nhau:
<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
<Layout>
<Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
<PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
<TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
<TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
<String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
<String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
Các tính năng và lợi ích chính
- Siêu dữ liệu phong phú: Hỗ trợ thông tin chi tiết về kiểu chữ, bố cục và ngôn ngữ
- Tiêu chuẩn hoá: Được nhiều thư viện, kho lưu trữ và tổ chức văn hoá áp dụng rộng rãi
- Xác thực: Định nghĩa Schema XML (XSD) cho phép kiểm tra chặt chẽ
- Mở rộng: Có thể tùy chỉnh với các namespace bổ sung cho nhu cầu chuyên biệt
- Thân thiện với bảo tồn: Tuyệt vời cho lưu trữ kỹ thuật số lâu dài
Các trường hợp sử dụng phổ biến
- Các dự án số hoá thư viện quốc gia
- Bảo tồn tài liệu lịch sử
- Số hoá báo chí quy mô lớn
- Các dự án nghiên cứu học thuật yêu cầu phân tích văn bản chi tiết
- Trao đổi dữ liệu liên tổ chức trong lĩnh vực di sản văn hoá
PDF/A: Công cụ bảo tồn mạnh mẽ
PDF/A là gì?
PDF/A (Portable Document Format/Archival) không phải là một định dạng OCR duy nhất mà là phiên bản PDF được tiêu chuẩn hoá ISO, được thiết kế đặc biệt cho việc bảo tồn lâu dài các tài liệu điện tử. Khi kết hợp với OCR, nó tạo ra các tài liệu có thể tìm kiếm và bảo quản.
Cấu trúc kỹ thuật
PDF/A nhúng văn bản OCR dưới dạng lớp “ẩn” phía dưới hình ảnh trang, duy trì ngoại hình gốc trong khi thêm khả năng tìm kiếm:
- Lớp hình ảnh: Hình ảnh trang đã quét (bitmap)
- Lớp văn bản: Văn bản OCR vô hình, có thể tìm kiếm, căn chỉnh với hình ảnh
- Siêu dữ liệu: Siêu dữ liệu XMP tiêu chuẩn hoá cho thông tin bảo tồn
Các tính năng và lợi ích chính
- Độ trung thực hình ảnh: Bảo tồn ngoại hình chính xác của tài liệu gốc
- Tự chứa: Tất cả tài nguyên cần thiết (phông chữ, hồ sơ màu) được nhúng
- Tiêu chuẩn ISO: Đảm bảo khả năng đọc và tính nhất quán trong tương lai
- Khả năng truy cập toàn cầu: Có thể mở bằng bất kỳ trình đọc PDF nào
- Nhiều mức độ tuân thủ:
- PDF/A-1 (hạn chế nhất, ổn định nhất)
- PDF/A-2 (cho phép trong suốt và lớp)
- PDF/A-3 (cho phép nhúng các tệp nguồn)
Các trường hợp sử dụng phổ biến
- Kho lưu trữ tài liệu pháp lý và chính phủ
- Chương trình lưu trữ hồ sơ doanh nghiệp
- Bảo tồn hồ sơ y tế
- Quy trình tài liệu yêu cầu cả tính xác thực hình ảnh và khả năng tìm kiếm
- Tuân thủ quy định trong quản lý tài liệu
Phân tích so sánh: HOCR vs ALTO vs PDF/A
So sánh cấu trúc
| STT | Tính năng | HOCR | ALTO | PDF/A |
|---|---|---|---|---|
| 1 | Công nghệ nền tảng | HTML/CSS | XML | PDF + các phần tử nhúng |
| 2 | Mục tiêu chính | Hiển thị web | Siêu dữ liệu chi tiết | Bảo tồn hình ảnh |
| 3 | Mối quan hệ Văn bản/Hình ảnh | Riêng biệt | Riêng biệt | Kết hợp (văn bản dưới hình ảnh) |
| 4 | Cách tiếp cận kiểu dáng | Bảng kiểu CSS | Dựa trên thuộc tính | Kết xuất PDF |
| 5 | Khả năng đọc của con người | Xuất sắc (trình soạn thảo văn bản) | Tốt (trình soạn thảo XML) | Kém (định dạng nhị phân) |
Khả năng siêu dữ liệu
HOCR: Thông tin bố cục cơ bản, đánh dấu ngữ nghĩa hạn chế
ALTO: Siêu dữ liệu thư mục, kiểu chữ và cấu trúc phong phú
PDF/A: Siêu dữ liệu bảo tồn tiêu chuẩn hoá (XMP), dữ liệu OCR hạn chế
Áp dụng trong ngành
- HOCR: Cộng đồng mã nguồn mở, các dự án số hoá quy mô nhỏ
- ALTO: Các tổ chức di sản văn hoá, số hoá quy mô lớn
- PDF/A: Các lĩnh vực chính phủ, pháp lý, doanh nghiệp trên toàn cầu
Chuyển đổi giữa các định dạng
Hầu hết phần mềm OCR và nền tảng bảo tồn kỹ thuật số hỗ trợ chuyển đổi giữa các định dạng này:
Các đường chuyển đổi phổ biến:
- Engine OCR → ALTO → HOCR (để hiển thị web)
- Engine OCR → ALTO → PDF/A (để lưu trữ)
- PDF/A → ALTO/HOCR (thông qua công cụ trích xuất văn bản)
Công cụ chuyển đổi:
- Bộ xử lý OCR: Tesseract, Abbyy FineReader, Google Cloud Vision
- Công cụ chuyển đổi: pdftotext, pdf2xml, các công cụ chuyển đổi XML khác
- Nền tảng bảo tồn kỹ thuật số: Rosetta, Preservica, Archivematica
Các thực tiễn tốt nhất cho việc triển khai
- Bắt đầu với mục tiêu cuối cùng: Chọn định dạng dựa trên cách bạn sẽ sử dụng nội dung đã số hoá
- Xem xét toàn bộ quy trình làm việc: Từ quét, giao hàng đến bảo tồn
- Suy nghĩ về khả năng tương tác: Ai cần truy cập dữ liệu của bạn và bằng công cụ nào?
- Lập kế hoạch dài hạn: Bảo tồn kỹ thuật số đòi hỏi suy nghĩ trước về độ bền của định dạng
- Ghi lại lựa chọn của bạn: Tạo hướng dẫn rõ ràng cho đội ngũ số hoá
- Kiểm tra với người dùng thực tế: Đảm bảo định dạng đã chọn đáp ứng nhu cầu thực tế của người dùng
Kết luận: Phù hợp định dạng với mục đích
Không có một “định dạng tệp OCR” nào là tốt nhất cho mọi trường hợp—chỉ có định dạng phù hợp nhất với nhu cầu cụ thể của bạn. HOCR tỏa sáng trong môi trường web, ALTO chiếm ưu thế trong bảo tồn di sản văn hoá, và PDF/A dẫn đầu trong các ngữ cảnh quy định và tuân thủ. Hiểu rõ điểm mạnh và hạn chế của chúng giúp bạn đưa ra quyết định thông minh, hỗ trợ các dự án số hoá của bạn trong nhiều năm tới.
Câu hỏi thường gặp
Câu hỏi 1: Sự khác biệt chính giữa các định dạng HOCR và ALTO là gì?
Trả lời: HOCR là một định dạng dựa trên HTML, lý tưởng cho hiển thị trên web, trong khi ALTO là một định dạng dựa trên XML phong phú hơn, được các thư viện và kho lưu trữ ưa chuộng để bảo tồn siêu dữ liệu chi tiết.
Câu hỏi 2: Khi nào nên chọn PDF/A cho các tài liệu OCR của tôi?
Trả lời: Chọn PDF/A khi bạn cần bảo tồn ngoại hình chính xác của tài liệu để tuân thủ pháp lý hoặc lưu trữ lâu dài, đồng thời thêm văn bản có thể tìm kiếm.
Câu hỏi 3: Định dạng OCR nào tốt nhất cho nghiên cứu nhân văn số?
Trả lời: Định dạng ALTO thường là lựa chọn tốt nhất cho nghiên cứu vì cấu trúc XML chi tiết của nó hỗ trợ phân tích văn bản nâng cao và bảo tồn thông tin bố cục phức tạp.
Câu hỏi 4: Tôi có thể chuyển đổi giữa các định dạng HOCR, ALTO và PDF/A không?
Trả lời: Có, hầu hết phần mềm OCR và công cụ bảo tồn kỹ thuật số hỗ trợ chuyển đổi giữa các định dạng này, mặc dù một số siêu dữ liệu có thể bị mất trong quá trình chuyển đổi.
Câu hỏi 5: PDF/A có giống với PDF có thể tìm kiếm thông thường không?
Trả lời: Không, PDF/A là một tập con được tiêu chuẩn hoá ISO của PDF, được thiết kế đặc biệt cho bảo tồn lâu dài, với các yêu cầu nghiêm ngặt hơn so với các PDF thông thường.