마지막 업데이트: 05 Jan, 2026

문서를 스캔하고 텍스트 이미지가 어떻게 검색 가능하고 편집 가능한 콘텐츠로 변환되는지 궁금해 본 적이 있다면, **광학 문자 인식 (OCR)**의 세계를 접한 것입니다. 하지만 이야기는 단순히 이미지에서 텍스트를 추출하는 것에 그치지 않습니다. 진정한 마법은 그 정보가 어떻게 저장되고 구조화되는가에 있습니다.
역사적 아카이브를 디지털화하거나, 비즈니스 청구서를 처리하거나, 인쇄된 책을 디지털 라이브러리로 변환할 때, 올바른 OCR 출력 포맷을 선택하는 것이 중요합니다. 이 분야를 주도하는 세 가지 포맷은 HOCR, ALTO, PDF/A입니다. 각각은 고유한 목적을 가지고 있으며, 차이를 이해하면 향후 겪을 수 있는 수많은 좌절을 줄일 수 있습니다.
이제 이 포맷들에 대해 기술적 기반부터 실제 적용까지 알아야 할 모든 내용을 안내해 드리겠습니다.
OCR 파일 포맷이란?
특정 포맷을 살펴보기 전에, OCR 파일 포맷이 실제로 하는 일을 정의해 보겠습니다. OCR 소프트웨어가 문서를 처리할 때 단순히 일반 텍스트만 추출하는 것이 아니라, 중요한 구조적 및 위치 정보를 포착합니다. 여기에는 다음이 포함됩니다:
- 텍스트 내용: 실제 단어와 문자
- 레이아웃 정보: 텍스트가 페이지에 나타나는 위치(단락, 열, 헤더)
- 서식 데이터: 글꼴 스타일, 크기, 색상
- 신뢰도 점수: OCR 엔진이 각 문자에 대해 얼마나 확신하는지
- 구조적 계층: 장, 섹션, 헤딩, 각주
HOCR: HTML 기반 경쟁자
HOCR란?
HOCR(HTML OCR의 약자)은 OCR 결과를 HTML 파일에 삽입하는 오픈 표준입니다. Tesseract OCR 엔진 생태계의 일부로 개발되었으며, 사용자 정의 클래스와 속성을 추가한 표준 HTML 마크업을 사용해 OCR 데이터를 표현합니다.
기술 구조
일반적인 HOCR 파일은 익숙한 HTML과 유사하지만 특수한 요소를 포함합니다:
<div class='ocr_page' title='bbox 0 0 1700 2200'>
<div class='ocr_carea' title='bbox 100 200 800 500'>
<span class='ocr_line' title='bbox 110 210 790 240'>
<span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
<span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
</span>
</div>
</div>
title 속성에는 각 텍스트 요소의 정확한 위치를 나타내는 경계 상자 좌표(bbox)가 들어 있습니다.
주요 특징 및 장점
- 웹 친화적: HTML 기반이므로 HOCR 파일을 웹 브라우저에서 쉽게 표시할 수 있습니다.
- 스타일 분리: 프레젠테이션에 CSS를 사용해 콘텐츠와 스타일을 분리합니다.
- 접근성: 의미론적 HTML 구조가 스크린 리더 및 보조 기술을 지원합니다.
- 유연성: 다른 웹 기술(JavaScript, CSS 프레임워크)과 결합할 수 있습니다.
- 오픈 표준: 독점 제한이나 라이선스 비용이 없습니다.
일반적인 사용 사례
- 웹 기반 문서 뷰어를 갖춘 디지털 도서관 및 아카이브
- 웹 애플리케이션과의 쉬운 통합이 필요한 프로젝트
- OCR 데이터 파일의 인간 가독성이 중요한 상황
- 오픈소스 프로젝트 및 협업 디지털화 작업
ALTO: 아카이브 전문가의 선택
ALTO란?
ALTO(Analyzed Layout and Text Object)는 텍스트 페이지의 레이아웃과 내용을 표현하도록 특별히 설계된 XML 기반 포맷입니다. 미국 의회 도서관(Library of Congress)에서 개발·유지 관리하며, 문화 유산 디지털화 프로젝트에서 표준이 되었습니다.
기술 구조
ALTO는 페이지 구성 요소별 전용 요소를 갖는 구조화된 XML 스키마를 사용합니다:
<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
<Layout>
<Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
<PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
<TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
<TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
<String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
<String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
주요 특징 및 장점
- 풍부한 메타데이터: 상세한 타이포그래피, 레이아웃, 언어 정보를 지원합니다.
- 표준화: 도서관, 아카이브, 문화 기관에서 널리 채택됩니다.
- 검증: XML 스키마 정의(XSD)를 통해 엄격한 검증이 가능합니다.
- 확장성: 특수 요구에 맞게 추가 네임스페이스로 커스터마이징할 수 있습니다.
- 보존 친화적: 장기 디지털 보관에 탁월합니다.
일반적인 사용 사례
- 국가 도서관 디지털화 프로젝트
- 역사 문서 보존
- 대규모 신문 디지털화
- 상세 텍스트 분석이 필요한 학술 연구 프로젝트
- 문화 유산 분야의 기관 간 데이터 교환
PDF/A: 보존 강자
PDF/A란?
PDF/A(Portable Document Format/Archival)는 OCR 전용 포맷이 아니라 전자 문서의 장기 보존을 위해 특별히 설계된 ISO 표준 PDF 버전입니다. OCR과 결합하면 검색 가능하고 보존 가능한 문서를 만들 수 있습니다.
기술 구조
PDF/A는 페이지 이미지 아래에 ‘숨김’ 레이어로 OCR 텍스트를 삽입하여 원본 시각적 모습을 유지하면서 검색 가능성을 추가합니다:
- 이미지 레이어: 스캔된 페이지 이미지(비트맵)
- 텍스트 레이어: 이미지와 정렬된 보이지 않는 검색 가능한 OCR 텍스트
- 메타데이터: 보존 정보를 위한 표준화된 XMP 메타데이터
주요 특징 및 장점
- 시각적 충실도: 원본 문서의 정확한 시각적 모습을 보존합니다.
- 자체 포함: 필요한 모든 리소스(폰트, 색상 프로파일)가 포함됩니다.
- ISO 표준화: 향후 가독성과 일관성을 보장합니다.
- 범용 접근성: 모든 PDF 뷰어에서 열 수 있습니다.
- 다중 호환 수준:
- PDF/A-1(가장 제한적이며 가장 안정적)
- PDF/A-2(투명도와 레이어 허용)
- PDF/A-3(원본 파일 삽입 허용)
일반적인 사용 사례
- 법률 및 정부 문서 아카이브
- 기업 기록 보존 프로그램
- 의료 기록 보존
- 시각적 진위와 검색 가능성을 모두 요구하는 문서 워크플로
- 문서 관리에서 규제 준수
비교 분석: HOCR vs ALTO vs PDF/A
구조 비교
| 번호 | 특징 | HOCR | ALTO | PDF/A |
|---|---|---|---|---|
| 1 | 기본 기술 | HTML/CSS | XML | PDF + embedded elements |
| 2 | 주요 초점 | 웹 표시 | 상세 메타데이터 | 시각적 보존 |
| 3 | 텍스트/이미지 관계 | 분리 | 분리 | 결합 (이미지 아래 텍스트) |
| 4 | 스타일링 접근법 | CSS 스타일시트 | 속성 기반 | PDF 렌더링 |
| 5 | 인간 가독성 | 우수 (텍스트 편집기) | 양호 (XML 편집기) | 불량 (바이너리 형식) |
메타데이터 기능
HOCR: 기본 레이아웃 정보, 제한된 의미 마크업
ALTO: 광범위한 서지, 타이포그래피 및 구조 메타데이터
PDF/A: 표준화된 보존 메타데이터(XMP), 제한된 OCR 전용 데이터
산업 채택
- HOCR: 오픈소스 커뮤니티, 소규모 디지털화 프로젝트
- ALTO: 문화 유산 기관, 대규모 디지털화
- PDF/A: 전 세계 정부, 법률, 기업 부문
포맷 간 변환
대부분의 OCR 소프트웨어와 디지털 보존 플랫폼은 이들 포맷 간 변환을 지원합니다:
일반적인 변환 경로:
- OCR 엔진 → ALTO → HOCR (웹 표시용)
- OCR 엔진 → ALTO → PDF/A (보관용)
- PDF/A → ALTO/HOCR (텍스트 추출 도구를 통해)
변환 도구:
- OCR 프로세서: Tesseract, Abbyy FineReader, Google Cloud Vision
- 변환 도구: pdftotext, pdf2xml, 다양한 XML 변환 도구
- 디지털 보존 플랫폼: Rosetta, Preservica, Archivematica
구현을 위한 모범 사례
- 최종 목표부터 설정하세요: 디지털화된 콘텐츠를 어떻게 활용할지에 따라 포맷을 선택합니다.
- 전체 워크플로를 고려하세요: 스캔부터 전달, 보존까지.
- 상호 운용성을 생각하세요: 누가 어떤 도구로 데이터에 접근해야 하는가?
- 장기 계획을 세우세요: 디지털 보존은 포맷 지속성에 대한 사전 고려가 필요합니다.
- 선택을 문서화하세요: 디지털화 팀을 위한 명확한 가이드라인을 작성합니다.
- 실제 사용자와 테스트하세요: 선택한 포맷이 실제 사용자 요구를 충족하는지 확인합니다.
결론: 목적에 맞는 포맷 선택
단일 ‘최고’ OCR 파일 포맷은 없으며, 특정 요구에 가장 적합한 포맷만 존재합니다. HOCR은 웹 환경에서 뛰어나고, ALTO는 문화 유산 보존에서 우세하며, PDF/A는 규제 및 컴플라이언스 상황에서 선두합니다. 각 포맷의 강점과 한계를 이해하면 향후 수년간 디지털화 프로젝트에 도움이 되는 현명한 결정을 내릴 수 있습니다.
FAQ
Q1: HOCR와 ALTO 포맷의 주요 차이점은 무엇인가요?
A: HOCR는 웹 표시용으로 최적화된 HTML 기반 포맷이며, ALTO는 도서관 및 아카이브에서 상세 메타데이터 보존을 위해 선호되는 풍부한 XML 기반 포맷입니다.
Q2: OCR 문서에 PDF/A를 선택해야 하는 경우는 언제인가요?
A: 법적 준수나 장기 보관을 위해 문서의 정확한 시각적 모습을 유지하면서 검색 가능성을 추가해야 할 때 PDF/A를 선택합니다.
Q3: 디지털 인문학 연구에 가장 적합한 OCR 포맷은 무엇인가요?
A: ALTO 포맷은 상세한 XML 구조가 고급 텍스트 분석을 지원하고 복잡한 레이아웃 정보를 보존하기 때문에 디지털 인문학 연구에 일반적으로 가장 적합합니다.
Q4: HOCR, ALTO, PDF/A 포맷 간에 변환할 수 있나요?
A: 예, 대부분의 OCR 소프트웨어와 디지털 보존 도구가 이들 포맷 간 변환을 지원하지만, 변환 과정에서 일부 메타데이터가 손실될 수 있습니다.
Q5: PDF/A가 일반적인 검색 가능한 PDF와 동일한가요?
A: 아니요, PDF/A는 장기 보존을 위해 설계된 ISO 표준 하위 집합으로, 일반 검색 가능한 PDF보다 더 엄격한 요구 사항을 갖습니다.