آخرین به‌روزرسانی: 05 Jan, 2026

درک فرمت‌های فایل OCR: HOCR در مقابل ALTO در مقابل PDF/A

اگر تا به حال یک سند را اسکن کرده‌اید و تعجب کرده‌اید که کامپیوترها چگونه تصاویر متن را به محتوای قابل جستجو و ویرایش تبدیل می‌کنند، با دنیای تشخیص نوری کاراکتر (OCR) روبرو شده‌اید. اما داستان فقط به استخراج متن از تصاویر ختم نمی‌شود. جادوی واقعی در نحوهٔ ذخیره‌سازی و ساختاردهی این اطلاعات است.

زمانی که آرشیوهای تاریخی را دیجیتالی می‌کنید، فاکتورهای کسب‌وکار را پردازش می‌کنید، یا کتاب‌های چاپی را به کتابخانه‌های دیجیتال تبدیل می‌کنید، انتخاب فرمت خروجی OCR مناسب بسیار حیاتی می‌شود. سه فرمت در این زمینه غالب هستند: HOCR، ALTO و PDF/A. هر یک هدفهای متفاوتی دارند و درک تفاوت‌هایشان می‌تواند ساعت‌ها زمان و دردسر را در آینده صرفه‌جویی کند.

اجازه دهید همهٔ آنچه دربارهٔ این فرمت‌ها باید بدانید، از پایه‌های فنی تا کاربردهای عملی، را مرور کنیم.

فرمت‌های فایل OCR چیست؟

قبل از ورود به جزئیات فرمت‌های خاص، بیایید روشن کنیم فرمت‌های فایل OCR چه کاری انجام می‌دهند. وقتی نرم‌افزار OCR یک سند را پردازش می‌کند، فقط متن ساده را استخراج نمی‌کند؛ بلکه اطلاعات ساختاری و موقعیتی ارزشمندی را نیز به‌دست می‌آورد. این شامل موارد زیر است:

  • محتوای متنی: کلمات و کاراکترهای واقعی
  • اطلاعات چیدمان: مکان متن در صفحه (پاراگراف‌ها، ستون‌ها، سرصفحه‌ها)
  • داده‌های قالب‌بندی: سبک‌ها، اندازه‌ها و رنگ‌های قلم
  • امتیازهای اطمینان: میزان اطمینان موتور OCR برای هر کاراکتر
  • سلسله‌مراتب ساختاری: فصل‌ها، بخش‌ها، عناوین و پاورقی‌ها

فرمت‌های فایل OCR این متادیتای غنی را همراه با متن استخراج‌شده بسته‌بندی می‌کنند و یک نسخهٔ دیجیتال از سند اصلی می‌سازند که یکپارچگی بصری و ساختاری آن را حفظ می‌کند.

HOCR: رقیب مبتنی بر HTML

HOCR چیست؟

HOCR (مخفف HTML OCR) یک استاندارد باز است که نتایج OCR را درون فایل‌های HTML جاسازی می‌کند. این فرمت به‌عنوان بخشی از اکوسیستم موتور OCR Tesseract توسعه یافته و از نشانه‌گذاری استاندارد HTML به‌همراه کلاس‌ها و ویژگی‌های سفارشی برای نمایش داده‌های OCR استفاده می‌کند.

ساختار فنی

یک فایل HOCR معمولی شبیه HTML آشناست اما با عناصری تخصصی:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
 <div class='ocr_carea' title='bbox 100 200 800 500'>
   <span class='ocr_line' title='bbox 110 210 790 240'>
     <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
     <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
   </span>
 </div>
</div>

ویژگی‌های title شامل مختصات جعبهٔ محدود (bbox) هستند که مکان دقیق هر عنصر متنی را روی صفحه مشخص می‌کنند.

ویژگی‌ها و مزایای کلیدی

  • سازگار با وب: چون بر پایه HTML ساخته شده، فایل‌های HOCR به‌راحتی در مرورگرهای وب نمایش داده می‌شوند
  • جداسازی سبک: از CSS برای ارائه استفاده می‌کند و محتوا و استایل را جدا می‌دارد
  • دسترس‌پذیری: ساختار معنایی HTML از خوانندگان صفحه و فناوری‌های کمکی پشتیبانی می‌کند
  • انعطاف‌پذیری: می‌تواند با سایر فناوری‌های وب (JavaScript، فریم‌ورک‌های CSS) ترکیب شود
  • استاندارد باز: بدون محدودیت‌های مالکیتی یا هزینه‌های لایسنس

موارد استفادهٔ رایج

  • کتابخانه‌ها و آرشیوهای دیجیتال با نمایشگرهای سند مبتنی بر وب
  • پروژه‌هایی که نیاز به ادغام آسان با برنامه‌های وب دارند
  • مواردی که خوانایی انسانی فایل دادهٔ OCR مهم است
  • پروژه‌های متن‌باز و تلاش‌های دیجیتالی‌سازی مشارکتی

ALTO: انتخاب آرشیویست‌ها

ALTO چیست؟

ALTO (Analyzed Layout and Text Object) یک فرمت مبتنی بر XML است که به‌طور خاص برای نمایش چیدمان و محتوای صفحات متنی طراحی شده است. این فرمت توسط کتابخانهٔ کنگرهٔ ایالات متحده توسعه و نگهداری می‌شود و به‌عنوان استانداردی در پروژه‌های دیجیتالی‌سازی میراث فرهنگی شناخته شده است.

ساختار فنی

ALTO از یک طرح‌وارهٔ XML ساختار یافته با عناصری اختصاصی برای اجزای مختلف صفحه استفاده می‌کند:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
 <Layout>
   <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
     <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
       <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
         <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
           <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
           <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
         </TextLine>
       </TextBlock>
     </PrintSpace>
   </Page>
 </Layout>
</alto>

ویژگی‌ها و مزایای کلیدی

  • متادیتای غنی: از اطلاعات تایپوگرافی، چیدمان و زبان‌شناسی دقیق پشتیبانی می‌کند
  • استانداردسازی: به‌طور گسترده‌ای توسط کتابخانه‌ها، آرشیوها و مؤسسات فرهنگی پذیرفته شده است
  • اعتبارسنجی: تعریف‌اسکیما (XSD) امکان اعتبارسنجی سخت‌گیرانه را فراهم می‌کند
  • قابلیت گسترش: می‌تواند با فضای‌نام‌های اضافی برای نیازهای خاص سفارشی شود
  • دوست‌دار حفظ: برای بایگانی دیجیتال طولانی‌مدت بسیار مناسب است

موارد استفادهٔ رایج

  • پروژه‌های دیجیتالی‌سازی کتابخانهٔ ملی
  • حفظ اسناد تاریخی
  • دیجیتالی‌سازی گستردهٔ روزنامه‌ها
  • پروژه‌های تحقیقاتی دانشگاهی که نیاز به تحلیل متنی دقیق دارند
  • تبادل داده بین مؤسسات در حوزهٔ میراث فرهنگی

PDF/A: قدرت‌مند حفظ‌سازی

PDF/A چیست؟

PDF/A (Portable Document Format/Archival) صرفاً یک فرمت OCR نیست، بلکه نسخه‌ای استاندارد شدهٔ ISO از PDF است که به‌طور خاص برای حفظ طولانی‌مدت اسناد الکترونیکی طراحی شده است. وقتی با OCR ترکیب می‌شود، اسنادی جستجوپذیر و قابل حفظ ایجاد می‌کند.

ساختار فنی

PDF/A متن OCR را به‌عنوان یک لایهٔ «پنهان» زیر تصویر صفحه تعبیه می‌کند، به‌طوری که ظاهر بصری اصلی حفظ می‌شود در حالی که قابلیت جستجو اضافه می‌شود:

  1. لایهٔ تصویر: تصویر اسکن‌شدهٔ صفحه (bitmap)
  2. لایهٔ متن: متن OCR قابل جستجو و نامرئی که با تصویر هم‌راستا است
  3. متادیتا: متادیتای استاندارد XMP برای اطلاعات حفظ‌سازی

ویژگی‌ها و مزایای کلیدی

  • دقت بصری: ظاهر دقیق اسناد اصلی را حفظ می‌کند
  • خودکفایی: تمام منابع لازم (فونت‌ها، پروفایل‌های رنگ) تعبیه می‌شوند
  • استاندارد ISO: خوانایی و سازگاری آینده را تضمین می‌کند
  • دسترس‌پذیری جهانی: می‌تواند توسط هر مرورگر PDF باز شود
  • سطوح انطباق متعدد:
    • PDF/A-1 (محدودترین، پایدارترین)
    • PDF/A-2 (شفافیت و لایه‌ها را می‌پذیرد)
    • PDF/A-3 (اجازهٔ تعبیهٔ فایل‌های منبع)

موارد استفادهٔ رایج

  • آرشیوهای اسناد قانونی و دولتی
  • برنامه‌های نگهداری سوابق شرکتی
  • حفظ سوابق پزشکی
  • جریان‌های کاری اسنادی که هم اصالت بصری و هم قابلیت جستجو را می‌طلبند
  • تطبیق با مقررات در مدیریت اسناد

تحلیل مقایسه‌ای: HOCR vs ALTO vs PDF/A

مقایسه ساختاری

شمارهویژگیHOCRALTOPDF/A
1فناوری پایهHTML/CSSXMLPDF + عناصر تعبیه‌شده
2تمرکز اصلینمایش وبمتادیتای دقیقحفظ بصری
3رابطهٔ متن/تصویرجداجدامتحد (متن زیر تصویر)
4رویکرد استایلاستایل‌شیت‌های CSSمبتنی بر ویژگی‌هارندر PDF
5قابلیت خواندن توسط انسانعالی (ویرایشگر متن)خوب (ویرایشگر XML)ضعیف (فرمت باینری)

قابلیت‌های متادیتا

HOCR: اطلاعات پایهٔ چیدمان، نشانه‌گذاری معنایی محدود
ALTO: متادیتای کتابشناختی، تایپوگرافی و ساختاری گسترده
PDF/A: متادیتای حفظ‌سازی استاندارد (XMP)، دادهٔ OCR محدود

پذیرش صنعتی

  • HOCR: جامعهٔ متن‌باز، پروژه‌های دیجیتالی‌سازی کوچکتر
  • ALTO: مؤسسات میراث فرهنگی، دیجیتالی‌سازی در مقیاس بزرگ
  • PDF/A: دولت‌ها، بخش‌های قانونی و شرکتی در سراسر جهان

تبدیل بین فرمت‌ها

اکثر نرم‌افزارهای OCR و پلتفرم‌های حفظ‌سازی دیجیتال از تبدیل بین این فرمت‌ها پشتیبانی می‌کنند: مسیرهای تبدیل رایج:

  • موتور OCR → ALTO → HOCR (برای نمایش وب)
  • موتور OCR → ALTO → PDF/A (برای بایگانی)
  • PDF/A → ALTO/HOCR (از طریق ابزارهای استخراج متن)

ابزارهای تبدیل:

  • پردازشگرهای OCR: Tesseract، Abbyy FineReader، Google Cloud Vision
  • ابزارهای تبدیل: pdftotext، pdf2xml، ابزارهای مختلف تبدیل XML
  • پلتفرم‌های حفظ‌سازی دیجیتال: Rosetta، Preservica، Archivematica

بهترین شیوه‌ها برای پیاده‌سازی

  1. با هدف نهایی خود شروع کنید: فرمت را بر اساس نحوهٔ استفادهٔ نهایی محتوا انتخاب کنید
  2. کل جریان کاری خود را در نظر بگیرید: از اسکن تا تحویل نهایی و بایگانی
  3. به قابلیت تعامل‌پذیری فکر کنید: چه کسانی به داده‌ها نیاز دارند و با چه ابزارهایی؟
  4. برای بلندمدت برنامه‌ریزی کنید: حفظ دیجیتال نیاز به پیش‌نگری دربارهٔ طول عمر فرمت دارد
  5. انتخاب‌های خود را مستند کنید: راهنمای واضحی برای تیم دیجیتالی‌سازی تهیه کنید
  6. با کاربران واقعی آزمایش کنید: اطمینان حاصل کنید فرمت انتخابی نیازهای واقعی کاربران را برآورده می‌کند

نتیجه‌گیری: تطبیق فرمت با هدف

هیچ «بهترین» فرمت واحد برای OCR وجود ندارد—فقط بهترین فرمت برای نیازهای خاص شماست. HOCR در محیط‌های وب برتری دارد، ALTO در حفظ‌سازی میراث فرهنگی پیشروست و PDF/A در زمینهٔ مقررات و انطباق برتر است. درک نقاط قوت و محدودیت‌های هر کدام به شما کمک می‌کند تصمیمات آگاهانه‌ای بگیرید که پروژه‌های دیجیتالی‌سازی شما را برای سال‌ها پشتیبانی کند.

پرسش‌های متداول

س1: تفاوت اصلی بین فرمت‌های HOCR و ALTO چیست؟

پ: HOCR یک فرمت مبتنی بر HTML است که برای نمایش وب مناسب است، در حالی که ALTO یک فرمت XML غنی‌تر است که توسط کتابخانه‌ها و آرشیوها برای حفظ متادیتای دقیق ترجیح داده می‌شود.

س2: چه زمانی باید PDF/A را برای اسناد OCR خود انتخاب کنم؟

پ: وقتی نیاز به حفظ ظاهر دقیق اسناد برای انطباق قانونی یا بایگانی طولانی‌مدت دارید و همزمان می‌خواهید متن جستجوپذیر باشد، PDF/A گزینهٔ مناسب است.

س3: کدام فرمت OCR برای پژوهش‌های علوم انسانی دیجیتال بهتر است؟

پ: فرمت ALTO معمولاً برای پژوهش‌ها مناسب‌تر است، زیرا ساختار XML دقیق آن از تحلیل‌های متنی پیشرفته پشتیبانی می‌کند و چیدمان پیچیده را حفظ می‌نماید.

س4: آیا می‌توانم بین فرمت‌های HOCR، ALTO و PDF/A تبدیل کنم؟

پ: بله، اکثر نرم‌افزارهای OCR و ابزارهای حفظ‌سازی دیجیتال امکان تبدیل بین این فرمت‌ها را دارند، هرچند ممکن است برخی متادیتا در حین تبدیل از دست بروند.

س5: آیا PDF/A همان PDF قابل جستجو عادی است؟

پ: نه، PDF/A یک زیرمجموعهٔ استاندارد ISO از PDF است که به‌طور خاص برای حفظ طولانی‌مدت طراحی شده و الزامات سخت‌گیرانه‌تری نسبت به PDFهای معمولی دارد.

مطالب مرتبط