آخرین بهروزرسانی: 05 Jan, 2026

اگر تا به حال یک سند را اسکن کردهاید و تعجب کردهاید که کامپیوترها چگونه تصاویر متن را به محتوای قابل جستجو و ویرایش تبدیل میکنند، با دنیای تشخیص نوری کاراکتر (OCR) روبرو شدهاید. اما داستان فقط به استخراج متن از تصاویر ختم نمیشود. جادوی واقعی در نحوهٔ ذخیرهسازی و ساختاردهی این اطلاعات است.
زمانی که آرشیوهای تاریخی را دیجیتالی میکنید، فاکتورهای کسبوکار را پردازش میکنید، یا کتابهای چاپی را به کتابخانههای دیجیتال تبدیل میکنید، انتخاب فرمت خروجی OCR مناسب بسیار حیاتی میشود. سه فرمت در این زمینه غالب هستند: HOCR، ALTO و PDF/A. هر یک هدفهای متفاوتی دارند و درک تفاوتهایشان میتواند ساعتها زمان و دردسر را در آینده صرفهجویی کند.
اجازه دهید همهٔ آنچه دربارهٔ این فرمتها باید بدانید، از پایههای فنی تا کاربردهای عملی، را مرور کنیم.
فرمتهای فایل OCR چیست؟
قبل از ورود به جزئیات فرمتهای خاص، بیایید روشن کنیم فرمتهای فایل OCR چه کاری انجام میدهند. وقتی نرمافزار OCR یک سند را پردازش میکند، فقط متن ساده را استخراج نمیکند؛ بلکه اطلاعات ساختاری و موقعیتی ارزشمندی را نیز بهدست میآورد. این شامل موارد زیر است:
- محتوای متنی: کلمات و کاراکترهای واقعی
- اطلاعات چیدمان: مکان متن در صفحه (پاراگرافها، ستونها، سرصفحهها)
- دادههای قالببندی: سبکها، اندازهها و رنگهای قلم
- امتیازهای اطمینان: میزان اطمینان موتور OCR برای هر کاراکتر
- سلسلهمراتب ساختاری: فصلها، بخشها، عناوین و پاورقیها
فرمتهای فایل OCR این متادیتای غنی را همراه با متن استخراجشده بستهبندی میکنند و یک نسخهٔ دیجیتال از سند اصلی میسازند که یکپارچگی بصری و ساختاری آن را حفظ میکند.
HOCR: رقیب مبتنی بر HTML
HOCR چیست؟
HOCR (مخفف HTML OCR) یک استاندارد باز است که نتایج OCR را درون فایلهای HTML جاسازی میکند. این فرمت بهعنوان بخشی از اکوسیستم موتور OCR Tesseract توسعه یافته و از نشانهگذاری استاندارد HTML بههمراه کلاسها و ویژگیهای سفارشی برای نمایش دادههای OCR استفاده میکند.
ساختار فنی
یک فایل HOCR معمولی شبیه HTML آشناست اما با عناصری تخصصی:
<div class='ocr_page' title='bbox 0 0 1700 2200'>
<div class='ocr_carea' title='bbox 100 200 800 500'>
<span class='ocr_line' title='bbox 110 210 790 240'>
<span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
<span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
</span>
</div>
</div>
ویژگیهای title شامل مختصات جعبهٔ محدود (bbox) هستند که مکان دقیق هر عنصر متنی را روی صفحه مشخص میکنند.
ویژگیها و مزایای کلیدی
- سازگار با وب: چون بر پایه HTML ساخته شده، فایلهای HOCR بهراحتی در مرورگرهای وب نمایش داده میشوند
- جداسازی سبک: از CSS برای ارائه استفاده میکند و محتوا و استایل را جدا میدارد
- دسترسپذیری: ساختار معنایی HTML از خوانندگان صفحه و فناوریهای کمکی پشتیبانی میکند
- انعطافپذیری: میتواند با سایر فناوریهای وب (JavaScript، فریمورکهای CSS) ترکیب شود
- استاندارد باز: بدون محدودیتهای مالکیتی یا هزینههای لایسنس
موارد استفادهٔ رایج
- کتابخانهها و آرشیوهای دیجیتال با نمایشگرهای سند مبتنی بر وب
- پروژههایی که نیاز به ادغام آسان با برنامههای وب دارند
- مواردی که خوانایی انسانی فایل دادهٔ OCR مهم است
- پروژههای متنباز و تلاشهای دیجیتالیسازی مشارکتی
ALTO: انتخاب آرشیویستها
ALTO چیست؟
ALTO (Analyzed Layout and Text Object) یک فرمت مبتنی بر XML است که بهطور خاص برای نمایش چیدمان و محتوای صفحات متنی طراحی شده است. این فرمت توسط کتابخانهٔ کنگرهٔ ایالات متحده توسعه و نگهداری میشود و بهعنوان استانداردی در پروژههای دیجیتالیسازی میراث فرهنگی شناخته شده است.
ساختار فنی
ALTO از یک طرحوارهٔ XML ساختار یافته با عناصری اختصاصی برای اجزای مختلف صفحه استفاده میکند:
<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
<Layout>
<Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
<PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
<TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
<TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
<String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
<String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
ویژگیها و مزایای کلیدی
- متادیتای غنی: از اطلاعات تایپوگرافی، چیدمان و زبانشناسی دقیق پشتیبانی میکند
- استانداردسازی: بهطور گستردهای توسط کتابخانهها، آرشیوها و مؤسسات فرهنگی پذیرفته شده است
- اعتبارسنجی: تعریفاسکیما (XSD) امکان اعتبارسنجی سختگیرانه را فراهم میکند
- قابلیت گسترش: میتواند با فضاینامهای اضافی برای نیازهای خاص سفارشی شود
- دوستدار حفظ: برای بایگانی دیجیتال طولانیمدت بسیار مناسب است
موارد استفادهٔ رایج
- پروژههای دیجیتالیسازی کتابخانهٔ ملی
- حفظ اسناد تاریخی
- دیجیتالیسازی گستردهٔ روزنامهها
- پروژههای تحقیقاتی دانشگاهی که نیاز به تحلیل متنی دقیق دارند
- تبادل داده بین مؤسسات در حوزهٔ میراث فرهنگی
PDF/A: قدرتمند حفظسازی
PDF/A چیست؟
PDF/A (Portable Document Format/Archival) صرفاً یک فرمت OCR نیست، بلکه نسخهای استاندارد شدهٔ ISO از PDF است که بهطور خاص برای حفظ طولانیمدت اسناد الکترونیکی طراحی شده است. وقتی با OCR ترکیب میشود، اسنادی جستجوپذیر و قابل حفظ ایجاد میکند.
ساختار فنی
PDF/A متن OCR را بهعنوان یک لایهٔ «پنهان» زیر تصویر صفحه تعبیه میکند، بهطوری که ظاهر بصری اصلی حفظ میشود در حالی که قابلیت جستجو اضافه میشود:
- لایهٔ تصویر: تصویر اسکنشدهٔ صفحه (bitmap)
- لایهٔ متن: متن OCR قابل جستجو و نامرئی که با تصویر همراستا است
- متادیتا: متادیتای استاندارد XMP برای اطلاعات حفظسازی
ویژگیها و مزایای کلیدی
- دقت بصری: ظاهر دقیق اسناد اصلی را حفظ میکند
- خودکفایی: تمام منابع لازم (فونتها، پروفایلهای رنگ) تعبیه میشوند
- استاندارد ISO: خوانایی و سازگاری آینده را تضمین میکند
- دسترسپذیری جهانی: میتواند توسط هر مرورگر PDF باز شود
- سطوح انطباق متعدد:
- PDF/A-1 (محدودترین، پایدارترین)
- PDF/A-2 (شفافیت و لایهها را میپذیرد)
- PDF/A-3 (اجازهٔ تعبیهٔ فایلهای منبع)
موارد استفادهٔ رایج
- آرشیوهای اسناد قانونی و دولتی
- برنامههای نگهداری سوابق شرکتی
- حفظ سوابق پزشکی
- جریانهای کاری اسنادی که هم اصالت بصری و هم قابلیت جستجو را میطلبند
- تطبیق با مقررات در مدیریت اسناد
تحلیل مقایسهای: HOCR vs ALTO vs PDF/A
مقایسه ساختاری
| شماره | ویژگی | HOCR | ALTO | PDF/A |
|---|---|---|---|---|
| 1 | فناوری پایه | HTML/CSS | XML | PDF + عناصر تعبیهشده |
| 2 | تمرکز اصلی | نمایش وب | متادیتای دقیق | حفظ بصری |
| 3 | رابطهٔ متن/تصویر | جدا | جدا | متحد (متن زیر تصویر) |
| 4 | رویکرد استایل | استایلشیتهای CSS | مبتنی بر ویژگیها | رندر PDF |
| 5 | قابلیت خواندن توسط انسان | عالی (ویرایشگر متن) | خوب (ویرایشگر XML) | ضعیف (فرمت باینری) |
قابلیتهای متادیتا
HOCR: اطلاعات پایهٔ چیدمان، نشانهگذاری معنایی محدود
ALTO: متادیتای کتابشناختی، تایپوگرافی و ساختاری گسترده
PDF/A: متادیتای حفظسازی استاندارد (XMP)، دادهٔ OCR محدود
پذیرش صنعتی
- HOCR: جامعهٔ متنباز، پروژههای دیجیتالیسازی کوچکتر
- ALTO: مؤسسات میراث فرهنگی، دیجیتالیسازی در مقیاس بزرگ
- PDF/A: دولتها، بخشهای قانونی و شرکتی در سراسر جهان
تبدیل بین فرمتها
اکثر نرمافزارهای OCR و پلتفرمهای حفظسازی دیجیتال از تبدیل بین این فرمتها پشتیبانی میکنند: مسیرهای تبدیل رایج:
- موتور OCR → ALTO → HOCR (برای نمایش وب)
- موتور OCR → ALTO → PDF/A (برای بایگانی)
- PDF/A → ALTO/HOCR (از طریق ابزارهای استخراج متن)
ابزارهای تبدیل:
- پردازشگرهای OCR: Tesseract، Abbyy FineReader، Google Cloud Vision
- ابزارهای تبدیل: pdftotext، pdf2xml، ابزارهای مختلف تبدیل XML
- پلتفرمهای حفظسازی دیجیتال: Rosetta، Preservica، Archivematica
بهترین شیوهها برای پیادهسازی
- با هدف نهایی خود شروع کنید: فرمت را بر اساس نحوهٔ استفادهٔ نهایی محتوا انتخاب کنید
- کل جریان کاری خود را در نظر بگیرید: از اسکن تا تحویل نهایی و بایگانی
- به قابلیت تعاملپذیری فکر کنید: چه کسانی به دادهها نیاز دارند و با چه ابزارهایی؟
- برای بلندمدت برنامهریزی کنید: حفظ دیجیتال نیاز به پیشنگری دربارهٔ طول عمر فرمت دارد
- انتخابهای خود را مستند کنید: راهنمای واضحی برای تیم دیجیتالیسازی تهیه کنید
- با کاربران واقعی آزمایش کنید: اطمینان حاصل کنید فرمت انتخابی نیازهای واقعی کاربران را برآورده میکند
نتیجهگیری: تطبیق فرمت با هدف
هیچ «بهترین» فرمت واحد برای OCR وجود ندارد—فقط بهترین فرمت برای نیازهای خاص شماست. HOCR در محیطهای وب برتری دارد، ALTO در حفظسازی میراث فرهنگی پیشروست و PDF/A در زمینهٔ مقررات و انطباق برتر است. درک نقاط قوت و محدودیتهای هر کدام به شما کمک میکند تصمیمات آگاهانهای بگیرید که پروژههای دیجیتالیسازی شما را برای سالها پشتیبانی کند.
پرسشهای متداول
س1: تفاوت اصلی بین فرمتهای HOCR و ALTO چیست؟
پ: HOCR یک فرمت مبتنی بر HTML است که برای نمایش وب مناسب است، در حالی که ALTO یک فرمت XML غنیتر است که توسط کتابخانهها و آرشیوها برای حفظ متادیتای دقیق ترجیح داده میشود.
س2: چه زمانی باید PDF/A را برای اسناد OCR خود انتخاب کنم؟
پ: وقتی نیاز به حفظ ظاهر دقیق اسناد برای انطباق قانونی یا بایگانی طولانیمدت دارید و همزمان میخواهید متن جستجوپذیر باشد، PDF/A گزینهٔ مناسب است.
س3: کدام فرمت OCR برای پژوهشهای علوم انسانی دیجیتال بهتر است؟
پ: فرمت ALTO معمولاً برای پژوهشها مناسبتر است، زیرا ساختار XML دقیق آن از تحلیلهای متنی پیشرفته پشتیبانی میکند و چیدمان پیچیده را حفظ مینماید.
س4: آیا میتوانم بین فرمتهای HOCR، ALTO و PDF/A تبدیل کنم؟
پ: بله، اکثر نرمافزارهای OCR و ابزارهای حفظسازی دیجیتال امکان تبدیل بین این فرمتها را دارند، هرچند ممکن است برخی متادیتا در حین تبدیل از دست بروند.
س5: آیا PDF/A همان PDF قابل جستجو عادی است؟
پ: نه، PDF/A یک زیرمجموعهٔ استاندارد ISO از PDF است که بهطور خاص برای حفظ طولانیمدت طراحی شده و الزامات سختگیرانهتری نسبت به PDFهای معمولی دارد.