Son yenilənmə: 05 Jan, 2026

OCR fayl formatlarını anlamaq: HOCR vs ALTO vs PDF/A izahı

Əgər sənədinizi skan edib mətnin şəkillərdən axtarıla bilən, redaktə edilə bilən məzmuna necə çevrildiyini düşündünüzsə, Optik Simvol Tanıma (OCR) dünyası ilə tanışsınız deməkdir. Lakin hekayə yalnız şəkillərdən mətn çıxarmaqla bitmir. Əsl sehr, bu məlumatın necə saxlanıldığı və strukturlaşdırıldığıdır.

Tarixi arxivləri rəqəmsallaşdırarkən, iş fakturalarını emal edərkən və ya çap olunmuş kitabları rəqəmsal kitabxanalara çevirmək üçün doğru OCR çıxış formatını seçmək kritik əhəmiyyət daşıyır. Bu sahədə üç format üstünlük təşkil edir: HOCR, ALTO və PDF/A. Hər biri fərqli məqsədlərə xidmət edir və onların fərqlərini anlamaq uzun müddət ərzində sizə minlərlə saatlıq əziyyətdən qurtara bilər.

Gəlin bu formatlar haqqında texniki əsaslardan praktik tətbiqlərə qədər hər şeyi addım-addım nəzərdən keçirək.

OCR fayl formatları nədir?

Xüsusi formatlara keçməzdən əvvəl OCR fayl formatlarının nə etdiyini müəyyənləşdirək. OCR proqramı bir sənədi emal edərkən yalnız sadə mətn çıxarmır – həm də dəyərli struktur və mövqe məlumatlarını ələ keçirir. Bunlar arasında:

  • Mətn məzmunu: Həqiqi sözlər və simvollar
  • Düzülüş məlumatı: Mətnin səhifədə harada göründüyü (paraqraflar, sütunlar, başlıqlar)
  • Formatlama məlumatı: Şrift stilləri, ölçüləri və rəngləri
  • Etibarlılıq balları: OCR mühərrikinin hər bir simvol üçün nə qədər əmin olduğu
  • Struktur iyerarxiyası: Bölmələr, altbölmələr, başlıqlar və dipnotlar

OCR fayl formatları bu zəngin meta‑verilənləri çıxarılan mətnlə birlikdə paketləyir, orijinal sənədin vizual və struktur bütövlüyünü qoruyan rəqəmsal bir ikiz yaradır.

HOCR: HTML‑əsaslı namizəd

HOCR nədir?

HOCR (HTML OCR qısaltması) OCR nəticələrini HTML faylları daxilində yerləşdirən açıq standartdır. Tesseract OCR mühərrikinin ekosistemi çərçivəsində hazırlanmışdır və OCR məlumatını təmsil etmək üçün xüsusi siniflər və atributlarla zənginləşdirilmiş standart HTML işarələməsindən istifadə edir.

Texniki quruluş

Tipik bir HOCR faylı tanış HTML‑yə bənzəyir, lakin xüsusi elementlərlə:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
  <div class='ocr_carea' title='bbox 100 200 800 500'>
    <span class='ocr_line' title='bbox 110 210 790 240'>
      <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
      <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
    </span>
  </div>
</div>

title atributları hər bir mətn elementinin səhifədə dəqiq yerini göstərən sərhəd qutusu (bbox) koordinatlarını saxlayır.

Əsas xüsusiyyətlər və üstünlüklər

  • Veb‑dostu: HTML‑yə əsaslandığı üçün HOCR faylları veb brauzerlərdə asanlıqla göstərilə bilər
  • Stil ayrılığı: Məzmun və təqdimatı ayrı saxlayan CSS‑dən istifadə edir
  • Əlçatanlıq: Semantik HTML strukturu ekran oxuyucular və köməkçi texnologiyalar üçün dəstəklidir
  • Çeviklik: JavaScript, CSS çərçivələri kimi digər veb texnologiyaları ilə birləşdirilə bilər
  • Açıq standart: Patent və ya lisenziya ödənişləri yoxdur

Ümumi istifadə halları

  • Veb‑əsaslı sənəd görüntüləyiciləri olan rəqəmsal kitabxanalar və arxivlər
  • Veb tətbiqləri ilə asan inteqrasiya tələb edən layihələr
  • OCR məlumat faylının insan tərəfindən oxunaqlı olması vacib olduğu hallarda
  • Açıq‑mənbəli və əməkdaşlıqlı rəqəmsallaşma təşəbbüsləri

ALTO: Arxivçilərin seçimi

ALTO nədir?

ALTO (Analyzed Layout and Text Object) mətn səhifələrinin düzülüş və məzmununu təmsil etmək üçün xüsusi hazırlanmış XML‑əsaslı formatdır. Library of Congress tərəfindən hazırlanıb və idarə olunur və mədəni irs rəqəmsallaşma layihələrində standart halına gəlmişdir.

Texniki quruluş

ALTO strukturlaşdırılmış XML sxemi istifadə edir və müxtəlif səhifə komponentləri üçün ayrılmış elementlər təqdim edir:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
  <Layout>
    <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
      <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
        <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
          <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
            <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
            <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
          </TextLine>
        </TextBlock>
      </PrintSpace>
    </Page>
  </Layout>
</alto>

Əsas xüsusiyyətlər və üstünlüklər

  • Zəngin meta‑verilənlər: Detallı tipografik, düzülüş və dil məlumatlarını dəstəkləyir
  • Standartlaşma: Kitabxanalar, arxivlər və mədəniyyət institutları tərəfindən geniş qəbul edilir
  • Doğrulama: XML Schema Definition (XSD) vasitəsilə sərt doğrulama imkanı verir
  • Genişləndirilə bilənlik: Xüsusi ehtiyaclar üçün əlavə ad məkanları ilə fərdiləşdirilə bilər
  • Arxiv‑dostu: Uzunmüddətli rəqəmsal arxivləşdirmə üçün ideal

Ümumi istifadə halları

  • Milli kitabxana rəqəmsallaşma layihələri
  • Tarixi sənədlərin qorunması
  • Böyük miqyaslı qəzet rəqəmsallaşması
  • Detallı mətn təhlili tələb edən akademik tədqiqatlar
  • Mədəni irs sektorunda qurumlararası məlumat mübadiləsi

PDF/A: Arxivləşdirmə gücü

PDF/A nədir?

PDF/A (Portable Document Format/Arxiv) yalnız OCR formatı deyil, uzunmüddətli elektron sənəd arxivləşdirməsi üçün xüsusi hazırlanmış ISO‑standartlı PDF versiyasıdır. OCR ilə birləşdirildikdə axtarıla bilən, arxivləşdirilə bilən sənədlər yaradır.

Texniki quruluş

PDF/A OCR mətnini səhifə görüntüsünün altında “gizli” qat kimi yerləşdirir, beləliklə orijinal vizual görünüş qorunur, axtarış isə mümkün olur:

  1. Şəkil qat: Skann edilmiş səhifə şəkli (bitmap)
  2. Mətn qat: Şəkilə uyğunlaşdırılmış, görünməyən, axtarıla bilən OCR mətn qat
  3. Meta‑verilənlər: Arxivləşdirmə məlumatları üçün standartlaşdırılmış XMP meta‑verilənlər

Əsas xüsusiyyətlər və üstünlüklər

  • Vizual dəqiqlik: Orijinal sənədlərin tam vizual görünüşünü saxlayır
  • Öz‑tərkibli: Lazımi bütün resurslar (şriftlər, rəng profilləri) daxil edilir
  • ISO standartı: Gələcəkdə oxunaqlılıq və uyğunluq təmin edilir
  • Ümumi əlçatanlıq: Hər hansı PDF oxuyucusu ilə açılır
  • Çoxsaylı uyğunluq səviyyələri:
    • PDF/A-1 (ən məhdud, ən sabit)
    • PDF/A-2 (şəffaflıq və qatları dəstəkləyir)
    • PDF/A-3 (mənbə faylların əlavə edilməsinə icazə verir)

Ümumi istifadə halları

  • Hüquqi və dövlət sənədləri arxivləri
  • Korporativ qeydiyyat proqramları
  • Tibbi qeydlərin qorunması
  • Vizual orijinallıqla axtarıla bilənliyi birləşdirən sənəd iş axınları
  • Sənəd idarəçiliyində tənzimləmə uyğunluğu

Müqayisəli təhlil: HOCR vs ALTO vs PDF/A

Struktur müqayisəsi

No.XüsusiyyətHOCRALTOPDF/A
1Əsas texnologiyaHTML/CSSXMLPDF + əlavə elementlər
2Əsas fokusVeb görüntüləməDetallı meta‑verilənlərVizual arxivləşdirmə
3Mətn/Şəkil əlaqəsiAyrıAyrıBirləşmiş (şəkil altında mətn)
4Stil yanaşmasıCSS stil cədvəlləriAtribut‑əsaslıPDF renderləməsi
5İnsan oxunaqlığıƏla (mətn redaktoru)Yaxşı (XML redaktoru)Zəif (ikili format)

Meta‑verilənlər imkanları

HOCR: Əsas düzülüş məlumatları, məhdud semantik işarələmə
ALTO: Geniş biblioqrafik, tipografik və struktur meta‑verilənlər
PDF/A: Standartlaşdırılmış arxiv meta‑verilənləri (XMP), məhdud OCR‑xüsusi məlumatlar

Sənaye tətbiqi

  • HOCR: Açıq‑mənbəli icma, kiçik rəqəmsallaşma layihələri
  • ALTO: Mədəni irs qurumları, böyük miqyaslı rəqəmsallaşma
  • PDF/A: Dövlət, hüquqi, korporativ sektorlar dünya üzrə

Formatlar arası çevrim

Əksər OCR proqramları və rəqəmsal arxiv platformaları bu formatlar arasında çevirməni dəstəkləyir:

Ümumi çevrim yolları

  • OCR mühərriki → ALTO → HOCR (vəb görüntüləmə üçün)
  • OCR mühərriki → ALTO → PDF/A (arxivləşdirmə üçün)
  • PDF/A → ALTO/HOCR (mətn çıxarış alətləri vasitəsilə)

Çevrim üçün alətlər

  • OCR prosessorları: Tesseract, Abbyy FineReader, Google Cloud Vision
  • Çevrim alətları: pdftotext, pdf2xml, müxtəlif XML transformasiya alətləri
  • Rəqəmsal arxiv platformaları: Rosetta, Preservica, Archivematica

İcra üçün ən yaxşı təcrübələr

  1. Nəticə məqsədinizi müəyyən edin: Formatı rəqəmsallaşdırılmış məzmunu necə istifadə edəcəyinizə görə seçin
  2. Bütün iş axınını nəzərə alın: Skanninqdən çatdırılmaya, arxivləşdirməyə qədər
  3. İnteroperabiliti düşünün: Məlumatınıza kimlər və hansı alətlərlə çatacaq?
  4. Uzunmüddətli planlaşdırma: Rəqəmsal arxivləşdirmə formatın ömrü barədə düşünün
  5. Seçimlərinizi sənədləşdirin: Rəqəmsallaşma komandası üçün aydın qaydalar yaradın
  6. İstifadəçilərlə test edin: Seçdiyiniz formatın real istifadəçi ehtiyaclarını qarşıladığından əmin olun

Nəticə: Formatı məqsədə uyğunlaşdırmaq

“Ən yaxşı” OCR fayl formatı yoxdur – yalnız sizin konkret ehtiyaclarınıza ən uyğun format var. HOCR veb mühitlərində üstünlük təşkil edir, ALTO mədəni irs arxivləşdirməsində liderdir, PDF/A isə tənzimləmə və uyğunluq kontekstlərində qabaqdadır. Onların güclü və zəif tərəflərini başa düşmək, rəqəmsallaşma layihələrinizin illərlə davam edəcək uğurlu nəticələr əldə etməsinə kömək edəcək.

Tez-tez verilən suallar

S1: HOCR və ALTO formatları arasındakı əsas fərq nədir?
Cavab: HOCR veb görüntüləmə üçün ideal olan HTML‑əsaslı formatdır, ALTO isə kitabxanalar və arxivlər üçün detallı meta‑verilənlərin qorunmasını təmin edən zəngin XML‑əsaslı formatdır.

S2: OCR sənədlərim üçün PDF/A‑nı nə zaman seçməliyəm?
Cavab: Sənədlərin tam vizual görünüşünü hüquqi uyğunluq və uzunmüddətli arxivləşdirmə üçün qorumaq, eyni zamanda axtarıla bilən mətn əlavə etmək istədiyiniz zaman PDF/A seçin.

S3: Hansı OCR formatı rəqəmsal humanitar elmlər tədqiqatları üçün daha uyğundur?
Cavab: ALTO formatı, detallı XML strukturu ilə qabaqcıl mətn təhlilini dəstəklədiyi üçün tədqiqatçılar üçün adətən daha uyğundur.

S4: HOCR, ALTO və PDF/A formatları arasında çevrim edə bilərəm?
Cavab: Bəli, əksər OCR proqramları və rəqəmsal arxiv alətləri bu formatlar arasında çevrimə imkan verir, lakin bəzi meta‑verilənlər itə bilər.

S5: PDF/A adi axtarıla bilən PDF‑lə eynidirmi?
Cavab: Xeyr, PDF/A uzunmüddətli arxivləşdirmə üçün xüsusi ISO‑standartlı bir alt dəstdir və adi PDF‑lərdən daha sərt tələblərə malikdir.

Əlaqədar məqalələr