Son Güncelleme: 05 Jan, 2026

OCR Dosya Formatlarını Anlamak: HOCR vs ALTO vs PDF/A Açıklaması

Bir belgeyi taradıysanız ve bilgisayarların metin görüntülerini aranabilir, düzenlenebilir içeriğe nasıl dönüştürdüğünü merak ettiyseniz, Optik Karakter Tanıma (OCR) dünyasıyla karşılaşmışsınız demektir. Ancak hikaye sadece görüntülerden metin çıkarmakla bitmez. Gerçek sihir, bu bilginin nasıl depolandığı ve yapılandırıldığıdır.

Tarihi arşivleri dijitalleştirirken, iş faturalarını işlerken veya basılı kitapları dijital kütüphanelere dönüştürürken, doğru OCR çıktı formatını seçmek kritik hale gelir. Bu alanda üç format hakimdir: HOCR, ALTO ve PDF/A. Her biri farklı amaçlara hizmet eder ve farklarını anlamak, ileride sayısız saatlik hayal kırıklığını önleyebilir.

Bu formatlar hakkında bilmeniz gereken her şeyi, teknik temellerinden pratik uygulamalara kadar sizinle paylaşayım.

OCR Dosya Formatları Nedir?

Belirli formatlara dalmadan önce, OCR dosya formatlarının aslında ne yaptığını netleştirelim. OCR yazılımı bir belgeyi işlediğinde, yalnızca düz metni çıkarmakla kalmaz; değerli yapısal ve konumsal bilgileri yakalar. Bu şunları içerir:

  • Metin içeriği: Gerçek kelimeler ve karakterler
  • Düzen bilgisi: Metnin sayfada nerede göründüğü (paragraflar, sütunlar, başlıklar)
  • Biçimlendirme verileri: Yazı tipi stilleri, boyutları ve renkleri
  • Güven skorları: OCR motorunun her karakter hakkındaki kesinliği
  • Yapısal hiyerarşi: Bölümler, kısımlar, başlıklar ve dipnotlar

HOCR: HTML Tabanlı Rekabetçi

HOCR Nedir?

HOCR (HTML OCR kısaltması), OCR sonuçlarını HTML dosyalarına gömen açık bir standarttır. Tesseract OCR motoru ekosisteminin bir parçası olarak geliştirilmiş olup, OCR verilerini temsil etmek için özel sınıflar ve özniteliklerle zenginleştirilmiş standart HTML işaretlemesi kullanır.

Teknik Yapı

Tipik bir HOCR dosyası, tanıdık bir HTML gibi görünür ancak özel öğeler içerir:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
 <div class='ocr_carea' title='bbox 100 200 800 500'>
   <span class='ocr_line' title='bbox 110 210 790 240'>
     <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
     <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
   </span>
 </div>
</div>

title öznitelikleri, sayfadaki her metin öğesinin konumunu kesin olarak belirten sınırlama kutusu koordinatlarını (bbox) içerir.

Temel Özellikler ve Avantajlar

  • Web dostu: HTML üzerine kurulu olduğu için HOCR dosyaları web tarayıcılarında kolayca görüntülenebilir
  • Stil ayrımı: Sunum için CSS kullanır, içerik ve stil ayrı tutulur
  • Erişilebilirlik: Anlamsal HTML yapısı ekran okuyucular ve yardımcı teknolojileri destekler
  • Esneklik: Diğer web teknolojileri (JavaScript, CSS çerçeveleri) ile birleştirilebilir
  • Açık standart: Patent kısıtlaması veya lisans ücreti yoktur

Yaygın Kullanım Senaryoları

  • Web tabanlı belge görüntüleyicilere sahip dijital kütüphaneler ve arşivler
  • Web uygulamalarıyla kolay entegrasyon gerektiren projeler
  • OCR veri dosyasının insan tarafından okunabilirliğinin önemli olduğu durumlar
  • Açık kaynak projeler ve işbirlikçi dijitalleştirme çabaları

ALTO: Arşivcinin Tercihi

ALTO Nedir?

ALTO (Analyzed Layout and Text Object), metin sayfalarının düzenini ve içeriğini temsil etmek için özel olarak tasarlanmış XML tabanlı bir formattır. Library of Congress tarafından geliştirilip sürdürülmekte olup, kültürel miras dijitalleştirme projelerinde bir standart haline gelmiştir.

Teknik Yapı

ALTO, farklı sayfa bileşenleri için ayrılmış öğeler içeren yapılandırılmış bir XML şeması kullanır:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
 <Layout>
   <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
     <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
       <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
         <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
           <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
           <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
         </TextLine>
       </TextBlock>
     </PrintSpace>
   </Page>
 </Layout>
</alto>

Temel Özellikler ve Avantajlar

  • Zengin meta veri: Ayrıntılı tipografik, düzen ve dilbilimsel bilgileri destekler
  • Standartlaştırma: Kütüphaneler, arşivler ve kültürel kurumlar tarafından yaygın olarak benimsenir
  • Doğrulama: XML Şema Tanımı (XSD), katı doğrulamaya olanak tanır
  • Genişletilebilirlik: Özel ihtiyaçlar için ek ad alanlarıyla özelleştirilebilir
  • Arşiv dostu: Uzun vadeli dijital arşivleme için mükemmeldir

Yaygın Kullanım Senaryoları

  • Ulusal kütüphane dijitalleştirme projeleri
  • Tarihi belge koruma
  • Büyük ölçekli gazete dijitalleştirme
  • Ayrıntılı metin analizi gerektiren akademik araştırma projeleri
  • Kültürel miras sektöründe kurumlar arası veri alışverişi

PDF/A: Arşivleme Güç Merkezi

PDF/A Nedir?

PDF/A (Portable Document Format/Arşivleme), yalnızca bir OCR formatı değildir; uzun vadeli elektronik belge arşivleme için özel olarak tasarlanmış ISO standartlı bir PDF sürümüdür. OCR ile birleştirildiğinde, aranabilir ve korunabilir belgeler oluşturur.

Teknik Yapı

PDF/A, OCR metnini sayfa görüntüsünün altında “gizli” bir katman olarak gömer; orijinal görsel görünümü korurken aranabilirlik ekler:

  1. Görüntü katmanı: Taranan sayfa görüntüsü (bitmap)
  2. Metin katmanı: Görüntüyle hizalanmış, görünmez, aranabilir OCR metni
  3. Meta veri: Arşivleme bilgileri için standartlaştırılmış XMP meta verisi

Temel Özellikler ve Avantajlar

  • Görsel doğruluk: Orijinal belgelerin tam görsel görünümünü korur
  • Kendine yeterlilik: Gerekli tüm kaynaklar (yazı tipleri, renk profilleri) gömülüdür
  • ISO standartlaştırması: Gelecekteki okunabilirlik ve tutarlılığı garanti eder
  • Evrensel erişilebilirlik: Herhangi bir PDF görüntüleyiciyle açılabilir
  • Çoklu uyum seviyeleri: * PDF/A-1 (en kısıtlayıcı, en stabil) * PDF/A-2 (şeffaflık ve katmanlara izin verir) * PDF/A-3 (kaynak dosyaların gömülmesine izin verir)

Yaygın Kullanım Senaryoları

  • Hukuki ve devlet belge arşivleri
  • Kurumsal kayıt saklama programları
  • Tıbbi kayıtların korunması
  • Görsel özgünlük ve aranabilirliği birlikte gerektiren belge iş akışları
  • Belge yönetiminde düzenleyici uyumluluk

Karşılaştırmalı Analiz: HOCR vs ALTO vs PDF/A

Yapısal Karşılaştırma

No.ÖzellikHOCRALTOPDF/A
1Temel TeknolojiHTML/CSSXMLPDF + embedded elements
2Ana OdakWeb gösterimiAyrıntılı meta veriGörsel arşivleme
3Metin/Görüntü İlişkisiAyrıAyrıBirleştirilmiş (metin görüntünün altında)
4Stil YaklaşımıCSS stil sayfalarıÖznitelik tabanlıPDF işleme
5İnsan OkunabilirliğiMükemmel (metin düzenleyici)İyi (XML düzenleyici)Kötü (ikili format)

Meta Veri Yetkinlikleri

HOCR: Temel düzen bilgisi, sınırlı anlamsal işaretleme
ALTO: Kapsamlı bibliyografik, tipografik ve yapısal meta veri
PDF/A: Standartlaştırılmış arşivleme meta verisi (XMP), sınırlı OCR‑özel veri

Endüstri Benimsemesi

  • HOCR: Açık kaynak topluluğu, daha küçük dijitalleştirme projeleri
  • ALTO: Kültürel miras kurumları, büyük ölçekli dijitalleştirme
  • PDF/A: Dünya çapında hükümet, hukuk ve kurumsal sektörler

Formatlar Arası Dönüştürme

Çoğu OCR yazılımı ve dijital arşivleme platformu, bu formatlar arasında dönüşümü destekler:
Yaygın Dönüştürme Yolları:

  • OCR Motoru → ALTO → HOCR (web gösterimi için)
  • OCR Motoru → ALTO → PDF/A (arşivleme için)
  • PDF/A → ALTO/HOCR (metin çıkarma araçlarıyla)

Dönüştürme Araçları:

  • OCR işlemcileri: Tesseract, Abbyy FineReader, Google Cloud Vision
  • Dönüştürme araçları: pdftotext, pdf2xml, çeşitli XML dönüşüm araçları
  • Dijital arşivleme platformları: Rosetta, Preservica, Archivematica

Uygulama İçin En İyi Uygulamalar

  1. Son hedeflerinizle başlayın: Formatı, dijitalleştirilmiş içeriği nasıl kullanacağınızı göz önünde bulundurarak seçin
  2. Tüm iş akışınızı düşünün: Taramadan teslimata ve arşivlemeye kadar
  3. Birlikte çalışabilirliği düşünün: Verilerinize kimlerin erişmesi gerekiyor ve hangi araçları kullanacaklar?
  4. Uzun vadeyi planlayın: Dijital arşivleme, format ömrü hakkında önceden düşünmeyi gerektirir
  5. Seçimlerinizi belgeleyin: Dijitalleştirme ekibiniz için net yönergeler oluşturun
  6. Gerçek kullanıcılarla test edin: Seçtiğiniz formatın gerçek kullanıcı ihtiyaçlarını karşıladığından emin olun

Sonuç: Amaca Uygun Formatı Eşleştirmek

Tek bir “en iyi” OCR dosya formatı yoktur—sadece belirli ihtiyaçlarınıza en uygun format vardır. HOCR, web ortamlarında öne çıkar, ALTO kültürel miras arşivlemesinde hakimdir ve PDF/A, düzenleyici ve uyumluluk bağlamlarında liderdir. Güçlerini ve sınırlamalarını anlamak, dijitalleştirme projelerinize yıllarca hizmet edecek bilinçli kararlar almanıza yardımcı olur.

SSS

S1: HOCR ve ALTO formatları arasındaki temel fark nedir?
C: HOCR, web gösterimi için ideal bir HTML tabanlı format iken, ALTO, kütüphaneler ve arşivler tarafından ayrıntılı meta veri koruması için tercih edilen daha zengin bir XML tabanlı formattır.

S2: OCR belgelerim için ne zaman PDF/A seçmeliyim?
C: Belgelerin tam görsel görünümünü yasal uyumluluk veya uzun vadeli arşivleme için korumanız ve aynı zamanda aranabilir metin eklemeniz gerektiğinde PDF/A’yı seçin.

S3: Dijital beşeri bilimler araştırması için hangi OCR formatı en iyisidir?
C: ALTO formatı, ayrıntılı XML yapısı sayesinde gelişmiş metin analizi destekler ve karmaşık düzen bilgilerini korur; bu nedenle araştırma için genellikle en iyisidir.

S4: HOCR, ALTO ve PDF/A formatları arasında dönüştürme yapabilir miyim?
C: Evet, çoğu OCR yazılımı ve dijital arşivleme aracı bu formatlar arasında dönüşümü destekler, ancak bazı meta veriler dönüşüm sırasında kaybolabilir.

S5: PDF/A, normal bir aranabilir PDF ile aynı mıdır?
C: Hayır, PDF/A, uzun vadeli arşivleme için özel olarak tasarlanmış, normal PDF’lerden daha katı gereksinimlere sahip ISO standartlı bir PDF alt kümesidir.

İlgili Bağlantılar