HOCR vs ALTO vs PDF/A: Projeniz İçin Doğru OCR Formatını Seçmek

Son Güncelleme: 05 Jan, 2026

OCR Dosya Formatlarını Anlamak: HOCR vs ALTO vs PDF/A Açıklaması

Bir belgeyi taradıysanız ve bilgisayarların metin görüntülerini aranabilir, düzenlenebilir içeriğe nasıl dönüştürdüğünü merak ettiyseniz, Optik Karakter Tanıma (OCR) dünyasıyla karşılaşmışsınız demektir. Ancak hikaye sadece görüntülerden metin çıkarmakla bitmez. Gerçek sihir, bu bilginin nasıl depolandığı ve yapılandırıldığıdır.

Tarihi arşivleri dijitalleştirirken, iş faturalarını işlerken veya basılı kitapları dijital kütüphanelere dönüştürürken, doğru OCR çıktı formatını seçmek kritik hale gelir. Bu alanda üç format hakimdir: HOCR, ALTO ve PDF/A. Her biri farklı amaçlara hizmet eder ve farklarını anlamak, ileride sayısız saatlik hayal kırıklığını önleyebilir.

Bu formatlar hakkında bilmeniz gereken her şeyi, teknik temellerinden pratik uygulamalara kadar sizinle paylaşayım.

OCR Dosya Formatları Nedir?

Belirli formatlara dalmadan önce, OCR dosya formatlarının aslında ne yaptığını netleştirelim. OCR yazılımı bir belgeyi işlediğinde, yalnızca düz metni çıkarmakla kalmaz; değerli yapısal ve konumsal bilgileri yakalar. Bu şunları içerir:

Metin içeriği: Gerçek kelimeler ve karakterler
Düzen bilgisi: Metnin sayfada nerede göründüğü (paragraflar, sütunlar, başlıklar)
Biçimlendirme verileri: Yazı tipi stilleri, boyutları ve renkleri
Güven skorları: OCR motorunun her karakter hakkındaki kesinliği
Yapısal hiyerarşi: Bölümler, kısımlar, başlıklar ve dipnotlar

HOCR: HTML Tabanlı Rekabetçi

HOCR Nedir?

HOCR (HTML OCR kısaltması), OCR sonuçlarını HTML dosyalarına gömen açık bir standarttır. Tesseract OCR motoru ekosisteminin bir parçası olarak geliştirilmiş olup, OCR verilerini temsil etmek için özel sınıflar ve özniteliklerle zenginleştirilmiş standart HTML işaretlemesi kullanır.

Teknik Yapı

Tipik bir HOCR dosyası, tanıdık bir HTML gibi görünür ancak özel öğeler içerir:

<div class='ocr_page' title='bbox 0 0 1700 2200'>
 <div class='ocr_carea' title='bbox 100 200 800 500'>
   <span class='ocr_line' title='bbox 110 210 790 240'>
     <span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
     <span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
   </span>
 </div>
</div>

title öznitelikleri, sayfadaki her metin öğesinin konumunu kesin olarak belirten sınırlama kutusu koordinatlarını (bbox) içerir.

Temel Özellikler ve Avantajlar

Web dostu: HTML üzerine kurulu olduğu için HOCR dosyaları web tarayıcılarında kolayca görüntülenebilir
Stil ayrımı: Sunum için CSS kullanır, içerik ve stil ayrı tutulur
Erişilebilirlik: Anlamsal HTML yapısı ekran okuyucular ve yardımcı teknolojileri destekler
Esneklik: Diğer web teknolojileri (JavaScript, CSS çerçeveleri) ile birleştirilebilir
Açık standart: Patent kısıtlaması veya lisans ücreti yoktur

Yaygın Kullanım Senaryoları

Web tabanlı belge görüntüleyicilere sahip dijital kütüphaneler ve arşivler
Web uygulamalarıyla kolay entegrasyon gerektiren projeler
OCR veri dosyasının insan tarafından okunabilirliğinin önemli olduğu durumlar
Açık kaynak projeler ve işbirlikçi dijitalleştirme çabaları

ALTO: Arşivcinin Tercihi

ALTO Nedir?

ALTO (Analyzed Layout and Text Object), metin sayfalarının düzenini ve içeriğini temsil etmek için özel olarak tasarlanmış XML tabanlı bir formattır. Library of Congress tarafından geliştirilip sürdürülmekte olup, kültürel miras dijitalleştirme projelerinde bir standart haline gelmiştir.

Teknik Yapı

ALTO, farklı sayfa bileşenleri için ayrılmış öğeler içeren yapılandırılmış bir XML şeması kullanır:

<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
 <Layout>
   <Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
     <PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
       <TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
         <TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
           <String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
           <String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
         </TextLine>
       </TextBlock>
     </PrintSpace>
   </Page>
 </Layout>
</alto>

Temel Özellikler ve Avantajlar

Zengin meta veri: Ayrıntılı tipografik, düzen ve dilbilimsel bilgileri destekler
Standartlaştırma: Kütüphaneler, arşivler ve kültürel kurumlar tarafından yaygın olarak benimsenir
Doğrulama: XML Şema Tanımı (XSD), katı doğrulamaya olanak tanır
Genişletilebilirlik: Özel ihtiyaçlar için ek ad alanlarıyla özelleştirilebilir
Arşiv dostu: Uzun vadeli dijital arşivleme için mükemmeldir

Yaygın Kullanım Senaryoları

Ulusal kütüphane dijitalleştirme projeleri
Tarihi belge koruma
Büyük ölçekli gazete dijitalleştirme
Ayrıntılı metin analizi gerektiren akademik araştırma projeleri
Kültürel miras sektöründe kurumlar arası veri alışverişi

PDF/A: Arşivleme Güç Merkezi

PDF/A Nedir?

PDF/A (Portable Document Format/Arşivleme), yalnızca bir OCR formatı değildir; uzun vadeli elektronik belge arşivleme için özel olarak tasarlanmış ISO standartlı bir PDF sürümüdür. OCR ile birleştirildiğinde, aranabilir ve korunabilir belgeler oluşturur.

Teknik Yapı

PDF/A, OCR metnini sayfa görüntüsünün altında “gizli” bir katman olarak gömer; orijinal görsel görünümü korurken aranabilirlik ekler:

Görüntü katmanı: Taranan sayfa görüntüsü (bitmap)
Metin katmanı: Görüntüyle hizalanmış, görünmez, aranabilir OCR metni
Meta veri: Arşivleme bilgileri için standartlaştırılmış XMP meta verisi

Temel Özellikler ve Avantajlar

Görsel doğruluk: Orijinal belgelerin tam görsel görünümünü korur
Kendine yeterlilik: Gerekli tüm kaynaklar (yazı tipleri, renk profilleri) gömülüdür
ISO standartlaştırması: Gelecekteki okunabilirlik ve tutarlılığı garanti eder
Evrensel erişilebilirlik: Herhangi bir PDF görüntüleyiciyle açılabilir
Çoklu uyum seviyeleri: * PDF/A-1 (en kısıtlayıcı, en stabil) * PDF/A-2 (şeffaflık ve katmanlara izin verir) * PDF/A-3 (kaynak dosyaların gömülmesine izin verir)

Yaygın Kullanım Senaryoları

Hukuki ve devlet belge arşivleri
Kurumsal kayıt saklama programları
Tıbbi kayıtların korunması
Görsel özgünlük ve aranabilirliği birlikte gerektiren belge iş akışları
Belge yönetiminde düzenleyici uyumluluk

Karşılaştırmalı Analiz: HOCR vs ALTO vs PDF/A

Yapısal Karşılaştırma

No.	Özellik	HOCR	ALTO	PDF/A
1	Temel Teknoloji	HTML/CSS	XML	PDF + embedded elements
2	Ana Odak	Web gösterimi	Ayrıntılı meta veri	Görsel arşivleme
3	Metin/Görüntü İlişkisi	Ayrı	Ayrı	Birleştirilmiş (metin görüntünün altında)
4	Stil Yaklaşımı	CSS stil sayfaları	Öznitelik tabanlı	PDF işleme
5	İnsan Okunabilirliği	Mükemmel (metin düzenleyici)	İyi (XML düzenleyici)	Kötü (ikili format)

Meta Veri Yetkinlikleri

HOCR: Temel düzen bilgisi, sınırlı anlamsal işaretleme
ALTO: Kapsamlı bibliyografik, tipografik ve yapısal meta veri
PDF/A: Standartlaştırılmış arşivleme meta verisi (XMP), sınırlı OCR‑özel veri

Endüstri Benimsemesi

HOCR: Açık kaynak topluluğu, daha küçük dijitalleştirme projeleri
ALTO: Kültürel miras kurumları, büyük ölçekli dijitalleştirme
PDF/A: Dünya çapında hükümet, hukuk ve kurumsal sektörler

Formatlar Arası Dönüştürme

Çoğu OCR yazılımı ve dijital arşivleme platformu, bu formatlar arasında dönüşümü destekler:
Yaygın Dönüştürme Yolları:

OCR Motoru → ALTO → HOCR (web gösterimi için)
OCR Motoru → ALTO → PDF/A (arşivleme için)
PDF/A → ALTO/HOCR (metin çıkarma araçlarıyla)

Dönüştürme Araçları:

OCR işlemcileri: Tesseract, Abbyy FineReader, Google Cloud Vision
Dönüştürme araçları: pdftotext, pdf2xml, çeşitli XML dönüşüm araçları
Dijital arşivleme platformları: Rosetta, Preservica, Archivematica

Uygulama İçin En İyi Uygulamalar

Son hedeflerinizle başlayın: Formatı, dijitalleştirilmiş içeriği nasıl kullanacağınızı göz önünde bulundurarak seçin
Tüm iş akışınızı düşünün: Taramadan teslimata ve arşivlemeye kadar
Birlikte çalışabilirliği düşünün: Verilerinize kimlerin erişmesi gerekiyor ve hangi araçları kullanacaklar?
Uzun vadeyi planlayın: Dijital arşivleme, format ömrü hakkında önceden düşünmeyi gerektirir
Seçimlerinizi belgeleyin: Dijitalleştirme ekibiniz için net yönergeler oluşturun
Gerçek kullanıcılarla test edin: Seçtiğiniz formatın gerçek kullanıcı ihtiyaçlarını karşıladığından emin olun

Sonuç: Amaca Uygun Formatı Eşleştirmek

Tek bir “en iyi” OCR dosya formatı yoktur—sadece belirli ihtiyaçlarınıza en uygun format vardır. HOCR, web ortamlarında öne çıkar, ALTO kültürel miras arşivlemesinde hakimdir ve PDF/A, düzenleyici ve uyumluluk bağlamlarında liderdir. Güçlerini ve sınırlamalarını anlamak, dijitalleştirme projelerinize yıllarca hizmet edecek bilinçli kararlar almanıza yardımcı olur.

SSS

S1: HOCR ve ALTO formatları arasındaki temel fark nedir?
C: HOCR, web gösterimi için ideal bir HTML tabanlı format iken, ALTO, kütüphaneler ve arşivler tarafından ayrıntılı meta veri koruması için tercih edilen daha zengin bir XML tabanlı formattır.

S2: OCR belgelerim için ne zaman PDF/A seçmeliyim?
C: Belgelerin tam görsel görünümünü yasal uyumluluk veya uzun vadeli arşivleme için korumanız ve aynı zamanda aranabilir metin eklemeniz gerektiğinde PDF/A’yı seçin.

S3: Dijital beşeri bilimler araştırması için hangi OCR formatı en iyisidir?
C: ALTO formatı, ayrıntılı XML yapısı sayesinde gelişmiş metin analizi destekler ve karmaşık düzen bilgilerini korur; bu nedenle araştırma için genellikle en iyisidir.

S4: HOCR, ALTO ve PDF/A formatları arasında dönüştürme yapabilir miyim?
C: Evet, çoğu OCR yazılımı ve dijital arşivleme aracı bu formatlar arasında dönüşümü destekler, ancak bazı meta veriler dönüşüm sırasında kaybolabilir.

S5: PDF/A, normal bir aranabilir PDF ile aynı mıdır?
C: Hayır, PDF/A, uzun vadeli arşivleme için özel olarak tasarlanmış, normal PDF’lerden daha katı gereksinimlere sahip ISO standartlı bir PDF alt kümesidir.

OCR Dosya Formatları Nedir?#

HOCR: HTML Tabanlı Rekabetçi#

HOCR Nedir?#

Teknik Yapı#

Temel Özellikler ve Avantajlar#

Yaygın Kullanım Senaryoları#

ALTO: Arşivcinin Tercihi#

ALTO Nedir?#

Teknik Yapı#

Temel Özellikler ve Avantajlar#

Yaygın Kullanım Senaryoları#

PDF/A: Arşivleme Güç Merkezi#

PDF/A Nedir?#

Teknik Yapı#

Temel Özellikler ve Avantajlar#

Yaygın Kullanım Senaryoları#

Karşılaştırmalı Analiz: HOCR vs ALTO vs PDF/A#

Yapısal Karşılaştırma#

Meta Veri Yetkinlikleri#

Endüstri Benimsemesi#

Formatlar Arası Dönüştürme#

Dönüştürme Araçları:#

Uygulama İçin En İyi Uygulamalar#

Sonuç: Amaca Uygun Formatı Eşleştirmek#

SSS#

İlgili Bağlantılar#

OCR Dosya Formatları Nedir?

HOCR: HTML Tabanlı Rekabetçi

HOCR Nedir?

Teknik Yapı

Temel Özellikler ve Avantajlar

Yaygın Kullanım Senaryoları

ALTO: Arşivcinin Tercihi

ALTO Nedir?

Teknik Yapı

Temel Özellikler ve Avantajlar

Yaygın Kullanım Senaryoları

PDF/A: Arşivleme Güç Merkezi

PDF/A Nedir?

Teknik Yapı

Temel Özellikler ve Avantajlar

Yaygın Kullanım Senaryoları

Karşılaştırmalı Analiz: HOCR vs ALTO vs PDF/A

Yapısal Karşılaştırma

Meta Veri Yetkinlikleri

Endüstri Benimsemesi

Formatlar Arası Dönüştürme

Dönüştürme Araçları:

Uygulama İçin En İyi Uygulamalar

Sonuç: Amaca Uygun Formatı Eşleştirmek

SSS

İlgili Bağlantılar