Dernière mise à jour : 05 Jan, 2026

Si vous avez déjà numérisé un document et vous êtes demandé comment les ordinateurs transforment les images de texte en contenu consultable et modifiable, vous avez découvert le monde de la reconnaissance optique de caractères (OCR). Mais l’histoire ne s’arrête pas à l’extraction simple du texte à partir des images. La vraie magie réside dans la façon dont ces informations sont stockées et structurées.
Lorsque vous numérisez des archives historiques, traitez des factures d’entreprise ou convertissez des livres imprimés en bibliothèques numériques, choisir le bon format de sortie OCR devient crucial. Trois formats dominent ce paysage : HOCR, ALTO et PDF/A. Chacun sert des objectifs distincts, et comprendre leurs différences peut vous faire économiser d’innombrables heures de frustration à l’avenir.
Laissez‑moi vous guider à travers tout ce que vous devez savoir sur ces formats, de leurs fondements techniques à leurs applications pratiques.
Quels sont les formats de fichiers OCR ?
Avant de plonger dans les formats spécifiques, définissons ce que font réellement les formats de fichiers OCR. Lorsque le logiciel OCR traite un document, il n’extrait pas seulement du texte brut — il capture des informations structurelles et positionnelles précieuses. Cela comprend :
- Contenu texte : Les mots et caractères réels
- Informations de mise en page : Où le texte apparaît sur la page (paragraphes, colonnes, en‑têtes)
- Données de formatage : Styles de police, tailles et couleurs
- Scores de confiance : Le degré de certitude du moteur OCR pour chaque caractère
- Hiérarchie structurelle : Chapitres, sections, titres et notes de bas de page
HOCR : le concurrent basé sur HTML
Qu’est‑ce que HOCR ?
HOCR (pour HTML OCR) est un standard ouvert qui intègre les résultats OCR dans des fichiers HTML. Développé dans le cadre de l’écosystème du moteur Tesseract OCR, il utilise un balisage HTML standard enrichi de classes et d’attributs personnalisés pour représenter les données OCR.
Structure technique
Un fichier HOCR typique ressemble à du HTML familier mais avec des éléments spécialisés :
<div class='ocr_page' title='bbox 0 0 1700 2200'>
<div class='ocr_carea' title='bbox 100 200 800 500'>
<span class='ocr_line' title='bbox 110 210 790 240'>
<span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
<span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
</span>
</div>
</div>
Les attributs title contiennent les coordonnées de la boîte englobante (bbox) qui localisent précisément chaque élément de texte sur la page.
Principales caractéristiques et avantages
- Compatible web : Comme il est basé sur HTML, les fichiers HOCR peuvent être affichés facilement dans les navigateurs web
- Séparation du style : Utilise le CSS pour la présentation, séparant le contenu et le style
- Accessibilité : La structure sémantique HTML prend en charge les lecteurs d’écran et les technologies d’assistance
- Flexibilité : Peut être combiné avec d’autres technologies web (JavaScript, frameworks CSS)
- Standard ouvert : Aucun droit de licence ou restriction propriétaire
Cas d’utilisation courants
- Bibliothèques numériques et archives avec visionneuses de documents web
- Projets nécessitant une intégration facile avec des applications web
- Situations où la lisibilité humaine du fichier de données OCR est importante
- Projets open source et efforts de numérisation collaborative
ALTO : le choix des archivistes
Qu’est‑ce que ALTO ?
ALTO (Analyzed Layout and Text Object) est un format XML spécialement conçu pour représenter la mise en page et le contenu des pages de texte. Développé et maintenu par la Library of Congress, ALTO est devenu un standard dans les projets de numérisation du patrimoine culturel.
Structure technique
ALTO utilise un schéma XML structuré avec des éléments dédiés aux différentes composantes d’une page :
<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
<Layout>
<Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
<PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
<TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
<TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
<String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
<String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
Principales caractéristiques et avantages
- Métadonnées riches : Prend en charge des informations typographiques, de mise en page et linguistiques détaillées
- Normalisation : Largement adopté par les bibliothèques, archives et institutions culturelles
- Validation : La définition de schéma XML (XSD) permet une validation stricte
- Extensibilité : Peut être personnalisé avec des espaces de noms supplémentaires pour des besoins spécialisés
- Convivial à la préservation : Excellent pour l’archivage numérique à long terme
Cas d’utilisation courants
- Projets de numérisation de bibliothèques nationales
- Préservation de documents historiques
- Numérisation à grande échelle de journaux
- Projets de recherche académique nécessitant une analyse textuelle détaillée
- Échange de données interinstitutionnel dans le secteur du patrimoine culturel
PDF/A : la référence en préservation
Qu’est‑ce que PDF/A ?
PDF/A (Portable Document Format/Archival) n’est pas exclusivement un format OCR, mais une version normalisée ISO du PDF spécialement conçue pour la préservation à long terme des documents électroniques. Lorsqu’il est combiné avec l’OCR, il crée des documents consultables et préservables.
Structure technique
PDF/A intègre le texte OCR comme une couche « cachée » sous l’image de la page, conservant l’apparence visuelle originale tout en ajoutant la recherchabilité :
- Couche image : L’image numérisée de la page (bitmap)
- Couche texte : Texte OCR invisible et consultable aligné avec l’image
- Métadonnées : Métadonnées XMP standardisées pour les informations de préservation
Principales caractéristiques et avantages
- Fidélité visuelle : Préserve l’apparence visuelle exacte des documents originaux
- Auto‑contenu : Toutes les ressources nécessaires (polices, profils couleur) sont intégrées
- Normalisation ISO : Garantit la lisibilité et la cohérence futures
- Accessibilité universelle : Peut être ouvert par n’importe quel lecteur PDF
- Niveaux de conformité multiples :
- PDF/A-1 (le plus restrictif, le plus stable)
- PDF/A-2 (autorise la transparence et les calques)
- PDF/A-3 (autorise l’intégration de fichiers sources)
Cas d’utilisation courants
- Archives de documents juridiques et gouvernementaux
- Programmes de conservation des dossiers d’entreprise
- Préservation des dossiers médicaux
- Flux de travail de documents nécessitant à la fois authenticité visuelle et recherchabilité
- Conformité réglementaire en gestion documentaire
Analyse comparative : HOCR vs ALTO vs PDF/A
Comparaison structurelle
| N° | Fonctionnalité | HOCR | ALTO | PDF/A |
|---|---|---|---|---|
| 1 | Technologie de base | HTML/CSS | XML | PDF + éléments intégrés |
| 2 | Objectif principal | Affichage web | Métadonnées détaillées | Préservation visuelle |
| 3 | Relation texte/image | Séparée | Séparée | Combinée (texte sous image) |
| 4 | Approche de style | Feuilles de style CSS | Basée sur les attributs | Rendu PDF |
| 5 | Lisibilité humaine | Excellente (éditeur de texte) | Bonne (éditeur XML) | Médiocre (format binaire) |
Capacités de métadonnées
HOCR : Informations de mise en page de base, balisage sémantique limité
ALTO : Métadonnées bibliographiques, typographiques et structurelles étendues
PDF/A : Métadonnées de préservation standardisées (XMP), données OCR spécifiques limitées
Adoption industrielle
- HOCR : communauté open source, projets de numérisation plus petits
- ALTO : institutions du patrimoine culturel, numérisation à grande échelle
- PDF/A : secteurs gouvernementaux, juridiques et d’entreprise à l’échelle mondiale
Conversion entre formats
La plupart des logiciels OCR et des plateformes de préservation numérique prennent en charge la conversion entre ces formats :
Chemins de conversion courants :
- Moteur OCR → ALTO → HOCR (pour affichage web)
- Moteur OCR → ALTO → PDF/A (pour archivage)
- PDF/A → ALTO/HOCR (via outils d’extraction de texte)
Outils de conversion :
- Processeurs OCR : Tesseract, Abbyy FineReader, Google Cloud Vision
- Outils de conversion : pdftotext, pdf2xml, divers outils de transformation XML
- Plateformes de préservation numérique : Rosetta, Preservica, Archivematica
Bonnes pratiques pour la mise en œuvre
- Commencez par vos objectifs finaux : choisissez votre format en fonction de l’utilisation prévue du contenu numérisé
- Prenez en compte l’ensemble de votre flux de travail : de la numérisation à la livraison en passant par la préservation
- Réfléchissez à l’interopérabilité : qui doit accéder à vos données et avec quels outils ?
- Planifiez à long terme : la préservation numérique nécessite une réflexion sur la pérennité du format
- Documentez vos choix : créez des directives claires pour votre équipe de numérisation
- Testez avec de vrais utilisateurs : assurez‑vous que le format choisi répond aux besoins réels
Conclusion : choisir le format en fonction du but
Il n’existe pas de « meilleur » format de fichier OCR unique — seulement le meilleur format pour vos besoins spécifiques. HOCR excelle dans les environnements web, ALTO domine la préservation du patrimoine culturel, et PDF/A mène dans les contextes réglementaires et de conformité. Comprendre leurs forces et limites vous aide à prendre des décisions éclairées qui serviront vos projets de numérisation pendant des années.
FAQ
Q1 : Quelle est la principale différence entre les formats HOCR et ALTO ?
HOCR est un format basé sur HTML idéal pour l’affichage web, tandis qu’ALTO est un format XML plus riche préféré par les bibliothèques et les archives pour la préservation de métadonnées détaillées.
Q2 : Quand devrais‑je choisir le PDF/A pour mes documents OCR ?
Choisissez le PDF/A lorsque vous devez préserver l’apparence visuelle exacte des documents pour la conformité légale ou l’archivage à long terme tout en ajoutant du texte consultable.
Q3 : Quel format OCR est le meilleur pour la recherche en sciences humaines numériques ?
Le format ALTO est généralement le meilleur pour la recherche car sa structure XML détaillée prend en charge l’analyse textuelle avancée et préserve les informations de mise en page complexes.
Q4 : Puis‑je convertir entre les formats HOCR, ALTO et PDF/A ?
Oui, la plupart des logiciels OCR et des outils de préservation numérique prennent en charge la conversion entre ces formats, bien que certaines métadonnées puissent être perdues lors de la conversion.
Q5 : Le PDF/A est‑il identique à un PDF consultable ordinaire ?
Non, le PDF/A est un sous‑ensemble spécialisé du PDF, normalisé ISO, spécialement conçu pour la préservation à long terme, avec des exigences plus strictes que les PDF ordinaires.