הבנת פורמטים של קבצי OCR: הסבר על HOCR vs ALTO vs PDF/A
עודכן לאחרונה: 05 Jan, 2026
אם אי פעם סרקת מסמך ותהית כיצד מחשבים ממירים תמונות של טקסט לתוכן שניתן לחיפוש ולעריכה, נתקלת בעולם של זיהוי תווים אופטי (OCR). אך הסיפור אינו מסתיים רק בחילוץ הטקסט מהתמונות. הקסם האמיתי קורה באופן שבו מידע זה נשמר ומאורגן.
כאשר אתה ממיר ארכיונים היסטוריים לדיגיטל, מעבד חשבוניות עסקיות, או ממיר ספרים מודפסים לספריות דיגיטליות, בחירת פורמט הפלט של OCR הנכון הופכת לחשובה. שלושה פורמטים שולטים בתחום זה: HOCR, ALTO, ו‑PDF/A.