শেষ আপডেট: 05 Jan, 2026

যদি আপনি কখনও কোনো নথি স্ক্যান করে দেখেন যে কম্পিউটার কীভাবে টেক্সটের ছবি অনুসন্ধানযোগ্য এবং সম্পাদনাযোগ্য কন্টেন্টে রূপান্তর করে, তবে আপনি অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) এর জগতে প্রবেশ করেছেন। তবে কাহিনী শুধুমাত্র ছবির থেকে টেক্সট বের করার মধ্যে শেষ হয় না। প্রকৃত জাদু ঘটে যখন সেই তথ্য সংরক্ষণ এবং গঠন করা হয়।
আপনি যখন ঐতিহাসিক আর্কাইভ ডিজিটাইজ করেন, ব্যবসায়িক চালান প্রক্রিয়া করেন, অথবা প্রিন্টেড বইগুলোকে ডিজিটাল লাইব্রেরিতে রূপান্তর করেন, তখন সঠিক OCR আউটপুট ফরম্যাট নির্বাচন করা অত্যন্ত গুরুত্বপূর্ণ হয়ে ওঠে। এই ক্ষেত্রের তিনটি প্রধান ফরম্যাট হল: HOCR, ALTO এবং PDF/A। প্রতিটি ভিন্ন উদ্দেশ্যে কাজ করে, এবং তাদের পার্থক্য বোঝা আপনাকে ভবিষ্যতে অগণিত ঘন্টার হতাশা থেকে বাঁচাতে পারে।
আমি আপনাকে এই ফরম্যাটগুলো সম্পর্কে যা জানার দরকার, প্রযুক্তিগত ভিত্তি থেকে ব্যবহারিক প্রয়োগ পর্যন্ত সবকিছু ধাপে ধাপে জানিয়ে দেব।
OCR ফাইল ফরম্যাট কী?
নির্দিষ্ট ফরম্যাটে প্রবেশের আগে, আসুন জানি OCR ফাইল ফরম্যাট আসলে কী করে। যখন OCR সফটওয়্যার কোনো নথি প্রক্রিয়া করে, এটি শুধুমাত্র সাধারণ টেক্সট বের করে না—এটি মূল্যবান কাঠামোগত এবং অবস্থানগত তথ্যও সংগ্রহ করে। এতে অন্তর্ভুক্ত:
- টেক্সট কন্টেন্ট: প্রকৃত শব্দ ও অক্ষর
- লেআউট তথ্য: পৃষ্ঠায় টেক্সট কোথায় অবস্থান করে (অনুচ্ছেদ, কলাম, শিরোনাম)
- ফরম্যাটিং ডেটা: ফন্টের স্টাইল, সাইজ এবং রঙ
- কনফিডেন্স স্কোর: প্রতিটি অক্ষর সম্পর্কে OCR ইঞ্জিনের আত্মবিশ্বাসের মাত্রা
- গঠনগত হায়ারার্কি: অধ্যায়, সেকশন, শিরোনাম এবং ফুটনোট
HOCR: HTML-ভিত্তিক প্রতিদ্বন্দ্বী
HOCR কী?
HOCR (HTML OCR এর সংক্ষিপ্ত রূপ) একটি ওপেন স্ট্যান্ডার্ড যা OCR ফলাফলকে HTML ফাইলের মধ্যে এমবেড করে। টেসার্যাক্ট OCR ইঞ্জিন ইকোসিস্টেমের অংশ হিসেবে এটি বিকশিত হয়েছে এবং এটি স্ট্যান্ডার্ড HTML মার্কআপকে কাস্টম ক্লাস ও অ্যাট্রিবিউটের মাধ্যমে OCR ডেটা উপস্থাপন করে।
প্রযুক্তিগত গঠন
<div class='ocr_page' title='bbox 0 0 1700 2200'>
<div class='ocr_carea' title='bbox 100 200 800 500'>
<span class='ocr_line' title='bbox 110 210 790 240'>
<span class='ocrx_word' title='bbox 110 210 180 240'>Hello</span>
<span class='ocrx_word' title='bbox 190 210 290 240'>World</span>
</span>
</div>
</div>
title অ্যাট্রিবিউটগুলো বাউন্ডিং বক্স কোঅর্ডিনেট (bbox) ধারণ করে যা পৃষ্ঠায় প্রতিটি টেক্সট উপাদানের সঠিক অবস্থান নির্ধারণ করে।
মূল বৈশিষ্ট্য এবং সুবিধা
- ওয়েব-বন্ধুত্বপূর্ণ: এটি HTML-এ নির্মিত হওয়ায় HOCR ফাইলগুলো সহজে ওয়েব ব্রাউজারে প্রদর্শন করা যায়
- স্টাইল বিচ্ছিন্নতা: উপস্থাপনার জন্য CSS ব্যবহার করে, কন্টেন্ট এবং স্টাইল আলাদা রাখা হয়
- অ্যাক্সেসিবিলিটি: সেমান্টিক HTML গঠন স্ক্রিন রিডার এবং সহায়ক প্রযুক্তিকে সমর্থন করে
- নমনীয়তা: অন্যান্য ওয়েব প্রযুক্তি (JavaScript, CSS ফ্রেমওয়ার্ক) সঙ্গে সংযুক্ত করা যায়
- ওপেন স্ট্যান্ডার্ড: কোনো মালিকানাধীন সীমাবদ্ধতা বা লাইসেন্স ফি নেই
সাধারণ ব্যবহার ক্ষেত্র
- ওয়েব-ভিত্তিক ডকুমেন্ট ভিউয়ারসহ ডিজিটাল লাইব্রেরি ও আর্কাইভ
- ওয়েব অ্যাপ্লিকেশনের সঙ্গে সহজ ইন্টিগ্রেশন প্রয়োজনীয় প্রকল্প
- যেখানে OCR ডেটা ফাইলের মানব-পাঠযোগ্যতা গুরুত্বপূর্ণ এমন পরিস্থিতি
- ওপেন-সোর্স প্রকল্প এবং সহযোগী ডিজিটাইজেশন প্রচেষ্টা
ALTO: আর্কাইভিস্টের পছন্দ
ALTO কী?
ALTO (Analyzed Layout and Text Object) একটি XML-ভিত্তিক ফরম্যাট যা বিশেষভাবে টেক্সট পৃষ্ঠার লেআউট এবং কন্টেন্ট উপস্থাপনের জন্য ডিজাইন করা হয়েছে। লাইব্রেরি অফ কংগ্রেস দ্বারা বিকশিত এবং রক্ষণাবেক্ষণ করা, ALTO সাংস্কৃতিক ঐতিহ্য ডিজিটাইজেশন প্রকল্পে একটি স্ট্যান্ডার্ড হয়ে উঠেছে।
প্রযুক্তিগত গঠন
<alto xmlns="http://www.loc.gov/standards/alto/ns-v4#">
<Layout>
<Page ID="PAGE1" WIDTH="1700" HEIGHT="2200">
<PrintSpace HPOS="0" VPOS="0" WIDTH="1700" HEIGHT="2200">
<TextBlock ID="TB1" HPOS="100" VPOS="200" WIDTH="800" HEIGHT="300">
<TextLine ID="TL1" HPOS="110" VPOS="210" WIDTH="680" HEIGHT="30">
<String ID="S1" CONTENT="Hello" HPOS="110" VPOS="210" WIDTH="70" HEIGHT="30"/>
<String ID="S2" CONTENT="World" HPOS="190" VPOS="210" WIDTH="100" HEIGHT="30"/>
</TextLine>
</TextBlock>
</PrintSpace>
</Page>
</Layout>
</alto>
ALTO বিভিন্ন পৃষ্ঠা উপাদানের জন্য নিবেদিত উপাদানসহ একটি গঠিত XML স্কিমা ব্যবহার করে:
মূল বৈশিষ্ট্য এবং সুবিধা
- সমৃদ্ধ মেটাডেটা: বিশদ টাইপোগ্রাফিক, লেআউট এবং ভাষাগত তথ্য সমর্থন করে
- স্ট্যান্ডার্ডাইজেশন: লাইব্রেরি, আর্কাইভ এবং সাংস্কৃতিক প্রতিষ্ঠানগুলো দ্বারা ব্যাপকভাবে গ্রহণ করা হয়েছে
- ভ্যালিডেশন: XML স্কিমা ডেফিনিশন (XSD) কঠোর ভ্যালিডেশন সম্ভব করে
- বিস্তারণযোগ্যতা: বিশেষ প্রয়োজনের জন্য অতিরিক্ত নেমস্পেস দিয়ে কাস্টমাইজ করা যায়
- সংরক্ষণ-বন্ধুত্বপূর্ণ: দীর্ঘমেয়াদী ডিজিটাল আর্কাইভিংয়ের জন্য চমৎকার
সাধারণ ব্যবহার ক্ষেত্র
- জাতীয় লাইব্রেরি ডিজিটাইজেশন প্রকল্প
- ঐতিহাসিক নথি সংরক্ষণ
- বৃহৎ পরিসরের সংবাদপত্র ডিজিটাইজেশন
- বিশদ টেক্সট বিশ্লেষণ প্রয়োজনীয় একাডেমিক গবেষণা প্রকল্প
- সাংস্কৃতিক ঐতিহ্য খাতে আন্তঃপ্রতিষ্ঠানিক ডেটা বিনিময়
PDF/A: সংরক্ষণ শক্তি কেন্দ্র
PDF/A কী?
PDF/A (Portable Document Format/Archival) শুধুমাত্র OCR ফরম্যাট নয়, বরং ইলেকট্রনিক ডকুমেন্টের দীর্ঘমেয়াদী সংরক্ষণের জন্য বিশেষভাবে ডিজাইন করা PDF এর ISO-স্ট্যান্ডার্ডেড সংস্করণ। OCR এর সঙ্গে যুক্ত হলে এটি অনুসন্ধানযোগ্য এবং সংরক্ষণযোগ্য ডকুমেন্ট তৈরি করে।
প্রযুক্তিগত গঠন
PDF/A পৃষ্ঠার ছবির নিচে OCR টেক্সটকে একটি “লুকানো” স্তর হিসেবে এমবেড করে, মূল ভিজ্যুয়াল চেহারা বজায় রেখে অনুসন্ধানযোগ্যতা যোগ করে:
- ইমেজ লেয়ার: স্ক্যান করা পৃষ্ঠার ছবি (বিটম্যাপ)
- টেক্সট লেয়ার: অদৃশ্য, অনুসন্ধানযোগ্য OCR টেক্সট যা ছবির সঙ্গে সঙ্গতিপূর্ণ
- মেটাডেটা: সংরক্ষণ তথ্যের জন্য স্ট্যান্ডার্ডাইজড XMP মেটাডেটা
মূল বৈশিষ্ট্য এবং সুবিধা
- ভিজ্যুয়াল সঠিকতা: মূল ডকুমেন্টের সঠিক ভিজ্যুয়াল চেহারা সংরক্ষণ করে
- স্ব-নির্ভরতা: সমস্ত প্রয়োজনীয় রিসোর্স (ফন্ট, কালার প্রোফাইল) এমবেড করা থাকে
- ISO স্ট্যান্ডার্ডাইজেশন: ভবিষ্যতে পাঠযোগ্যতা এবং সামঞ্জস্য নিশ্চিত করে
- সার্বজনীন অ্যাক্সেসিবিলিটি: যেকোনো PDF ভিউয়ার দিয়ে খোলা যায়
- বহু স্তরের সামঞ্জস্যতা:
- PDF/A-1 (সবচেয়ে সীমাবদ্ধ, সবচেয়ে স্থিতিশীল)
- PDF/A-2 (স্বচ্ছতা এবং লেয়ার অনুমোদন করে)
- PDF/A-3 (সোর্স ফাইল এমবেড করার অনুমতি দেয়)
সাধারণ ব্যবহার ক্ষেত্র
- আইনি এবং সরকারি ডকুমেন্ট আর্কাইভ
- কর্পোরেট রেকর্ড রিটেনশন প্রোগ্রাম
- মেডিকেল রেকর্ড সংরক্ষণ
- দৃশ্যমান সত্যতা এবং অনুসন্ধানযোগ্যতা উভয়ই প্রয়োজনীয় ডকুমেন্ট ওয়ার্কফ্লো
- ডকুমেন্ট ম্যানেজমেন্টে নিয়ন্ত্রক সম্মতি
তুলনামূলক বিশ্লেষণ: HOCR বনাম ALTO বনাম PDF/A
গঠনগত তুলনা
| নং | বৈশিষ্ট্য | HOCR | ALTO | PDF/A |
|---|---|---|---|---|
| 1 | বেস প্রযুক্তি | HTML/CSS | XML | PDF + embedded elements |
| 2 | প্রধান লক্ষ্য | Web display | Detailed metadata | Visual preservation |
| 3 | টেক্সট/ইমেজ সম্পর্ক | Separate | Separate | Combined (text under image) |
| 4 | স্টাইলিং পদ্ধতি | CSS stylesheets | Attribute-based | PDF rendering |
| 5 | মানব পাঠযোগ্যতা | Excellent (text editor) | Good (XML editor) | Poor (binary format) |
মেটাডেটা সক্ষমতা
HOCR: মৌলিক লেআউট তথ্য, সীমিত সেমান্টিক মার্কআপ
ALTO: বিস্তৃত গ্রন্থসূচি, টাইপোগ্রাফিক এবং গঠনগত মেটাডেটা
PDF/A: স্ট্যান্ডার্ডাইজড সংরক্ষণ মেটাডেটা (XMP), সীমিত OCR-নির্দিষ্ট ডেটা
শিল্পে গ্রহণযোগ্যতা
- HOCR: ওপেন-সোর্স কমিউনিটি, ছোট ডিজিটাইজেশন প্রকল্প
- ALTO: সাংস্কৃতিক ঐতিহ্য প্রতিষ্ঠান, বৃহৎ পরিসরের ডিজিটাইজেশন
- PDF/A: সরকার, আইনি, কর্পোরেট সেক্টর বিশ্বব্যাপী
ফরম্যাটগুলোর মধ্যে রূপান্তর
বেশিরভাগ OCR সফটওয়্যার এবং ডিজিটাল সংরক্ষণ প্ল্যাটফর্ম এই ফরম্যাটগুলোর মধ্যে রূপান্তর সমর্থন করে:
সাধারণ রূপান্তর পথ:
- OCR ইঞ্জিন → ALTO → HOCR (ওয়েব প্রদর্শনের জন্য)
- OCR ইঞ্জিন → ALTO → PDF/A (আর্কাইভিংয়ের জন্য)
- PDF/A → ALTO/HOCR (টেক্সট এক্সট্র্যাকশন টুলের মাধ্যমে)
রূপান্তরের জন্য টুলস:
- OCR প্রসেসর: Tesseract, Abbyy FineReader, Google Cloud Vision
- কনভার্সন টুলস: pdftotext, pdf2xml, বিভিন্ন XML ট্রান্সফরমেশন টুল
- ডিজিটাল সংরক্ষণ প্ল্যাটফর্ম: Rosetta, Preservica, Archivematica
বাস্তবায়নের সেরা অনুশীলন
১. আপনার শেষ লক্ষ্য দিয়ে শুরু করুন: কীভাবে আপনি ডিজিটাইজড কন্টেন্ট ব্যবহার করবেন তার ভিত্তিতে ফরম্যাট নির্বাচন করুন
২. আপনার পুরো কর্মপ্রবাহ বিবেচনা করুন: স্ক্যানিং থেকে ডেলিভারি ও সংরক্ষণ পর্যন্ত
৩. আন্তঃপরিচালনযোগ্যতা সম্পর্কে ভাবুন: কে আপনার ডেটা অ্যাক্সেস করবে এবং কোন টুল ব্যবহার করবে
৪. দীর্ঘমেয়াদে পরিকল্পনা করুন: ডিজিটাল সংরক্ষণে ফরম্যাটের স্থায়িত্ব সম্পর্কে পূর্বধারণা রাখুন
৫. আপনার পছন্দগুলো ডকুমেন্ট করুন: আপনার ডিজিটাইজেশন টিমের জন্য স্পষ্ট গাইডলাইন তৈরি করুন
৬. বাস্তব ব্যবহারকারীদের সঙ্গে পরীক্ষা করুন: নির্বাচিত ফরম্যাট প্রকৃত ব্যবহারকারীর চাহিদা পূরণ করে কিনা নিশ্চিত করুন
উপসংহার: উদ্দেশ্যের সাথে ফরম্যাটের মিল
একটি একক “সেরা” OCR ফাইল ফরম্যাট নেই—শুধু আপনার নির্দিষ্ট চাহিদার জন্য সেরা ফরম্যাট আছে। HOCR ওয়েব পরিবেশে উৎকৃষ্ট, ALTO সাংস্কৃতিক ঐতিহ্য সংরক্ষণে প্রধান, এবং PDF/A নিয়ন্ত্রক ও সম্মতি প্রেক্ষাপটে শীর্ষে। তাদের শক্তি ও সীমাবদ্ধতা বোঝা আপনাকে সচেতন সিদ্ধান্ত নিতে সাহায্য করে, যা আপনার ডিজিটাইজেশন প্রকল্পকে বহু বছর সেবা দেবে।
প্রায়শই জিজ্ঞাসিত প্রশ্ন (FAQ)
প্রশ্ন ১: HOCR এবং ALTO ফরম্যাটের প্রধান পার্থক্য কী?
HOCR হল ওয়েব প্রদর্শনের জন্য আদর্শ একটি HTML-ভিত্তিক ফরম্যাট, আর ALTO হল লাইব্রেরি ও আর্কাইভগুলোতে বিশদ মেটাডেটা সংরক্ষণের জন্য পছন্দের একটি সমৃদ্ধ XML-ভিত্তিক ফরম্যাট।
প্রশ্ন ২: কখন আমি আমার OCR ডকুমেন্টের জন্য PDF/A নির্বাচন করা উচিত?
যখন আপনাকে আইনি সম্মতি বা দীর্ঘমেয়াদী আর্কাইভিংয়ের জন্য ডকুমেন্টের সঠিক ভিজ্যুয়াল চেহারা সংরক্ষণ করতে হয় এবং অনুসন্ধানযোগ্য টেক্সট যোগ করতে হয়, তখন PDF/A নির্বাচন করুন।
প্রশ্ন ৩: ডিজিটাল হিউম্যানিটিজ গবেষণার জন্য কোন OCR ফরম্যাট সর্বোত্তম?
গবেষণার জন্য সাধারণত ALTO ফরম্যাট সর্বোত্তম, কারণ এর বিশদ XML গঠন উন্নত টেক্সট বিশ্লেষণকে সমর্থন করে এবং জটিল লেআউট তথ্য সংরক্ষণ করে।
প্রশ্ন ৪: আমি কি HOCR, ALTO এবং PDF/A ফরম্যাটের মধ্যে রূপান্তর করতে পারি?
হ্যাঁ, বেশিরভাগ OCR সফটওয়্যার এবং ডিজিটাল সংরক্ষণ টুল এই ফরম্যাটগুলোর মধ্যে রূপান্তর সমর্থন করে, যদিও কিছু মেটাডেটা রূপান্তরের সময় হারিয়ে যেতে পারে।
প্রশ্ন ৫: PDF/A কি সাধারণ অনুসন্ধানযোগ্য PDF এর সমান?
না, PDF/A হল PDF এর একটি বিশেষায়িত ISO-স্ট্যান্ডার্ডেড সাবসেট, যা দীর্ঘমেয়াদী সংরক্ষণের জন্য বিশেষভাবে তৈরি, এবং সাধারণ PDF গুলোর তুলনায় কঠোর প্রয়োজনীয়তা রয়েছে।