अंतिम अपडेट: 15 Jan, 2025

शीर्षक - Python का उपयोग करके PDF फ़ाइल से टेक्स्ट निकालें

PDF फ़ाइल से टेक्स्ट निकालें Python का उपयोग करके

इस लेख में, हम आपको Python का उपयोग करके PDF फ़ाइल से टेक्स्ट कैसे निकालें यह बताएँगे।

PDF का पूरा नाम Portable Document Format है और यह एक लोकप्रिय डिजिटल दस्तावेज़ फ़ॉर्मेट है। यह फ़ॉर्मेट इस तरह डिज़ाइन किया गया है कि दस्तावेज़ों को सॉफ़्टवेयर, हार्डवेयर या ऑपरेटिंग सिस्टम की परवाह किए बिना आसानी से देखा या साझा किया जा सके। PDF फ़ाइलों का एक्सटेंशन .pdf होता है।

Python में PDF फ़ाइल से टेक्स्ट निकालने के लिए ये लाइब्रेरीज़ आमतौर पर उपयोग की जाती हैं। हम आपको दोनों का उपयोग करके PDF से टेक्स्ट निकालना दिखाएँगे।

  1. pypdf
  2. PyMuPDF

Python में pypdf का उपयोग करके PDF फ़ाइल से टेक्स्ट निकालने का तरीका

यहाँ चरण दिए गए हैं।

  1. pypdf स्थापित करें
  2. इस लेख में दिया गया कोड चलाएँ
  3. आउटपुट देखें

pypdf स्थापित करें

आप नीचे दिए गए कमांड से pypdf स्थापित कर सकते हैं

pip install pypdf

pypdf का उपयोग करके PDF से टेक्स्ट निकालने के लिए नमूना कोड

sample.pdf - डाउनलोड लिंक (यह नमूना PDF कोड में उपयोग किया जाएगा, लेकिन आप निश्चित रूप से अपना स्वयं का PDF उपयोग कर सकते हैं।)

sample.pdf का स्क्रीनशॉट

नमूना इनपुट PDF स्क्रीनशॉट

कोड

यहाँ pypdf का उपयोग करके PDF से टेक्स्ट निकालने का पूर्ण कोड उदाहरण है।

आउटपुट

ऊपर प्रदान किए गए नमूना कोड का आउटपुट यहाँ दिखाया गया है।

Python में PyMuPDF का उपयोग करके PDF फ़ाइल से टेक्स्ट निकालने का तरीका

यहाँ चरण दिए गए हैं।

  1. PyMuPDF स्थापित करें
  2. इस लेख में दिया गया कोड चलाएँ
  3. आउटपुट देखें

PyMuPDF स्थापित करें

नीचे दिए गए कमांड से PyMuPDF, जिसे fitz भी कहा जाता है, स्थापित करें।

pip install pymupdf

PyMuPDF का उपयोग करके PDF से टेक्स्ट निकालने के लिए नमूना कोड

हमने वही PDF उपयोग किया है जो पहले उपयोग किया गया था

sample.pdf - डाउनलोड लिंक (यह नमूना PDF कोड में उपयोग किया जाएगा, लेकिन आप निश्चित रूप से अपना स्वयं का PDF उपयोग कर सकते हैं।)

कोड

यहाँ PyMuPDF का उपयोग करके PDF से टेक्स्ट निकालने का पूर्ण कोड उदाहरण है।

आउटपुट

ऊपर प्रदान किए गए नमूना कोड का आउटपुट यहाँ दिखाया गया है।

निष्कर्ष

इस लेख में, हमने एक नमूना Python कोड, एक नमूना फ़ाइल, और उनका आउटपुट प्रदान किया है ताकि यह प्रदर्शित किया जा सके कि दो लाइब्रेरीज़: PyPDF और PyMuPDF का उपयोग करके PDF से टेक्स्ट कैसे निकाला जाए।

यदि आपके कोई प्रश्न हैं या कोड चलाते समय कोई समस्या आती है, तो कृपया हमारे फ़ोरम में टिप्पणी छोड़ें!

देखें भी