آخر تحديث: 15 يناير، 2025

استخراج النص من ملف PDF باستخدام بايثون
في هذه المقالة، سنخبرك كيفية استخراج النص من ملف PDF باستخدام بايثون.
PDF هي اختصار لـ صيغة الوثيقة المحمولة وهي صيغة شائعة للوثائق الرقمية. تم تصميم هذه الصيغة لتمكين الوثائق من العرض أو المشاركة بسهولة وبشكل موثوق، بغض النظر عن البرمجيات، أو الأجهزة أو نظام التشغيل. ملفات PDF لها الامتداد .pdf.
لاستخراج النص من ملف PDF باستخدام بايثون، يتم استخدام هذه المكتبات عادة. سنوضح لك كيفية استخراج النص من ملف PDF باستخدام كل منهما.
كيفية استخراج النص من ملف PDF باستخدام pypdf في بايثون
إليك الخطوات.
- تثبيت pypdf
- تشغيل الكود المذكور في هذه المقالة
- مشاهدة النتيجة
تثبيت pypdf
يمكنك تثبيت pypdf باستخدام الأمر التالي
pip install pypdf
كود عينة لاستخراج النص من PDF باستخدام pypdf
sample.pdf - رابط التحميل (سيتم استخدام هذا الـ PDF العينة في الكود، ولكن يمكنك بكل تأكيد استخدام الـ PDF الخاص بك.)
لقطة شاشة من sample.pdf
الكود
إليك مثال كامل على كود استخراج النص من ملف PDF باستخدام pypdf.
النتيجة
إليك ناتج الكود العينة المُقدم أعلاه.
كيفية استخراج النص من ملف PDF باستخدام PyMuPDF في بايثون
إليك الخطوات.
- تثبيت PyMuPDF
- تشغيل الكود المذكور في هذه المقالة
- مشاهدة النتيجة
تثبيت PyMuPDF
تثبيت PyMuPDF، المعروف أيضًا باسم fitz، باستخدام الأمر التالي.
pip install pymupdf
كود عينة لاستخراج النص من PDF باستخدام PyMuPDF
استخدمنا نفس ملف الـ PDF المستخدم سابقًا
sample.pdf - رابط التحميل (سيتم استخدام هذا الـ PDF العينة في الكود، ولكن يمكنك بالتأكيد استخدام الـ PDF الخاص بك.)
الكود
إليك مثال كامل على كود استخراج النص من ملف PDF باستخدام PyMuPDF.
النتيجة
إليك ناتج الكود العينة المُقدم أعلاه.
الخاتمة
في هذه المقالة، نقدم كود بايثون عينة، وملف عينة، ونتائجها لنوضح كيفية استخراج النص من ملف PDF باستخدام مكتبتين: PyPDF وPyMuPDF.
إذا كان لديك أي أسئلة أو واجهت أي مشاكل أثناء تشغيل الكود، لا تتردد في ترك تعليق في منتدياتنا!