آخر تحديث: 15 يناير، 2025

العنوان - استخراج النص من ملف PDF باستخدام بايثون

استخراج النص من ملف PDF باستخدام بايثون

في هذه المقالة، سنخبرك كيفية استخراج النص من ملف PDF باستخدام بايثون.

PDF هي اختصار لـ صيغة الوثيقة المحمولة وهي صيغة شائعة للوثائق الرقمية. تم تصميم هذه الصيغة لتمكين الوثائق من العرض أو المشاركة بسهولة وبشكل موثوق، بغض النظر عن البرمجيات، أو الأجهزة أو نظام التشغيل. ملفات PDF لها الامتداد .pdf.

لاستخراج النص من ملف PDF باستخدام بايثون، يتم استخدام هذه المكتبات عادة. سنوضح لك كيفية استخراج النص من ملف PDF باستخدام كل منهما.

  1. pypdf
  2. PyMuPDF

كيفية استخراج النص من ملف PDF باستخدام pypdf في بايثون

إليك الخطوات.

  1. تثبيت pypdf
  2. تشغيل الكود المذكور في هذه المقالة
  3. مشاهدة النتيجة

تثبيت pypdf

يمكنك تثبيت pypdf باستخدام الأمر التالي

pip install pypdf

كود عينة لاستخراج النص من PDF باستخدام pypdf

sample.pdf - رابط التحميل (سيتم استخدام هذا الـ PDF العينة في الكود، ولكن يمكنك بكل تأكيد استخدام الـ PDF الخاص بك.)

لقطة شاشة من sample.pdf

لقطة شاشة لملف PDF العينة

الكود

إليك مثال كامل على كود استخراج النص من ملف PDF باستخدام pypdf.

النتيجة

إليك ناتج الكود العينة المُقدم أعلاه.

كيفية استخراج النص من ملف PDF باستخدام PyMuPDF في بايثون

إليك الخطوات.

  1. تثبيت PyMuPDF
  2. تشغيل الكود المذكور في هذه المقالة
  3. مشاهدة النتيجة

تثبيت PyMuPDF

تثبيت PyMuPDF، المعروف أيضًا باسم fitz، باستخدام الأمر التالي.

pip install pymupdf

كود عينة لاستخراج النص من PDF باستخدام PyMuPDF

استخدمنا نفس ملف الـ PDF المستخدم سابقًا

sample.pdf - رابط التحميل (سيتم استخدام هذا الـ PDF العينة في الكود، ولكن يمكنك بالتأكيد استخدام الـ PDF الخاص بك.)

الكود

إليك مثال كامل على كود استخراج النص من ملف PDF باستخدام PyMuPDF.

النتيجة

إليك ناتج الكود العينة المُقدم أعلاه.

الخاتمة

في هذه المقالة، نقدم كود بايثون عينة، وملف عينة، ونتائجها لنوضح كيفية استخراج النص من ملف PDF باستخدام مكتبتين: PyPDF وPyMuPDF.

إذا كان لديك أي أسئلة أو واجهت أي مشاكل أثناء تشغيل الكود، لا تتردد في ترك تعليق في منتدياتنا!

مواضيع ذات صلة