עדכון אחרון: 15 Jan, 2025

כותרת - חילוץ טקסט מקובץ PDF באמצעות פייתון

חילוץ טקסט מקובץ PDF באמצעות פייתון

במאמר זה נציג לכם איך לחלץ טקסט מקובץ PDF באמצעות פייתון.

PDF הוא קיצור של Portable Document Format והוא פורמט מסמכים דיגיטלי פופולרי. פורמט זה נועד לאפשר צפייה ושיתוף של מסמכים בקלות ובאמינות, ללא תלות בתוכנה, חומרה או מערכת הפעלה. קבצי PDF נושאים את הסיומת .pdf.

כדי לחלץ טקסט מקובץ PDF באמצעות פייתון, ספריות אלו משמשות בדרך כלל. נציג לכם כיצד לחלץ טקסט מ‑PDF באמצעות שתיהן.

  1. pypdf
  2. PyMuPDF

איך לחלץ טקסט מקובץ PDF באמצעות pypdf בפייתון

להלן הצעדים.

  1. התקנת pypdf
  2. הרצת הקוד המופיע במאמר זה
  3. צפייה בתוצאה

התקנת pypdf

ניתן להתקין את pypdf באמצעות הפקודה הבאה

pip install pypdf

קוד לדוגמה לחילוץ טקסט מ‑PDF באמצעות pypdf

sample.pdf - קישור להורדה (קובץ PDF לדוגמה זה ישמש בקוד, אך אתם יכולים להשתמש ב‑PDF שלכם.)

צילום מסך של sample.pdf

צילום מסך של קובץ PDF קלט

קוד

להלן דוגמת קוד מלאה עבור חילוץ טקסט מ‑PDF באמצעות pypdf.

פלט

להלן הפלט של קוד הדוגמה שסופק למעלה.

איך לחלץ טקסט מקובץ PDF באמצעות PyMuPDF בפייתון

להלן הצעדים.

  1. התקנת PyMuPDF
  2. הרצת הקוד המופיע במאמר זה
  3. צפייה בתוצאה

התקנת PyMuPDF

התקנת PyMuPDF, הידוע גם בשם fitz, באמצעות הפקודה הבאה.

pip install pymupdf

קוד לדוגמה לחילוץ טקסט מ‑PDF באמצעות PyMuPDF

השתמשנו באותו קובץ PDF כמו קודם

sample.pdf - קישור להורדה (קובץ PDF לדוגמה זה ישמש בקוד, אך אתם יכולים להשתמש ב‑PDF שלכם.)

קוד

להלן דוגמת קוד מלאה עבור חילוץ טקסט מ‑PDF באמצעות PyMuPDF.

פלט

להלן הפלט של קוד הדוגמה שסופק למעלה.

סיכום

במאמר זה אנו מספקים קוד פייתון לדוגמה, קובץ לדוגמה, ואת הפלט שלהם כדי להדגים כיצד לחלץ טקסט מ‑PDF באמצעות שתי ספריות: PyPDF ו‑PyMuPDF.

אם יש לכם שאלות או נתקלתם בבעיות בעת הרצת הקוד, אל תהססו להשאיר תגובה בהפורומים שלנו!

ראה גם