עדכון אחרון: 15 Jan, 2025

חילוץ טקסט מקובץ PDF באמצעות פייתון
במאמר זה נציג לכם איך לחלץ טקסט מקובץ PDF באמצעות פייתון.
PDF הוא קיצור של Portable Document Format והוא פורמט מסמכים דיגיטלי פופולרי. פורמט זה נועד לאפשר צפייה ושיתוף של מסמכים בקלות ובאמינות, ללא תלות בתוכנה, חומרה או מערכת הפעלה. קבצי PDF נושאים את הסיומת .pdf.
כדי לחלץ טקסט מקובץ PDF באמצעות פייתון, ספריות אלו משמשות בדרך כלל. נציג לכם כיצד לחלץ טקסט מ‑PDF באמצעות שתיהן.
איך לחלץ טקסט מקובץ PDF באמצעות pypdf בפייתון
להלן הצעדים.
- התקנת pypdf
- הרצת הקוד המופיע במאמר זה
- צפייה בתוצאה
התקנת pypdf
ניתן להתקין את pypdf באמצעות הפקודה הבאה
pip install pypdf
קוד לדוגמה לחילוץ טקסט מ‑PDF באמצעות pypdf
sample.pdf - קישור להורדה (קובץ PDF לדוגמה זה ישמש בקוד, אך אתם יכולים להשתמש ב‑PDF שלכם.)
צילום מסך של sample.pdf

קוד
להלן דוגמת קוד מלאה עבור חילוץ טקסט מ‑PDF באמצעות pypdf.
פלט
להלן הפלט של קוד הדוגמה שסופק למעלה.
איך לחלץ טקסט מקובץ PDF באמצעות PyMuPDF בפייתון
להלן הצעדים.
- התקנת PyMuPDF
- הרצת הקוד המופיע במאמר זה
- צפייה בתוצאה
התקנת PyMuPDF
התקנת PyMuPDF, הידוע גם בשם fitz, באמצעות הפקודה הבאה.
pip install pymupdf
קוד לדוגמה לחילוץ טקסט מ‑PDF באמצעות PyMuPDF
השתמשנו באותו קובץ PDF כמו קודם
sample.pdf - קישור להורדה (קובץ PDF לדוגמה זה ישמש בקוד, אך אתם יכולים להשתמש ב‑PDF שלכם.)
קוד
להלן דוגמת קוד מלאה עבור חילוץ טקסט מ‑PDF באמצעות PyMuPDF.
פלט
להלן הפלט של קוד הדוגמה שסופק למעלה.
סיכום
במאמר זה אנו מספקים קוד פייתון לדוגמה, קובץ לדוגמה, ואת הפלט שלהם כדי להדגים כיצד לחלץ טקסט מ‑PDF באמצעות שתי ספריות: PyPDF ו‑PyMuPDF.
אם יש לכם שאלות או נתקלתם בבעיות בעת הרצת הקוד, אל תהססו להשאיר תגובה בהפורומים שלנו!