Last Updated: 15 Jan, 2025

Τίτλος - Εξαγωγή Κειμένου από Αρχείο PDF με Python

Εξαγωγή Κειμένου από Αρχείο PDF με Python

Σε αυτό το άρθρο, θα σας δείξουμε πώς να εξάγετε κείμενο από αρχείο PDF χρησιμοποιώντας Python.

PDF σημαίνει Portable Document Format και είναι μια δημοφιλής ψηφιακή μορφή εγγράφου. Αυτή η μορφή έχει σχεδιαστεί ώστε τα έγγραφα να μπορούν να προβλήνονται ή να μοιράζονται εύκολα και αξιόπιστα, ανεξάρτητα από λογισμικό, υλικό ή λειτουργικό σύστημα. Τα αρχεία PDF έχουν την επέκταση .pdf.

Για την εξαγωγή κειμένου από αρχείο PDF με Python, χρησιμοποιούνται συνήθως οι παρακάτω βιβλιοθήκες. Θα σας δείξουμε πώς να εξάγετε κείμενο από PDF χρησιμοποιώντας και τις δύο.

  1. pypdf
  2. PyMuPDF

Πώς να Εξάγετε Κείμενο από Αρχείο PDF Χρησιμοποιώντας pypdf σε Python

Ακολουθούν τα βήματα.

  1. Εγκαταστήστε pypdf
  2. Εκτελέστε τον κώδικα που δίνεται σε αυτό το άρθρο
  3. Δείτε το αποτέλεσμα

Εγκατάσταση pypdf

Μπορείτε να εγκαταστήσετε το pypdf με την ακόλουθη εντολή

pip install pypdf

Δείγμα Κώδικα για Εξαγωγή Κειμένου από PDF χρησιμοποιώντας pypdf

sample.pdf - Σύνδεσμος Λήψης (Αυτό το δείγμα PDF θα χρησιμοποιηθεί στον κώδικα, αλλά μπορείτε σίγουρα να χρησιμοποιήσετε το δικό σας PDF.)

σcreenshot του sample.pdf

Sample Input PDF Screenshot

Κώδικας

Ακολουθεί ένα πλήρες παράδειγμα κώδικα για εξαγωγή κειμένου από PDF χρησιμοποιώντας pypdf.

Αποτέλεσμα

Ακολουθεί το αποτέλεσμα του δείγματος κώδικα που δόθηκε παραπάνω.

Πώς να Εξάγετε Κείμενο από Αρχείο PDF Χρησιμοποιώντας PyMuPDF σε Python

Ακολουθούν τα βήματα.

  1. Εγκαταστήστε PyMuPDF
  2. Εκτελέστε τον κώδικα που δίνεται σε αυτό το άρθρο
  3. Δείτε το αποτέλεσμα

Εγκατάσταση PyMuPDF

Εγκαταστήστε το PyMuPDF, επίσης γνωστό ως fitz, με την ακόλουθη εντολή.

pip install pymupdf

Δείγμα Κώδικα για Εξαγωγή Κειμένου από PDF χρησιμοποιώντας PyMuPDF

Χρησιμοποιήσαμε το ίδιο PDF όπως προηγουμένως

sample.pdf - Σύνδεσμος Λήψης (Αυτό το δείγμα PDF θα χρησιμοποιηθεί στον κώδικα, αλλά μπορείτε σίγουρα να χρησιμοποιήσετε το δικό σας PDF.)

Κώδικας

Ακολουθεί ένα πλήρες παράδειγμα κώδικα για εξαγωγή κειμένου από PDF χρησιμοποιώντας PyMuPDF.

Αποτέλεσμα

Ακολουθεί το αποτέλεσμα του δείγματος κώδικα που δόθηκε παραπάνω.

Συμπέρασμα

Σε αυτό το άρθρο, παρέχουμε ένα δείγμα κώδικα Python, ένα δείγμα αρχείου και το αποτέλεσμα τους για να δείξουμε πώς να εξάγετε κείμενο από PDF χρησιμοποιώντας δύο βιβλιοθήκες: PyPDF και PyMuPDF.

Αν έχετε ερωτήσεις ή αντιμετωπίζετε προβλήματα κατά την εκτέλεση του κώδικα, αφήστε ένα σχόλιο στα τα φόρουμ μας!

Δείτε επίσης