Last Updated: 15 Jan, 2025

Εξαγωγή Κειμένου από Αρχείο PDF με Python
Σε αυτό το άρθρο, θα σας δείξουμε πώς να εξάγετε κείμενο από αρχείο PDF χρησιμοποιώντας Python.
PDF σημαίνει Portable Document Format και είναι μια δημοφιλής ψηφιακή μορφή εγγράφου. Αυτή η μορφή έχει σχεδιαστεί ώστε τα έγγραφα να μπορούν να προβλήνονται ή να μοιράζονται εύκολα και αξιόπιστα, ανεξάρτητα από λογισμικό, υλικό ή λειτουργικό σύστημα. Τα αρχεία PDF έχουν την επέκταση .pdf.
Για την εξαγωγή κειμένου από αρχείο PDF με Python, χρησιμοποιούνται συνήθως οι παρακάτω βιβλιοθήκες. Θα σας δείξουμε πώς να εξάγετε κείμενο από PDF χρησιμοποιώντας και τις δύο.
Πώς να Εξάγετε Κείμενο από Αρχείο PDF Χρησιμοποιώντας pypdf σε Python
Ακολουθούν τα βήματα.
- Εγκαταστήστε pypdf
- Εκτελέστε τον κώδικα που δίνεται σε αυτό το άρθρο
- Δείτε το αποτέλεσμα
Εγκατάσταση pypdf
Μπορείτε να εγκαταστήσετε το pypdf με την ακόλουθη εντολή
pip install pypdf
Δείγμα Κώδικα για Εξαγωγή Κειμένου από PDF χρησιμοποιώντας pypdf
sample.pdf - Σύνδεσμος Λήψης (Αυτό το δείγμα PDF θα χρησιμοποιηθεί στον κώδικα, αλλά μπορείτε σίγουρα να χρησιμοποιήσετε το δικό σας PDF.)
σcreenshot του sample.pdf

Κώδικας
Ακολουθεί ένα πλήρες παράδειγμα κώδικα για εξαγωγή κειμένου από PDF χρησιμοποιώντας pypdf.
Αποτέλεσμα
Ακολουθεί το αποτέλεσμα του δείγματος κώδικα που δόθηκε παραπάνω.
Πώς να Εξάγετε Κείμενο από Αρχείο PDF Χρησιμοποιώντας PyMuPDF σε Python
Ακολουθούν τα βήματα.
- Εγκαταστήστε PyMuPDF
- Εκτελέστε τον κώδικα που δίνεται σε αυτό το άρθρο
- Δείτε το αποτέλεσμα
Εγκατάσταση PyMuPDF
Εγκαταστήστε το PyMuPDF, επίσης γνωστό ως fitz, με την ακόλουθη εντολή.
pip install pymupdf
Δείγμα Κώδικα για Εξαγωγή Κειμένου από PDF χρησιμοποιώντας PyMuPDF
Χρησιμοποιήσαμε το ίδιο PDF όπως προηγουμένως
sample.pdf - Σύνδεσμος Λήψης (Αυτό το δείγμα PDF θα χρησιμοποιηθεί στον κώδικα, αλλά μπορείτε σίγουρα να χρησιμοποιήσετε το δικό σας PDF.)
Κώδικας
Ακολουθεί ένα πλήρες παράδειγμα κώδικα για εξαγωγή κειμένου από PDF χρησιμοποιώντας PyMuPDF.
Αποτέλεσμα
Ακολουθεί το αποτέλεσμα του δείγματος κώδικα που δόθηκε παραπάνω.
Συμπέρασμα
Σε αυτό το άρθρο, παρέχουμε ένα δείγμα κώδικα Python, ένα δείγμα αρχείου και το αποτέλεσμα τους για να δείξουμε πώς να εξάγετε κείμενο από PDF χρησιμοποιώντας δύο βιβλιοθήκες: PyPDF και PyMuPDF.
Αν έχετε ερωτήσεις ή αντιμετωπίζετε προβλήματα κατά την εκτέλεση του κώδικα, αφήστε ένα σχόλιο στα τα φόρουμ μας!