Last Updated: 15 Jan, 2025

Tekst extraheren uit PDF-bestand met Python
In dit artikel laten we je weten hoe je tekst uit een PDF-bestand kunt extraheren met Python.
PDF staat voor Portable Document Format en is een populair digitaal documentformaat. Dit formaat is ontworpen om documenten gemakkelijk en betrouwbaar te kunnen bekijken of delen, ongeacht software, hardware of besturingssysteem. PDF‑bestanden hebben de extensie .pdf.
Om tekst uit een PDF-bestand te extraheren met Python, worden deze bibliotheken vaak gebruikt. We laten je zien hoe je tekst uit een PDF kunt extraheren met beide.
Hoe tekst uit een PDF-bestand extraheren met pypdf in Python
Hier zijn de stappen.
- Installeer pypdf
- Voer de code uit die in dit artikel wordt gegeven
- Bekijk de output
Installeer pypdf
Je kunt pypdf installeren met het volgende commando
pip install pypdf
Voorbeeldcode om tekst uit PDF te extraheren met pypdf
sample.pdf - Downloadlink (Deze voorbeeld‑PDF wordt in de code gebruikt, maar je kunt uiteraard je eigen PDF gebruiken.)
screenshot van sample.pdf

Code
Hier is een volledig code‑voorbeeld voor het extraheren van tekst uit een PDF met pypdf.
Output
Hier is de output van de voorbeeldcode hierboven.
Hoe tekst uit een PDF-bestand extraheren met PyMuPDF in Python
Hier zijn de stappen.
- Installeer PyMuPDF
- Voer de code uit die in dit artikel wordt gegeven
- Bekijk de output
Installeer PyMuPDF
Installeer PyMuPDF, ook bekend als fitz, met het volgende commando.
pip install pymupdf
Voorbeeldcode om tekst uit PDF te extraheren met PyMuPDF
We hebben dezelfde pdf gebruikt als eerder.
sample.pdf - Downloadlink (Deze voorbeeld‑PDF wordt in de code gebruikt, maar je kunt uiteraard je eigen PDF gebruiken.)
Code
Hier is een volledig code‑voorbeeld voor het extraheren van tekst uit een PDF met PyMuPDF.
Output
Hier is de output van de voorbeeldcode hierboven.
Conclusie
In dit artikel bieden we een voorbeeld‑Python‑code, een voorbeeldbestand en de output om te demonstreren hoe je tekst uit een PDF kunt extraheren met twee bibliotheken: PyPDF en PyMuPDF.
Als je vragen hebt of problemen ondervindt bij het uitvoeren van de code, laat dan gerust een reactie achter in onze forums!