Last Updated: 15 Jan, 2025

Titel - Tekst extraheren uit PDF-bestand met Python

Tekst extraheren uit PDF-bestand met Python

In dit artikel laten we je weten hoe je tekst uit een PDF-bestand kunt extraheren met Python.

PDF staat voor Portable Document Format en is een populair digitaal documentformaat. Dit formaat is ontworpen om documenten gemakkelijk en betrouwbaar te kunnen bekijken of delen, ongeacht software, hardware of besturingssysteem. PDF‑bestanden hebben de extensie .pdf.

Om tekst uit een PDF-bestand te extraheren met Python, worden deze bibliotheken vaak gebruikt. We laten je zien hoe je tekst uit een PDF kunt extraheren met beide.

  1. pypdf
  2. PyMuPDF

Hoe tekst uit een PDF-bestand extraheren met pypdf in Python

Hier zijn de stappen.

  1. Installeer pypdf
  2. Voer de code uit die in dit artikel wordt gegeven
  3. Bekijk de output

Installeer pypdf

Je kunt pypdf installeren met het volgende commando

pip install pypdf

Voorbeeldcode om tekst uit PDF te extraheren met pypdf

sample.pdf - Downloadlink (Deze voorbeeld‑PDF wordt in de code gebruikt, maar je kunt uiteraard je eigen PDF gebruiken.)

screenshot van sample.pdf

Voorbeeld PDF-invoerscreenshot

Code

Hier is een volledig code‑voorbeeld voor het extraheren van tekst uit een PDF met pypdf.

Output

Hier is de output van de voorbeeldcode hierboven.

Hoe tekst uit een PDF-bestand extraheren met PyMuPDF in Python

Hier zijn de stappen.

  1. Installeer PyMuPDF
  2. Voer de code uit die in dit artikel wordt gegeven
  3. Bekijk de output

Installeer PyMuPDF

Installeer PyMuPDF, ook bekend als fitz, met het volgende commando.

pip install pymupdf

Voorbeeldcode om tekst uit PDF te extraheren met PyMuPDF

We hebben dezelfde pdf gebruikt als eerder.

sample.pdf - Downloadlink (Deze voorbeeld‑PDF wordt in de code gebruikt, maar je kunt uiteraard je eigen PDF gebruiken.)

Code

Hier is een volledig code‑voorbeeld voor het extraheren van tekst uit een PDF met PyMuPDF.

Output

Hier is de output van de voorbeeldcode hierboven.

Conclusie

In dit artikel bieden we een voorbeeld‑Python‑code, een voorbeeldbestand en de output om te demonstreren hoe je tekst uit een PDF kunt extraheren met twee bibliotheken: PyPDF en PyMuPDF.

Als je vragen hebt of problemen ondervindt bij het uitvoeren van de code, laat dan gerust een reactie achter in onze forums!

Zie ook