Sidst opdateret: 15 Jan, 2025

Titel - Udtræk tekst fra PDF-fil ved hjælp af Python

Udtræk tekst fra PDF-fil ved hjælp af Python

I denne artikel vil vi vise dig hvordan du kan udtrække tekst fra en PDF‑fil ved hjælp af Python.

PDF står for Portable Document Format og er et populært digitalt dokumentformat. Dette format er designet til at gøre det muligt at vise eller dele dokumenter nemt og pålideligt, uanset software, hardware eller operativsystem. PDF‑filer har filtypen .pdf.

For at udtrække tekst fra en PDF‑fil ved hjælp af Python, bruges disse biblioteker ofte. Vi vil vise dig, hvordan du kan udtrække tekst fra en PDF ved hjælp af begge.

  1. pypdf
  2. PyMuPDF

Sådan udtrækkes tekst fra en PDF‑fil ved hjælp af pypdf i Python

Her er trinnene.

  1. Installer pypdf
  2. Kør koden givet i denne artikel
  3. Se outputtet

Installer pypdf

Du kan installere pypdf ved hjælp af følgende kommando

pip install pypdf

Eksempel‑kode til at udtrække tekst fra PDF ved hjælp af pypdf

sample.pdfDownload link (Dette eksempel‑PDF vil blive brugt i koden, men du kan naturligvis bruge din egen PDF.)

Skærmbillede af eksempel‑PDF

Skærmbillede af eksempel‑PDF

Kode

Her er et komplet kodeeksempel for udtrækning af tekst fra en PDF ved hjælp af pypdf.

Output

Her er outputtet fra den ovenstående eksempel‑kode.

Sådan udtrækkes tekst fra en PDF‑fil ved hjælp af PyMuPDF i Python

Her er trinnene.

  1. Installer PyMuPDF
  2. Kør koden givet i denne artikel
  3. Se outputtet

Installer PyMuPDF

Installer PyMuPDF, også kendt som fitz, ved hjælp af følgende kommando.

pip install pymupdf

Eksempel‑kode til at udtrække tekst fra PDF ved hjælp af PyMuPDF

Vi brugte den samme PDF som før

sample.pdfDownload link (Dette eksempel‑PDF vil blive brugt i koden, men du kan naturligvis bruge din egen PDF.)

Kode

Her er et komplet kodeeksempel for udtrækning af tekst fra en PDF ved hjælp af PyMuPDF.

Output

Her er outputtet fra den ovenstående eksempel‑kode.

Konklusion

I denne artikel giver vi et eksempel på Python‑kode, en eksempelfil og deres output for at demonstrere, hvordan man udtrækker tekst fra en PDF ved hjælp af to biblioteker: PyPDF og PyMuPDF.

Hvis du har spørgsmål eller støder på problemer, mens du kører koden, er du velkommen til at efterlade en kommentar i vores fora!

Se også