Senast uppdaterad: 15 Jan, 2025

Titel - Extrahera text från PDF-fil med Python

Extrahera text från PDF-fil med Python

I den här artikeln kommer vi att visa hur du extraherar text från en PDF-fil med Python.

PDF står för Portable Document Format och är ett populärt digitalt dokumentformat. Detta format är utformat för att låta dokument visas eller delas enkelt och pålitligt, oavsett programvara, hårdvara eller operativsystem. PDF-filer har filändelsen .pdf.

För att extrahera text från en PDF-fil med Python används vanligtvis dessa bibliotek. Vi kommer att visa hur du extraherar text från en PDF med båda.

  1. pypdf
  2. PyMuPDF

Så extraherar du text från en PDF-fil med pypdf i Python

Här är stegen.

  1. Installera pypdf
  2. Kör koden som ges i den här artikeln
  3. Se resultatet

Installera pypdf

Du kan installera pypdf med följande kommando

pip install pypdf

Exempelkod för att extrahera text från PDF med pypdf

sample.pdf - Nedladdningslänk (Denna exempel‑PDF kommer att användas i koden, men du kan självklart använda din egen PDF.)

skärmdump av sample.pdf

Skärmdump av exempel‑PDF

Kod

Här är ett komplett kodexempel för att extrahera text från en PDF med pypdf.

Resultat

Här är resultatet av exempelkoden ovan.

Så extraherar du text från en PDF-fil med PyMuPDF i Python

Här är stegen.

  1. Installera PyMuPDF
  2. Kör koden som ges i den här artikeln
  3. Se resultatet

Installera PyMuPDF

Installera PyMuPDF, även känt som fitz, med följande kommando.

pip install pymupdf

Exempelkod för att extrahera text från PDF med PyMuPDF

Vi använde samma PDF som tidigare.

sample.pdf - Nedladdningslänk (Denna exempel‑PDF kommer att användas i koden, men du kan självklart använda din egen PDF.)

Kod

Här är ett komplett kodexempel för att extrahera text från en PDF med PyMuPDF.

Resultat

Här är resultatet av exempelkoden ovan.

Slutsats

I den här artikeln har vi tillhandahållit ett exempel på Python‑kod, en exempel‑fil och deras resultat för att demonstrera hur du extraherar text från en PDF med två bibliotek: PyPDF och PyMuPDF.

Om du har några frågor eller stöter på problem när du kör koden, lämna gärna en kommentar i våra forum!

Se även