Extrahera text från PDF-fil med Python

Wed, 15 Jan 2025 00:00:00 +0000

Senast uppdaterad: 15 Jan, 2025

Extrahera text från PDF-fil med Python

I den här artikeln kommer vi att visa hur du extraherar text från en PDF-fil med Python.

PDF står för Portable Document Format och är ett populärt digitalt dokumentformat. Detta format är utformat för att låta dokument visas eller delas enkelt och pålitligt, oavsett programvara, hårdvara eller operativsystem. PDF-filer har filändelsen .pdf.

För att extrahera text från en PDF-fil med Python används vanligtvis dessa bibliotek. Vi kommer att visa hur du extraherar text från en PDF med båda.

Så extraherar du text från en PDF-fil med pypdf i Python

Här är stegen.

Installera pypdf
Kör koden som ges i den här artikeln
Se resultatet

Installera pypdf

Du kan installera pypdf med följande kommando

pip install pypdf

Exempelkod för att extrahera text från PDF med pypdf

sample.pdf - Nedladdningslänk (Denna exempel‑PDF kommer att användas i koden, men du kan självklart använda din egen PDF.)

skärmdump av sample.pdf

Kod

Här är ett komplett kodexempel för att extrahera text från en PDF med pypdf.

Resultat

Här är resultatet av exempelkoden ovan.

Så extraherar du text från en PDF-fil med PyMuPDF i Python

Här är stegen.

Installera PyMuPDF
Kör koden som ges i den här artikeln
Se resultatet

Installera PyMuPDF

Installera PyMuPDF, även känt som fitz, med följande kommando.

pip install pymupdf

Exempelkod för att extrahera text från PDF med PyMuPDF

Vi använde samma PDF som tidigare.

sample.pdf - Nedladdningslänk (Denna exempel‑PDF kommer att användas i koden, men du kan självklart använda din egen PDF.)

Kod

Här är ett komplett kodexempel för att extrahera text från en PDF med PyMuPDF.

Resultat

Här är resultatet av exempelkoden ovan.

Slutsats

I den här artikeln har vi tillhandahållit ett exempel på Python‑kod, en exempel‑fil och deras resultat för att demonstrera hur du extraherar text från en PDF med två bibliotek: PyPDF och PyMuPDF.

Om du har några frågor eller stöter på problem när du kör koden, lämna gärna en kommentar i våra forum!

Python on File Format Blog

Extrahera text från PDF-fil med Python