Pēdējoreiz atjaunināts: 15 Jan, 2025

Virsraksts - Izvilkt tekstu no PDF faila, izmantojot Python

Izvilkt tekstu no PDF faila, izmantojot Python

Šajā rakstā mēs pastāstīsim kā izvilkt tekstu no PDF faila, izmantojot Python.

PDF ir saīsinājums no Portable Document Format (Portāla Dokumenta Formāts) un ir populārs digitālais dokumentu formāts. Šis formāts ir izstrādāts, lai dokumentus varētu skatīt vai koplietot viegli un uzticami, neatkarīgi no programmatūras, aparatūras vai operētājsistēmas. PDF faili ir ar paplašinājumu .pdf.

Lai izvilktu tekstu no PDF faila, izmantojot Python, parasti tiek izmantotas šīs bibliotēkas. Mēs parādīsim, kā izvilkt tekstu no PDF, izmantojot abas.

  1. pypdf
  2. PyMuPDF

Kā izvilkt tekstu no PDF faila, izmantojot pypdf, Python

Šeit ir soļi.

  1. Instalējiet pypdf
  2. Izpildiet šajā rakstā sniegto kodu
  3. Apskatiet rezultātu

Instalēt pypdf

Jūs varat instalēt pypdf, izmantojot šādu komandu

pip install pypdf

Parauga kods, lai izvilktu tekstu no PDF, izmantojot pypdf

sample.pdf - Lejupielādes saite (Šis parauga PDF tiks izmantots kodā, bet jūs noteikti varat izmantot savu PDF.)

sample.pdf ekrānattēls

Parauga PDF ievades ekrānattēls

Kods

Šeit ir pilns koda piemērs teksta izvilkšanai no PDF, izmantojot pypdf.

Izvade

Šeit ir iepriekš sniegtā parauga koda izvade.

Kā izvilkt tekstu no PDF faila, izmantojot PyMuPDF, Python

Šeit ir soļi.

  1. Instalējiet PyMuPDF
  2. Izpildiet šajā rakstā sniegto kodu
  3. Apskatiet rezultātu

Instalēt PyMuPDF

Instalējiet PyMuPDF, kas arī pazīstams kā fitz, izmantojot šādu komandu.

pip install pymupdf

Parauga kods, lai izvilktu tekstu no PDF, izmantojot PyMuPDF

Mēs izmantojām to pašu PDF kā iepriekš

sample.pdf - Lejupielādes saite (Šis parauga PDF tiks izmantots kodā, bet jūs noteikti varat izmantot savu PDF.)

Kods

Šeit ir pilns koda piemērs teksta izvilkšanai no PDF, izmantojot PyMuPDF.

Izvade

Šeit ir iepriekš sniegtā parauga koda izvade.

Secinājums

Šajā rakstā mēs piedāvājam parauga Python kodu, parauga failu un to izvadi, lai parādītu, kā izvilkt tekstu no PDF, izmantojot divas bibliotēkas: PyPDF un PyMuPDF.

Ja jums ir kādi jautājumi vai rodas kādas problēmas, izpildot kodu, droši atstājiet komentāru mūsu forumos!

Skatīt arī