Paskutinį kartą atnaujinta: 15 Jan, 2025

Pavadinimas – Išskirti tekstą iš PDF failo naudojant Python

Išskirti tekstą iš PDF failo naudojant Python

Šiame straipsnyje sužinosite kaip išskirti tekstą iš PDF failo naudojant Python.

PDF reiškia Portable Document Format – populiarus skaitmeninis dokumentų formatas. Šis formatas sukurtas tam, kad dokumentai būtų lengvai ir patikimai peržiūrimi arba dalijamasi, nepriklausomai nuo programinės įrangos, aparatinės įrangos ar operacinės sistemos. PDF failų plėtinys yra .pdf.

Norint išskirti tekstą iš PDF failo naudojant Python, dažniausiai naudojamos šios bibliotekos. Parodysime, kaip išskirti tekstą iš PDF naudojant abi.

  1. pypdf
  2. PyMuPDF

Kaip išskirti tekstą iš PDF failo naudojant pypdf su Python

Čia pateikiami veiksmai.

  1. Įdiekite pypdf
  2. Paleiskite šiame straipsnyje pateiktą kodą
  3. Peržiūrėkite rezultatą

Įdiekite pypdf

Galite įdiegti pypdf naudodami šią komandą

pip install pypdf

Pavyzdinis kodas, skirtas išskirti tekstą iš PDF naudojant pypdf

sample.pdfAtsisiųsti (Šis pavyzdinis PDF bus naudojamas kode, tačiau galite naudoti savo PDF.)

pavyzdinio PDF ekrano nuotrauka

Pavyzdinio PDF įvesties ekrano nuotrauka

Kodas

Čia pateikiamas pilnas teksto išskyrimo iš PDF naudojant pypdf kodo pavyzdys.

Rezultatas

Čia pateikiamas pavyzdinio kodo, pateikto aukščiau, rezultatas.

Kaip išskirti tekstą iš PDF failo naudojant PyMuPDF su Python

Čia pateikiami veiksmai.

  1. Įdiekite PyMuPDF
  2. Paleiskite šiame straipsnyje pateiktą kodą
  3. Peržiūrėkite rezultatą

Įdiekite PyMuPDF

Įdiekite PyMuPDF, taip pat žinomą kaip fitz, naudodami šią komandą.

pip install pymupdf

Pavyzdinis kodas, skirtas išskirti tekstą iš PDF naudojant PyMuPDF

Naudojome tą patį PDF kaip anksčiau

sample.pdfAtsisiųsti (Šis pavyzdinis PDF bus naudojamas kode, tačiau galite naudoti savo PDF.)

Kodas

Čia pateikiamas pilnas teksto išskyrimo iš PDF naudojant PyMuPDF kodo pavyzdys.

Rezultatas

Čia pateikiamas pavyzdinio kodo, pateikto aukščiau, rezultatas.

Išvada

Šiame straipsnyje pateikiame pavyzdinį Python kodą, pavyzdinį failą ir jų rezultatą, kad parodytume, kaip išskirti tekstą iš PDF naudojant dvi bibliotekas: PyPDF ir PyMuPDF.

Jei turite klausimų arba susiduriate su problemomis vykdant kodą, drąsiai palikite komentarą mūsų forumuose!

Susiję straipsniai