Kemas Kini Terakhir: 15 Jan, 2025

Tajuk - Ekstrak Teks dari Fail PDF Menggunakan Python

Ekstrak Teks dari Fail PDF Menggunakan Python

Dalam artikel ini, kami akan memberitahu anda cara mengekstrak teks dari fail PDF menggunakan Python.

PDF merupakan singkatan Portable Document Format, ia adalah format dokumen digital yang popular. Format ini direka untuk membolehkan dokumen dilihat atau dikongsi dengan mudah dan boleh dipercayai, tanpa mengira perisian, perkakasan atau sistem operasi. Fail PDF mempunyai sambungan .pdf.

Untuk mengekstrak teks dari fail PDF menggunakan Python, perpustakaan ini biasanya digunakan. Kami akan menunjukkan cara mengekstrak teks dari PDF menggunakan kedua-duanya.

  1. pypdf
  2. PyMuPDF

Cara Mengekstrak Teks dari Fail PDF Menggunakan pypdf dalam Python

Berikut ialah langkah-langkah.

  1. Pasang pypdf
  2. Jalankan kod yang diberikan dalam artikel ini
  3. Lihat output

Pasang pypdf

Anda boleh memasang pypdf menggunakan perintah berikut

pip install pypdf

Kod Contoh untuk Mengekstrak Teks dari PDF menggunakan pypdf

sample.pdf - Muat Turun (PDF contoh ini akan digunakan dalam kod, tetapi anda boleh menggunakan PDF anda sendiri.)

tangkapan skrin sample.pdf

Skrin Input PDF Sampel

Code

Berikut ialah contoh kod lengkap untuk mengekstrak teks dari PDF menggunakan pypdf.

Output

Berikut ialah output kod contoh yang diberikan di atas.

Cara Mengekstrak Teks dari Fail PDF Menggunakan PyMuPDF dalam Python

Berikut ialah langkah-langkah.

  1. Pasang PyMuPDF
  2. Jalankan kod yang diberikan dalam artikel ini
  3. Lihat output

Pasang PyMuPDF

Anda boleh memasang PyMuPDF, juga dikenali sebagai fitz, menggunakan perintah berikut.

pip install pymupdf

Kod Contoh untuk Mengekstrak Teks dari PDF menggunakan PyMuPDF

Kami menggunakan pdf yang sama seperti sebelumnya

sample.pdf - Muat Turun (PDF contoh ini akan digunakan dalam kod, tetapi anda boleh menggunakan PDF anda sendiri.)

Code

Berikut ialah contoh kod lengkap untuk mengekstrak teks dari PDF menggunakan PyMuPDF.

Output

Berikut ialah output kod contoh yang diberikan di atas.

Kesimpulan

Dalam artikel ini, kami menyediakan kod Python contoh, fail contoh, dan outputnya untuk menunjukkan cara mengekstrak teks dari PDF menggunakan dua perpustakaan: PyPDF dan PyMuPDF.

Jika anda mempunyai sebarang pertanyaan atau menghadapi sebarang masalah semasa menjalankan kod, sila tinggalkan komen di forum kami!

Lihat Juga