Kemas Kini Terakhir: 15 Jan, 2025

Ekstrak Teks dari Fail PDF Menggunakan Python
Dalam artikel ini, kami akan memberitahu anda cara mengekstrak teks dari fail PDF menggunakan Python.
PDF merupakan singkatan Portable Document Format, ia adalah format dokumen digital yang popular. Format ini direka untuk membolehkan dokumen dilihat atau dikongsi dengan mudah dan boleh dipercayai, tanpa mengira perisian, perkakasan atau sistem operasi. Fail PDF mempunyai sambungan .pdf.
Untuk mengekstrak teks dari fail PDF menggunakan Python, perpustakaan ini biasanya digunakan. Kami akan menunjukkan cara mengekstrak teks dari PDF menggunakan kedua-duanya.
Cara Mengekstrak Teks dari Fail PDF Menggunakan pypdf dalam Python
Berikut ialah langkah-langkah.
- Pasang pypdf
- Jalankan kod yang diberikan dalam artikel ini
- Lihat output
Pasang pypdf
Anda boleh memasang pypdf menggunakan perintah berikut
pip install pypdf
Kod Contoh untuk Mengekstrak Teks dari PDF menggunakan pypdf
sample.pdf - Muat Turun (PDF contoh ini akan digunakan dalam kod, tetapi anda boleh menggunakan PDF anda sendiri.)
tangkapan skrin sample.pdf

Code
Berikut ialah contoh kod lengkap untuk mengekstrak teks dari PDF menggunakan pypdf.
Output
Berikut ialah output kod contoh yang diberikan di atas.
Cara Mengekstrak Teks dari Fail PDF Menggunakan PyMuPDF dalam Python
Berikut ialah langkah-langkah.
- Pasang PyMuPDF
- Jalankan kod yang diberikan dalam artikel ini
- Lihat output
Pasang PyMuPDF
Anda boleh memasang PyMuPDF, juga dikenali sebagai fitz, menggunakan perintah berikut.
pip install pymupdf
Kod Contoh untuk Mengekstrak Teks dari PDF menggunakan PyMuPDF
Kami menggunakan pdf yang sama seperti sebelumnya
sample.pdf - Muat Turun (PDF contoh ini akan digunakan dalam kod, tetapi anda boleh menggunakan PDF anda sendiri.)
Code
Berikut ialah contoh kod lengkap untuk mengekstrak teks dari PDF menggunakan PyMuPDF.
Output
Berikut ialah output kod contoh yang diberikan di atas.
Kesimpulan
Dalam artikel ini, kami menyediakan kod Python contoh, fail contoh, dan outputnya untuk menunjukkan cara mengekstrak teks dari PDF menggunakan dua perpustakaan: PyPDF dan PyMuPDF.
Jika anda mempunyai sebarang pertanyaan atau menghadapi sebarang masalah semasa menjalankan kod, sila tinggalkan komen di forum kami!