Cập nhật lần cuối: 15 Tháng 1, 2025

Tiêu đề - Trích Xuất Văn Bản từ Tệp PDF Sử Dụng Python

Trích Xuất Văn Bản từ Tệp PDF Sử Dụng Python

Trong bài viết này, chúng tôi sẽ cho bạn biết cách trích xuất văn bản từ tệp PDF bằng Python.

PDF, viết tắt của Portable Document Format, là một định dạng tài liệu kỹ thuật số phổ biến. Định dạng này được thiết kế để cho phép tài liệu được xem hoặc chia sẻ dễ dàng và đáng tin cậy, bất kể phần mềm, phần cứng hay hệ điều hành nào. Các tệp PDF có phần mở rộng là .pdf.

Để trích xuất văn bản từ một tệp PDF bằng Python, các thư viện này thường được sử dụng. Chúng tôi sẽ chỉ cho bạn cách trích xuất văn bản từ một PDF bằng cả hai thư viện này.

  1. pypdf
  2. PyMuPDF

Cách Trích Xuất Văn Bản từ Tệp PDF Sử Dụng pypdf Trong Python

Dưới đây là các bước.

  1. Cài đặt pypdf
  2. Chạy mã được cung cấp trong bài viết này
  3. Xem kết quả đầu ra

Cài đặt pypdf

Bạn có thể cài đặt pypdf bằng lệnh sau

pip install pypdf

Mã Mẫu để Trích Xuất Văn Bản từ PDF sử dụng pypdf

sample.pdf - Liên kết Tải về (Mẫu PDF này sẽ được sử dụng trong mã, nhưng bạn chắc chắn có thể sử dụng PDF của riêng mình.)

ảnh chụp màn hình của sample.pdf

Ảnh Chụp Màn Hình Mẫu Đầu Vào PDF

Dưới đây là ví dụ mã hoàn chỉnh cho trích xuất văn bản từ một PDF bằng pypdf.

Kết Quả Đầu Ra

Dưới đây là kết quả của mã mẫu cung cấp ở trên.

Cách Trích Xuất Văn Bản từ Tệp PDF Sử Dụng PyMuPDF Trong Python

Dưới đây là các bước.

  1. Cài đặt PyMuPDF
  2. Chạy mã được cung cấp trong bài viết này
  3. Xem kết quả đầu ra

Cài đặt PyMuPDF

Cài đặt PyMuPDF, còn được biết đến như fitz, bằng lệnh sau.

pip install pymupdf

Mã Mẫu để Trích Xuất Văn Bản từ PDF sử dụng PyMuPDF

Chúng tôi đã sử dụng cùng một PDF như trước

sample.pdf - Liên kết Tải về (Mẫu PDF này sẽ được sử dụng trong mã, nhưng bạn chắc chắn có thể sử dụng PDF của riêng mình.)

Dưới đây là ví dụ mã hoàn chỉnh cho trích xuất văn bản từ một PDF bằng PyMuPDF.

Kết Quả Đầu Ra

Dưới đây là kết quả của mã mẫu cung cấp ở trên.

Kết Luận

Trong bài viết này, chúng tôi cung cấp một mã Python mẫu, một tệp mẫu và kết quả đầu ra của chúng để minh họa cách trích xuất văn bản từ một PDF sử dụng hai thư viện: PyPDF và PyMuPDF.

Nếu bạn có bất kỳ câu hỏi nào hoặc gặp phải bất kỳ vấn đề nào trong khi chạy mã, đừng ngần ngại để lại bình luận trong diễn đàn của chúng tôi!

Xem Thêm