最後更新:2025 年 1 月 15 日

Title - Extract Text from PDF File Using Python

使用 Python 從 PDF 文件提取文本

在本文中,我們將告訴您如何使用 Python 從 PDF 文件中提取文本

PDF 代表便攜式文檔格式,是一種流行的數位文檔格式。此格式設計為使文檔無論在何種軟體、硬體或操作系統上都能輕鬆和可靠地查看或共享。PDF 文件的擴展名為 .pdf

若要使用 Python 從 PDF 文件中提取文本,通常會用到以下這些庫。我們將向您展示如何使用這兩個庫中的任一個來從 PDF 中提取文本。

  1. pypdf
  2. PyMuPDF

如何在 Python 中使用 pypdf 從 PDF 文件中提取文本

以下是步驟。

  1. 安裝 pypdf
  2. 運行本文提供的代碼
  3. 查看輸出

安裝 pypdf

您可以使用以下命令安裝 pypdf

pip install pypdf

使用 pypdf 從 PDF 中提取文本的示例代碼

sample.pdf - 下載鏈接(此示例 PDF 將在代碼中使用,當然您也可以使用自己的 PDF。)

sample.pdf 的截圖

Sample Input PDF Screenshot

代碼

下面是一個用於使用 pypdf 從 PDF 中提取文本的完整代碼示例。

輸出

以下是上面提供的示例代碼的輸出。

如何在 Python 中使用 PyMuPDF 從 PDF 文件中提取文本

以下是步驟。

  1. 安裝 PyMuPDF
  2. 運行本文提供的代碼
  3. 查看輸出

安裝 PyMuPDF

使用以下命令安裝 PyMuPDF,也稱為 fitz

pip install pymupdf

使用 PyMuPDF 從 PDF 中提取文本的示例代碼

我們仍然使用之前使用的相同 PDF

sample.pdf - 下載鏈接(此示例 PDF 將在代碼中使用,當然您也可以使用自己的 PDF。)

代碼

下面是一個用於使用 PyMuPDF 從 PDF 中提取文本的完整代碼示例。

輸出

以下是上面提供的示例代碼的輸出。

結論

在本文中,我們提供了一個 Python 示例代碼、一個示例文件及其輸出,來演示如何使用兩個庫:PyPDF 和 PyMuPDF 從 PDF 中提取文本。

如果您在運行代碼時有任何問題或遇到任何問題,隨時在我們的論壇中留言!

另請參閱