使用 Python 從 PDF 文件提取文本

最後更新：2025 年 1 月 15 日

Title - Extract Text from PDF File Using Python

使用 Python 從 PDF 文件提取文本

在本文中，我們將告訴您如何使用 Python 從 PDF 文件中提取文本。

PDF 代表便攜式文檔格式，是一種流行的數位文檔格式。此格式設計為使文檔無論在何種軟體、硬體或操作系統上都能輕鬆和可靠地查看或共享。PDF 文件的擴展名為 .pdf。

若要使用 Python 從 PDF 文件中提取文本，通常會用到以下這些庫。我們將向您展示如何使用這兩個庫中的任一個來從 PDF 中提取文本。

如何在 Python 中使用 pypdf 從 PDF 文件中提取文本

以下是步驟。

安裝 pypdf
運行本文提供的代碼
查看輸出

安裝 pypdf

您可以使用以下命令安裝 pypdf

pip install pypdf

使用 pypdf 從 PDF 中提取文本的示例代碼

sample.pdf - 下載鏈接（此示例 PDF 將在代碼中使用，當然您也可以使用自己的 PDF。）

sample.pdf 的截圖

Sample Input PDF Screenshot

代碼

下面是一個用於使用 pypdf 從 PDF 中提取文本的完整代碼示例。

輸出

以下是上面提供的示例代碼的輸出。

如何在 Python 中使用 PyMuPDF 從 PDF 文件中提取文本

以下是步驟。

安裝 PyMuPDF
運行本文提供的代碼
查看輸出

安裝 PyMuPDF

使用以下命令安裝 PyMuPDF，也稱為 fitz。

pip install pymupdf

使用 PyMuPDF 從 PDF 中提取文本的示例代碼

我們仍然使用之前使用的相同 PDF

sample.pdf - 下載鏈接（此示例 PDF 將在代碼中使用，當然您也可以使用自己的 PDF。）

代碼

下面是一個用於使用 PyMuPDF 從 PDF 中提取文本的完整代碼示例。

輸出

以下是上面提供的示例代碼的輸出。

結論

在本文中，我們提供了一個 Python 示例代碼、一個示例文件及其輸出，來演示如何使用兩個庫：PyPDF 和 PyMuPDF 從 PDF 中提取文本。

如果您在運行代碼時有任何問題或遇到任何問題，隨時在我們的論壇中留言！

使用 Python 從 PDF 文件提取文本#

如何在 Python 中使用 pypdf 從 PDF 文件中提取文本#

安裝 pypdf#

使用 pypdf 從 PDF 中提取文本的示例代碼#

代碼#

輸出#

如何在 Python 中使用 PyMuPDF 從 PDF 文件中提取文本#

安裝 PyMuPDF#

使用 PyMuPDF 從 PDF 中提取文本的示例代碼#

代碼#

輸出#

結論#

另請參閱#

使用 Python 從 PDF 文件提取文本

如何在 Python 中使用 pypdf 從 PDF 文件中提取文本

安裝 pypdf

使用 pypdf 從 PDF 中提取文本的示例代碼

代碼

輸出

如何在 Python 中使用 PyMuPDF 從 PDF 文件中提取文本

安裝 PyMuPDF

使用 PyMuPDF 從 PDF 中提取文本的示例代碼

代碼

輸出

結論

另請參閱