最終更新日: 2025年1月15日

タイトル - PythonでPDFファイルからテキストを抽出する方法

PythonでPDFファイルからテキストを抽出する方法

この記事では、PythonでPDFファイルからテキストを抽出する方法を皆さんにお知らせします。

PDFは、**Portable Document Format(ポータブルドキュメントフォーマット)**の略で、人気のあるデジタルドキュメントフォーマットです。このフォーマットは、ソフトウェア、ハードウェア、オペレーティングシステムに関係なく、文書を簡単かつ信頼性高く表示または共有できるように設計されています。PDFファイルの拡張子は .pdf です。

Pythonを使用してPDFファイルからテキストを抽出するには、これらのライブラリが一般的に使用されます。私たちは両方の方法でテキストを抽出する方法を示します。

  1. pypdf
  2. PyMuPDF

Pythonでpypdfを使用してPDFファイルからテキストを抽出する方法

以下のステップに従ってください。

  1. pypdf をインストールする
  2. 記事内のコードを実行する
  3. 出力を確認する

pypdfをインストールする

以下のコマンドを使用して pypdf をインストールできます。

pip install pypdf

pypdfを使用してPDFからテキストを抽出するサンプルコード

sample.pdf - ダウンロードリンク(このサンプルPDFはコード内で使用されますが、ご自身のPDFも使用可能です。)

sample.pdfのスクリーンショット

サンプル入力PDFスクリーンショット

コード

以下は、pypdfを使用してPDFからテキストを抽出する完全なコード例です。

出力

上記のサンプルコードの出力は次の通りです。

PythonでPyMuPDFを使用してPDFファイルからテキストを抽出する方法

ここでもステップに沿って説明します。

  1. PyMuPDF をインストールする
  2. 記事内のコードを実行する
  3. 出力を確認する

PyMuPDFをインストールする

PyMuPDF もしくは fitz として知られるライブラリを以下のコマンドでインストールします。

pip install pymupdf

PyMuPDFを使用してPDFからテキストを抽出するサンプルコード

前に使用されたのと同じpdfを使用します。

sample.pdf - ダウンロードリンク(このサンプルPDFはコード内で使用されますが、ご自身のPDFも使用可能です。)

コード

以下は、PyMuPDFを使用してPDFからテキストを抽出する完全なコード例です。

出力

上記のサンプルコードの出力は次の通りです。

結論

この記事では、2つのライブラリであるPyPDFとPyMuPDFを使用して、PDFからテキストを抽出する方法を示すサンプルのPythonコード、サンプルファイル、およびその出力を紹介しました。

コードを実行する際に質問や問題があれば、私たちのフォーラムでお気軽にコメントを残してください!

関連記事