最終更新日: 2025年1月29日
この記事では、Pythonを使用してPDFファイルを操作する方法をガイドします。ここでは、pypdfライブラリを使用します。
pypdfライブラリを使用して、Pythonで以下の操作を実行する方法を示します:
PDFからのテキスト抽出 PDFページの回転 複数PDFの結合 PDFの分割 PDFページへの透かしの追加 注意: この記事は多くの貴重な詳細をカバーしているため、最も興味のあるセクションに自由に飛ぶことができます!内容は簡単にナビゲートできるように整理されており、あなたに最も関連する部分に素早く集中できます。
サンプルコード この記事で使用されているサンプルコードを以下のリンクからダウンロードできます。コード、入力ファイル、および出力ファイルが含まれています。
PythonでPDFファイルを操作するためのコード例と入力ファイル pypdfのインストール pypdfをインストールするには、ターミナルまたはコマンドプロンプトで次のコマンドを実行してください:
pip install pypdf 注意: 上記のコマンドは大文字と小文字を区別します。
1. Pythonを使用してPDFファイルからテキストを抽出する コードの説明 1. PDFリーダーオブジェクトの作成
reader = PdfReader(pdf_file) PdfReader(pdf_file)はPDFファイルをリーダーオブジェクトにロードします。 このオブジェクトを使用すると、ページとそのコンテンツにアクセスできます。 2. ページのループ処理
for page_number, page in enumerate(reader.pages, start=1): reader.pagesはPDFのページリストを返します。 enumerate(..., start=1)は1から始まるページ番号を割り当てます。 3. 抽出されたテキストの表示
print(f"Page {page_number}:") print(page.extract_text()) print("-" * 50) # 読みやすさのための区切り page.extract_text()は現在のページからテキストコンテンツを抽出します。 スクリプトは抽出されたテキストとページ番号を表示します。 "-" * 50は読みやすさのための区切り線を印字します(--------------------------------------------------)。 コードで使用されている入力PDFファイル 入力ファイル: ダウンロードリンク コード実行結果 2. Pythonを使用してPDFページを回転する コードの説明 このコードは、最初のページを90°時計回りに回転させ、他のページに影響を与えずに修正したPDFを保存します。
1. 必要なクラスのインポート
from pypdf import PdfReader, PdfWriter PdfReader: 入力PDFを読み取ります。 PdfWriter: 修正を加えた新しいPDFを作成します。 2.