อัปเดตล่าสุด: 15 ม.ค. 2025

Title - ดึงข้อความจากไฟล์ PDF ด้วย Python

ดึงข้อความจากไฟล์ PDF ด้วย Python

ในบทความนี้ เราจะแจ้งให้คุณทราบเกี่ยวกับ วิธีดึงข้อความจากไฟล์ PDF ด้วย Python

PDF ย่อมาจาก Portable Document Format ซึ่งเป็นฟอร์แมตเอกสารดิจิทัลยอดนิยม ฟอร์แมตนี้ออกแบบมาเพื่อให้เอกสารสามารถดูหรือแชร์ได้อย่างง่ายดายและเชื่อถือได้ ไม่ว่าจะใช้ซอฟต์แวร์ ฮาร์ดแวร์ หรือระบบปฏิบัติการใดก็ตาม ไฟล์ PDF จะมีนามสกุลเป็น .pdf

ในการดึงข้อความจากไฟล์ PDF ด้วย Python มีไลบรารีเหล่านี้ที่นิยมใช้ เราจะแสดงวิธีดึงข้อความจาก PDF โดยใช้ทั้งสองตัวนี้

  1. pypdf
  2. PyMuPDF

วิธีดึงข้อความจากไฟล์ PDF ด้วย pypdf ใน Python

นี่คือขั้นตอน

  1. ติดตั้ง pypdf
  2. รันโค้ดที่ให้ไว้ในบทความนี้
  3. ดูผลลัพธ์

ติดตั้ง pypdf

คุณสามารถติดตั้ง pypdf ด้วยคำสั่งต่อไปนี้

pip install pypdf

โค้ดตัวอย่างในการดึงข้อความจาก PDF ด้วย pypdf

sample.pdf - ลิงก์ดาวน์โหลด (PDF ตัวอย่างนี้จะใช้ในโค้ด แต่คุณสามารถใช้ PDF ของคุณเองได้)

ภาพหน้าจอของ sample.pdf

ภาพหน้าจอ Input PDF ตัวอย่าง

โค้ด

นี่คือตัวอย่างโค้ดทั้งหมดสำหรับ การดึงข้อความจาก PDF โดยใช้ pypdf

ผลลัพธ์

นี่คือผลลัพธ์ของโค้ดตัวอย่างที่ให้ไว้ด้านบน

วิธีดึงข้อความจากไฟล์ PDF ด้วย PyMuPDF ใน Python

นี่คือขั้นตอน

  1. ติดตั้ง PyMuPDF
  2. รันโค้ดที่ให้ไว้ในบทความนี้
  3. ดูผลลัพธ์

ติดตั้ง PyMuPDF

ติดตั้ง PyMuPDF หรือที่รู้จักในชื่อ fitz ด้วยคำสั่งต่อไปนี้

pip install pymupdf

โค้ดตัวอย่างในการดึงข้อความจาก PDF ด้วย PyMuPDF

เราใช้ PDF เดียวกันกับที่ใช้ก่อนหน้านี้

sample.pdf - ลิงก์ดาวน์โหลด (PDF ตัวอย่างนี้จะใช้ในโค้ด แต่คุณสามารถใช้ PDF ของคุณเองได้)

โค้ด

นี่คือตัวอย่างโค้ดทั้งหมดสำหรับ การดึงข้อความจาก PDF โดยใช้ PyMuPDF

ผลลัพธ์

นี่คือผลลัพธ์ของโค้ดตัวอย่างที่ให้ไว้ด้านบน

สรุป

ในบทความนี้ เราได้จัดเตรียมโค้ด Python ตัวอย่าง ไฟล์ตัวอย่าง และผลลัพธ์ของมันเพื่อแสดงวิธีการดึงข้อความจาก PDF โดยใช้ไลบรารีสองตัวคือ PyPDF และ PyMuPDF

หากคุณมีคำถามหรือพบปัญหาใด ๆ ขณะรันโค้ด สามารถแสดงความคิดเห็นใน ฟอรัมของเรา ได้เลย!

บทความที่เกี่ยวข้อง