อัปเดตล่าสุด: 15 ม.ค. 2025

ดึงข้อความจากไฟล์ PDF ด้วย Python
ในบทความนี้ เราจะแจ้งให้คุณทราบเกี่ยวกับ วิธีดึงข้อความจากไฟล์ PDF ด้วย Python
PDF ย่อมาจาก Portable Document Format ซึ่งเป็นฟอร์แมตเอกสารดิจิทัลยอดนิยม ฟอร์แมตนี้ออกแบบมาเพื่อให้เอกสารสามารถดูหรือแชร์ได้อย่างง่ายดายและเชื่อถือได้ ไม่ว่าจะใช้ซอฟต์แวร์ ฮาร์ดแวร์ หรือระบบปฏิบัติการใดก็ตาม ไฟล์ PDF จะมีนามสกุลเป็น .pdf
ในการดึงข้อความจากไฟล์ PDF ด้วย Python มีไลบรารีเหล่านี้ที่นิยมใช้ เราจะแสดงวิธีดึงข้อความจาก PDF โดยใช้ทั้งสองตัวนี้
วิธีดึงข้อความจากไฟล์ PDF ด้วย pypdf ใน Python
นี่คือขั้นตอน
- ติดตั้ง pypdf
- รันโค้ดที่ให้ไว้ในบทความนี้
- ดูผลลัพธ์
ติดตั้ง pypdf
คุณสามารถติดตั้ง pypdf ด้วยคำสั่งต่อไปนี้
pip install pypdf
โค้ดตัวอย่างในการดึงข้อความจาก PDF ด้วย pypdf
sample.pdf - ลิงก์ดาวน์โหลด (PDF ตัวอย่างนี้จะใช้ในโค้ด แต่คุณสามารถใช้ PDF ของคุณเองได้)
ภาพหน้าจอของ sample.pdf
โค้ด
นี่คือตัวอย่างโค้ดทั้งหมดสำหรับ การดึงข้อความจาก PDF โดยใช้ pypdf
ผลลัพธ์
นี่คือผลลัพธ์ของโค้ดตัวอย่างที่ให้ไว้ด้านบน
วิธีดึงข้อความจากไฟล์ PDF ด้วย PyMuPDF ใน Python
นี่คือขั้นตอน
- ติดตั้ง PyMuPDF
- รันโค้ดที่ให้ไว้ในบทความนี้
- ดูผลลัพธ์
ติดตั้ง PyMuPDF
ติดตั้ง PyMuPDF หรือที่รู้จักในชื่อ fitz ด้วยคำสั่งต่อไปนี้
pip install pymupdf
โค้ดตัวอย่างในการดึงข้อความจาก PDF ด้วย PyMuPDF
เราใช้ PDF เดียวกันกับที่ใช้ก่อนหน้านี้
sample.pdf - ลิงก์ดาวน์โหลด (PDF ตัวอย่างนี้จะใช้ในโค้ด แต่คุณสามารถใช้ PDF ของคุณเองได้)
โค้ด
นี่คือตัวอย่างโค้ดทั้งหมดสำหรับ การดึงข้อความจาก PDF โดยใช้ PyMuPDF
ผลลัพธ์
นี่คือผลลัพธ์ของโค้ดตัวอย่างที่ให้ไว้ด้านบน
สรุป
ในบทความนี้ เราได้จัดเตรียมโค้ด Python ตัวอย่าง ไฟล์ตัวอย่าง และผลลัพธ์ของมันเพื่อแสดงวิธีการดึงข้อความจาก PDF โดยใช้ไลบรารีสองตัวคือ PyPDF และ PyMuPDF
หากคุณมีคำถามหรือพบปัญหาใด ๆ ขณะรันโค้ด สามารถแสดงความคิดเห็นใน ฟอรัมของเรา ได้เลย!