آخرین بروزرسانی: ۱۵ ژانویه ۲۰۲۵

Title - Extract Text from PDF File Using Python

استخراج متن از فایل PDF با استفاده از پایتون

در این مقاله، به شما خواهیم گفت چگونه متن را از فایل PDF با استفاده از پایتون استخراج کنید.

PDF به معنی فرمت سند قابل حمل، یک فرمت محبوب برای اسناد دیجیتال است. این فرمت طراحی شده تا امکان مشاهده و اشتراک‌گذاری اسناد به سادگی و با اطمینان، بدون توجه به نرم‌افزار، سخت‌افزار یا سیستم‌عامل، فراهم شود. فایل‌های PDF دارای پسوند .pdf هستند.

برای استخراج متن از یک فایل PDF با استفاده از پایتون، این کتابخانه‌ها معمولاً استفاده می‌شوند. ما به شما نشان خواهیم داد که چگونه متن را از یک PDF با استفاده از هر دوی آن‌ها استخراج کنید.

  1. pypdf
  2. PyMuPDF

چگونه متن یک فایل PDF را با استفاده از pypdf در پایتون استخراج کنیم

در اینجا مراحل آمده است.

  1. نصب pypdf
  2. اجرای کد ارائه‌شده در این مقاله
  3. مشاهده خروجی

نصب pypdf

می‌توانید pypdf را با استفاده از دستور زیر نصب کنید

pip install pypdf

نمونه کد برای استخراج متن از PDF با استفاده از pypdf

sample.pdf - لینک دانلود (این PDF نمونه در کد استفاده خواهد شد، اما شما می‌توانید از PDF خودتان هم استفاده کنید.)

نمایی از نمونه PDF

اسکرین‌شات نمونه ورودی PDF

کد

اینجا یک مثال کامل کد برای استخراج متن از یک PDF با استفاده از pypdf است.

خروجی

در اینجا خروجی نمونه کدی که در بالا ارائه شده را مشاهده می‌کنید.

چگونه متن یک فایل PDF را با استفاده از PyMuPDF در پایتون استخراج کنیم

در اینجا مراحل آمده است.

  1. نصب PyMuPDF
  2. اجرای کد ارائه‌شده در این مقاله
  3. مشاهده خروجی

نصب PyMuPDF

PyMuPDF، که همچنین به عنوان fitz شناخته می‌شود، را با استفاده از این دستور نصب کنید.

pip install pymupdf

نمونه کد برای استخراج متن از PDF با استفاده از PyMuPDF

ما از همان PDF که قبلاً استفاده شد استفاده کردیم

sample.pdf - لینک دانلود (این PDF نمونه در کد استفاده خواهد شد، اما شما می‌توانید از PDF خودتان هم استفاده کنید.)

کد

اینجا یک مثال کامل کد برای استخراج متن از یک PDF با استفاده از PyMuPDF است.

خروجی

در اینجا خروجی نمونه کدی که در بالا ارائه شده را مشاهده می‌کنید.

نتیجه‌گیری

در این مقاله، نمونه کد پایتون، یک فایل نمونه و خروجی آن‌ها را فراهم کردیم تا چگونگی استخراج متن از یک PDF با استفاده از دو کتابخانه: PyPDF و PyMuPDF را نشان دهیم.

اگر سوالی دارید یا در اجرای کد با مشکلی مواجه می‌شوید، حتماً در انجمن‌های ما نظر بگذارید!

همچنین ببینید