آخرین بروزرسانی: ۱۵ ژانویه ۲۰۲۵

استخراج متن از فایل PDF با استفاده از پایتون
در این مقاله، به شما خواهیم گفت چگونه متن را از فایل PDF با استفاده از پایتون استخراج کنید.
PDF به معنی فرمت سند قابل حمل، یک فرمت محبوب برای اسناد دیجیتال است. این فرمت طراحی شده تا امکان مشاهده و اشتراکگذاری اسناد به سادگی و با اطمینان، بدون توجه به نرمافزار، سختافزار یا سیستمعامل، فراهم شود. فایلهای PDF دارای پسوند .pdf هستند.
برای استخراج متن از یک فایل PDF با استفاده از پایتون، این کتابخانهها معمولاً استفاده میشوند. ما به شما نشان خواهیم داد که چگونه متن را از یک PDF با استفاده از هر دوی آنها استخراج کنید.
چگونه متن یک فایل PDF را با استفاده از pypdf در پایتون استخراج کنیم
در اینجا مراحل آمده است.
- نصب pypdf
- اجرای کد ارائهشده در این مقاله
- مشاهده خروجی
نصب pypdf
میتوانید pypdf را با استفاده از دستور زیر نصب کنید
pip install pypdf
نمونه کد برای استخراج متن از PDF با استفاده از pypdf
sample.pdf - لینک دانلود (این PDF نمونه در کد استفاده خواهد شد، اما شما میتوانید از PDF خودتان هم استفاده کنید.)
نمایی از نمونه PDF
کد
اینجا یک مثال کامل کد برای استخراج متن از یک PDF با استفاده از pypdf است.
خروجی
در اینجا خروجی نمونه کدی که در بالا ارائه شده را مشاهده میکنید.
چگونه متن یک فایل PDF را با استفاده از PyMuPDF در پایتون استخراج کنیم
در اینجا مراحل آمده است.
- نصب PyMuPDF
- اجرای کد ارائهشده در این مقاله
- مشاهده خروجی
نصب PyMuPDF
PyMuPDF، که همچنین به عنوان fitz شناخته میشود، را با استفاده از این دستور نصب کنید.
pip install pymupdf
نمونه کد برای استخراج متن از PDF با استفاده از PyMuPDF
ما از همان PDF که قبلاً استفاده شد استفاده کردیم
sample.pdf - لینک دانلود (این PDF نمونه در کد استفاده خواهد شد، اما شما میتوانید از PDF خودتان هم استفاده کنید.)
کد
اینجا یک مثال کامل کد برای استخراج متن از یک PDF با استفاده از PyMuPDF است.
خروجی
در اینجا خروجی نمونه کدی که در بالا ارائه شده را مشاهده میکنید.
نتیجهگیری
در این مقاله، نمونه کد پایتون، یک فایل نمونه و خروجی آنها را فراهم کردیم تا چگونگی استخراج متن از یک PDF با استفاده از دو کتابخانه: PyPDF و PyMuPDF را نشان دهیم.
اگر سوالی دارید یا در اجرای کد با مشکلی مواجه میشوید، حتماً در انجمنهای ما نظر بگذارید!