Последно актуализирано: 15 Jan, 2025

Извличане на текст от PDF файл с Python
В тази статия ще ви покажем как да извлечете текст от PDF файл с Python.
PDF означава Portable Document Format и е популярен цифров формат за документи. Този формат е проектиран да позволява лесно и надеждно преглеждане или споделяне на документи, независимо от софтуера, хардуера или операционната система. PDF файловете имат разширение .pdf.
За извличане на текст от PDF файл с Python, тези библиотеки се използват често. Ще ви покажем как да извлечете текст от PDF, използвайки и двете.
Как да извлечете текст от PDF файл с pypdf в Python
Ето стъпките.
- Инсталирайте pypdf
- Стартирайте кода, даден в тази статия
- Вижте резултата
Инсталиране на pypdf
Можете да инсталирате pypdf със следната команда
pip install pypdf
Примерен код за извличане на текст от PDF с pypdf
sample.pdf - Линк за изтегляне (Този примерен PDF ще бъде използван в кода, но можете да използвате свой собствен PDF.)
скрийншот на sample.pdf

Код
Ето пълен примерен код за извличане на текст от PDF с pypdf.
Резултат
Това е резултатът от примерния код, предоставен по-горе.
Как да извлечете текст от PDF файл с PyMuPDF в Python
Ето стъпките.
- Инсталирайте PyMuPDF
- Стартирайте кода, даден в тази статия
- Вижте резултата
Инсталиране на PyMuPDF
Инсталирайте PyMuPDF, известен също като fitz, със следната команда.
pip install pymupdf
Примерен код за извличане на текст от PDF с PyMuPDF
Използвахме същия PDF, както преди.
sample.pdf - Линк за изтегляне (Този примерен PDF ще бъде използван в кода, но можете да използвате свой собствен PDF.)
Код
Ето пълен примерен код за извличане на текст от PDF с PyMuPDF.
Резултат
Това е резултатът от примерния код, предоставен по-горе.
Заключение
В тази статия предоставяме примерен Python код, примерен файл и техния резултат, за да демонстрираме как да извлечете текст от PDF, използвайки две библиотеки: PyPDF и PyMuPDF.
Ако имате въпроси или срещнете проблеми при изпълнението на кода, оставете коментар в нашите форуми!