Извличане на текст от PDF файл с Python

Wed, 15 Jan 2025 00:00:00 +0000

Последно актуализирано: 15 Jan, 2025

Извличане на текст от PDF файл с Python

В тази статия ще ви покажем как да извлечете текст от PDF файл с Python.

PDF означава Portable Document Format и е популярен цифров формат за документи. Този формат е проектиран да позволява лесно и надеждно преглеждане или споделяне на документи, независимо от софтуера, хардуера или операционната система. PDF файловете имат разширение .pdf.

За извличане на текст от PDF файл с Python, тези библиотеки се използват често. Ще ви покажем как да извлечете текст от PDF, използвайки и двете.

Как да извлечете текст от PDF файл с pypdf в Python

Ето стъпките.

Инсталирайте pypdf
Стартирайте кода, даден в тази статия
Вижте резултата

Инсталиране на pypdf

Можете да инсталирате pypdf със следната команда

pip install pypdf

Примерен код за извличане на текст от PDF с pypdf

sample.pdf - Линк за изтегляне (Този примерен PDF ще бъде използван в кода, но можете да използвате свой собствен PDF.)

скрийншот на sample.pdf

Код

Ето пълен примерен код за извличане на текст от PDF с pypdf.

Резултат

Това е резултатът от примерния код, предоставен по-горе.

Как да извлечете текст от PDF файл с PyMuPDF в Python

Ето стъпките.

Инсталирайте PyMuPDF
Стартирайте кода, даден в тази статия
Вижте резултата

Инсталиране на PyMuPDF

Инсталирайте PyMuPDF, известен също като fitz, със следната команда.

pip install pymupdf

Примерен код за извличане на текст от PDF с PyMuPDF

Използвахме същия PDF, както преди.

Код

Ето пълен примерен код за извличане на текст от PDF с PyMuPDF.

Резултат

Това е резултатът от примерния код, предоставен по-горе.

Заключение

В тази статия предоставяме примерен Python код, примерен файл и техния резултат, за да демонстрираме как да извлечете текст от PDF, използвайки две библиотеки: PyPDF и PyMuPDF.

Ако имате въпроси или срещнете проблеми при изпълнението на кода, оставете коментар в нашите форуми!

Python on File Format Blog

Извличане на текст от PDF файл с Python