<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Python on File Format Blog</title>
    <link>https://blog.fileformat.com/uk/categories/python/</link>
    <description>Recent content in Python on File Format Blog</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>uk</language>
    <lastBuildDate>Wed, 15 Jan 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.fileformat.com/uk/categories/python/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Витяг тексту з PDF-файлу за допомогою Python</title>
      <link>https://blog.fileformat.com/uk/programming/extract-text-from-pdf-file-using-python/</link>
      <pubDate>Wed, 15 Jan 2025 00:00:00 +0000</pubDate>
      
      <guid>https://blog.fileformat.com/uk/programming/extract-text-from-pdf-file-using-python/</guid>
      <description>У цій статті ми покажемо, як витягнути текст з PDF у Python, використовуючи популярні бібліотеки, такі як PyPDF та PyMuPDF. Також будуть надані приклади коду, приклади файлів та результати.</description>
      <content:encoded><![CDATA[<p><strong>Last Updated</strong>: 15 Jan, 2025</p>
<figure class="align-center ">
    <img loading="lazy" src="images/extract-text-from-pdf-file-using-python.webp#center"
         alt="Заголовок - Витяг тексту з PDF-файлу за допомогою Python"/> 
</figure>

<h2 id="витяг-тексту-з-pdf-файлу-за-допомогою-python">Витяг тексту з PDF-файлу за допомогою Python</h2>
<p>У цій статті ми розповімо вам <strong>як витягнути текст з PDF-файлу за допомогою Python</strong>.</p>
<p>PDF означає <strong>Portable Document Format</strong> — популярний цифровий формат документів. Цей формат розроблений для того, щоб документи можна було легко та надійно переглядати або ділитися ними, незалежно від програмного забезпечення, апаратного забезпечення чи операційної системи. Файли PDF мають розширення <strong>.pdf</strong>.</p>
<p>Для витягнення тексту з PDF-файлу за допомогою Python зазвичай використовуються наступні бібліотеки. Ми покажемо, як витягнути текст з PDF за допомогою обох.</p>
<ol>
<li><a href="https://pypi.org/project/pypdf/"><strong>pypdf</strong></a></li>
<li><a href="https://pypi.org/project/PyMuPDF/"><strong>PyMuPDF</strong></a></li>
</ol>
<h2 id="як-витягнути-текст-з-pdf-файлу-за-допомогою-pypdf-у-python">Як витягнути текст з PDF-файлу за допомогою pypdf у Python</h2>
<p>Ось кроки.</p>
<ol>
<li>Встановіть <strong>pypdf</strong></li>
<li>Запустіть код, наведений у цій статті</li>
<li>Перегляньте результат</li>
</ol>
<h3 id="встановлення-pypdf">Встановлення pypdf</h3>
<p>Ви можете встановити <strong>pypdf</strong> за допомогою наступної команди</p>
<pre tabindex="0"><code>pip install pypdf
</code></pre><h3 id="приклад-коду-для-витягнення-тексту-з-pdf-за-допомогою-pypdf">Приклад коду для витягнення тексту з PDF за допомогою pypdf</h3>
<p><strong>sample.pdf</strong> - <a href="https://github.com/shakeel-faiz/InputOutputDocs/raw/master/python-convert-pdf-to-image/sample.pdf">Посилання для завантаження</a> (Цей зразковий PDF буде використаний у коді, але ви, звичайно, можете використати власний PDF.)</p>
<p><strong>знімок екрана sample.pdf</strong></p>
<p><img loading="lazy" src="https://raw.githubusercontent.com/shakeel-faiz/InputOutputDocs/master/python-convert-pdf-to-image/sample-input-pdf-screenshot.png" alt="Знімок екрана вхідного PDF"  />
</p>
<h3 id="код">Код</h3>
<p>Ось повний приклад коду для <strong>витягнення тексту з PDF за допомогою pypdf</strong>.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/50b8279dca1fa397849031e8d370cd95.js?file=extract-text-from-pdf-using-pypdf.py"></script>

<h3 id="вихід">Вихід</h3>
<p>Ось результат виконання наведеного вище прикладу коду.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/6870826ad3c40b67dfc3d4aef838328b.js?file=output-extract-text-from-pdf-using-pypdf"></script>

<h2 id="як-витягнути-текст-з-pdf-файлу-за-допомогою-pymupdf-у-python">Як витягнути текст з PDF-файлу за допомогою PyMuPDF у Python</h2>
<p>Ось кроки.</p>
<ol>
<li>Встановіть <strong>PyMuPDF</strong></li>
<li>Запустіть код, наведений у цій статті</li>
<li>Перегляньте результат</li>
</ol>
<h3 id="встановлення-pymupdf">Встановлення PyMuPDF</h3>
<p>Встановіть <strong>PyMuPDF</strong>, також відомий як <strong>fitz</strong>, за допомогою наступної команди.</p>
<pre tabindex="0"><code>pip install pymupdf
</code></pre><h3 id="приклад-коду-для-витягнення-тексту-з-pdf-за-допомогою-pymupdf">Приклад коду для витягнення тексту з PDF за допомогою PyMuPDF</h3>
<p>Ми використали той самий PDF, що й раніше</p>
<p><strong>sample.pdf</strong> - <a href="https://github.com/shakeel-faiz/InputOutputDocs/raw/master/python-convert-pdf-to-image/sample.pdf">Посилання для завантаження</a> (Цей зразковий PDF буде використаний у коді, але ви, звичайно, можете використати власний PDF.)</p>
<h3 id="код-1">Код</h3>
<p>Ось повний приклад коду для <strong>витягнення тексту з PDF за допомогою PyMuPDF</strong>.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/799f8ecafe4d64feb803548b0d1db36d.js?file=extract-text-from-pdf-using-pymupdf.py"></script>

<h3 id="вихід-1">Вихід</h3>
<p>Ось результат виконання наведеного вище прикладу коду.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/cfda58da76b68dea4c5269b627901417.js?file=output-extract-text-from-pdf-using-pymupdf"></script>

<h2 id="висновок">Висновок</h2>
<p>У цій статті ми надали приклад коду Python, зразковий файл та їх результати, щоб продемонструвати, як витягнути текст з PDF за допомогою двох бібліотек: PyPDF та PyMuPDF.</p>
<p>Якщо у вас є питання або ви зіткнулися з проблемами під час виконання коду, залишайте коментар у <a href="https://forum.fileformat.com/">наших форумах</a>!</p>
<h2 id="дивіться-також">Дивіться також</h2>
<ul>
<li><a href="https://blog.fileformat.com/programming/convert-pdf-to-image-in-python/">Конвертація PDF у зображення за допомогою Python: покроковий посібник</a></li>
<li><a href="https://blog.fileformat.com/programming/batch-change-file-encoding-to-utf8/">Пакетна зміна кодування файлів на UTF-8</a></li>
</ul>
]]></content:encoded>
    </item>
    
  </channel>
</rss>
