<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Python on File Format Blog</title>
    <link>https://blog.fileformat.com/cs/categories/python/</link>
    <description>Recent content in Python on File Format Blog</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>cs</language>
    <lastBuildDate>Wed, 15 Jan 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.fileformat.com/cs/categories/python/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Extrahování textu z PDF souboru pomocí Pythonu</title>
      <link>https://blog.fileformat.com/cs/programming/extract-text-from-pdf-file-using-python/</link>
      <pubDate>Wed, 15 Jan 2025 00:00:00 +0000</pubDate>
      
      <guid>https://blog.fileformat.com/cs/programming/extract-text-from-pdf-file-using-python/</guid>
      <description>Tento článek vám ukáže, jak v Pythonu extrahovat text z PDF pomocí populárních knihoven jako PyPDF a PyMuPDF. Poskytne také ukázkový kód, soubory a výstup.</description>
      <content:encoded><![CDATA[<p><strong>Poslední aktualizace</strong>: 15 Jan, 2025</p>
<figure class="align-center ">
    <img loading="lazy" src="images/extract-text-from-pdf-file-using-python.webp#center"
         alt="Název - Extrahování textu z PDF souboru pomocí Pythonu"/> 
</figure>

<h2 id="extrahování-textu-z-pdf-souboru-pomocí-pythonu">Extrahování textu z PDF souboru pomocí Pythonu</h2>
<p>V tomto článku vám ukážeme <strong>jak extrahovat text z PDF souboru pomocí Pythonu</strong>.</p>
<p>PDF (Portable Document Format) je populární digitální formát dokumentů. Tento formát je navržen tak, aby dokumenty mohly být snadno a spolehlivě zobrazovány nebo sdíleny, bez ohledu na software, hardware či operační systém. Soubory PDF mají příponu <strong>.pdf</strong>.</p>
<p>Pro extrahování textu z PDF souboru v Pythonu se běžně používají následující knihovny. Ukážeme vám, jak extrahovat text z PDF pomocí obou.</p>
<ol>
<li><a href="https://pypi.org/project/pypdf/"><strong>pypdf</strong></a></li>
<li><a href="https://pypi.org/project/PyMuPDF/"><strong>PyMuPDF</strong></a></li>
</ol>
<h2 id="jak-extrahovat-text-z-pdf-souboru-pomocí-pypdf-v-pythonu">Jak extrahovat text z PDF souboru pomocí pypdf v Pythonu</h2>
<p>Zde jsou kroky.</p>
<ol>
<li>Nainstalujte <strong>pypdf</strong></li>
<li>Spusťte kód uvedený v tomto článku</li>
<li>Zobrazte výstup</li>
</ol>
<h3 id="instalace-pypdf">Instalace pypdf</h3>
<p><strong>pypdf</strong> můžete nainstalovat pomocí následujícího příkazu</p>
<pre tabindex="0"><code>pip install pypdf
</code></pre><h3 id="ukázkový-kód-pro-extrahování-textu-z-pdf-pomocí-pypdf">Ukázkový kód pro extrahování textu z PDF pomocí pypdf</h3>
<p><strong>sample.pdf</strong> – <a href="https://github.com/shakeel-faiz/InputOutputDocs/raw/master/python-convert-pdf-to-image/sample.pdf">Stáhnout soubor</a> (Tento ukázkový PDF bude použit v kódu, ale můžete samozřejmě použít svůj vlastní PDF.)</p>
<p><strong>snímek obrazovky sample.pdf</strong></p>
<p><img loading="lazy" src="https://raw.githubusercontent.com/shakeel-faiz/InputOutputDocs/master/python-convert-pdf-to-image/sample-input-pdf-screenshot.png" alt="Ukázkový vstupní PDF snímek obrazovky"  />
</p>
<h3 id="kód">Kód</h3>
<p>Zde je kompletní příklad kódu pro <strong>extrahování textu z PDF pomocí pypdf</strong>.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/50b8279dca1fa397849031e8d370cd95.js?file=extract-text-from-pdf-using-pypdf.py"></script>

<h3 id="výstup">Výstup</h3>
<p>Zde je výstup ukázkového kódu uvedeného výše.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/6870826ad3c40b67dfc3d4aef838328b.js?file=output-extract-text-from-pdf-using-pypdf"></script>

<h2 id="jak-extrahovat-text-z-pdf-souboru-pomocí-pymupdf-v-pythonu">Jak extrahovat text z PDF souboru pomocí PyMuPDF v Pythonu</h2>
<p>Zde jsou kroky.</p>
<ol>
<li>Nainstalujte <strong>PyMuPDF</strong></li>
<li>Spusťte kód uvedený v tomto článku</li>
<li>Zobrazte výstup</li>
</ol>
<h3 id="instalace-pymupdf">Instalace PyMuPDF</h3>
<p>Nainstalujte <strong>PyMuPDF</strong>, také známý jako <strong>fitz</strong>, pomocí následujícího příkazu.</p>
<pre tabindex="0"><code>pip install pymupdf
</code></pre><h3 id="ukázkový-kód-pro-extrahování-textu-z-pdf-pomocí-pymupdf">Ukázkový kód pro extrahování textu z PDF pomocí PyMuPDF</h3>
<p>Použili jsme stejný PDF soubor jako dříve.</p>
<p><strong>sample.pdf</strong> – <a href="https://github.com/shakeel-faiz/InputOutputDocs/raw/master/python-convert-pdf-to-image/sample.pdf">Stáhnout soubor</a> (Tento ukázkový PDF bude použit v kódu, ale můžete samozřejmě použít svůj vlastní PDF.)</p>
<h3 id="kód-1">Kód</h3>
<p>Zde je kompletní příklad kódu pro <strong>extrahování textu z PDF pomocí PyMuPDF</strong>.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/799f8ecafe4d64feb803548b0d1db36d.js?file=extract-text-from-pdf-using-pymupdf.py"></script>

<h3 id="výstup-1">Výstup</h3>
<p>Zde je výstup ukázkového kódu uvedeného výše.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/cfda58da76b68dea4c5269b627901417.js?file=output-extract-text-from-pdf-using-pymupdf"></script>

<h2 id="závěr">Závěr</h2>
<p>V tomto článku poskytujeme ukázkový Python kód, ukázkový soubor a jejich výstup, abychom demonstrovali, jak extrahovat text z PDF pomocí dvou knihoven: PyPDF a PyMuPDF.</p>
<p>Máte-li jakékoli otázky nebo narazíte na problémy při spouštění kódu, neváhejte zanechat komentář v <a href="https://forum.fileformat.com/">našem fóru</a>!</p>
<h2 id="viz-také">Viz také</h2>
<ul>
<li><a href="https://blog.fileformat.com/programming/convert-pdf-to-image-in-python/">Python PDF na obrázek: průvodce krok za krokem</a></li>
<li><a href="https://blog.fileformat.com/programming/batch-change-file-encoding-to-utf8/">Hromadná změna kódování souborů na UTF-8</a></li>
</ul>
]]></content:encoded>
    </item>
    
  </channel>
</rss>
