<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Python on File Format Blog</title>
    <link>https://blog.fileformat.com/sv/categories/python/</link>
    <description>Recent content in Python on File Format Blog</description>
    <generator>Hugo -- gohugo.io</generator>
    <language>sv</language>
    <lastBuildDate>Wed, 15 Jan 2025 00:00:00 +0000</lastBuildDate><atom:link href="https://blog.fileformat.com/sv/categories/python/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Extrahera text från PDF-fil med Python</title>
      <link>https://blog.fileformat.com/sv/programming/extract-text-from-pdf-file-using-python/</link>
      <pubDate>Wed, 15 Jan 2025 00:00:00 +0000</pubDate>
      
      <guid>https://blog.fileformat.com/sv/programming/extract-text-from-pdf-file-using-python/</guid>
      <description>Denna artikel visar hur du extraherar text från en PDF i Python med populära bibliotek som PyPDF och PyMuPDF. Den kommer också att tillhandahålla exempel på kod, exempel på filer och resultatet.</description>
      <content:encoded><![CDATA[<p><strong>Senast uppdaterad</strong>: 15 Jan, 2025</p>
<figure class="align-center ">
    <img loading="lazy" src="images/extract-text-from-pdf-file-using-python.webp#center"
         alt="Titel - Extrahera text från PDF-fil med Python"/> 
</figure>

<h2 id="extrahera-text-från-pdf-fil-med-python">Extrahera text från PDF-fil med Python</h2>
<p>I den här artikeln kommer vi att visa <strong>hur du extraherar text från en PDF-fil med Python</strong>.</p>
<p>PDF står för <strong>Portable Document Format</strong> och är ett populärt digitalt dokumentformat. Detta format är utformat för att låta dokument visas eller delas enkelt och pålitligt, oavsett programvara, hårdvara eller operativsystem. PDF-filer har filändelsen <strong>.pdf</strong>.</p>
<p>För att extrahera text från en PDF-fil med Python används vanligtvis dessa bibliotek. Vi kommer att visa hur du extraherar text från en PDF med båda.</p>
<ol>
<li><a href="https://pypi.org/project/pypdf/"><strong>pypdf</strong></a></li>
<li><a href="https://pypi.org/project/PyMuPDF/"><strong>PyMuPDF</strong></a></li>
</ol>
<h2 id="så-extraherar-du-text-från-en-pdf-fil-med-pypdf-i-python">Så extraherar du text från en PDF-fil med pypdf i Python</h2>
<p>Här är stegen.</p>
<ol>
<li>Installera <strong>pypdf</strong></li>
<li>Kör koden som ges i den här artikeln</li>
<li>Se resultatet</li>
</ol>
<h3 id="installera-pypdf">Installera pypdf</h3>
<p>Du kan installera <strong>pypdf</strong> med följande kommando</p>
<pre tabindex="0"><code>pip install pypdf
</code></pre><h3 id="exempelkod-för-att-extrahera-text-från-pdf-med-pypdf">Exempelkod för att extrahera text från PDF med pypdf</h3>
<p><strong>sample.pdf</strong> - <a href="https://github.com/shakeel-faiz/InputOutputDocs/raw/master/python-convert-pdf-to-image/sample.pdf">Nedladdningslänk</a> (Denna exempel‑PDF kommer att användas i koden, men du kan självklart använda din egen PDF.)</p>
<p><strong>skärmdump av sample.pdf</strong></p>
<p><img loading="lazy" src="https://raw.githubusercontent.com/shakeel-faiz/InputOutputDocs/master/python-convert-pdf-to-image/sample-input-pdf-screenshot.png" alt="Skärmdump av exempel‑PDF"  />
</p>
<h3 id="kod">Kod</h3>
<p>Här är ett komplett kodexempel för <strong>att extrahera text från en PDF med pypdf</strong>.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/50b8279dca1fa397849031e8d370cd95.js?file=extract-text-from-pdf-using-pypdf.py"></script>

<h3 id="resultat">Resultat</h3>
<p>Här är resultatet av exempelkoden ovan.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/6870826ad3c40b67dfc3d4aef838328b.js?file=output-extract-text-from-pdf-using-pypdf"></script>

<h2 id="så-extraherar-du-text-från-en-pdf-fil-med-pymupdf-i-python">Så extraherar du text från en PDF-fil med PyMuPDF i Python</h2>
<p>Här är stegen.</p>
<ol>
<li>Installera <strong>PyMuPDF</strong></li>
<li>Kör koden som ges i den här artikeln</li>
<li>Se resultatet</li>
</ol>
<h3 id="installera-pymupdf">Installera PyMuPDF</h3>
<p>Installera <strong>PyMuPDF</strong>, även känt som <strong>fitz</strong>, med följande kommando.</p>
<pre tabindex="0"><code>pip install pymupdf
</code></pre><h3 id="exempelkod-för-att-extrahera-text-från-pdf-med-pymupdf">Exempelkod för att extrahera text från PDF med PyMuPDF</h3>
<p>Vi använde samma PDF som tidigare.</p>
<p><strong>sample.pdf</strong> - <a href="https://github.com/shakeel-faiz/InputOutputDocs/raw/master/python-convert-pdf-to-image/sample.pdf">Nedladdningslänk</a> (Denna exempel‑PDF kommer att användas i koden, men du kan självklart använda din egen PDF.)</p>
<h3 id="kod-1">Kod</h3>
<p>Här är ett komplett kodexempel för <strong>att extrahera text från en PDF med PyMuPDF</strong>.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/799f8ecafe4d64feb803548b0d1db36d.js?file=extract-text-from-pdf-using-pymupdf.py"></script>

<h3 id="resultat-1">Resultat</h3>
<p>Här är resultatet av exempelkoden ovan.</p>
<script type="application/javascript" src="https://gist.github.com/fileformat-blog-gists/cfda58da76b68dea4c5269b627901417.js?file=output-extract-text-from-pdf-using-pymupdf"></script>

<h2 id="slutsats">Slutsats</h2>
<p>I den här artikeln har vi tillhandahållit ett exempel på Python‑kod, en exempel‑fil och deras resultat för att demonstrera hur du extraherar text från en PDF med två bibliotek: PyPDF och PyMuPDF.</p>
<p>Om du har några frågor eller stöter på problem när du kör koden, lämna gärna en kommentar i <a href="https://forum.fileformat.com/">våra forum</a>!</p>
<h2 id="se-även">Se även</h2>
<ul>
<li><a href="https://blog.fileformat.com/programming/convert-pdf-to-image-in-python/">Python PDF till bildkonvertering: Steg‑för‑steg‑guide</a></li>
<li><a href="https://blog.fileformat.com/programming/batch-change-file-encoding-to-utf8/">Massändra filkodning till UTF-8</a></li>
</ul>
]]></content:encoded>
    </item>
    
  </channel>
</rss>
