Como extrair texto de PDFs com Python em minutos

Leandro Hirt

Atualizado em: 23/02/2026

Publicado em: 02/03/2026

Tempo de leitura: 11 minutos

Você já se deparou com a necessidade de copiar informações de centenas de arquivos, mas percebeu que fazer isso manualmente levaria dias? Aprender como extrair texto de PDFs com Python em minutos é um divisor de águas para qualquer pessoa que lida com dados, relatórios ou automação de escritório. O Python, por ser uma linguagem extremamente versátil e rica em ecossistemas de terceiros, oferece ferramentas poderosas que transformam documentos estáticos em dados manipuláveis de forma quase instantânea.

Muitas empresas ainda armazenam contratos, faturas e recibos em formato PDF. O problema é que esses arquivos não foram feitos para serem editados ou lidos facilmente por máquinas. No entanto, ao utilizar a Python para automação, você consegue varrer pastas inteiras, localizar padrões específicos e exportar o conteúdo para planilhas ou bancos de dados sem abrir um único arquivo manualmente. Neste guia, vamos explorar as bibliotecas mais eficientes e construir um script funcional passo a passo.

Por que usar Python para ler arquivos PDF?

O PDF (Portable Document Format) é o padrão da indústria para compartilhamento de documentos porque preserva a formatação independentemente do dispositivo. Contudo, essa mesma rigidez torna a extração de dados um desafio técnico. Diferente de como ler arquivos txt no Python, onde o texto é linear e simples, um PDF pode conter camadas de texto, imagens e até metadados complexos.

Python se destaca nesse cenário por possuir bibliotecas em Python maduras como o PyPDF2 e o pdfplumber. Essas ferramentas permitem acessar a estrutura interna do arquivo, identificar coordenadas de texto e até reconstruir tabelas que pareciam impossíveis de copiar. Além disso, a integração com outras bibliotecas de tratamento de dados torna o fluxo de trabalho muito mais fluido para desenvolvedores de todos os níveis.

Preparando o ambiente de desenvolvimento

Antes de começarmos a codificar, precisamos garantir que as ferramentas certas estejam instaladas no seu computador. Se você ainda tem dúvidas sobre como começar, recomendo conferir o guia de instalação e configuração do VS Code no Windows para ter um editor de código pronto para o combate.

Para extrair texto, utilizaremos principalmente duas bibliotecas: PyPDF2 (para tarefas simples e manipulação de páginas) e pdfplumber (excelente para extração precisa de texto e tabelas). Abra seu terminal ou prompt de comando e execute o seguinte comando para instalar bibliotecas no Python:

Bash

pip install PyPDF2 pdfplumber

pip install PyPDF2 pdfplumber

Com as bibliotecas instaladas, você está pronto para criar seu primeiro script. Lembre-se de que, se encontrar algum erro de permissão ou caminho de arquivo, o culpado pode ser um FileNotFoundError no Python, comumente causado por digitar o nome do arquivo incorretamente.

Extração básica com PyPDF2

O PyPDF2 é uma das bibliotecas mais antigas e confiáveis da comunidade. Ela é ideal quando você precisa ler o conteúdo bruto de um documento sem se preocupar excessivamente com a posição exata das palavras na página. É a escolha perfeita para converter um livro digital em texto puro, por exemplo.

Importando o módulo e abrindo o arquivo

O primeiro passo é importar a classe PdfReader. Diferente de versões anteriores da biblioteca, a versão atual é mais intuitiva. Vamos usar o gerenciador de contexto para garantir que o arquivo seja fechado corretamente após a leitura, evitando vazamentos de memória.

Python

from PyPDF2 import PdfReader

# Caminho do arquivo
caminho = "seu_arquivo.pdf"

# Criando o objeto de leitura
leitor = PdfReader(caminho)
print(f"O documento tem {len(leitor.pages)} páginas.")

from PyPDF2 import PdfReader

# Caminho do arquivo
caminho = "seu_arquivo.pdf"

# Criando o objeto de leitura
leitor = PdfReader(caminho)
print(f"O documento tem {len(leitor.pages)} páginas.")

Lendo o conteúdo de uma página específica

Agora que o Python “segura” o arquivo, podemos acessar qualquer página como se fosse um item de uma lista. Lembre-se que em Python a contagem começa em zero. Para extrair o texto, usamos o método extract_text().

Python

# Acessando a primeira página
pagina = leitor.pages[0]

# Extraindo o texto
texto = pagina.extract_text()
print(texto)

# Acessando a primeira página
pagina = leitor.pages[0]

# Extraindo o texto
texto = pagina.extract_text()
print(texto)

Extração avançada com PDFPlumber

Embora o PyPDF2 seja excelente, às vezes o texto extraído vem “bagunçado”, especialmente se o PDF tiver colunas ou tabelas. É aqui que o pdfplumber brilha. Segundo a documentação técnica do formato PDF na Wikipédia, o texto é posicionado por coordenadas X e Y, e o pdfplumber usa isso para entender a hierarquia visual do documento.

Extraindo texto com precisão

O pdfplumber abre o arquivo de uma forma ligeiramente diferente, mas muito poderosa. Ele consegue identificar onde termina um parágrafo e começa outro com muito mais precisão do que os métodos tradicionais.

Python

import pdfplumber

with pdfplumber.open("documento_complexo.pdf") as pdf:
    primeira_pagina = pdf.pages[0]
    texto_limpo = primeira_pagina.extract_text()
    print(texto_limpo)

import pdfplumber

with pdfplumber.open("documento_complexo.pdf") as pdf:
    primeira_pagina = pdf.pages[0]
    texto_limpo = primeira_pagina.extract_text()
    print(texto_limpo)

Trabalhando com tabelas em PDFs

Um dos maiores pesadelos de quem trabalha com dados é extrair tabelas de PDFs. O pdfplumber possui uma função chamada extract_table() que identifica as linhas e colunas desenhadas no arquivo e as converte em listas do Python de forma automática. Se você já sabe como funcionam as listas em Python, conseguirá manipular esses dados facilmente.

Python

with pdfplumber.open("fatura.pdf") as pdf:
    tabela = pdf.pages[0].extract_table()
    for linha in tabela:
        print(linha)

with pdfplumber.open("fatura.pdf") as pdf:
    tabela = pdf.pages[0].extract_table()
    for linha in tabela:
        print(linha)

Automatizando a extração de múltiplos arquivos

Saber como extrair texto de PDFs com Python em minutos só se torna verdadeiramente útil quando aplicamos a lógica em escala. Imagine que você tem uma pasta com 50 arquivos PDF e precisa ler todos eles. Para isso, utilizaremos o módulo OS em Python para iterar sobre os arquivos do diretório.

Essa abordagem é o pilar de muitos sistemas de automatizando tarefas com Python. Em vez de abrir um por um, o script faz o trabalho pesado enquanto você foca em análises mais importantes.

Python

import os
import pdfplumber

pasta = "./meus_pdfs"

for arquivo in os.listdir(pasta):
    if arquivo.endswith(".pdf"):
        caminho_completo = os.path.join(pasta, arquivo)
        with pdfplumber.open(caminho_completo) as pdf:
            texto = pdf.pages[0].extract_text()
            # Aqui você poderia salvar em um arquivo .txt ou banco de dados
            print(f"Conteúdo de {arquivo} extraído com sucesso!")

import os
import pdfplumber

pasta = "./meus_pdfs"

for arquivo in os.listdir(pasta):
    if arquivo.endswith(".pdf"):
        caminho_completo = os.path.join(pasta, arquivo)
        with pdfplumber.open(caminho_completo) as pdf:
            texto = pdf.pages[0].extract_text()
            # Aqui você poderia salvar em um arquivo .txt ou banco de dados
            print(f"Conteúdo de {arquivo} extraído com sucesso!")

Tratamento de erros comuns na extração

Nem tudo são flores no mundo dos PDFs. Frequentemente, você encontrará arquivos protegidos por senha ou arquivos corrompidos. Tentar abrir um arquivo desses sem o devido cuidado resultará em uma interrupção do seu script. É essencial utilizar a estrutura try-except em Python para capturar essas exceções.

Outro problema comum são os documentos que são, na verdade, imagens escaneadas. Nesses casos, o extract_text() retornará uma string vazia ou None no Python. Para esses arquivos, você precisará de uma técnica chamada OCR (Optical Character Recognition), utilizando ferramentas como o Tesseract, mas isso é um passo adiante na jornada da automação.

Além disso, fique atento aos erros de codificação. Embora o PDF tente ser universal, arquivos gerados por sistemas legados podem causar um UnicodeDecodeError no Python. Sempre especifique a codificação UTF-8 ao salvar seus resultados em arquivos externos.

Como extrair texto de PDFs com Python em minutos: Prática Real

Vamos consolidar tudo o que aprendemos em um script robusto. Este projeto será capaz de ler todas as páginas de um PDF, contar quantas palavras existem e salvar o resultado em um arquivo de texto separado. Usaremos o conceito de loops em Python para navegar pelas páginas e acumular o conteúdo.

Muitos iniciantes se perdem ao tentar concatenar strings grandes dentro de um loop, o que pode tornar o Python lento. No nosso código, utilizaremos uma abordagem eficiente para garantir que mesmo arquivos com centenas de páginas sejam processados rapidamente.

Estruturando o projeto de extração

O foco aqui é modularidade. Criaremos uma função que recebe o caminho do arquivo e retorna todo o texto consolidado. Isso facilita a reutilização do código em outros projetos futuros.

Python

def extrair_texto_completo(caminho_pdf):
    texto_final = []
    with pdfplumber.open(caminho_pdf) as pdf:
        for pagina in pdf.pages:
            extraido = pagina.extract_text()
            if extraido:
                texto_final.append(extraido)
    return "\n".join(texto_final)

def extrair_texto_completo(caminho_pdf):
    texto_final = []
    with pdfplumber.open(caminho_pdf) as pdf:
        for pagina in pdf.pages:
            extraido = pagina.extract_text()
            if extraido:
                texto_final.append(extraido)
    return "\n".join(texto_final)

Código Completo do Projeto

Aqui está o código unificado que você pode copiar e testar agora mesmo. Ele utiliza a biblioteca pdfplumber por sua maior precisão e inclui tratamento de erros básico para evitar que o script trave ao encontrar arquivos problemáticos.

Python

import pdfplumber
import os

def processar_pdfs(diretorio_origem):
    # Verifica se a pasta existe para evitar FileNotFoundError
    if not os.path.exists(diretorio_origem):
        print("Erro: A pasta especificada não existe.")
        return

    for nome_arquivo in os.listdir(diretorio_origem):
        if nome_arquivo.lower().endswith(".pdf"):
            caminho_full = os.path.join(diretorio_origem, nome_arquivo)
            print(f"Processando: {nome_arquivo}...")

            try:
                with pdfplumber.open(caminho_full) as pdf:
                    conteudo = []
                    for pagina in pdf.pages:
                        texto = pagina.extract_text()
                        if texto:
                            conteudo.append(texto)
                    
                    # Salva o resultado em um arquivo TXT
                    nome_saida = nome_arquivo.replace(".pdf", ".txt")
                    with open(nome_saida, "w", encoding="utf-8") as f:
                        f.write("\n".join(conteudo))
                
                print(f"Sucesso! Texto salvo em {nome_saida}")
            
            except Exception as e:
                print(f"Falha ao processar {nome_arquivo}: {e}")

if __name__ == "__main__":
    # Certifique-se de criar uma pasta chamada 'documentos' ou altere o caminho abaixo
    processar_pdfs("documentos")

import pdfplumber
import os

def processar_pdfs(diretorio_origem):
    # Verifica se a pasta existe para evitar FileNotFoundError
    if not os.path.exists(diretorio_origem):
        print("Erro: A pasta especificada não existe.")
        return

    for nome_arquivo in os.listdir(diretorio_origem):
        if nome_arquivo.lower().endswith(".pdf"):
            caminho_full = os.path.join(diretorio_origem, nome_arquivo)
            print(f"Processando: {nome_arquivo}...")

            try:
                with pdfplumber.open(caminho_full) as pdf:
                    conteudo = []
                    for pagina in pdf.pages:
                        texto = pagina.extract_text()
                        if texto:
                            conteudo.append(texto)
                    
                    # Salva o resultado em um arquivo TXT
                    nome_saida = nome_arquivo.replace(".pdf", ".txt")
                    with open(nome_saida, "w", encoding="utf-8") as f:
                        f.write("\n".join(conteudo))
                
                print(f"Sucesso! Texto salvo em {nome_saida}")
            
            except Exception as e:
                print(f"Falha ao processar {nome_arquivo}: {e}")

if __name__ == "__main__":
    # Certifique-se de criar uma pasta chamada 'documentos' ou altere o caminho abaixo
    processar_pdfs("documentos")

Melhorando a precisão da extração

Muitas vezes, a extração bruta traz caracteres indesejados ou espaços excessivos. Para limpar esses dados, você pode utilizar o poder do Regex no Python (Expressões Regulares). Com o Regex, é possível filtrar apenas números de CPF, valores monetários ou datas específicas dentro do texto extraído do PDF.

Outra dica valiosa é consultar a página oficial do PDFPlumber no PyPI para entender parâmetros avançados, como o table_settings, que ajuda a ignorar linhas de grade ou capturar apenas tabelas com bordas invisíveis. Dominar essas nuances é o que separa um iniciante de um desenvolvedor sênior em automação.

Conclusão e Próximos Passos

Dominar como extrair texto de PDFs com Python em minutos abre portas para infinitas possibilidades profissionais. Você pode criar robôs que leem editais públicos, sistemas que organizam notas fiscais automaticamente ou ferramentas de análise de sentimento em relatórios financeiros. A chave é começar com o simples e ir escalando conforme a necessidade do seu projeto.

Agora que você já sabe extrair o texto, o próximo passo natural é aprender como processar esses dados. Explore como salvar essas informações em arquivos CSV no Python para abrir no Excel, ou até mesmo como realizar a gerar PDF no Python caso precise criar novos documentos a partir dos dados limpos. A jornada da programação é contínua e cada nova biblioteca aprendida é uma ferramenta a mais no seu arsenal.

Perguntas Frequentes

O Python consegue ler PDFs protegidos por senha?

Sim, o PyPDF2 e o pdfplumber permitem passar um argumento de senha ao abrir o arquivo. Se a senha for conhecida, o Python descriptografa o conteúdo temporariamente para a leitura.

Por que meu código retorna apenas strings vazias de um PDF?

Provavelmente o PDF é uma imagem (escaneado). Nesses casos, não há camadas de texto para o Python “ler”. Você precisará usar uma biblioteca de OCR como o pytesseract para identificar os caracteres visualmente.

Qual biblioteca é melhor: PyPDF2 ou pdfplumber?

Depende do objetivo. O PyPDF2 é mais leve e melhor para manipular páginas (mesclar, girar, separar). O pdfplumber é superior na extração de texto legível e tabelas complexas.

Consigo extrair imagens de dentro de um PDF com Python?

Sim, bibliotecas como PyMuPDF (fitz) são altamente recomendadas para extrair e salvar imagens contidas nos documentos de forma isolada.

Como lidar com PDFs que têm várias colunas?

O pdfplumber lida melhor com isso, pois ele extrai o texto seguindo a ordem visual. Se o problema persistir, você pode configurar áreas de corte específicas na página para ler uma coluna por vez.

O Python consegue editar o texto dentro de um PDF original?

Não diretamente. O formato PDF não permite edição como um arquivo Word. O fluxo correto é extrair o texto, modificá-lo no Python e gerar um novo arquivo PDF.

É possível extrair apenas uma parte específica da página?

Sim, com o pdfplumber você pode definir uma “bounding box” (caixa delimitadora) usando coordenadas e extrair apenas o que estiver dentro daquela área (ex: apenas o cabeçalho).

Extrair dados de PDFs é legal?

Depende do uso. Se os documentos forem seus ou públicos, não há problema. Caso contrário, verifique sempre os termos de uso e a LGPD (Lei Geral de Proteção de Dados) antes de automatizar a coleta.

Compartilhe:

Como extrair texto de PDFs com Python em minutos

Por que usar Python para ler arquivos PDF?

Preparando o ambiente de desenvolvimento

Extração básica com PyPDF2

Importando o módulo e abrindo o arquivo

Lendo o conteúdo de uma página específica

Extração avançada com PDFPlumber

Extraindo texto com precisão

Trabalhando com tabelas em PDFs

Automatizando a extração de múltiplos arquivos

Tratamento de erros comuns na extração

Como extrair texto de PDFs com Python em minutos: Prática Real

Estruturando o projeto de extração

Código Completo do Projeto

Melhorando a precisão da extração

Conclusão e Próximos Passos

Perguntas Frequentes

O Python consegue ler PDFs protegidos por senha?

Por que meu código retorna apenas strings vazias de um PDF?

Qual biblioteca é melhor: PyPDF2 ou pdfplumber?

Consigo extrair imagens de dentro de um PDF com Python?

Como lidar com PDFs que têm várias colunas?

O Python consegue editar o texto dentro de um PDF original?

É possível extrair apenas uma parte específica da página?

Extrair dados de PDFs é legal?

Conteúdo do artigo

Artigos relacionados

Como gerar QR Code com Python em poucos minutos

Como fazer seu primeiro jogo de Pong com Python

Como criar um servidor HTTP simples em Python em 5 minutos

Criando jogos com Pygame para iniciantes

Chatbot com OpenAI API usando Python

Barra de progresso com tqdm no Python

Domine Python do Básico ao Avançado

Links rápidos

Blog

Redes sociais