Como converter um arquivo PDF em documento de texto no Linux

Ao contrário de um arquivo de texto, você não pode editar um PDF diretamente. Existem várias maneiras de gerar arquivos PDF usando texto. Mas e se você quiser fazer o contrário e converter PDFs em arquivos de texto?

Felizmente, o Linux permite que você modifique facilmente esses arquivos do terminal. Este artigo demonstrará como converter um arquivo PDF em um documento de texto no Linux.

Converter PDF em texto a partir do terminal

Poppler é uma biblioteca de software usada para processar e modificar arquivos PDF. Ele contém um utilitário, conhecido como pdftotext , que permite aos usuários gerar arquivos de texto a partir de PDFs. Visto que poppler-utils não faz parte dos pacotes padrão do Linux, você terá que instalá-lo manualmente usando um gerenciador de pacotes.

No Ubuntu e Debian:

 sudo apt install poppler-utils

Para instalar o Poppler no Arch Linux:

 sudo pacman -S poppler

Instalar o pacote poppler-utils no CentOS, Fedora e outras distribuições baseadas em RHEL é fácil.

 sudo dnf install poppler-utils
sudo yum install poppler-utils

Converter um PDF inteiro em texto

A sintaxe básica do comando pdftotext é:

 pdftotext [options] pdffile textfile

… onde pdffile é o caminho absoluto ou relativo para o arquivo PDF e textfile é o nome do arquivo de saída.

Por exemplo, para converter lorem-ipsum.pdf em um arquivo de texto:

 pdftotext lorem-ipsum.pdf text.txt

Se o arquivo que você está convertendo tiver marcas d'água ou texto não alinhado, você pode descartá-los na saída usando o sinalizador -nodiag .

 pdftotext -nodiag lorem-ipsum.pdf random.text

Páginas de processo dentro de um intervalo específico

Use o sinalizador -f e -l se desejar converter páginas que se enquadram em um intervalo específico. Por exemplo, para converter as páginas um a cinco em lorem-ipsum.pdf em texto:

 pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt

Para converter apenas a primeira página do arquivo PDF:

 pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt

Converter arquivos PDF protegidos por senha em texto

O Pdftotext pode até converter PDFs protegidos por senha em arquivos de texto. Os sinalizadores -upw e -opw , que representam a senha do usuário e a senha do proprietário , respectivamente, cuidam do processo de autenticação durante a conversão dos arquivos PDF.

 pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

Certifique-se de substituir a senha pela senha do arquivo PDF.

Você também pode combinar vários sinalizadores para obter a saída desejada. Por exemplo, para converter as páginas um em três de um PDF protegido por senha em texto:

 pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt

Relacionado: Como converter um arquivo PDF em imagens no Linux

Converter graficamente PDF em arquivo de texto

Se trabalhar com a linha de comando não é sua preferência, você pode converter PDFs em arquivos de texto usando um software gráfico como o Calibre. É um aplicativo de gerenciamento de e-books que você pode usar para visualizar, organizar e modificar arquivos PDF em seu sistema.

O Calibre está disponível nos repositórios oficiais da distro do Linux e qualquer pessoa pode baixá-lo usando um gerenciador de pacotes.

Para instalar o Calibre no Ubuntu e Debian:

 sudo apt install calibre

No Arch Linux:

 sudo pacman -S calibre

Em distribuições baseadas em RHEL, como CentOS e Fedora, você pode baixar o Calibre usando DNF ou Yum.

 sudo dnf install calibre
sudo yum install calibre

Como usar o Calibre para converter arquivos PDF

Depois de instalado, inicie o Calibre em seu sistema usando o menu de aplicativos . Como alternativa, você pode iniciar o Calibre a partir do terminal digitando:

 calibre

Para gerar arquivos de texto usando PDF com Calibre:

  1. Clique na opção Adicionar livros no menu.
    adicionar livros em linux calibre
  2. Localize e selecione o arquivo PDF que deseja converter.
    converter arquivos PDF em arquivos de texto
  3. Realce o arquivo PDF no painel central e selecione Converter livros no menu.
    calibre em linux
  4. No menu suspenso Formato de saída , selecione TXT .
    selecionando arquivos pdf para converter
  5. Finalmente, clique em OK para continuar.

O Caliber agora começará a converter o arquivo PDF especificado em um documento de texto. Você pode verificar o status do processo clicando na opção Trabalhos , localizada no canto inferior direito da janela.

Trabalho com arquivos PDF no Linux

Quando você deseja compartilhar um documento com alguém, convertê-lo em PDF antes de compartilhar é a maneira mais eficiente. Antes, os usuários tinham que instalar um visualizador de PDF dedicado em seu sistema para exibir arquivos PDF, mas agora quase todos os navegadores vêm com um visualizador de PDF integrado.

Você pode encontrar vários aplicativos que permitem ao usuário visualizar e editar arquivos PDF facilmente. Muitas instalações do Linux vêm com o LibreOffice, um pacote de software de escritório, que pode ser usado como um editor de PDF.