Como converter um arquivo PDF em documento de texto no Linux
Ao contrário de um arquivo de texto, você não pode editar um PDF diretamente. Existem várias maneiras de gerar arquivos PDF usando texto. Mas e se você quiser fazer o contrário e converter PDFs em arquivos de texto?
Felizmente, o Linux permite que você modifique facilmente esses arquivos do terminal. Este artigo demonstrará como converter um arquivo PDF em um documento de texto no Linux.
Converter PDF em texto a partir do terminal
Poppler é uma biblioteca de software usada para processar e modificar arquivos PDF. Ele contém um utilitário, conhecido como pdftotext , que permite aos usuários gerar arquivos de texto a partir de PDFs. Visto que poppler-utils não faz parte dos pacotes padrão do Linux, você terá que instalá-lo manualmente usando um gerenciador de pacotes.
No Ubuntu e Debian:
sudo apt install poppler-utils
Para instalar o Poppler no Arch Linux:
sudo pacman -S poppler
Instalar o pacote poppler-utils no CentOS, Fedora e outras distribuições baseadas em RHEL é fácil.
sudo dnf install poppler-utils
sudo yum install poppler-utils
Converter um PDF inteiro em texto
A sintaxe básica do comando pdftotext é:
pdftotext [options] pdffile textfile
… onde pdffile é o caminho absoluto ou relativo para o arquivo PDF e textfile é o nome do arquivo de saída.
Por exemplo, para converter lorem-ipsum.pdf em um arquivo de texto:
pdftotext lorem-ipsum.pdf text.txt
Se o arquivo que você está convertendo tiver marcas d'água ou texto não alinhado, você pode descartá-los na saída usando o sinalizador -nodiag .
pdftotext -nodiag lorem-ipsum.pdf random.text
Páginas de processo dentro de um intervalo específico
Use o sinalizador -f e -l se desejar converter páginas que se enquadram em um intervalo específico. Por exemplo, para converter as páginas um a cinco em lorem-ipsum.pdf em texto:
pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt
Para converter apenas a primeira página do arquivo PDF:
pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt
Converter arquivos PDF protegidos por senha em texto
O Pdftotext pode até converter PDFs protegidos por senha em arquivos de texto. Os sinalizadores -upw e -opw , que representam a senha do usuário e a senha do proprietário , respectivamente, cuidam do processo de autenticação durante a conversão dos arquivos PDF.
pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt
Certifique-se de substituir a senha pela senha do arquivo PDF.
Você também pode combinar vários sinalizadores para obter a saída desejada. Por exemplo, para converter as páginas um em três de um PDF protegido por senha em texto:
pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt
Converter graficamente PDF em arquivo de texto
Se trabalhar com a linha de comando não é sua preferência, você pode converter PDFs em arquivos de texto usando um software gráfico como o Calibre. É um aplicativo de gerenciamento de e-books que você pode usar para visualizar, organizar e modificar arquivos PDF em seu sistema.
O Calibre está disponível nos repositórios oficiais da distro do Linux e qualquer pessoa pode baixá-lo usando um gerenciador de pacotes.
Para instalar o Calibre no Ubuntu e Debian:
sudo apt install calibre
No Arch Linux:
sudo pacman -S calibre
Em distribuições baseadas em RHEL, como CentOS e Fedora, você pode baixar o Calibre usando DNF ou Yum.
sudo dnf install calibre
sudo yum install calibre
Como usar o Calibre para converter arquivos PDF
Depois de instalado, inicie o Calibre em seu sistema usando o menu de aplicativos . Como alternativa, você pode iniciar o Calibre a partir do terminal digitando:
calibre
Para gerar arquivos de texto usando PDF com Calibre:
- Clique na opção Adicionar livros no menu.
- Localize e selecione o arquivo PDF que deseja converter.
- Realce o arquivo PDF no painel central e selecione Converter livros no menu.
- No menu suspenso Formato de saída , selecione TXT .
- Finalmente, clique em OK para continuar.
O Caliber agora começará a converter o arquivo PDF especificado em um documento de texto. Você pode verificar o status do processo clicando na opção Trabalhos , localizada no canto inferior direito da janela.
Trabalho com arquivos PDF no Linux
Quando você deseja compartilhar um documento com alguém, convertê-lo em PDF antes de compartilhar é a maneira mais eficiente. Antes, os usuários tinham que instalar um visualizador de PDF dedicado em seu sistema para exibir arquivos PDF, mas agora quase todos os navegadores vêm com um visualizador de PDF integrado.
Você pode encontrar vários aplicativos que permitem ao usuário visualizar e editar arquivos PDF facilmente. Muitas instalações do Linux vêm com o LibreOffice, um pacote de software de escritório, que pode ser usado como um editor de PDF.