Converter pdfs para texto

Por vezes existem pdf’s que se quer estudar, mas a sua organização e/ou formatação não é a adequada. Existe várias formas de resolver este problema, por exemplo, editar ou extrair o texto.


Existe um programa chamado pstotext, que o seu objectivo é retirar o texto de ficheiros PostScript, através do interpretador, desses ficheiros, chamado GhostScript.

A instalação, como normalmente neste Blog é muito fácil:

Instalar pstotext.


A sua utilização é muito fácil, também. Escrever na consola:

pstotext -output final.txt original.pdf


Em que original.pdf, é o ficheiro que se quer retirar o texto, e final.txt é o ficheiro que será criado. De notar que se não adicionar o argumento -output, não será criado o ficheiro final, mas sim apresentado na consola.

Existem outros truques que se pode fazer com este programa, por exemplo, para ver o ficheiro pdf no terminal (com a ajuda do programa less):

pstotext original.pdf | less


Retirar um cabeçalho de um ficheiro pdf, e guardar num ficheiro de texto, também é possivel, bastando fazer uso do programa grep, que consoante o argumento procura todas as linhas com essa palavra:

pstotext original.pdf | grep -v “Copyright” > final.txt


Explicação: o argumento -v do grep faz com que apareçam todas as linhas excepto as que tenham a palavra “Copyright”. O “> ficheiro.txt” faz com que o que apareceria na consola seja guardado no ficheiro final.txt. Não esquecer que o comando grep é Case Sensitive, portanto distingue letras maiúsculas de minúsculas.

Para procurar uma palavra num ficheiro pdf é só fazer:

pstotext original.pdf | grep “palavra”


Para guardar no disco o texto de um ficheiro pdf da Internet, basta fazer:

wget http://nome.do.site/original.pdf -O- | pstotext -output final.txt


Todo este processo é feito em consola. Para evitar isso, aconselho a experimentar o kword, que consegue abrir os ficheiros pdf, e depois dá para salvar em vários tipos de ficheiro tais como .odt (o mesmo que .doc, mas livre), html, latEx, rtf, e muitos mais.

Instalar o kword.

Atenção que este programa sendo do KDE, no Gnome é um pouco mais lento a abrir.

Anúncios

~ por 3c0linux em outubro 29, 2008.

 
%d blogueiros gostam disto: