sexta-feira, 21 de novembro de 2014

PDF para TXT no Ubutu

Hoje precisei colar uma citação de um livro em um texto que estava redigindo e pensei cá com meus botões "Digitar tudo isso, gahhhh". Logo veio a ideia de deixar que o computador fizesse isso por mim e pronto. Tirei uma foto das páginas, e converti em PDF com o aplicativo TinyScan Pro (tem a versão FREE no Google Play).

Passei pro computador e então no Ubuntu tive que converter o PDF com umas dicas que peguei do casadopinduvoz.

Instalando o necessário:

$sudo apt-get install tesseract-ocr tesseract-ocr-por gscan2pdf imagemagick nautilus-open-terminal 

Convertendo o arquivo:
Vá até o diretório onde você colocou o arquivo escaneado e digite o seguinte:

$convert -density 300 meuarquivoescaneado.pdf -depth 8 saida.tiff 

Este comando deve ter criado um arquivo TIFF gigante no teu diretório. Então passe a converter para texto:

$tesseract saida.tiff texto -l por 

Este último comando irá criar um arquivo texto.txt no diretório atual. Pode excluir o arquivo saida.tiff.

E até a próxima! ;)

Nenhum comentário: