Bom a história foi assim.
Precisava fazer um trabalho de extração de textos das imagens de um arquivo pdf.
Mas porque precisava fazer a extração?
Os textos que eu precisava estavam nas imagens.
E agora?
Bom se fosse ter que digitar ia precisar escrever muitas horas.
Daí então extraí os arquivos de imagens usando pdfimages.
O comando usado foi esse: pdfimages -j nome-do-arquivo.pdf figuras
A saída desse comando extraiu os arquivos como jpg (flag -j).
Os arquivos extraidos tiveram seu nome como figuras-000.jpg e assim por diante. No meu caso foram mais de 160 arquivos.
Bom até aí tudo bem agora precisava extrair os textos das imagens.
Fiz isso usando o seguinte comando tesseract figuras-000.jpg text
Tudo bem. Beleza. Agora como eram 160 arquivos aí fiz o seguinte.
Comando: ls -l > meu.txt
O comando acima foi executado no diretório que as imagens estavam.
Agora usando awk para extrair somente o que eu precisava.
awk -F"18 " '{print $2}' meu.txt > bom.txt
Ah agora está começando a ficar beleza pois tenho somente as linhas com nome de arquivos de imagem. Tipo:
figuras-000.jpg
figuras-001.jpg
E assim por diante. Beleza?
Então agora está tudo ficando mais bonito e fácil de trabalhar.
Agora usando gedit (ctrl + h)substituí figuras por tesseract figuras.
(Informação adicional: O comando ctrl + h abre a opção para você procurar e subistituir textos no arquivo.)
E cada linha ficou assim:
tesseract figuras-000.jpg
tesseract figuras-001.jpg
Bom estou preparando o script para extrair todos os textos de todos os mais de 160 arquivos.
Então usando o calc todas as linhas do script.
Agora ficou assim:
tesseract figuras-000.jpg text00
tesseract figuras-001.jpg text01
E assim por diante...
Se você tiver muitos arquivos para extrair os textos vai demorar muiiito.
Então já preveni você.
Se quiser aprender como instalar o tesseract existem vários tutorias, muitos bons.
Não vou passar essa informação aqui pois usei para isso o xubuntu 18.04 64 bits e em outras versões do Linux pode ser diferente.
Espero que tenha te ajudado na tarefa massante de digitar muiiitos textos.
Então bom trabalho.