Como extrair imagens de pdf e texto das imagens - perfeita essa combinação

Bom a história foi assim.
Precisava fazer um trabalho de extração de textos das imagens de um arquivo pdf.

Mas porque precisava fazer a extração?

Os textos que eu precisava estavam nas imagens.

E agora?

Bom se fosse ter que digitar ia precisar escrever muitas horas.
Daí então extraí os arquivos de imagens  usando pdfimages.

O comando usado foi esse: pdfimages -j nome-do-arquivo.pdf figuras

A saída desse comando extraiu os arquivos como jpg (flag -j).

Os arquivos extraidos tiveram seu nome como figuras-000.jpg e assim por diante. No meu caso foram mais de 160 arquivos.

Bom até aí tudo bem agora precisava extrair os textos das imagens.

Fiz isso usando o seguinte comando  tesseract figuras-000.jpg text

Tudo bem. Beleza. Agora como eram 160 arquivos aí fiz o seguinte.

Comando: ls -l > meu.txt

O comando acima foi executado no diretório que as imagens estavam.

Agora usando awk para extrair somente o que eu precisava.

 awk -F"18 " '{print $2}' meu.txt > bom.txt
 
Ah agora está começando a ficar beleza pois tenho somente as linhas com nome de arquivos de imagem. Tipo:
figuras-000.jpg
figuras-001.jpg

E assim por diante. Beleza?

Então agora está tudo ficando mais bonito e fácil de trabalhar.
Agora usando gedit (ctrl + h)substituí figuras por tesseract figuras.

(Informação adicional: O comando ctrl + h abre a opção para você procurar e subistituir textos no arquivo.)
E cada linha ficou assim:
tesseract figuras-000.jpg
tesseract figuras-001.jpg

Bom estou preparando o script para extrair todos os textos de todos os mais de 160 arquivos.

Então usando o calc todas as linhas do script.
Agora ficou assim:

tesseract figuras-000.jpg text00
tesseract figuras-001.jpg text01

E assim por diante...

Se você tiver muitos arquivos para extrair os textos vai demorar muiiito.
Então já preveni você.

Se quiser aprender como instalar o tesseract existem vários tutorias, muitos bons.

Não vou passar essa informação aqui pois usei para isso o xubuntu 18.04 64 bits e em outras versões do Linux pode ser diferente.

Espero que tenha te ajudado na tarefa massante de digitar muiiitos textos.

Então bom trabalho.

NOVA PLANILHA MEI OU PEQUENA EMPRESA ATUALIZAÇÃO


 

Essa atualização da planilha Frente de caixa com Libreoffice Calc agora possui a opção de uso com os bancos de dados: MySql ou HSQL. Ao comprar envie pelo formulário a opção.
A instalação e configuração do banco de dados será feita remotamente.

TELAS DE CADASTROS DO SISTEMA FRENTE DE CAIXA PARA MEI OU PEQUENA EMPRESA

Cadastros:
Clientes, Fornecedores, Funcionários, Estoque e Despesas
Visualização gráfica e em relatórios de todos os dados cadastrados do negócio.


BANCO DE DADOS: Mysql.
Código: 9090