Pesquisar

23/01/2022

Como extrair imagens de pdf e texto das imagens - perfeita essa combinação

Bom a história foi assim.
Precisava fazer um trabalho de extração de textos das imagens de um arquivo pdf.

Mas porque precisava fazer a extração?

Os textos que eu precisava estavam nas imagens.

E agora?

Bom se fosse ter que digitar ia precisar escrever muitas horas.
Daí então extraí os arquivos de imagens  usando pdfimages.

O comando usado foi esse: pdfimages -j nome-do-arquivo.pdf figuras

A saída desse comando extraiu os arquivos como jpg (flag -j).

Os arquivos extraidos tiveram seu nome como figuras-000.jpg e assim por diante. No meu caso foram mais de 160 arquivos.

Bom até aí tudo bem agora precisava extrair os textos das imagens.

Fiz isso usando o seguinte comando  tesseract figuras-000.jpg text

Tudo bem. Beleza. Agora como eram 160 arquivos aí fiz o seguinte.

Comando: ls -l > meu.txt

O comando acima foi executado no diretório que as imagens estavam.

Agora usando awk para extrair somente o que eu precisava.

 awk -F"18 " '{print $2}' meu.txt > bom.txt
 
Ah agora está começando a ficar beleza pois tenho somente as linhas com nome de arquivos de imagem. Tipo:
figuras-000.jpg
figuras-001.jpg

E assim por diante. Beleza?

Então agora está tudo ficando mais bonito e fácil de trabalhar.
Agora usando gedit (ctrl + h)substituí figuras por tesseract figuras.

(Informação adicional: O comando ctrl + h abre a opção para você procurar e subistituir textos no arquivo.)
E cada linha ficou assim:
tesseract figuras-000.jpg
tesseract figuras-001.jpg

Bom estou preparando o script para extrair todos os textos de todos os mais de 160 arquivos.

Então usando o calc todas as linhas do script.
Agora ficou assim:

tesseract figuras-000.jpg text00
tesseract figuras-001.jpg text01

E assim por diante...

Se você tiver muitos arquivos para extrair os textos vai demorar muiiito.
Então já preveni você.

Se quiser aprender como instalar o tesseract existem vários tutorias, muitos bons.

Não vou passar essa informação aqui pois usei para isso o xubuntu 18.04 64 bits e em outras versões do Linux pode ser diferente.

Espero que tenha te ajudado na tarefa massante de digitar muiiitos textos.

Então bom trabalho.

Novos modelos sites Pousada Lanchonete

Postagens mais visitadas