2013/03/29

OCR em imagens de baixa resolução

Quanto comprei minha impressora multifuncional HP Officejet 4500, notei que o scanner vinha com um software nativo de OCR (reconhecimento ótico de caracteres) - leia-se licença mais leve limitada tipo "OEM" com o produto.
Central de soluções da HP Officejet 4500

O software cumpre bem a função de reconhecer textos com a definição de scanner. O porém nas imagens coletadas de captura de tela (do notebook ou desktop) por exemplo o sofware diz que a resolução esta muito baixa.

Claro que fazendo assim a HP passa a evitar um tremendo problema de direitos autorais.
Quem nunca sentiu vontade de capturar um trecho de um texto do Google Books e simplesmente tentar passar um OCR para evitar digitação. Acontece que esta ação viola o copyright do autor.

Acontece que existe uma solução do próprio Google para este problema.
Fazendo o upload da imagem para dentro do Google Drive (do texto capturado pela tecla PrintScreen, colado no mspaint e salvo em formato png, por exemplo), sua imagem passa automaticamente por um processo de OCR dentro do Google Drive.
Basta fazer a busca por uma palavra chave contida no texto e bingo! a imagem esta indexada.
Tudo bem que até o Evernote faz melhor que isso, pois gera um grifo dentro da imagem! No entanto, até onde eu sei, o Evernote não permite a edição deste texto.

Como capturar o texto contido na imagem
Basta abrir a imagem como documento Google e todo o texto será inserido após a imagem.
Imagem deve ser salva como Documento Google

Importante
O sistema OCR não faz milagre em imagem com resolução muito baixa.
Também não adianta achar que conversão sairá 100%. Dependendo do texto, formato, imagem de fundo do texto, etc, o reconhecimento pode ser quase nulo.
Em outras palavras, as mesma recomendações de quem sabe usar um OCR comum, valem para esta ferramenta do Google.
Exemplo de imagem e texto reconhecido




Nenhum comentário: