“Postei no meu blog, a minha experiência com um programa de reconhecimento de caracteres livre que está sendo mantido pelo Google: o Tesseract-OCR. Além de descrever como usar o Gimp para melhorar a taxa de reconhecimento, eu descrevo como implementei um dicionário em português, que melhora ainda mais o rendimento do programa. Para os menos ousados, um pacote com o dicionário está disponível para download.
Nos testes realizados, o Tesseract-OCR acertou mais de 99% dos caracteres (incluindo acentuados). Embora rode por linha de comando, é fácil e apresenta melhor desempenho que outros testados, com o gocr e o ocrad.”
Testei o Tesseract e funcionou melhor que os teste que fiz no passado com programas comerciais pra outras plataformas.
--
sapere aude
hackuna matata
http://mayer.art.br/blogdobeto