Reconhecimento óptico de caracteres com o Tesseract OCR no Ubuntu 7.04

30/08/07 9:12 #9930

“Este guia descreve como configurar o Tesseract OCR no Ubuntu 7.04. OCR é a técnica de converter em texto os caracteres de uma imagem de textos. O sistema resultante terá a capacidade de converter em arquivos-texto as imagens dos textos que você scannear.”

Enviado por Falko Timme (ftΘfalkotimme·com) - referência (howtoforge.com).

(postado por Augusto Campos)

Comentários dos leitores

Os comentários abaixo são responsabilidade de seus autores e não são revisados ou aprovados pelo BR-Linux. Consulte os Termos de uso para informações adicionais. Esta notícia foi arquivada, não será possível incluir novos comentários.

Comentário de beto 30/08/07 11:51 - usuário registrado #111

Usei o Tesseract OCR no 6.10: Usei o Tesseract OCR no 6.10 e digo uma coisa: é o melhor OCR que já usei, melhor que todos os que experimentei pra windows, inclusive.
Um bom tutorial para usar o tesseract em idioma português:
http://tetrixbr.blogspot.com/2007/08/ocr-de-qualidade-no-linux.html

Me falta agora um bom OMR (Optical Music Recognition) livre.

--
--
sapere aude
hackuna matata
http://mayer.art.br/blogdobeto

Comentário de djames 30/08/07 12:37

Audacity?: O Audacity não é OMR?

Comentário de Valdomiro 30/08/07 15:25

Já usei o Kooka com o: Já usei o Kooka com o OCRAD, e comparei com o Tesseract a um mês atrás, e posso testemunhar; este último é muito, mas muito melhor na interpretação da leitura. Embora seja bastante simples de usar ele é por linha de comando. Um front-end cairia bem.
Mas, quem usar o Kammander pode personalizar um. :)

Comentário de Thadeu Penna 30/08/07 18:32 - usuário registrado #4395

Versão do Tesseract: No artigo que anunciei semanas atrás, aqui mesmo no BR-Linux, eu comentei a versão 2.00 do Tesseract, que é muito melhor que a anunciada neste HowTo (que é a 1.02-3). Eu nem tentaria usar esta versão para textos em português, já que não reconhece acentos, ao contrário da 2.00. Nem adianta tentar a do Gutsy, que é a mesma.

P.S. Acabou de sair a versão 2.01 do Tesseract-OCR:
This is a bunch of bug fixes, particularly with training, but also a few infinite loops and crashes are resolved. The release notes contain a full list.

The language data files are the same as before, so just use the 2.00 versions.

O pacote que criei deve entrar na nova versão.

--
Thadeu Penna
Prof.Associado - Instituto de Física - UFF
Linux User #50500

Comentário de Valdomiro 30/08/07 21:43

Foi exatamente o seu tuto,: Foi exatamente o seu tuto, Thadeu, que eu testei. Excelente. Parabéns!!!

A propósito, será que teria como fazermos uma interface gráfica para o Tesseract usando o Kommander?

Vou baixar essa nova versão e gerar um deb para usar no BigLinux.

Obrigado por aquele Tutorial!

BR-Linux.org

Reconhecimento óptico de caracteres com o Tesseract OCR no Ubuntu 7.04

Comentários dos leitores