Visite também: UnderLinux ·  VivaOLinux ·  LinuxSecurity ·  Dicas-L ·  NoticiasLinux ·  SoftwareLivre.org ·  [mais] ·  Efetividade ·  Linux in Brazil ·  Floripa  

Reconhecimento óptico de caracteres com o Tesseract OCR no Ubuntu 7.04


“Este guia descreve como configurar o Tesseract OCR no Ubuntu 7.04. OCR é a técnica de converter em texto os caracteres de uma imagem de textos. O sistema resultante terá a capacidade de converter em arquivos-texto as imagens dos textos que você scannear.”


Enviado por Falko Timme (ftΘfalkotimme·com) - referência (howtoforge.com).

Comentários dos leitores

Os comentários abaixo são responsabilidade de seus autores e não são revisados ou aprovados pelo BR-Linux. Consulte os Termos de uso para informações adicionais. Esta notícia foi arquivada, não será possível incluir novos comentários.
Comentário de beto
Usei o Tesseract OCR no 6.10: Usei o Tesseract OCR no 6.10 e digo uma coisa: é o melhor OCR que já usei, melhor que todos os que experimentei pra windows, inclusive.
Um bom tutorial para usar o tesseract em idioma português:
http://tetrixbr.blogspot.com/2007/08/ocr-de-qualidade-no-linux.html

Me falta agora um bom OMR (Optical Music Recognition) livre.

--
--
sapere aude
hackuna matata
http://mayer.art.br/blogdobeto

Comentário de djames
Audacity?: O Audacity não é OMR?
Comentário de Valdomiro
Já usei o Kooka com o: Já usei o Kooka com o OCRAD, e comparei com o Tesseract a um mês atrás, e posso testemunhar; este último é muito, mas muito melhor na interpretação da leitura. Embora seja bastante simples de usar ele é por linha de comando. Um front-end cairia bem.
Mas, quem usar o Kammander pode personalizar um. :)


Comentário de Thadeu Penna
Versão do Tesseract: No artigo que anunciei semanas atrás, aqui mesmo no BR-Linux, eu comentei a versão 2.00 do Tesseract, que é muito melhor que a anunciada neste HowTo (que é a 1.02-3). Eu nem tentaria usar esta versão para textos em português, já que não reconhece acentos, ao contrário da 2.00. Nem adianta tentar a do Gutsy, que é a mesma.


P.S. Acabou de sair a versão 2.01 do Tesseract-OCR:
This is a bunch of bug fixes, particularly with training, but also a few infinite loops and crashes are resolved. The release notes contain a full list.

The language data files are the same as before, so just use the 2.00 versions.

O pacote que criei deve entrar na nova versão.

--
Thadeu Penna
Prof.Associado - Instituto de Física - UFF
Linux User #50500

Comentário de Valdomiro
Foi exatamente o seu tuto,: Foi exatamente o seu tuto, Thadeu, que eu testei. Excelente. Parabéns!!!

A propósito, será que teria como fazermos uma interface gráfica para o Tesseract usando o Kommander?

Vou baixar essa nova versão e gerar um deb para usar no BigLinux.

Obrigado por aquele Tutorial!

BR-Linux.org
Linux® levado a sério desde 1996. Notícias, dicas e tutoriais em bom português sobre Linux e Código Aberto. "A página sobre software livre mais procurada no Brasil", segundo a Revista Isto É.
Expediente
Sobre o BR-Linux
Enviar notícia ou release
Contato, Termos de uso
FAQ, Newsletter, RSS
Banners e selos
Anunciar no BR-Linux
BR-Linux apóia
LinuxSecurity, Tempo Real
Suporte Livre, Drupal
Verdade Absoluta
Pandemonium
Efetividade, Floripa.net
sites da comunidade
Ajuda
Moderação
Flames: não responda!
Publicar seu texto
Computador para Todos
Notícias pré-2004
Tutoriais, HCL pré-2004