Visite também: UnderLinux ·  VivaOLinux ·  LinuxSecurity ·  Dicas-L ·  NoticiasLinux ·  SoftwareLivre.org ·  [mais] ·  Efetividade ·  Linux in Brazil ·  Floripa  

Tesseract OCR agora suporta oficialmente o português brasileiro

Thadeu Penna, que recentemente escreveu sobre OCR de qualidade no Linux usando o Tesseract, deu mais notícias sobre o tema: o arquivo com as palavras e os arquivos de treinamento, que ele criou e disponibilizou no post anterior, foram aceitos na versão oficial do programa, a partir da sua versão 2.01. Assim, quem atualizar o Tesseract terá acesso ao suporte ao nosso idioma sem precisar fazer downloads adicionais.

Saiba mais (profs.if.uff.br).

Comentários dos leitores

Os comentários abaixo são responsabilidade de seus autores e não são revisados ou aprovados pelo BR-Linux. Consulte os Termos de uso para informações adicionais. Esta notícia foi arquivada, não será possível incluir novos comentários.
Comentário de acassis
É isso aí!: Gostei de ver!

Kudos para o Thadeu

Alan
Comentário de Valdomiro
Maravilha!!!: Maravilha!!!

Parabéns ao Thadeu pelo belo trabalho!


Comentário de zereis
Letras acentuadas: Caros colegas,
Uso o Kurumin 7.0 e, desde o post anterior sobre tesseract OCR, tento fazê-lo funcionar em meu sistema. Acontece que continua não reconhecendo os caracteres acentuados...
Usei o comando assim:

tesseract figura.tif texto -l por

Veio a mensagem no terminal:

Tesseract Open Source OCR Engine

Mas o texto ficou assim:

3- Tu és minha força, outro Deus não há.
Tu és minha paz, minha liberdade. Nada
nesta vida nos separará. Em tuas mãos
seguras minha vida guardarás. Eu não
temerei o mal. Tu me livrarás. E no teu
perdão viverei!

Será que é alguma configuração do meu sistema???

Zé Reis
Comentário de brain
Unicode: Aparentemente o texto está em Unicode (utf-8) e o teu sistema operacional usa por default a tabela iso-8859-1.

Experimente converter o formato do arquivo gerado. Existem várias formas de fazer isso (talvez até o próprio Tesseract tenha esta opção), mas a forma antiga e que deve funcionar é usando o comando iconv, como no exemplo:

iconv -f utf-8 -t iso-8859-1 arquivooriginal.txt > arquivoconvertido.txt
Comentário de Alex
Codificação errada: Acho que é apenas problema na codificação. Por exemplo, o aplicativo está salvando o texto reconhecido em UTF8 e você tentou lê-lo usando a codificação ISO8859-15 (ou vice versa). Tente trocar a codificação do arquivo. Acho que a acentuação ficará correta se você fizer isso.

Boa Sorte!
Comentário de Alex
Xiiii... Você acabou: Xiiii... Você acabou respondendo mais rápido. :-)
Comentário de Douglas Augusto
Lista de palavras do BROffice: Vi que o Thadeu usou a lista de palavras "brazilian", do pacote "wbrazilian". Esta lista conta com quase 300 mil termos, que é bastante pomposo. No entanto, o dicionário do BROffice já englobava da última vez que verifiquei mais de 2,7 milhões de termos[1], sendo portanto um referencial muito mais completo para textos em língua portuguesa.

Para gerar um arquivão com uma palavra por linha seria necessário converter os arquivos .dic e .aff usados pelo BROffice (myspell). Há ferramentas que fazem este trabalho.

1. http://www.broffice.org/?q=verortografico

Comentário de zereis
Unicode: É verdade. Realmente foi a codificação.
Preciso estudar mais sobre codificação?
Tem como unificar a codificação? (Parece pergunta de principiante!!!)
Comentário de Thadeu Penna
Dicionários maiores: Oi Douglas,

eu levei a idéia ao grupo do Tesseract e ainda estamos discutindo -- devido à preguiça de testar :) -- qual a vantagem de dicionários maiores. Enquanto o tempo de processamento não é muito alterado, depende do log(número de palavras), a eficiência pode cair se palavras raras que se parecem com outras mais comuns, confundindo o processo de reconhecimento. O ideal seria rankear as palavras por probabilidade de aparecimento, mas isto torna o programa muito mais demorado.


Thadeu Penna
Prof.Associado - Instituto de Física - UFF
Linux User #50500 (counter.li.org)

Comentário de Douglas Augusto
Você tem razão, além do: Você tem razão, além do dicionário deveria haver um ranking de popularidade, pois assim a decisão seria ponderada. O problema é que a formação deste ranking é sensível ao contexto do emprego da linguagem. Em textos de informática o ranking seria um, enquanto que em textos literários outro. É possível, no entanto, dada um boa variedade de conteúdo, encontrar um ranking "médio" razoavelmente seguro, que seria, como toda média, bom para a maioria dos contextos mas nada "esperta" em áreas específicas.

Se o dicionário que você usou é uma reunião dos termos mais populares do português, então acredito que de fato uma listagem mais completa, porém sem distinção quanto à popularidade, poderia confundir a decisão do software OCR. Do contrário, isto é, se o dicionário que você usou foi feito sem critério quanto à popularidade dos termos, então, se não impactar no desempenho do software, uma lista maior traria mais precisão ao OCR, à medida que o software teria mais opções de comparações (aproximações) quando em dúvida.

Não conheço as internas do Tesseract, mas se o software ainda não implementa esse esquema de popularidade, seria realmente uma boa sugestão a possibilidade de uso do ranking sobre o dicionário.

De qualquer forma, como recebi por e-mail pedido de explicações sobre como converter os arquivos .dic/.aff (que vêm com o myspell) em um listão com uma palavra por linha, coloco o procedimento aqui. Basta usar a ferramenta 'unmunch', que no Debian vem com o pacote 'hunspell-tools'. Dado então pt_BR.dic e pt_BR.aff, faça assim:

unmunch pt_BR.dic pt_BR.aff > lista_de_palavras.txt

Pronto.
BR-Linux.org
Linux® levado a sério desde 1996. Notícias, dicas e tutoriais em bom português sobre Linux e Código Aberto. "A página sobre software livre mais procurada no Brasil", segundo a Revista Isto É.
Expediente
Sobre o BR-Linux
Enviar notícia ou release
Contato, Termos de uso
FAQ, Newsletter, RSS
Banners e selos
Anunciar no BR-Linux
BR-Linux apóia
LinuxSecurity, Tempo Real
Suporte Livre, Drupal
Verdade Absoluta
Pandemonium
Efetividade, Floripa.net
sites da comunidade
Ajuda
Moderação
Flames: não responda!
Publicar seu texto
Computador para Todos
Notícias pré-2004
Tutoriais, HCL pré-2004