Visite também: UnderLinux ·  VivaOLinux ·  LinuxSecurity ·  Dicas-L ·  NoticiasLinux ·  SoftwareLivre.org ·  [mais] ·  Efetividade ·  Linux in Brazil ·  Floripa  

OCR de qualidade no Linux: agora é fácil

Do blog do Thadeu Penna, que é participante do projeto Tesseract: "(...) Mostrei como rodar o tesseract, criar um dicionário, como instalar no Debian Sid mas fica a sensação de incompleto pois faltava uma interface gráfica que tornasse o processo menos doloroso.

O autor da jóia, Jeffrey Ratcliffe, frequenta a lista do tesseract e disponibilizou o gscan2pdf (e o pacote .deb do mesmo, para 32 bits!!). O gscan2pdf tem suporte ao Tesseract, mas não é só um programinha gráfico de OCR: ele escaneia em batch, frente e verso (ajustando as margens), roda o unpaper, bate córner e vai para a área cabecear. (...)"

Leia também: Tesseract OCR agora suporta oficialmente o português brasileiro.

Saiba mais (profs.if.uff.br).

Comentários dos leitores

Os comentários abaixo são responsabilidade de seus autores e não são revisados ou aprovados pelo BR-Linux. Consulte os Termos de uso para informações adicionais. Esta notícia foi arquivada, não será possível incluir novos comentários.
Comentário de Valdomiro
Um super parabéns a ambos,: Um super parabéns a ambos, o Tadeu e Jeffrey.
Quando conheci o Tesseract e o testei o resultado foi excelente, mas senti, também, falta da interface gráfica que agora passa a existir.

Valeu.
Valdomiro Filho
Comentário de tenchi
Chutou pro gol, mas o goleiro defendeu... Goleiro Filho da P*: Eu testei varios OCR, mas o tesseract foi um dos que nao funcionaram muito bem.
Utilizei o procedimento descrito no site do Thadeu Penna, mas os resultados nao foram la muito satiafatorios. Na verdade ele quase naum reconheceu caractere algum.
Acho que isso pode ter ocorrido pela codificacao de caracteres que meu sistema utiliza - que nao eh utf8.

Um que funcionou muito bem comigo - inclusive detectanto caracteres acentuados e tudo mais - foi o ocrad. Consegui pegar todo um texto de uma pagina A4 cheia, digitalizada em 300dpi, com fontes tamanho padrao - talvez 12.

Mas os programas de reconhecimento de caractere livres infelizmente ainda sao muito inferiores aos proprietarios. Um exemplo eh um que vem com os multifuncionais HP: Ele reconhece praticamente tudo, ate figuras, e exporta para um documento do word, perfeitamente editavel, com figuras e tudo. E o usuario, ao utilizar o programa, nem fica sabendo o que eh um OCR. Simplesmente clica em "digitalizar documento" e pronto.

Eh claro que eu naum gosto d etanta facilidade assim - o que seria da vida se tudo se resolvesse num "next-next"? ;-) -, mas ainda nao podemos dizer que OCR livre ja esta a altura dos para WIndows. Estao no caminho, mas nao estao la.

Quem sabe quando eu conseguir fazer este tesseract funcionar nesta minha codificacao eu mude de ideia? rs

Boa sorte ao pessoal do projeto.

"Quem pensa por si mesmo é livre, e ser livre é coisa muito séria." - Legião Urbana
Comentário de Valdomiro
Pois é Tenchi,: Pois é Tenchi,

No meu caso testei os outros também, mas o reconhecimento foi muito melhor com o Tesseract. Segui ao pé da letra o tuto do Tadeu, inclusive à época adicionei o suporte ao português seguindo a orientação do tuto dele.
Usei também o Gimp, desfocagem gaussiana e etc, e deu certo.

Valdomiro Filho
Comentário de zereis
Deu erro no scanpdf...: Caros colegas,

Muito interessante. Gostei da solução, em tese, porque, no meu computador ainda não funcionou. Instalei o scanpdf mas, ao tentar scanear dá a seguinte mensagem de erro:
Unknown message: scanadf: setting of option --br-y failed (Invalid argument)
Uso o Kurumin 7 e tenho uma multifuncional HP 1410.

Comentário de Valdomiro
Zereis,: Zereis,

Perceba que a codificação do Kurumin é IS0-8859-1 e é provável que o scan2pdf use UTF-8.

Valdomiro Filho
BR-Linux.org
Linux® levado a sério desde 1996. Notícias, dicas e tutoriais em bom português sobre Linux e Código Aberto. "A página sobre software livre mais procurada no Brasil", segundo a Revista Isto É.
Expediente
Sobre o BR-Linux
Enviar notícia ou release
Contato, Termos de uso
FAQ, Newsletter, RSS
Banners e selos
Anunciar no BR-Linux
BR-Linux apóia
LinuxSecurity, Tempo Real
Suporte Livre, Drupal
Verdade Absoluta
Pandemonium
Efetividade, Floripa.net
sites da comunidade
Ajuda
Moderação
Flames: não responda!
Publicar seu texto
Computador para Todos
Notícias pré-2004
Tutoriais, HCL pré-2004