Do blog do Thadeu Penna, que é participante do projeto Tesseract: "(...) Mostrei como rodar o tesseract, criar um dicionário, como instalar no Debian Sid mas fica a sensação de incompleto pois faltava uma interface gráfica que tornasse o processo menos doloroso.
O autor da jóia, Jeffrey Ratcliffe, frequenta a lista do tesseract e disponibilizou o gscan2pdf (e o pacote .deb do mesmo, para 32 bits!!). O gscan2pdf tem suporte ao Tesseract, mas não é só um programinha gráfico de OCR: ele escaneia em batch, frente e verso (ajustando as margens), roda o unpaper, bate córner e vai para a área cabecear. (...)"
Leia também:
Tesseract OCR agora suporta oficialmente o português brasileiro.
Saiba mais (profs.if.uff.br).
Quando conheci o Tesseract e o testei o resultado foi excelente, mas senti, também, falta da interface gráfica que agora passa a existir.
Valeu.
Valdomiro Filho