Software do MEC transforma texto em áudio

Enviado por SHARLES SA (SHARLES·SAΘGMAIL·COM):

“O Ministério da Educação apresentou um aplicativo que permite a qualquer usuário transformar arquivos de texto em áudio ou ainda gerar documentos para impressão de textos em braile.

Chamado de Mecdaysi, a aplicação foi desenvolvida por pesquisadores do Ministério da Educação e técnicos da Universidade Federal do Rio de Janeiro (UFRJ) e consumiu R$ 680 mil em custo de desenvolvimento.

O Ministério vai liberar ainda outros R$ 180 mil para centros de apoio ao deficiente visual espalhados pelo Brasil usarem a tecnologia na impressão de livros didáticos em braile e na conversão de livros em papel em áudio livros.

Com versões para Linux e Windows, o programa lê arquivos de texto e os converte para voz. Assim, qualquer obra disponível em formato digital pode ser convertida para arquivo de áudio e tornar-se acessível para portadores de deficiência visual.

Ao apresentar o aplicativo, em evento em Brasília, o ministro Fernando Haddad frisou que o software não visa substituir a alfabetização em braile ou a produção de livros em linguagem com relevo, mas sim criar uma ferramenta complementar para a inclusão de deficientes visuais.

Fonte:” [referência: info.abril.com.br]

• Publicado por Augusto Campos em 2009-06-26

Comentários dos leitores

Os comentários são responsabilidade de seus autores, e não são analisados ou aprovados pelo BR-Linux. Leia os Termos de uso do BR-Linux.

Profeta do Caos (usuário não registrado) em 26/06/2009 às 3:06 pm

O Governo poderia liberar pelo menos uma API para que outras aplicações fossem desenvolvidas.
Onde anda a “comunidade” para reclamar? Vocês estao por ai?

Marco Diego Aurélio Mesquita (usuário não registrado) em 26/06/2009 às 3:30 pm

Sintetizadores de voz bons e livres existem. Será que usar o orca (http://live.gnome.org/Orca) com o eSpeak (que já vem com o GNOME) custaria R$ 680 mil?

Mário RPG (usuário não registrado) em 26/06/2009 às 4:03 pm

no site do projeto não tem a versão para linux coisa nenhuma

André Miguel (usuário não registrado) em 26/06/2009 às 4:08 pm

Excelente. Já tem algumas opções open source, e uma delas, o espeak tem adaptação para o português também.

cenoura em 26/06/2009 às 4:56 pm

Transformar texto em audio?

$ festival
festival> (SayText “hello world”)

Hugo do Prado (usuário não registrado) em 26/06/2009 às 5:39 pm

Conteúdo da pasta linux:
http://www.intervox.nce.ufrj.br/mecdaisy/linux/

lol

Damarinho (usuário não registrado) em 26/06/2009 às 5:48 pm

(*_*)

padrão Digital Accessible Information System (Daisy)

Enquanto o link-fantasma para linux não for esclarecido, continuo com o “espeak” .

Damarinho (usuário não registrado) em 26/06/2009 às 5:49 pm

(*_*)

padrão Digital Accessible Information System (Daisy)

Enquanto o link-fantasma para linux não estiver e esclarecido, continuo com o “espeak” .

Damarinho (usuário não registrado) em 26/06/2009 às 6:12 pm

(*_*)

Uso “espeak” com TTS-Text-to-speech, temporização com o “crontab”, verbalizando texto ou ativando cronograma para sinalização sonora, avisos, comentários falados e com opção em portugues.

e conforme:
http://br.geocities.com/omlinux/Inacio/09inacio31.html
Menu – Optar: Ideog :: 18-urso :: (tela 3) 7-Cronografia

zeebo (usuário não registrado) em 26/06/2009 às 6:15 pm

é, caro cenoura, podes crer que basicamente o governo torrou aí uns 600 mil pagando vários gerentes de software somente para mandar emails para uns estagiários terceirizados pedindo a implementação de uma interface com o festival ou soft similar. Esse é o Brazil, o país do pretérito futuro!

Henrique (usuário não registrado) em 26/06/2009 às 8:41 pm

“R$ 680 mil em custo de desenvolvimento”

???

Caramba, com tanto projeto num estado usável hoje em dia, gastaram tudo isso fazendo algo do zero?

LKRaider em 26/06/2009 às 9:54 pm

Cadê o código fonte?

LKRaider em 26/06/2009 às 10:01 pm

Achei:

http://code.google.com/p/mecdaisy/source/browse/

só não tentei compilar/executar ainda

bebeto_maya (usuário não registrado) em 26/06/2009 às 10:10 pm

Mas gasto público…Uma interface pro festival resolveria o problema.

Zeebo:
600 mil pagando vários gerentes de software somente para mandar emails para uns estagiários terceirizados pedindo a implementação de uma interface com o festival ou soft similar.

Isso me lembra a Apple com o FreeBSD e o Darwin…Só que eles são capital privado.

o_analisador (usuário não registrado) em 26/06/2009 às 10:34 pm

http://code.google.com/p/mecdaisy/source/browse/trunk/sources/MecDaisy_audioNovo/src/audio/AudioSintetizado.java

Essa coisa em Java toda é só uma GUI pra um sintetizador que fica escutando na porta 1955.

Tem uns binários lá em Utils desse sintetizador, vou analisar agora. Não tem o código fonte deles.

o_analisador (usuário não registrado) em 26/06/2009 às 10:37 pm

Ah, sim.. esse Liane é um projeto antigo da UFRJ:
http://www.linuxacessivel.org/category/acessibilidade/sintetizadores-de-voz/liane-tts/

Só espero que os R$680 mil não tenham sido destinados só àquela GUI em Java :)

o_analisador (usuário não registrado) em 26/06/2009 às 10:42 pm

E como eu desconfiava, o Liane não foi feito do zero. É só um frontend para o famoso mbrola.

pthread_mutex_lock (&mutex_parametros); args[0] = strdup ("mbrola"); args[1] = strdup ("-e"); args[2] = strdup ("-t"); args[3] = str_float ("%4.2f", 1.0 / velocidade_mbrola(velocidade)); args[4] = strdup ("-f"); args[5] = str_float ("%4.2f", tonalidade_mbrola(tonalidade)); args[6] = strdup ("-v"); args[7] = str_float ("%4.2f", volume_mbrola(volume)); args[8] = strdup (voz_mbrola); args[9] = strdup (nome_arquivo_difones); args[10] = strdup (nome_arquivo_audio); args[11] = NULL; pthread_mutex_unlock (&mutex_parametros); log_write_string ("mbrola - velocidade", args[3]); log_write_string ("mbrola - tonalidade", args[5]); log_write_string ("mbrola - volume", args[7]); id_proc = executa_processo (args);

LKRaider em 26/06/2009 às 10:57 pm

R$ 680 mil para fazer uma interface para uns binários? WTF?

não consegui rodar o código java compilado disponível no svn, mas olhando o source dá para ver o que ele faz é só chamar uns binários para fazer o trabalho

ele chama dois arquivos binários que não tem código fonte, na pasta Util:
liane-server para linux
servsapi.exe para win32

O liane-server não executa, pois necessita de uma biblioteca que não está inclusa (libliane.so.0)

Análise das strings no binário win32:
código em Delphi
DOSVOX.INI
Serpro Liane TTS
winvoxlianetts
Servidor SAPI – v1.0
Projeto MEC Daisy
NCE/UFRJ – 2008

Procurando dosvox/winvox no google, dá pra ver que são de uma tal de Elan speech engine, meio antiga (2000/2001?):
http://74.125.47.132/search?q=cache:www.talkingheads.computing.edu.au/resources/documents/serge/SpeechCube/SpeechEngineNTmanual.doc

Marcos Alexandre (usuário não registrado) em 26/06/2009 às 11:03 pm

festival e espeak são PÉSSIMOS pro português. Uma voz robótica e sem variação de entonação. O melhor sintetizador que conheço para o português é o loquendo, mas é comercial. E nenhum deles tem interface pra braile.

E 680 mil não é caro, já que um analista que ganhe 2 mil reais por mes custa mais de 50 mil anuais. Se for somar o hardware que possa ter sido adquirido, vê-se que a equipe podia ser até pequena (6 pessoas ou menos por 2 anos).

Mas, claro, o importante é falar mal do governo e ficar acomodado no seu lugar. Típico do brasileiro.

Gustavo Lopes em 26/06/2009 às 11:09 pm

Usar Java pra desenvolver uma aplicação de baixo nível é dose!

LKRaider em 26/06/2009 às 11:20 pm

O Marcos que fez o comentário acima nem se deu ao trabalho de olhar o tipo de código que foi produzido (e ainda tem audácia de chamar outros de acomodados, sem qualquer base).

Uma equipe de 2 alunos de segunda/terceira fase de qualquer universidade pública poderia ter produzido o tipo de código ali em um semestre.

A organização do projeto também está péssima, sem falar na distribuição, a falta de informações, etc.

É ótimo que se produzam softwares deste tipo, não questiono a intenção, mas a execução deixa muito a desejar.

PS: encontrei um repositório ubuntu para os programas (sem sources):
http://intervox.nce.ufrj.br/~anibal/ubuntu/

bitwav3 (usuário não registrado) em 26/06/2009 às 11:56 pm

Gostei da iniciativa, na minha opinião.

Ainda esta muito cedo para começarmos com mimimi :)

Ehh, realmente cade as opiniões construtivas!

bebeto_maya (usuário não registrado) em 27/06/2009 às 12:33 am

Pois é:Frontend em cima de Backend…igual a R$680,000,00. Senhores, isso é a ponta do iceberg, imagine em todos os outros setores, o que não gastam, sem nenhuma pechincha, do nosso sagrado imposto. A causa é nobre, muito nobre. Mas o preço, salgadinho. Isso enriquece essas empresas terceirizadas que prestam serviço ao governo…Mas uma solução eficiente, até um frontend em QT Kommander, pode ser tão genial em termos de usabilidade, que a idéia por si só é fabulosa e pode ser bem paga, sim.

LKRaider em 27/06/2009 às 12:39 am

opinião construtiva, espero:

+ publique o método que foi utilizado para a síntese da fala. Se não foi desenvolvido por você, explique a escolha da ferramenta utilizada, com uma análise e comparações das existentes

+ crie um website, simples que seja, agregando as informações sobre o sistema, como funciona, como usar, pessoal envolvido, metas, etc.

+ publique o código fonte, integralmente. Organize o código para facilitar colaboração.

+ escreva algum texto explicando como compilar, instalar e executar o código fonte em todas arquiteturas e sistemas suportados.

+ sabendo que vai ser código com licença livre, comece a publicar o código desde o início do projeto, para incentivar contribuição. Se não deu (projeto demorou para adotar uma licença, etc), invista na documentação quando for liberar o código.

Eu poderia continuar, mas acho que deu para entender já, é apenas praticar boas normas de projeto.

Com isso, tenho certeza de que o projeto pode conseguir resultados muito melhores, com mais pessoas ajudando, reduzindo o custo que seria necessário para atingir o mesmo objetivo do que se fosse utilizando a forma atual.

Smaug (usuário não registrado) em 27/06/2009 às 6:01 am

Olha, eu acho que o ideal é não fazer nada, mesmo, Prá que ficar jogando dinheiro fora com programinha de computador? Já existem milhares lá fora.

É igual a NASA ficar jogando dinheiro fora (ainda bem que é deles, não nosso) com essa coisa de pesquisa de vida em outros planetas. Prá que isso?

E o dinheiro que nossas Universidades públicas (as particulares não gastam com essas bobagens, não, elas são EXPERTAS) gasto com pesquisa nas áreas de Física teórica (teórica, heim?) ou de qualquer outra Física ou Astronomia? Jogar dinheiro fora, isso é que é.

Esse governo devia pegar esses R$680.000,00 é comprar comida pro povo, isso é que seria dinheiro bem gasto. Gastar com nerds? Prá quê?

tenchi em 27/06/2009 às 9:25 am

@Smaug, seguindo sua linha de raciocínio, a Nasa não deveria gastar dinheiro com pesquisa de vida em outros planetas, já que já há muita vida no Planeta Terra… hauahau

Não é querendo ser chato, mas se o negócio foi só um frontend pro mbrola (que nem open source é), foi dinheiro jogado fora. Me desculpem, mas é bem provável que tenha sido. 680 mil pilas é muito dinheiro para um front-end e muito pouco para o desenvolvimento de um sistema completo, pois aqui não entram somente os caras da programação, mas físicos, especialistas nas mais variadas áreas da fala humana, etc. Aí iriam vários milhões. E, se fosse algo sério que desse resultados concretos, milhões bem gastos, e como o governo não é uma instituição privada de fins lucrativos, logicamente que o negócio deveria ser totalmente open source.

Tô baixando e ver se compila e funciona.

É bom verificar que nem tudo se resume a “comprar comida para o povo”. O governo já faz isso com bolsas-lávaicacetada e programas como o fome zero. E acho que “socialmente” não tem alcançado o objetivo inicial.

Ah sim, acho que há uns dois anos atrás eu escrevi uma dica no Viva o Linux sobre como rodar um sintetizador em português em linha-de-comando, e usava o mbrola e algumas outras coisinhas:
http://www.vivaolinux.com.br/dica/Seu-Linux-falando-portugues-nativamente/

Tércio Martins (usuário não registrado) em 27/06/2009 às 2:59 pm

Cadê o aplicativo do Serpro que também transforma textos em áudio, o Letra? Se o Serpro e o MEC tivessem mais entrosamento, o MecDaisy não precisaria ser feito.

(ironicamente, o link do Letra diz que ele foi feito em parceria com o MEC…)

Olarva (usuário não registrado) em 27/06/2009 às 10:04 pm

Hum…

700 pau?

putz, em uma madrugada desenvolvi um frontend para o espeak, para linux/windows usando python/qt

O projeto ficou em quarto lugar no concurso da Intel (moblin).

Melhorar a capacidade de falar melhor em português no espeak é estremamente simples.

Giga (usuário não registrado) em 28/06/2009 às 2:48 pm

é… então faça que eu quero ver (ou melhor, ouvir)!

bitwav3 (usuário não registrado) em 28/06/2009 às 5:36 pm

Falando do espeak, bem que os devs poderiam ao menos fazer um “man page” pra entra no modelo tradicional de desenvolvimento de ferramentas *nix, tudo bem, html é melhor do que aquela linguagem de marcação horrível das manpages.

E falando de speech …

Prefiro muito mais o espeak do que o festival, o festival não tem muitos filtros e é um animal muito maior para se carregar nas costas.

Espeak é uma ferramenta muito útil, a dica que eu do é usar um pouco dos filtros que ele mesmo tem, salvar em wav mesmo e tocar o wav com um programa com bons filtros de áudio, ai você vai no freshmeat.net/sourceforge.net e acha o que mais lhe agradar.Eu te digo que melhora um pouco, mas não faz milagres, ainda é muito ruim escutar aquela voz com aqueles “intervalos” estranhos, ou seja, tem muita coisa a evoluir neste aspecto.

Frontend? pra que? shell script já resolve tranquilo, creio eu, que em alguns minutos é possivel fazer uma shell script que adapte a interface do espeak para qualquer coisa que o usuário queira.E o usuario que é cego não deve usar GUI, ele tem que usar CLI, “GUI is a pain in the ass” pra quem é cego, creio eu.

Mas, se alguém ai procura “wrappers” para usar com sua linguagem de programação preferida, seja ela java/python/ruby/perl/…, os gringos já devem ter feito algo que presta desde as primeiras versões destes softwares, seja festival ou espeak, então antes de implementar, ou, reinventar a roda, procure primeiro.

O que é difícil mesmo é usar softwares de reconhecimento de fala, você tem que treinar o programa.Temos atualmente 2 grandes softwares nesta área, o Julius e o sphinx.

já escrevi o bastante …

Este post é antigo (2009-06-26) e foi arquivado. O envio de novos comentários a este post já expirou.

O que é Linux • Download Linux • Apostila Linux • Enviar notícia

BR-Linux.org

Software do MEC transforma texto em áudio

Comentários dos leitores

Twitter e RSS

Anteriores

BR-Linux apoia:

Licenciamento