Software do MEC transforma texto em áudio
Enviado por SHARLES SA (SHARLES·SAΘGMAIL·COM):
Chamado de Mecdaysi, a aplicação foi desenvolvida por pesquisadores do Ministério da Educação e técnicos da Universidade Federal do Rio de Janeiro (UFRJ) e consumiu R$ 680 mil em custo de desenvolvimento.
O Ministério vai liberar ainda outros R$ 180 mil para centros de apoio ao deficiente visual espalhados pelo Brasil usarem a tecnologia na impressão de livros didáticos em braile e na conversão de livros em papel em áudio livros.
Com versões para Linux e Windows, o programa lê arquivos de texto e os converte para voz. Assim, qualquer obra disponível em formato digital pode ser convertida para arquivo de áudio e tornar-se acessível para portadores de deficiência visual.
Ao apresentar o aplicativo, em evento em Brasília, o ministro Fernando Haddad frisou que o software não visa substituir a alfabetização em braile ou a produção de livros em linguagem com relevo, mas sim criar uma ferramenta complementar para a inclusão de deficientes visuais.
Fonte:” [referência: info.abril.com.br]
O Governo poderia liberar pelo menos uma API para que outras aplicações fossem desenvolvidas.
Onde anda a “comunidade” para reclamar? Vocês estao por ai?
Sintetizadores de voz bons e livres existem. Será que usar o orca (http://live.gnome.org/Orca) com o eSpeak (que já vem com o GNOME) custaria R$ 680 mil?
no site do projeto não tem a versão para linux coisa nenhuma
Excelente. Já tem algumas opções open source, e uma delas, o espeak tem adaptação para o português também.
Transformar texto em audio?
$ festival
festival> (SayText “hello world”)
Conteúdo da pasta linux:
http://www.intervox.nce.ufrj.br/mecdaisy/linux/
lol
(*_*)
padrão Digital Accessible Information System (Daisy)
Enquanto o link-fantasma para linux não for esclarecido, continuo com o “espeak” .
(*_*)
padrão Digital Accessible Information System (Daisy)
Enquanto o link-fantasma para linux não estiver e esclarecido, continuo com o “espeak” .
(*_*)
Uso “espeak” com TTS-Text-to-speech, temporização com o “crontab”, verbalizando texto ou ativando cronograma para sinalização sonora, avisos, comentários falados e com opção em portugues.
e conforme:
http://br.geocities.com/omlinux/Inacio/09inacio31.html
Menu – Optar: Ideog :: 18-urso :: (tela 3) 7-Cronografia
o/
o/
é, caro cenoura, podes crer que basicamente o governo torrou aí uns 600 mil pagando vários gerentes de software somente para mandar emails para uns estagiários terceirizados pedindo a implementação de uma interface com o festival ou soft similar. Esse é o Brazil, o país do pretérito futuro!
“R$ 680 mil em custo de desenvolvimento”
???
Caramba, com tanto projeto num estado usável hoje em dia, gastaram tudo isso fazendo algo do zero?
Cadê o código fonte?
Achei:
http://code.google.com/p/mecdaisy/source/browse/
só não tentei compilar/executar ainda
Mas gasto público…Uma interface pro festival resolveria o problema.
Zeebo:
600 mil pagando vários gerentes de software somente para mandar emails para uns estagiários terceirizados pedindo a implementação de uma interface com o festival ou soft similar.
Isso me lembra a Apple com o FreeBSD e o Darwin…Só que eles são capital privado.
http://code.google.com/p/mecdaisy/source/browse/trunk/sources/MecDaisy_audioNovo/src/audio/AudioSintetizado.java
Essa coisa em Java toda é só uma GUI pra um sintetizador que fica escutando na porta 1955.
Tem uns binários lá em Utils desse sintetizador, vou analisar agora. Não tem o código fonte deles.
Ah, sim.. esse Liane é um projeto antigo da UFRJ:
http://www.linuxacessivel.org/category/acessibilidade/sintetizadores-de-voz/liane-tts/
Só espero que os R$680 mil não tenham sido destinados só àquela GUI em Java :)
E como eu desconfiava, o Liane não foi feito do zero. É só um frontend para o famoso mbrola.
pthread_mutex_lock (&mutex_parametros);
args[0] = strdup ("mbrola");
args[1] = strdup ("-e");
args[2] = strdup ("-t");
args[3] = str_float ("%4.2f", 1.0 / velocidade_mbrola(velocidade));
args[4] = strdup ("-f");
args[5] = str_float ("%4.2f", tonalidade_mbrola(tonalidade));
args[6] = strdup ("-v");
args[7] = str_float ("%4.2f", volume_mbrola(volume));
args[8] = strdup (voz_mbrola);
args[9] = strdup (nome_arquivo_difones);
args[10] = strdup (nome_arquivo_audio);
args[11] = NULL;
pthread_mutex_unlock (&mutex_parametros);
log_write_string ("mbrola - velocidade", args[3]);
log_write_string ("mbrola - tonalidade", args[5]);
log_write_string ("mbrola - volume", args[7]);
id_proc = executa_processo (args);
R$ 680 mil para fazer uma interface para uns binários? WTF?
não consegui rodar o código java compilado disponível no svn, mas olhando o source dá para ver o que ele faz é só chamar uns binários para fazer o trabalho
ele chama dois arquivos binários que não tem código fonte, na pasta Util:
liane-server para linux
servsapi.exe para win32
O liane-server não executa, pois necessita de uma biblioteca que não está inclusa (libliane.so.0)
Análise das strings no binário win32:
código em Delphi
DOSVOX.INI
Serpro Liane TTS
winvoxlianetts
Servidor SAPI – v1.0
Projeto MEC Daisy
NCE/UFRJ – 2008
Procurando dosvox/winvox no google, dá pra ver que são de uma tal de Elan speech engine, meio antiga (2000/2001?):
http://74.125.47.132/search?q=cache:www.talkingheads.computing.edu.au/resources/documents/serge/SpeechCube/SpeechEngineNTmanual.doc
festival e espeak são PÉSSIMOS pro português. Uma voz robótica e sem variação de entonação. O melhor sintetizador que conheço para o português é o loquendo, mas é comercial. E nenhum deles tem interface pra braile.
E 680 mil não é caro, já que um analista que ganhe 2 mil reais por mes custa mais de 50 mil anuais. Se for somar o hardware que possa ter sido adquirido, vê-se que a equipe podia ser até pequena (6 pessoas ou menos por 2 anos).
Mas, claro, o importante é falar mal do governo e ficar acomodado no seu lugar. Típico do brasileiro.
Usar Java pra desenvolver uma aplicação de baixo nível é dose!
O Marcos que fez o comentário acima nem se deu ao trabalho de olhar o tipo de código que foi produzido (e ainda tem audácia de chamar outros de acomodados, sem qualquer base).
Uma equipe de 2 alunos de segunda/terceira fase de qualquer universidade pública poderia ter produzido o tipo de código ali em um semestre.
A organização do projeto também está péssima, sem falar na distribuição, a falta de informações, etc.
É ótimo que se produzam softwares deste tipo, não questiono a intenção, mas a execução deixa muito a desejar.
PS: encontrei um repositório ubuntu para os programas (sem sources):
http://intervox.nce.ufrj.br/~anibal/ubuntu/
Gostei da iniciativa, na minha opinião.
Ainda esta muito cedo para começarmos com mimimi :)
Ehh, realmente cade as opiniões construtivas!
Pois é:Frontend em cima de Backend…igual a R$680,000,00. Senhores, isso é a ponta do iceberg, imagine em todos os outros setores, o que não gastam, sem nenhuma pechincha, do nosso sagrado imposto. A causa é nobre, muito nobre. Mas o preço, salgadinho. Isso enriquece essas empresas terceirizadas que prestam serviço ao governo…Mas uma solução eficiente, até um frontend em QT Kommander, pode ser tão genial em termos de usabilidade, que a idéia por si só é fabulosa e pode ser bem paga, sim.
opinião construtiva, espero:
+ publique o método que foi utilizado para a síntese da fala. Se não foi desenvolvido por você, explique a escolha da ferramenta utilizada, com uma análise e comparações das existentes
+ crie um website, simples que seja, agregando as informações sobre o sistema, como funciona, como usar, pessoal envolvido, metas, etc.
+ publique o código fonte, integralmente. Organize o código para facilitar colaboração.
+ escreva algum texto explicando como compilar, instalar e executar o código fonte em todas arquiteturas e sistemas suportados.
+ sabendo que vai ser código com licença livre, comece a publicar o código desde o início do projeto, para incentivar contribuição. Se não deu (projeto demorou para adotar uma licença, etc), invista na documentação quando for liberar o código.
Eu poderia continuar, mas acho que deu para entender já, é apenas praticar boas normas de projeto.
Com isso, tenho certeza de que o projeto pode conseguir resultados muito melhores, com mais pessoas ajudando, reduzindo o custo que seria necessário para atingir o mesmo objetivo do que se fosse utilizando a forma atual.
Olha, eu acho que o ideal é não fazer nada, mesmo, Prá que ficar jogando dinheiro fora com programinha de computador? Já existem milhares lá fora.
É igual a NASA ficar jogando dinheiro fora (ainda bem que é deles, não nosso) com essa coisa de pesquisa de vida em outros planetas. Prá que isso?
E o dinheiro que nossas Universidades públicas (as particulares não gastam com essas bobagens, não, elas são EXPERTAS) gasto com pesquisa nas áreas de Física teórica (teórica, heim?) ou de qualquer outra Física ou Astronomia? Jogar dinheiro fora, isso é que é.
Esse governo devia pegar esses R$680.000,00 é comprar comida pro povo, isso é que seria dinheiro bem gasto. Gastar com nerds? Prá quê?
@Smaug, seguindo sua linha de raciocínio, a Nasa não deveria gastar dinheiro com pesquisa de vida em outros planetas, já que já há muita vida no Planeta Terra… hauahau
Não é querendo ser chato, mas se o negócio foi só um frontend pro mbrola (que nem open source é), foi dinheiro jogado fora. Me desculpem, mas é bem provável que tenha sido. 680 mil pilas é muito dinheiro para um front-end e muito pouco para o desenvolvimento de um sistema completo, pois aqui não entram somente os caras da programação, mas físicos, especialistas nas mais variadas áreas da fala humana, etc. Aí iriam vários milhões. E, se fosse algo sério que desse resultados concretos, milhões bem gastos, e como o governo não é uma instituição privada de fins lucrativos, logicamente que o negócio deveria ser totalmente open source.
Tô baixando e ver se compila e funciona.
É bom verificar que nem tudo se resume a “comprar comida para o povo”. O governo já faz isso com bolsas-lávaicacetada e programas como o fome zero. E acho que “socialmente” não tem alcançado o objetivo inicial.
Ah sim, acho que há uns dois anos atrás eu escrevi uma dica no Viva o Linux sobre como rodar um sintetizador em português em linha-de-comando, e usava o mbrola e algumas outras coisinhas:
http://www.vivaolinux.com.br/dica/Seu-Linux-falando-portugues-nativamente/
Cadê o aplicativo do Serpro que também transforma textos em áudio, o Letra? Se o Serpro e o MEC tivessem mais entrosamento, o MecDaisy não precisaria ser feito.
(ironicamente, o link do Letra diz que ele foi feito em parceria com o MEC…)
Hum…
700 pau?
putz, em uma madrugada desenvolvi um frontend para o espeak, para linux/windows usando python/qt
O projeto ficou em quarto lugar no concurso da Intel (moblin).
Melhorar a capacidade de falar melhor em português no espeak é estremamente simples.
é… então faça que eu quero ver (ou melhor, ouvir)!
Falando do espeak, bem que os devs poderiam ao menos fazer um “man page” pra entra no modelo tradicional de desenvolvimento de ferramentas *nix, tudo bem, html é melhor do que aquela linguagem de marcação horrível das manpages.
E falando de speech …
Prefiro muito mais o espeak do que o festival, o festival não tem muitos filtros e é um animal muito maior para se carregar nas costas.
Espeak é uma ferramenta muito útil, a dica que eu do é usar um pouco dos filtros que ele mesmo tem, salvar em wav mesmo e tocar o wav com um programa com bons filtros de áudio, ai você vai no freshmeat.net/sourceforge.net e acha o que mais lhe agradar.Eu te digo que melhora um pouco, mas não faz milagres, ainda é muito ruim escutar aquela voz com aqueles “intervalos” estranhos, ou seja, tem muita coisa a evoluir neste aspecto.
Frontend? pra que? shell script já resolve tranquilo, creio eu, que em alguns minutos é possivel fazer uma shell script que adapte a interface do espeak para qualquer coisa que o usuário queira.E o usuario que é cego não deve usar GUI, ele tem que usar CLI, “GUI is a pain in the ass” pra quem é cego, creio eu.
Mas, se alguém ai procura “wrappers” para usar com sua linguagem de programação preferida, seja ela java/python/ruby/perl/…, os gringos já devem ter feito algo que presta desde as primeiras versões destes softwares, seja festival ou espeak, então antes de implementar, ou, reinventar a roda, procure primeiro.
O que é difícil mesmo é usar softwares de reconhecimento de fala, você tem que treinar o programa.Temos atualmente 2 grandes softwares nesta área, o Julius e o sphinx.
já escrevi o bastante …