Sintetizador de voz: Lançamento do GeSpeak 0.1.6
“Depois de um tempo sem atualizações o GeSpeak, um front end para o sintetizador de voz eSpeak, recebeu algumas melhorias e alcançou a versão 0.1.6. Esta versão traz como novidade mais idiomas e a possibilidade de abrir arquivos de texto diretamente no programa, sem ter que ficar copiando e colando de algum editor de texto. Algumas melhorias só existem porque foram idéias de usuários, mais uma vez a comunidade mostra seu valor.”
Enviado por Evaldo Junior Bento (junior_pd_bentoΘyahoo·com·br) – referência (infog.casoft.info).
• Publicado por Augusto Campos em
2008-06-02
O espeak tem muito o que melhorar na pronúncia em português ainda, eu até queria contribuir para o projeto se dominasse essa tecnologia, mas não é o meu caso… Eu já ouvi vozes sintetizadas em português muito boas em programas pra Windows, e uma em inglês perfeita pra Mac (nova no Leopard). Eu não queria nada tão sofisticado, apenas algo que não soasse como o Stephen Hawking.
Racum, no site, ou wiki, não lembro bem, do eSpeak o autor diz que o suporte a alguns idiomas é fraco por que ele não os domina. Ele disse que tem um amigo que sabe português que o ajuda. Como o software é livre você pode manter contato com ele e ajudá-lo para que a pronúncia em português do Brasil fique mais clara.
Meu trabalho com o eSpeak é facilitar a utilização por pessoas que não gostam muito da linha de comando, mas eu gostaria muito de ver o eSpeak crescendo e “dominando” melhor os idiomas.
InFog
Olá,
Ajudei a desenvolver a voz em Português do ESpeak. Não sei se a bronca é com a pronúncia das palavras em si ou com a qualidade da voz. Existem parâmetros que podem ser mudados em cada arquivo de voz e mexem um pouco na sonoridade (v. arquivos na pasta “espeak-data/voices” e o documento “docs/voices.html”).
De qualquer modo, a qualidade não tem como melhorar muito por causa da técnica mesma usada na síntese de voz. Também conheço vozes mais inteligíveis mas elas usam voz humana altêntica e o ESpeak é síntese pura. A vantagem é que o programa inteiro cabe em espaços muito pequenos e pode ser facilmente embutido em outros programas, ver por exemplo:
http://www.nvda-project.org
Não sou tão exigente e se é para continuar um sintetizador leve e pequeno espero mesmo que não mexam muito.
Abraços
Entendi… os sintetizadores que eu testei em outras plataformas deveriam usar samples humanos.
Minha crítica ao espeak é mais a voz que qualquer outra coisa… o ritmo robótico e a falta de interpretação já eram esperados e são fáceis de tolerar, mas o som da voz que ele produz precisa melhorar, especialmente a tendência das sílabas se sobreporem.
O que dá pra melhorar usando o modelo atual? usando o mesmo engine é possivel usar samples reais por cima? senão… existe algum projeto open-source que baseado em samples?
Racum, eu não conheço outros projetos desse tipo, mas se encontrar um eu poderia fazer o GeSpeak suportá-lo também, assim o projeto viraria uma interface para vários sintetizadores, bastando o usuário escolher qual usar.
Então, existe o projeto MBROLA (perdi o endereço mas procurem no Gooble). Ele é open mas a licença é bastante restritiva para distribuição. é baseado em voz humana e pode-se usar os sons dele e as regras de pronúncia do ESpeak para produzir fala em conjunto. Na pasta docs do ESpeak tem um documento sobre isso, “mbrola.html” se não me engano.
Quanto a melhorar o ritmo e duração de cada sílaba dependendo da posição na palavra, existem parâmetros para isso mas quase não mexi até hoje. Salvo engano as explicações estão em “dictionary.html” ou então no voices.html mesmo.
[]s a todos
Esqueci de citar o sintetizador Festival (procurem “festival + speech” ou algo assim. Ele não tem voz em Português mas está sob GPL se não me engano e qualquer um com muito tempo e conhecimento pode construir uma voz em pt-BR usando a própria voz se quiser.
O MBROLA que citei antes tem voz em Português que já é usada por programas proprietários como o Virtual Vision:
http://www.virtualvision.com.br
mas para distribuir sem restrições tem que pagar uma nota pro desenvolvedor.
[]s
Finalmente! O que todos esperavam: alguém para ler por nós. Só falta AI em implantes cibernéticos para nos livrar de pensar.
Cleverson, eu li sobre o MBROLA, e achei muito interessante utilizá-lo no eSpeak, mas tenho que entender melhor a licença dele. O Festival é bem legal, mas ainda não fala português, fora que ele é mais complexo de ser utilizado, mas dá para usar as libs dele e colocar ele “embarcado” em código c, mas seria sim uma boa fazer uso dele, o problema é não falar português =(
Foobob, graças a Deus você tem olhos saudáveis e pode ler, agradeça por isso todos os dias.
Lamento por minha completa falta de sensibilidade. Não passou pela minha cabeça o principal público-alvo, que sem dúvida muito se beneficiaria desse programa.
Estava pensando só na deplorável geração “copiar-e-colar da wikipédia”, que curto cutucar a todo momento para ver se acordam.
foobob, eu também não pensei na geração ctrl+c e ctrl+v heheheh, o que mais me impressiona é que há poucos anos (quando eu fazia o ensino médio) eu pega livros, lia, entendia o conceito e fazia o trabalho. Hoje até crianças na 2ª série do ensino fundamental copiam tudo da net e nem lêem o que está escrito! Acho que esses implantes iriam bem em uma meia dúzia que eu conheço =(
Ahh uma outra aplicação interessante no eSpeak (GeSpeak) é ajudar estudantes de Inglês (Eu) quando esquecem a pronúncia de uma palavra. Já recorria a ele algumas vezes, aliás foi por isso que comecei o projeto, para a minha namorada tirar dúvidas de pronúncia sem precisar recorrer à linha de comandos.
InFog