Acessibilidade: entrevista com foco na experiência dos cegos brasileiros
Enviado por Leonardo Fontenelle (leonardofΘgnome·org):
“Por volta de 2002/2003, [...] não havia para Linux recursos de acessibilidade voltados para a realidade dos cegos brasileiros, como síntese de voz (via software) em Português. [...] Comecei a utilizar o Linux com o Linvox em 2004, um projeto brasileiro que trazia num LiveCD o Linux Kurumin com o Dosvox funcionando através do WINE. [...] A autonomia dos cegos melhorou com toda a infra-estrutura de Acessibilidade desenvolvida no GNOME, com os leitores de telas para aplicativos em GTK+, principalmente com o Leitor de telas Orca. O Orca fez a diferença e o GNOME tornou-se referência de Ambiente Gráfico Acessível.”” [referência: leonardof.org]
para os devs :)
focus on the back-ends!
espeak: ainda esta ruim …
festival: tem momentos que a voz fica tão grave que não da para entender nada(isso acontece devido ao algoritmo não muito bem pensado …) quando a frase ou parágrafo e muito grande.Talvez tenha já uma opção pra ajustar isso, mas por padrão não vem ajustado.
para os webdesiners/webmasters
usem mais a linguagem de marcação criada para speech synthesis! :)
Nota: não sou cego, mas adoro uma variedade maior de interfaces
@cli4fun
Se seu comentário é sobre a naturalidade da fala do eSpeak (lembrando que naturalidade não é inteligibilidade), não há muito o que fazer — ele não usa vozes humanas, todas são compostas por software. Elas são bem estranhas todas as línguas, mas são bem compreensíveis. E isto é uma vantagem, considerando que deficientes visuais normalmente configuram seus sintetizadores para velocidades altíssimas.
@Mark
todas são compostas por software
é eu sei, mas ainda tem muito a melhorar …
com um pouco mais de matemática, + bons programadores + um bom banco de dados(mundial) com vozes para analisar, hmmmm sai um bolinho bem delicioso dai
voxforge? ainda está muito longe de ser um banco de dados realmente com colaboração global …
Assim como no reconhecimento de fala existem padrões que só são “evoluídos” com banco de dados com vozes naturais, para speech acontece a mesma coisa
lembrando que naturalidade não é inteligibilidade
ops, não é a mesma coisa, mas como se aproxima da forma mais comum, melhora a inteligibilidade, leia sobre redes neurais e associe a coisas “comuns” as redes neurais você vai entender … ou seja, se os cegos diariamente conversam com varias outras pessoas(“voz natural”) sua rede … vai … :)
deficientes visuais normalmente configuram seus sintetizadores para velocidades altíssimas
hehe, eu imaginava.Eu também quando quero entender, aumento o volume lá em cima :)
lembrando que minha crítica não foi específica ao espeak, mas de forma geral a estes projetos que focam muito nos front-ends e esquecem que a qualidade do “produto” depende muito mais dos back-ends
mas é bom ver estes resultados :)
Não é tão simples assim… Modelagem computacional nessa àrea, redes neurais e conseguir bons programadores para colaborar nesses projetos é muito dificil. Por isso existem tão poucos projetos, mesmo de còdigo fechado.
Mas se alguém quizer ajudar, colabore com o Liane TTS, um exelente projeto desenvolvido na UFRJ pelo Prof. Joné Antonio dos Santos Borges.
Melhor, colaborem com o eSpeak, mitigando o prejuízo causado de
desAcordo Ortográfico.Verdade — o acordo quebrou muito a fala do eSpeak, e muitas palavras agora precisarão de pronúncias especializadas, como traduzir “frequência” para “fRekw’eINsj&”. Se com trema era difícil ter uma boa pronúncia, imaginem agora…