espeak

l1nk3rn3l · July 25, 2009, 05:10:30 PM

http://espeak.sourceforge.net/

valdria la pena que alguien la hiciera en fenix..

tecnicamente la libreria reproduce textos ("hola")
por medio de la tarjeta de sonido asi , no necesitamos
crear los dialogos para los juegos, y el juego no pesaria tanto..

incluye varios generos en las voces(hombre , mujer)

quien se anima?

SplinterGU · July 25, 2009, 05:22:02 PM

estaria bueno que alguien la hiciera para bennu, no para fenix... pero bueno... :)

DCelso · July 25, 2009, 06:24:07 PM

:D, creo que quizo decir bennu, no crees :D

hArdJoB · October 27, 2009, 10:32:28 PM

Hola!

Antes que nada, decir que estoy (gratamente) sorprendido por como ha seguido p'alante la comunidad. Hacia muchisimo que no sabia nada de fenix ni bennu, el trabajo no me ha dejado tiempo para nada.

Sobre este tema, yo estuve buscando información hace mucho tiempo, y de hecho publiqué un post en el foro de fenix http://forum.divsite.net/viewthread.php?tid=3386&page=1 que hablaba del tema.

El problema de generar voces es que es un proceso que consume muchos recursos y es LENTO, claro está depende de la calidad de dichas voces.

Sería fantastico poder usar APIs como las de loquendo o similares, pero por desgracia éstas son comerciales y no dejan utilizar su codigo fuente.

De todas formas, si al final se llega a algo en este tema, me encantará testearlo ^^

En fin, nada mas, solo un gran saludo a toda la comunidad!

Drumpi · October 28, 2009, 01:55:55 AM

Pues lo cierto es que me interesa mucho el tema de generar voces... más que nada porque me enfrento a la tarea de hacer todo lo contrario: detectar voces y pasarlas a palabras ;D
Estoy en la fase de familiarización con el HW, así que aun no tengo prisa.

De todas formas, cuando estuve trabajando con DSPs (y bastante viejos) generábamos ondas sinusoidales en tiempo real. No creo que consuma mucho crear una serie de armónicos y recrear la forma de onda de un fonema, el problema es conocer la base de eso (nº de armónicos para una voz, la variación de la señal para cada fonema...).

Jurk · October 28, 2009, 03:53:39 PM

yo creo que seria mucho mas facil grabar los sonidos individualmente, y reproducirlos segun el texto. Ejemplo

Texto: "hola, me llamo Jurk"

h+o = o (sonido)
l+a = la (sonido)
, = (sin sonido)
m+e = me (sonido)
= (sin sonido)
l+l+a = lla (sonido)
m+o = mo (sonido)
J+u+r+k = Jurk (sonido)

Eso si, habria que grabar todas las combinaciones posibles

Drumpi · October 28, 2009, 05:36:47 PM

A eso hay que añadirle la entonación de la frase (traslación en frecuencias) y los puentes entre sílabas (la continuación del final de un sonido debe coincidir con la de la siguiente, y eso es muy complejo).
A menos que consigas unos ficheros de voz que se acoplen fácilmente unos con otros.

Jurk · October 28, 2009, 07:27:40 PM

o te pasas la tarde grabando tu voz... :)

DCelso · October 28, 2009, 09:08:05 PM

mañana puede que os tenga una sopresita.

Jurk · October 28, 2009, 09:15:34 PM

No sabes lo que molaria tener de eso, tiooooo

Lo utilizaria en mi primer juego, que no es nada del otro mundo pero quiero que al menos sea digno..

Windgate · October 28, 2009, 09:26:58 PM

En mi proyecto de juego de aviones Sardines Can in Roids (No ha tenido mucha afluencia en el foro) usaba unas voces grabadas con Loquendo para la IA y sí, pesaban muuucho.

Sería muy interesante este proyecto, pero mucho mucho mucho... DCelso habla de una sorpresita... Estoy babeando...

DCelso · October 28, 2009, 09:40:16 PM

;D

hArdJoB · October 28, 2009, 09:55:01 PM

A lo de los fonemas es a lo que me refiero, es lo que mas recursos consume, pero, por poner un punto de partida, me remito a lo que dije en el foro de fenix, MBROLA es un buen punto de partida

DCelso · October 28, 2009, 10:24:39 PM

A ver, no quiero engañaros, espeak no es ninguna maravilla todas, y digo todas las opciones, configuraciones y voces suenan muy robóticas, es la típica voz robótica ochenterea.
He escuchado MBrola y la calidad es clavadita, nada mejor podría afirmar y para colmo no es opensource así que no podriamos hacerla multiplataforma.

En general todos los sistemas de sintetización de voz en la actualidad están muy verdes.
A ver, lo mejor que he escucado en español a Jorge de loquendo y a Rosa de at&t labs (ambos de pago). Pero estos hacen el truco de tener todos los fonemas y sílabas digitalizadas en una base de datos por lo que ocupan considerablemente mucho y aún así la unión silábica no está muy conseguida. De esta forma quizás en un futuro donde tengamos terabytes podramos tener un text to speech donde tengamos palabras y oraciones completamente digitalizadas en una base de datos y aún así habría problemas de conexión de palabras :D.

Asi que como conclusión para juegos lo suyo es grabar tu voz con las frases de tu personaje y distorsonarlas un poco, queda mucho mejor, a donde va a parar.

El tts no sirve más allá de animar a un ordenador o robot, para protagonistas y enemigos el efecto que causará será el de risas y carcajadas :D.

Windgate · October 28, 2009, 11:32:06 PM

Yo buscaba una voz robótica, en mi juego de aviones había una IA en la nave que te hablaba y te insultaba sin piedad si lo hacías mal (A veces incluso si lo hacías bien :P), con voz robótica todavía mejor. Me atrae la idea, aunque una frase articulada suene raro siempre abre un nuevo abanico de posibilidades.