espeak

Started by l1nk3rn3l, July 25, 2009, 05:10:30 PM

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

FreeYourMind

Yo uso el Talk It! Esta muy bien y es grátis.

DCelso

Monstruos Diabólicos

"A PAck of classic GAMEs For BennuGD" en desarrollo
http://code.google.com/p/apagame4be/

Windgate

#17
Dioses :o

DCelso, eres la Madre Teresa de Bennu

EDIT:


Maldita sea requiere DLLs recientes de nuevo, pero veo la simplicidad de uso y es... Casi sexual.

Toma karma y si lo pruebo e insulta medianamente bien te ganas otro mas.
Iván García Subero. Programador, profesor de informática, monitor de actividades culturales y presidente de TRINIT Asociación de Informáticos de Zaragoza. http://trinit.es

DCelso

Monstruos Diabólicos

"A PAck of classic GAMEs For BennuGD" en desarrollo
http://code.google.com/p/apagame4be/

Drumpi

Wind, aprovecha que la última snapshot de bennu viene sin instalador y úsalo con él: sólo debes descomprimir en la misma carpeta, compilar y ejecutar con la linea de comandos, o con un .bat.
Hala, como con 1001 procesos sólo va a 9 FPS, vamos a meterle 32 veces más, a ver si revienta.
(Drumpi epic moment)

Windgate

Eso hice Drumpi, de hecho ya tengo la descarga directa de un ejemplo funcional con todas las últimas DLL de Bennu en mi web xD

Cada karma que os doy suele llevar un post asociado, soy monotemático, mi web sólo trata sobre Bennu :P
Iván García Subero. Programador, profesor de informática, monitor de actividades culturales y presidente de TRINIT Asociación de Informáticos de Zaragoza. http://trinit.es

l1nk3rn3l

podrian incluir los fuentes para incluirlo en el proximo bennupack  :o

josebita

Sí, por favor, así lo puedo compilar para Linux y subir a mi PPA.

Rein (K´)ah Al-Ghul

Quote from: Jurk on October 28, 2009, 03:53:39 PM
yo creo que seria mucho mas facil grabar los sonidos individualmente, y reproducirlos segun el texto. Ejemplo

Texto: "hola, me llamo Jurk"

h+o = o (sonido)
l+a = la (sonido)
, = (sin sonido)
m+e = me (sonido)
  = (sin sonido)
l+l+a = lla (sonido)
m+o = mo (sonido)
J+u+r+k = Jurk (sonido)

Eso si, habria que grabar todas las combinaciones posibles

Texto: "hola, me llamo Jurk"

(O)+(L)+(A)+(silencion corto)+(M)+(E)+(silencion corto)+
(I)+(A)+(M)+(0)
o
(Y)+(A)+(M)+(O)
segun como pronuncies la LL...
....
Se prodria acer grabando los sonidos de las vocales y consonante por separado...
El tema de la entonacion se podria acer de la misma forma lo hacen los soundfonts
de una muestra se puede tener varias entonaciones...

es mas se podria acer todo con soundfonts...
enviando las señales midi al soundfont player segun la vocal y consonante q se requiera pronunciar...
pero supongo q en bennu no es posible usar soundfonts

Rein (K´)ah Al-Ghul
Infected with the Krieger strain of the Human-MetaHuman Vampiric Virus.

en vez de darme Karma positivo, denme (K´)arma negativ

Windgate

Uf, peludo problema veo yo currar manualmente el módulo de "espeak"... La idea está clara, pero conseguir una voz "realista" como la de Loquendo... Lo veo lejos :-\
Iván García Subero. Programador, profesor de informática, monitor de actividades culturales y presidente de TRINIT Asociación de Informáticos de Zaragoza. http://trinit.es

Drumpi

Hombre, si lo pensamos, es posible que sólo necesitemos la entonación de las sílabas en 4 tonos, porque si no, tendríamos que hacer algo similar a lo que dicen dos mensajes atrás (macho, vaya nick te has buscado), pero sin acudir a soundfonts ni el método de la música modular, sino haciendo la traslación de frecuencias vía código, y eso consumiría recursos (vamos, que nos olvidamos casi de las consola portátiles).
Vamos, según la teoría que he ido leyendo (aun lo tengo que confirmar para el tema del proyecto) lo que hay que hacer es tomar la muestra de sonido, aplicarle al FFT (fast fourier transform) para descomponerlo en frecuencias, multiplicar los valores (por dos sube una octava), y de nuevo la FFT (que sería aplicar la transformada inversa) para obtener la nueva señal a distinto nivel.

Pero lo de tenerlas ya pregrabadas es lo mejor, en la frase que ponéis de ejemplo sólo se necesitan dos "notas": -_ _ -- _
En una pregunta creo que se pueden tener cuatro notas, o quizás cinco, cuestión de analizar.

PD: respecto al Talk-it, mientras pongas la voz en ingles no hay problemas (aunque suena bastante entrecortado), pero en el momento en que lo pones en español ¡la voz femenina es la del tio! :S
Hala, como con 1001 procesos sólo va a 9 FPS, vamos a meterle 32 veces más, a ver si revienta.
(Drumpi epic moment)

Rein (K´)ah Al-Ghul

Lo de los soundfonts lo decia para simplificar el problema de generar el sonido...
aunq para darle expresion al preguntar o sorprenderse es otra cosa...

la verdad que este tema es interesante n.n

me interesa la solucion q propones drumpi...

se me paso esto por alto:
Quote from: Drumpi on October 28, 2009, 01:55:55 AM
Pues lo cierto es que me interesa mucho el tema de generar voces... más que nada porque me enfrento a la tarea de hacer todo lo contrario: detectar voces y pasarlas a palabras ;D
una forma de reconocimiento de voz??

Quote from: Drumpi on November 02, 2009, 01:56:21 AM
macho, vaya nick te has buscado
cualquier parecido con un terrorista islamico es pura coincidencia
jajaj

Rein (K´)ah Al-Ghul
Infected with the Krieger strain of the Human-MetaHuman Vampiric Virus.

en vez de darme Karma positivo, denme (K´)arma negativ

Windgate

Porque una librería en Bennu que detecte la señal de entrada del micro y sea capaz de volver "algo" en función de ella... ¿No hay nada similar, no?

(Cuidado que ahora DCelso nos aparece mañana a las 7AM con una DLL funcional de ello)

;D
Iván García Subero. Programador, profesor de informática, monitor de actividades culturales y presidente de TRINIT Asociación de Informáticos de Zaragoza. http://trinit.es

DCelso

 :o, me sobrestimas  ;).
Monstruos Diabólicos

"A PAck of classic GAMEs For BennuGD" en desarrollo
http://code.google.com/p/apagame4be/

Drumpi

No, no lo hay, y creeme que no es algo fácil de conseguir: este tipo de códigos lo guardan las empresas bajo cinco llaves, pues aquella que consiga una detección de palabras con una precisión del 80% puede sacar más dinero que el creador del formato GIF ;D

Ya he comentado la cantidad de cosas a tener en cuenta, no sólo por el tema de identificar sílabas, sino por las inexactitudes de la gente al hablar, y el arrastre de un sonido hacia la siguiente sílaba... eso suponiendo una pronunciación perfecta ;D

Supongo que mi PFC lo dedicaré a reconocer cinco comandos predefinidos, y dejaré el tema de investigación para más adelante, pero sería interesante conocer los armónicos necesarios para una voz humana y como varía a lo largo de una frase. He trabajado con filtros que usan simplificaciones de la FFT directamente en ASM y no era complejo, pero no es lo mismo depender de una única frecuencia que rastrear el cambio de un conjunto :S
Hala, como con 1001 procesos sólo va a 9 FPS, vamos a meterle 32 veces más, a ver si revienta.
(Drumpi epic moment)