espeak

FreeYourMind · October 29, 2009, 07:04:50 AM

Yo uso el Talk It! Esta muy bien y es grátis.

DCelso · October 29, 2009, 10:13:22 AM

Tachan,
http://www.mediafire.com/?m3imwmem1da

Windgate · October 29, 2009, 11:03:06 AM

Dioses :o

DCelso, eres la Madre Teresa de Bennu

EDIT:

Maldita sea requiere DLLs recientes de nuevo, pero veo la simplicidad de uso y es... Casi sexual.

Toma karma y si lo pruebo e insulta medianamente bien te ganas otro mas.

DCelso · October 29, 2009, 11:20:50 AM

Gracias.

Drumpi · October 29, 2009, 04:49:17 PM

Wind, aprovecha que la última snapshot de bennu viene sin instalador y úsalo con él: sólo debes descomprimir en la misma carpeta, compilar y ejecutar con la linea de comandos, o con un .bat.

Windgate · October 29, 2009, 08:51:53 PM

Eso hice Drumpi, de hecho ya tengo la descarga directa de un ejemplo funcional con todas las últimas DLL de Bennu en mi web xD

Cada karma que os doy suele llevar un post asociado, soy monotemático, mi web sólo trata sobre Bennu :P

l1nk3rn3l · October 30, 2009, 04:11:45 PM

podrian incluir los fuentes para incluirlo en el proximo bennupack :o

josebita · November 01, 2009, 05:19:49 PM

Sí, por favor, así lo puedo compilar para Linux y subir a mi PPA.

Rein (K´)ah Al-Ghul · November 01, 2009, 06:41:40 PM

Quote from: Jurk on October 28, 2009, 03:53:39 PM
yo creo que seria mucho mas facil grabar los sonidos individualmente, y reproducirlos segun el texto. Ejemplo

Texto: "hola, me llamo Jurk"

h+o = o (sonido)
l+a = la (sonido)
, = (sin sonido)
m+e = me (sonido)
= (sin sonido)
l+l+a = lla (sonido)
m+o = mo (sonido)
J+u+r+k = Jurk (sonido)

Eso si, habria que grabar todas las combinaciones posibles

Texto: "hola, me llamo Jurk"

(O)+(L)+(A)+(silencion corto)+(M)+(E)+(silencion corto)+
(I)+(A)+(M)+(0)
o
(Y)+(A)+(M)+(O)
segun como pronuncies la LL...
....
Se prodria acer grabando los sonidos de las vocales y consonante por separado...
El tema de la entonacion se podria acer de la misma forma lo hacen los soundfonts
de una muestra se puede tener varias entonaciones...

es mas se podria acer todo con soundfonts...
enviando las señales midi al soundfont player segun la vocal y consonante q se requiera pronunciar...
pero supongo q en bennu no es posible usar soundfonts

Windgate · November 01, 2009, 08:51:03 PM

Uf, peludo problema veo yo currar manualmente el módulo de "espeak"... La idea está clara, pero conseguir una voz "realista" como la de Loquendo... Lo veo lejos :-\

Drumpi · November 02, 2009, 01:56:21 AM

Hombre, si lo pensamos, es posible que sólo necesitemos la entonación de las sílabas en 4 tonos, porque si no, tendríamos que hacer algo similar a lo que dicen dos mensajes atrás (macho, vaya nick te has buscado), pero sin acudir a soundfonts ni el método de la música modular, sino haciendo la traslación de frecuencias vía código, y eso consumiría recursos (vamos, que nos olvidamos casi de las consola portátiles).
Vamos, según la teoría que he ido leyendo (aun lo tengo que confirmar para el tema del proyecto) lo que hay que hacer es tomar la muestra de sonido, aplicarle al FFT (fast fourier transform) para descomponerlo en frecuencias, multiplicar los valores (por dos sube una octava), y de nuevo la FFT (que sería aplicar la transformada inversa) para obtener la nueva señal a distinto nivel.

Pero lo de tenerlas ya pregrabadas es lo mejor, en la frase que ponéis de ejemplo sólo se necesitan dos "notas": -_ _ -- _
En una pregunta creo que se pueden tener cuatro notas, o quizás cinco, cuestión de analizar.

PD: respecto al Talk-it, mientras pongas la voz en ingles no hay problemas (aunque suena bastante entrecortado), pero en el momento en que lo pones en español ¡la voz femenina es la del tio! :S

Rein (K´)ah Al-Ghul · November 10, 2009, 08:10:11 PM

Lo de los soundfonts lo decia para simplificar el problema de generar el sonido...
aunq para darle expresion al preguntar o sorprenderse es otra cosa...

la verdad que este tema es interesante n.n

me interesa la solucion q propones drumpi...

se me paso esto por alto:

Quote from: Drumpi on October 28, 2009, 01:55:55 AM
Pues lo cierto es que me interesa mucho el tema de generar voces... más que nada porque me enfrento a la tarea de hacer todo lo contrario: detectar voces y pasarlas a palabras ;D

una forma de reconocimiento de voz??

Quote from: Drumpi on November 02, 2009, 01:56:21 AM
macho, vaya nick te has buscado

cualquier parecido con un terrorista islamico es pura coincidencia
jajaj

Windgate · November 10, 2009, 09:10:51 PM

Porque una librería en Bennu que detecte la señal de entrada del micro y sea capaz de volver "algo" en función de ella... ¿No hay nada similar, no?

(Cuidado que ahora DCelso nos aparece mañana a las 7AM con una DLL funcional de ello)

;D

DCelso · November 10, 2009, 11:55:59 PM

:o, me sobrestimas ;).

Drumpi · November 11, 2009, 01:04:53 AM

No, no lo hay, y creeme que no es algo fácil de conseguir: este tipo de códigos lo guardan las empresas bajo cinco llaves, pues aquella que consiga una detección de palabras con una precisión del 80% puede sacar más dinero que el creador del formato GIF ;D

Ya he comentado la cantidad de cosas a tener en cuenta, no sólo por el tema de identificar sílabas, sino por las inexactitudes de la gente al hablar, y el arrastre de un sonido hacia la siguiente sílaba... eso suponiendo una pronunciación perfecta ;D

Supongo que mi PFC lo dedicaré a reconocer cinco comandos predefinidos, y dejaré el tema de investigación para más adelante, pero sería interesante conocer los armónicos necesarios para una voz humana y como varía a lo largo de una frase. He trabajado con filtros que usan simplificaciones de la FFT directamente en ASM y no era complejo, pero no es lo mismo depender de una única frecuencia que rastrear el cambio de un conjunto :S