A ver, no quiero engañaros, espeak no es ninguna maravilla todas, y digo todas las opciones, configuraciones y voces suenan muy robóticas, es la típica voz robótica ochenterea.
He escuchado MBrola y la calidad es clavadita, nada mejor podría afirmar y para colmo no es opensource así que no podriamos hacerla multiplataforma.
En general todos los sistemas de sintetización de voz en la actualidad están muy verdes.
A ver, lo mejor que he escucado en español a Jorge de loquendo y a Rosa de at&t labs (ambos de pago). Pero estos hacen el truco de tener todos los fonemas y sílabas digitalizadas en una base de datos por lo que ocupan considerablemente mucho y aún así la unión silábica no está muy conseguida. De esta forma quizás en un futuro donde tengamos terabytes podramos tener un text to speech donde tengamos palabras y oraciones completamente digitalizadas en una base de datos y aún así habría problemas de conexión de palabras

.
Asi que como conclusión para juegos lo suyo es grabar tu voz con las frases de tu personaje y distorsonarlas un poco, queda mucho mejor, a donde va a parar.
El tts no sirve más allá de animar a un ordenador o robot, para protagonistas y enemigos el efecto que causará será el de risas y carcajadas

.