Casos de éxito
Elhuyarren TTS neuronala
:
El TTS neuronal de Elhuyar es un sistema que convierte el texto en voz y utiliza para ello la tecnología de Orai. El habla automática de Elhuyar se genera mediante tecnología basada en inteligencia artificial.
Elhuyarren TTS neuronala :

Descripción general
El TTS neuronal de Elhuyar es un sistema que convierte el texto en voz y utiliza para ello la tecnología de Orai. El habla automática de Elhuyar se genera mediante tecnología basada en inteligencia artificial.
Además de poner sus propias voces TTS a disposición de la sociedad, Elhuyar ofrece también la posibilidad de crear voces personalizadas. Pueden crearse en seis idiomas, lo que permite a los usuarios convertir en voz automáticamente tanto un contenido concreto como textos sueltos. Además, esta voz personalizada puede utilizarse para generar una conversación en cualquiera de los seis idiomas, aunque las grabaciones para generarla se hagan en otro idioma. Aunque el sistema TTS no esté específicamente entrenado para una voz determinada, es posible también generar una conversación que imite la voz de una pequeña muestra. Existen varias opciones para utilizar las voces TTS: A través de la ventana del sitio web ttsneuronala.elhuyar.eus, tanto insertando la barra lectora en la web como mediante integraciones de API REST.
Reto
Los modernos sistemas de síntesis del habla (TTS) tienen ante sí grandes retos a medida que avanzan tanto en complejidad como en aptitudes. La clonación de la voz requiere un elevado nivel de fidelidad y expresividad con unos datos de entrenamiento mínimos. El TTS zero-shot tiene como objetivo la síntesis de una voz nueva sin entrenamiento explícito, manteniendo incluso la prosodia natural y la imitación de la voz de los hablantes. El TTS multilingüe añade una capa más de complejidad, ya que requiere una pronunciación y entonación rigurosas en varias lenguas, teniendo en cuenta además que a menudo se cuenta con un número de datos multilingües muy limitado por hablante. Dichas capacidades deben equilibrarse con eficiencia computacional y rendimiento en tiempo real.
Cooperación
Las herramientas de Elhuyar basadas en inteligencia artificial y redes neuronales se valen de la tecnología punta desarrollada por Orai, y se actualizan constantemente.
Resultado
El TTS neuronal permite generar en seis idiomas voces personalizadas que parecen reales, insertar una barra lectora en los sitios web e integrar voces sintéticas en las aplicaciones a través de API.
Imágenes del proyecto
