Pasar al contenido principal

Casos de éxito

Elhuyarren TTS neuronala :

Elhuyarren TTS neuronala
El TTS neuronal de Elhuyar es un sistema que convierte el texto en voz y utiliza para ello la tecnología de Orai. El habla automática de Elhuyar se genera mediante tecnología basada en inteligencia artificial.

Descripción general

El TTS neuronal de Elhuyar es un sistema que convierte el texto en voz y utiliza para ello la tecnología de Orai. El habla automática de Elhuyar se genera mediante tecnología basada en inteligencia artificial.

Además de poner sus propias voces TTS a disposición de la sociedad, Elhuyar ofrece también la posibilidad de crear voces personalizadas. Pueden crearse en seis idiomas, lo que permite a los usuarios convertir en voz automáticamente tanto un contenido concreto como textos sueltos. Además, esta voz personalizada puede utilizarse para generar una conversación en cualquiera de los seis idiomas, aunque las grabaciones para generarla se hagan en otro idioma. Aunque el sistema TTS no esté específicamente entrenado para una voz determinada, es posible también generar una conversación que imite la voz de una pequeña muestra. Existen varias opciones para utilizar las voces TTS: A través de la ventana del sitio web ttsneuronala.elhuyar.eus, tanto insertando la barra lectora en la web como mediante integraciones de API REST.

Reto

Los modernos sistemas de síntesis del habla (TTS) tienen ante sí grandes retos a medida que avanzan tanto en complejidad como en aptitudes. La clonación de la voz requiere un elevado nivel de fidelidad y expresividad con unos datos de entrenamiento mínimos. El TTS zero-shot tiene como objetivo la síntesis de una voz nueva sin entrenamiento explícito, manteniendo incluso la prosodia natural y la imitación de la voz de los hablantes. El TTS multilingüe añade una capa más de complejidad, ya que requiere una pronunciación y entonación rigurosas en varias lenguas, teniendo en cuenta además que a menudo se cuenta con un número de datos multilingües muy limitado por hablante. Dichas capacidades deben equilibrarse con eficiencia computacional y rendimiento en tiempo real.

Cooperación

Las herramientas de Elhuyar basadas en inteligencia artificial y redes neuronales se valen de la tecnología punta desarrollada por Orai, y se actualizan constantemente.

Resultado

El TTS neuronal permite generar en seis idiomas voces personalizadas que parecen reales, insertar una barra lectora en los sitios web e integrar voces sintéticas en las aplicaciones a través de API.

Imágenes del proyecto

Elhuyar TTS neuronala