Meta presentó Voicebox, un nuevo modelo de inteligencia artificial (IA) con capacidad para realizar tareas de generación del lenguaje, incluso aquellas para las que no ha sido entrenado con un aprendizaje contextualizado.
Voicebox es el primer paso para una herramienta que pueda dotar de voz natural a los asistentes virtuales y a los personajes no jugables del metaverso, pero también para ayudar a las personas invidentes a oír los mensajes que reciben.
La compañía tecnológica considera que se trata de “un gran avance” en la IA generativa para lenguaje, dado que este modelo puede realizar tareas como editar, crear muestras y estilizar, e incluso aquellas para las que no fue entrenado específicamente mediante aprendizaje contextualizado.
Voicebox puede producir clips de audio de alta calidad a partir de una muestra de dos segundos, y editar audio pregrabado para recuperar en él la voz entrecortada por un ruido ambiente, como el ladrido de un perro.
Meta también destacó que se trata de un modelo multilingüe, lo que permite la producción de voz en seis idiomas (inglés, francés, alemán, español, polaco o portugués), según recoge en su blog oficial.
Para el entrenamiento Voicebox, los investigadores de Meta emplearon más de 50.000 horas de grabaciones de audio y transcripciones procedentes de audiolibros de dominio gratuito en los seis idiomas mencionados.