NVIDIA Fugatto, una nueva IA para crear música y voces con texto

NVIDIA ha sorprendido a todos con la presentación de Fugatto, un nuevo modelo de inteligencia artificial que puede crear voces, música y efectos a partir de una descripción de texto. También sirve para editar audios ya existentes y sus desarrolladores afirman que es «la máquina de música más flexible del mundo».

Según explica NVIDIA, Fugatto es el acrónimo de Foundational Generative Audio Transformer Opus 1. Si bien no se trata del primer modelo que produce música o voces a partir de texto, los dirigidos por Jensen Huang afirman que su herramienta es mucho más versátil y brinda un nivel de personalización nunca visto.

El entrenamiento de Fugatto se realizó con sets de datos de código abierto que NVIDIA ha detallado en el paper de este nuevo modelo fundacional. La compañía indica que la versión final de la IA cuenta con 2.500 millones de parámetros y que el adiestramiento se llevó a cabo usando servidores DGX con 32 aceleradores H100.

Asimismo, la inteligencia artificial presume de una técnica de inferencia llamada ComposableART. Esto le permite combinar instrucciones de texto con las que solamente pudo interactuar por separado durante la etapa de entrenamiento. En términos sencillos, NVIDIA indica que esta tecnología hace que Fugatto comprenda lo que los usuarios le piden y cree nuevas piezas de audio sin limitarse a replicar los datos con los que se ha entrenado. Por ejemplo, el sonido de una tormenta con lluvia que muta a un amanecer con aves piando.

NVIDIA Fugatto, una nueva IA para crear música, voces y efectos a partir de texto

YouTube videoYouTube video

A través de un vídeo, NVIDIA ha mostrado a Fugatto en acción, y los resultados son más que notables. Los usuarios solamente tienen que introducir una descripción en texto de la música, las voces o los efectos que deseen, y la IA entregará los resultados. Esas mismas «composiciones» se podrán modificar sobre la marcha, para añadirles o quitarles características según se crea necesario.

Pero la tecnología no solo permite crear nuevos sonidos, sino modificar otros ya existentes. En la demo se observa que Fugatto es capaz de analizar los audios que cargan los usuarios y aislar las pistas de voces o de ciertos instrumentos, para luego continuar con su edición.

Ver fuente

Related Post