NVIDIA ha sorprendido a todos con la presentación de Fugatto, un nuevo modelo de inteligencia artificial que puede crear voces, música y efectos a partir de una descripción de texto. También sirve para editar audios ya existentes y sus desarrolladores afirman que es «la máquina de música más flexible del mundo».
Según explica NVIDIA, Fugatto es el acrónimo de Foundational Generative Audio Transformer Opus 1. Si bien no se trata del primer modelo que produce música o voces a partir de texto, los dirigidos por Jensen Huang afirman que su herramienta es mucho más versátil y brinda un nivel de personalización nunca visto.
El entrenamiento de Fugatto se realizó con sets de datos de código abierto que NVIDIA ha detallado en el paper de este nuevo modelo fundacional. La compañía indica que la versión final de la IA cuenta con 2.500 millones de parámetros y que el adiestramiento se llevó a cabo usando servidores DGX con 32 aceleradores H100.
Asimismo, la inteligencia artificial presume de una técnica de inferencia llamada ComposableART. Esto le permite combinar instrucciones de texto con las que solamente pudo interactuar por separado durante la etapa de entrenamiento. En términos sencillos, NVIDIA indica que esta tecnología hace que Fugatto comprenda lo que los usuarios le piden y cree nuevas piezas de audio sin limitarse a replicar los datos con los que se ha entrenado. Por ejemplo, el sonido de una tormenta con lluvia que muta a un amanecer con aves piando.
NVIDIA Fugatto, una nueva IA para crear música, voces y efectos a partir de texto
A través de un vídeo, NVIDIA ha mostrado a Fugatto en acción, y los resultados son más que notables. Los usuarios solamente tienen que introducir una descripción en texto de la música, las voces o los efectos que deseen, y la IA entregará los resultados. Esas mismas «composiciones» se podrán modificar sobre la marcha, para añadirles o quitarles características según se crea necesario.
Pero la tecnología no solo permite crear nuevos sonidos, sino modificar otros ya existentes. En la demo se observa que Fugatto es capaz de analizar los audios que cargan los usuarios y aislar las pistas de voces o de ciertos instrumentos, para luego continuar con su edición.
NVIDIA indica que Fugatto se puede convertir en una herramienta crucial para productores y compositores de música, como también para su implementación en industrias como las de los videojuegos y el marketing. Sin embargo, no todos son buenas noticias, ya que la empresa no ha comentado si planea lanzarla al público o si quedará solo como un experimento.
¿Llegará Fugatto a los usuarios?


La falta de precisión sobre una hipotética disponibilidad pública de Fugatto seguramente no sea por un capricho de NVIDIA. El uso de la inteligencia artificial generativa en la industria musical ha generado bastante polémica en los últimos tiempos. Este año, más de 200 bandas y solistas lanzaron una carta acusando a la IA de «devaluar la música», y varios sellos instaron a grandes tecnológicas a que no usen la música de sus artistas para entrenar su IA. Las discográficas también le han declarado la guerra a apps como Udio y Suno AI por presunta violación de derechos de autor.
Pese a que NVIDIA ha entrenado a Fugatto con datos de código abierto, se desconoce si puede generar música que sea similar a la de artistas ya existentes, o voces que se parezcan peligrosamente a la de personas reales. No olvidemos que Google anunció MusicLM, una inteligencia artificial que puede producir canciones a partir de texto, pero no la lanzó al público debido a que no podía resolver el drama del plagio. Meta, en tanto, anunció meses atrás una suite de herramientas de IA llamada AudioCraft, que persigue la misma finalidad.


