Doom cambió la historia de los videojuegos tras su lanzamiento en 1993 y se convirtió en uno de los títulos más venerados por los fanáticos. Su capacidad de ejecutarse en los dispositivos más insólitos le ha permitido ser noticia en infinidad de ocasiones a lo largo de su historia, y ahora ha vuelto al centro de la escena gracias a GameNGen, una IA generativa que puede simularlo en tiempo real.
Investigadores de Google Research, Google DeepMind y la Universidad de Tel Aviv fueron los encargados de crear esta peculiar tecnología. Los autores del trabajo definen a GameNGen como «el primer motor de juego impulsado completamente por un modelo neuronal que permite la interacción en tiempo real con un entorno complejo a lo largo de largas trayectorias con alta calidad».
¿Esto qué significa? En términos sencillos, que han desarrollado una versión jugable de Doom cuyos niveles y partidas se crean en tiempo real usando IA generativa. Los resultados son verdaderamente sorprendentes, a tal punto que a primera vista es imposible distinguir qué vídeos corresponden al gameplay del juego original de id Software, y cuáles corresponden a GameNGen.
La inteligencia artificial puede simular Doom a más de 20 cuadros por segundo usando una sola unidad de procesamiento tensorial (TPU). Lo que hace esta tecnología es crear cada fotograma de la partida en tiempo real, prediciendo el siguiente frame con una Proporción Máxima de Señal a Ruido (PSNR, por sus siglas en inglés) de 29,4. Los expertos indican que esto es comparable con lo que se consigue con la compresión con pérdida JPEG.
GameNGen, la IA generativa que simula Doom en tiempo real
Lo más espectacular de GameNGen es que, como ya dijimos, no se limita a generar una demo en vídeo de Doom, sino que permite jugarlo. Claro que esta no es la primera vez que se aplica la inteligencia artificial en ámbitos vinculados con el desarrollo de videojuegos. Como bien explica Ars Technica, el renderizado neuronal y la creación o simulación de mundos se estudian desde hace tiempo.
Sin embargo, lo que aquí llama especialmente la atención es que el trabajo de los investigadores de Google y la Universidad de Tel Aviv usa como punto de partida una IA bastante conocida en el segmento de la generación de imágenes: Stable Diffusion.
Para crear GameNGen, los autores del proyecto entrenaron un agente de aprendizaje por refuerzo para que pudiera jugar Doom y grabaron sus partidas. Luego utilizaron ese material para adiestrar un modelo de inteligencia artificial basado en Stable Diffusion 1.4, que es el que se encarga de predecir los siguientes fotogramas durante una sesión de juego.
Una tecnología prometedora
Uno de los problemas que afrontaron los expertos fue cómo preservar la estabilidad visual durante períodos de tiempo extensos. Para ello optaron por introducir ruido gaussiano en los fotogramas del material usado para entrenar la IA, y le enseñaron cómo corregirlo.
Los desarrolladores indicaron que la predicción de fotogramas no es perfecta y que existen imprecisiones visibles al lidiar con detalles pequeños. Esto se aprecia principalmente en la barra inferior de la interfaz de Doom, donde se contabilizan las municiones, la salud, etc.
Aun así, los creadores de esta IA generativa han logrado resultados notorios. De hecho, cuando GameNGen se presenta en clips breves, es bastante difícil reconocer si es una simulación de Doom o el juego real. Así se explica en el paper de los investigadores:
«Como otra medida de la calidad de la simulación, proporcionamos a 10 evaluadores humanos 130 clips cortos aleatorios, de [entre] 1,6 segundos y 3,2 segundos de duración, de nuestra simulación junto con el juego real. Los evaluadores tenían la tarea de reconocer el juego real. Los evaluadores solo eligieron el juego real en lugar de la simulación en el 58 % o el 60 % de las ocasiones [según la duración]».
Habrá que ver cómo evoluciona esta tecnología y si se la puede aplicar en el desarrollo de nuevos juegos. Si bien GameNGen puede simular Doom en tiempo real con resultados espectaculares, tiene lógica pensar que no sea tan sencillo implementarlo en una escala mayor. No solo porque podría no disponer de tanto material de entrenamiento, sino porque seguramente requeriría de un poder de cómputo imposible de costear.