El auge de la inteligencia artificial generativa exhibe su punto más álgido en el despliegue de los generadores de video con IA. Ese ámbito cuenta con la participación estelar de los dos gigantes del sector, OpenAI y Google. No estarán solos: ya hemos visto desarrollos prestos a competir con ellos. Lo cierto es que las promesas de esos modelos son tan encantadoras como aterradoras. Y se prevé que la batalla sea sangrienta, tal como vaticina el titular de este repaso.
Para desprevenidos, se trata de sistemas capaces de generar videos a partir de indicaciones por escrito. Por ejemplo, el usuario pide —con texto— un clip que muestre cientos de aviones de papel, de diversos colores, surcando un paisaje boscoso. En un abrir y cerrar de ojos, los nuevos modelos crearán un video que muestre esa escena. Sí, es una tecnología impresionante, que parece salida de un cuento de ciencia ficción. Pero no todo es color de rosas, ya que esas capacidades involucran riesgos que deben ser atendidos. El más relevante y que aglutina al resto: la sofisticación del engaño.
En lo que va del año, OpenAI y Google presentaron sus propios generadores de video con IA, Sora y Veo, respectivamente. Eso sí, no los lanzaron aún y esgrimieron que la espera es necesaria, no solo para pulir el funcionamiento de los sistemas. Además, reconocieron los peligros asociados a su uso y la importancia de tomar todos los recaudos, antes poner estos avances en manos del público general.
Sora de OpenAI, pionero entre los generadores de video con IA
El clip sobre este párrafo fue creado con Sora. OpenAI —organización que consiguió fama mundial cuando lanzó el bot conversacional ChatGPT— asegura que para el video no se usaron grabaciones previas y que tampoco se realizaron ediciones posteriores. Tal como indicamos anteriormente, la magia de la generación se basa, exclusivamente, en las indicaciones por escrito, “prompts” en la jerga de la inteligencia artificial.
Sora, pionero entre los generadores de video con IA, es capaz de crear piezas con alto grado de realismo, animaciones y escenas surrealistas. Las posibilidades son amplísimas, según prometió OpenAI en el comunicado del anuncio. Este sistema es “capaz de generar clips complejos, con múltiples personajes, movimientos específicos y detalles precisos”, señalaron. Además, notaron que “el modelo no solo comprende aquello que el usuario pide, sino también cómo existen las cosas en el mundo físico”.
El clip a continuación es una muestra más de esas bondades. Para el mismo, se usó un prompt relativamente extenso y detallado. “Un diorama meticulosamente elaborado que representa una escena serena del Japón del período Edo. Arquitectura tradicional de madera. Un samurái solitario, vestido con una intrincada armadura, camina lentamente por la ciudad”.
No erramos el tiro al decir que esta tecnología es la evolución de los generadores de imágenes, entre ellos DALL-E, también de OpenAI. Sin dudas, añadir movimiento a las escenas que se describen en un desafío adicional. Para conseguirlo, el modelo ha sido entrenado con grandes volúmenes de información, en este caso una extensa biblioteca de videos debidamente etiquetados. Algunos detalles: Sora crea piezas de hasta 60 segundos de duración, permitiría el agregado de audio, y puede trabajar tanto con clips verticales como horizontales.
Tal como señalamos —y abordaremos con detalle más adelante, en este repaso— el generador de video con IA de OpenAI aún no fue lanzado para el público general. “Tendremos varias medidas de seguridad antes de que esté disponible”, dijeron desde el grupo liderado por Sam Altman. Mientras tanto, en las plataformas oficiales encontramos bellas creaciones con Sora, que en su primerísimo despliegue está en manos de un grupo selecto de usuarios. Son cineastas, expertos en IA y profesionales del sector audiovisual, a los que esta organización apela para recibir retroalimentación y pulir los detalles que sean necesarios antes del lanzamiento.
¿Cuándo se abrirá al público? Aún no se informó una fecha en forma oficial, la líder de tecnología de la firma, Mira Murati, anticipó a The Wall Street Journal que no se demorará más allá del año en curso.
Google también juega en esta liga: estas son las características de Veo
OpenAI se luce con ChatGPT y Google contraatacó con Bard, su propio chatbot que ahora se llama Gemini. Los de Altman anunciaron a Sora, y los dirigidos por Sundar Pichai apuraron sus maquinarias para mostrar al mundo a Veo, el generador de videos con IA que sale a competir en un ámbito en el que, sin dudas, veremos muchísima acción. El modelo fue anunciado en mayo, en el marco de las conferencias para desarrolladores, Google I/O 2024.
Las capacidades de Veo son similares a las de Sora. Igual que aquel, crea clips audiovisuales partiendo de instrucciones por escrito. Por ejemplo, para el video en esta sección se usó el siguiente prompt. “Muchas medusas manchadas moviéndose bajo el agua. Sus cuerpos son transparentes y brillan en las profundidades del océano”. El resultado es encantador, igual que otros tantos que publica la compañía estadounidense en el anuncio del sistema.
Según Google, su generador de videos con IA crea contenido de alta calidad, con resolución de 1080p. Además, presumieron que los clips pueden durar más de 1 minuto, diferenciándose en este punto de las promesas de OpenAI, que habló de piezas de “hasta 60 segundos”. Por lo demás, Veo se destaca por comprender y trabajar con una variedad de estilos visuales y efectos cinematográficos. En ese sentido, los usuarios pueden indicar en sus prompts si desean, por ejemplo, que se realice una toma aérea o que se muestre una escena en cámara rápida. También se las arregla para crear escenas surrealistas, como la que protagoniza un elefante gigante de cuerpo tejido con hilo.
De acuerdo a la empresa detrás de Gemini, el generador de videos “comprende los matices del lenguaje natural” y también “capta los matices con precisión, además del tono de una frase”. Por otra parte, Veo es capaz de generar clips con movimiento a partir de una imagen, que funciona como dato de entrada. A continuación, un ejemplo. La imagen estática de las alpacas puede ser convertida en un video, con el prompt adecuado.


Igual que OpenAI, Google tiene previsto incluir una serie de medidas de seguridad para apaciguar las problemáticas vinculadas a los generadores de video con IA. Para Veo también hay que esperar, aunque la firma con sede central en Mountain View, California, prometió que cuando de lance estará disponible para algunos de sus servicios, incluyendo los Shorts de YouTube.
¿Cuáles son los riesgos que derivan del uso de los generadores de video con IA?
Los generadores de video con IA son, ahora, el sumun de los modelos de inteligencia artificial generativa. Lo hemos dicho: reúnen sus encantos, primordialmente, la absoluta dinamización en el proceso creativo. Por lo demás, también condensan los problemas, peligros y temores en torno al uso de esta tecnología en plena evolución.
A continuación, enumeramos una serie de riegos que atañen especialmente a modelos como OpenAI Sora y Google Veo:
- Falsificaciones, demasiado creíbles: Los resultados de los generadores de imágenes como DALL-E y Midjourney ya condujeron a confusiones de gran alcance. Una, entre las tantas: circuló una foto que mostraba al Papa Francisco vistiendo una larga campera blanca. Muchos creyeron que era una escena auténtica, cuando en realidad había sido creada con IA. Con los generadores de video, esta problemática se maximiza. Las creaciones de Sora, Veo y afines ya son creíbles; ¿qué pasará cuando sus prestaciones mejoren aún más y no seamos capaces de distinguir a los contenidos sintéticos?
- Noticias falsas y difamación: Del punto anterior, se desprenden dos consecuencias que deben ser atendidas. Por un lado, los generadores de video con IA propiciarían la divulgación de noticias falsas, con los riesgos ya conocidos, especialmente en asuntos vinculados a la salud y a la política. Por el otro, las difamaciones. Las imágenes estáticas que son trucadas ya se emplean con ese fin y la capacidad de generar videos tan creíbles no hace más que profundizar esa problemática.
- Desplazamiento en el mundo laboral: ¿Qué pensarán los cineastas, los diseñadores y artistas gráficos, editores de video y profesionales que se mueven ese mundillo, sobre el avance de ingenios sofisticados como Sora y Veo? Más allá de los testimonios que recogen OpenAI y Google —siempre condescendientes— es evidente que estos sistemas generan un temor ya conocido en el ámbito de la inteligencia artificial. El miedo al que nos referimos —¿las máquinas se quedarán con nuestros trabajos?— tiene aristas lógicas y otras un tanto irracionales.
- Violaciones a la propiedad intelectual: Otra variable candente en el ámbito de la inteligencia artificial. En concreto, el problema radica en el material que se emplea para entrenar a los modelos. En el caso de Sora y Veo, los videos que sirvieron para la capacitación.
¿Qué proponen OpenAI y Google para mitigar los riesgos?
Tal como señalamos, en este momento no es posible echar mano a Sora. Lo mismo ocurre con Veo. Sendas organizaciones estadounidenses decidieron mostrar los encantos de sus generadores de video con IA, inflar la expectativa, aunque sin ofrecerlo a los usuarios finales. Las respectivas explicaciones coincidieron: es necesario pulir los modelos para achicar sus márgenes más problemáticos.
“Compartimos el progreso de nuestra investigación desde el principio para empezar a trabajar y recibir comentarios. (De esta forma) brindamos al público una idea de las capacidades de IA que hay en el horizonte”, dijeron desde OpenAI cuando presentaron a Soria en sociedad. Entre el anuncio y el lanzamiento hay correcciones, a toda máquina. Por un lado, señalaron que el modelo actual aún presenta inconsistencias. Por ejemplo, en el video de los aviones de papel vemos que en ocasiones se superponen entre ellos, de un modo que no ocurriría en el mundo real.
Luego, están los riesgos. En este punto, los creadores de Sora —que ya recogen experiencia con ChatGPT y DALL-E— prometen medidas. “Trabajamos con expertos en áreas como desinformación, contenido de odio y prejuicios, que probarán el modelo de manera inversa”, comentaron. “También estamos desarrollando soluciones para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video”, indicaron en relación a un sistema que introducirá una especie de marca que delate el carácter sintético. “Además, el clasificador de texto rechazará las solicitudes de ingreso de texto que infrinjan las políticas de uso, por ejemplo las que incluyen violencia extrema, contenido sexual, imágenes de odio, de celebridades o la propiedad intelectual de terceros”, agregaron.
Google también prometió responsabilidad y ha dicho que los videos creados con Veo tendrá una marca de agua creada con SynthID, un sistema creado por su división especializada en inteligencia artificial, DeepMind.
Generadores de video con IA: Sora y Veo no estarán solos
En este terreno específico hay programas previos a las propuestas de OpenAI y Google. Algunos de ellos son Runway y Pika, aunque sus capacidades son bastante inferiores.
A fines de abril, un competidor serio para los generadores de video con IA ahora conocidos emergió desde China. El modelo en cuestión lleva por nombre Vidu y tiene capacidades similares a las de Sora y Veo. Se trata de un desarrollo de la empresa de aquel país, Sengsgu Technology, que en el proyecto colaboró con un equipo de especialistas de la Universidad de Tsinghua, también en el gigante de Asia.
Los videos generados con Vidu mostraron un apreciable nivel de calidad. El sistema trabaja del modo que ya conocemos: reciben indicaciones por escrito y genera clips que siguen esas instrucciones. Eso sí: a diferencia de las propuestas que hemos visto aquí, sus creaciones no superan los 16 segundos de duración. Los propios integrantes de la iniciativa reconocieron inspiración en Sora, según comentaron en diálogo con la publicación Global Times.
La proliferación de generadores de video con IA es, sin dudas, la ratificación de un proceso evolutivo en el campo de la inteligencia artificial generativa. ¿Quién imaginó, pocos años atrás, que con simples instrucciones por escrito sería posible crear un video de calidad? Por lo demás, como hemos visto, hay una serie de riesgos de relevancia asociados a estas tecnologías. Por eso —ya conocidos los encantos, pues es eso lo que nos han mostrado hasta ahora— restará esperar a los lanzamientos. Recién entonces, iniciará realmente esta batalla sangrienta, en la que los gigantes tecnológicos exhibirán sus musculaturas. Pero no solo deberán mostrar fuerza: también tendrán que ser hábiles para cumplir con las promesas de seguridad, evitando que estos grandísimos avances resulten nocivos.