peligros y beneficios de estos ‘deepfakes’

Los modelos de inteligencia artificial generativa —capacitados para crear sin la asistencia directa del usuario— ofrecen beneficios evidentes. Incluso los enemigos más acérrimos de la automatización deberían admitir que la nueva IA tiene sus encantos y virtudes. En paralelo, hay que decir que esos avances profundizaron riesgos en la escena digital, entre ellos la dificultad de reconocer la legitimidad del contenido. Las falsificaciones de audio, una de las variantes de los deepfakes, son una muestra locuaz de esa problemática.

Básicamente, son voces que se emulan mediante programas especializados, con resultados altamente realistas. Una primera aproximación al formato exhibe un aspecto que, a priori, resulta paradójico. Ocurre que estos fakes contienen menos estímulos en comparación con las imágenes y los videos generados con herramientas de inteligencia artificial. Pero esa austeridad los vuelve más peligrosos. Tiene lógica: con menos información, identificar la trampa se vuelve más complejo.

En esta nota de Hipertextual analizaremos con minucia las falsificaciones de audio. Para ello, examinaremos las diferencias con aquellos deepfakes que añaden elementos visuales, es decir, las fotos y los videos trucados con IA. Además, repasaremos casos célebres que preocupan por su potencial para la dispersión de desinformación, para difamar a terceros y ejecutar ataques informáticos. Por último, nos detendremos en los usos provechosos del formato, amén del estigma que pesa sobre las falsificaciones.

Falsificaciones de audio: ¿el engaño es más efectivo cuando es austero?

falsificaciones de audiofalsificaciones de audio
Las falsificaciones de audio, una problemática con consecuencias no deseadas. (Crédito: Pexels/Seej Nguyen)

Veamos dos ejemplos que servirán para comprender más cabalmente la compleja relación entre engaño y la variedad de formatos de deepfakes. Por un lado, circuló en enero una falsificación de audio que emulaba la voz del presidente de Estados Unidos, Joe Biden. La grabación —que se esparció través de llamadas telefónicas— intentó confundir a los ciudadanos de New Hampshire para que no concurran a las urnas en las elecciones primarias, de cara a los comicios de noviembre. En tal contexto, las autoridades pidieron a los votantes que “ignoren por completo el contenido de ese mensaje”, que fue generado por un software, según informó Asociated Press.

Otro caso reciente y problemático tuvo como protagonista a una de las grandes estrellas de la música estadounidense. ¿Qué ocurrió? Hace algunas semanas, en redes sociales aparecieron numerosas imágenes de Taylor Swift desnuda. En verdad, no eran fotografías legítimas sino adulteraciones con ardides digitales. A tal nivel escaló el hecho, que X (Twitter) canceló temporalmente las búsquedas con el nombre de la creadora de The Eras Tour, con el propósito de frenar la difamación.

Revisados estos deepfakes en las noticias recientes, retomemos el análisis. ¿Acaso las falsificaciones de audio son más convincentes que aquellas que añaden información visual? Es posible, aunque la respuesta no es definitiva. En un video, por ejemplo, en ocasiones se advierten retoques y “costuras”. También movimientos que parecen poco naturales y que, así, alertan a los usuarios más atentos. En cambio, el menor volumen de estímulos en las falsificaciones de audio podría ser una variable que favorezca al engaño. Y cada vez hay más sistemas que son eficaces para crearlos. En ese ámbito encontramos a empresas como Meta, ByteDance —dueña de TikTok— y OpenAI, que ya tienen sus propios programas para clonar voces. Si bien ellos se muestran entusiasmo por esos avances, también reconocen los riesgos.

Los gigantes de la tecnología también clonan voces: el caso de OpenAI

falsificaciones de audiofalsificaciones de audio
OpenAI, la organización detrás de ChatGPT, tiene su propio clonador de voces: Voice Engine.

A comienzos de abril, la organización detrás de ChatGPT dio a conocer detalles de Voice Engine. Se trata de una IA que clona voces con muestras de apenas 15 segundos. En otras palabras, genera audio sintético con una cantidad mínima de datos para su entrenamiento. Si nos enfocásemos en los temores, más que en los encantos, estaríamos realmente aterrados. Imagina que un atacante copia tu forma de hablar para luego enviar mensajes de audio a tus contactos a través de WhatsApp.

Desde OpenAI dijeron que Voice Engine es capaz de crear voces “emotivas y realistas”. Ahora bien, ¿por qué no está disponible, siendo que es tan eficiente y que, además, es un desarrollo que iniciaron en 2022? Otra paradoja, solo aparente: funciona tan bien, que es peligroso. Por eso, en este momento el grupo que dirige Sam Altman solo lo ofrece para un número reducido de probadores. Y prohíben suplantar la voz de personas reales, o de personajes, sin los derechos legales correspondientes.

En un comunicado de presentación, OpenAI reconoció que su tecnología para clonar voces tiene “graves riesgos, que son especialmente importantes en un año electoral”. En tanto, señalaron que trabajan junto a expertos estadounidenses e internacionales para minimizar los riesgos del modelo.

Gigantes de la tecnología trabajan en sus propios clonadores de voz. (Foto: Pexels/CoWomen)

La atención puesta en las falsificaciones de audio es grande. Por los avances en ese campo y, como hemos observado, también por los riegos implícitos. Además, OpenAI no es el único pez gordo del océano tecnológico que trabaja en modelos de esa especie. A comienzos del año en curso, ByteDance reveló detalles de StreamVoice, su propio clonador de voces creado junto a investigadores de la Northwestern Polytechnical University, un instituto público chino dedicado a la ciencia y la ingeniería.

Ver fuente

Related Post