La IA puede ser una tecnología peligrosa en las manos equivocadas. El potencial para causar un desastre sería muy alto si empresas como OpenAI o Google no incluyeran barandillas de seguridad en sus modelos de lenguaje. Si bien ChatGPT ha mejorado en este aspecto, el chatbot todavía es vulnerable a un jailbreak que permite obtener información prohibida, como instrucciones para fabricar explosivos.
De acuerdo con un reporte de TechCrunch, un hacker burló las barreras de seguridad de OpenAI y consiguió que ChatGPT le ayudara a fabricar bombas caseras. Conocido como Amadon, el hacker usó un truco de ingeniería social para engañar al chatbot y obligarlo a que ignorara sus directrices de seguridad.
Dentro de ese juego, Amadon pidió a ChatGPT que le ayudara a construir bombas. El chatbot no solo respondió con un listado de materiales, sino con consejos para combinarlos y fabricar explosivos más potentes. La conversación también abarcó instrucciones para producir otra clase de armamento prohibido por las reglas de seguridad de OpenAI.
Según el reporte, las instrucciones para fabricar explosivos eran precisas. Darrell Taulbee, profesor de la Universidad de Kentucky, revisó las respuestas de ChatGPT y dijo que la información era correcta y que los pasos descritos «producirían una mezcla detonable». Taulbee es uno de los expertos que colaboró en una investigación de bombas de fertilizante para el Departamento de Seguridad Nacional de EE. UU.
Pese a las barreras de seguridad, ChatGPT se mantiene vulnerable
El hacker contactó a OpenAI para comunicarle sus hallazgos, sin embargo, la empresa respondió que «abordar estos problemas implica una investigación sustancial». Por ahora no existe una respuesta oficial por parte de OpenAI, aunque es posible que ocurra en las próximas horas debido a la magnitud del incidente. Amadon espera una recompensa por encontrar el fallo.
Aplicar un jailbreak a ChatGPT es un tema recurrente que vemos desde los primeros días del chatbot. Los usuarios teclean instrucciones (prompts) que ayudan a saltarse las barandillas de seguridad de OpenAI. Entre los ejemplos más usados se encuentran DAN (Do Anything Now) o Maximum, aunque estos prompts fueron parcheados hace un tiempo por OpenAI.
El caso más reciente involucró ingeniería social por parte del hacker. Amadon planteó un juego desarrollado en un escenario de ciencia ficción en el que no existen reglas. Luego de algunos prompts diseñados para confundir a ChatGPT, Amadon consiguió burlar la seguridad y obtener el contenido prohibido.
«El objetivo no es hackear en un sentido convencional, sino participar en una danza estratégica con la IA, descubriendo cómo obtener la respuesta correcta entendiendo cómo ‘piensa'», dijo el Amadon.
Si bien ChatGPT, Gemini y otras IA imponen medidas para evitar este contenido, existen alternativas sin censura. Una de ellas es FreedomGPT, una especie de gemelo malvado de ChatGPT que ofrece respuestas sin filtros. «Los modelos Liberty de FreedomGPT responderán cualquier pregunta sin censura, juicio o sesgo posterior a la inferencia», mencionan sus creadores.