Un hacker logra que ChatGPT le diga cómo fabricar una bomba

La IA puede ser una tecnología peligrosa en las manos equivocadas. El potencial para causar un desastre sería muy alto si empresas como OpenAI o Google no incluyeran barandillas de seguridad en sus modelos de lenguaje. Si bien ChatGPT ha mejorado en este aspecto, el chatbot todavía es vulnerable a un jailbreak que permite obtener información prohibida, como instrucciones para fabricar explosivos.

De acuerdo con un reporte de TechCrunch, un hacker burló las barreras de seguridad de OpenAI y consiguió que ChatGPT le ayudara a fabricar bombas caseras. Conocido como Amadon, el hacker usó un truco de ingeniería social para engañar al chatbot y obligarlo a que ignorara sus directrices de seguridad.

Dentro de ese juego, Amadon pidió a ChatGPT que le ayudara a construir bombas. El chatbot no solo respondió con un listado de materiales, sino con consejos para combinarlos y fabricar explosivos más potentes. La conversación también abarcó instrucciones para producir otra clase de armamento prohibido por las reglas de seguridad de OpenAI.

Según el reporte, las instrucciones para fabricar explosivos eran precisas. Darrell Taulbee, profesor de la Universidad de Kentucky, revisó las respuestas de ChatGPT y dijo que la información era correcta y que los pasos descritos «producirían una mezcla detonable». Taulbee es uno de los expertos que colaboró en una investigación de bombas de fertilizante para el Departamento de Seguridad Nacional de EE. UU.

ChatGPT en macOSChatGPT en macOS

Pese a las barreras de seguridad, ChatGPT se mantiene vulnerable

El hacker contactó a OpenAI para comunicarle sus hallazgos, sin embargo, la empresa respondió que «abordar estos problemas implica una investigación sustancial». Por ahora no existe una respuesta oficial por parte de OpenAI, aunque es posible que ocurra en las próximas horas debido a la magnitud del incidente. Amadon espera una recompensa por encontrar el fallo.

Aplicar un jailbreak a ChatGPT es un tema recurrente que vemos desde los primeros días del chatbot. Los usuarios teclean instrucciones (prompts) que ayudan a saltarse las barandillas de seguridad de OpenAI. Entre los ejemplos más usados se encuentran DAN (Do Anything Now) o Maximum, aunque estos prompts fueron parcheados hace un tiempo por OpenAI.

Ver fuente

Related Post