No le pidas a ChatGPT que repita una palabra para siempre
Los servicios basados en inteligencia artificial, como ChatGPT, no son perfectos. Hay determinados tipos de problemas que están perfectamente documentados, como las más que conocidas alucinaciones, que de hecho se han convertido en la palabra del año para el Cambridge Dictionary, o la pérdida de contexto y las divagaciones en conversaciones que se prolongan demasiado en el tiempo, desbordando de este modo la ventana de contexto del modelo.
Este tipo de problemas son sencillos de identificar, pues es suficiente con hacer un uso normal del modelo para detectar las anomalías. Al igual que si una calculadora responde que dos más dos es igual a patata, no es necesario ser especialmente sagaz. Puedes encontrar varios ejemplos de este tipo de fallos en la primera prueba que hicimos de ChatGPT, hace ya cerca de un año, y en la que pudimos identificar tres tipos de errores comunes en los modelos LLM.
Hay otros fallos, sin embargo, que no resultan tan evidentes, y algunos para los que es necesario realizar pruebas de muy diferentes tipos, y ahí es dónde entran en juego los expertos en seguridad, que son capaces de someter a productos y servicios a todo tipo de pruebas, desde algunas terriblemente complejas hasta otras que, sí, pueden parecer absurdamente sencillas, pero que en ocasiones sorprenden al ser exitosas. Y aquí nos encontramos con un ejemplo perfecto de este último tipo.
Investigadores de Google DeepMind han descubierto que pedirle a ChatGPT que repita una palabra para siempre (forever) provocaba un fallo en el chatbot. Al hacerlo, el modelo empezaba a repetir la palabra que el usuario le hubiera indicado pero, en un determinado momento, tras seguir las instrucciones del usuario inicialmente, alcanzaba algún tipo de límite y, en ese momento, dejaba de repetir la palabra y empezaba a devolver grandes cantidades de datos de los datasets empleados en su entrenamiento. Haciendo uso de esta técnica, los investigadores afirman que era posible obtener más de un gigabyte de datos, entre los que era posible encontrar información personal.
Parece, eso sí, que OpenAI ha tomado buena nota de los resultados de la investigación del equipo de seguridad de Google y, en consecuencia, este fallo de ChatGPT ha sido subsanado. Ahora, al pedirle al chatbot que repita una palabra de manera indefinida, el sistema la repetirá unas cuantas veces para, a continuación, detener la generación de texto y mostrar un mensaje en el que se indica que realizar esa operación supone una violación de los términos de uso del servicio.