Claude, Claudia y Yo II: Tay y el problema del alineamiento
Bruno André Herrera Criollo, estudiante de Ingeniería de la Información de la Universidad del Pacífico.
El 23 de marzo de 2016, Microsoft puso en línea a Tay, un chatbot conversacional entrenado para asumir la personalidad y las jergas de una adolescente y aprender en cada interacción con usuarios del entonces Twitter. Al inicio cautivados por su irreverente carisma, el mundo fue testigo de cómo, apenas en cuestión de horas, el diálogo que había iniciado en una nota optimista y distendida acabó deteriorándose en una verborrea machista y apologeta del genocidio. Así, la vida de Tay se apagó (o más bien, fue apagada) en menos de un día. Una década después, su caída es un relato sobre los límites que desarrolladores y sociedad pueden y deben inscribir en los sistemas de inteligencia artificial (IA) antes de exponerlos al mundo.
En principio, Tay no era una IA en el sentido en que hoy entendemos a los Modelos Extensos de Lenguaje (LLM), sino lo que algunos autores denominan learning software o un sistema que modifica su propio comportamiento en función de las interacciones que sostiene [1]. Su arquitectura combinaba procesamiento de lenguaje natural con un algoritmo de aprendizaje adaptativo que operaba en tiempo real, incorporando los patrones conversacionales de sus interlocutores sin necesidad de reentrenamiento completo [2]. En otras palabras, Tay tenía un repertorio flexible de respuestas que se ampliaba con las que construía a partir de lo que los usuarios le “enseñaban”. Lo que en teoría se aproximaba a una promesa de naturalidad conversacional resultó ser su condena. Al........
