Señor, hay un goblin en mi LLM: el fine-tuning y sus efectos mariposa

Rubén Castillo Sánchez

En un reciente análisis interno, OpenAI documentó un patrón de comportamiento inusual que se volvió difícil de ignorar una vez observado: el modelo había desarrollado una tendencia a mencionar goblins, gremlins y criaturas similares en contextos donde no aportaban ningún valor. Lo que inicialmente parecía una curiosidad anecdótica se volvió medible con el tiempo, con un claro aumento tanto en frecuencia como en consistencia.
A simple vista, esto parece un pequeño fallo estilístico. En la práctica, ofrece una perspectiva útil para examinar cómo se llevan a cabo las etapas finales del entrenamiento de los modelos de lenguaje modernos y qué implicaciones pueden tener esas etapas en el comportamiento observable.
De la observación al patrón
Los primeros indicios no apuntaban a aleatoriedad. Criaturas mágicas comenzaron a “avistarse” en distintos prompts, dominios y casos de uso, sin estar ligadas a palabras clave específicas ni a desencadenantes claramente identificables. Con el tiempo, el comportamiento se volvió reproducible de una forma que sugiere que el modelo había internalizado una preferencia estilística en lugar de generar ruido ocasional.
Este detalle resultó importante para los investigadores porque, aunque los modelos de lenguaje están diseñados para generar variación, la variación persistente suele reflejar una estructura subyacente. Cuando comienzan a aparecer motivos recurrentes en distintos contextos, normalmente pueden rastrearse hasta señales que fueron reforzadas durante las últimas etapas del entrenamiento y la alineación.
En este caso concreto, OpenAI pudo atribuir el comportamiento al entrenamiento utilizado para su funcionalidad de personalización de personalidad, específicamente la personalidad “Nerdy”. Esta personalidad estaba diseñada explícitamente para ser juguetona, entusiasta y ligeramente irreverente, con instrucciones como “socavar la pretensión mediante un uso lúdico del lenguaje” y abordar temas complejos sin caer en una excesiva seriedad. En la práctica, esto implicaba que las respuestas que utilizaban metáforas vívidas o inusuales eran valoradas más favorablemente durante el entrenamiento.
Con el tiempo, las respuestas que incluían referencias a criaturas como “goblins” o “gremlins” obtenían puntuaciones ligeramente superiores a respuestas similares sin ellas. A medida que estos ejemplos mejor valorados se reutilizaban en etapas posteriores del entrenamiento, el patrón aparecía con mayor frecuencia y comenzaba a generalizarse más allá del contexto original. Lo que comenzó como una peculiaridad estilística dentro de una personalidad concreta se convirtió en una tendencia recurrente en las respuestas del modelo en general.
Una visión general del fine-tuning
Para entender cómo ocurre esto, resulta útil revisar brevemente cómo se entrenan los modelos de lenguaje modernos. El proceso suele comenzar con una fase conocida como pretraining, en la que el modelo se expone a grandes volúmenes de texto y aprende a predecir la siguiente palabra en una secuencia. A través de este proceso, desarrolla una comprensión estadística amplia del lenguaje, incluyendo gramática, estructura y muchos patrones de uso.
Tras esta fase inicial, el modelo tiene una comprensión general del lenguaje, pero sus respuestas aún no están moldeadas para cumplir las expectativas de los usuarios de forma consistente. Las etapas posteriores se centran en refinar este comportamiento mediante formas de entrenamiento más dirigidas, comúnmente agrupadas bajo el término fine-tuning:
Fine-tuning supervisado (SFT) introduce ejemplos cuidadosamente seleccionados de respuestas deseables. Estos ejemplos codifican estructura, tono y adherencia a la tarea.
Optimización basada en preferencias, a menudo implementada mediante reinforcement learning from human feedback (RLHF) u otros métodos similares, refina aún más el modelo. Las respuestas se clasifican o puntúan, y el modelo se optimiza para generar aquellas que se alinean con los ejemplos mejor valorados.
En esta etapa, el objetivo va más allá de la simple predicción de la siguiente palabra, hacia un entorno de recompensas que refleja juicios humanos sobre calidad, utilidad y estilo. Este cambio es fundamental, ya que permite al modelo aprender qué tipos de respuestas son preferidas, además de cuáles son correctas.
Pequeñas señales en el espacio de recompensa
Los datos de preferencias humanas contienen sesgos implícitos, que se trasladan al modelo de recompensa utilizado durante el entrenamiento posterior. Cuando los evaluadores califican sistemáticamente ciertas respuestas como más atractivas o de mayor calidad, el modelo tiende a aumentar la probabilidad de generar resultados similares. Este refuerzo no actúa directamente sobre palabras individuales, sino sobre patrones más amplios de expresión, como el tono, la estructura, el ritmo o el uso de metáforas.
En los modelos de lenguaje, el estilo no es una capa superficial añadida después del razonamiento o la corrección. Determina qué respuestas son más probables, qué analogías resultan naturales y qué patrones léxicos están disponibles en cada contexto. Cuando un tono lúdico o rico en metáforas se asocia repetidamente con recompensas más altas, el modelo aprende a reproducir el patrón expresivo que hay detrás de ese estilo.
Como resultado, pueden surgir tendencias estilísticas coherentes sin haber sido definidas explícitamente. Un modelo no necesita instrucciones directas para adoptar una voz “nerdy” o con referencias culturales; basta con que las respuestas con esas características sean sistemáticamente preferidas para que el modelo converja hacia una región estilística difusa que reutiliza en distintos contextos.
Lo que hace este caso especialmente interesante no es solo que el comportamiento se reforzara dentro de la personalidad “Nerdy”, sino que no permaneciera confinado a ella. Patrones inicialmente asociados a un entorno estilístico concreto comenzaron a aparecer en contextos no relacionados, incluyendo entornos como el código, donde resultaban claramente inapropiados.
Esto pone de manifiesto una limitación estructural de los modelos de lenguaje actuales: las señales de entrenamiento aplicadas en un contexto no tienen garantizado permanecer localizadas. Dado que el modelo comparte un único conjunto de parámetros para todos los casos de uso, los comportamientos aprendidos bajo una configuración pueden propagarse más ampliamente.
Si las referencias a elementos fantásticos aparecen con suficiente frecuencia dentro de respuestas bien valoradas, aunque sea como subproducto de un estilo más expresivo, quedan estadísticamente asociadas a la recompensa. Durante el entrenamiento, el modelo ajusta su comportamiento hacia regiones donde estos patrones son más probables, aumentando ligeramente la probabilidad de que aparezcan en distintos contextos.
A lo largo de sucesivas etapas de entrenamiento, estos pequeños cambios de probabilidad se acumulan. Lo que comienza como una variación ocasional se convierte en una característica recurrente del comportamiento del modelo, porque esas referencias viajan junto a un estilo que ha sido consistentemente reforzado. El resultado puede parecer intencional, aunque emerja de ajustes distribuidos en un gran número de parámetros.
Por qué estos efectos escalan
La dinámica observada es coherente con lo que suele describirse como un efecto mariposa, donde cambios pequeños y localizados se acumulan hasta producir comportamientos globales visibles y, en ocasiones, inesperados. En el contexto del entrenamiento posterior, esto surge de la forma en que el modelo se actualiza mediante múltiples pasos de optimización incrementales, cada uno introduciendo ligeros ajustes en su comportamiento.
De forma individual, estos cambios son insignificantes. En conjunto, pueden modificar el comportamiento de forma significativa. Varios factores contribuyen a esta amplificación:
Optimización iterativa que acumula pequeñas preferencias a lo largo de múltiples pasos de entrenamiento
Generalización que extiende patrones locales a nuevos contextos
Representaciones interconectadas que permiten que correlaciones sutiles influyan en partes del comportamiento aparentemente no relacionadas
Como consecuencia, incluso señales débiles pueden convertirse en rasgos perceptibles. Una preferencia consistente, aplicada repetidamente, basta para desplazar el modelo hacia regiones donde ciertos patrones aparecen con mayor frecuencia. Estos efectos no solo se amplifican con el tiempo, sino que también pueden propagarse entre contextos, lo que dificulta confinar los comportamientos aprendidos a los entornos en los que fueron originalmente incentivados.
El fenómeno de los goblins proporciona un ejemplo concreto de esta dinámica, haciendo visible cómo pequeños sesgos estilísticos introducidos durante el entrenamiento pueden escalar hasta convertirse en características persistentes del comportamiento del modelo.
Mitigación y sus límites
OpenAI abordó el problema mediante una combinación de intervenciones específicas. Eliminó la personalidad “Nerdy” que amplificaba el comportamiento, retiró la señal de recompensa que favorecía metáforas con criaturas durante el entrenamiento y filtró datos que contenían palabras como “goblin” o “gremlin” para reducir su prevalencia. Dado que el problema ya se había propagado a versiones posteriores del modelo, también introdujo instrucciones adicionales en ciertos contextos, como prompts de desarrollador en Codex, para desincentivar estas referencias al generar respuestas.
A nivel práctico, esto implica cambiar qué tipo de respuestas se fomentan durante el entrenamiento. Al reducir la asociación entre ciertos patrones estilísticos y la retroalimentación positiva, el sistema deja de favorecer respuestas donde estos patrones aparecen. La curación de datos complementa este proceso limitando la frecuencia con la que estos patrones aparecen en los ejemplos de entrenamiento, mientras que las instrucciones adicionales actúan como una capa correctiva durante la generación de respuestas.
Estas medidas son efectivas para reducir el síntoma inmediato, pero no eliminan la sensibilidad subyacente del sistema. El fine-tuning sigue dependiendo de la calidad, el equilibrio y la consistencia de las señales que recibe, y pequeños cambios en esas señales pueden seguir propagándose durante el entrenamiento.
Cada intervención introduce también compromisos. Reducir la deriva estilística puede limitar la expresividad del modelo. Imponer restricciones más fuertes puede mejorar la fiabilidad en ciertos contextos, pero afectar a la fluidez o naturalidad en otros. Ajustar las señales de recompensa puede corregir un patrón mientras debilita otros que estaban correlacionados con él.
El objetivo, por tanto, no es alcanzar una configuración perfectamente estable, sino gestionar continuamente estos compromisos con una mayor visibilidad sobre cómo las señales de entrenamiento se traducen en comportamiento observable.
Conclusión
El caso de los goblins puede parecer una anomalía inofensiva, pero pone de relieve cómo funciona la alineación en la práctica. Los modelos de lenguaje se guían por aproximaciones de las preferencias humanas, que capturan tendencias en lugar de reglas precisas. Como resultado, pueden generar comportamientos coherentes con sus señales de entrenamiento y, al mismo tiempo, desalineados con las expectativas del usuario en ciertos contextos.
Esta brecha refleja un reto más amplio. No se trata tanto de una cuestión de capacidad como de cómo se definen los objetivos y cómo se propagan a través del entrenamiento. Pequeñas señales consistentes pueden acumularse y dar lugar a patrones de comportamiento estables que resultan difíciles de anticipar a partir de decisiones de diseño individuales.
El valor de este episodio reside en lo que revela. La alineación es un proceso continuo, sensible a detalles que pueden parecer insignificantes de forma aislada, y requiere la capacidad de rastrear el comportamiento observado hasta las señales que lo produjeron.
El goblin es un personaje menor en esta historia, pero sirve como recordatorio útil: pequeños descuidos en cómo se configura el entrenamiento pueden emerger más tarde como rasgos visibles y persistentes en el comportamiento del modelo, y las mismas dinámicas que producen peculiaridades inofensivas pueden, en otras condiciones, dar lugar a efectos mucho más relevantes.




