Una
palabra que lo cambia todo
Un
nuevo estudio muestra cómo los grandes modelos de lenguaje alteran sus
decisiones morales con un simple detalle sociodemográfico
Pep
Martorell
sep
12, 2025
Ya
sabemos que el conocimiento y control de los sesgos en los modelos de IA son
fundamentales para cualquier aplicación real. Hoy quiero hablar de un extenso
estudio que demuestra hasta qué punto esos sesgos son sutiles… y decisivos.
Me
llamó la atención un post en LinkedIn del Dr. Eyal Klang, Chief of Generative
AI del Hospital Mount Sinaí de Nueva York. Lo resumía con una frase muy clara:
“Large language models change their ethical decisions
based on a single demographic detail”
En
otras palabras, basta una sola palabra (“rico”, “transgénero”, “madre
soltera”…) para que un modelo cambie su juicio moral.
El
estudio en pocas palabras
El
paper, publicado el Journal of Healthcare Informatics Research este agosto,
analiza nueve grandes modelos de lenguaje desarrollados por Google, Meta,
Microsoft y Alibaba, entre ellos Gemma, Llama, Phi y Qwen. Los investigadores
diseñaron cien dilemas clínicos en los que se enfrentaban principios clásicos
de la ética médica: el respeto a la autonomía de las personas, el deber de
ayudar, la obligación de no hacer daño y la justicia.
A
estos principios añadieron además la perspectiva utilitarista, que consiste en
priorizar la decisión que genera el mayor beneficio para el mayor número de
personas, incluso si ello implica sacrificar un caso individual. Cada escenario
se repitió miles de veces, con y sin detalles sociodemográficos añadidos, hasta
acumular cerca de medio millón de pruebas.
Lo
que descubrieron los investigadores
Los
resultados fueron claros. Ningún modelo mantuvo un criterio estable:
todos modificaron sus respuestas en función de detalles sociodemográficos que,
en teoría, no tenían ninguna relación con el dilema planteado. Cuando el
escenario incluía descriptores de alto nivel económico, los modelos se
inclinaban más a favor del razonamiento utilitarista. En cambio, cuando se
añadían referencias a grupos marginados, aumentaba la tendencia a dar prioridad
a la autonomía individual.
La
gráfica siguiente lo muestra de manera contundente: describir a alguien como
Black Transgender woman dispara la preferencia por la autonomía y reduce casi
al mínimo las decisiones de tipo utilitarista (6,7%), mientras que basta con
sustituir esa descripción por Billionaire para que esa misma preferencia se
triplique hasta el 17%.
Más
allá de este hallazgo central, el estudio ofrece otras observaciones
interesantes. La justicia y la idea de no causar daño fueron los criterios más
estables, apareciendo en más de un tercio de las respuestas. En cambio, el
deber de ayudar y, sobre todo, el razonamiento utilitarista fueron mucho más
inconstantes. También hubo diferencias entre modelos: algunos, como Phi,
mostraron más consistencia en sus elecciones, mientras que otros, como
Llama-3.1-8B, resultaron más variables. Pero lo importante es que ninguno se
mantuvo firme en todos los escenarios.
Que
una sola palabra en el prompt sea suficiente para alterar el razonamiento ético
de la IA es algo que debería hacernos reflexionar.
No estamos ante un detalle académico sin importancia, sino ante un problema muy
real si pensamos en algoritmos que puedan intervenir en situaciones como el
triaje hospitalario o la asignación de recursos limitados.
Dos
reflexiones necesarias
Quiero
acabar con dos reflexiones. La primera es que los sesgos que observamos en los
modelos reflejan, en última instancia, el corpus de datos con los que han sido
entrenados. Y como en gran parte se trata de todo internet, esos sesgos no son
anecdóticos, sino los mismos que arrastramos como sociedad, a menudo
profundamente arraigados.
La
segunda es que los sesgos no son un accidente que pueda corregirse fácilmente,
sino una consecuencia inevitable de cómo se construyen estos sistemas.
Eliminarlos del todo es prácticamente imposible, pero sí es imprescindible
conocerlos, medirlos y gestionarlos.
Ignorarlos
sería un error grave; asumirlos y controlarlos, una condición necesaria para
cualquier uso real de la inteligencia artificial.