domingo, 30 de noviembre de 2025

UNA PALABRA QUE LO CAMBIA TODO.

 

Una palabra que lo cambia todo




Un nuevo estudio muestra cómo los grandes modelos de lenguaje alteran sus decisiones morales con un simple detalle sociodemográfico

Pep Martorell

sep 12, 2025

 

Ya sabemos que el conocimiento y control de los sesgos en los modelos de IA son fundamentales para cualquier aplicación real. Hoy quiero hablar de un extenso estudio que demuestra hasta qué punto esos sesgos son sutiles… y decisivos.

 

Me llamó la atención un post en LinkedIn del Dr. Eyal Klang, Chief of Generative AI del Hospital Mount Sinaí de Nueva York. Lo resumía con una frase muy clara:

 

“Large language models change their ethical decisions based on a single demographic detail”

 

En otras palabras, basta una sola palabra (“rico”, “transgénero”, “madre soltera”…) para que un modelo cambie su juicio moral.

 

El estudio en pocas palabras

El paper, publicado el Journal of Healthcare Informatics Research este agosto, analiza nueve grandes modelos de lenguaje desarrollados por Google, Meta, Microsoft y Alibaba, entre ellos Gemma, Llama, Phi y Qwen. Los investigadores diseñaron cien dilemas clínicos en los que se enfrentaban principios clásicos de la ética médica: el respeto a la autonomía de las personas, el deber de ayudar, la obligación de no hacer daño y la justicia.

 

A estos principios añadieron además la perspectiva utilitarista, que consiste en priorizar la decisión que genera el mayor beneficio para el mayor número de personas, incluso si ello implica sacrificar un caso individual. Cada escenario se repitió miles de veces, con y sin detalles sociodemográficos añadidos, hasta acumular cerca de medio millón de pruebas.

 

Lo que descubrieron los investigadores

Los resultados fueron claros. Ningún modelo mantuvo un criterio estable: todos modificaron sus respuestas en función de detalles sociodemográficos que, en teoría, no tenían ninguna relación con el dilema planteado. Cuando el escenario incluía descriptores de alto nivel económico, los modelos se inclinaban más a favor del razonamiento utilitarista. En cambio, cuando se añadían referencias a grupos marginados, aumentaba la tendencia a dar prioridad a la autonomía individual.

 

La gráfica siguiente lo muestra de manera contundente: describir a alguien como Black Transgender woman dispara la preferencia por la autonomía y reduce casi al mínimo las decisiones de tipo utilitarista (6,7%), mientras que basta con sustituir esa descripción por Billionaire para que esa misma preferencia se triplique hasta el 17%.


 

 

 

Más allá de este hallazgo central, el estudio ofrece otras observaciones interesantes. La justicia y la idea de no causar daño fueron los criterios más estables, apareciendo en más de un tercio de las respuestas. En cambio, el deber de ayudar y, sobre todo, el razonamiento utilitarista fueron mucho más inconstantes. También hubo diferencias entre modelos: algunos, como Phi, mostraron más consistencia en sus elecciones, mientras que otros, como Llama-3.1-8B, resultaron más variables. Pero lo importante es que ninguno se mantuvo firme en todos los escenarios.

 

Que una sola palabra en el prompt sea suficiente para alterar el razonamiento ético de la IA es algo que debería hacernos reflexionar. No estamos ante un detalle académico sin importancia, sino ante un problema muy real si pensamos en algoritmos que puedan intervenir en situaciones como el triaje hospitalario o la asignación de recursos limitados.

 

Dos reflexiones necesarias

Quiero acabar con dos reflexiones. La primera es que los sesgos que observamos en los modelos reflejan, en última instancia, el corpus de datos con los que han sido entrenados. Y como en gran parte se trata de todo internet, esos sesgos no son anecdóticos, sino los mismos que arrastramos como sociedad, a menudo profundamente arraigados.

 

La segunda es que los sesgos no son un accidente que pueda corregirse fácilmente, sino una consecuencia inevitable de cómo se construyen estos sistemas. Eliminarlos del todo es prácticamente imposible, pero sí es imprescindible conocerlos, medirlos y gestionarlos.

 

Ignorarlos sería un error grave; asumirlos y controlarlos, una condición necesaria para cualquier uso real de la inteligencia artificial.

No hay comentarios:

Publicar un comentario

ALPHAFOLD

  ALPHAFOLD       1   AlphaFold es un programa de inteligencia artificial (IA) desarrollado por DeepMind , una subsidiaria de ...