Usted está aquí

Datos, representación e inteligencia artificial

2022: Sesgo discriminatorio en el uso de la inteligencia artificial e impacto en la comunidad gitana

Introducción 

Todos los artículos académicos sobre lo que comúnmente se denomina “ética de la inteligencia artificial (IA)” comparten prólogo: el progreso en el campo durante los últimos años ha conllevado avances y oportunidades para la sociedad que, sin embargo, también implican peligros y amenazas que no pueden obviarse. Y aunque queramos pensar que las oportunidades pesan más en la balanza, libros como “Armas de destrucción matemática” (Cathy O’Neil), “Privacidad es Poder” (Carissa Véliz), o con una vocación un poco más técnica “The alignment problem: machine learning and human values” (Brian Christian) capturan los peligros y amenazas asociados a la IA, con un pronóstico más bien desfavorable. 

Lo cierto es que a pesar de que la ética es una rama de la filosofía muy amplia y, muchas veces, alejada de las conversaciones que ocurren alrededor de la IA, incorporar nociones humanistas a un campo altamente técnico permite el desarrollo de un lenguaje que facilita los debates de carácter social sobre el desarrollo e implementación de esta tecnología. Ya sean problemas de regulación, desigualdad, equidad, o simplemente de divulgación, hablar de ética es hoy en día crucial para entender el impacto de estos sistemas en nuestras vidas. 

De hecho, y basado en el trabajo realizado desde Eticas, a lo largo de los años hemos constatado que algunos de los problemas más extendidos en el campo son fácilmente reconocibles. Casi siempre pasan desapercibidos por los desarrolladores no por mala fe o por incapacidad, sino por desconocimiento. Pero identificar si un sistema de IA presenta problemas obvios de sesgo es fácil mediante un análisis de rendimiento estratificado (es decir, evaluar el rendimiento para distintos grupos poblacionales). Esta estrategia no es ni costosa ni técnicamente difícil, pero no diseñar e implementar medidas de control para mitigar los problemas que causa un sistema de IA termina constituyendo una decisión de diseño. 

Es en este sentido cuando hablar de ética es pertinente: incorporar el impacto de una tecnología al proceso de diseño y desarrollo de la misma es un aspecto “ético” que no es estrictamente necesario para el funcionamiento de la tecnología, pero que a su vez es inapelable para una incorporación segura de la IA en nuestra sociedad. 

Muchas veces, por otro lado, los problemas con la IA derivan de la falta de consideración respecto a cómo la automatización de una solución afecta al problema en sí. Si tenemos en cuenta un sistema de evaluación de currículos, la funcionalidad que antes hacían especialistas en recursos humanos (tediosa, sí), ahora la ejecutan algoritmos que seleccionan los “mejores candidatos”. Pero aunque la funcionalidad sea la misma (es decir, revisar y filtrar currículos), el cambio de un actor por otro modifica la moralidad del escenario. Donde antes había una persona responsable y con su propio criterio para tomar una decisión, ahora hay un algoritmo que aprende de datos históricos. Si es necesario pedir explicaciones para entender las razones detrás de una decisión, la introducción de sistemas que automatizan la toma de decisiones dificulta la transparencia. En este contexto, es fácil entender por qué un modelo entrenado sobre una base de datos en la que las mujeres, por ejemplo, están menos representadas, tenderá a seleccionar a un hombre por delante de una mujer si ambos están igual de cualificados. La historia – los datos – le dicen al algoritmo que ha habido más hombres siempre, y por lo tanto por algo será… 

Inducción y datos 

Una de las grandes dificultades asociadas a las predicciones en la IA consiste en cerciorarse de que lo que uno está prediciendo es lo que realmente quiere predecir. Esto es particularmente difícil para los modelos que aprenden de los datos dado que, en la mayoría de los casos, la 

naturaleza del aprendizaje es inductiva: en vez de partir de premisas generales para llegar a conclusiones específicas sobre casos concretos, infieren patrones de casos concretos para generar normas de carácter general. Dicho de otro modo, la predicción sobre casos futuros depende de los eventos pasados – algo que David Hume ya trató y formuló como el problema de la inducción, o la pregunta sobre cómo podemos extraer una conclusión general para instancias futuras basándonos en instancias pasadas. 

Pero como todo buen estudiante de lógica (y ciencia de datos) sabe, “correlación no implica causa”. Por mucho que haya una correlación casi perfecta entre dos variables o dos eventos, no es posible determinar que una cause la otra. Y a pesar de que el personal científico que desarrolla sistemas de IA es consciente de ello – por eso se utiliza la estadística –, en el momento en el que la IA se aplica a la vida real para tomar decisiones, las distribuciones probabilísticas dejan de servir: a efectos prácticos, la confianza estadística debe traducirse en un sí o en un no. 

Esta necesidad de convertir una probabilidad en una decisión es problemática por varios motivos: determinar el límite entre el sí y el no, o asegurarse de que las variables contempladas para obtener los valores son robustas y útiles para todos los grupos poblacionales no es sencillo. Pero es aún más problemática si tenemos en cuenta la existencia de patrones de discriminación sistémica y lo que comúnmente se denomina sesgo histórico. En todos los territorios y sociedades hay colectivos marginalizados o discriminados históricamente. Pero más allá de los rasgos que unifican o justifican el trato de dichos colectivos como colectivos (una lengua, una cultura…), hay un conjunto de prácticas y patrones a su alrededor que configuran las relaciones de la minoría con el resto de la población. 

En este sentido, la ciencia de datos no solo captura las relaciones causales, sino también aquellas correlaciones que derivan de patrones de discriminación sistémica: los datos capturan la discriminación y los sistemas aprenden a reproducirla. Esto, junto con la falta de representación en los datos (o una representación menor debido al propio carácter minoritario del grupo poblacional) deriva en desempeños menores y, por lo tanto, en un mayor riesgo de error para dichos grupos. Para las poblaciones históricamente discriminadas y, en concreto, para el pueblo gitano (con una cultura ágrafa recopilada y transmitida de forma oral), hacer frente a la falta de representación en los datos y, sobre todo, la falta de mecanismos para afectar las formas en que se recopilan y confeccionan las bases donde se recopilan, supone una gran dificultad. 

Esto, sin embargo, nos aboca a un dilema: ¿deben las minorías utilizar y exponerse a las nuevas tecnologías para evidenciar sus limitaciones, o deben evitar dichas tecnologías para evitar los errores que se derivan de su uso? Si bien la respuesta a esta pregunta no es ni sencilla ni evidente, lo primero – exponerse – puede entenderse como una forma de activismo no solo tecnológico sino también político. Es cierto que el precio a pagar es alto, pero la exclusión es inasumible. Por otro lado, evitar el uso y la relación activa con ciertas tecnologías puede ser conveniente a corto plazo. Pero ante la adopción de sistemas de reconocimiento facial, filtrado de perfiles, o clasificación en diversos ámbitos, por entidades que puedan llegar a utilizarlos sin un consentimiento expreso, representa una amenaza mayor para las minorías a medio y largo plazo.

Representación parcial y casos prácticos

Siguiendo con el razonamiento anterior, uno de los mayores peligros asociados a la IA reside en una confianza excesiva en los datos. Pero lo cierto es que las bases de datos, por grandes que sean, representan de forma parcial el mundo en el que vivimos: tanto los aspectos positivos como los negativos. Además, a lo largo del ciclo de vida de un sistema de IA, hay muchas puertas de entrada de sesgo en el sistema. Desde los datos a las decisiones que toman los desarrolladores, o cómo se deciden presentar los resultados, limitaciones técnicas y cognitivas afectan a la equidad de la IA. 

Un buen ejemplo de las limitaciones de la ciencia de datos lo brinda la policía predictiva. Hay muchos sistemas en el mundo diseñados con la intención de predecir la reincidencia, pero estos sistemas utilizan unos datos históricos que no capturan la reincidencia. Si nos paramos a pensarlo – necesario y peligroso a partes iguales –, lo que 

capturan los datos policiales no es la reiteración de la ofensa, sino la reiteración del arresto y convicción de un crimen. Esta distinción es crucial, dado que los datos reflejan la actividad policial y judicial, que indirectamente tan solo refleja una parte de la actividad criminal. En países en los que determinades sectores poblacionales son sistemáticamente perseguidos (ya sea por estigma, estereotipo, correlación con un estatus socioeconómico, o por cualquier otra razón), los sistemas de predicción de reincidencia permiten conocer futuras actividades policiales, no futuras actividades criminales. 

La vaguedad de la verdad de referencia, junto con la observación de patrones estadísticos en los datos por parte de la IA, lleva en muchas ocasiones a malos modelos, es decir, modelos que discriminan de forma evidente a ciertos colectivos. Sin embargo, hay muchos campos en los que la discriminación es más sutil. Las redes sociales son, quizás, uno de los campos en los que la IA prevalece con un mayor impacto; en especial, hacia los grupos tradicionalmente discriminados. 

Los sistemas de recomendación de contenido, por ejemplo, son filtros que observan el comportamiento en la red social para intentar predecir el tipo de contenido que mejor encaja con un/a usuario/a determinado/a. Estos filtros se fundamentan en datos estáticos sobre los/las usuarios/ as pero, sobre todo, en el tipo de interacción y en la naturaleza del contenido con el que se interactúa. Esto, por un lado, fomenta la adicción a las redes sociales – no al teléfono como objeto tecnológico, sino al contenido que se consume –, así como a la creación de cámaras de eco que permiten la evolución de ciertos discursos en un medio de aparente consenso. Esto, junto con la exposición desde el anonimato a contenido falso y no contrastado (es decir, fake news), tiende a preservar y amplificar estereotipos y patrones discriminatorios hacia colectivos minoritarios de forma compulsiva. 

Nuestra era es la era de los datos – esta es, de hecho, una de las principales razones por las cuales la inteligencia artificial está proliferando de forma tan efectiva tanto en la academia como en gran parte de los sectores industriales. Aun así, los sistemas de inteligencia artificial tienen una forma muy particular de entrar en nuestras vidas, debido justamente a su relación con dichos datos. Una mayor producción de datos – a través de aplicaciones móviles, dispositivos de monitorización, nuestro paso por internet… - lleva a una mayor capacidad de correlación entre elementos que, a simple vista, podrían parecer inconexos. Y en mayor o menor grado, la introducción en nuestras vidas (ya sea de forma voluntaria o involuntaria) de sistemas con capacidad de aprendizaje a través de los datos parece inevitable. 

Si bien esta interacción nos afecta a todos y a todas, es cierto que no nos afecta por igual. Mujeres como Timnit Gebru o Frances Haugen decidieron relatar los entresijos y prácticas de grandes compañías como Google o Facebook respectivamente para incrementar el desempeño de la IA. En ambos casos, las investigadoras anunciaron distintos problemas dentro de los productos, como la discriminación racial en el primer caso, o el notorio efecto de los modelos de recomendación de contenido sobre los/las adolescentes en relación con desórdenes alimenticios o pensamientos de suicidio en el segundo. 

En este sentido, el problema estructural no es el uso y el desarrollo de la inteligencia artificial. El problema que debemos plantear e intentar resolver es la gestión de los modelos de IA, así como de su impacto sobre nuestras vidas. Encontrar formas para que distintos colectivos sociales o individuos puedan ejercer sus derechos fundamentales ante el uso de dicha tecnología, establecer los límites de sofisticación de dichas tecnologías, y determinar el ámbito de aplicación y los canales esenciales de supervisión. 

Una mirada a la solución 

Distintas iniciativas pueden contribuir a un desarrollo sostenible de los productos que incorporan inteligencia artificial. En este sentido, es necesario trascender los “principios éticos” para encontrar canales operacionales y prácticos para asegurar que los colectivos y las personas afectadas puedan intervenir en el uso y la evolución de esta tecnología. 

Para ello la transparencia es un elemento esencial. Es importante entender que la transparencia por sí misma no es un garante de justicia o equidad. Sin embargo, un proceso o un sistema trans

parente permite una evaluación del mismo que constituye las bases de la confianza. Así pues, la transparencia debe entenderse como un elemento instrumental para permitir trazar la responsabilidad de los distintos actores involucrados en un sistema de IA. En este sentido, una forma práctica de implementar distintos requerimientos de transparencia podría ser un registro algorítmico donde se recogiera información básica sobre distintos sistemas, así como de los principales responsables de estos. 

Dado que la transparencia tan solo tiene un carácter instrumental, también es necesario pensar en elementos para evaluar – en este caso, desde una perspectiva sociotécnica – el impacto de la IA sobre distintos colectivos. Para ello, elementos como la auditoría o la evaluación de impacto de dichos sistemas por parte de terceros facilita un futuro tecnológico sostenible, en el que los derechos de todos y todas sean preservados. 

Sin embargo, y con el fin de desarrollar una visión holística del efecto de dichos sistemas, es crucial involucrar a la sociedad civil. La experiencia de la discriminación trasciende las métricas de desempeño o equidad que contemplan distintos métodos de evaluación de sistemas de IA. En este sentido, las organizaciones independientes que aglutinan a la sociedad civil constituyen un elemento esencial para llevar a cabo una evaluación cuyo centro gravitacional sea el punto de vista de la población afectada, y no las métricas de desempeño y equidad. 

 

Antoni Lorente 

Investigador Senior en Eticas Research and Consulting