Oportunidades de un Machine Learning más justo

Las oportunidades de un Machine Learning más justo

La equidad en los modelos de analítica avanzada

En 2014, la Administración Obama ya citaba la enorme necesidad de evitar la discriminación en decisiones automatizadas (Machine Learning) sobre grandes conjuntos de información.

Citando que tal discriminación podría ser el resultado inadvertido de “la forma en que se estructuran y utilizan las grandes tecnologías de datos”.

Equidad en Machine Learning

En el año 2016, otro informe de la Casa Blanca llamado “Big Data: A report on algorithmic systems, opportunity, and civil rights” hacía énfasis en el problema de la igualdad de oportunidades en el diseño de modelos de Analítica Avanzada, aplicados a mercados tan sensibles como el crédito al consumo.

 

Es fácil garantizar la equidad, pero…

Puede que, a priori, parezca un tema con cierta complejidad pero, en realidad, es llamar al normal principio de justicia en la toma de decisiones sobre un procedimiento (concesión de crédito, por ejemplo).

Por esta razón, se evitaría una valoración errónea de nuestra solicitud basada en el comportamiento de otros, y sería más específica en datos protegidos como pueden ser la edad, el sexo, la religión, la raza o nuestra orientación política.

No es un tema complejo, hoy en día. Al menos en cuanto a la democratización en el acceso a la tecnología, y a los algoritmos que soportan los procesos automatizados de decisión.

Ya que nos permiten corregir en etapas tempranas de la implantación los sesgos provenientes de los datos protegidos.

Igualmente, es un procedimiento de garantía de la calidad basado en una ingeniería de datos cuidadosa, una matemática rigurosa y un toque de reflexión.

Pero… ¿Cuál es el problema de la equidad en los modelos de analítica avanzada?

Finalmente, hay dos principios que debería cuidar un buen procedimiento de imparcialidad/equidad (fairness, en inglés) en la construcción de un modelo de Analítica Avanzada:

  • La paridad demográfica, o que la variable objetivo del modelo no esté correlacionada con un atributo protegido (por ejemplo, raza, género o edad).
  • La igualdad de oportunidades, que requiere que las personas que califican para un buen resultado obtengan ese resultado con la misma probabilidad, independientemente de si son miembros del grupo protegido.

El desafío es balancear estos dos principios sin que esto afecte a la calidad de las predicciones.

Machine Learning y justicia

Algunos tips que pueden ayudar a gestionar este equilibrio son, en primer lugar, la valoración de la distribución del scoring versus la captura de la clase objetivo por cada población protegida.

Como resultado, las curvas mostrarían un posible sesgo que alertaría para una recalibración del modelo con una muestra diferente para subsanar la posible disparidad.

La igualdad de oportunidades es quizás más laboriosa de controlar, ya que obliga a utilizar una técnica matemática más rigurosa basada en la probabilidad condicional de los distintos grupos protegidos hacia la variable objetivo.

Es un proceso complejo de definición ya que combina la inferencia bayesiana con un modelo de optimización matemática que controla la paridad de oportunidades.

En una próxima entrega profundizaré en este rigor matemático ya que merece un detalle más extenso para los posibles casos de aprendizaje automático en que se aplica.

Para una empresa ¿es factible aplicar estos principios?

Aplicar estos principios no es caro, ni difícil, es cuestión de metodología.

Decisiones automatizadas y justas

Los beneficios, a priori, cualitativos permiten de inicio cumplir las leyes de privacidad europeas especificadas en la GDPR (General Data Protection Regulation):

  • En lo que respecta al procesamiento de datos personales en la fase de exploración del modelo (artículo 5).
  • Sobre el derecho de los individuos a no ser sujetos solamente de una decisión automatizada que condicione su vida cotidiana (artículo 22).
  • En lo que refieren al derecho a la explicación de las decisiones basadas en un modelo de algoritmia avanzada (artículos 13 y 15).

Por tanto, cuantitativamente, este contexto presenta una excelente oportunidad de negocio al eliminar los sesgos en las decisiones del modelo y permitir mejorar la calidad de las predicciones, obligando a la recalibración constante del modelo y la monitorización de sus inputs.

Share This

Copy Link to Clipboard

Copy