Interpretabilidad (post hoc) en Machine Learning


La intepretabilidad es la gran deuda que tiene Machine Learning con los usuarios, por supuesto que esta deuda somos quienes trabajamos en el área y la utilizamos quienes debemos de saldarla. Desde un punto de vista práctico, ya que está relacionado con la herencia de modelos entre científicos de datos, la auditoría o simplemente la evaluación.
En este texto presentaremos tres aspectos fundamentales de la interpretabilidad post hoc. Es muy importante destacar el adjetivo post hoc, ya que nuestro enfoque está en técnicas que permiten interpretar modelos ya entrenados.
Normalmente se distinguen dos grandes clases de técnicas de interpretabilidad: globales y locales. Las técnicas globales permiten interpretar la función de predicción completa en función de sus variables, mientras que las técnicas locales se centran en explicar una predicción específica. En este texto no hablaremos sobre técnicas clásicas como LIME o valores SHAP.
Sobre las técnicas globales, hemos incluido dos capítulos: uno sobre el orden entre familias de características y otro sobre la traducción de variables latentes. Al finalizar el texto les vamos a presentar dos propuestas recientes para realizar la interpretación de las variables lo cual es extremadamente complejo en el caso de las redes neuronales.

Ordenamiento de familias de características
Uno de los objetivos más importantes de la interpretabilidad es la capacidad de comparar la importancia entre dos variables, y más aún, entre dos familias de variables. A continuación enlistamos algunos ejemplos en los que la interpretabilidad funciona exitosamente.

- La correlación de Pearson permite comparar dos variables siempre y cuando estemos interesados en modelos univariados, es decir, si solo deseamos agregar una característica a la vez.
- Si se estandarizan los valores de entrada, los pesos en modelos lineales permiten comparar cualquier par de variables, incluso en escenarios multivariados.
- Los árboles de decisión permiten comparar variables incluso en el caso multivariado, mediante la posición de los nodos correspondientes en el árbol.
- Existen resultados positivos para el caso de subconjuntos de variables. Algunos de los más destacados han sido demostrados por Isabelle Guyon, Vivian W. Ng y Leo Breiman. Una implementación interesante en árboles de decisión multivariados puede encontrarse en el siguiente repositorio.
Definición: Si modelo incluye un orden, ya sea para variables individuales o subconjuntos de variables, si es interpretable en X.
Ejemplo: En el caso de uso de créditos PYME utilizando textos, una nube de palabras en la que las más relevantes aparecen más grandes representa un ordenamiento de características.
Traduciendo variables latentes
La traducción de una variable explicativa en modelos lineales está dada por su coeficiente. Sin embargo, para variables latentes esta interpretación es más compleja.

- En una base de datos de textos, el modelo de topic modeling Latent Dirichlet Allocation propone interpretar las variables latentes como temas recurrentes. Esta traducción puede visualizarse mediante una nube de palabras con sus respectivos pesos.
- El modelo Word2Vec propone interpretar las direcciones en el espacio latente como significados de palabras o relaciones semánticas entre ellas. Los significados están en las direcciones, no en las coordenadas.
- El trabajo de John Novembre y sus colegas demostró cómo las dos primeras componentes principales de una base de datos genética pueden interpretarse como longitud y latitud del lugar de nacimiento, aunque esa información no se usó directamente.

Nota: Las interpretaciones de variables latentes suelen ser técnicas ad hoc. En la última sección, presentaremos una técnica llamada TCAV para interpretar variables latentes en redes neuronales profundas.
Dos avances recientes
Para finalizar, describiremos dos métodos recientes que expanden las técnicas de interpretabilidad. Esta lista de ninguna manera es exhaustiva sin embargo ambos enfoques son utilizados fuera de la investigación y han arrojado resultados muy interesantes.
Testing with Concept Activation Vectors
Been Kim y coautores propusieron un método para construir vectores que representen conceptos distinguibles por humanos. El código está disponible en el artículo original.

Por ejemplo, si se tiene un conjunto de imágenes de personas con lentes (y otro sin lentes), y se tiene acceso a las activaciones de una capa de una red neuronal, se puede entrenar un modelo para distinguir entre estos dos conjuntos. Los parámetros del modelo son llamados Concept Activation Vectors (CAVs), y su calidad refleja qué tan bien representan el concepto.
Dado un modelo neuronal y una capa particular, se entrena un modelo interpretable con activaciones y etiquetas binarias (con/sin lentes). El vector de parámetros resultante se interpreta como la representación del concepto. Se puede analizar qué capas son más sensibles a ese concepto observando los cambios en las derivadas durante el entrenamiento.
Adaptative Wavelet Distillation
Otro enfoque reciente propone construir una representación interpretable mediante wavelets o transformadas de Fourier, capturando tanto la eficacia del modelo como penalizando el uso excesivo de parámetros. El código también está disponible en el artículo original.
¿Dónde aprender más machine learning y las técnicas de interpretabilidad?
En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y las bases para que nuestros estudiantes estén listos para aprender los modelos más avanzados de Inteligencia Artificial, Ciencia de Datos y Finanzas Cuantitativas. Estos son los dos cursos que están por comenzar y durarán todo el 2025.





