Más de 100 años de causalidad matemática
A medida que un científico de datos gana experiencia implementando modelos matemáticos para resolver los problemas a los que se enfrenta un negocio o una investigación académica, más se dará cuenta de la enorme necesidad de un análisis causal entre las variables explicativas y las objetivo.
Desafortunadamente la mayor parte de las técnicas estadísticas clásicas e inclusive los modelos de machine learning no construyen un análisis causal entre las features y las observaciones históricas de las variables que deseamos predecir.
El análisis de la causalidad es un amargo crítico del enfoque actual para la Inteligencia Artificial mediante redes neuronales costosamente entrenadas en bases de datos gigantescas pues bien entendido un modelo causal difícilmente necesitaría una cantidad tan grande de registros pero tampoco de conexiones como lo hacen las redes neuronales profundas.
Dicho lo anterior nos gustaría insistir en que no hay alguna razón conocida por nosotros por la que el enfoque de causalidad sea incompatible con el de las redes neuronales profundas.
¿Cómo observar la causalidad?
Si en la actualidad alguien pusiera en duda que el fumar es una causa del cáncer de pulmón, difícilmente lo tomaríamos en cuenta, sin embargo en 1958 el célebre genetista y estadístico Ronald A. Fisher publicó un artículo en ni más ni menos que Nature dudando sobre esta relación causal y sugiriendo que podría ser únicamente una correlación entre los datos.
El artículo se titula Cancer and Smoking y es uno de nuestros ejemplos favoritos para explicarle a los estudiantes lo difícil que podría ser justificar una relación de causalidad, imagínense intentando contradecir a un afamado científico de Cambdrige University que además publicó sus estudios en la revista científica más prestigiosa.
¿Cómo justificar matemáticamente la causalidad entre dos conjuntos de variables observadas X e Y?
Como ya lo sabe el 100% de los científicos de datos o analistas de negocio, la correlación de Pearsson no necesariamente implica causalidad, a pesar de que dos variables estén en proporción directa la gran mayoría de las veces, no significa que una de estas variables haya ocasionado a la otra.
Un ejemplo con bicicletas
Consideremos tres variables aleatorias X,Z e Y que representen la siguiente información sobre un conjunto de ciclistas que están descendiendo de una montaña:
- Digamos que la variable X registrará el esfuerzo que hace un ciclista al pedalear en su bicicleta.
- La variable Y representa la velocidad alcanzada por el ciclista durante su camino.
- Por último la variable Z representará la pendiente promedio de la montaña que el ciclista está descendiendo.
Es bastante intuitivo imaginar que una base de datos con la información anterior satisface las siguientes observaciones estadísticas, invitamos a los lectores a que nos comenten si están de acuerdo con estas suposiciones:
- Las variables X e Y están positivamente correlacionadas. Digamos que su coeficiente al entrenar una regresión es igual a A > 0.
- Las variables Z e Y están positivamente correlacionadas. Digamos que su coeficiente al entrenar una regresión es igual a B > 0.
- Las variables Z y X están negativamente correlacionadas. Digamos que su coeficiente al entrenar una regresión es igual a C < 0.
Supongamos que estamos interesados en investigar la relación causal entre el esfuerzo al pedalear y la velocidad a la que está rodando el ciclista. Parece bastante intuitivo que la causa de la velocidad sea su esfuerzo al pedalear.
La paradoja de Simpson
Desafortunadamente aunque nos gustaría llegar rápidamente a esta conclusión, las bases de datos podrían no ayudarnos. Un ejemplo perfecto de esto es la llamada paradoja de Simpson la cual es una de las observaciones más agudas sobre relaciones causales que existen en estadística y solo fue completamente resuelta por el padre del análisis matemático de la causalidad, Judea Pearl.
La paradoja de Simpson postula lo siguiente, a pesar de que las variables X e Y en el ejemplo anterior están correlacionadas positivamente, podría ocurrir que al segmentar a nuestra población de acuerdo a otra variable explicativa (como por ejemplo la pendiente Z del descenso), la correlación observada en sub-muestras cambien de signo.
En este ejemplo significaría que para los ciclistas que recorren una pendiente muy pronunciada, mientras menos pedaleen mayor será la velocidad que recorren.
- ¿Creen que esto es posible?
- ¿Podría ocurrir un cambio en el signo de la correlación cuando consideramos a los ciclistas que descienden en pendientes poco pronunciadas?
Existen numerosos casos reales en los que ambas preguntas se contestan positivamente lo cual es sumamente contra-intuitivo y no fue hasta el famoso cálculo Do de Judea Pearl que se comprendió cabalmente esta paradoja.
De Sewall Wright a Judea Pearl
En el año de 1921 el genetista Sewall Wright publicó un artículo titulado Correlation and causation el cual sería la antesala de su artículo en 1934 titulado The method of Path coefficients. En estos trabajos propone un método para analizar matemáticamente la existencia de relaciones causales entre variables observadas.
Aunque la paradoja de Simpson no puede resolverse por completo utilizando el método de Wright, para el caso lineal es posible utilizar la correlación parcial para decidir cómo solucionar la paradoja de Simpson.
Utilizando el análisis de Wright se puede concluir que condicionando con la pendiente del descenso, la correlación parcial entre el esfuerzo al pedalear y la velocidad del ciclista se puede calcular de la siguiente manera:
Corr(X,Y | Z) = A + BC
Lo anterior significa que si el efecto negativo de Z sobre X es menor que -(A/B) entonces es mejor suponer que existe una correlación negativa entre X e Y aunque un análisis entre ellas no lo sugiera.
¿Dónde aprender Matemáticas e Inteligencia Artificial?
En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas y los usos de las redes neuronales profundas, les invirtamos a revisar nuestra oferta académica para elegir el curso adecuado.
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).