Análisis de supervivencia: ¿semi-supervisado?

31/1/2024
AUTOR
Colegio de matemáticas Bourbaki

El análisis de supervivencia es un conjunto de modelos estadísticos utilizados para analizar el tiempo que transcurre hasta que se produce un suceso de interés, en algunos casos podríamos utilizar alguna variable distinta al tiempo como por ejemplo el número de kilómetros recorridos o el número de transacciones realizadas.

Aunque la motivación inicial de estos modelos proviene de la medicina, algunas otras de las aplicaciones con las que nos encontraremos son: Credit Risk Management, Churn Analysis, Customer Lifetime Value, etc. Hace un par de años tuve la oportunidad de participar en un libro sobre las aplicaciones de modelos neuronales y otras técnicas al Análisis de Fallos.

En esta edición de nuestro boletín hablaremos sobre algunos ejemplos de datos censurados, sobre su relación con el aprendizaje semi-supervisado, mencionaremos algunos aspectos de uno de los estadísticos más relevantes en el desarrollo de la teoría matemática y finalmente les propondremos algunos de nuestros cursos en los que enseñamos sobre estos temas.

Datos censurados

Aunque la variable objetivo en un problema de supervivencia es ordenada y numérica, el problema de supervivencia no puede ser resuelto por una regresión lineal tradicional pues algunas de las observaciones han dejado de estudiarse y por lo tanto no será posible confiar en ellas, por lo tanto es necesario definir correctamente al problema.

Cuando de un registro dentro de nuestra base de datos no hayamos observado el suceso que nos interesa, entonces lo llamaremos censurado. Algunos ejemplos de lo que nos referimos como suceso podrían ser:

  • El fracaso de un tratamiento médico.
  • La avería de una máquina.
  • La pérdida de un cliente.
  • El impago de un crédito.
  • El cambio de puesto dentro de un trabajo.

¿Semi-supervisado?

Tanto en los cursos del Colegio de Matemáticas Bourbaki como en proyectos con nuestros clientes hemos enseñado y utilizado este tipo de modelos, en lo particular son ideas que me parecen muy interesantes y útiles para explotar la información dentro de los datos.

Desde nuestro punto de vista, estas ideas forman parte del catálogo de técnicas que un científico de datos debería de conocer y en algunas ocasiones los estudiantes preguntan sobre la relación entre estos modelos y algunos otros.

Por el otro lado en machine learning, cuando no todos nuestros registros tienen una etiqueta se le conoce como una base de datos semi-supervisada. Con fines didácticos me gusta relacionar al aprendizaje semi-supervisado con los datos censurados, evidentemente esto no es completamente correcto sin embargo la analogía está justificada, por ejemplo aquí.

Sir David Roxbee Cox

Uno de los modelos más utilizados para realizar un análisis de supervivencia es la regresión de Cox, propuesta por Sir David Cox. Él estudió en Cambridge y los últimos años de su carrera profesional los pasó en la Universidad de Oxford en donde fue Warden de Nuffield College.

Es uno de los estadísticos más importantes del siglo pasado, posiblemente su trabajo sobre modelos de supervivencia sea el más conocido, sin embargo realizó importantes contribuciones a otros modelos estadísticos incluida la célebre regresión logística.

Además de sus extraordinarios aportes científicos, es ampliamente conocido por su candidez y compromiso con colaboradores y estudiantes, falleció en el 2022.

¿Dónde aprender a utilizar el análisis de supervivencia?