Profundización en ML: variables latentes y secuenciales
Curso intermedio para Científicos de datos sobre variables latentes y datos secuenciales. Duración (5 semanas).
El objetivo principal del curso es permitir a los Científicos de Datos en BBVA ahorrar una cantidad sustancial de tiempo en tres etapas fundamentales de las soluciones data-driven:
1)El Planteamiento del caso de uso incluyendo tanto las características de la base de datos adecuada para el modelo de inferencia como la elección de una métrica de evaluación del modelo compatible con las necesidades del negocio.
2)Las técnicas del pre-procesamiento de los datos, la elección del algoritmo y método de calibrado que permitan reaccionar a tiempo cuando los resultados iniciales no sean los deseados por la necesidad del negocio. Estas habilidades deberán estar equilibradas tanto en la comprensión matemática como en la soltura con la que se utiliza código en Python para ejecutarlas.
3)La defensa o crítica de un modelo matemático en términos simples y bien informados que permitan a los analistas interactuar con las distintas áreas dentro de BBVA.
.png)
Semana
1
Redes Neuronales
.png)
En esta primera semana del curso trataremos el problema de los valores faltantes en una base de datos utilizando el Análisis de Componentes Principales y los Auto-encoders.
Semana
2
Sistemas de Recomendación

Durante esta semana utilizaremos un fragmento de la base de datos de Netflix precisamente para crear un sistema de recomendación, este es uno de los casos de éxito de los sistemas de recomendación más famosos. A principios de la década de los 2000 la compañía hizo público un reto en el que darían 1 millón de dólares a quienes mejoraran su algoritmo de recomendación.
Semana
3
Análisis de Supervivencia

Esta semana está dedicada a estudiar bases de datos con registros censurados, este tipo de bases de datos son comúnmente encontrados en problemas en los que la recolección de los datos de una población se pudo haber terminado antes de tiempo para algunos individuos y por ello no se puede confiar plenamente en la variable objetivo. Aunque la motivación inicial de estos modelos proviene de la medicina, algunas otras de las aplicaciones con las que nos encontraremos son: Credit Risk Management, Churn Analysis, Customer Lifetime Value.
Semana
4
Datos Temporales

Esta semana vamos a tratar por primera vez durante el curso los datos secuenciales, es decir aquellas bases de datos en las que la manera como se ordenan las columnas en el dataset de entrenamiento sí es relevante para el modelo entrenado. Nuestro ejemplo propotípico serán las series de tiempo uni-variadas las cuales son indispensables para realizar pronósticos en un futuro. Como veremos en esta semana una de las grandes complicaciones de este tipo de datos es la aparente falta de características explicaticas. Realizaremos una comparación entre los modelos ARIMA y Prophet de Facebook.
Semana
5
Aprendizaje por Refuerzo

La semana pasada tratamos los datos secuenciales tipo series de tiempo las cuales tienen la particularidad de tener una sola variable. En esta semana nos concentraremos en los modelos matemáticos llamados Procesos de Decisión de Markov los cuales son utilizados para también modelar procesos secuenciales con una gran libertad. El aprendizaje por refuerzo con el que se entrenan las políticas de decisión es una de las herramientas más importantes de la Inteligencia Artificial, en particular ha sido utilizada en el desarrollo de AlphaGo y ChatGPT. Utilizaremos estas técnicas para estudiar algunas técnicas de Dynamic Pricing.
