Examen Bourbaki para científicos de datos: desbalance & regresión
Les damos la bienvenida al Examen del Colegio de Matemáticas Bourbaki para Científicos de Datos en el que plantearemos 100 preguntas sobre Machine Learning que les permitan a los estudiantes y científicos de datos en Hispanoamérica repasar sus conocimientos sobre el planteamiento de soluciones de analítica avanzada mediante algoritmos implementados en bases de datos.
Cada una de las preguntas tendrá una solución modelo la cual será proporcionada a todos los estudiantes del Colegio de Matemáticas Bourbaki. Además aquellos que no sean estudiantes del Colegio y respondan correctamente mediante un vídeo de 5 minutos máximo de duración y una presentación con tres slides recibirán un 10% de descuento en cualquiera de nuestros cursos.
Además de nuestros estudiantes, quienes deseen recibir semanalmente estos problemas pueden escribirnos a correo a info@colegio-bourbaki.com solicitando la inscripción a nuestro Examen Bourbaki para científicos de datos.
Estructura
Cada una de los 100 problemas está redactado en forma de caso de uso, y contiene dos problemas los cuales estarán marcados como bullets a lo largo del texto y podrían contener más de una pregunta.
Caveat: es importante mencionar que el objetivo de estas preguntas es exclusivamente pedagógico y por lo tanto podría contener inexactitudes y desconocimiento sobre áreas industriales particulares por lo cual nos disculpamos con los expertos.
El desbalance en regresiones
Supongamos que una desarrolladora inmobiliaria llamada Real State Bourbaki desea absorber a una empresa más pequeña llamada Real State Lang, antes de ello le gustaría comprender mejor la estrategia de negocio en RS Lang y si es compatible con la suya.
En particular están preocupados porque en RS Bourbaki hay dos líneas de negocio que involucran sectores ajenos, uno de estos sectores atiende propiedades de lujo ( > 500,000 USD) y el otro propiedades menos lujosas ( < 500,000 USD). ¿La infraestructura de RS Bourbaki es compatible con la de la línea de negocio de RS Lang?
Afortunadamente RS Lang cuenta con una base de datos con información sobre todas las propiedades que ha vendido hasta la fecha así como el precio en el que las vendieron. Un científico de Datos en Real State Bourbaki propone utilizar análisis de datos para realizar esta comparación, una será uni-variada y la otra multi-variada.
Análisis uni-variado
Para el análisis uni-variado se calculará la frecuencia de las casas vendidas por Lang en más de 500 mil dólares y por el otro lado las vendidas en menos de esa cantidad, supongamos que obtenemos un gráfico como el siguiente:
Si dibujamos el mismo histograma para el histórico de las propiedades vendidas por RS Bourbaki y obtenemos lo siguiente.
De estos dos histogramas se podría concluir que las líneas de negocio de RS Bourbaki y RS Lang no son tan compatibles como se hubiera deseado.
- PROBLEMA 1: ¿si modificamos el umbral (500,000 USD) para las propiedades en RS Lang es posible que ambas líneas de negocio se vuelvan más compatibles? ¿es realista hacerlo? ¿cómo encontrar un umbral correcto?
Análisis multi-variado
El modelo multi-variado propuesto consiste en entrenar un modelo de machine learning por ejemplo una regresión o un modelo de clasificación que tome en cuenta no solo la variable precio sino el número de metros cuadrados, el número de estacionamientos, la localización o algunas otras sobre las propiedades.
Utilizar un modelo de clasificación binaria o regresión depende de si la variable objetivo del algoritmo es el precio de las casas en USD o la clase una vez que hayamos fijado algún umbral.
Para el caso de la clasificación binaria, el umbral de 500,000 USD determina una base de datos muy desbalanceada como lo vimos anteriormente pues la mayor parte de las propiedades son las menos lujosas. En general los algoritmos de Machine Learning tienen problemas con las bases de datos desbalanceadas lo cual podría ocasionar un problema en la precisión.
- PROBLEMA 2: ¿es posible resolver el problema del desbalance en esta base de datos si utilizamos una regresión lineal en lugar de un modelo de clasificación? ¿cómo detectar que una base de datos para regresión está desbalanceada? ¿cómo elegir un algoritmo para la regresión cuando la base de datos está desbalanceada?
Oferta académica
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).