Examen Bourbaki para científicos de datos: desbalance & regresión

13/1/2023
AUTOR
Colegio de matemáticas Bourbaki

Les damos la bienvenida al Examen del Colegio de Matemáticas Bourbaki para Científicos de Datos en el que plantearemos 100 preguntas sobre Machine Learning que les permitan a los estudiantes y científicos de datos en Hispanoamérica repasar sus conocimientos sobre el planteamiento de soluciones de analítica avanzada mediante algoritmos implementados en bases de datos.

No alt text provided for this image
Colegio de Matemáticas Bourbaki

Cada una de las preguntas tendrá una solución modelo la cual será proporcionada a todos los estudiantes del Colegio de Matemáticas Bourbaki. Además aquellos que no sean estudiantes del Colegio y respondan correctamente mediante un vídeo de 5 minutos máximo de duración y una presentación con tres slides recibirán un 10% de descuento en cualquiera de nuestros cursos.

Además de nuestros estudiantes, quienes deseen recibir semanalmente estos problemas pueden escribirnos a correo a info@colegio-bourbaki.com solicitando la inscripción a nuestro Examen Bourbaki para científicos de datos.

Estructura

Cada una de los 100 problemas está redactado en forma de caso de uso, y contiene dos problemas los cuales estarán marcados como bullets a lo largo del texto y podrían contener más de una pregunta.

Caveat: es importante mencionar que el objetivo de estas preguntas es exclusivamente pedagógico y por lo tanto podría contener inexactitudes y desconocimiento sobre áreas industriales particulares por lo cual nos disculpamos con los expertos.

El desbalance en regresiones

Supongamos que una desarrolladora inmobiliaria llamada Real State Bourbaki desea absorber a una empresa más pequeña llamada Real State Lang, antes de ello le gustaría comprender mejor la estrategia de negocio en RS Lang y si es compatible con la suya.

No alt text provided for this image
Real State Bourbaki

En particular están preocupados porque en RS Bourbaki hay dos líneas de negocio que involucran sectores ajenos, uno de estos sectores atiende propiedades de lujo ( > 500,000 USD) y el otro propiedades menos lujosas ( < 500,000 USD). ¿La infraestructura de RS Bourbaki es compatible con la de la línea de negocio de RS Lang?

Afortunadamente RS Lang cuenta con una base de datos con información sobre todas las propiedades que ha vendido hasta la fecha así como el precio en el que las vendieron. Un científico de Datos en Real State Bourbaki propone utilizar análisis de datos para realizar esta comparación, una será uni-variada y la otra multi-variada.

No alt text provided for this image
Real State Lang

Análisis uni-variado

Para el análisis uni-variado se calculará la frecuencia de las casas vendidas por Lang en más de 500 mil dólares y por el otro lado las vendidas en menos de esa cantidad, supongamos que obtenemos un gráfico como el siguiente:

No alt text provided for this image
Propiedades en RS Lang

Si dibujamos el mismo histograma para el histórico de las propiedades vendidas por RS Bourbaki y obtenemos lo siguiente.

No alt text provided for this image
Propiedades en RS Bourbaki

De estos dos histogramas se podría concluir que las líneas de negocio de RS Bourbaki y RS Lang no son tan compatibles como se hubiera deseado.

  • PROBLEMA 1: ¿si modificamos el umbral (500,000 USD) para las propiedades en RS Lang es posible que ambas líneas de negocio se vuelvan más compatibles? ¿es realista hacerlo? ¿cómo encontrar un umbral correcto?

Análisis multi-variado

El modelo multi-variado propuesto consiste en entrenar un modelo de machine learning por ejemplo una regresión o un modelo de clasificación que tome en cuenta no solo la variable precio sino el número de metros cuadrados, el número de estacionamientos, la localización o algunas otras sobre las propiedades.

No alt text provided for this image
Datos multi-variados

Utilizar un modelo de clasificación binaria o regresión depende de si la variable objetivo del algoritmo es el precio de las casas en USD o la clase una vez que hayamos fijado algún umbral.

Para el caso de la clasificación binaria, el umbral de 500,000 USD determina una base de datos muy desbalanceada como lo vimos anteriormente pues la mayor parte de las propiedades son las menos lujosas. En general los algoritmos de Machine Learning tienen problemas con las bases de datos desbalanceadas lo cual podría ocasionar un problema en la precisión.

  • PROBLEMA 2: ¿es posible resolver el problema del desbalance en esta base de datos si utilizamos una regresión lineal en lugar de un modelo de clasificación? ¿cómo detectar que una base de datos para regresión está desbalanceada? ¿cómo elegir un algoritmo para la regresión cuando la base de datos está desbalanceada?

Oferta académica