La sensualidad de la Ciencia de Datos

7/7/2023
AUTOR
Colegio de matemáticas Bourbaki

Hace 11 años en la revista Harvard Business Review, Tom Davenport y DJ Patil publicaron un artículo que ha moldeado desde entonces la percepción de la profesión de la Ciencia de Datos. En ese artículo llamaron a la profesión de los científicos de datos el trabajo más sexy del siglo XXI.

No alt text provided for this image

En una parte de este artículo los autores describen a un científico de datos como una combinación armónica entre un hacker, un analista, un comunicador y un consejero de confianza. En este artículo coincido con los artículos en HBR y contaré cómo estas 4 cualidades son fundamentales para dirigir la carrera de un científico de datos.

Si bien es cierto que la profesión de los científicos de datos ha evolucionado desde entonces, en un segundo artículo publicado en 2022 discutieron sobre el estado de la sensualidad actual de la oferta laboral en ciencia de datos. Aunque algunas cosas han cambiado, por ejemplo la necesidad de algunas habilidades administrativas y consideraciones éticas, sigue siendo tan o más sexy que en ese entonces.

Científico de Datos... as a hacker

En la caja de herramientas de un científico de datos no pueden faltar sus habilidades para extraer y procesar grandes volúmenes de información, todos los modelos de inteligencia artificial actuales serían imposibles sin herramientas tecnológicas que permitan operar con datos tanto numerosos como complejos.

No alt text provided for this image

Solo por poner un ejemplo muy simple, una base de datos de imágenes vectorizadas como la que se utilizó para desarrollar los modelos tipo DALL·E 2 de generación de imágenes de alta calidad, puede ser vista ingenuamente como una hoja de Excel. Es imposible abrir un archivo así sin el uso de un lenguaje de programación poderoso como Python con todas las ventajas que esto implica.

Los científicos de datos deben necesariamente ser buenos programando y esta es una habilidad que les recomendamos mucho desarrollar.

Científico de Datos... as an analyst

Las matemáticas son el lenguaje común entre las computadoras y sus usuarios, por ello un científico de datos debe de comprender tanto los modelos matemáticos, las métricas de evaluación e inclusive los algoritmos de entrenamiento.

No alt text provided for this image

Pensemos en un problema de predicción de ventas dentro de un negocio durante los siguientes meses después de la pandemia. Los modelos matemáticos deberían de incorporar información previa al COVID e información durante los largos periodos de aislamiento. Existen modelos matemáticos que permiten la flexibilidad de incorporar esta información de manera separada. ¿Cuáles son?

Un buen analista también tiene la virtud de poder distinguir el ruido de la señal y esta capacidad de abstracción también es necesaria en un científico de datos.

Científico de Datos... as a communicator

Si nuestro interés es que la Ciencia de Datos tenga implicaciones verdaderamente concretas en la solución de un problema, inevitablemente los modelos matemáticos van a interactuar con agentes que podrían no saber ni programación ni machine learning o estadística. Esto no debería de ser un problema para un científico de datos pues una cualidad ideal es que tenga la capacidad de comunicar con empatía y rigor sus hallazgos o preguntas.

No alt text provided for this image

Pensemos por ejemplo en la interacción que existe entre un abogado sin formación en ciencia de datos y un científico de datos que esté implementando un Large Language Model (LLM) para la extracción de la jurisprudencia de textos legales. Explicar en qué consisten las distintas técnicas de tokenizació y cuáles son las implicaciones prácticas de esto no debería de ser un problema para un científico de datos

Científico de Datos... as a trusted adviser

Los mejores consejeros son quienes han tenido la oportunidad de experimentar aquello que les deseamos preguntar, antes de implementar un modelo, los mejores científicos de datos realizarán muchos experimentos que les ayude a validad sus hipótesis, por ello han sido expuestos a las sutilezas del problema.

No alt text provided for this image

La ciencia de los datos ha permeado prácticamente cualquier área de nuestra sociedad, inclusive el área de la salud en el que existen muchos beneficios de utilizar Machine Learning. Los médicos que utilizan ciencia de datos para sus investigaciones tienen una comprensión de los fenómenos basada en evidencia y en hipótesis muy claras con las cuales poder calibrar la solución.

¿Dónde convertirse en un científico de datos?

Sesión informativa con los profesores.

Artículos originales en HBR

Data Scientist: The Sexiest Job of the 21st Century

Is Data Scientist Still the Sexiest Job of the 21st Century?