La Ciencia de Datos en sus personajes: Donoho y los 36 años de la dispersión

Alfonso RuizAlfonso Ruiz
4/2/2022
AUTOR
Colegio de matemáticas Bourbaki

Alfonso Ruiz

Sean bienvenidos a nuestra serie de infografías llamada La Ciencia de Datos en sus personajes que está inspirada en una hermosa colección de libros en la que se revisa el quehacer matemático por medio de la vida y obra de los matemáticos más importantes de la historia. Esta serie se llama La matemática en sus personajes y está publicada por la Editorial Nivola, se las recomendamos ampliamente a toda la comunidad del Colegio de Matemáticas Bourbaki.

Rindiendo un modesto homenaje a ese extraordinario trabajo hemos decidido publicar periódicamente una infografía que revise los logros más extraordinarios así como los grandes retos dentro de la ciencia de datos y sus aplicaciones.

En esta primera edición hemos elegido al científico David Donoho el cual desde nuestro punto de vista representa la armonía ideal entre la estadística, la ciencia de la computación y la implementación de la ciencia de datos aplicada. El título de nuestra infografía es Donoho y los 36 años de la dispersión.

David Donoho estudió su licenciatura en Princeton y su doctorado en Harvard, al inicio de su carrera trabajó con los problemas relacionados con la sismología donde se familiarizó con las señales dispersas, es decir aquellas que no contienen demasiada información o tienen numerosas características faltantes.

Fueron los problemas en sismología los que originaron el análisis utilizando métricas L1 para recuperar señales dispersas hace 36 años.

No alt text provided for this image

Este tipo de datos aparecen muy comúnmente en ciencia de datos, piensen por ejemplo en la información que tiene Netflix de un usuario respecto a la gigantesca cantidad de películas que puede ver, por supuesto que solo tiene acceso a una parte muy pequeña de las películas que le gustan a uno solo de sus usuarios.

Este tipo de preguntas llevaron a David Donoho a estudiar técnicas del análisis armónico que permitan recuperar estas señales dispersas. De hecho la mayoría de sus contribuciones matemáticas están relacionadas con esta área. El análisis armónico es el área que estudia la representación de cualquier función utilizando familias de funciones más sencillas, el ejemplo típico de estas funciones más sencillas son las funciones trigonométricas como los senos y cosenos, esto es lo que se conoce como el análisis de Fourier. Uno de los descubrimientos más formidables del siglo XX es que existen otras familias de funciones que no son las trigonométricas y que son tan o más útiles, como por ejemplo las ondículas (o wavelets en inglés).

No alt text provided for this image

De hecho relacionado con esto recibieron en 2020 el Premio de la Princesa de Asturias de investigación científica y técnica "...por sus contribuciones pioneras y trascendentales a las teorías y técnicas matemáticas para el procesamiento de datos, que han ampliado extraordinariamente la capacidad de observación de nuestros sentidos y son base y soporte de la moderna era digital."

Una aplicación muy vistosa con el trabajo por el que fueron premiados son los formatos de compresión que utilizamos diariamente para enviar archivos, pensemos por ejemplo en el formato .jpeg. En este caso Donoho junto con sus colaboradores lograron crear técnicas que reducen la cantidad de información de una señal (por ejemplo una imagen) de tal manera que sea posible recuperarla con nitidez.

El premio que mencionamos no es el único gran premio que ha recibido Donoho a lo largo de su carrera, dentro de los más destacados desde un punto de vista matemático podemos destacar el prestigioso Shaw Prize en 2012. Para poder dimensionar la estatura de Donoho destacamos que ha recibido premios que llevan el nombre de los matemáticos aplicados más importantes de toda la historia: Gauss Prize, Von Neumann Prize por parte de Society for Industrial and Applied Mathematics, Norbert Wiener Prize in Applied Mathematics, entre muchos otros.

No alt text provided for this image

Es muy importante mencionar que las contribuciones de Donoho a la Ciencia de datos no se reducen a resultados matemáticos que otros implementaron en la práctica pues él tiene una comprensión profunda de las complicaciones que enfrentan los científicos de datos. La prueba de ello publicó un artículo formidable llamado 50 years of Data Science en el que plantea los logros y retos que han ocurrido en ciencia de datos desde que su asesor de doctorado John Tukey publicó The Future of Data Analysis en el que vaticina casi proféticamente cómo se desarrollaría esa nueva ciencia...

En 50 years of Data Science Donoho también da una descripción de un científico de datos que desde nuestro punto de vista todos los analistas, programadores y tomadores de decisión interesados por el modelado matemático de los datos deben de conocer, recomendamos ampliamente su lectura.

No alt text provided for this image

En honor a este trabajo hemos llamado a esta infografía: Donoho y los 36 años de la dispersión, esperemos que  la hayan disfrutado

La Ciencia de datos es un área del conocimiento vibrante, posiblemente una de las más veloces de nuestra historia, no tiene comparación con la velocidad a la que avanzan por ejemplo las matemáticas. Una de las razones es por el empuje que la industria tecnológica y financiera le ha dado a esta área, existen ramas en las que los mejores investigadores no están en las universidades sino en compañías multimillonarias y por lo tanto es importante recapitular quiénes han contribuido a la ciencia de datos a través de los años.

Oferta académica