Netflix, Riemann y los problemas de seis cifras
Alfonso Ruiz
Tanto en la industria como en la academia existen algunos problemas cuya solución representa una ruptura para el área ya sea por sus implicaciones comerciales, científicas o económicas. En esta edición de nuestro BOURBAKISME vamos a presentar dos ejemplos de conjeturas fascinantes tanto para los sistemas de recomendación como para la teoría de números, a saber el Netflix Prize y la Hipótesis de Riemann respectivamente. Ambas conjeturas fueron enunciadas como un reto cuya solución vale 1 millón de dólares.
¿Qué dicen estas conjeturas?
Aunque más adelante vamos a describir con más detalle ambas conjeturas y cuál ha sido su repercusión tanto a nivel de Return of Investment (ROI) como en la comprensión de los números primos, enunciamos brevemente de qué tratan estos problemas:
En 2006 Netflix compartió una base de datos con más de 100 millones de calificaciones de películas otorgadas por usuarios y retó a la comunidad de Machine Learning a mejorar su modelo de predicción para estas calificaciones en un 10%.
En 1859 Bernard Riemann publicó su artículo Ueber die Anzahl der Primzahlen unter einer gegebenen Grösse en el que propuso cómo describir con cotas efectivas la distribución de los números primos.
Las aves y las ranas
Enunciar conjeturas es un arte y una de las tareas más complicadas tanto dentro de un negocio como dentro de un área de investigación, Freeman Dyson propuso que en particular en matemáticas solo perfil muy particular de matemáticos profesionales cuentan con una visión completa para enunciar cuidadosamente conjeturas significativas, a ellos los llamó Aves en contraposición a las Ranas quienes solo son capaces de ver una parte del panorama general.
Notemos que esta dificultad también existe en el contexto de un negocio como Netflix pues sin entender correctamente las limitantes técnicas y tener una buena intuición de cuánto es realista mejorar el performance de un algoritmo, no se podría proponer un reto semejante. De hecho la dificultad es mucho peor pues pongámonos en los zapatos del CEO de una versión temprana de Netflix cuando gastar 1 millón de dólares incorrectamente podría significar el fin para una empresa.
Netflix Prize
En 2006 Netflix ya había detectado la importancia de recomendarle a sus usuarios películas que les gustarían, este problema representa un gran reto desde el punto de vista de Machine Learning pues inclusive cuando tengamos un gran número de usuarios, no contamos con información estructurada sobre ellos y por lo tanto un planteamiento supervisado clásico no funcionará correctamente. Una manera de solucionar este problema es mediante el enfoque conocido como Collaborative Filtering el cual aprovecha el histórico de los usuarios para definir una similitud.
El reto que planteó Netflix fue proponer un algoritmo de Collaborative Filtering que utilizara la base de datos de 100 millones de registros para mejorar un 10% la eficacia en un conjunto de prueba al que los usuarios no tendrían acceso. El modelo llamado Cinematch predecía el rating de películas entre 1 y 5 estrellas, se equivocaba en promedio de casi una estrella (0.95 estrellas) y el Netflix Prize otorgaría 1 millón de dólares a quien lograra reducir un 10% este error.
En 2007 el equipo Bellkor propondría una solución que mejoraba a Cinematch en un 8.26% lo cual se acercaba peligrosamente al premio y recibirían 50,000 USD, utilizaron una combinación lineal entre factorización de matrices y máquinas de Boltzmann. Pronto Netflix se dio cuenta de que esta mejora era suficientemente útil para su negocio y lo implementarían en su sistema de recomendación. El crecimiento de Netflix a raíz de esta mejora y la publicación de este reto es inconmensurable así como el avance de modelos de machine learning para los sistemas de recomendación.
Con el paso del tiempo la variable objetivo del sistema de recomendación cambió y no fue la calificación que le otorga un usuario a una película sino un índice que toma en cuenta tanto esta calificación como otros factores relacionados con la popularidad, la novedad de la película, etc.
La hipótesis de Riemann
Desde los griegos la comprensión de los números primos y cómo se distribuyen es una de las preguntas abiertas más importantes para las matemáticas, de la noción de primalidad dependen los métodos de encriptación que utilizamos diariamente para prácticamente cualquier transacción ya sea bancaria, de mensajes o de información.
Comprender la distribución de los números primos significa entre otras cosas poder responder preguntas como las siguientes:
- ¿Cuántas parejas de números primos son de la forma X, X+2?
- ¿Cuántos números primos existen entre el 1 y el 1,000,000,000,000?
- ¿Cuántos primos de la forma 2 + 5X existen?
Para resolver este tipo de preguntas, matemáticos como Riemann encontraron una manera de relacionar su respuesta con los valores X que hacen a una suma infinita ser igual a cero, también conocido como los famosos ceros de las funciones L. A partir del año 2000 el Clay Mathematics Institute ofrece 1 millón de dólares a quien resuelva la hipótesis de Riemann.
Aunque actualmente no se conoce si la hipótesis de Riemann es correcta, los esfuerzos desde inicios del siglo pasado han permitido demostrar el resultado análogo para sistemas numéricos más sencillos, este teorema fue demostrado por André Weil y sus ideas le permitieron Grothendieck re-inventar la geometría algebraica que comenzó Descartes.
¿Cuál es mi problema de seis cifras?
Recientemente en una reunión con C Levels del sector financiero planteamos una pregunta a manera de boutade: ¿por cuál de sus problemas pagarían 1 millón de dólares del presupuesto para poderlo resolver? No es una pregunta sencilla pero podría ayudarnos a ganar perspectiva sobre los caminos a seguir y dónde nos gustaría concentrar nuestros esfuerzos.
Ruta a través de la Ciencia de Datos
En el Colegio de Matemáticas Bourbaki ofrecemos un curso de 49 semanas de duración en la que los estudiantes pueden comenzar desde los conceptos más básicos tanto de programación como de matemáticas y convertirse en profesionales de la ciencia de datos que hayan practicado gracias a nuestras tareas y proyectos. Los invitamos a conocer más detalles en el siguiente brochure.
Oferta académica
- Track de Ciencia de Datos. (49 semanas).
- Machine Learning & AI for the Working Analyst ( 12 semanas).
- Matemáticas para Ciencia de Datos ( 24 semanas).
- Especialización en Deep Learning. (12 semanas).
- Track de Finanzas Cuantitativas (49 semanas)
- Aplicaciones Financieras De Machine Learning E IA ( 12 semanas).
- Las matemáticas de los mercados financieros (24 semanas).
- Deep Learning for Finance (12 semanas).