Lógica aristotélica para científicos de Datos

10/5/2024
AUTOR
Colegio de matemáticas Bourbaki

En lógica matemática, la lógica aristotélica también se le conoce como lógica proposicional y es una de las herramientas más útiles para cualquier ser humano independientemente de si es un investigador, un estudiante, un business analyst, un desarrollador de software, un CEO y evidentemente un científico de datos.

Existen distintas teorías matemáticas que modelan el razonamiento lógico y la lógica proposicional es una de ellas, algunas de las hipótesis que hace es que nuestros enunciados son o ciertos o falsos únicamente y no incluyen cuantificadores.

En esta edición de nuestro querido Bourbakisme hablaremos sobre algunas ventajas que tiene para los científicos de datos entender bien a la lógica proposicional.

Los ejemplos que les compartiremos han sido explicados a nuestros alumnos en alguno de nuestros cursos en el Colegio de Matemáticas Bourbaki. Evidentemente existen muchos otros, por ejemplo el sí y solo sí lo dejaremos para otra ocasión, estaremos encantados de escuchar algunos otros que les vengan a la mente.

La contrapuesta y el robo de identidad

Uno de los problemas más complicados que existen con la digitalización es sin lugar a dudas el robo de identidad, tanto a los bancos, a las escuelas o las instituciones gubernamentales les interesa garantizar que los usuarios sean los únicos con acceso a sus cuentas correspondientes.

Si el usuario es el correcto entonces nuestro sistema lo debería de reconocer como similar.

Para ello construyen filtros que en algunas ocasiones pueden ayudarse de los métodos de Machine Learning, una célebre técnica es la vectorización de las imágenes, el audio o alguna otra fuente de información con el objetivo de utilizar métricas de similitud y la famosa contrapuesta de la lógica aristotélica:

Si la vectorización entre la información de un usuario y un posible atacante no son similares, entonces no debo de confiar en él.

El enunciado anterior se representa de la siguiente manera en la lógica proposicional.

Este enunciado es lógicamente equivalente al siguiente enunciado con el que posiblemente es más fácil estar de acuerdo:

Si un usuario está intentando entrar a su cuenta, entonces la información que está ingresando es parecida a la que ya teníamos registrada.

Una manera muy visual de entender por qué ambos enunciados son equivalentes es gracias a los famosos diagramas de Venn los cuales nos ayuda a entender a esta implicación lógica como la contención conjuntista.

A pesar de que el razonamiento detrás de estos enunciados es bastante sencillo y para algunas personas es evidente, desde nuestro punto de vista existen estudiantes que se pueden beneficiar al hacer explícito el razonamiento.

Felicito a Emmanuel Pérez Hernández porque en su examen pasado del curso Machine Learning & AI for the Working Analyst contestó correctamente a una de las preguntas utilizando exactamente esta equivalencia.

Doble negación y cuantiles

Cuando realizamos un análisis exploratorio es indispensable utilizar nuestro conocimiento empírico sobre el significado de las variables que estamos introduciendo en nuestro algoritmo de Machine Learning, para ello podríamos utilizar la distribución de nuestras coordenadas numéricas.

El término cuantil fue utilizado por primera vez por el matemático inglés Maurice Kendall, el principal hiperparámetro para determinarlo es un porcentaje entre 0 y 100% al que llamaremos p. Dada una distribución sobre los números reales, el cuantil con hiperparámetro p es el número real que acota por encima al p porcentaje de nuestra distribución.

Cuando decidimos concentrar nuestra atención en una parte de a población, también podríamos utilizar una negación, por ejemplo de la siguiente manera:

No utilizaremos el conjunto de los usuarios para los que no se esté cumpliendo esta propiedad en sus características.

Extrañamente el enunciado anterior significa exactamente que se utilizará exactamente el conjunto de los usuarios que tienen estas características.

Sistemas de Recomendación

Felicito a Manuel Ladron de Guevara Perez quien el día de ayer en su curso de Profundización en Machine Learning: Variables Latentes y Ordenadas notó que en una de las líneas del código su profesor Pablo Conte había escrito una doble negación para decidir cuáles usuarios en la base de datos de Netflix deberían de quedarse durante el preprocesamiento antes de construir un sistema de recomendación.

Oferta académica del Colegio Bourbaki