La Privacidad Diferencial en la práctica a través de 6 artículos

Alfonso RuizAlfonso Ruiz
26/11/2024
AUTOR
Colegio de matemáticas Bourbaki

Alfonso Ruiz

La privacidad diferencial es una propiedad matemática que puede o no tener un algoritmo alimentado con una base de datos. Esta propiedad es crucial en la actualidad debido a que la gran mayoría de las compañías utilizan información privada sobre los ciudadanos, algunas veces inclusive sin ser directamente sus usuarios.

Encontrar una garantía teórica que prohiba por ejemplo identificar si los datos de un usuario fueron utilizados o no par entrenar el modelo es una excelente noticia que le ayudaría a los usuarios a confiar más en las compañías con las que comparte sus información.

En esta edición de nuestro querido Bourbakisme vamos a presentarles 6 textos que desde nuestro punto de vista son indispensables para entender cuáles son los retos y beneficios de estos acercamientos.

Hemos dividido el contenido de estos textos en tres partes:

  1. El problema y su descripción matemática.
  2. Un ejemplo positivo en Apple .
  3. Complicaciones y críticas a la privacidad diferencial.

En el Colegio de Matemáticas Bourbaki enseñamos estas técnicas desde hace algunos años pues consideramos que son fundamentales en el corto y mediano plazo pues es posible que la regulación o el mismo mercado requiera que debamos re-plantear nuestro enfoque tradicional de Ciencia de Datos a uno Diferencialmente Privado y por ello es necesario que estemos listos.

El problema y su descripción matemática

En este texto presentamos dos artículos en los que se proponen métodos para atacar la privacidad por un lado a una base de datos y por el otro a un modelo matemático. En el caso de la base de datos se proponen diversas técnicas con las cuales es posible desanonimizar a uno o varios usuarios en un dataset que aparentemente no incluía información personal sobre los usuarios. Este problema es extremadamente grave si pensamos por ejemplo en la información médica o psicológica de un usuario.

En el artículo llamado Robust De-anonymization of Large Sparse Datasets se encuentran las preferencias de películas en la base de datos de Netflix de algunos individuos utilizando poca información extra sobre ellos. Es uno de los trabajos más influyentes en el área y les recomiendo ampliamente que lo revisen pues sus métodos son robustos inclusive a técnicas similares a las de la privacidad diferencial. Diez años antes los mismos autores escribieron en Robust de-anonymization of large sparse datasets: a decade later un repaso sobre la influencia que ha tenido este trabajo, mencionando positivamente su influencia en la investigación pero también en la industria.

Uno de lo autores de este trabajo es el profesor de Cornell University Vitaly Shmatikov quien también es autor del artículo Membership Inference Attacks Against Machine Learning Models, en este trabajo se proponen métodos similares para atacar la base de datos con la que se ha entrenado a un modelo de machine learning. Se utilizan modelos de Google y de Amazon para demostrar lo expuestas que pueden estar las grandes compañías que son dueñas de tanta información de los usuarios. Es importante mencionar que en este caso, los métodos de privacidad diferencial sí deberían en teoría prohibir este tipo de ataques.

Un ejemplo positivo en Apple

Así como LinkedIn , Microsoft y otras compañías han utilizado métodos de privacidad diferencial, hace algunos años Apple anunció el uso de estos métodos para cuidar la confidencialidad de sus usuarios y aún así poder mejorar la experiencia de sus usuarios por medio de recomendaciones atinadas.

En este documento se Implementación de la Privacidad Diferencial en Apple cuentan algunos de los detalles de cómo se implementan y para qué tipo de recomendaciones se entrenan a modelos que garanticen matemáticamente la seguridad de nuestra información. Un ejemplo interesante es en el uso de los emojis y las recomendaciones que nos hace sobre cuál utilizar de acuerdo a nuestros hábitos, interlocutor y textos previos.

Complicaciones y críticas a la privacidad diferencial

Desafortunadamente Apple no ha sido lo suficientemente transparente sobre los métodos que han utilizado y esto significa que los parámetros con los que presumiblemente se han entrenado estos algoritmos no es el óptimo. Vale la pena mencionar que la definición de la privacidad diferencial recae en la elección de un parámetro épsilon del cual depende el grado de privacidad que deseas alcanzar. En el siguiente artículo Privacy Loss in Apple’s Implementation of Differential Privacy on MacOS 10.12 se experimenta con los métodos propuestos por Apple y desafortunadamente se concluye que a pesar de las buenas intenciones es posible que la información de sus usuarios aún esté en peligro.

Además de las implementaciones aparentemente insuficientes, les compartimos el siguiente trabajo en el que se critica al concepto de Privacidad Diferencial como suficiente para garantizar la seguridad de los datos de entrenamiento: A Critical Review on the Use (and Misuse) of Differential Privacy in Machine Learning. Es un trabajo muy interesante pues se propone que en algunos casos la eliminación del sobre-ajuste es suficiente para mitigar el riesgo de filtraciones de la información.

¿Dónde aprender más?

En el Colegio de Matemáticas Bourbaki enseñamos con detalle las matemáticas de los distintos aspectos de la Ciencia de Datos y la Inteligencia Artificial. Todos los perfiles y necesidades son bienvenidos. Compartimos con ustedes algunos de nuestros temarios de cursos por iniciar: