Entre todos los ataques informáticos que existen contra los sistemas, el Data Poisoning se caracteriza por la falsificación de datos de entrenamiento de modelos de Machine Learning. ¿Qué significa esto? ¿Representa esto un verdadero peligro? Aquí encontrarás una breve explicación de este ataque tan particular, de las amenazas que implica y los medios para defenderse.
¿Qué es el Data Poisoning?
Los ataques de Data Poisoning aparecen con la llegada masiva de los modelos de Machine Learning al final del siglo XX. Estos ataques intervienen en la fase de entrenamiento de los modelos de Machine Learning. Un modelo debe ser efectivamente entrenado con datos para funcionar. Progresivamente, el modelo de Machine Learning va aprendiendo de sus errores y realiza su tarea cada vez mejor. Un modelo predictivo, es un programa que es capaz de realizar una tarea particular.
Este ataque se vuelve cada vez más accesible para los hackers. Antes, los ataques de Data Poisoning eran difíciles de implementar porque requerían un gran poder de cálculo, tiempo y dinero. Pero con las nuevas tecnologías disponibles, estos ya no son obstáculos. La técnica TrojanNet Backdoor es uno de los principales problemas. Esta técnica crea una red de neuronas que detecta una serie de parches sin necesidad de acceder al modelo original, con lo que puede realizarse desde un ordenador básico.
¿Cuáles son los peligros del Data Poisoning?
El hecho de que un ataque de Data Poisoning se haya vuelto accesible, lo vuelve un verdadero peligro. Una vez que la fase de entrenamiento de un modelo de Machine Learning ha terminado, es muy difícil corregir el modelo. Se necesitaría un análisis exhaustivo de todos los inputs que hayan entrenado el modelo, detectar los fraudulentos y eliminarlos. Pero si el conjunto de datos es demasiado grande, este análisis es simplemente imposible. La única solución es entrenar nuevamente el modelo. Las fases de entrenamiento son extremadamente costosas: en el caso del sistema de inteligencia artificial GPT-3 desarrollado por Open IA, la fase de entrenamiento costó alrededor de 16 millones de euros. Más allá de un simple costo económico, el Data Poisoning puede representar un peligro aún más grande. La inteligencia artificial y los modelos de machine learning ocupan un lugar cada vez más importante en nuestras vidas y en nuestra sociedad y son utilizados para las tareas más importantes, como la salud, el transporte, las investigaciones criminales, etc. Por ejemplo, la policía de Chicago utiliza la IA para luchar contra el crimen, para prevenir cuándo y dónde sucederán los crímenes. ¿Qué pasaría si sus modelos de Machine Learning estuvieran envenenados? La lucha contra el crimen sería ineficaz y los modelos dirigirán a los policías tras pistas falsas.¿Cómo protegerse del Data Poisoning?
Por suerte, existen medios para luchar contra el Data Poisoning.- La primera técnica consiste en controlar las bases de datos antes de inyectar en los datos de entrenamiento de un modelo. Para ello se pueden utilizar métodos estadísticos para detectar las anomalías en los datos, tests de regresión e incluso la moderación manual.
- También se puede monitorear cualquier cambio en el desempeño del modelo durante la fase de entrenamiento para reaccionar lo antes posible, gracias a herramientas de control como Azure Monitor o Amazon SageMaker.
- Por último, como el envenenamiento de los datos supone conocer previamente el modelo, se deben guardar las informaciones de su funcionamiento en secreto durante la fase de entrenamiento.

