{"id":133702,"date":"2021-12-14T12:41:32","date_gmt":"2021-12-14T11:41:32","guid":{"rendered":"https:\/\/multi.liora.io\/?p=133702"},"modified":"2026-02-09T15:44:27","modified_gmt":"2026-02-09T14:44:27","slug":"el-data-poisoning-una-amenaza-para-los-modelos-de-machine-learning","status":"publish","type":"post","link":"https:\/\/liora.io\/es\/el-data-poisoning-una-amenaza-para-los-modelos-de-machine-learning","title":{"rendered":"El Data Poisoning: una amenaza para los modelos de Machine Learning"},"content":{"rendered":"<p><strong>Entre todos los ataques inform\u00e1ticos que existen contra los sistemas, el Data Poisoning se caracteriza por la falsificaci\u00f3n de datos de entrenamiento de modelos de Machine Learning. \u00bfQu\u00e9 significa esto? \u00bfRepresenta esto un verdadero peligro? Aqu\u00ed encontrar\u00e1s una breve explicaci\u00f3n de este ataque tan particular, de las amenazas que implica y los medios para defenderse.<\/strong><\/p>\n<h3>\u00bfQu\u00e9 es el Data Poisoning?<\/h3>\nLos ataques de Data Poisoning aparecen con la llegada masiva de los modelos de <a href=\"https:\/\/liora.io\/es\/machine-learning-definicion-funcionamiento-usos\">Machine Learning<\/a> al final del siglo XX.\n\nEstos ataques intervienen en la fase de entrenamiento de los modelos de Machine Learning. Un modelo debe ser efectivamente entrenado con datos para funcionar. Progresivamente, el modelo de Machine Learning va aprendiendo de sus errores y realiza su tarea cada vez mejor.\n\nUn modelo predictivo, es un programa que es capaz de realizar una tarea particular.&nbsp;\n<figure>\n\t\t\t\t\t\t\t\t\t\t\t<a href=\"https:\/\/www.futura-sciences.com\/tech\/definitions\/intelligence-artificielle-deep-learning-17262\/\">\n<img decoding=\"async\" width=\"512\" height=\"275\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2021\/09\/unnamed-2.jpeg\" alt=\"Source : \u00a9 MapR, C.D, Futura\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2021\/09\/unnamed-2.jpeg 512w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2021\/09\/unnamed-2-300x161.jpeg 300w\" sizes=\"(max-width: 512px) 100vw, 512px\">\t\t\t\t\t\t\t\t<\/a><figcaption>Source : \u00a9 MapR, C.D, Futura<\/figcaption><\/figure>\nComo el ataque de Data Poisoning se realiza en fase de entrenamiento, altera e invalida completamente los resultados del modelo predictivo. Los ataques dirigidos contra el modelo Antispam de Google entre 2017 y 2018 son un ejemplo de c\u00f3mo funcionan estos ataques. El modelo antispam de Google es entrenado con datos llamados pares de input\/etiquetas.\n\nEl input es un mail o un mensaje de texto y la etiqueta indica si el mensaje es spam o no.&nbsp;\n\nEs aqu\u00ed donde el Data Poisoning interviene. Este <b>corrompe y falsifica masivamente <\/b>los datos de entrenamiento indicando por ejemplo como spam algo que no lo es. Estos ataques alteran la precisi\u00f3n del modelo de Machine Learning. En el caso de Google, los spammers pueden enviar spams sin que el modelo antispam de Google los detecte. Los ataques de Data Poisoning tambi\u00e9n se dirigen a modelos de reconocimiento de carteles de tr\u00e1fico, utilizados por los veh\u00edculos aut\u00f3nomos por ejemplo. Si este modelo es envenenado, podr\u00eda causar que se confunda un cartel de alto con uno de l\u00edmite de velocidad.\n\n<a href=\"https:\/\/portswigger.net\/daily-swig\/trojannet-a-simple-yet-effective-attack-on-machine-learning-models\">\n<img decoding=\"async\" width=\"512\" height=\"237\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2021\/10\/unnamed-3.png\" alt=\"panneau stop\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2021\/10\/unnamed-3.png 512w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2021\/10\/unnamed-3-300x139.png 300w\" sizes=\"(max-width: 512px) 100vw, 512px\">\t\t\t\t\t\t\t\t<\/a>\nEste ataque se vuelve cada vez m\u00e1s accesible para los hackers. Antes, los ataques de Data Poisoning eran dif\u00edciles de implementar porque requer\u00edan un gran poder de c\u00e1lculo, tiempo y dinero. Pero con las nuevas tecnolog\u00edas disponibles, estos ya no son obst\u00e1culos. La t\u00e9cnica TrojanNet Backdoor es uno de los principales problemas. Esta t\u00e9cnica crea una red de neuronas que detecta una serie de parches sin necesidad de acceder al modelo original, con lo que puede realizarse desde un ordenador b\u00e1sico.\n<h3>\u00bfCu\u00e1les son los peligros del Data Poisoning?<\/h3>\nEl hecho de que un ataque de <strong>Data Poisoning<\/strong> se haya vuelto accesible, lo vuelve un verdadero peligro. Una vez que la fase de entrenamiento de un modelo de <strong>Machine Learning<\/strong> ha terminado, es muy dif\u00edcil corregir el modelo. Se necesitar\u00eda un an\u00e1lisis exhaustivo de todos los inputs que hayan entrenado el modelo, detectar los fraudulentos y eliminarlos. Pero si el conjunto de datos es demasiado grande, este an\u00e1lisis es simplemente imposible. La \u00fanica soluci\u00f3n es entrenar nuevamente el modelo.\n\nLas fases de entrenamiento son extremadamente costosas: en el caso del sistema de inteligencia artificial <a href=\"https:\/\/liora.io\/gpt-3-revolutionnaire-ou-surmediatise\"> GPT-3 <\/a> desarrollado por <strong>Open IA<\/strong>, la fase de entrenamiento cost\u00f3 alrededor de 16 millones de euros.\n\nM\u00e1s all\u00e1 de un simple costo econ\u00f3mico, el Data Poisoning puede representar un peligro a\u00fan m\u00e1s grande. La inteligencia artificial y los modelos de <strong>machine learning<\/strong> ocupan un lugar cada vez m\u00e1s importante en nuestras vidas y en nuestra sociedad y son utilizados para las tareas m\u00e1s importantes, como la salud, el transporte, las investigaciones criminales, etc. Por ejemplo, la polic\u00eda de Chicago utiliza<strong> la IA<\/strong> para luchar contra el crimen, para prevenir cu\u00e1ndo y d\u00f3nde suceder\u00e1n los cr\u00edmenes. \u00bfQu\u00e9 pasar\u00eda si sus modelos de Machine Learning estuvieran envenenados? La lucha contra el crimen ser\u00eda ineficaz y los modelos dirigir\u00e1n a los polic\u00edas tras pistas falsas.\n<h3>\u00bfC\u00f3mo protegerse del Data Poisoning?<\/h3>\nPor suerte, existen medios para luchar contra el Data Poisoning.\n<ul>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">La primera t\u00e9cnica consiste en <strong>controlar las bases de datos<\/strong> antes de inyectar en los datos de entrenamiento de un modelo. Para ello se pueden utilizar m\u00e9todos estad\u00edsticos para detectar las anomal\u00edas en los datos, tests de regresi\u00f3n e incluso la moderaci\u00f3n manual.<\/li>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Tambi\u00e9n se puede monitorear cualquier cambio en el desempe\u00f1o del modelo durante la fase de entrenamiento para<strong> reaccionar lo antes posible<\/strong>, gracias a herramientas de control como Azure Monitor o Amazon SageMaker.<\/li>\n \t<li style=\"font-weight: 400;\" aria-level=\"1\">Por \u00faltimo, como el envenenamiento de los datos supone conocer previamente el modelo, se deben <strong>guardar las informaciones de su funcionamiento en secreto<\/strong> durante la fase de entrenamiento.<\/li>\n<\/ul>\nEl Data Poisoning representa una verdadera amenaza inform\u00e1tica, y a\u00fan m\u00e1s porque estos ataques son cada vez m\u00e1s accesibles para los hackers. Pero frente al progreso de las t\u00e9cnicas de los hackers el desaf\u00edo es hacer progresar tambi\u00e9n los sistemas de prevenci\u00f3n. Los Data Scientists y los Data Engineers est\u00e1n en primera l\u00ednea para combatir estos ataques. Son ellos quienes deben recolectar datos seguros o detectar ataques durante las fases de entrenamiento.&nbsp;\n\nSi quieres saber m\u00e1s sobre el funcionamiento y la protecci\u00f3n de estos modelos, ve a echar un vistazo a nuestras formaciones en las profesiones de la data.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">Descubre nuestras formaciones<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Entre todos los ataques inform\u00e1ticos que existen contra los sistemas, el Data Poisoning se caracteriza por la falsificaci\u00f3n de datos de entrenamiento de modelos de Machine Learning. \u00bfQu\u00e9 significa esto? \u00bfRepresenta esto un verdadero peligro? Aqu\u00ed encontrar\u00e1s una breve explicaci\u00f3n de este ataque tan particular, de las amenazas que implica y los medios para defenderse. [&hellip;]<\/p>\n","protected":false},"author":74,"featured_media":115764,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2436],"class_list":["post-133702","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ciberseguridad"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/133702","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/users\/74"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/comments?post=133702"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/133702\/revisions"}],"predecessor-version":[{"id":183568,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/133702\/revisions\/183568"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media\/115764"}],"wp:attachment":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media?parent=133702"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/categories?post=133702"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}