{"id":174840,"date":"2026-01-28T12:49:26","date_gmt":"2026-01-28T11:49:26","guid":{"rendered":"https:\/\/liora.io\/de\/?p=174840"},"modified":"2026-07-24T19:05:33","modified_gmt":"2026-07-24T17:05:33","slug":"data-leakage-was-ist-das-wie-kann-man-sich-davor-schuetzen","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/data-leakage-was-ist-das-wie-kann-man-sich-davor-schuetzen","title":{"rendered":"Data Leakage: Was ist das? Wie kann man sich davor sch\u00fctzen?"},"content":{"rendered":"<p><strong>Data Leakage, auch Datenleck genannt, ist ein besorgniserregendes Ph\u00e4nomen, das die Sicherheit deines Unternehmens gef\u00e4hrden kann. Hier erf\u00e4hrst du, wie du deine sensiblen Daten vor Datenlecks und Cyberangriffen sch\u00fctzen kannst.<\/strong><\/p>\n<strong>Datenlecks<\/strong> sind einer der wichtigsten Punkte, auf die man bei der Entwicklung eines Vorhersagemodells achten muss. Die Erstellung eines Vorhersagemodells ergibt sich aus einer betrieblichen Notwendigkeit, also versucht man, ein Vorhersagewerkzeug zu erstellen, das den gesch\u00e4ftlichen Erwartungen entspricht.\n\nLeistung und Transparenz sind die Schl\u00fcsselw\u00f6rter f\u00fcr ein gutes Vorhersagemodell.\n\nDie <strong>Messung der Leistung<\/strong> ist ein unverzichtbarer Schritt bei der Entwicklung eines Modells, da sie das Herzst\u00fcck der Problematik der <strong>pr\u00e4diktiven Modellierung<\/strong> darstellt. Sie sichert uns die Nutzbarkeit des Tools, indem sie seine Robustheit garantiert, denn sie erm\u00f6glicht es uns, den operationellen Charakter der Modelle zu bewerten.\n\nJe leistungsf\u00e4higer ein Modell ist, desto zuverl\u00e4ssiger ist es und desto besser kann es genutzt werden. Um seine Leistung zu bewerten, messen wir mithilfe von Metriken die Qualit\u00e4t der Vorhersage, indem wir die vorhergesagten Werte mit den tats\u00e4chlichen Werten vergleichen.\n\nW\u00e4hrend der<strong> Entwurfsphase<\/strong> steht uns eine gewisse Menge an Daten zur Verf\u00fcgung. Diese Daten sollen es uns erm\u00f6glichen, die Leistung unseres Modells sowohl zu trainieren als auch zu testen.\n\nUm eine genaue Messung der Leistung zu erhalten, ist eine ausreichende Menge an Daten, mit denen das Modell getestet werden soll, unerl\u00e4sslich. Diese Daten d\u00fcrfen dem Modell nicht bekannt sein und es darf daher unter keinen Umst\u00e4nden mit ihnen trainieren.\n\nDamit dieser Schritt m\u00f6glichst reibungslos verl\u00e4uft, muss man bei der Vorbereitung der Daten sehr gr\u00fcndlich sein. Schon zu Beginn des Projekts sollte darauf geachtet werden, dass ein Teil der Daten beiseite gelegt wird.\n\nWenn dies nicht geschieht, k\u00f6nnten Daten, die nicht f\u00fcr das Training gedacht sind, durchsickern und das Modell mit trainieren. Dies w\u00fcrde dann die Ergebnisse des Modells bei der Bewertung verzerren. Dies wird im <a href=\"https:\/\/liora.io\/de\/underfitting-in-machine-learning-so-loest-du-es\">Machine Learning<\/a> als Data Leakage bezeichnet.\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"741\" height=\"427\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/machine-learning.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/machine-learning.jpg 741w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/machine-learning-300x173.jpg 300w\" sizes=\"(max-width: 741px) 100vw, 741px\"><figcaption><\/figcaption><\/figure>\nIn diesem Artikel werden wir uns zun\u00e4chst mit den Indikatoren besch\u00e4ftigen, die uns helfen, dieses Ph\u00e4nomen zu erkennen. In einem zweiten Schritt werden wir uns mit den Vorsichtsma\u00dfnahmen befassen, die du treffen kannst, um Datenlecks zu vermeiden.\n<h2 class=\"wp-block-heading\" id=\"h-wie-kann-ich-feststellen-ob-es-ein-datenleck-gibt\">Wie kann ich feststellen, ob es ein Datenleck gibt?<\/h2>\nEin sehr guter Indikator ist eine ungew\u00f6hnlich hohe Modellleistung. Eine sehr hohe Punktzahl f\u00fcr ein Modell zu erhalten, das z. B. den Vertragsabschluss eines Kunden oder Sportprognosen vorhersagt, sollte uns hellh\u00f6rig machen.\n\nBei Problemen wie diesen ist es praktisch unm\u00f6glich, sehr hohe Punktzahlen zu erzielen, da der Zufallsanteil beim Eintreten eines Ereignisses sehr gro\u00df ist. Es ist wichtig, die Ergebnisse aus der Distanz zu betrachten und zu pr\u00fcfen, wie es zu dieser Punktzahl gekommen ist.\n\n&gt;&gt; Auch interessant:<a href=\"https:\/\/liora.io\/de\/microsoft-azure-kurs-lerne-machine-learning\"> Microsoft Azure Kurs<\/a>\n<h2 class=\"wp-block-heading\" id=\"h-welche-vorsichtsma-nahmen-sind-zu-treffen\">Welche Vorsichtsma\u00dfnahmen sind zu treffen?<\/h2>\nAls<strong> Train-Test-Split-Technik (auch Hold-Out-Technik genannt)<\/strong> bezeichnet man die Aufteilung aller verf\u00fcgbaren Daten in zwei Teile: einen Teil, der dem Training gewidmet ist, und einen Teil, der der Auswertung gewidmet ist.\n\nErst wenn das Modell trainiert wurde, k\u00f6nnen die Testdaten eingesehen werden, vorher m\u00fcssen sie sorgf\u00e4ltig beiseite gelegt werden.\n\nWie bereits erw\u00e4hnt, kann erst nach diesem entscheidenden Schritt der Datentrennung mit der <a href=\"https:\/\/liora.io\/de\/data-preprocessing-wie-man-seine-daten-vor-der-verarbeitung-vorbereitet\">Datenvorbereitung (Preprocessing-Phase)<\/a> begonnen werden. In dieser Phase entscheidest du, wie die Variablen behandelt werden sollen, bevor du den ausgew\u00e4hlten Algorithmus trainierst.\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"830\" height=\"507\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/separation-donnees-data-leakage.jpg\" alt=\"Person an Laptop mit in der Luft schwebenden Ordnersymbolen\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/separation-donnees-data-leakage.jpg 830w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/separation-donnees-data-leakage-300x183.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/separation-donnees-data-leakage-768x469.jpg 768w\" sizes=\"(max-width: 830px) 100vw, 830px\">\n\n<figcaption><\/figcaption><\/figure>\n<h2 class=\"wp-block-heading\" id=\"h-aber-warum-konnen-nicht-alle-daten-verwendet-werden\">Aber warum k\u00f6nnen nicht alle Daten verwendet werden?<\/h2>\nUm besser zu verstehen, wie sich das auswirkt, wollen wir uns gemeinsam die Phase der Imputation fehlender Werte ansehen.\n\nAngenommen, wir wollen alle fehlenden Werte einer Variablen durch ihren Median imputieren. Wenn man den Median f\u00fcr alle <strong>Daten (Trainings- und Testsatz zusammen)<\/strong> berechnet, dann wird der Wert des Medians anders sein als der, der nur f\u00fcr den <a href=\"https:\/\/liora.io\/de\/datasets-top-5-websites-fuer-qualitativ-hochwertige-datensaetze\">Trainingssatz<\/a> berechnet wurde. Dann kommt es zu einem Datenleck, da der Positionsanzeiger Informationen enth\u00e4lt, die im Testsatz enthalten sind.\n\nDieses Beispiel l\u00e4sst sich nat\u00fcrlich auf alle Vorverarbeitungsschritte ausdehnen, die dem Modelltraining vorausgehen: Imputation fehlender Werte, Behandlung von Extremwerten, Normalisierung, etc.\n\nDiese Vorsichtsma\u00dfnahme ist nat\u00fcrlich auch bei der Anwendung der <a href=\"https:\/\/liora.io\/de\/kreuzvalidierungsverfahren-definition-und-bedeutung-fur-machine-learning\">Cross-Validation-Technik<\/a> zu beachten. Die Validierungssets m\u00fcssen beiseite gelegt werden, damit sie dem Modell unbekannt bleiben.\n<h2 class=\"wp-block-heading\" id=\"h-fazit\">Fazit<\/h2>\nDie Leistung wird gr\u00f6\u00dftenteils von der <strong>Qualit\u00e4t der Daten<\/strong> bestimmt, daher solltest du darauf achten, dass die Daten vorbereitet sind, bevor du das Modell trainierst. Diese Phase ist jedoch heikel, da sie anf\u00e4llig f\u00fcr <strong>Datenlecks<\/strong> ist. Es muss sehr sorgf\u00e4ltig darauf geachtet werden, dass keine Informationen aus dem Testsatz f\u00fcr das Training des Modells verwendet werden.\n\nNur so k\u00f6nnen wir sicherstellen, dass ein Modell wirklich leistungsf\u00e4hig ist. Wenn du mehr \u00fcber die Vorhersage von Modellen erfahren m\u00f6chtest, kannst du auch unseren Artikel \u00fcber <a href=\"https:\/\/liora.io\/de\/data-drift-was-ist-das-und-wie-kann-man-das-problem-loesen\">Data Drift<\/a> und seine Folgen lesen.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/data-scientist\">Data Scientist Weiterbildung<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Data Leakage, auch Datenleck genannt, ist ein besorgniserregendes Ph\u00e4nomen, das die Sicherheit deines Unternehmens gef\u00e4hrden kann. Hier erf\u00e4hrst du, wie du deine sensiblen Daten vor Datenlecks und Cyberangriffen sch\u00fctzen kannst.<\/p>\n","protected":false},"author":78,"featured_media":174841,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2473],"class_list":["post-174840","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-cybersicherheit"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174840","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/78"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=174840"}],"version-history":[{"count":4,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174840\/revisions"}],"predecessor-version":[{"id":220628,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174840\/revisions\/220628"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/174841"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=174840"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=174840"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}