{"id":135141,"date":"2023-04-25T14:15:58","date_gmt":"2023-04-25T13:15:58","guid":{"rendered":"https:\/\/multi.liora.io\/?p=135141"},"modified":"2026-02-06T06:52:59","modified_gmt":"2026-02-06T05:52:59","slug":"hello-daniel-was-ist-datennormalisierung","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/hello-daniel-was-ist-datennormalisierung","title":{"rendered":"Hallo Daniel, was ist Datennormalisierung?"},"content":{"rendered":"<p><strong>Daniel ist unser technischer Support f\u00fcr die Weiterbildungen bei Liora. Er ist der Experte, der sich mit allen Themen der Data Science auskennt und die Lernenden durch ihre Weiterbildungen begleitet. Heute haben wir es geschafft, ein paar Minuten seiner kostbaren Zeit zu nehmen, damit er unsere Fragen rund um die Datenstandardisierung beantworten kann.\n\nIch: Hallo Daniel! Ich wei\u00df, dass wir Dir diese Frage schon oft gestellt haben, aber ich h\u00f6re st\u00e4ndig von der \u201eDatennormalisierung\u201d. Kannst Du mir helfen, das Konzept in wenigen Worten zu verstehen?<\/strong><\/p>\n<b>Daniel:<\/b> Tats\u00e4chlich ist die Datennormalisierung im Bereich Data Science ein <b>zentrales Konzept der Datenvorverarbeitung<\/b>, wenn man an einem <a href=\"https:\/\/liora.io\/de\/machine-learning-definition-funktionsweise-anwendungen\">Machine-Learning<\/a>-Projekt arbeiten muss.\n\nMit dem Wort \u201eNormalisierung\u201d sind eigentlich zwei Hauptverfahren gemeint: <b>Normalisierung und Standardisierung<\/b>. Im Gro\u00dfen und Ganzen haben beide Verfahren denselben Zweck: numerische Variablen so zu skalieren, dass sie auf einer gemeinsamen Skala vergleichbar sind.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung-data-scientist\">Lerne, Daten zu normalisieren<\/a><\/div><\/div>\n\n<h3>Wie sieht das mathematisch aus?<\/h3>\nBetrachten wir eine <strong>numerische Variable<\/strong> mit <strong>n Beobachtungen<\/strong>, die so geschrieben werden kann:\n\n<img decoding=\"async\" width=\"485\" height=\"85\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/cap3.png\" alt=\"Normalisation des donn\u00e9es\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/cap3.png 485w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/cap3-300x53.png 300w\" sizes=\"(max-width: 485px) 100vw, 485px\">\n\nDa wir eine <strong>endliche Anzahl von realen Werten<\/strong> haben, k\u00f6nnen wir verschiedene statistische Informationen extrahieren, darunter: <strong>Min<\/strong>, <strong>Max<\/strong>, <strong>Mittelwert<\/strong> und <strong>Standardabweichung<\/strong>.&nbsp;F\u00fcr ein <strong>Normalisierungsverfahren<\/strong> brauchen wir nur Min und Max.\n<blockquote><i>Die Idee dahinter ist, dass wir alle Werte der Variablen zwischen 0 und 1 reduzieren, w\u00e4hrend wir die Abst\u00e4nde zwischen den Werten beibehalten.<\/i><\/blockquote>\nDie Formel lautet einfach wie folgt:\n\n<img decoding=\"async\" width=\"429\" height=\"109\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/cap1.png\" alt=\"Normalisation des donn\u00e9es\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/cap1.png 429w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/cap1-300x76.png 300w\" sizes=\"(max-width: 429px) 100vw, 429px\">\n<blockquote><i>Bei der <\/i><strong><i>Standardisierung<\/i><\/strong><i> ist die Umwandlung feiner als einfach alle Werte zwischen 0 und 1 zu bringen: Der <\/i><strong><i>Mittelwert <\/i><i>\u03bc wird auf 0 <\/i><\/strong><i>gebracht, die <\/i><strong><i>Standardabweichung \u03c3 auf 1<\/i><\/strong><i>.<\/i><\/blockquote>\nAuch hier ist es einfach. Wenn man den Mittelwert \u03bc und die Standardabweichung \u03c3 einer gegebenen Variable X = x1 x2 xn zur Verf\u00fcgung hat, wird die standardisierte Variable so geschrieben:&nbsp; &nbsp;&nbsp;\n\n<img decoding=\"async\" width=\"434\" height=\"122\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/Capture-de\u0301cran-2020-12-30-a\u0300-16.18.58.png\" alt=\"Normalisation des donn\u00e9es\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/Capture-de\u0301cran-2020-12-30-a\u0300-16.18.58.png 434w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/12\/Capture-de\u0301cran-2020-12-30-a\u0300-16.18.58-300x84.png 300w\" sizes=\"(max-width: 434px) 100vw, 434px\">\n<h3>Das ist alles toll, aber wozu braucht man Datennormalisierung ?<\/h3>\nIn der Datenverarbeitung arbeiten wir sehr oft mit numerischen Daten, und <strong>diese Daten sind selten in ihrem Rohzustand vergleichbar.<\/strong>\n<blockquote><i>Die Arbeit mit unterschiedlich skalierten Daten kann bei der Analyse ein Problem sein, da eine numerische Variable mit einem Wertebereich von 0 bis 10.000 in der Analyse st\u00e4rker ins Gewicht f\u00e4llt als eine Variable mit Werten zwischen 0 und 1, was sp\u00e4ter zu <strong>Verzerrungen f\u00fchren w\u00fcrde<\/strong><b>.<\/b><\/i><\/blockquote>\nAchtung! Bei der Verarbeitung unserer Daten ist die Normalisierung kein obligatorischer Schritt, da sie einen unmittelbaren Informationsverlust verursacht und in manchen F\u00e4llen von Nachteil sein kann!\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Erfahre mehr \u00fcber unsere Weiterbildungen in Data Science<\/a><\/div><\/div>\n\n<h3>Jetzt ist es klarer, aber eine Frage bleibt offen: Wie normalisiert man konkret Daten?<\/h3>\nMit <strong><a href=\"https:\/\/liora.io\/de\/python\">Python<\/a> ist das sehr einfach<\/strong>: Es gibt viele Bibliotheken, die dies erm\u00f6glichen. Ich werde nur <a href=\"https:\/\/scikit-learn.org\/stable\/\">Scikit-learn<\/a>&nbsp;erw\u00e4hnen, da es die am h\u00e4ufigsten verwendete Bibliothek in Data Science ist. Diese Bibliothek bietet Funktionen, die die gew\u00fcnschten Normalisierungen in wenigen, sehr einfachen Codezeilen durchf\u00fchren.\n\nDennoch ist es wichtig, die Anwendungsf\u00e4lle in einen<strong> Kontext zu stellen.<\/strong> Denn in der Praxis reicht es nicht aus, eine einfache Normalisierung auf alle unsere Daten anzuwenden, wenn wir unsere Trainingsdaten bereits normalisiert haben.\n\nWarum ist das so? Aus dem einfachen Grund, <strong>dass es nicht m\u00f6glich ist, dieselbe Transformation auf eine Stichprobe oder auf neue Daten anzuwenden<\/strong>.\n\nEs ist nat\u00fcrlich m\u00f6glich, jede beliebige Stichprobe auf die gleiche Weise zu zentrieren und zu reduzieren, aber mit einem Mittelwert und einer Standardabweichung, die sich von denen unterscheiden, die f\u00fcr den Trainingssatz verwendet werden.\n\nDie Ergebnisse w\u00e4ren dann <strong>keine angemessene Darstellung<\/strong> der Leistung des Modells als Ganzes, wenn es auf neue Daten angewendet wird.\n\nAnstatt also die Normalisierungsfunktion direkt anzuwenden, ist es besser, eine Funktion von Scikit-Learn namens <strong>API Transformer<\/strong> zu verwenden, die es Dir erm\u00f6glicht, einen Preprocessing-Schritt unter Verwendung der Trainingsdaten anzupassen (engl. <i>fit<\/i>).\n\nWenn also beispielsweise die <strong>Normalisierung auf andere Stichproben angewendet<\/strong> wird, werden die gleichen gespeicherten Mittelwerte und Standardabweichungen verwendet.\n\nUm diesen <strong>\u201eangepassten\u201d Preprocessing-Schritt<\/strong> zu erstellen, verwende einfach die Funktion StandardScaler und passe sie dann mit den Trainingsdaten an. Um sie sp\u00e4ter auf eine Datentabelle anzuwenden, musst Du nur scaler.transform() anwenden.\n\nGenauso funktioniert es f\u00fcr eine <strong>Min-Max Normalisierung.<\/strong>\n\nSuper, danke Daniel!\n\nAuch interessant:\n<ul>\n \t<li><a href=\"https:\/\/liora.io\/de\/data-leakage-was-ist-das-wie-kann-man-sich-davor-schuetzen\">Data Leakage<\/a><\/li>\n \t<li><a href=\"https:\/\/liora.io\/de\/treemap-definition-anwendung-und-grenzen\">Treemap &#8211; Definition und Anwendung<\/a><\/li>\n \t<li><a href=\"https:\/\/liora.io\/de\/datamart-tool-fuer-die-verwaltung-von-betriebsdaten\">Datamart: Betriebsdatenmanagement<\/a><\/li>\n \t<li><a href=\"https:\/\/liora.io\/de\/wie-wird-man-data-scientist\">Wie wird man Datascientist ?<\/a><\/li>\n<\/ul>\n<h3>Wenn wir uns in Data Science weiterbilden und Deine Tipps anwenden wollen, wie machen wir das?<\/h3>\nGanz einfach: Du kannst in K\u00fcrze einen unserer <a href=\"https:\/\/liora.io\/de\/weiterbildung-data-scientist\">Data Science-Kurse<\/a> belegen <img decoding=\"async\" role=\"img\" src=\"https:\/\/s.w.org\/images\/core\/emoji\/14.0.0\/svg\/1f642.svg\" alt=\"?\">.\n\n<iframe title=\"Wie kann ich meine Weiterbildung finanzieren?\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/awMWNU5D2sE?start=21&#038;feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung-data-scientist\">Entdecke unsere n\u00e4chsten Starttermine<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Daniel ist unser technischer Support f\u00fcr die Weiterbildungen bei Liora. Er ist der Experte, der sich mit allen Themen der Data Science auskennt und die Lernenden durch ihre Weiterbildungen begleitet. Heute haben wir es geschafft, ein paar Minuten seiner kostbaren Zeit zu nehmen, damit er unsere Fragen rund um die Datenstandardisierung beantworten kann. Ich: Hallo [&hellip;]<\/p>\n","protected":false},"author":74,"featured_media":30548,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-135141","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/135141","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/74"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=135141"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/135141\/revisions"}],"predecessor-version":[{"id":217598,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/135141\/revisions\/217598"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/30548"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=135141"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=135141"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}