{"id":179382,"date":"2023-07-01T14:10:16","date_gmt":"2023-07-01T13:10:16","guid":{"rendered":"https:\/\/liora.io\/de\/?p=179382"},"modified":"2026-02-06T06:37:06","modified_gmt":"2026-02-06T05:37:06","slug":"data-quality-10-fehler-die-du-nicht-machen-solltest","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/data-quality-10-fehler-die-du-nicht-machen-solltest","title":{"rendered":"Data Quality: 10 Fehler, die du nicht machen solltest"},"content":{"rendered":"<p>Data Quality: Wir leben heute im goldenen Zeitalter der Daten. Jede E-Mail, die du erh\u00e4ltst, jede App, die du herunterl\u00e4dst, jeder Klick auf den Wetterbericht erzeugt eine Menge Daten. Aber, wie ein bekanntes Sprichwort in der IT-Branche sagt: <strong>Garbage In, Garbage Out.<\/strong> Die Informationen, die ein Unternehmen aus den Daten ziehen kann, sind nur dann gut, wenn die Daten selbst gut sind.<br>Schlechte Datenqualit\u00e4t kann zu Schwierigkeiten bei der Informationsgewinnung f\u00fchren und letztendlich zu einer schlechten Entscheidungsfindung im Unternehmen.<\/p><p>Dar\u00fcber hinaus k\u00f6nnen Daten von schlechter Qualit\u00e4t gro\u00dfe Auswirkungen auf die Organisation eines Unternehmens haben. Zum Beispiel: Ein hoher Prozentsatz <strong>falscher E-Mail-Adressen<\/strong> in einer <a href=\"https:\/\/liora.io\/de\/relationale-datenbanken\">Datenbank<\/a> kann das Ergebnis einer Marketingkampagne verf\u00e4lschen, ein falsches Messsystem kann zu falschen Verkaufsprognosen f\u00fchren.<\/p><p>Deshalb ist es f\u00fcr alle, die <strong>Daten erstellen,<\/strong> manipulieren oder auswerten, wichtig, die Qualit\u00e4t der Daten sicherzustellen. Hier ist eine kleine Liste von Fehlern, die zu einem Problem mit der <strong>Datenqualit\u00e4t<\/strong> f\u00fchren k\u00f6nnen:<\/p>\t\t\n\t\t\t<h3>1- Falsches Verst\u00e4ndnis der Datenumgebung\n<\/h3>\t\t\n\t\t<blockquote><p>Die Unkenntnis der Art der Daten<b>, die uns zur Verf\u00fcgung stehen, oder der Definitionen der Variablen im Datensatz kann zu einer falschen Analyse der Daten f\u00fchren, oder schlimmer noch, zu einer ungenauen\/naheliegenden Interpretation<b>. <\/b><\/b><\/p><\/blockquote><p><br>Das erste, was du tun solltest, bevor du einen Datensatz erforschst, ist, dich f\u00fcr die Metadaten zu interessieren, d.h. f\u00fcr die Informationen, die du \u00fcber die Daten hast:&nbsp;<\/p><blockquote><p>Was ist die Quelle dieser Daten? Wie wurden diese Daten gesammelt .<\/p><p>Welche Arten von Dateien haben wir? Wie gro\u00df sind sie? .<\/p><p>Welche Merkmale sind vorhanden?<\/p><\/blockquote><p>.<br>Ein Datensatz, der von der Regierung geteilt wird und mehrere Gigabyte an Daten enth\u00e4lt, die \u00fcber Jahre hinweg gesammelt wurden, ist nicht dasselbe wie ein Datensatz, der durch eine Umfrage bei einer Stichprobe der Bev\u00f6lkerung gewonnen wurde.<\/p><p><b>Wenn man seine Daten gut kennt, kann man viele Fehler vermeiden.<\/b>.<\/p>\t\t\n\t\t\t<h2>2 &#8211; Unvollst\u00e4ndige Informationen<\/h2>\t\t\n\t\t<p>Fehlende Werte sind ein sehr h\u00e4ufig auftretendes <a href=\"https:\/\/liora.io\/de\/data-science-bootcamp-vorteile-fuer-deine-karriere\">Thema in der Datenwissenschaft.<\/a><\/p><p>In der Statistik treten fehlende Daten oder fehlende Werte auf, wenn f\u00fcr eine Variable bei einer bestimmten Beobachtung kein Wert dargestellt wird.<\/p><p>Einige Gr\u00fcnde f\u00fcr das Vorhandensein fehlender Daten in einem Datensatz sind:<\/p><ul><li>Der Nutzer hat vergessen, ein Feld auszuf\u00fcllen.<\/li><li>Daten sind bei einer manuellen \u00dcbertragung aus einer alten Datenbank verloren gegangen.<\/li><li>Es ist ein Programmierfehler aufgetreten.<\/li><li>Der Nutzer hat sich daf\u00fcr entschieden, ein Feld nicht auszuf\u00fcllen, das mit seinen \u00dcberzeugungen dar\u00fcber zusammenh\u00e4ngt, wie die Ergebnisse verwendet oder interpretiert werden w\u00fcrden.<\/li><\/ul><p>Manchmal handelt es sich einfach um zuf\u00e4llige Fehler; in anderen F\u00e4llen ist es ein systematisches Problem.<\/p><p><strong>Fehlende Werte<\/strong> kommen h\u00e4ufig vor und k\u00f6nnen einen erheblichen Einfluss auf die Analyse, die Leistung von Vorhersagen oder jegliche Verwendung von Daten, die solche Werte enthalten, haben.<\/p><p>Der richtige Umgang mit fehlenden Daten ist daher grundlegend f\u00fcr die erfolgreiche Durchf\u00fchrung einer Studie.<\/p><p>Um Probleme zu vermeiden, muss man zun\u00e4chst einmal wissen, welche Werte als fehlend zu betrachten sind. Beispielsweise enthalten einige Variablen Leerzeichen oder Sonderzeichen (&#8218;?&#8216;, &#8220;, &#8230;), die fehlende Werte darstellen, aber nicht unbedingt als solche erkannt werden.<\/p><p><strong>Das Ersetzen der fehlenden Werte<\/strong> oder das L\u00f6schen der betreffenden Zeilen oder Spalten muss auf intelligente Weise erfolgen.<\/p><p>Es ist nicht n\u00f6tig, eine Spalte mit 5 fehlenden Werten von 200.000 zu l\u00f6schen, aber eine Zeile mit 60% fehlenden Daten k\u00f6nnte einem maschinellen Lernmodell mehr schaden als n\u00fctzen.<\/p>\t\t\n\t\t\t<h2>3 &#8211; Typografische Fehler und ungenaue Daten\n<\/h2>\t\t\n\t\t<p><strong>Ungenaue Daten<\/strong> sind alle Daten, die ein Problem mit der \u00dcbereinstimmung oder der Wahrheit haben: Ein falsch geschriebener Name, eine unvollst\u00e4ndige Adresse, ein Wert, der nichts mit der Variable zu tun hat, in der er enthalten ist. Es gibt eine ganze Reihe von Fehlern, die in den meisten F\u00e4llen korrigiert werden k\u00f6nnen, aber man muss sie auch erkennen k\u00f6nnen.<\/p><p>Heutzutage werden viele Unternehmen von ungenauen Daten herausgefordert, aber noch mehr von der F\u00e4higkeit, diese zu erkennen.<\/p><p>Wie kann man erkennen, ob die <strong>Ergebnisse einer Suchanfrage falsch sind?<\/strong> Vor allem, wenn die Antwort richtig zu sein scheint?<\/p><p>Wenn ein Analyst im Rahmen einer internen Umfrage nach dem monatlichen Umsatz seines Unternehmens in den letzten zwei Jahren sucht und auf ein Ergebnis von 100 \u20ac st\u00f6\u00dft, wird er zwangsl\u00e4ufig an der Richtigkeit der Information zweifeln. Und er wird Recht haben, denn der Wert wird h\u00f6chstwahrscheinlich nicht korrekt sein.<\/p><p>Aber wenn einer der Ums\u00e4tze mit 200.000 \u20ac statt mit 236.000 \u20ac angegeben wird, wird der Analyst dies wahrscheinlich nicht in Frage stellen.<\/p><p>Die <strong>ungenauen Daten<\/strong> werden verwendet und tragen dazu bei, neue Daten und Analysen von schlechter Qualit\u00e4t zu erstellen, die potenziell zu schlechten Entscheidungen f\u00fchren k\u00f6nnen.<\/p><p>Deshalb ist es wichtig, dass du, sobald du Daten sammelst oder erstellst, darauf achtest und \u00fcberpr\u00fcfst, dass sie korrekt sind und keine Fehler enthalten, die sp\u00e4ter \u00c4rger verursachen k\u00f6nnten.<\/p>\t\t\n\t\t\t<h2>4 &#8211; Inkonsistentes Format \/ Probleme mit Dateiarten<\/h2>\t\t\n\t\t<p>Wenn Daten in uneinheitlichen Formaten gespeichert werden, k\u00f6nnen die Systeme, die zur Analyse oder Speicherung der Informationen verwendet werden, diese m\u00f6glicherweise nicht richtig interpretieren.&nbsp;<\/p><blockquote><p>Wenn eine Organisation beispielsweise ihre Verbraucherdatenbank pflegt, muss das <b>Speicherformat<\/b>der grundlegenden Informationen <b>festgelegt<\/b>werden.  Der Name (Vorname, Nachname oder umgekehrt), das Geburtsdatum (amerikanischer\/europ\u00e4ischer Stil) oder die Telefonnummer (mit oder ohne L\u00e4ndervorwahl) m\u00fcssen in genau demselben Format gespeichert werden. <\/p><\/blockquote><p><br>F\u00fcr Personen, die mit diesen Daten umgehen, kann es sehr zeitaufw\u00e4ndig sein, die vielen verschiedenen Datenformate einfach zu entwirren..<\/p><p>Ebenso muss der <b>Typ der Variablen <\/b>vordefiniert werden. Zum Beispiel wird eine Variable, die ein Datum darstellt, deren Werte teilweise im Format <i>datetime, <\/i>Text <i>und teilweise im Format <i>Text <\/i>haben, unweigerlich Probleme f\u00fcr den Benutzer verursachen.<\/i><\/p><p>Achte darauf, dass du das Format und den Typ der Variablen, die du erstellst, immer festlegst, oder stelle sicher, dass sie einheitlich und konsistent sind, wenn du Daten abrufst..<\/p>\t\t\n\t\t\t<h2>5 &#8211; Duplikate<\/h2>\t\t\n\t\t<p>Redundante Daten sind in den meisten Organisationen ein weit verbreitetes Problem.&nbsp;<\/p><blockquote><p>Doppelte Daten k\u00f6nnen durch das Sammeln identischer Informationen aus verschiedenen Quellen, durch menschliche Fehler oder durch Daten, die hinzugef\u00fcgt statt aktualisiert wurden, entstehen. <\/p><\/blockquote><p><br>Doppelte Daten k\u00f6nnen jede Art von Datenanalyse verzerren und indirekt sogar zu falschen Entscheidungen f\u00fchren<b>. <br><\/b><\/p><p>Au\u00dferdem haben dieselben Daten, die in mehreren Systemen dupliziert werden, einen unterschiedlichen Lebenszyklus<b>. Sie werden sich irgendwann weiterentwickeln und nicht mehr denselben Wert haben, selbst wenn sie als \u00e4hnlich identifiziert werden. Dies kann dazu f\u00fchren, dass man bei der Entscheidung, welche Version eines<strong> duplizierten Datensatzes<\/strong> f\u00fcr eine kritische Gesch\u00e4ftsentscheidung verwendet werden soll, ein gewisses Risiko eingeht..<\/b><\/p><p>Redundante Daten k\u00f6nnen ein Unternehmen auch sehr teuer zu stehen kommen, wenn sie sehr zahlreich sind. Gl\u00fccklicherweise gibt es zum Beispiel in Python Funktionen (wie <i>drop_duplicates <\/i>von Pandas) , mit denen man Duplikate sehr einfach loswerden kann..<\/p>\t\t\n\t\t\t<h2>6 &#8211; Ma\u00dfeinheiten oder mehrere Sprachen<\/h2>\t\t\n\t\t<p>Ein weiteres Problem ist die Verwendung von <b>verschiedenen Sprachen, verschiedenen Arten von Code oder verschiedenen Ma\u00dfeinheiten<\/b>.<\/p><p>Bevor du Daten aus verschiedenen Quellen zusammenf\u00fcgst, solltest du sicherstellen, dass sie kompatibel sind, oder <b>sie konvertieren<\/b>..<\/p><p>Es gibt viele Beispiele f\u00fcr katastrophale Fehler, die gemacht wurden, weil diese Fragen nicht zum richtigen Zeitpunkt ber\u00fccksichtigt wurden, wie zum Beispiel dieser <a href=\"https:\/\/www.vice.com\/en_us\/article\/qkvzb5\/the-time-nasa-lost-a-mars-orbiter-because-of-a-metric-system-mixup\">NASA-Satellit auf dem Mars<\/a>, der mehrere Millionen Dollar kostete und abst\u00fcrzte, weil seine Navigationssoftware in angels\u00e4chsischen <b>Ma\u00dfeinheiten<\/b> programmiert war und nicht nach dem metrischen <b>System. <\/b><\/p><p>Auch die Verarbeitung von Daten, die in <b>mehreren Sprachen <\/b>gespeichert sind, kann zu Schwierigkeiten f\u00fchren, wenn die <b>Analysewerkzeuge <\/b>diese nicht erkennen oder <b>nicht wissen, wie sie zu \u00fcbersetzen sind<\/b>. Auch <b>Sonderzeichen<\/b> wie Umlaute und Akzente k\u00f6nnen verheerende Folgen haben, wenn ein <b>System nicht f\u00fcr sie konfiguriert ist<\/b>. Du solltest daher diese potenziellen Probleme ber\u00fccksichtigen, wenn du mit internationalen Daten zu tun hast, und deine Algorithmen entsprechend programmieren..<\/p>\t\t\n\t\t\t<h2>7 &#8211; Ausrei\u00dfer (Outliers)<\/h2>\t\t\n\t\t<p>In der Statistik ist ein Ausrei\u00dfer ein<b>Wert, der stark von der Verteilung einer Variablen abweicht<\/b>. Es handelt sich um eine anormale Beobachtung, die von ansonsten gut strukturierten Daten abweicht.<\/p><p>Die Erkennung von Ausrei\u00dfern oder Anomalien ist eines der grundlegenden Probleme des <a href=\"https:\/\/liora.io\/de\/text-mining-definition-techniken-anwendungsfaelle\">Data Mining<\/a><b>. Die neu entstehende und anhaltende Datenexpansion l\u00e4sst uns neu dar\u00fcber nachdenken, wie wir mit Anomalien umgehen und welche Anwendungsf\u00e4lle durch die Untersuchung dieser Anomalien konstruiert werden k\u00f6nnen.<\/b><\/p><p>Die Anwendungsf\u00e4lle und L\u00f6sungen, die durch das Aufsp\u00fcren von Anomalien entwickelt werden, sind unbegrenzt..<\/p><p>Wir haben jetzt z. B. intelligente Uhren und Armb\u00e4nder, die unseren Herzschlag alle paar Minuten erkennen k\u00f6nnen.&nbsp;<\/p><blockquote><p>Die Erkennung von Anomalien in Herzfrequenzdaten kann bei der Vorhersage von Herzkrankheiten helfen. <\/p><\/blockquote><p><br>In der Data Science k\u00f6nnen Ausrei\u00dfer bestimmte statistische <strong>Parameter wie den Mittelwert<\/strong> beeinflussen. Wenn Ausrei\u00dfer nicht erkannt werden, kann dies unser Verst\u00e4ndnis eines Datensatzes verzerren und uns dazu verleiten, falsche Annahmen \u00fcber den Datensatz zu treffen.&nbsp;<\/p><p>Ein weiterer Grund, warum es wichtig ist, sich mit Ausrei\u00dfern zu besch\u00e4ftigen, ist, dass die meisten <b>Machine-Learning-Algorithmen<\/b>sehr empfindlich auf die Daten, mit denen sie trainiert werden, sowie auf deren Verteilungen reagieren.&nbsp;<\/p><blockquote><p>Outlier in der Trainingsmenge eines Machine-Learning-Modells k\u00f6nnen die Trainingsphase verl\u00e4ngern und potenziell verzerren.<\/p><\/blockquote><p>Daher wird das erstellte <b>Vorhersagemodell <\/b>weniger leistungsf\u00e4hig oder weniger genau sein<b>.<\/b><\/p><p>Es ist<b>einfach, einen Outlier <\/b>zu identifizieren, wenn die Beobachtungen eine <b>eindimensionale Menge von Zahlenwerten<\/b>bilden. Zum Beispiel kannst du den Ausrei\u00dfer in der folgenden Liste eindeutig identifizieren: [7, 2, 38600, 8, 4].<\/p><p>Bei Tausenden von Beobachtungen oder mehreren Dimensionen<b>erfordert die Erkennung von Ausrei\u00dfern jedoch die Verwendung bestimmter statistischer (z. B. Standardabweichung), grafischer (z. B. Boxplot) oder algorithmischer Werkzeuge, wie z. B. den Clustering mit DBSCAN.<\/b><\/p>\t\t\n\t\t\t<h2>8 &#8211; Fehler bei der Verarbeitung<\/h2>\t\t\n\t\t<p>In der Data Science ist es vor der Datenmodellierung \u00fcblich, bestimmte <b>mathematische Transformationen<\/b>, wie die <b>Normalisierung<\/b> der Werte einer Variablen, der <b>\u00dcbergang von einer kategorialen Variablen zu einer kontinuierlichen oder indikativen Variablen<\/b>.&nbsp;<\/p><p>In jedem Fall ist es wichtig, dass du <b>\u00fcberpr\u00fcfst<\/b>, ob die <b>Berechnungen<\/b>, die du durchf\u00fchrst, korrekt und koh\u00e4rent sind. Manchmal kann es vorkommen, dass die Ergebnisse nicht mit den Anforderungen \u00fcbereinstimmen, die man hatte, was zu Fehlern und Fehlinterpretationen f\u00fchren kann.<\/p>\t\t\n\t\t\t<h2>9 -Definitionsprobleme<\/h2>\t\t\n\t\t<p>Es ist wichtig, dass die in einem Datensatz enthaltenen Variablen immer genau beschrieben werden k\u00f6nnen. Wenn die Definition einer Variable nicht pr\u00e4zise genug ist, solltest du nachfragen.<\/p><blockquote><p>Manchmal kann eine Variable mehrere Bedeutungen oder Berechnungsmethoden f\u00fcr verschiedene Organisationen, L\u00e4nder oder Kontinente haben.<\/p><\/blockquote><p>Wenn du zum Beispiel eine Analyse der <b>Arbeitslosenquote<\/b> durchf\u00fchrst, musst du bedenken, dass die Arbeitslosenquote in den verschiedenen L\u00e4ndern unterschiedlich berechnet wird. <br><\/p><p>Vorsicht also, diese beiden Indikatoren nicht zu vergleichen oder zwei Tabellen zusammenzuf\u00fcgen, ohne diese Unterschiede zu ber\u00fccksichtigen. <\/p>\t\t\n\t\t\t<h2>10 &#8211; Fragen der Einhaltung von Vorschriften (Compliance)<\/h2>\t\t\n\t\t<p>Endlich mag es f\u00fcr einige offensichtlich sein, aber wenn man mit Daten umgeht, muss man sicherstellen, dass das Unternehmen, seine F\u00fchrungskr\u00e4fte und Angestellten<b> die f\u00fcr sie geltenden rechtlichen und ethischen Normen <\/b>einhalten. Auf diese Weise kann das Unternehmen finanzielle, rechtliche und Reputationsrisiken vermeiden, die entstehen, wenn es Gesetze, Vorschriften, Konventionen oder einfach eine bestimmte Ethik oder Berufsethik nicht einh\u00e4lt..<\/p><p>Neben den klassischen Schritten der <b>Bereinigung<\/b> und der <b>Transformation der Daten <\/b> f\u00fcr die Analyse oder Modellierung, kannst du mit den oben genannten Tipps wertvolle Zeit sparen und viele kostspielige Fehler vermeiden, die zu beheben sind.<b><br><\/b><\/p><p>Wie bereits erw\u00e4hnt, sind die schlimmsten Fehler diejenigen, die bis zum Zeitpunkt der Entscheidungsfindung ignoriert werden und die sich als kritisch f\u00fcr ein Unternehmen erweisen k\u00f6nnen.<\/p><p>Um die Qualit\u00e4t der Daten, mit denen du arbeitest, zu optimieren, haben wir einen Kurs entwickelt, der es dir erm\u00f6glicht, diese Tipps mit Python umzusetzen.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Weiterbildungen<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Data Quality: Wir leben heute im goldenen Zeitalter der Daten. Jede E-Mail, die du erh\u00e4ltst, jede App, die du herunterl\u00e4dst, jeder Klick auf den Wetterbericht erzeugt eine Menge Daten. Aber, wie ein bekanntes Sprichwort in der IT-Branche sagt: Garbage In, Garbage Out. Die Informationen, die ein Unternehmen aus den Daten ziehen kann, sind nur dann [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":179384,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-179382","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/179382","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=179382"}],"version-history":[{"count":4,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/179382\/revisions"}],"predecessor-version":[{"id":217416,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/179382\/revisions\/217416"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/179384"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=179382"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=179382"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}