{"id":165917,"date":"2023-02-17T09:55:12","date_gmt":"2023-02-17T08:55:12","guid":{"rendered":"https:\/\/liora.io\/de\/?p=165917"},"modified":"2026-02-06T07:05:05","modified_gmt":"2026-02-06T06:05:05","slug":"data-cleaning","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/data-cleaning","title":{"rendered":"Data Cleaning: Definition, Techniken, Bedeutung in der Data Science"},"content":{"rendered":"<p><strong>Data Cleaning oder Datenbereinigung ist ein unverzichtbarer Schritt in der Data Science und im Machine Learning. Es geht darum, Probleme in den Datens\u00e4tzen zu l\u00f6sen, damit sie sp\u00e4ter genutzt werden k\u00f6nnen. Definitionen, Techniken, Anwendungsbeispiele, Schulungen&#8230;<\/strong><\/p>\n<strong>Daten sind f\u00fcr Data Science, k\u00fcnstliche Intelligenz und Machine Learning unverzichtbar<\/strong>. Sie sind sozusagen der Treibstoff f\u00fcr diese Technologien.\n\nDaher ist es sehr wichtig, <strong>die Qualit\u00e4t der Daten zu gew\u00e4hrleisten<\/strong>. Heutzutage ist es sehr einfach, saubere und strukturierte Daten von guter Qualit\u00e4t auf speziellen Marktpl\u00e4tzen zu finden. Wenn ein Unternehmen hingegen seine eigenen internen Daten bereinigen will, muss ein Unternehmen auf Data Cleaning zur\u00fcckgreifen.\n\n<iframe title=\"Le Machine Learning : Comment \u00e7a marche ?\" width=\"500\" height=\"375\" src=\"https:\/\/www.youtube.com\/embed\/q1Yos0JxY3w?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<h3>Was genau ist Data Cleaning?<\/h3>\nData Cleaning (<strong>auch Data Cleansing oder Data Scrubbing genannt<\/strong>) umfasst mehrere Prozesse, die darauf abzielen, die Qualit\u00e4t der Daten zu verbessern. Es gibt viele Werkzeuge und Praktiken, um Probleme in einem Dataset zu beseitigen.\n\nDiese Prozesse dienen dazu, <strong>ungenaue Datens\u00e4tze<\/strong> in einer Datenbank oder einem Datensatz zu korrigieren oder zu <strong>entfernen<\/strong>. Im Allgemeinen geht es darum, unvollst\u00e4ndige, ungenaue, korrupte oder irrelevante Daten oder Datens\u00e4tze zu identifizieren und zu ersetzen.\n\nAm Ende eines korrekt durchgef\u00fchrten Data Cleanings sollten alle Datens\u00e4tze <strong>konsistent und fehlerfrei<\/strong> sein. Dies ist f\u00fcr die Verwendung und Nutzung der Daten unerl\u00e4sslich.\n\nOhne Bereinigung <strong>k\u00f6nnen die Ergebnisse von Analysen verf\u00e4lscht werden<\/strong>. Ebenso kann ein Machine-Learning- oder KI-Modell, das mit den falschen Daten trainiert wurde, verzerrt sein oder eine schlechte Leistung erbringen.\n\n<strong>Data Cleaning unterscheidet sich von Data Transformation<\/strong>. Beim Cleaning werden die Daten von einem Format in ein anderes umgewandelt, w\u00e4hrend die Transformation (auch Wrangling oder Munging genannt) darauf abzielt, die Rohdaten in ein f\u00fcr die Analyse geeignetes Format umzuwandeln.\n\n<iframe title=\"Data Transformation: Voyage au coeur de la Culture de la Donn\u00e9e - Adeline Bernery (Safran Analytics)\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/MIehKREnLdM?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<h3>Wozu dient Data Cleaning?<\/h3>\nDaten sind heute <b>eine wichtige Ressource f\u00fcr Unternehmen in <\/b>allen Branchen. Im Zeitalter von Big Data werden sie als Unterst\u00fctzung f\u00fcr entscheidende Entscheidungen genutzt.\n\nLaut einer von IBM durchgef\u00fchrten Studie <b>kostet schlechte Datenqualit\u00e4t <\/b>in den USA <b>mittlerweile 3,1 Billionen <\/b>US-Dollar pro Jahr. Und diese Kosten steigen exponentiell.\n\nDie <b>Vorbeugung durch Data Cleaning <\/b>ist relativ erschwinglich, aber die Behebung bereits bestehender Probleme kann zehnmal so teuer sein. Schlimmer noch: Die Korrektur eines Problems in den Daten, nachdem es einen Ausfall verursacht hat, ist hundertmal teurer.\n\nEine <b>Vielzahl von Problemen <\/b>kann durch eine niedrige Datenqualit\u00e4t entstehen. Eine Marketingkampagne k\u00f6nnte z. B. falsch ausgerichtet sein und deshalb scheitern.\n\nIm <b>Gesundheitswesen <\/b>k\u00f6nnen schlechte Daten zu schlecht geeigneten Behandlungen und sogar zum Scheitern der Entwicklung von Medikamenten f\u00fchren. Eine von Accenture durchgef\u00fchrte Studie zeigt, dass der Mangel an sauberen Daten das gr\u00f6\u00dfte Hindernis f\u00fcr die Einf\u00fchrung von KI in diesem Bereich ist.\n\nIn der Logistik k\u00f6nnen Daten <b>zu Problemen bei der Bestandsaufnahme <\/b>und der Lieferplanung f\u00fchren und somit die Kundenzufriedenheit beeintr\u00e4chtigen. In der Fertigung k\u00f6nnen Fabriken, die Roboter mit falschen Daten einrichten, ernsthafte Probleme bekommen.\n\nData Cleaning ist notwendig, um die Datenschutzbestimmungen einzuhalten, die von <b>Gesetzen wie der DSGVO vorgeschrieben werden<\/b>. In allen Branchen kann Data Cleaning also helfen, gro\u00dfe Probleme zu vermeiden.\n\n<iframe title=\"Comprendre le RGPD en cinq questions\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/iMD3pWAFXEY?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<h3>Die Vorteile von Data Cleaning<\/h3>\nData Cleaning bietet viele Vorteile. Einer der gr\u00f6\u00dften Vorteile ist, dass sie <b>eine bessere datenbasierte Entscheidungsfindung <\/b>erm\u00f6glichen.\n\nEine <b>hohe Qualit\u00e4t wirkt sich positiv auf <\/b>alle Aktivit\u00e4ten aus, die mit Daten zu tun haben. Daten werden in allen Bereichen immer wichtiger.\n\nUm den vollen Nutzen aus dieser Praxis zu ziehen, muss Data Cleaning als <b>eine unternehmensweite Anstrengung <\/b>verstanden werden. Es sorgt nicht nur f\u00fcr reibungslosere Abl\u00e4ufe im Unternehmen, sondern steigert auch die Produktivit\u00e4t, da die Teams keine Zeit mehr mit fehlerhaften Daten verschwenden m\u00fcssen.\n\nDie <b>Ums\u00e4tze k\u00f6nnen steigen, <\/b>wenn die Marketingteams Zugang zu den besten Daten haben. Die Kumulierung dieser verschiedenen internen und externen Vorteile f\u00fchrt zu einer h\u00f6heren Rentabilit\u00e4t.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung-data-engineer\">Eine Data Cleaning-Schulung absolvieren<\/a><\/div><\/div>\n\n<h3>Die verschiedenen Arten von Datenproblemen<\/h3>\nUnternehmen sammeln eine Vielzahl von Daten <b>aus den unterschiedlichsten Quellen<\/b>. Diese Informationen k\u00f6nnen direkt intern oder von Kunden gesammelt werden oder sogar aus dem Internet und sozialen Netzwerken erfasst werden.\n\nBei diesem Prozess <b>k\u00f6nnen <\/b>jedoch <b>verschiedene Probleme auftreten<\/b>. Zun\u00e4chst einmal kann ein Dataset doppelte Daten enthalten, d. h. mehrere identische Datens\u00e4tze.\n\nDie <b>Daten k\u00f6nnen auch in Konflikt zueinander stehen<\/b>. Ein Satz kann mehrere \u00e4hnliche Datens\u00e4tze mit unterschiedlichen Attributen enthalten.\n\nIm Gegenteil, es kann vorkommen, dass <b>Datenattribute fehlen<\/b>. Es kann auch sein, dass die Daten nicht den Vorschriften entsprechen.\n\nDiese Probleme k\u00f6nnen von verschiedenen Quellen verursacht werden. Es kann sich um ein <b>Synchronisationsproblem handeln, <\/b>wenn die Daten zwischen zwei Systemen nicht richtig geteilt werden.\n\nEine weitere Ursache kann <b>ein Softwarefehler in <\/b>Datenverarbeitungsanwendungen sein. Informationen k\u00f6nnen mit Fehlern &#8222;geschrieben&#8220; werden, w\u00e4hrend die richtigen Daten versehentlich \u00fcberschrieben werden k\u00f6nnen.\n\nSchlie\u00dflich <b>kann die Ursache auch ganz einfach menschlich sein<\/b>. Verbraucher k\u00f6nnen absichtlich unvollst\u00e4ndige oder falsche Daten angeben, um ihre Privatsph\u00e4re zu sch\u00fctzen.\n\n<iframe title=\"Que fait un Data Scientist ? DataScientest vous fait vivre une journ\u00e9e exclusive en immersion !\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/A4v6hKD-qcU?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<h3>Was sind die Merkmale von qualitativ hochwertigen Daten?<\/h3>\nUm als qualitativ hochwertig zu gelten, m\u00fcssen Daten eine Reihe von Kriterien erf\u00fcllen. Sie <strong>m\u00fcssen &#8222;g\u00fcltig&#8220; sein, d. h.<\/strong> sie m\u00fcssen den Regeln und Einschr\u00e4nkungen entsprechen, die das Unternehmen festgelegt hat. Dies k\u00f6nnen Einschr\u00e4nkungen bez\u00fcglich der Datentypen, der Werte oder der Organisation der Daten in den Datenbanken sein.\n\n<strong>Qualitativ hochwertige Daten<\/strong> m\u00fcssen auch genau, vollst\u00e4ndig, konsistent, einheitlich und nachvollziehbar sein. Dies sind die Merkmale, die sich auf die Datenqualit\u00e4t auswirken und die mithilfe von Data Cleaning korrigiert werden k\u00f6nnen.\n<h3>Die Schritte des Data Cleaning<\/h3>\nUm effektiv zu sein, muss Data Cleaning als <b>ein schrittweiser Prozess <\/b>betrachtet werden. Zu Beginn sollte ein Plan f\u00fcr die Datenqualit\u00e4t erstellt werden.\n\nBei diesem Plan geht es darum, <b>die Hauptquelle <\/b>von Fehlern und Problemen zu ermitteln und festzulegen, wie diese behoben werden k\u00f6nnen. Die Korrekturma\u00dfnahmen sollten auf die richtigen Verantwortlichen aufgeteilt werden.\n\nAu\u00dferdem <b>m\u00fcssen Metriken ausgew\u00e4hlt werden, <\/b>die die Datenqualit\u00e4t auf klare und pr\u00e4gnante Weise messen. Dies erm\u00f6glicht sp\u00e4ter die Priorisierung von Data-Cleaning-Initiativen.\n\nSchlie\u00dflich muss <b>eine Reihe von Aktionen und Ma\u00dfnahmen <\/b>identifiziert werden, um den Prozess in Gang zu setzen. Diese Ma\u00dfnahmen werden im Laufe der Zeit, bei \u00c4nderungen der Datenqualit\u00e4t und der Entwicklung des Unternehmens aktualisiert.\n\nDer zweite Schritt besteht darin, <b>die Daten an der Quelle zu korrigieren, <\/b>noch bevor sie in falscher Form in das System aufgenommen werden. Diese Praxis spart Zeit und Energie und erm\u00f6glicht es, Probleme zu beheben, bevor es zu sp\u00e4t ist.\n\nAnschlie\u00dfend ist es wichtig, <b>die Genauigkeit der Daten <\/b>in Echtzeit zu <b>messen.<\/b> Es gibt verschiedene Werkzeuge und Techniken, die f\u00fcr diesen Zweck vorgesehen sind.\n\nWenn es dir leider nicht gelingt, Duplikate an der Quelle zu entfernen, ist es wichtig, <b>sie aufzusp\u00fcren und <\/b>sp\u00e4ter<b> aktiv zu entfernen.<\/b> Au\u00dferdem solltest du die Daten standardisieren, normalisieren, zusammenf\u00fchren, aggregieren und filtern.\n\nIm letzten Schritt werden schlie\u00dflich die <b>fehlenden Informationen erg\u00e4nzt<\/b>. Nachdem du diesen Prozess abgeschlossen hast, sind die Daten bereit, in einen Datenkatalog exportiert und analysiert zu werden.\n<h3>Wie kann man sich in Data Cleaning ausbilden lassen?<\/h3>\n<iframe title=\"Comment se former \u00e0 la data science en 2022 ? R\u00e9ponse en 2:30 avec DataScientest ! \ud83c\udfac\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/SNNK6z03TaA?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n\nData Cleaning ist f\u00fcr die Bereiche Data Science und k\u00fcnstliche Intelligenz unerl\u00e4sslich. Daher ist es zwingend notwendig, <strong>die verschiedenen<\/strong> existierenden <strong>Werkzeuge und Techniken zu beherrschen<\/strong>, um in diesen Bereichen arbeiten zu k\u00f6nnen.\n\nUm diese F\u00e4higkeiten zu erwerben, kannst du dich f\u00fcr die Liora-Ausbildung entscheiden. Unsere verschiedenen <strong>Programme Data Engineer, Data Analyst und Data Scientist<\/strong> <strong>geben<\/strong> dir die M\u00f6glichkeit, zu lernen, wie man Daten verarbeitet und insbesondere wie man sie bereinigt.\n\nNach Abschluss dieser berufsqualifizierenden Kurse bist du bereit, im Bereich Data Science zu arbeiten. Von den ehemaligen Lernenden <strong>haben 93 % sofort einen Job<\/strong> <strong>gefunden<\/strong>. Du erh\u00e4ltst au\u00dferdem ein von der Universit\u00e4t Sorbonne zertifiziertes Diplom.\n\nAlle unsere Kurse werden <strong>als Bootcamp oder als Weiterbildung<\/strong> angeboten. Der in Frankreich innovative Blended-Learning-Ansatz bringt Fernunterricht und Pr\u00e4senzunterricht in Einklang, um das Beste aus beiden Welten zu bieten. Warte nicht l\u00e4nger und entdecke <a href=\"\/formation\/data-ia\/\">unsere Kurse f\u00fcr Berufe im Bereich Data Science<\/a>!\n\nDu wei\u00dft alles \u00fcber Data Cleaning. Schau dir <a href=\"https:\/\/liora.io\/data-science-definition\">unser komplettes Dossier \u00fcber Data Science<\/a> und <a href=\"https:\/\/liora.io\/machine-learning-engineer-tout-savoir\">unsere Einf\u00fchrung in Machine Learning<\/a> an.","protected":false},"excerpt":{"rendered":"<p>Data Cleaning oder Datenbereinigung ist ein unverzichtbarer Schritt in der Data Science und im Machine Learning. Es geht darum, Probleme in den Datens\u00e4tzen zu l\u00f6sen, damit sie sp\u00e4ter genutzt werden k\u00f6nnen. Definitionen, Techniken, Anwendungsbeispiele, Schulungen&#8230; Daten sind f\u00fcr Data Science, k\u00fcnstliche Intelligenz und Machine Learning unverzichtbar. Sie sind sozusagen der Treibstoff f\u00fcr diese Technologien. Daher [&hellip;]<\/p>\n","protected":false},"author":47,"featured_media":165918,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-165917","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165917","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/47"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=165917"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165917\/revisions"}],"predecessor-version":[{"id":217733,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165917\/revisions\/217733"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/165918"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=165917"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=165917"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}