{"id":174906,"date":"2023-04-22T13:51:34","date_gmt":"2023-04-22T12:51:34","guid":{"rendered":"https:\/\/liora.io\/de\/?p=174906"},"modified":"2026-02-06T06:53:40","modified_gmt":"2026-02-06T05:53:40","slug":"data-preprocessing-wie-man-seine-daten-vor-der-verarbeitung-vorbereitet","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/data-preprocessing-wie-man-seine-daten-vor-der-verarbeitung-vorbereitet","title":{"rendered":"Data Preprocessing: Wie man seine Daten vor der Verarbeitung vorbereitet"},"content":{"rendered":"<p><strong>Da immer mehr Daten erfasst und systematisch verarbeitet werden, haben sich Machine-Learning-Methoden durchgesetzt, die viele Daten ben\u00f6tigen, um zu laufen und zu trainieren. Obwohl man naiv annehmen k\u00f6nnte, dass eine gro\u00dfe Anzahl von Daten ausreicht, um einen leistungsf\u00e4higen Algorithmus zu haben, sind die uns zur Verf\u00fcgung stehenden Daten meistens nicht geeignet und m\u00fcssen meistens vorab bearbeitet werden, um sie dann verwenden zu k\u00f6nnen: das ist der Schritt des Data Preprocessing.<\/strong><\/p>\nFehler bei der <a href=\"https:\/\/liora.io\/de\/data-science-und-bildung-wie-daten-die-bildung-veraendern\">Datenerfassung<\/a>, die auf menschliche oder technische Fehler zur\u00fcckzuf\u00fchren sind, k\u00f6nnen unser Dataset verf\u00e4lschen und das Training verzerren. Zu diesen Fehlern geh\u00f6ren unvollst\u00e4ndige Informationen, fehlende oder falsche Werte oder St\u00f6rger\u00e4usche, die mit der Datenerfassung zusammenh\u00e4ngen.\n\nDaher ist es oft notwendig, eine Strategie der Datenvorverarbeitung &#8211; auch <strong>Data Preprocessing<\/strong> genannt &#8211; aus unseren Rohdaten zu erstellen, um zu verwertbaren Daten zu gelangen, die uns ein besseres Modell liefern. Wir werden die wichtigsten Schritte des Data Preprocessing, ihre Bedeutung und ihre Implementierung in <a href=\"https:\/\/liora.io\/de\/api-mit-python-datenbank-verbinden\">Python<\/a> untersuchen.\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"1099\" height=\"1081\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/image3-3.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/image3-3.png 1099w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/image3-3-300x295.png 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/image3-3-1024x1007.png 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/image3-3-768x755.png 768w\" sizes=\"(max-width: 1099px) 100vw, 1099px\"><figcaption><\/figcaption><\/figure>\n<h3>Data Cleaning f\u00fcr das Data Preprocessing<\/h3>\nDer erste Schritt ist die <a href=\"https:\/\/liora.io\/de\/data-cleaning\">Bereinigung von falschen, unvollst\u00e4ndigen oder fehlenden Daten<\/a>. Es gibt verschiedene M\u00f6glichkeiten, mit diesen Problemen umzugehen, die wir im Folgenden besprechen.\n\nWenn Daten im <a href=\"https:\/\/liora.io\/de\/datasets-top-5-websites-fuer-qualitativ-hochwertige-datensaetze\">Dataset<\/a> fehlen, kannst du sie ignorieren, wenn die Datenbank gut gef\u00fcllt ist und viele Daten in einer Zeile fehlen.\n\nDu kannst auch entscheiden, die fehlenden Daten auf verschiedene Arten zu f\u00fcllen:\n\nDu kannst sie durch den Mittelwert, den Median oder z. B. bei kategorialen Variablen durch die h\u00e4ufigste Modalit\u00e4t (auch Modus genannt) ersetzen.\n\nPandas stellt uns Methoden zur Verf\u00fcgung, mit denen wir diese Bearbeitungen wie folgt durchf\u00fchren k\u00f6nnen:\n\nEs kann vorkommen, dass <strong>Daten unter st\u00f6rendem Rauschen bei der Erfassung leiden<\/strong>, in diesem Fall k\u00f6nnen sie von einem Computer nicht richtig verarbeitet werden. Eine M\u00f6glichkeit, dieses Problem zu l\u00f6sen, ist das Binning der (vorsortierten) Daten.\n\nDie Daten werden in Gruppen gleicher Gr\u00f6\u00dfe aufgeteilt und jede Gruppe wird unabh\u00e4ngig verarbeitet. Innerhalb einer Gruppierung k\u00f6nnen alle Daten durch ihren Mittelwert, Median oder die Extremwerte ersetzt werden.\n\nEine andere M\u00f6glichkeit, mit verrauschten Daten umzugehen, ist die Verwendung einer Regression oder eines<strong> Clusters,<\/strong> die automatisch Gruppen von Daten bilden und es uns erm\u00f6glichen, Ausrei\u00dfer zu erkennen und sie aus der Datenbank zu entfernen.\n<h3>Data Transformation im Rahmen des Data Preprocessing<\/h3>\nDiese Vorverarbeitungsstufe umfasst die Ver\u00e4nderungen, die an der eigentlichen Struktur der Daten vorgenommen werden.\n\nDiese Ver\u00e4nderungen stehen im Zusammenhang mit den mathematischen Definitionen der <a href=\"https:\/\/liora.io\/de\/3-machine-learning-algorithmen-fuer-deinen-job\">Algorithmen<\/a> und der Art und Weise, wie diese die Daten verarbeiten, um die Leistung zu optimieren. Zu diesen Techniken geh\u00f6ren z. B.:\n<ul>\n \t<li>Die Gl\u00e4ttung von Daten, wenn sie verrauscht sind.<\/li>\n \t<li>Die Aggregation von Daten aus vielen verschiedenen Quellen.<\/li>\n \t<li>Die Diskretisierung von kontinuierlichen Variablen (mit Hilfe der Intervallisierung), die es erm\u00f6glicht, die Anzahl der Modalit\u00e4ten eines Deskriptors zu verringern, und schlie\u00dflich.<\/li>\n \t<li>Normalisierung und Standardisierung von Daten, die numerische Daten auf eine kleinere Skala (z. B. zwischen -1 und 1) bringen, den Mittelwert zentrieren und die Varianz verringern k\u00f6nnen.<\/li>\n<\/ul>\nHier ist ein Beispiel f\u00fcr die <strong>Normalisierung,<\/strong> die in diesem Teil der Datenumwandlung am h\u00e4ufigsten erforderlich ist:\n<h3>Data Reduction<\/h3>\nObwohl es intuitiv erscheint, sich vorzustellen, dass eine sehr gro\u00dfe<strong> Datenmenge<\/strong> die Leistung eines Modells verbessert, kann es sein, dass eine zu gro\u00dfe Datenmenge die Analyse komplizierter machen kann. Daher kann es manchmal sinnvoll sein, die Menge oder Gr\u00f6\u00dfe der Daten zu reduzieren, um die Speicherkapazit\u00e4t zu verbessern und die Kosten f\u00fcr die Analyse zu senken, ohne dabei an Leistung zu verlieren (oder in manchen F\u00e4llen sogar zu gewinnen).\n\nEs gibt verschiedene Techniken zur Datenreduktion. Wir k\u00f6nnen z. B. eine bestimmte Anzahl von Variablen ausw\u00e4hlen, die wir lieber behalten und andere weglassen. Die Auswahl der relevanten Variablen kann durch die Analyse des p-Wertes der Variablen oder durch Entscheidungsbaumtechniken erfolgen, die uns eine Sch\u00e4tzung der Wichtigkeit der verschiedenen Deskriptoren geben.\n\nEine weitere Technik, die im Zusammenhang mit der Idee der Datenreduktion h\u00e4ufig verwendet wird, ist die Dimensionsreduktion. Diese Methode reduziert die Dimension der Daten durch genau definierte <strong>Kodierungsmechanismen.<\/strong>\n\nEs gibt zwei Arten:\n<ol>\n \t<li>verlustbehaftete<\/li>\n \t<li>und verlustfreie.<\/li>\n<\/ol>\nWenn man die genauen Daten aus den reduzierten rekonstruieren kann, spricht man von verlustfreier Reduktion. Andernfalls wird die Reduktion verlustbehaftet durchgef\u00fchrt.\n\nEs gibt zwei bevorzugte Methoden, um auf diese Weise auf die Daten einzuwirken, eine Wavelet-Transformation oder eine PCA (Principal Component Analysis).\n<h3>Data Integration<\/h3>\nDieser Schritt der Data <strong>Preprocessing-Strategie<\/strong> besteht darin, mehrere Quellen in einem einzigen Datenbestand zu kombinieren. Er wird im Rahmen eines Datenmanagements durchgef\u00fchrt, um nutzbare Datenbanken zu erstellen (wie z. B. die Erstellung von Bilddatenbanken, Querschnitten des Abdomens, MRTs oder R\u00f6ntgenaufnahmen f\u00fcr diagnostische Hilfsprobleme). Dennoch k\u00f6nnten einige Probleme auftreten, wie z. B. die Inkompatibilit\u00e4t bestimmter Formate oder die Redundanz bestimmter Daten.\n\nDer Schritt der vorl\u00e4ufigen Datenverarbeitung ist daher einer der wichtigsten in der <strong>Datenverarbeitung<\/strong> und -analyse. Es gibt keine perfekte Methode, die bei jeder Modellerstellung angewendet werden muss, aber wir haben zusammen die bew\u00e4hrten Verfahren gesehen, die in einer Strategie zur Datenvorverarbeitung eingesetzt werden sollten.\n\nDie hier vorgestellten Methoden werden in unseren verschiedenen Kursen weiter erforscht: Die grundlegenden mathematischen Konzepte sowie gute Praktiken der Datenvorverarbeitung je nach Kontext und Situation werden erl\u00e4utert.\n\nUm unsere Fortbildungen im Detail zu entdecken und alle Best Practices des Data Preprocessing zu lernen, informiere Dich noch heute !\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Unsere Weiterbildungen<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Da immer mehr Daten erfasst und systematisch verarbeitet werden, haben sich Machine-Learning-Methoden durchgesetzt, die viele Daten ben\u00f6tigen, um zu laufen und zu trainieren. Obwohl man naiv annehmen k\u00f6nnte, dass eine gro\u00dfe Anzahl von Daten ausreicht, um einen leistungsf\u00e4higen Algorithmus zu haben, sind die uns zur Verf\u00fcgung stehenden Daten meistens nicht geeignet und m\u00fcssen meistens vorab [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":174907,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-174906","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174906","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=174906"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174906\/revisions"}],"predecessor-version":[{"id":217606,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174906\/revisions\/217606"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/174907"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=174906"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=174906"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}