{"id":166279,"date":"2023-04-29T22:45:51","date_gmt":"2023-04-29T21:45:51","guid":{"rendered":"https:\/\/liora.io\/de\/?p=166279"},"modified":"2026-02-06T06:51:39","modified_gmt":"2026-02-06T05:51:39","slug":"leitfaden-zum-data-preprocessing","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/leitfaden-zum-data-preprocessing","title":{"rendered":"Wie man seine Daten vor der Verarbeitung vorbereitet: Ein kurzer Leitfaden zum Data Preprocessing"},"content":{"rendered":"<p><strong>Da immer mehr Daten erfasst und systematisch verarbeitet werden, haben sich Machine-Learning-Methoden durchgesetzt, die viele Daten ben\u00f6tigen, um zu laufen und zu trainieren. Obwohl man naiv annehmen k\u00f6nnte, dass eine gro\u00dfe Anzahl von Daten ausreicht, um einen leistungsf\u00e4higen Algorithmus zu haben, sind die uns zur Verf\u00fcgung stehenden Daten meistens ungeeignet und m\u00fcssen meist vorab bearbeitet werden, um sie anschlie\u00dfend nutzen zu k\u00f6nnen: das ist der Schritt des Preprocessing.<\/strong><\/p>\n<b>Fehler bei der Datenerfassung, die <\/b>auf menschliche oder technische Fehler zur\u00fcckzuf\u00fchren sind, k\u00f6nnen <b>unser Dataset verderben und das Training verzerren<\/b>. Zu diesen Fehlern geh\u00f6ren <b>unvollst\u00e4ndige Informationen<\/b>, fehlende oder falsche Werte oder St\u00f6rger\u00e4usche, die mit der Datenerfassung zusammenh\u00e4ngen. Daher ist es oft notwendig, eine Strategie der Datenvorverarbeitung &#8211; auch <b>Data Preprocessing <\/b>genannt &#8211; aus unseren Rohdaten zu erstellen, um zu <b>verwertbaren Daten zu gelangen, <\/b>die uns ein besseres Modell liefern. Wir werden die wichtigsten Schritte des Data Preprocessing, ihre Bedeutung und ihre Implementierung in <b>Python<\/b> untersuchen.\n<h3>Data Cleaning<\/h3>\nDer erste Schritt ist die <b>Bereinigung von falschen<\/b>, unvollst\u00e4ndigen oder fehlenden <b>Daten.<\/b> Es gibt verschiedene M\u00f6glichkeiten, mit diesen Problemen umzugehen, die wir im Folgenden besprechen.\n\nWenn Daten im Dataset fehlen, kannst du <b>sie \u00fcberspringen, <\/b>wenn die Datenbank gut gef\u00fcllt ist und viele Daten in einer Zeile fehlen. Du kannst auch entscheiden, <b>die fehlenden Daten <\/b>auf verschiedene Arten zu <b>f\u00fcllen<\/b>: Du kannst sie durch den Mittelwert, den Median oder z. B. bei <b>kategorialen Variablen durch die h\u00e4ufigste Modalit\u00e4t <\/b>(auch Modus genannt) ersetzen. <a href=\"https:\/\/liora.io\/pandas-python-data-science\"><b>Pandas<\/b><\/a> stellt uns Methoden zur Verf\u00fcgung, mit denen wir diese Bearbeitungen wie folgt durchf\u00fchren k\u00f6nnen:\n\nEs kann vorkommen, dass Daten unter st\u00f6rendem Rauschen bei der Erfassung leiden, in diesem Fall k\u00f6nnen sie von einem Computer nicht richtig verarbeitet werden. Eine M\u00f6glichkeit, dieses Problem zu l\u00f6sen, ist das <b>Binning der <\/b>(vorsortierten) <b>Daten.<\/b> Die Daten werden in Gruppen gleicher Gr\u00f6\u00dfe aufgeteilt und jede Gruppe wird unabh\u00e4ngig verarbeitet. Innerhalb einer Gruppierung k\u00f6nnen alle Daten durch ihren Mittelwert, Median oder die Extremwerte ersetzt werden.\n\nEine andere M\u00f6glichkeit, mit verrauschten Daten umzugehen, ist die Verwendung von <a href=\"https:\/\/en.wikipedia.org\/wiki\/Regression_analysis\"><b>Regression<\/b><\/a> oder <a href=\"https:\/\/en.wikipedia.org\/wiki\/Cluster_analysis\"><b>Clustering<\/b><\/a>, die automatisch Gruppen von Daten bilden, mit deren Hilfe wir Ausrei\u00dfer erkennen und aus der <a href=\"https:\/\/liora.io\/bien-choisir-sa-base-de-donnees-typologie\"><b>Datenbank<\/b><\/a> entfernen k\u00f6nnen.\n\n<img decoding=\"async\" width=\"1921\" height=\"748\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image-data-preprocessing.webp\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image-data-preprocessing.webp 1921w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image-data-preprocessing-300x117.webp 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image-data-preprocessing-1024x399.webp 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image-data-preprocessing-768x299.webp 768w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image-data-preprocessing-1536x598.webp 1536w\" sizes=\"(max-width: 1921px) 100vw, 1921px\">\n<h3>Data Transformation<\/h3>\nDiese Vorverarbeitungsstufe umfasst die Ver\u00e4nderungen, die an der eigentlichen Struktur der Daten vorgenommen werden. Diese Ver\u00e4nderungen stehen im Zusammenhang mit den mathematischen Definitionen der Algorithmen und der Art und Weise, wie diese die Daten verarbeiten, um die Leistung zu optimieren. Zu diesen Techniken geh\u00f6ren z. B. :\n<ul>\n \t<li style=\"font-weight: 400\"><b>Gl\u00e4ttung der Daten, wenn sie verrauscht sind.<\/b><\/li>\n \t<li style=\"font-weight: 400\"><b>Die Aggregation von Daten aus vielen verschiedenen Quellen.<\/b><\/li>\n \t<li style=\"font-weight: 400\"><b>Die Diskretisierung kontinuierlicher Variablen (mithilfe der Intervallisierung), die es erm\u00f6glicht, die Anzahl der Modalit\u00e4ten eines Deskriptors zu verringern, und schlie\u00dflich.<\/b><\/li>\n \t<li style=\"font-weight: 400\"><b>Normalisierung und Standardisierung von Daten, die numerische Daten auf eine kleinere Skala bringen (z. B. zwischen -1 und 1), die auch den Mittelwert zentrieren und die Varianz verringern kann.<\/b><\/li>\n<\/ul>\nHier ist ein Beispiel f\u00fcr die Normalisierung, die in diesem Teil der Datenumwandlung am h\u00e4ufigsten ben\u00f6tigt wird:\n<h3>Data Reduction<\/h3>\nObwohl es intuitiv erscheint, sich vorzustellen, dass eine sehr gro\u00dfe Datenmenge die Leistung eines Modells verbessert, kann es sein, dass eine <b>zu gro\u00dfe Datenmenge die Analyse komplizierter <\/b>machen kann. Daher kann es manchmal sinnvoll sein, die Menge oder Gr\u00f6\u00dfe der Daten zu reduzieren, um die Speicherkapazit\u00e4t zu verbessern und die Kosten der Analyse zu senken, ohne dabei an Leistung zu verlieren (oder in manchen F\u00e4llen sogar zu gewinnen). Es gibt <b>verschiedene Techniken zur Datenreduktion. <\/b>Wir k\u00f6nnen z. B. eine Reihe von Variablen ausw\u00e4hlen, die wir lieber behalten m\u00f6chten, und andere weglassen. Die Auswahl der relevanten Variablen kann durch die Analyse des <b>p-Wertes der Variablen <\/b>oder durch<a href=\"https:\/\/liora.io\/de\/random-forest-definition\"> <b>Entscheidungsbaumtechniken<\/b><\/a> erfolgen, die uns eine Sch\u00e4tzung der Wichtigkeit der verschiedenen Deskriptoren geben.\n\nEine weitere Technik, die bei der Idee der Datenreduktion h\u00e4ufig verwendet wird, ist die <b>Dimensionsreduktion<\/b>. Diese Methode reduziert die Dimension der Daten durch genau definierte Kodierungsmechanismen. Es gibt zwei Arten, verlustbehaftete und verlustfreie. Wenn man <b>die genauen Daten aus den reduzierten rekonstruieren <\/b>kann, spricht man von <b>verlustfreier Reduktion<\/b>. Andernfalls wird die Reduktion verlustbehaftet durchgef\u00fchrt. Es gibt zwei bevorzugte Methoden, um auf diese Weise auf die Daten einzuwirken, eine Wavelet-Transformation oder eine <b>PCA (Principal Component Analysis)<\/b>.\n<h3>Data Integration<\/h3>\nDieser Schritt der Vorverarbeitungsstrategie besteht darin, mehrere Quellen in einem einzigen Datenbestand zu kombinieren. Er wird im Rahmen eines Datenmanagements durchgef\u00fchrt, um <b>nutzbare <\/b>Datenbanken zu erstellen (wie z. B. die Erstellung von Bilddatenbanken, Querschnitten des Abdomens, MRTs oder R\u00f6ntgenaufnahmen f\u00fcr diagnostische Hilfsprobleme). Dennoch k\u00f6nnten einige Probleme auftreten, wie z. B. die Inkompatibilit\u00e4t bestimmter Formate oder die Redundanz bestimmter Daten.\n\nDer Schritt der <b>Datenvorverarbeitung <\/b>ist daher einer der wichtigsten Schritte in der Datenverarbeitung und -analyse. Es gibt keine perfekte Methode, die bei jeder Modellerstellung angewendet werden muss, aber wir haben uns gemeinsam die bew\u00e4hrten Verfahren angesehen, die in einer <b>Strategie zur Vorverarbeitung von Daten eingesetzt werden <\/b>sollten. Die hier vorgestellten Methoden werden in unseren verschiedenen Kursen weiter erforscht: Die grundlegenden mathematischen Konzepte sowie gute Praktiken der Datenvorverarbeitung je nach Kontext und Situation werden erl\u00e4utert.\n\n<img decoding=\"async\" width=\"1921\" height=\"1081\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image1-1.webp\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image1-1.webp 1921w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image1-1-300x169.webp 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image1-1-1024x576.webp 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image1-1-768x432.webp 768w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image1-1-1536x864.webp 1536w\" sizes=\"(max-width: 1921px) 100vw, 1921px\">\n\nUm unsere Studieng\u00e4nge im Detail zu entdecken und alle <b>Best Practices des Data Preprocessing zu <\/b>erlernen, besuche die daf\u00fcr vorgesehene Seite.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecken Sie Lioras Datentrainings<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Da immer mehr Daten erfasst und systematisch verarbeitet werden, haben sich Machine-Learning-Methoden durchgesetzt, die viele Daten ben\u00f6tigen, um zu laufen und zu trainieren. Obwohl man naiv annehmen k\u00f6nnte, dass eine gro\u00dfe Anzahl von Daten ausreicht, um einen leistungsf\u00e4higen Algorithmus zu haben, sind die uns zur Verf\u00fcgung stehenden Daten meistens ungeeignet und m\u00fcssen meist vorab bearbeitet [&hellip;]<\/p>\n","protected":false},"author":47,"featured_media":166243,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-166279","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/166279","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/47"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=166279"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/166279\/revisions"}],"predecessor-version":[{"id":217581,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/166279\/revisions\/217581"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/166243"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=166279"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=166279"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}