{"id":164769,"date":"2026-01-28T16:49:54","date_gmt":"2026-01-28T15:49:54","guid":{"rendered":"https:\/\/liora.io\/de\/?p=164769"},"modified":"2026-07-24T18:33:27","modified_gmt":"2026-07-24T16:33:27","slug":"dataset-definition","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/dataset-definition","title":{"rendered":"Was ist ein Dataset? Wie wird es manipuliert?"},"content":{"rendered":"<p><strong>Datasets (oder Datens\u00e4tze) werden h\u00e4ufig im Machine Learning verwendet. Sie umfassen einen zusammenh\u00e4ngenden Datensatz, der in verschiedenen Formaten vorliegen kann (Texte, Zahlen, Bilder, Videos usw.).<\/strong><\/p>\nDatasets k\u00f6nnen in verschiedenen Arten dargestellt werden, seien es Tabellen, Graphen, B\u00e4ume oder andere. In Machine-Learning-Algorithmen wird <b>oft mit Array-Strukturen <\/b>gearbeitet.\n\nJeder in einem Dataset vorhandene Wert ist mit einem <b>Attribut <\/b>und einer <b>Beobachtung <\/b>verkn\u00fcpft.&nbsp;\n\nNehmen wir zum Beispiel Daten \u00fcber verschiedene Personen mit und ohne Covid-19.\n<blockquote>Die Attribute werden verschiedenen Merkmalen entsprechen, wie z. B. Alter, Gewicht, Gr\u00f6\u00dfe, Wohnort, Symptome &#8230; W\u00e4hrend jede Beobachtung einer anderen Person zugeordnet wird.<\/blockquote>\n<img decoding=\"async\" width=\"768\" height=\"309\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/Capture-de\u0301cran-2021-08-23-a\u0300-09.59.54.webp\" alt=\"\" loading=\"lazy\">\n\nDer Vorteil von Datasets ist, dass sie verschiedene Daten manipulieren und ver\u00e4ndern k\u00f6nnen. Wir werden uns mit ihrer Manipulation in Python besch\u00e4ftigen.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/data-analyst\">Ich lerne, mit Datasets umzugehen<\/a><\/div><\/div>\n\n<h3>Wie man Datasets in Python manipuliert ?<\/h3>\nIn Python erfolgt die Datenmanipulation mit der Bibliothek pandas, deren Dokumentation <a href=\"https:\/\/pandas.pydata.org\/docs\/\"><b>hier<\/b><\/a> zug\u00e4nglich ist:&nbsp;\n\nSie erm\u00f6glicht es, Datasets zu erstellen oder zu importieren, aber auch, sie zu manipulieren, bevor sie Modelle f\u00fcr das <a href=\"https:\/\/liora.io\/bootcamp-machine-learning-engineer-pourquoi-est-ce-interessant\"><b>maschinelle Lernen<\/b><\/a> anwenden.\n\nWenn wir einen Datensatz erhalten, m\u00fcssen wir einige \u00c4nderungen vornehmen. Denn oftmals besitzen die Daten mehrere Fehler. Zum Beispiel kann es <b>fehlende Daten geben <\/b>(die oft f\u00fcr die Analyse ben\u00f6tigt werden). Es k\u00f6nnen auch vom Benutzer falsch eingegebene Daten vorliegen (falsch gesetzte Kommas, zu viele Nullen usw.).&nbsp; Probleme treten auch mit dem Datentyp auf. H\u00e4ufig sind Attribute (wie z. B. das Alter) im Textformat, w\u00e4hrend wir, um statistische Funktionen f\u00fcr dieses Attribut zu verwenden (wie z. B. den Altersdurchschnitt, die Standardabweichung oder \u00c4hnliches zu bilden), die Daten dieses Attributs in das Zahlenformat umwandeln m\u00fcssen.\n\nMit den Funktionen und Methoden von Pandas k\u00f6nnen wir diese verschiedenen Manipulationsschritte leicht durchf\u00fchren und die notwendigen \u00c4nderungen an unserem Datensatz vornehmen.\n\nNachdem die Daten des Datensatzes verarbeitet wurden, werden h\u00e4ufig Machine-Learning-Algorithmen auf unsere Datens\u00e4tze angewendet, um Muster vorherzusagen.\n\n<img decoding=\"async\" width=\"800\" height=\"169\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/Capture-de\u0301cran-2021-08-23-a\u0300-10.03.30.webp\" alt=\"\" loading=\"lazy\">\n\nNehmen wir erneut das Beispiel unseres Datensatzes \u00fcber Covid-19-Patienten\n\nWenn wir diesen Datensatz erhalten, m\u00fcssen wir, bevor wir Modelle f\u00fcr Machine Learning erstellen, <b>mehrere \u00c4nderungen vornehmen<\/b>:\n<ul>\n \t<li style=\"font-weight: 400\">Es liegen keine Informationen \u00fcber die pers\u00f6nlichen Eigenschaften von Patient 4 vor, daher muss beispielsweise <b>die Zeile gel\u00f6scht werden <\/b>(da sie nicht verwendbar ist)<\/li>\n<\/ul>\n<ul>\n \t<li style=\"font-weight: 400\">Die Gr\u00f6\u00dfe wird im Textformat angegeben (das ist gut sichtbar, weil wir in dem K\u00e4stchen eine Mischung aus Zahlen und Text haben). Daher m\u00fcssen wir <b>die ersten drei Zeichen <\/b>jedes K\u00e4stchens <b>abrufen <\/b>und den Typ in Zahlenformat \u00e4ndern.<\/li>\n<\/ul>\n<ul>\n \t<li style=\"font-weight: 400\">Wir sehen, dass das Gewicht des Patienten eine 0 zu viel hat.<\/li>\n<\/ul>\nWenn wir all diese \u00c4nderungen vorgenommen haben, k\u00f6nnen wir die Daten sinnvoll auswerten und Modelle erstellen. Typischerweise k\u00f6nnen wir mit einem solchen Datensatz vorhersagen, welches Personenprofil in einer bestimmten Region mit welcher Wahrscheinlichkeit welche Symptome aufweist.\n\nWenn es notwendig ist, mit Datasets umzugehen, m\u00fcssen Sie auch sicherstellen, dass <b>die Datenquellen <\/b>g\u00fcltig sind. Mit falschen Daten zu arbeiten, w\u00e4re n\u00e4mlich nur Zeitverschwendung.&nbsp;\n\nEin <a href=\"https:\/\/liora.io\/public-datasets-machine-learning\"><b>Artikel in unserem Blog<\/b><\/a> listet Seiten auf, die es erm\u00f6glichen, <b>Daten <\/b>von kompetenten Seiten zu <b>finden.<\/b>\n\nDatasets sind daher sehr effizient und sehr manipulierbar, um Daten zu verarbeiten. In unseren Schulungen lernen Sie die verschiedenen Werkzeuge kennen, mit denen Sie Daten manipulieren und verschiedene Modelle vorsehen k\u00f6nnen. F\u00fcr weitere Informationen z\u00f6gern <a href=\"\/rdv\"><b>Sie<\/b><\/a> nicht, <a href=\"\/rdv\"><b>mit uns Kontakt aufzunehmen<\/b><\/a>.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/data-analyst\">Erfahren Sie mehr \u00fcber unsere Schulungen<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Datasets (oder Datens\u00e4tze) werden h\u00e4ufig im Machine Learning verwendet. Sie umfassen einen zusammenh\u00e4ngenden Datensatz, der in verschiedenen Formaten vorliegen kann (Texte, Zahlen, Bilder, Videos usw.).<\/p>\n","protected":false},"author":47,"featured_media":164771,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-164769","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/164769","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/47"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=164769"}],"version-history":[{"count":4,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/164769\/revisions"}],"predecessor-version":[{"id":220489,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/164769\/revisions\/220489"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/164771"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=164769"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=164769"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}