Datasets (oder Datensätze) werden häufig im Machine Learning verwendet. Sie umfassen einen zusammenhängenden Datensatz, der in verschiedenen Formaten vorliegen kann (Texte, Zahlen, Bilder, Videos usw.).
Datasets können in verschiedenen Arten dargestellt werden, seien es Tabellen, Graphen, Bäume oder andere. In Machine-Learning-Algorithmen wird oft mit Array-Strukturen gearbeitet. Jeder in einem Dataset vorhandene Wert ist mit einem Attribut und einer Beobachtung verknüpft. Nehmen wir zum Beispiel Daten über verschiedene Personen mit und ohne Covid-19.Die Attribute werden verschiedenen Merkmalen entsprechen, wie z. B. Alter, Gewicht, Größe, Wohnort, Symptome … Während jede Beobachtung einer anderen Person zugeordnet wird.
Der Vorteil von Datasets ist, dass sie verschiedene Daten manipulieren und verändern können. Wir werden uns mit ihrer Manipulation in Python beschäftigen.
Wie man Datasets in Python manipuliert ?
In Python erfolgt die Datenmanipulation mit der Bibliothek pandas, deren Dokumentation hier zugänglich ist: Sie ermöglicht es, Datasets zu erstellen oder zu importieren, aber auch, sie zu manipulieren, bevor sie Modelle für das maschinelle Lernen anwenden. Wenn wir einen Datensatz erhalten, müssen wir einige Änderungen vornehmen. Denn oftmals besitzen die Daten mehrere Fehler. Zum Beispiel kann es fehlende Daten geben (die oft für die Analyse benötigt werden). Es können auch vom Benutzer falsch eingegebene Daten vorliegen (falsch gesetzte Kommas, zu viele Nullen usw.). Probleme treten auch mit dem Datentyp auf. Häufig sind Attribute (wie z. B. das Alter) im Textformat, während wir, um statistische Funktionen für dieses Attribut zu verwenden (wie z. B. den Altersdurchschnitt, die Standardabweichung oder Ähnliches zu bilden), die Daten dieses Attributs in das Zahlenformat umwandeln müssen. Mit den Funktionen und Methoden von Pandas können wir diese verschiedenen Manipulationsschritte leicht durchführen und die notwendigen Änderungen an unserem Datensatz vornehmen. Nachdem die Daten des Datensatzes verarbeitet wurden, werden häufig Machine-Learning-Algorithmen auf unsere Datensätze angewendet, um Muster vorherzusagen.
Nehmen wir erneut das Beispiel unseres Datensatzes über Covid-19-Patienten
Wenn wir diesen Datensatz erhalten, müssen wir, bevor wir Modelle für Machine Learning erstellen, mehrere Änderungen vornehmen:
- Es liegen keine Informationen über die persönlichen Eigenschaften von Patient 4 vor, daher muss beispielsweise die Zeile gelöscht werden (da sie nicht verwendbar ist)
- Die Größe wird im Textformat angegeben (das ist gut sichtbar, weil wir in dem Kästchen eine Mischung aus Zahlen und Text haben). Daher müssen wir die ersten drei Zeichen jedes Kästchens abrufen und den Typ in Zahlenformat ändern.
- Wir sehen, dass das Gewicht des Patienten eine 0 zu viel hat.

