Hast du das richtige Profil, um in der Tech-Branche zu arbeiten? Finde es in nur 2 Minuten heraus 🚀 Mach den Test!

Data & KI

Cloud & Dev

WeiterbildungEN

Data Analyst

Data Scientist

Data Engineer

Analytics Engineer

Machine Learning Engineer

Data Marketing & AI

MLOps

ETL Developer

DataOps Engineer

Zertifizierungen

Power BI

Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date : Mittwoch 1 Juli
Time : 17h30

New windowAnmelden

WeiterbildungEN

DevOps Engineer

Cloud Engineer

Zertifizierungen

AWS Solutions Architect

Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date : Mittwoch 1 Juli
Time : 17h30

New windowAnmelden
Alle Weiterbildungen
Expertise

Unsere Expertise

Ihr Team weiterbilden

Top-Talente einstellen

Auszubildende einstellen

Über uns

DataScientest wird Liora

Unsere Kunden

Kontaktieren Sie uns

Unsere Engagements

Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date : Mittwoch 1 Juli
Time : 17h30

New windowAnmelden
VerAnstaltungen

Unsere Veranstaltungen

Webinare

Live Q&A

Vor Ort Veranstaltungen

Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date : Mittwoch 1 Juli
Time : 17h30

New windowAnmelden
Ressourcen

Decoded by Liora | Blog

Arbeitsvermittler

Karriere Management

Ambassadors

Freunde werben Freunde

Berufsbeschreibungen

Quiz

Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date : Mittwoch 1 Juli
Time : 17h30

New windowAnmelden
Warum liora?

Über uns

Methodik

Bewertungen & Testimonials

Stelle alle Deine Fragen bei unserer nächsten Q&A Live Fragerunde!

Date : Mittwoch 1 Juli
Time : 17h30

New windowAnmelden

Was ist ein Dataset? Wie wird es manipuliert?

28 Januar 2026

Datasets (oder Datensätze) werden häufig im Machine Learning verwendet. Sie umfassen einen zusammenhängenden Datensatz, der in verschiedenen Formaten vorliegen kann (Texte, Zahlen, Bilder, Videos usw.).

Datasets können in verschiedenen Arten dargestellt werden, seien es Tabellen, Graphen, Bäume oder andere. In Machine-Learning-Algorithmen wird oft mit Array-Strukturen gearbeitet. Jeder in einem Dataset vorhandene Wert ist mit einem Attribut und einer Beobachtung verknüpft. Nehmen wir zum Beispiel Daten über verschiedene Personen mit und ohne Covid-19.

Die Attribute werden verschiedenen Merkmalen entsprechen, wie z. B. Alter, Gewicht, Größe, Wohnort, Symptome … Während jede Beobachtung einer anderen Person zugeordnet wird.

Der Vorteil von Datasets ist, dass sie verschiedene Daten manipulieren und verändern können. Wir werden uns mit ihrer Manipulation in Python beschäftigen.

Ich lerne, mit Datasets umzugehen

Wie man Datasets in Python manipuliert ?

In Python erfolgt die Datenmanipulation mit der Bibliothek pandas, deren Dokumentation hier zugänglich ist: Sie ermöglicht es, Datasets zu erstellen oder zu importieren, aber auch, sie zu manipulieren, bevor sie Modelle für das maschinelle Lernen anwenden. Wenn wir einen Datensatz erhalten, müssen wir einige Änderungen vornehmen. Denn oftmals besitzen die Daten mehrere Fehler. Zum Beispiel kann es fehlende Daten geben (die oft für die Analyse benötigt werden). Es können auch vom Benutzer falsch eingegebene Daten vorliegen (falsch gesetzte Kommas, zu viele Nullen usw.). Probleme treten auch mit dem Datentyp auf. Häufig sind Attribute (wie z. B. das Alter) im Textformat, während wir, um statistische Funktionen für dieses Attribut zu verwenden (wie z. B. den Altersdurchschnitt, die Standardabweichung oder Ähnliches zu bilden), die Daten dieses Attributs in das Zahlenformat umwandeln müssen. Mit den Funktionen und Methoden von Pandas können wir diese verschiedenen Manipulationsschritte leicht durchführen und die notwendigen Änderungen an unserem Datensatz vornehmen. Nachdem die Daten des Datensatzes verarbeitet wurden, werden häufig Machine-Learning-Algorithmen auf unsere Datensätze angewendet, um Muster vorherzusagen.

Nehmen wir erneut das Beispiel unseres Datensatzes über Covid-19-Patienten Wenn wir diesen Datensatz erhalten, müssen wir, bevor wir Modelle für Machine Learning erstellen, mehrere Änderungen vornehmen:

Es liegen keine Informationen über die persönlichen Eigenschaften von Patient 4 vor, daher muss beispielsweise die Zeile gelöscht werden (da sie nicht verwendbar ist)

Die Größe wird im Textformat angegeben (das ist gut sichtbar, weil wir in dem Kästchen eine Mischung aus Zahlen und Text haben). Daher müssen wir die ersten drei Zeichen jedes Kästchens abrufen und den Typ in Zahlenformat ändern.

Wir sehen, dass das Gewicht des Patienten eine 0 zu viel hat.

Wenn wir all diese Änderungen vorgenommen haben, können wir die Daten sinnvoll auswerten und Modelle erstellen. Typischerweise können wir mit einem solchen Datensatz vorhersagen, welches Personenprofil in einer bestimmten Region mit welcher Wahrscheinlichkeit welche Symptome aufweist. Wenn es notwendig ist, mit Datasets umzugehen, müssen Sie auch sicherstellen, dass die Datenquellen gültig sind. Mit falschen Daten zu arbeiten, wäre nämlich nur Zeitverschwendung. Ein Artikel in unserem Blog listet Seiten auf, die es ermöglichen, Daten von kompetenten Seiten zu finden. Datasets sind daher sehr effizient und sehr manipulierbar, um Daten zu verarbeiten. In unseren Schulungen lernen Sie die verschiedenen Werkzeuge kennen, mit denen Sie Daten manipulieren und verschiedene Modelle vorsehen können. Für weitere Informationen zögern Sie nicht, mit uns Kontakt aufzunehmen.

Erfahren Sie mehr über unsere Schulungen

Erhalte einen Einblick in die Zukunft – direkt in Dein Postfach. Abonniere unseren Newsletter, um die Tech-Trends von morgen, exklusive Tipps und Angebote für unsere Community zu entdecken.

Zum Newsletter anmelden

Was ist ein Dataset? Wie wird es manipuliert?

Wie man Datasets in Python manipuliert ?

Wie kann die Ausbildung finanziert werden?

Wie kann die Ausbildung finanziert werden?

Programming with Python

Was ist ein Dataset? Wie wird es manipuliert?

Der Newsletter der Zukunft

Wie man Datasets in Python manipuliert ?

Der Newsletter der Zukunft