{"id":149614,"date":"2026-01-28T11:24:41","date_gmt":"2026-01-28T10:24:41","guid":{"rendered":"https:\/\/multi.liora.io\/?p=149614"},"modified":"2026-02-06T04:47:11","modified_gmt":"2026-02-06T03:47:11","slug":"pyspark-alles-wissenswerte-uber-die-python-bibliothek","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/pyspark-alles-wissenswerte-uber-die-python-bibliothek","title":{"rendered":"PySpark: alles Wissenswerte \u00fcber die Python-Bibliothek"},"content":{"rendered":"<p><strong>Wenn es um die Verarbeitung von Datenbanken mit Python geht, kommt einem sofort die pandas-Bibliothek in den Sinn. Mit wachsender Gr\u00f6\u00dfe der Datenbanken, nehmen allerdings die Berechnungen immer mehr Zeit in Anspruch.\n\nDoch zum Gl\u00fcck gibt es eine andere Python-Bibliothek, die pandas recht \u00e4hnlich ist und es erm\u00f6glicht, sehr gro\u00dfe Datenmengen zu verarbeiten: PySpark.<\/strong><\/p>\n<a href=\"https:\/\/liora.io\/de\/azure-databricks-was-ist-das-denn\">Apache<\/a><a href=\"https:\/\/liora.io\/de\/azure-databricks-was-ist-das-denn\"> Spark<\/a> ist ein vom <b>AMPLab<\/b> der <a href=\"\/\">University of California Berkeley<\/a> entwickeltes Open-Source-Framework zur Verarbeitung gro\u00dfer Datenbanken unter Verwendung von <b>Distributed Computing<\/b> (Verteiltes Rechnen), einer Technik, bei der mehrere in <b>Clustern <\/b>verteilte Recheneinheiten zugunsten eines einzelnen Projekts genutzt werden, um die Ausf\u00fchrungszeit f\u00fcr eine Anfrage zu verringern.\n\nSpark wurde in <b>Scala <\/b>entwickelt und ist in seiner nativen Sprache am leistungsf\u00e4higsten. Die Bibliothek PySpark bietet jedoch die M\u00f6glichkeit, die Software mit der Sprache <b>Python <\/b>zu verwenden, ohne dass die Leistung von Scala-Implementierungen beeintr\u00e4chtigt wird.\n\nPyspark ist daher eine gute Alternative zur Panda-Bibliothek, wenn Sie gro\u00dfe Datens\u00e4tze verarbeiten wollen, die zeitaufw\u00e4ndige Berechnungen erfordern.\n\n?Auch interessant:\n<table dir=\"ltr\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\">\n<colgroup>\n<col width=\"426\"><\/colgroup>\n<tbody>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Spark&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-spark\"><a href=\"https:\/\/liora.io\/de\/apache-spark\" target=\"_blank\" rel=\"noopener\">Apache Spark<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Kafka&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-kafka\"><a href=\"https:\/\/liora.io\/de\/apache-kafka\" target=\"_blank\" rel=\"noopener\">Apache Kafka<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Cassandra&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-cassandra-die-beliebteste-nosql-bdd\"><a href=\"https:\/\/liora.io\/de\/apache-cassandra-die-beliebteste-nosql-bdd\" target=\"_blank\" rel=\"noopener\">Apache Cassandra<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Schulung&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-schulung-wie-lerne-ich-hadoop-spark-und-cassandra\"><a href=\"https:\/\/liora.io\/de\/apache-schulung-wie-lerne-ich-hadoop-spark-und-cassandra\" target=\"_blank\" rel=\"noopener\">Apache Schulung<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Airflow&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-airflow-was-ist-das-und-wie-kann-man-es-nutzen\"><a href=\"https:\/\/liora.io\/de\/apache-airflow-was-ist-das-und-wie-kann-man-es-nutzen\" target=\"_blank\" rel=\"noopener\">Apache Airflow<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Flume&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-flume-was-ist-das-wozu-dient-es\"><a href=\"https:\/\/liora.io\/de\/apache-flume-was-ist-das-wozu-dient-es\" target=\"_blank\" rel=\"noopener\">Apache Flume<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Storm&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-storm-was-ist-das-wozu-benutzt-man-es\"><a href=\"https:\/\/liora.io\/de\/apache-storm-was-ist-das-wozu-benutzt-man-es\" target=\"_blank\" rel=\"noopener\">Apache Storm<\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2 class=\"wp-block-heading\" id=\"h-die-architektur-von-spark\">Die Architektur von Spark<\/h2>\nZun\u00e4chst einmal ist es wichtig, die Grundlagen der Funktionsweise von Spark zu verstehen.\n\nWenn man \u00fcber PySpark mit Spark interagiert, sendet man Anweisungen an den Driver. Dieser koordiniert s\u00e4mtliche Vorg\u00e4nge. Diese Kommunikation wird mittels eines <b>SparkContext-Objekts<\/b> vorgenommen. Dieses Objekt koordiniert die verschiedenen Berechnungen in den verschiedenen Clustern.\n\nDer gro\u00dfe Vorteil von Spark liegt darin, dass der Code v\u00f6llig unabh\u00e4ngig vom SparkContext ist. Dadurch kann man seinen Code lokal auf jedem beliebigen Rechner entwickeln. In diesem Artikel werden wir einige zentrale Elemente von Spark vorstellen, beginnend mit RDDs, der elementarsten Struktur von Spark. Anschlie\u00dfend werden wir uns mit dem DataFrame-Typ besch\u00e4ftigen, einer komplexeren Struktur als RDD, die f\u00fcr <strong><a href=\"https:\/\/liora.io\/de\/machine-learning-definition-funktionsweise-anwendungen\">Machine Learning<\/a><\/strong> optimiert wurde.\n\n<a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">\nEntdecke unsere Weiterbildungen\n<\/a>\n<h2 class=\"wp-block-heading\" id=\"h-rdd-resilient-distributed-data\">RDD &#8211; Resilient Distributed Data<\/h2>\nEin RDD ist die Spark-Darstellung einer <b>Datentabelle<\/b>. Diese besteht aus einer Sammlung von Elementen, die man verwenden kann, um Tupel, W\u00f6rterb\u00fccher, Listen oder \u00c4hnliches zu speichern. Die St\u00e4rke eines RDD liegt in seiner F\u00e4higkeit, den Code m\u00f6glichst bequem auszuwerten: Berechnungen werden n\u00e4mlich so lange wie m\u00f6glich aufgeschoben.\n\nSo wird beim Import von Dateien zun\u00e4chst nur ein Zeiger erstellt. Die tats\u00e4chliche Berechnung erfolgt erst, wenn man versucht, ein Ergebnis anzuzeigen oder zu verwenden.\n\nDa ein RDD <b>zeilenweise <\/b>gelesen wird, ist es besonders effizient f\u00fcr die <b>Verarbeitung von Textdateien<\/b> (z. B. die H\u00e4ufigkeit bestimmter W\u00f6rter in einem Text z\u00e4hlen). F\u00fcr <b>spaltenbasierte<\/b> Berechnungen ist es jedoch eine ungeeignete Struktur.\n\nUm Machine Learning zu betreiben, m\u00fcssen wir daher eine neue Struktur einf\u00fchren: <b>DataFrames<\/b>.\n\n<iframe title=\"\ud83d\udcbcHow to get a job in Data Science: Presentation of DataScientest&#039;s Career Management division\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/te2TvSN80OA?start=20&#038;feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n<h2 class=\"wp-block-heading\" id=\"h-pyspark-dataframe\">Pyspark DataFrame<\/h2>\nDer <a href=\"https:\/\/liora.io\/de\/dataframe\">Pyspark DataFrame<\/a> ist der derzeit <b>optimale Aufbau f\u00fcr Machine Learning<\/b>. Er verwendet grunds\u00e4tzlich die gleichen Prinzipien wie ein RDD, ist aber in einer SQL-Struktur sowohl in Spalten als auch in Zeilen strukturiert. Seine Form wurde von den DataFrames des Pandas-Moduls inspiriert.\n\nDank der DataFrame-Struktur k\u00f6nnen wir also leistungsf\u00e4hige Berechnungen in einer vertrauten (weil pandas-\u00e4hnlichen) Sprache durchf\u00fchren ohne die Kosten, die mit dem Erlernen einer neuen funktionalen Sprache verbunden sind.\n\n<a href=\"https:\/\/liora.io\/de\/category\/python-de\">Spark SQL<\/a> ist ein Modul von Spark, das den <b>Umgang mit strukturierten Daten<\/b> erm\u00f6glicht. Innerhalb dieses Moduls wurde auch der Spark DataFrame entwickelt.\n\nSpark SQL verf\u00fcgt \u00fcber ein anschauliches Infoblatt, das sowohl Beispiele als auch Erkl\u00e4rungen liefert. Im Gegensatz zu dem, was man im Internet findet, ist dieses Infoblatt das einzige Dokument, das st\u00e4ndig mit der neuesten Version von Spark aktualisiert wird.\n\nDieser Artikel ist nur eine Einf\u00fchrung in die wichtigsten Begrifflichkeiten von Pyspark. <strong><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Unsere Weiterbildungen<\/a><\/strong> beinhalten ein ganzes Modul zum Erlernen dieses wichtigen Tools f\u00fcr den Umgang mit gro\u00dfen Datenmengen. Wenn Du dieses Instrument beherrschen m\u00f6chtest, empfehlen wir Dir eine unserer <strong><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Weiterbildungen in Data Science<\/a>.<\/strong>\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/terminvereinbarung\">Einen Termin vereinbaren<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Wenn es um die Verarbeitung von Datenbanken mit Python geht, kommt einem sofort die pandas-Bibliothek in den Sinn. Mit wachsender Gr\u00f6\u00dfe der Datenbanken, nehmen allerdings die Berechnungen immer mehr Zeit in Anspruch.<\/p>\n","protected":false},"author":85,"featured_media":44186,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-149614","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/149614","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/85"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=149614"}],"version-history":[{"count":5,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/149614\/revisions"}],"predecessor-version":[{"id":216647,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/149614\/revisions\/216647"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/44186"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=149614"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=149614"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}