{"id":173228,"date":"2023-03-28T20:13:35","date_gmt":"2023-03-28T19:13:35","guid":{"rendered":"https:\/\/liora.io\/de\/?p=173228"},"modified":"2026-07-24T22:02:20","modified_gmt":"2026-07-24T20:02:20","slug":"apache-schulung-wie-lerne-ich-hadoop-spark-und-cassandra","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/apache-schulung-wie-lerne-ich-hadoop-spark-und-cassandra","title":{"rendered":"Apache-Schulung: Wie lerne ich Hadoop, Spark und Cassandra?"},"content":{"rendered":"<style><br \/>\n.elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]>a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}<\/style>\n<p><strong>In einer Apache-Schulung lernst Du den Umgang mit Hadoop, Spark, Hive oder Cassandra. Wenn Du im Bereich Data Science arbeiten m\u00f6chtest, ist dies ein unumg\u00e4nglicher Schritt.\nDie Open-Source-Software der Apache Foundation wird in der Informatik sehr h\u00e4ufig eingesetzt. Im Bereich der Data Science werden mehrere dieser Tools als unverzichtbar angesehen.\nDaher ist die Beherrschung dieser Software eine sehr gefragte F\u00e4higkeit in Unternehmen, um die Vorteile von Big Data zu nutzen. Die Teilnahme an einer Apache-Schulung kann dir diese wertvollen F\u00e4higkeiten vermitteln.<\/strong><\/p>\n<h3>Was ist die Apache Software Foundation?<\/h3>\nDie<a href=\"\/\"> Apache Software Foundation<\/a> ist eine Non-Profit-Organisation, die 1999 in Forest Hill, Maryland, gegr\u00fcndet wurde. Sie beaufsichtigt und unterst\u00fctzt die Entwicklung von Open-Source-Software.\n\nDie Mitglieder dieser Stiftung tragen zu den verschiedenen Projekten bei. Kandidaten m\u00fcssen nominiert und von einer Mehrheit der Mitglieder genehmigt werden. Nur Einzelpersonen k\u00f6nnen sich bewerben, und K\u00f6rperschaften sind nicht zugelassen.\n\nDie <strong>ASF<\/strong> beaufsichtigt \u00fcber 100 Projekte, von denen viele in Unterprojekte unterteilt sind. Zu den beliebtesten geh\u00f6ren Hadoop, Spark und Cassandra.\n<h3>Was ist Hadoop ?<\/h3>\n<strong>Hadoop ist ein Programmier-Framework,<\/strong> mit dem gro\u00dfe Datenmengen in einer verteilten Umgebung verarbeitet werden k\u00f6nnen. Es handelt sich um ein kostenloses Framework, das auf Java basiert.\n\nDie Datens\u00e4tze und analytischen Aufgaben werden auf die Knoten eines Computerclusters verteilt. Dadurch k\u00f6nnen die Aufgaben in kleinere, parallel ausgef\u00fchrte Workloads aufgeteilt werden.\n\nEs k\u00f6nnen sowohl strukturierte als auch unstrukturierte Daten verarbeitet werden. Je nach Bedarf kann man durch Skalierung von einem einzelnen Server auf mehrere tausend Rechner aufstocken.\n\nUrspr\u00fcnglich wurde Apache Hadoop entwickelt, um die Bed\u00fcrfnisse von Unternehmen wie Yahoo und Google zu erf\u00fcllen. In ihrer Anfangszeit mussten diese Technologiegiganten gro\u00dfe Mengen an Big Data verarbeiten, um schneller Ergebnisse f\u00fcr die Websuche zu liefern.\n\nDas Hadoop-Projekt wurde von Google MapReduce inspiriert, einem Programmiermodell, das es erm\u00f6glicht, eine Anwendung in mehrere Teile zu unterteilen, die auf verschiedenen Knoten ausgef\u00fchrt werden. Es wurde von Doug Cutting und Mike Cafarella entwickelt, w\u00e4hrend er an Apache Nutch arbeitete.\n\nDas Open-Source-Projekt wurde 2008 von Yahoo als Open Source eingesetzt. Es war 2012, als die Apache Software Foundation Hadoop f\u00fcr die \u00d6ffentlichkeit verf\u00fcgbar machte.\n\nDieses Framework hatte einen gro\u00dfen Einfluss auf den Bereich Big Data. Es wird als Fundament der modernen Data Lake Cloud betrachtet.\n\nEs demokratisierte den Zugang zu Rechenleistung und erm\u00f6glichte es Unternehmen, Big-Data-Sets mithilfe von <a href=\"https:\/\/liora.io\/de\/open-source-definition\"><strong>Open-Source-Software<\/strong><\/a> und billiger Hardware zu analysieren. Es war eine brauchbare Alternative zu den bis dahin verf\u00fcgbaren propriet\u00e4ren und geschlossenen Data-Warehouse-L\u00f6sungen.\n\nViele Organisationen konnten gro\u00dfe Datenmengen speichern und verarbeiten, auf <strong>massive Rechenleistung<\/strong> zugreifen, und das zu geringeren Kosten und mit einer h\u00f6heren Elastizit\u00e4t als bei<a href=\"https:\/\/liora.io\/de\/data-warehouse\"> Data Warehouses.<\/a>\n<h3>Was ist Cassandra ?<\/h3>\n<a href=\"https:\/\/liora.io\/de\/apache-cassandra-die-beliebteste-nosql-bdd\">Cassandra ist ein verteiltes Open-Source-Datenbanksystem,<\/a> das f\u00fcr die Speicherung und Verwaltung gro\u00dfer Datenmengen entwickelt wurde. Diese verteilte NoSQL-Datenbank wurde urspr\u00fcnglich von Facebook f\u00fcr seine internen Zwecke entwickelt.\n\nDie US-Firma ben\u00f6tigte eine Datenbank f\u00fcr die Suchfunktion der Messenger-App, damit die Nutzer schnell eine Konversation finden k\u00f6nnen. Die Architektur von Cassandra kombiniert das von Amazon vorgestellte Verteilungsmodell mit <strong>Dynamo f\u00fcr horizontale Skalierung und die von Google BigTable<\/strong> beschriebene Speicher-Engine.\n\nSo entstand eine hoch skalierbare Datenbank, die f\u00fcr die meisten Big-Data-Anwendungsf\u00e4lle geeignet ist. Facebook ver\u00f6ffentlichte die Datenbank im Juli 2008 als Open-Source-Projekt. Im M\u00e4rz 2009 wurde sie zu einem Apache Incubator-Projekt, bevor sie im April 2010 zu einem Top-Level-Projekt der Apache Foundation wurde.\n\nDie Plattform ist heute unter der Apache 2.0-Lizenz kostenlos verf\u00fcgbar. Sie bietet unterbrechungsfreie Verf\u00fcgbarkeit, hohe Leistung und Skalierbarkeit, die f\u00fcr moderne Anwendungen erforderlich ist, und gleichzeitig einen einfachen Betrieb und Replikation zwischen Rechenzentren und Regionen.\n\nEs k\u00f6nnen mehrere Petabytes an Informationen mit Tausenden von gleichzeitigen Operationen pro Sekunde bew\u00e4ltigt werden. Dadurch sind Unternehmen in der Lage, gro\u00dfe Datenmengen in <strong>Hybrid- und Multi-Cloud-Umgebungen zu verarbeiten.<\/strong>\n\n<style><br \/>\n.elementor-widget-image{text-align:center}.elementor-widget-image a{display:inline-block}.elementor-widget-image a img[src$=\".svg\"]{width:48px}.elementor-widget-image img{vertical-align:middle;display:inline-block}<\/style>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-cassandra-1024x489.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-cassandra-1024x489.jpg 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-cassandra-300x143.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-cassandra-768x367.jpg 768w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-cassandra.jpg 1374w\" sizes=\"(max-width: 800px) 100vw, 800px\" width=\"800\" height=\"382\"><figcaption><\/figcaption><\/figure>\n<h3>Was ist Hive ?<\/h3>\nApache Hive ist ein verteiltes<strong> Open-Source-Data-Warehouse-System.<\/strong> Es erm\u00f6glicht es, gro\u00dfe Datens\u00e4tze, die in Hadoop-Dateien gespeichert sind, abzufragen und zu analysieren.\n\nIn einem Data Warehouse werden die Daten zentral gespeichert, um ihre Analyse zu vereinfachen. Petabytes von Daten k\u00f6nnen mit Hive unter Verwendung von SQL gelesen, geschrieben und auf verwaltet werden.\n\nHive basiert auf dem Open-Source-Framework Apache Hadoop und ist eng mit dieser Plattform integriert. Es wurde entwickelt, um Petabytes von Daten schnell zu verarbeiten. Sein Alleinstellungsmerkmal ist die F\u00e4higkeit, gro\u00dfe Datens\u00e4tze mit Apache Tez oder MapReduce \u00fcber eine SQL-Schnittstelle abzufragen.\n\nUrspr\u00fcnglich wurde das Tool entwickelt, um Nicht-Programmierern, die<a href=\"https:\/\/liora.io\/de\/no-sql-nicht-relationale-datenbanken\"> SQL<\/a> beherrschen, die Arbeit mit Big Data \u00fcber die HiveQL-Schnittstelle zu erm\u00f6glichen. Es nutzt die Technik des &#8222;Batch Processing&#8220;, um schnell eine sehr gro\u00dfe<a href=\"https:\/\/liora.io\/de\/datasets-top-5-websites-fuer-qualitativ-hochwertige-datensaetze\">, verteilte Datenbank<\/a> abzufragen. HiveQL-Abfragen werden in MapReduce- oder Tez-Jobs umgewandelt, die auf dem YARN-Framework von Hadoop ausgef\u00fchrt werden.\n\nDie Vorteile von Hive sind seine Geschwindigkeit, seine vertraute Schnittstelle und seine Skalierbarkeit.\n<h3>Was ist Spark ?<\/h3>\n<strong>Apache Spark<\/strong> ist ein Datenverarbeitungs-Framework, das schnell Aufgaben f\u00fcr sehr gro\u00dfe Datenmengen ausf\u00fchren und Datenverarbeitungsaufgaben auf mehrere Computer verteilen kann.\n\nDiese beiden F\u00e4higkeiten machen es zu einem Muss f\u00fcr Big Data und Machine Learning: zwei Bereiche, in denen massive Rechenleistung erforderlich ist, um gro\u00dfe Datenmengen zu verarbeiten.\n\nDas Tool wurde 2009 im AMPLab der U.C. Berkeley entwickelt. Seitdem hat es sich zu einem der wichtigsten Big-Data-Frameworks entwickelt.\n\nDie Architektur von Spark besteht aus zwei Hauptkomponenten: dem Treiber, der den Code in mehrere zu verteilende Aufgaben umwandelt, und den Aufgabenausf\u00fchrern.\n\nF\u00fcr die Vermittlung zwischen beiden wird au\u00dferdem ein <strong>Cluster-Manager<\/strong> ben\u00f6tigt. Es ist m\u00f6glich, Spark im unabh\u00e4ngigen Clustermodus oder in Kombination mit <a href=\"https:\/\/liora.io\/de\/hadoop\">Hadoop<\/a> YARN, Kubernetes, Docker Swarm oder Apache Mesos zu verwenden.\n<h3>Was ist Kafka ?<\/h3>\n<a href=\"https:\/\/liora.io\/de\/apache-kafka\">Apache Kafka<\/a> ist ein verteilter Data Store, der f\u00fcr die Aufnahme und Verarbeitung von Echtzeit-Streamingdaten optimiert ist. Streaming-Daten werden kontinuierlich von Tausenden von Datenquellen erzeugt, die ihre Datens\u00e4tze gleichzeitig senden.\n\nDaher ist es notwendig, eine Plattform zu verwenden, die diesen <a href=\"https:\/\/liora.io\/de\/big-data-definition-technologien-anwendungen-weiterbildung\">konstanten Datenstrom bew\u00e4ltigen<\/a> und die Daten sequentiell und inkrementell verarbeiten kann.\n\nDies ist die Aufgabe von Kafka, das das Publish\/Subscribe von Datensatzstr\u00f6men erm\u00f6glicht, Datensatzstr\u00f6me in der Reihenfolge ihrer Erzeugung speichert und sie in Echtzeit verarbeitet.\n\nKafka wird haupts\u00e4chlich zum Aufbau von Echtzeit-Datenpipelines und skalierbaren Anwendungen verwendet. Das Tool kombiniert Messaging, Speicherung und Datenstromverarbeitung, um die Speicherung und Analyse von historischen und Echtzeitdaten zu erm\u00f6glichen.\n\nDie wichtigsten Anwendungsf\u00e4lle sind der Bau von Pipelines und Echtzeit-Streaming-Anwendungen. Eine Datenpipeline erm\u00f6glicht es, Daten effizient zu verarbeiten und von einem System zum anderen zu \u00fcbertragen, und eine Streaming-Anwendung dient dazu, die Datenstr\u00f6me zu konsumieren.\n\nEs wird auch als Message Broker verwendet, um die Kommunikation zwischen zwei Anwendungen zu verarbeiten und zu verwalten.\n\nDie Funktionsweise von Kafka beruht auf zwei Nachrichtenmodellen: Queuing und Publish-Subscribe. Das Queuing erm\u00f6glicht es, die Datenverarbeitung auf mehrere Client-Instanzen zu verteilen. Dies macht es in hohem Ma\u00dfe skalierbar.\n\nDer<strong> publish-subscribe-Ansatz<\/strong> ist dagegen multi-subscriber. Allerdings geht jede Nachricht an jeden Subscriber und kann daher nicht verwendet werden, um die Arbeit auf mehrere Verarbeitungen zu verteilen.\n\nKafka verwendet ein partitioniertes Log-Modell, um die beiden L\u00f6sungen zu kombinieren. Es handelt sich um eine geordnete Sequenz von Aufzeichnungen, und die Logs werden in Segmente oder Partitionen zerlegt, die den verschiedenen Subscribern entsprechen.\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-kafka-1024x447.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-kafka-1024x447.jpg 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-kafka-300x131.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-kafka-768x335.jpg 768w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/03\/formation-apache-kafka.jpg 1520w\" sizes=\"(max-width: 800px) 100vw, 800px\" width=\"800\" height=\"349\">\n\n<figcaption><\/figcaption><\/figure>\n<h3>Wie kann man eine Apache-Schulung absolvieren?<\/h3>\nUm den Umgang mit <strong>Apache-Software<\/strong> zu erlernen, kannst du die Liora-Schulungen w\u00e4hlen. Werkzeuge wie Hadoop, Kafka, Hive und Spark stehen auf dem Programm unseres Data Engineer-Kurses innerhalb des Big Data-Moduls. In unseren Data Scientist- und Data Analyst-Kursen lernst du auch die<a href=\"https:\/\/liora.io\/de\/mysql-eine-relationale-datenverwaltungssoftware\"> SQL-Sprache<\/a>, die f\u00fcr die Nutzung der Cassandra-Datenbank unerl\u00e4sslich ist.\n\n\u00dcber die Apache-Tools hinaus wirst du in unseren verschiedenen Kursen alle F\u00e4higkeiten erwerben, die du f\u00fcr die Arbeit im Bereich Data Science ben\u00f6tigst. Von unseren Alumni haben 80% direkt nach der Ausbildung einen Job gefunden.\n\nUnser Blended-Learning-Ansatz kombiniert individuelles Coaching auf einer Online-Plattform mit kollektiven Masterclasses. Die Programme werden von Fachleuten aus der Industrie erstellt.\n\nJe nach Deinen Bed\u00fcrfnissen kannst du zwischen einem intensiven BootCamp und einer Weiterbildung w\u00e4hlen. Am Ende des Kurses erh\u00e4ltst du ein Zertifikat, das von<strong> MINES ParisTech \/ PSL Executive Education<\/strong> verliehen wird.\n\nAlle unsere Kurse k\u00f6nnen \u00fcber den Bildungsgutschein finanziert werden. <a href=\"https:\/\/liora.io\/de\/terminvereinbarung\">Warte nicht l\u00e4nger und entdecke die Liora-Kurse.<\/a>\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/data-analyst\">Mehr \u00fcber die Liora Schulungen<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>In einer Apache-Schulung lernst Du den Umgang mit Hadoop, Spark, Hive oder Cassandra. Wenn Du im Bereich Data Science arbeiten m\u00f6chtest, ist dies ein unumg\u00e4nglicher Schritt. Die Open-Source-Software der Apache Foundation wird in der Informatik sehr h\u00e4ufig eingesetzt. Im Bereich der Data Science werden mehrere dieser Tools als unverzichtbar angesehen. Daher ist die Beherrschung dieser [&hellip;]<\/p>\n","protected":false},"author":74,"featured_media":173229,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-173228","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/173228","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/74"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=173228"}],"version-history":[{"count":2,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/173228\/revisions"}],"predecessor-version":[{"id":221444,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/173228\/revisions\/221444"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/173229"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=173228"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=173228"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}