{"id":174593,"date":"2023-04-20T05:46:16","date_gmt":"2023-04-20T04:46:16","guid":{"rendered":"https:\/\/liora.io\/de\/?p=174593"},"modified":"2026-02-06T06:54:23","modified_gmt":"2026-02-06T05:54:23","slug":"hdfs-hadoop-distributed-file-system-was-ist-das","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/hdfs-hadoop-distributed-file-system-was-ist-das","title":{"rendered":"HDFS (Hadoop Distributed File System): Was ist das?"},"content":{"rendered":"<p><strong>Das Akronym HDFS steht f\u00fcr Hadoop Distributed File System. Wie der Name schon sagt, ist HDFS eng mit dem Hadoop-Tool verbunden. Wozu dient HDFS? Was ist die Verbindung zwischen HDFS und Hadoop? Wie funktioniert HDFS? All diese Fragen werden wir mithilfe dieses Artikels beantworten. <\/strong><\/p>\t\t\n\t\t\t<h3>HDFS: Was ist Hadoop?<\/h3>\t\t\n\t\t<p><a href=\"https:\/\/liora.io\/de\/hadoop\">Hadoop<\/a> ist ein <a href=\"https:\/\/liora.io\/de\/open-source-definition\">Open-Source-Tool<\/a>, das die Welt der Informatik revolutioniert hat. Es ist insbesondere der Grund f\u00fcr die Entstehung von Big Data. Mit <a href=\"https:\/\/liora.io\/de\/data-science-und-big-data-im-zeitalter-von-big-data-die-business-intelligence-abloest\">Big Data (Massendaten)<\/a> sind wir gezwungen, gro\u00dfe Datenmengen zu verarbeiten, und das ist mit herk\u00f6mmlichen Werkzeugen eine langwierige und m\u00fchsame Aufgabe. Mit <a href=\"\/\">Hadoop<\/a> gehen wir den Weg \u00fcber eine verteilte Architektur, die Kosteneinsparungen und Leistungssteigerungen erm\u00f6glicht.<\/p><p>Der Unterschied zwischen einer verteilten und einer herk\u00f6mmlichen Architektur besteht darin, dass ein Cluster von Maschinen, also eine Gruppe von Computern, verwendet wird.<\/p><p>Seit Hadoop werden die Daten zwischen den Rechnern im Cluster geteilt, sodass die Operationen parallelisiert werden. Dabei wird zwischen den Maschinen im Cluster unterschieden: Einige Maschinen besitzen die Daten und verarbeiten sie, w\u00e4hrend eine Maschine die Daten koordiniert. Diese Architektur wird allgemein als &#8222;master-slave&#8220; (Meister-Sklave) bezeichnet. In Hadoop wird der &#8222;Master&#8220;-Rechner als Namenode bezeichnet und die &#8222;Slave&#8220;-Rechner werden als Datanodes bezeichnet.<\/p><p>Nachdem wir nun die Grundkenntnisse \u00fcber Hadoop haben, k\u00f6nnen wir anfangen, \u00fcber <strong>HDFS<\/strong> zu sprechen. Um mehr Informationen \u00fcber Hadoop zu erhalten, kannst du diesen Artikel lesen.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"1024\" height=\"563\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Illu_BLOG_NEW_hadoop.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Illu_BLOG_NEW_hadoop.png 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Illu_BLOG_NEW_hadoop-300x165.png 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Illu_BLOG_NEW_hadoop-768x422.png 768w\" sizes=\"(max-width: 1024px) 100vw, 1024px\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t\t<h3>Wozu dient HDFS ?<\/h3>\t\t\n\t\t<p>Wir haben die Operationen erw\u00e4hnt, die mit Hadoop durchgef\u00fchrt werden, aber dieses Tool besteht aus mehreren Komponenten. Wir verarbeiten die Daten mit <strong>MapReduce-Operationen,<\/strong> w\u00e4hrend die <strong>Yarn-Komponente<\/strong> dazu dient, die verschiedenen Maschinen in deinem Cluster zu \u00fcberwachen und ihnen die n\u00f6tigen Ressourcen zuzuweisen. HDFS wurde f\u00fcr die Speicherung von Dateien entwickelt. Wie der Name schon sagt (Hadoop Distributed File System zur Erinnerung), handelt es sich um ein Dateisystem.<\/p><p>\u00c4hnlich wie beim Dateisystem unseres Betriebssystems k\u00f6nnen mit <strong>HDFS<\/strong> alle Dateitypen in verschiedenen Ordnern organisiert werden (&#8222;hierarchical file system&#8220;). Dies gilt sowohl f\u00fcr &#8222;klassische&#8220; Dateien wie csv oder json als auch f\u00fcr andere Dateitypen, die f\u00fcr Big-Data-Aufgaben verwendet werden, wie parquet, avro und orc. Wir sind nicht wie in einer relationalen Datenbank eingeschr\u00e4nkt, sondern sehen <strong>HDFS<\/strong> eher als <a href=\"https:\/\/liora.io\/de\/alles-wissenswerte-ueber-data-lake\">Data Lake<\/a>. Wir speichern dort die Rohdaten aus unserer Datenpipeline und verarbeiten sie dann in einem <a href=\"https:\/\/liora.io\/de\/data-warehouse\">Data Warehouse<\/a> oder in Datenbanken.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Hadoop lernen<\/a><\/div><\/div>\n\n\t\t\t<h3>Wie funktionieren HDFS ?<\/h3>\t\t\n\t\t<p>Wenn man es mit einem klassischen Dateisystem eines Betriebssystems vergleichen kann, gibt es jedoch Unterschiede in der Nutzung und Speicherung.<\/p><p>Wir befinden uns in einem Cluster von Maschinen, also wie k\u00f6nnen wir wissen, auf welcher Maschine im Cluster unsere Daten gespeichert sind?<\/p><p>Wie du wahrscheinlich schon vermutet hast, werden wir <strong>Namenode<\/strong> verwenden. Um die verschiedenen Maschinen im Cluster verwalten zu k\u00f6nnen, muss der Namenode \u00fcber den Status jeder Maschine Bescheid wissen, weshalb wir dort <strong>Metadaten<\/strong> finden k\u00f6nnen.<\/p><p>Insbesondere werden wir wissen, auf welchen Maschinen die Daten gespeichert sind. Ein weiterer Vorteil eines <strong>Hadoop-Clusters ist, dass wir &#8222;fault tolerant&#8220; (ausfalltolerant)<\/strong> sind. Da wir mehrere Maschinen zur Verf\u00fcgung haben, k\u00f6nnen wir Kopien unserer <a href=\"https:\/\/liora.io\/de\/azure-databricks-was-ist-das-denn\">Daten erstellen und sie auf die Maschinen verteilen.<\/a> Wenn also ein Rechner ausf\u00e4llt, k\u00f6nnen wir immer noch auf die Daten zugreifen. Au\u00dferdem werden die Daten nicht &#8222;vollst\u00e4ndig&#8220; auf die Maschinen verteilt, sondern in Bl\u00f6cke segmentiert. Dies erm\u00f6glicht es uns, uns gegen das Risiko eines Maschinenausfalls zu sch\u00fctzen, indem wir unsere Daten nur teilweise verlieren.<\/p><p>Betrachten wir das folgende Schema, um die <strong>Datenspeicherung in HDFS<\/strong> zu verstehen:<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"563\" height=\"460\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Fichier-103.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Fichier-103.png 563w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Fichier-103-300x245.png 300w\" sizes=\"(max-width: 563px) 100vw, 563px\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t<p>Wie bereits erw\u00e4hnt, finden wir im Namenode die Metadaten unserer Datei: ihren Namen, die Anzahl der Replikate und ihre Segmentierung in Bl\u00f6cke, aber es gibt auch andere Metadaten.<\/p><p>Diese Elemente best\u00e4tigen, dass sich die <strong>Verwendung von HDFS<\/strong> von der Verwendung eines Dateisystems \u00fcber eine <a href=\"https:\/\/liora.io\/de\/tortendiagramm-excel-ein-blick-auf-diesen-diagrammtyp\">Tortendiagramm-Schnittstelle<\/a> unterscheidet. Tats\u00e4chlich verwenden wir es eher unter dem Aspekt der Batchverarbeitung und greifen auf unsere Daten \u00fcber einen Link wie diesen zu: &#8222;hdfs:\/cluster-ip:XXXX\/\/data\/users.csv&#8220;.<\/p>\t\t\n\t\t\t<h3>Weiterf\u00fchrende Informationen<\/h3>\t\t\n\t\t<p>Nachdem wir verstanden haben, wie <strong>Hadoop<\/strong> funktioniert, wollen wir nun das HDFS-Dateisystem und die Hadoop-Suite \u00fcben. Allerdings ist es schwierig, sie als Privatperson zu verwenden.<\/p><p>Der erste Grund ist einfach, dass wir nicht \u00fcber einen Cluster von Rechnern verf\u00fcgen. Der zweite Grund ist, dass wir selbst mit einem Maschinencluster immer noch Hadoop darauf installieren und es in <a href=\"https:\/\/liora.io\/de\/welche-berufe-gibt-es-im-bereich-big-data-und-welche-kompetenzen-sind-erforderlich\">Big-Data-Problemen<\/a> verwenden m\u00fcssen, was f\u00fcr eine Privatperson selten notwendig ist.<\/p><p>Du kannst mehr \u00fcber die verschiedenen Komponenten des Hadoop-Tools lernen, indem du den Data Engineer-Kurs von Liora absolvierst.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung-data-engineer\">Data Engineer Weiterbildung<\/a><\/div><\/div>\n\n\t\t<p>In unserer Weiterbildung wirst Du auch mehr \u00fcber seinen &#8222;kleinen Bruder&#8220; erfahren:<a href=\"https:\/\/liora.io\/de\/apache-spark\"> Spark, das gro\u00dfe Datenmengen<\/a> viel schneller als Hadoop verarbeiten kann, aber keinen Speicheraspekt hat, weshalb es neben HDFS unterrichtet wird.<\/p>","protected":false},"excerpt":{"rendered":"<p>Das Akronym HDFS steht f\u00fcr Hadoop Distributed File System. Wie der Name schon sagt, ist HDFS eng mit dem Hadoop-Tool verbunden. Wozu dient HDFS? Was ist die Verbindung zwischen HDFS und Hadoop? Wie funktioniert HDFS? All diese Fragen werden wir mithilfe dieses Artikels beantworten. HDFS: Was ist Hadoop? Hadoop ist ein Open-Source-Tool, das die Welt [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":174594,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-174593","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174593","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=174593"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174593\/revisions"}],"predecessor-version":[{"id":217614,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/174593\/revisions\/217614"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/174594"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=174593"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=174593"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}