{"id":177568,"date":"2023-06-02T09:49:33","date_gmt":"2023-06-02T08:49:33","guid":{"rendered":"https:\/\/liora.io\/de\/?p=177568"},"modified":"2026-02-06T06:42:59","modified_gmt":"2026-02-06T05:42:59","slug":"apache-oozie-vereinfache-die-verwaltung-deiner-big-data-workflows","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/apache-oozie-vereinfache-die-verwaltung-deiner-big-data-workflows","title":{"rendered":"Apache Oozie: Vereinfache die Verwaltung deiner Big Data-Workflows"},"content":{"rendered":"<p><strong>Apache Oozie ist ein Open-Source-Tool f\u00fcr die Ablaufplanung, das urspr\u00fcnglich 2007 von Yahoo! entwickelt wurde, um die Koordination von Hadoop-Jobs zu erleichtern. Oozie wurde 2011 als Apache Incubator-Projekt akzeptiert und 2012 zum Apache Top-Level-Projekt bef\u00f6rdert.<\/strong><\/p>\nSeit seiner Gr\u00fcndung hat sich das Projekt st\u00e4ndig verbessert und neue Funktionen hinzugef\u00fcgt bekommen. Die Version 5.0.0, die 2017 ver\u00f6ffentlicht wurde, war eine gro\u00dfe Weiterentwicklung mit vielen Verbesserungen, darunter die Unterst\u00fctzung f\u00fcr langfristige Planung und die Unterst\u00fctzung f\u00fcr SSL-Zertifikate.\n\n<strong>Apache Oozie<\/strong> wird heute in vielen Unternehmen f\u00fcr die Koordination von Hadoop-Jobs und -Workflows eingesetzt.\n\n?Auch interessant:\n<table dir=\"ltr\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\">\n<colgroup>\n<col width=\"268\"><\/colgroup>\n<tbody>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Spark&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-spark\"><a href=\"https:\/\/liora.io\/de\/apache-spark\" target=\"_blank\" rel=\"noopener\">Apache Spark<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Kafka&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-kafka\"><a href=\"https:\/\/liora.io\/de\/apache-kafka\" target=\"_blank\" rel=\"noopener\">Apache Kafka<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Cassandra&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-cassandra-die-beliebteste-nosql-bdd\"><a href=\"https:\/\/liora.io\/de\/apache-cassandra-die-beliebteste-nosql-bdd\" target=\"_blank\" rel=\"noopener\">Apache Cassandra<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Schulung&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-schulung-wie-lerne-ich-hadoop-spark-und-cassandra\"><a href=\"https:\/\/liora.io\/de\/apache-schulung-wie-lerne-ich-hadoop-spark-und-cassandra\" target=\"_blank\" rel=\"noopener\">Apache Schulung<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Airflow&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-airflow-was-ist-das-und-wie-kann-man-es-nutzen\"><a href=\"https:\/\/liora.io\/de\/apache-airflow-was-ist-das-und-wie-kann-man-es-nutzen\" target=\"_blank\" rel=\"noopener\">Apache Airflow<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Flume&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-flume-was-ist-das-wozu-dient-es\"><a href=\"https:\/\/liora.io\/de\/apache-flume-was-ist-das-wozu-dient-es\" target=\"_blank\" rel=\"noopener\">Apache Flume<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Apache Storm&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/apache-storm-was-ist-das-wozu-benutzt-man-es\"><a href=\"https:\/\/liora.io\/de\/apache-storm-was-ist-das-wozu-benutzt-man-es\" target=\"_blank\" rel=\"noopener\">Apache Storm<\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3>Wie funktioniert Apache Oozie ?<\/h3>\n<strong>Apache Oozie<\/strong> ist ein Scheduling-System zur Verwaltung und Ausf\u00fchrung von <a href=\"https:\/\/liora.io\/de\/hdfs-hadoop-distributed-file-system-was-ist-das\">Hadoop-Jobs i<\/a>n einer verteilten Umgebung. Du kannst Pipelines erstellen, indem du verschiedene Jobs wie <a href=\"\/\">Hive<\/a>, MapReduce oder auch Pig kombinierst.\n\nAls<a href=\"https:\/\/liora.io\/de\/open-source-definition\"> Open-Source<\/a>-Java-Webanwendung ist Oozie f\u00fcr das Ausl\u00f6sen deiner verschiedenen Workflows verantwortlich. Die Fertigstellung von Aufgaben wird nach einem Callback- und Polling-Prinzip erkannt. Wenn Oozie eine Aufgabe startet, stellt es automatisch eine eindeutige HTTP-Callback-URL f\u00fcr die Aufgabe zur Verf\u00fcgung und benachrichtigt diese URL, sobald die Aufgabe abgeschlossen ist. F\u00fcr den Fall, dass die Aufgabe es nicht schafft, die Callback-URL aufzurufen, kann Oozie die Aufgabe sondieren, um zu \u00fcberpr\u00fcfen, ob sie abgeschlossen ist.\n\nApache Oozie verf\u00fcgt \u00fcber drei Arten von Jobs:\n<h4>Apache Oozie Workflow<\/h4>\nEin Apache <strong>Oozie-Workflow<\/strong> ist eine Abfolge von Aktionen, die als <a href=\"https:\/\/www.bigdata-insider.de\/was-ist-ein-directed-acyclic-graph-dag-a-1075296\/\">gerichteter azyklischer Graph (DAG)<\/a> organisiert sind. Diese Aktionen h\u00e4ngen voneinander ab, so dass die n\u00e4chste Aktion erst ausgef\u00fchrt werden kann, wenn die vorherige Aktion beendet wurde.\n\nJe nach Bedarf k\u00f6nnen verschiedene Arten von Aktionen erstellt werden. Der Workflow und die Skripte oder .jar-Dateien m\u00fcssen im <strong>HDFS-Pfad<\/strong> positioniert werden, bevor der Workflow ausgef\u00fchrt wird.\n\nF\u00fcr den Fall, dass wir mehrere Jobs parallel ausf\u00fchren wollen, k\u00f6nnen wir Fork verwenden.\n\nF\u00fcr jede Verwendung von Fork muss am Ende von Fork eine Verbindung (Join) verwendet werden.\n\nJoin geht davon aus, dass alle parallel laufenden Knoten Kinder eines einzigen Forks sind, wie das folgende Diagramm zeigt.\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"955\" height=\"470\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/image2-4.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/image2-4.png 955w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/image2-4-300x148.png 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/image2-4-768x378.png 768w\" sizes=\"(max-width: 955px) 100vw, 955px\"><figcaption><\/figcaption><\/figure>\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Mehr \u00fcber den oozie Workflow lernen<\/a><\/div><\/div>\n\n<h4>Oozie-Koordinator<\/h4>\nDer<strong> Oozie-Koordinator<\/strong> erm\u00f6glicht es dir, komplexe Workflows zu terminieren. Er l\u00f6st diese Workflows auf der Grundlage von Zeit-, Daten- oder Ereignispr\u00e4dikaten aus. So beginnen die Workflows, sobald die gegebene Bedingung erf\u00fcllt ist.\n\nDie erforderlichen Definitionen f\u00fcr Koordinationsjobs sind wie folgt:\n<ul>\n \t<li><strong>start:<\/strong> Datum und Uhrzeit des Arbeitsbeginns.<\/li>\n \t<li><strong>end:<\/strong> Datum und Uhrzeit des Arbeitsendes\ntimezone: Zeitzone der Koordinationsanwendung.<\/li>\n \t<li><strong>frequency:<\/strong> In Minuten, die H\u00e4ufigkeit f\u00fcr die Ausf\u00fchrung der Arbeit<\/li>\n<\/ul>\nEinige zus\u00e4tzliche Eigenschaften sind auch f\u00fcr Kontrollinformationen verf\u00fcgbar:\n<ul>\n \t<li><strong>timeout:<\/strong> Die maximale Zeit in Minuten, die eine Aktion auf die Erf\u00fcllung der Bedingungen wartet, bevor sie abgelehnt wird.<\/li>\n \t<li><strong>concurrency:<\/strong> Die maximale Anzahl von Aktionen, die parallel ausgef\u00fchrt werden k\u00f6nnen.<\/li>\n \t<li><strong>execution:<\/strong> Die Ausf\u00fchrungsreihenfolge, die aus FIFO, LIFO und LAST_ONLY ausgew\u00e4hlt werden kann.<\/li>\n<\/ul>\n<h4>Oozie Bundle<\/h4>\nOozie-Bundles sind keine Jobart im eigentlichen Sinne. Es handelt sich um ein B\u00fcndel von mehreren Koordinatoren- oder Workflow-Jobs. Die Bundles generieren so ihren Lebenszyklus.\n<h3>Die Funktionen von Apache Oozie<\/h3>\n<strong>Apache Oozie<\/strong> bietet eine Vielzahl von Funktionen, die es dir erm\u00f6glichen, deine <a href=\"https:\/\/liora.io\/de\/hadoop\">Hadoop-Arbeiten<\/a> effektiv zu planen und zu koordinieren. Hier sind einige der wichtigsten Funktionen von Oozie :\n<ul>\n \t<li><strong>Automatisierte Workflow-Planung:<\/strong> Wie bereits erw\u00e4hnt, kannst du mit Oozie deine Workflows anhand von Zeit-, Daten- oder Ereignisbedingungen planen.<\/li>\n \t<li><strong>Integration:<\/strong> Oozie ist so konzipiert, dass es sich einfach mit anderen beliebten Hadoop-Tools wie Hive, MapReduce, Spark oder HBase integrieren l\u00e4sst.<\/li>\n \t<li><strong>Fehlermanagement:<\/strong> Es wird eine erweiterte Fehlermanagementfunktion bereitgestellt, die es den Nutzern erm\u00f6glicht, im Falle eines Problems die richtigen Entscheidungen zu treffen.<\/li>\n \t<li><strong>GUI:<\/strong> Oozie wird mit einer benutzerfreundlichen GUI geliefert, die es den Nutzern erm\u00f6glicht, ihre Workflows effizient zu visualisieren und zu verwalten. Diese GUI bietet auch Echtzeit-\u00dcberwachungsfunktionen f\u00fcr laufende Jobs.<\/li>\n<\/ul>\n<h3>Fazit<\/h3>\n<strong>Apache Oozie<\/strong> ist ein leistungsstarkes und flexibles Werkzeug, das eine effiziente und koordinierte Verwaltung von<strong> Hadoop-Jobs und -Workflows erm\u00f6glicht.<\/strong> Dank seiner erweiterten Funktionen, die in diesem Artikel besprochen werden, ist Oozie zu einem Muss f\u00fcr die Analyse verteilter Daten geworden.\n\nWenn du oder dein Kunde nach einer effektiven M\u00f6glichkeit zur Verwaltung von <strong>Hadoop-Workflows<\/strong> sucht, ist Apache Oozie ein Werkzeug, das ernsthaft in Betracht gezogen werden sollte.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"#\">Apache Oozie lernen<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Apache Oozie ist ein Open-Source-Tool f\u00fcr die Ablaufplanung, das urspr\u00fcnglich 2007 von Yahoo! entwickelt wurde, um die Koordination von Hadoop-Jobs zu erleichtern. Oozie wurde 2011 als Apache Incubator-Projekt akzeptiert und 2012 zum Apache Top-Level-Projekt bef\u00f6rdert. Seit seiner Gr\u00fcndung hat sich das Projekt st\u00e4ndig verbessert und neue Funktionen hinzugef\u00fcgt bekommen. Die Version 5.0.0, die 2017 ver\u00f6ffentlicht [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":177569,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-177568","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/177568","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=177568"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/177568\/revisions"}],"predecessor-version":[{"id":217484,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/177568\/revisions\/217484"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/177569"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=177568"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=177568"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}