{"id":179577,"date":"2023-07-02T15:08:28","date_gmt":"2023-07-02T14:08:28","guid":{"rendered":"https:\/\/liora.io\/de\/?p=179577"},"modified":"2026-02-06T06:35:57","modified_gmt":"2026-02-06T05:35:57","slug":"tools-im-alltag-eines-data-engineers","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/tools-im-alltag-eines-data-engineers","title":{"rendered":"Tools im Alltag eines Data Engineers"},"content":{"rendered":"<h3>Im Zeitalter von Big Data haben sich mehrere Berufe herausgebildet, darunter auch der des Data Engineers. \nWenn du diesen Beruf noch nicht kennst, empfehle ich dir, diesen Artikel zuerst zu lesen. F\u00fcr diejenigen, die wissen, was ein Data Engineer macht, werden wir uns mit den Werkzeugen besch\u00e4ftigen, die er benutzt.<\/h3>\t\t\n\t\t<p>Lass uns von diesem Schema ausgehen, um<strong> uns die verschiedenen Phasen<\/strong>, die Daten durchlaufen, vor Augen zu f\u00fchren. Zur Erinnerung: Der <a href=\"https:\/\/liora.io\/de\/weiterbildung-data-engineer\"><strong>Data Engineer<\/strong><\/a> wird vor allem in den ersten drei Phasen t\u00e4tig sein (die letzte Phase betrifft Data Scientists und Data Analysts). Wir werden auf die Werkzeuge eingehen, die in diesen Phasen verwendet werden, aber sie k\u00f6nnen von Unternehmen zu Unternehmen unterschiedlich sein.<\/p>\t\t\n\t\t\t<h2>Die Datenquellen <\/h2>\t\t\n\t\t<p>Der erste Schritt besteht also darin, <a href=\"https:\/\/liora.io\/de\/data-source-definition-und-details-zu-ihrer-funktionsweise\">diese Daten mithilfe von Datenquellen zu sammeln.<\/a> Es ist \u00fcblich, hier Python zu finden, um diese Daten zu sammeln. Wir werden zum Beispiel <a href=\"https:\/\/liora.io\/de\/spark-python-api-so-verwendest-du-sie\">APIs<\/a> wie <a href=\"\/\">OpenWeatherMap<\/a> f\u00fcr Wetterdaten oder Binance f\u00fcr Finanzdaten anfordern. Es ist auch m\u00f6glich, Webscraping zu betreiben, um Daten von Webseiten \u00fcber die Python-Pakete <a href=\"https:\/\/liora.io\/de\/beautiful-soup-einfuehrung-in-web-scraping-mit-python\">BeautifulSoup<\/a> oder <a href=\"https:\/\/liora.io\/de\/selenium-python-case-study-zum-euronews-web-scraping\">Selenium abzurufen.<\/a><\/p><p>Mit dem Internet der Dinge werden Daten \u00fcber Sensoren von vernetzten Objekten gestreamt (kontinuierlich). Daher ist es wichtig, bestimmte Aktionen zum richtigen Zeitpunkt durchzuf\u00fchren, da sonst unerwartetes Verhalten unserer verbundenen Objekte auftreten kann. Hier kommt <a href=\"https:\/\/liora.io\/de\/apache-kafka\">Apache Kafka<\/a> mit seinem Nachrichtensystem ins Spiel. <a href=\"https:\/\/liora.io\/de\/webhooks-in-python-was-sind-sie-und-wie-kann-man-sie-mit-python-verwenden\">Rabbit MQ wird ebenfalls zur Verarbeitung von Streaming-Daten<\/a> verwendet, ebenso wie die Programmiersprache Scala.<\/p>\t\t\n\t\t\t<h2>Die Datenspeicherung ist auch ein Werkzeug, das von Dateningenieuren verwendet wird.<\/h2>\t\t\n\t\t<p>Nachdem die <strong>Daten in Form einer Datei gesammelt wurden,<\/strong> m\u00fcssen sie gespeichert werden. Dies kann in zwei Schritte unterteilt werden, wie es uns das Schema gezeigt hat.<br>Der erste Schritt besteht darin, die Daten ohne Transformationen zu speichern.<\/p><p>In diesem Fall werden die <strong>Daten in ihrem Rohzustand<\/strong> in einem <a href=\"https:\/\/liora.io\/de\/alles-wissenswerte-ueber-data-lake\">Data Lake<\/a> f\u00fcr eine m\u00f6gliche zuk\u00fcnftige Nutzung gespeichert. In diesem Data Lake werden die Daten \u00fcber Metadaten oder \u00fcber ein herk\u00f6mmliches Dateisystem organisiert. Mit <a href=\"https:\/\/liora.io\/de\/hadoop-vs-spark-training-wie-lerne-ich-den-umgang-mit-big-data-tools\">Hadoop<\/a> k\u00f6nnen wir ein solches zusammenstellen.<\/p><p>Wenn die Daten f\u00fcr eine spezifische Nutzung vorgesehen sind, kann der Data Engineer diese auch in ein Data Warehouse \u00fcbertragen.<\/p><p>Im Gegensatz zu einem Data Lake sind die Daten in einem Data Warehouse strukturiert und stehen direkt den Data Analysts oder Data Scientists zur Verf\u00fcgung.<\/p><p>Eine weitere M\u00f6glichkeit zur Datenspeicherung bieten Datenbanken. Relationale Datenbanken sind am weitesten verbreitet, und wir verwenden SQL, um sie zu verwalten. Heutzutage verarbeiten wir jedoch auch gro\u00dfe Datenmengen, wof\u00fcr NoSQL-Datenbanken zum Einsatz kommen.<\/p><p>F\u00fcr semi-strukturierte Daten eignet sich beispielsweise MongoDB besonders gut, w\u00e4hrend Neo4j optimal f\u00fcr die Speicherung von Graphdaten ist. Daher muss ein Data Engineer geschickt zwischen verschiedenen Datenbanken jonglieren.<\/p>\t\t\n\t\t\t<h2>In Produktion gehen\n<\/h2>\t\t\n\t\t<p>Der Data Engineer kann auch bei der Industrialisierung der L\u00f6sungen eingreifen. Die Arbeit, die der Data Scientist oder der <a href=\"https:\/\/liora.io\/de\/weiterbildung-data-analyst\">Data Analyst<\/a> geleistet hat, ist n\u00e4mlich noch nicht f\u00fcr alle zug\u00e4nglich und deshalb wird der Data Engineer eine API f\u00fcr die L\u00f6sung erstellen, damit der Kunde eine Schnittstelle nutzen kann, um einfach die Modelle des Data Scientists zu verwenden.<\/p><p>Dann m\u00fcssen wir einen Container f\u00fcr unsere L\u00f6sung erstellen, um sie einzusetzen, aber auch um sie mit anderen Komponenten zu kombinieren, und daf\u00fcr verwenden wir das <a href=\"https:\/\/liora.io\/de\/docker-was-ist-das-denn-und-wie-wird-es-benutzt\">Flaggschiff-Tool Docker.<\/a><\/p>\t\t\n\t\t\t<h2>Die Cloud ist ein unverzichtbares Werkzeug f\u00fcr Dateningenieure<\/h2>\t\t\n\t\t<p>Nous avons list\u00e9 quelques outils open source, mais de nos jours, il est de plus en plus courant d&#8217;utiliser un fournisseur de cloud comme<a href=\"https:\/\/liora.io\/de\/aws-cloud-quest\"> AWS,<\/a> GCP ou Azure pour r\u00e9pondre \u00e0 nos diff\u00e9rents besoins. Par exemple, si nous voulons utiliser un data lake, avec AWS, nous passerons par S3, tandis qu&#8217;avec GCP, ce ser<a href=\"https:\/\/liora.io\/de\/google-cloud-console-die-besten-hacks\">a Google Cloud Storage<\/a> et avec Azure, simplement <a href=\"https:\/\/azure.microsoft.com\/en-us\/solutions\/data-lake\">Azure Data Lake.<\/a><\/p>\t\t\n\t\t\t<h2>Automatisierung von Abl\u00e4ufen<\/h2>\t\t\n\t\t<p>Wenn unsere gesamte Datenpipeline funktioniert, m\u00fcssen wir die verschiedenen Schritte unseres ETL-Systems in einem bestimmten Rhythmus automatisieren. Die Datenquellen werden n\u00e4mlich Daten senden, die zun\u00e4chst in einem <strong>Data Lake<\/strong> gespeichert und dann in ein <a href=\"https:\/\/liora.io\/de\/data-warehouse\">Data Warehouse<\/a> oder eine Datenbank umgewandelt werden m\u00fcssen.<\/p><p>Um dies zu tun, verwenden wir einen Orchestrator. Der bekannteste ist Airflow, aber wenn du Echtzeitdaten hast, ist es besser, Nifi zu verwenden. Wenn unsere Datenpipeline vollst\u00e4ndig ist, gibt es Tools von Cloud-Anbietern wie <strong>Cloud Composer von GCP oder Glue von AWS.<\/strong><\/p>\t\t\n\t\t\t<h2>Fazit<\/h2>\t\t\n\t\t<p>Jetzt wei\u00dft du mehr \u00fcber die Werkzeuge, die ein Data Engineer am h\u00e4ufigsten benutzt.<\/p><p>Wenn du lernen m\u00f6chtest, wie du die Tools, die du gerade kennengelernt hast, einsetzen kannst, dann schau dir den Data Engineer-Kurs von Liora an.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung-data-engineer\">Data Engineer Weiterbildung<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Im Zeitalter von Big Data haben sich mehrere Berufe herausgebildet, darunter auch der des Data Engineers. Wenn du diesen Beruf noch nicht kennst, empfehle ich dir, diesen Artikel zuerst zu lesen. F\u00fcr diejenigen, die wissen, was ein Data Engineer macht, werden wir uns mit den Werkzeugen besch\u00e4ftigen, die er benutzt. Lass uns von diesem Schema [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":179579,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-179577","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/179577","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=179577"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/179577\/revisions"}],"predecessor-version":[{"id":217403,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/179577\/revisions\/217403"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/179579"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=179577"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=179577"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}