{"id":178813,"date":"2026-01-28T11:26:46","date_gmt":"2026-01-28T10:26:46","guid":{"rendered":"https:\/\/liora.io\/de\/?p=178813"},"modified":"2026-02-25T14:00:41","modified_gmt":"2026-02-25T13:00:41","slug":"beautiful-soup-einfuehrung-in-web-scraping-mit-python","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/beautiful-soup-einfuehrung-in-web-scraping-mit-python","title":{"rendered":"Beautiful Soup: Einf\u00fchrung in Web Scraping mit Python"},"content":{"rendered":"\n<p><strong>Als User im Internet hat man Zugang zu vielen Informationen, die sich auf Kunden, Angebote, Aktienkurse, physikalische Ph\u00e4nomene usw. beziehen. Diese Daten k\u00f6nnen von Nutzern gelesen werden, aber man w\u00fcrde sie gerne auswerten, indem man sie in ein brauchbares Format umwandelt, um sie dann zu analysieren und daraus Nutzen zu ziehen. <a href=\"https:\/\/liora.io\/de\/python-web-scraping-scrapy-alles-ueber-das-tool\">Web Scraping ist die Technik,<\/a> die es erm\u00f6glicht, diese Informationen in ein Format zu bringen, das von Computerprogrammen genutzt werden kann. Wir werden in diesem Artikel herausfinden, wie man sie mit Beautiful Soup durchf\u00fchren kann.<\/strong><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-was-ist-beautiful-soup\">Was ist Beautiful Soup?<\/h2>\n\n\n\n<p>Zum Beispiel m\u00f6chte man vielleicht Zugang zu allen Bewertungen eines <strong>HP Tintenpatronen schwarz Packs auf Amazon<\/strong> haben, um eine syntaktische, semantische und sentimentale Analyse durchf\u00fchren zu k\u00f6nnen und sich eine eigene Meinung zu bilden. Durch<a href=\"https:\/\/liora.io\/de\/web-scraping-theorie-und-anwendung-fuer-jedermann\"> Web Scraping von einem Ladenlokalisierer<\/a> (z. B. einer Karte) kann man eine Liste von Gesch\u00e4ftsstandorten erstellen. Man kann auch Aktienkurse erhalten, um bessere Investitionsentscheidungen zu treffen.<\/p>\n\n\n\n<p><a href=\"https:\/\/liora.io\/de\/unit-tests-in-der-datenanalyse\">Was den Teil der Datenanalyse betrifft<\/a>, so gibt es f\u00fcr jede Art von Daten und jedes Ziel spezifische Techniken. In der folgenden Abbildung siehst du den &#8222;logistischen&#8220; Prozess, der zu einer fundierten Entscheidungsfindung f\u00fchrt:<\/p>\n\n\n\n<figure class=\"wp-block-image is-resized is-style-not-rounded\" style=\"margin-top:var(--wp--preset--spacing--columns);margin-bottom:var(--wp--preset--spacing--columns)\"><img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/06\/schema_webscraping.png\" alt=\"\" style=\"width:1000px;height:auto\" \/><figcaption class=\"wp-element-caption\">Logistischer Prozess f\u00fcr eine Entscheidungsfindung<\/figcaption><\/figure>\n\n\n\n<p>Wenn wir uns in der<strong> Phase des Datenabrufs<\/strong> befinden, w\u00fcrden wir gerne auf alle Informationen auf einer Webseite zugreifen, um dann die gew\u00fcnschte Studie durchf\u00fchren zu k\u00f6nnen.<\/p>\n\n\n\n<p>Um dies zu erreichen, kann man sie &#8222;von Hand&#8220; in ein anderes Dokument kopieren. Dies ist jedoch eine m\u00fchsame Arbeit, da es viel Zeit in Anspruch nehmen kann, ganz zu schweigen von den Tippfehlern, die beim Eingeben passieren k\u00f6nnen. Wie bereits in der Einleitung gesagt, erm\u00f6glicht das Web Scraping den Zugriff auf diese Informationen in einem verwertbaren Format.<\/p>\n\n\n\n<p>F\u00fcr die zweite Phase werden die technischen F\u00e4higkeiten von Datenanalysten, Dateningenieuren oder Datenwissenschaftlern herangezogen, um Algorithmen und relevante statistische Studien zu implementieren. Im Fall der Analyse von Kommentaren zu einem Produkt kann man z. B. <a href=\"https:\/\/liora.io\/de\/nlp-natural-language-processing-eine-einfuhrung\">einen NLP-Algorithmus verwenden,<\/a> der es Maschinen erm\u00f6glicht, die menschliche Sprache zu verstehen.<\/p>\n\n\n\n<p>Die Interpretation der Daten wird oft in einem Team vorgenommen, wobei die Meinung von Fachleuten ber\u00fccksichtigt wird (z. B. die Meinung eines Arztes ber\u00fccksichtigen, wenn man an einem Projekt mit medizinischen Daten arbeitet), um schlie\u00dflich zu einer optimalen Entscheidungsfindung zu gelangen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-prasentation-von-beautiful-soup\">Pr\u00e4sentation von Beautiful Soup<\/h2>\n\n\n\n<p>In diesem Artikel werden wir uns auf Phase 1 konzentrieren, da wir uns mit dem Abrufen von Daten besch\u00e4ftigen. Im n\u00e4chsten Abschnitt werden wir uns eine Anwendung der <a href=\"https:\/\/www.crummy.com\/software\/BeautifulSoup\/bs4\/doc\/\">Beautiful Soup Library<\/a> ansehen, die Web Scraping in Python erm\u00f6glicht.<\/p>\n\n\n\n<p>Im n\u00e4chsten Abschnitt werden wir uns mit einer Web-Scraping-Buchhandlung in <strong>Python besch\u00e4ftigen,<\/strong> die ein hervorragendes (einfach zu handhabendes) Werkzeug ist, um Informationen aus unstrukturierten Daten zu extrahieren: Beautiful Soup.<\/p>\n\n\n\n<p>Die <strong>Python-Bibliothek Beautiful Soup<\/strong> erm\u00f6glicht es, Inhalte zu extrahieren und sie in eine Python-Liste, -Tabelle oder -W\u00f6rterbuch umzuwandeln. Diese Bibliothek ist sehr beliebt, weil sie eine umfassende Dokumentation hat und ihre Funktionen gut strukturiert sind. Au\u00dferdem gibt es eine gro\u00dfe Community, die verschiedene L\u00f6sungen f\u00fcr die Nutzung dieser Bibliothek anbietet.<\/p>\n\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/liora.io\/de\/weiterbildung\">Mehr \u00fcber Beautiful Soup lernen<\/a><\/div>\n<\/div>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-warum-beautiful-soup\">Warum &#8222;Beautiful Soup&#8220;?<\/h2>\n\n\n\n<p>Webseiten werden mit den Computersprachen HTML und CSS geschrieben, die das Layout von Webseiten erm\u00f6glichen. Um den Inhalt zu verwalten und zu organisieren, wird <strong>HTML<\/strong> verwendet. Der Teil, der das Aussehen der Webseite verwaltet (Farben, Textgr\u00f6\u00dfe usw.), wird von der Sprache CSS verwaltet.<\/p>\n\n\n\n<p>In der Webentwicklung ist &#8222;Tag-Suppe&#8220; ein abwertender Begriff f\u00fcr syntaktisch oder strukturell inkorrektes HTML, das f\u00fcr eine Webseite geschrieben wurde.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-ein-beispiel-fur-web-scraping-mit-beautiful-soup\">Ein Beispiel f\u00fcr Web Scraping mit Beautiful Soup<\/h2>\n\n\n\n<p>Lass uns ein einfaches Beispiel nehmen, um uns mit diesen Begriffen vertraut zu machen. Das folgende Beispiel wurde von <a href=\"https:\/\/liora.io\/de\/kaggle-alles-was-du-ueber-diese-plattform-wissen-musst\">Kaggle<\/a> genommen und das Ziel ist es, Daten \u00fcber die Bev\u00f6lkerung der Welt zu scrapen. Die Daten sind auf der Worldometer-Website verf\u00fcgbar, einer <a href=\"https:\/\/liora.io\/de\/open-source-definition\">Open Source<\/a>, die von einem internationalen Team freiwilliger Entwickler und Forscher betrieben wird und deren Ziel es ist, globale Statistiken einem breiten Publikum auf der ganzen Welt zur Verf\u00fcgung zu stellen.<\/p>\n\n\n\n<p>Hier ist eine Vorschau der Seite, die wir scrapen werden<\/p>\n\n\n\n<figure class=\"wp-block-image is-resized\" style=\"margin-top:var(--wp--preset--spacing--columns);margin-bottom:var(--wp--preset--spacing--columns)\"><a href=\"https:\/\/www.worldometers.info\/world-population\/population-by-country\/\"><img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2022\/03\/beautifulsoup.png\" alt=\"\" style=\"width:1000px;height:auto\" title=\"\" \/><\/a><\/figure>\n\n\n\n<p>Unser Ziel ist es, diese Tabelle abzurufen und sie in einen DataFrame umzuwandeln, ohne dass wir alle Daten von Hand kopieren m\u00fcssen.<\/p>\n\n\n\n<p>In einem <a href=\"https:\/\/liora.io\/de\/ipython-die-python-shell-im-herzen-von-jupyter-notebook-entdecken\">Jupyter Notebook<\/a> importieren wir zun\u00e4chst die ben\u00f6tigten Bibliotheken.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Dann erstellst du eine url-Variable im String-Format (Text), die den Link zu der betreffenden Seite enth\u00e4lt.<\/li>\n<\/ul>\n\n\n\n<p>Um die Daten vorzubereiten, benutzt du die Funktion requests.get():<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Da die Daten nun vorbereitet sind, kann die Funktion BeautifulSoup() den HTML-Code dieser Seite extrahieren. Im Argument dieser Funktion w\u00e4hlen wir das .text-Objekt aus.<\/li>\n\n\n\n<li>In der Variable data speichern wir den HTML-Code. Wir suchen mit der Funktion .find_all() nach dem Schl\u00fcsselwort &#8222;table&#8220;:<\/li>\n\n\n\n<li>Du benutzt den Befehl .read_html(str()), damit die Maschine den HTML-Code liest und holst dir dann das erste und einzige Element dieses Objekts (das Array).<\/li>\n<\/ul>\n\n\n\n<p>Jetzt werden die ersten Elemente angezeigt, Befehl .head() des DataFrame :<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Man kann die Datenbank auch mit folgendem Befehl in das csv-Format exportieren:<\/li>\n<\/ul>\n\n\n\n<p>Dieser Befehl erstellt eine Datei im<strong> csv-Format,<\/strong> die sich im angegebenen Pfad befindet.<\/p>\n\n\n\n<p>Um die Arbeit mit dem <a href=\"https:\/\/liora.io\/de\/dataframe\">DataFrame<\/a> zu vereinfachen, kannst du die Namen der Spalten \u00e4ndern oder einige Spalten entfernen, wenn du sie nicht verwendest.<\/p>\n\n\n\n<p>Nachdem wir nun die Daten, die auf der Worldometer-Website zur Verf\u00fcgung gestellt wurden, erhalten haben und sie in einem DataFrame-Format vorliegen, k\u00f6nnen wir mit den weiteren Schritten fortfahren und Studien durchf\u00fchren. Man kann also mit dem weiteren Prozess beginnen (Phase 2, 3 und 4, siehe das Schema in der Einleitung). Je nach Art der Daten und je nach den zu erreichenden Zielen kann man verschiedene Studien durchf\u00fchren: explorative Analyse, Vorschlag eines Machine-Learning-Modells, <strong>Modellierung von Zeitreihen,<\/strong> etc.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-fazit\">Fazit<\/h2>\n\n\n\n<p>Wir haben gerade ein Beispiel gesehen, mit dem man in einer Tabelle gespeicherte Daten abrufen kann, aber man muss bedenken, dass je nach Struktur der Webseite, auf der man die Daten scrapen will, unterschiedliche Bibliotheken und Funktionen verwendet werden.<\/p>\n\n\n\n<p>Die gute Nachricht ist, dass es im Internet viele Beispiele gibt, die auf das Format der Seite und die Konfiguration der Daten, die du<strong> scrapen<\/strong> willst, abgestimmt sind.<\/p>\n\n\n\n<p>Zusammenfassend l\u00e4sst sich sagen, dass Web Scraping das &#8222;intelligente&#8220; Surfen im Internet erm\u00f6glicht und somit eine reichhaltige Ressource f\u00fcr jeden Bereich der Forschung oder des pers\u00f6nlichen Interesses darstellt.<\/p>\n\n\n\n<p>Die <a href=\"https:\/\/liora.io\/de\/weiterbildung-data-analyst\">Data Analyst Weiterbildung von Liora<\/a> erm\u00f6glicht es dir, dich mit den F\u00e4higkeiten des Web Scrapings vertraut zu machen und sie in die Praxis umzusetzen, aber nicht nur das. Wenn du dich in der Datenanalyse weiterbilden und technische F\u00e4higkeiten im Zusammenhang mit diesem Thema erwerben m\u00f6chtest, entdecke unsere Weiterbildung:<\/p>\n\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/liora.io\/de\/weiterbildung\">Data Analyst Weiterbildung<\/a><\/div>\n<\/div>\n\n\n\n<script type=\"application\/ld+json\">\n{\n  \"@context\": \"https:\/\/schema.org\",\n  \"@type\": \"FAQPage\",\n  \"mainEntity\": [\n    {\n      \"@type\": \"Question\",\n      \"name\": \"Was ist Beautiful Soup?\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"Beautiful Soup ist eine Python-Bibliothek f\u00fcr Web Scraping, die es erm\u00f6glicht, Inhalte aus HTML- und XML-Dokumenten zu extrahieren und in strukturierte Formate wie Python-Listen, Tabellen oder W\u00f6rterb\u00fccher umzuwandeln. Sie ist besonders beliebt aufgrund ihrer umfassenden Dokumentation, gut strukturierten Funktionen und einer gro\u00dfen Community, die vielf\u00e4ltige L\u00f6sungen f\u00fcr die Nutzung dieser Bibliothek bietet.\"\n      }\n    },\n    {\n      \"@type\": \"Question\",\n      \"name\": \"Warum \u201eBeautiful Soup\u201c?\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"Der Name 'Beautiful Soup' spielt ironisch auf den Begriff 'Tag-Suppe' an \u2013 ein abwertender Ausdruck in der Webentwicklung f\u00fcr syntaktisch oder strukturell inkorrektes HTML. Die Bibliothek wurde entwickelt, um solche unstrukturierten oder fehlerhaften HTML-Dokumente zu parsen und daraus sauberen, extrahierbaren Content zu gewinnen.\"\n      }\n    },\n    {\n      \"@type\": \"Question\",\n      \"name\": \"Ein Beispiel f\u00fcr Web Scraping mit Beautiful Soup\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"Ein praktisches Beispiel zeigt das Scrapen von Bev\u00f6lkerungsdaten von der Worldometer-Website. Der Prozess umfasst: Import der ben\u00f6tigten Bibliotheken, Aufruf der Webseite mit requests.get(), Extrahieren des HTML-Codes mit BeautifulSoup(), Suchen der Tabelle mit .find_all('table'), Konvertieren in einen pandas DataFrame und Export als CSV-Datei. Die so gewonnenen strukturierten Daten k\u00f6nnen dann f\u00fcr weitere Analysen wie explorative Datenanalyse oder Machine Learning verwendet werden.\"\n      }\n    },\n    {\n      \"@type\": \"Question\",\n      \"name\": \"Fazit\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"Web Scraping mit Beautiful Soup erm\u00f6glicht 'intelligentes' Surfen im Internet und ist eine reichhaltige Ressource f\u00fcr Forschung und pers\u00f6nliche Interessen. Je nach Struktur der Webseite k\u00f6nnen unterschiedliche Bibliotheken und Funktionen n\u00f6tig sein, aber es gibt zahlreiche Online-Beispiele f\u00fcr verschiedene Anwendungsf\u00e4lle. Die Data Analyst Weiterbildung von Liora vermittelt die praktischen F\u00e4higkeiten f\u00fcr Web Scraping und angrenzende Themen der Datenanalyse.\"\n      }\n    }\n  ]\n}\n<\/script>\n","protected":false},"excerpt":{"rendered":"<p>Als User im Internet hat man Zugang zu vielen Informationen, die sich auf Kunden, Angebote, Aktienkurse, physikalische Ph\u00e4nomene usw. beziehen. Diese Daten k\u00f6nnen von Nutzern gelesen werden, aber man w\u00fcrde sie gerne auswerten, indem man sie in ein brauchbares Format umwandelt, um sie dann zu analysieren und daraus Nutzen zu ziehen. Web Scraping ist die Technik, die es erm\u00f6glicht, diese Informationen in ein Format zu bringen, das von Computerprogrammen genutzt werden kann. Wir werden in diesem Artikel herausfinden, wie man sie mit Beautiful Soup durchf\u00fchren kann.<\/p>\n","protected":false},"author":47,"featured_media":219721,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-178813","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/178813","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/47"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=178813"}],"version-history":[{"count":5,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/178813\/revisions"}],"predecessor-version":[{"id":218493,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/178813\/revisions\/218493"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/219721"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=178813"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=178813"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}