{"id":165586,"date":"2023-02-01T19:49:02","date_gmt":"2023-02-01T18:49:02","guid":{"rendered":"https:\/\/liora.io\/de\/?p=165586"},"modified":"2026-07-24T22:15:08","modified_gmt":"2026-07-24T20:15:08","slug":"scatter-plot","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/scatter-plot","title":{"rendered":"Scatter Plot: Definition und Apps"},"content":{"rendered":"<p><strong>Die Visualisierung von Daten in der Welt der Datenwissenschaft ist heutzutage das Herzst\u00fcck der Machine-Learning-Pipeline. Die Datenvisualisierung ist somit einer der Schritte in der Datenwissenschaft, der direkt nach dem Sammeln, Bereinigen und Normalisieren der Daten stattfindet. Eine der am h\u00e4ufigsten verwendeten Grafiken ist heutzutage der Scatter-Plot. Mithilfe von Scatterplots k\u00f6nnen wir Daten analysieren und die Wechselwirkungen zwischen Variablen erkennen.<\/strong><\/p>\n<h3>Was genau ist ein Scatter Plot?<\/h3>\nScatterplots, auch <b>Scattergram, <\/b>Scattergraph oder <b>Scatterchart <\/b>genannt, sind eine Art <b>Punktwolkendiagramm, <\/b>das darstellt, wie eine Variable von einer anderen beeinflusst wird. Die vertikale Achse oder Ordinatenachse wird verwendet, um eine der Variablen darzustellen, und eine horizontale Achse oder Abszissenachse f\u00fcr die andere Variable.&nbsp;\n\n<b>Im Gegensatz zu Pie-Charts, die <\/b>eher f\u00fcr <b>kategoriale <\/b>Variablen geeignet sind, werden Scatter-Plots h\u00e4ufig verwendet, um eine <b>Korrelation <\/b>zwischen <b>quantitativen Variablen darzustellen, die miteinander verbunden zu sein <\/b>scheinen. Beispielsweise kann die Durchschnittstemperatur eines Tages die Anzahl der in einem Supermarkt verkauften Flaschen mit kaltem Wasser beeinflussen.&nbsp;\n\nSo kann man durch die Darstellung dieser Punkte ableiten, ob die Beziehung zwischen der Durchschnittstemperatur eines Tages und der Anzahl der verkauften Flaschen frischen Wassers eher <b>linear <\/b>oder <b>nicht linear<\/b>, <b>stark <\/b>oder <b>schwach oder positiv <\/b>oder <b>negativ <\/b>ist.\n<h3>Welche Anwendungen gibt es f\u00fcr den Scatter Plot?<\/h3>\n<h4>1. Analyse der Beziehungen zwischen Variablen<\/h4>\n<ul>\n \t<li style=\"font-weight: 400\"><b>Starke \/ schwache Beziehung<\/b><\/li>\n<\/ul>\nDie St\u00e4rke eines Scatter-Plots wird anhand der <b>Streuung <\/b>seiner Punkte beurteilt. Wenn die Punkte sehr <b>breit gestreut sind, ist <\/b>der Zusammenhang zwischen den Variablen <b>schwach<\/b>. Wenn die Punkte <b>um eine Gerade herum konzentriert sind, ist <\/b>der Zusammenhang zwischen den Variablen <b>stark<\/b>.\n<ul>\n \t<li style=\"font-weight: 400\"><b>Positive \/ negative Beziehung<\/b><\/li>\n<\/ul>\nEine wichtige Komponente einer Punktwolke ist die <b>Richtung der Beziehung <\/b>zwischen den Variablen. Man spricht von einer <b>positiven Korrelation, <\/b>wenn die x- und y-Koordinaten <b>gleichzeitig ansteigen<\/b>. Wenn du dir das Alter eines Kindes und seine K\u00f6rpergr\u00f6\u00dfe ansiehst, wirst du feststellen, dass das Kind mit zunehmendem Alter auch gr\u00f6\u00dfer wird. Es handelt sich um eine <b>positive Beziehung zwischen den Variablen<\/b>.&nbsp;\n\n<b>Im <\/b>umgekehrten <b>Fall<\/b>, wenn die Werte auf der <b>x-Achse steigen <\/b>und die Werte auf der <b>y-Achse sinken <\/b>(oder umgekehrt), dann kann man daraus schlie\u00dfen, dass die <b>Beziehung negativ ist<\/b>. Wenn du dir z. B. das Alter eines Autos und seinen Wert ansiehst, wirst du feststellen, dass das Auto mit zunehmendem Alter an Wert verliert. Es handelt sich hierbei um eine <b>negative Korrelation<\/b>.\n<ul>\n \t<li style=\"font-weight: 400\"><b>Lineare \/ nichtlineare Beziehung<\/b><\/li>\n<\/ul>\nDie <b>Form der <\/b>Punktwolke l\u00e4sst uns auf die <b>Linearit\u00e4t der Daten <\/b>schlie\u00dfen. Wenn die Punktwolke einer <b>geraden Linie <\/b>\u00e4hnelt, ist die Beziehung <b>linear<\/b>. Daraus l\u00e4sst sich ableiten, dass eine Variable ungef\u00e4hr <b>gleich schnell <\/b>ansteigt, wenn sich die andere Variable um eine Einheit \u00e4ndert.&nbsp; Wenn das Scatterplot die Form einer <b>Kurve oder einer anderen Form hat, wird <\/b>die Beziehung zwischen den Variablen als <b>nichtlinear <\/b>bezeichnet.\n\n<img decoding=\"async\" width=\"768\" height=\"355\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/seaborn-graphique-1.webp\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/seaborn-graphique-1.webp 768w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/seaborn-graphique-1-300x139.webp 300w\" sizes=\"(max-width: 768px) 100vw, 768px\">\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/data-scientist\">Entdecken Sie unsere Kurse in Data Science<\/a><\/div><\/div>\n\n<h4>2. Cluster und Ausrei\u00dfer identifizieren<\/h4>\n<b>Lass uns zun\u00e4chst Cluster <\/b>und <b>Outlier <\/b>definieren.\n<ul>\n \t<li style=\"font-weight: 400\"><b>Cluster<\/b><\/li>\n<\/ul>\nEin <b>Cluster <\/b>in der Data Science ist eine <b>Unterpopulation eines <\/b>gr\u00f6\u00dferen Datensatzes, in dem jeder Datenpunkt n\u00e4her an einem <b>Zentroid <\/b>(<b>Zentrum eines Clusters<\/b>) liegt als an den Zentroiden im Datensatz. <b>Clustering ist nach wie vor eine der am h\u00e4ufigsten <\/b>verwendeten Methoden des un\u00fcberwachten Lernens. Es kann f\u00fcr eine Vielzahl von Anwendungen eingesetzt werden, u. a. f\u00fcr die <b>Segmentierung von Kunden, die Analyse sozialer Netzwerke oder Empfehlungssysteme.<\/b>\n<ul>\n \t<li style=\"font-weight: 400\"><b>Outlier<\/b><\/li>\n<\/ul>\nEin <b>Ausrei\u00dfer <\/b>in der Datenwissenschaft ist eine Beobachtung, die sich von anderen Beobachtungen <b>unterscheidet. <\/b>Bei der Erhebung von Daten kann es vorkommen, dass der Datensatz <b>Extremwerte<\/b> enth\u00e4lt, die au\u00dferhalb des erwarteten Datenbereichs liegen. Diese Werte werden als <b>Ausrei\u00dfer <\/b>bezeichnet.\n\nIm Gegensatz zu den <b>Pie-Charts<\/b>, die uns nicht erlauben, <b>Cluster <\/b>und <b>Ausrei\u00dfer zu <\/b>identifizieren, erlauben uns die <b>Scatter-Plots, <\/b>unsere Daten besser zu analysieren, um das richtige <b>Preprocessing zu <\/b>starten und den am besten geeigneten <b>Machine-Learning-Algorithmus <\/b>f\u00fcr unser Problem auszuw\u00e4hlen.\n<h4>3. Lineare Regression anwenden<\/h4>\nRegressionsmodelle untersuchen die Beziehung zwischen einer <b>abh\u00e4ngigen Variablen <\/b>(<b>Ziel<\/b>) und einer oder mehreren <b>unabh\u00e4ngigen <\/b>Variablen (<b>Pr\u00e4diktor<\/b>). Hier sind einige der h\u00e4ufigsten Regressionsmodelle:\n<ul>\n \t<li style=\"font-weight: 400\"><b>Lineare Regression: <\/b>Die lineare Regression hat die Form einer <b>geraden Linie und stellt <\/b>eine lineare Beziehung zwischen dem Ziel (Y) und dem Pr\u00e4diktor (X) her.<\/li>\n \t<li style=\"font-weight: 400\"><b>Polynomiale Regression: <\/b>Die polynomiale Regression hat die Form einer <b>Kurve und stellt <\/b>eine nichtlineare Beziehung zwischen dem Ziel (Y) und dem Pr\u00e4diktor (X) her.<\/li>\n<\/ul>\nTrotz ihrer Einfachheit ist die lineare Regression ein <b>unglaublich m\u00e4chtiges <\/b>Werkzeug zur Analyse von Daten, die eine <b>lineare Form haben<\/b>. Dieser Algorithmus geh\u00f6rt zur Familie der <b>\u00fcberwachten Machine-Learning-Algorithmen<\/b>.&nbsp;\n\nEine lineare Regression hat die Gleichung <b>y = mx+b. <\/b>Die Variable x wird als <b><i>unabh\u00e4ngige <\/i><\/b>oder <b><i>erkl\u00e4rende Variable <\/i><\/b>bezeichnet. Die Variable y wird als die <b><i>abh\u00e4ngige <\/i><\/b>oder <i>zu <\/i><b><i>erkl\u00e4rende Variable <\/i><\/b>bezeichnet.&nbsp;\n\nDie Scatter-Plots k\u00f6nnen <b>leicht <\/b>durch eine einfache lineare Regression <b>erg\u00e4nzt werden, <\/b>indem unsere Parameter m und b berechnet werden, um eine Regressionsgerade durch unsere Daten zu legen. Diese Berechnung der Parameter erfolgt \u00fcber die folgenden Beziehungen:\n\n<img decoding=\"async\" width=\"800\" height=\"196\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/Formule_moyenne_et_regression-1.webp\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/Formule_moyenne_et_regression-1.webp 800w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/Formule_moyenne_et_regression-1-300x74.webp 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/11\/Formule_moyenne_et_regression-1-768x188.webp 768w\" sizes=\"(max-width: 800px) 100vw, 800px\">\n\nDie Gleichung f\u00fcr die lineare Regression stellt sicher, dass der Abstand zwischen jedem Datenpunkt und der Regressionsgeraden minimiert wird. Allerdings musst du die folgenden Punkte \u00fcberpr\u00fcfen:\n<ul>\n \t<li style=\"font-weight: 400\">Die Beziehung zwischen den Daten sollte <b>linear <\/b>sein: Die Punktwolke sollte eine gerade Linie bilden, anstatt einer Kurve oder einer anderen Form.<\/li>\n \t<li style=\"font-weight: 400\"><b>Die Additivit\u00e4tshypothese <\/b>muss \u00fcberpr\u00fcft werden. Das bedeutet, dass die \u00c4nderung in einem Merkmal der Zielvariable nicht von den Werten der anderen Merkmale <b>abh\u00e4ngt<\/b>. Nehmen wir als Beispiel ein Modell zur Prognose des Umsatzes eines Unternehmens mit zwei Merkmalen: die Anzahl der verkauften Stifte und die Anzahl der verkauften Hefte. Wenn das Unternehmen mehr Stifte verkauft, steigt der Umsatz mit Stiften, und das ist unabh\u00e4ngig von der Anzahl der verkauften Hefte. Wenn die Kunden, die Stifte kaufen, jedoch keine Hefte mehr kaufen, ist die Additivit\u00e4tshypothese nicht mehr erf\u00fcllt, da in diesem Fall der mit den Heften erzielte Umsatz vom Kauf der Stifte abh\u00e4ngt.<\/li>\n \t<li style=\"font-weight: 400\">Die Features <b>d\u00fcrfen nicht korreliert sein<\/b>. Das hei\u00dft, dass die Beobachtungen der Zielvariable nicht mit den vorherigen Beobachtungen zusammenh\u00e4ngen und die folgenden nicht beeinflussen.<\/li>\n<\/ul>\n<b>Fehler sind unabh\u00e4ngig <\/b>und identisch nach der Normalverteilung verteilt.\n<h3>Welche Probleme gibt es mit Scatter Plots?<\/h3>\n<h4>1. Unkorrelierte Daten<\/h4>\nIn dem Fall, dass wir keine Korrelationen oder Verbindungen zwischen unseren Daten haben, sind die Datenpunkte \u00fcberall verstreut und es kann keine <b>Interpretation <\/b>abgeleitet werden. Mit anderen Worten: Die Tatsache, dass wir den Wert einer Variablen kennen, gibt uns keine Vorstellung davon, was der Wert der anderen Variablen sein k\u00f6nnte. Wenn wir einen Scatterplot von zwei Variablen haben, deren <b>Korrelation null ist, wird <\/b>das Diagramm <b>keinen klaren Trend aufweisen<\/b>. Zum Beispiel ist die Korrelation zwischen der Menge an Kaffee, die eine Person konsumiert, und ihrem IQ-Wert gleich null. Mit anderen Worten: Die Tatsache, dass wir wissen, wie viel Kaffee eine Person trinkt, sagt nichts \u00fcber ihren IQ-Wert aus.\n<h4>2. Gro\u00dfe Datenmenge<\/h4>\nBei gro\u00dfen Datens\u00e4tzen k\u00f6nnen sich die Punkte des Scatterplots \u00fcberlappen und <b>sich gegenseitig verdecken<\/b>. Dies wird als <b>Overplotting <\/b>bezeichnet und verdeckt die Trends und Beziehungen zwischen unseren beiden Variablen, was die Analyse erschwert. Es gibt also verschiedene L\u00f6sungen f\u00fcr dieses Problem:&nbsp;\n<ul>\n \t<li style=\"font-weight: 400\"><b>Wenn du die F\u00fcllfarbe <\/b>der Punkte, die unsere Daten repr\u00e4sentieren, <b>entfernst <\/b>oder ihre Gr\u00f6\u00dfe reduzierst, l\u00e4sst sich der Plot leichter analysieren und zeigt, wie sich die Punkte \u00fcberlappen.<\/li>\n \t<li style=\"font-weight: 400\">Eine andere einfache Technik, die sich oft als n\u00fctzlich erweist, besteht darin, <b>die Form von Datenpunkten, die <\/b>genug Platz einnehmen, wie z. B. Kreise oder Quadrate, in eine Form zu <b>\u00e4ndern, die nicht so <\/b>viel Platz einnimmt, wie z. B. Kreuze.&nbsp;<\/li>\n \t<li style=\"font-weight: 400\"><b>Die Anzahl der Beobachtungen zu reduzieren, wird ebenfalls <\/b>oft verwendet. Hierf\u00fcr gibt es zwei Methoden:\n<ul>\n \t<li style=\"font-weight: 400\"><b>Daten filtern<\/b>: Hier geht es darum, nicht ben\u00f6tigte Daten zu l\u00f6schen, um die Anzahl der Daten zu reduzieren und die Lesbarkeit zu verbessern.<\/li>\n \t<li style=\"font-weight: 400\"><b>Die Daten <\/b>auf mehrere Graphen zu <b>verteilen, <\/b>kann auch eine gute L\u00f6sung sein, wenn du keine Informationen verlieren willst.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\nAbschlie\u00dfend l\u00e4sst sich sagen, dass Pie-Charts eine hervorragende Alternative im Fall von kategorialen Variablen sein k\u00f6nnen. So gibt es verschiedene Bibliotheken f\u00fcr die Analyse und Visualisierung von Daten mit Python, z. B. <a href=\"https:\/\/liora.io\/matplotlib-tout-savoir\">Matplotlib<\/a>, <a href=\"https:\/\/liora.io\/seaborn\">Seaborn<\/a> oder auch <a href=\"\/\">Plotly<\/a> !\n\nBist du bereit, deinen Scatter Plot zu zeichnen? Erfahre mehr \u00fcber die Analyse und Visualisierung von Scatter Plots sowie weitere Grafiken zur Datenvisualisierung auf <a href=\"https:\/\/liora.io\/en\/our-tracks\/data-visualisation\">Liora<\/a>.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/data-scientist\">Erfahren Sie mehr \u00fcber unsere Schulungen in Data Science<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Die Visualisierung von Daten in der Welt der Datenwissenschaft ist heutzutage das Herzst\u00fcck der Machine-Learning-Pipeline. Die Datenvisualisierung ist somit einer der Schritte in der Datenwissenschaft, der direkt nach dem Sammeln, Bereinigen und Normalisieren der Daten stattfindet. Eine der am h\u00e4ufigsten verwendeten Grafiken ist heutzutage der Scatter-Plot. Mithilfe von Scatterplots k\u00f6nnen wir Daten analysieren und die [&hellip;]<\/p>\n","protected":false},"author":47,"featured_media":165589,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-165586","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165586","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/47"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=165586"}],"version-history":[{"count":2,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165586\/revisions"}],"predecessor-version":[{"id":221504,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165586\/revisions\/221504"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/165589"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=165586"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=165586"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}