{"id":192878,"date":"2024-02-29T18:36:52","date_gmt":"2024-02-29T17:36:52","guid":{"rendered":"https:\/\/liora.io\/de\/?p=192878"},"modified":"2026-07-24T20:16:16","modified_gmt":"2026-07-24T18:16:16","slug":"r-cnn-region-based-convolutional-network-alles-ueber-dieses-modell-des-machine-learning","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/r-cnn-region-based-convolutional-network-alles-ueber-dieses-modell-des-machine-learning","title":{"rendered":"R-CNN (Region Based Convolutional Network): Alles \u00fcber dieses Modell des Machine Learning"},"content":{"rendered":"<style>\n.elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]>a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}<\/style><p><strong>Wie bringt man einem Computer bei, Elemente in einem Bild zu erkennen? Dieses Problem war Gegenstand umfangreicher Forschungen. Das Erscheinen von R-CNN war ein wichtiger Schritt auf diesem Gebiet.<\/strong><\/p>\t\t\n\t\t<p>Einen <strong>Computer mit Bildverarbeitung<\/strong> auszustatten ist eine Aufgabe, die sich \u00fcber mehrere Jahrzehnte erstreckt.&nbsp; Wie kann man eine Maschine dazu bringen, zu unterscheiden, was was in einer von einer Kamera aufgenommenen Szene ist? <a href=\"https:\/\/liora.io\/de\/bilderzeugung-mit-stable-diffusion-xl\">Anwendungen zur Bilderkennung<\/a> haben sich damit abgem\u00fcht, zu bestimmen :<\/p><p>die Elemente, die in einem Bild vorhanden sind, anhand von Merkmalen wie ihren Konturen ;<br>die Klassifizierung von unverwechselbaren Objekten: Personen, Tiere, M\u00f6bel, Fahrzeuge&#8230;<\/p><p>?Auch interessant:<\/p><table dir=\"ltr\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\" data-sheets-root=\"1\"><colgroup> <col width=\"1116\"><\/colgroup><tbody><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Was genau ist ein Deep Neural Network?&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/deep-neural-network\"><a href=\"https:\/\/liora.io\/de\/deep-neural-network\" target=\"_blank\" rel=\"noopener\">Was genau ist ein Deep Neural Network?<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Recurrent Neural Network (RNN): Was genau ist das?&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/recurrent-neural-network\"><a href=\"https:\/\/liora.io\/de\/recurrent-neural-network\" target=\"_blank\" rel=\"noopener\">Recurrent Neural Network (RNN): Was genau ist das?<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Convolutional Neural Network (CNN): Alles, was Du wissen solltest&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/convolutional-neural-network-2\"><a href=\"https:\/\/liora.io\/de\/convolutional-neural-network-2\" target=\"_blank\" rel=\"noopener\">Convolutional Neural Network (CNN): Alles, was Du wissen solltest<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Was genau ist ein Deep Neural Network?&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/deep-neural-network\"><a href=\"https:\/\/liora.io\/de\/deep-neural-network\" target=\"_blank\" rel=\"noopener\">Was genau ist ein Deep Neural Network?<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Graph Neural Networks (GNN): Was ist das? &quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/graph-neural-networks-gnn-was-ist-das\"><a href=\"https:\/\/liora.io\/de\/graph-neural-networks-gnn-was-ist-das\" target=\"_blank\" rel=\"noopener\">Graph Neural Networks (GNN): Was ist das? <\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Neuronale Netze &amp; Automatische Suche nach neuronaler Architektur: Unser Leitfaden &quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/neuronale-netze-automatische-suche-nach-neuronaler-architektur-unser-leitfaden\"><a href=\"https:\/\/liora.io\/de\/neuronale-netze-automatische-suche-nach-neuronaler-architektur-unser-leitfaden\" target=\"_blank\" rel=\"noopener\">Neuronale Netze &amp; Automatische Suche nach neuronaler Architektur: Unser Leitfaden <\/a><\/td><\/tr><\/tbody><\/table><p>Es wurden verschiedene Technologien entwickelt, um diese Probleme zu l\u00f6sen<strong>. CNN und sp\u00e4ter R-CNN geh\u00f6ren zu den effektivsten Antworten, die gegeben wurden.<\/strong><\/p><p>Um besser zu verstehen, was diese Technologien bewirkt haben, kann es hilfreich sein, einen Blick auf den vorherigen Ansatz zu werfen.<\/p>\t\t\n\t\t\t<h3>Von SVM zu CNN<\/h3>\t\t\n\t\t<p>Der <a href=\"https:\/\/liora.io\/de\/svm-was-ist-das-wie-funktkoniert-es-teil-2\">SVM-Ansatz (Support Vector Machine)<\/a> basierte auf den Werten einzelner Pixel innerhalb eines Bildes. Der Entwickler musste die Merkmale der Daten, die f\u00fcr das Training des Algorithmus verwendet wurden, selbst ausw\u00e4hlen und identifizieren.<\/p><p>Diese Aufgabe musste fr\u00fcher oder sp\u00e4ter automatisiert werden, ohne dass ein Mensch eingreifen musste. Zu diesem Zweck stellte der franz\u00f6sische Forscher Yann Le Cun 1998 das Konzept der CNNs vor.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/data-scientist\">Tout apprendre du R-CNN<\/a><\/div><\/div>\n\n\t\t\t<h3>Gefaltete neuronale Netze (CNN)<\/h3>\t\t\n\t\t<p>NN k\u00f6nnen als automatische Extraktoren von Merkmalen innerhalb eines Bildes betrachtet werden. Wenn NN f\u00fcr <a href=\"https:\/\/liora.io\/de\/neuronale-netze-automatische-suche-nach-neuronaler-architektur-unser-leitfaden\">Neural Network (neuronales Netz)<\/a> steht, dann steht das C f\u00fcr Convolutive (Faltung).<\/p><p>Convolution ist eine Technik, die einen Filter verwendet, um ein Bild mithilfe mathematischer Operationen in ein anderes umzuwandeln.<\/p>\t\t\n\t\t\t<h3>AlexNet<\/h3>\t\t\n\t\t<p>Sp\u00e4ter, im Jahr 2012, schlugen die drei Ingenieure Alex Krizhevsky, Ilya Sutskever und Geoffrey Hinton ein ausgekl\u00fcgeltes CNN, AlexNet, vor, das auf mehreren Faltungsschichten basierte. AlexNet gewann einen wichtigen Wettbewerb f\u00fcr Bilderkennung, die ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Seitdem war klar, dass CNNs in der Lage sind, herk\u00f6mmliche Bilderkennungstechniken zu \u00fcbertreffen.<\/p>\t\t\n\t\t\t<style>\n.elementor-widget-image{text-align:center}.elementor-widget-image a{display:inline-block}.elementor-widget-image a img[src$=\".svg\"]{width:48px}.elementor-widget-image img{vertical-align:middle;display:inline-block}<\/style>\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2024\/02\/R-CNN-Liora1.jpg\" title=\"\" alt=\"\" loading=\"lazy\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t\t<h3>R-CNN oder CNN auf der Grundlage von Regionen<\/h3>\t\t\n\t\t<p>Die<strong> CNNs<\/strong> waren immer noch begrenzt, da ihre <a href=\"https:\/\/liora.io\/de\/umgang-mit-problemen-bei-unausgewogener-klassifizierung-teil-i\">Klassifizierung nur f\u00fcr ein einzelnes Objekt in einem Bild durchgef\u00fchrt werden<\/a> konnte. Aus diesem Grund schlug Ross Girshick 2014 einen weitergehenden Algorithmus zur Objekterkennung vor: R-CNN oder regionsbasierte CNN. Dieses bahnbrechende Modell hat stark dazu beigetragen, das Gebiet der Objekterkennung voranzubringen. Die<strong> R-CNN-Architektur<\/strong> extrahiert aus einem Eingangsbild Vorschl\u00e4ge f\u00fcr Regionen, berechnet dann ihre CNN-Merkmale und versucht, sie zu klassifizieren.<\/p>\t\t\n\t\t\t<h3>Wie funktioniert R-CNN?<\/h3>\t\t\n\t\t<p>Die Funktionsweise von <strong>R-CNN<\/strong> ist wie folgt.<\/p>\t\t\n\t\t\t<h4>Vorschlag f\u00fcr Regionen<\/h4>\t\t\n\t\t<p><strong>R-CNN<\/strong> beginnt damit, das Eingabebild in mehrere potenzielle Regionen zu unterteilen. Die Merkmale, in denen ein Objekt lokalisiert werden kann, werden mithilfe von Methoden wie selective search (selektive Suche) ermittelt. Diese selektive Suche funktioniert, indem Bildsegmente nach verschiedenen Indizes zusammengef\u00fchrt oder aufgeteilt werden: Farbe, Form, Textur&#8230;<\/p>\t\t\n\t\t\t<h4>Extraktion von Merkmalen<\/h4>\t\t\n\t\t<p>Nachdem diese Vorschl\u00e4ge f\u00fcr Regionen generiert wurden, werden einige 2.000 Regionen extrahiert und auf eine konsistente Gr\u00f6\u00dfe verzerrt. Jede dieser Regionen wird dann in ein CNN-Modell eingegeben, das versucht, genaue Merkmale zu extrahieren.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/machine-learning-engineer\">Die Funktionsweise des R-CNN beherrschen<\/a><\/div><\/div>\n\n\t\t\t<h4>Klassifizierung von Objekten<\/h4>\t\t\n\t\t<p>Die Merkmalsvektoren aus den Regionsvorschl\u00e4gen werden in einen Klassifikator f\u00fcr maschinelles Lernen eingespeist, um zu bestimmen, ob der Regionsvorschlag eine Instanz einer vordefinierten Klasse enth\u00e4lt oder nicht.<\/p>\t\t\n\t\t\t<h4>Bounding Box Regression &#8211; Umfassende Box-Regression<\/h4>\t\t\n\t\t<p>R-CNN f\u00fchrt eine Regression der Bounding Box durch, um die Position und die Gr\u00f6\u00dfe der Bounding Box um das erkannte Objekt herum zu verfeinern.<\/p>\t\t\n\t\t\t<h4>Non-Maximum Suppression (NMS) (Nicht-Maximale Unterdr\u00fcckung)<\/h4>\t\t\n\t\t<p>Nachdem<strong> R-CNN<\/strong> die umschlie\u00dfenden Boxen klassifiziert und eine <a href=\"https:\/\/liora.io\/de\/lineare-regression-excel-ein-umfassender-leitfaden\">Regression<\/a> f\u00fcr jede vorgeschlagene Region durchgef\u00fchrt hat, wendet es einen Algorithmus der &#8222;nicht maximalen Entfernung&#8220; an, der darauf abzielt, doppelte oder stark \u00fcberlappende umschlie\u00dfende Boxen zu entfernen.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2024\/02\/R-CNN-Liora2.jpg\" title=\"\" alt=\"\" loading=\"lazy\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t\t<h3>R-CNN: flexibel und robust\n<\/h3>\t\t\n\t\t<p>Die Ver\u00f6ffentlichung des Artikels von Ross Girshick auf<strong> R-CNN<\/strong> war ein wichtiger Meilenstein im <a href=\"https:\/\/liora.io\/de\/pilzerkennung-wie-computer-vision-bei-der-identifizierung-von-pilzarten-helfen-kann\">Bereich der Computer Vision.<\/a> Er zeigte, dass es m\u00f6glich ist, eine hohe Leistung bei der Erkennung von Objekten in einem Bild zu erzielen, und erm\u00f6glichte es, diese Objekte mithilfe von umschlie\u00dfenden Boxen genau zu lokalisieren.<\/p><p>Die Erfahrung hat gezeigt, dass der <strong>R-CNN-Ansatz<\/strong> sowohl flexibel &#8211; anpassbar an verschiedenste Anwendungsf\u00e4lle &#8211; als auch robust ist. Er wurde in zahlreichen Szenarien der realen Welt eingesetzt, wie z. B. bei der Identifizierung von verlassenen Objekten in \u00f6ffentlichen Bereichen oder bei der Erkennung von Hindernissen durch autonome Fahrzeuge.<\/p>\t\t\n\t\t\t<h3>Der Fast R-CNN<\/h3>\t\t\n\t\t<p>Dennoch ist<strong> R-CNN<\/strong> nicht das schnellste Modell, das es gibt. Da jedes Bild 2000 Regionsvorschl\u00e4ge klassifizieren muss, braucht es eine gewisse Zeit, um das Netzwerk zu trainieren, und auch viel Speicherplatz, um die Merkmalskarte des Regionsvorschlags zu speichern.<\/p><p><strong>R-CNN<\/strong> hat daher zwangsl\u00e4ufig den Weg f\u00fcr erhebliche Verbesserungen in Bezug auf die Geschwindigkeit bei der Erkennung von Objekten wie Fast R-CNN geebnet. Fast-CNN verarbeitet das Bild als Ganzes und nicht jeden einzelnen Regionenvorschlag. Es identifiziert Regionen von Interesse (RoI), die Objekte enthalten k\u00f6nnen, und extrahiert f\u00fcr jede Region die entsprechenden Merkmale. Nach der Gr\u00f6\u00dfen\u00e4nderung werden diese Merkmale zus\u00e4tzlichen Schichten des Netzwerks unterzogen, die das Objekt in die Region von Interesse einordnen und die Koordinaten des umschlie\u00dfenden Kastens verfeinern. Das Ergebnis dieses Ansatzes ist eine schnellere Verarbeitung. Andere \u00e4hnliche Versuche sind wie Faster <strong>R-CNN erschienen.<\/strong><\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung\/data-ki\/machine-learning-engineer\">Lerne alles \u00fcber R-CNN<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Wie bringt man einem Computer bei, Elemente in einem Bild zu erkennen? Dieses Problem war Gegenstand umfangreicher Forschungen. Das Erscheinen von R-CNN war ein wichtiger Schritt auf diesem Gebiet. Einen Computer mit Bildverarbeitung auszustatten ist eine Aufgabe, die sich \u00fcber mehrere Jahrzehnte erstreckt.&nbsp; Wie kann man eine Maschine dazu bringen, zu unterscheiden, was was in [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":192884,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-192878","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/192878","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=192878"}],"version-history":[{"count":2,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/192878\/revisions"}],"predecessor-version":[{"id":220963,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/192878\/revisions\/220963"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/192884"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=192878"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=192878"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}