{"id":176253,"date":"2023-05-13T20:09:20","date_gmt":"2023-05-13T19:09:20","guid":{"rendered":"https:\/\/liora.io\/de\/?p=176253"},"modified":"2026-02-06T06:48:23","modified_gmt":"2026-02-06T05:48:23","slug":"dem-computer-mit-optical-character-recognition-das-lesen-beibringen","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/dem-computer-mit-optical-character-recognition-das-lesen-beibringen","title":{"rendered":"Dem Computer mit Optical Character Recognition das Lesen beibringen"},"content":{"rendered":"<p><strong>Die optische Zeichenerkennung (OCR, Optical Character Recognition), auch Ocerisation genannt, umfasst alle Methoden, mit denen Textdateien aus Bildern mit handgeschriebenem Text erzeugt werden k\u00f6nnen. Mit dem Aufkommen der Digitaltechnik und der Automatisierung ist das Scannen zu einem unverzichtbaren Werkzeug geworden, da Bilder, die Text enthalten, nicht von einem Computer verarbeitet werden k\u00f6nnen.<\/strong><\/p>\t\t\n\t\t\t<h3>1. Geschichte der Optical Character Recognition<\/h3>\t\t\n\t\t<p>Die erste Version einer Maschine, die Zeichen in einem handgeschriebenen Dokument erkennen konnte, wurde 1929 von <strong>Gustav Tauschek, einem deutschen Ingenieur,<\/strong> entwickelt.<\/p><p>Das Prinzip war wie folgt: Ein Dokument, das einen handgeschriebenen Text enthielt, wurde vor dem Fenster der Maschine positioniert.<\/p><p>Um das richtige Zeichen zu erkennen, drehte sich ein Rad mit L\u00f6chern in der Form von Buchstaben, bis das Bild des Zeichens und das Loch mithilfe eines Fotodetektors perfekt \u00fcbereinstimmten. Sobald das Zeichen erkannt war, wurde es auf ein Blatt Papier geschrieben.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"442\" height=\"303\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/ocr.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/ocr.png 442w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/ocr-300x206.png 300w\" sizes=\"(max-width: 442px) 100vw, 442px\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t\t<h3>2. Nutzung von Deep Learning f\u00fcr die Ocerisierung (Optical Character Recognition)<\/h3>\t\t\n\t\t<p>Man kann leicht feststellen, dass das Scannen mit mechanischen Maschinen, so gut sie auch sein m\u00f6gen, sehr kostspielig und ziemlich zeitaufwendig sein kann.<\/p><p>Unternehmen, die ihre Digitalisierungspipeline automatisieren wollen, ben\u00f6tigen ein schnelles und effizientes Werkzeug zur Handschrifterkennung. Dank der Entwicklung von Deep Learning, insbesondere im Bereich der Bildverarbeitung, gibt es heute Algorithmen, die <strong>OCR-Probleme<\/strong> l\u00f6sen k\u00f6nnen. Das Optical Character Recognition-Modell besteht aus zwei Schritten: der Texterkennung und der Texterfassung.<\/p><p>Der erste ist der Prozess, der die Textbereiche in einem Dokument erkennt und kann eine wirklich komplizierte Aufgabe sein, da die Dokumente sehr unterschiedlich strukturiert sein k\u00f6nnen. Textbereiche befinden sich z. B. in einem Roman und einer Zeitung an unterschiedlichen Stellen. <br>Die zweite M\u00f6glichkeit besteht darin, Text f\u00fcr einen Bereich des Dokuments zu erkennen, der diesen enth\u00e4lt.<\/p>\t\t\n\t\t\t<h3>3. Texterkennung mithilfe von Deep Learning<\/h3>\t\t\n\t\t<p>Es gibt verschiedene Methoden, um Text innerhalb eines Dokuments zu erkennen. Einige von ihnen basieren auf Modellen zur Objekterkennung <strong>(Single Shot Box Detection, Faster-RCNN),<\/strong> die verwendet werden, um Gesichter, Autos usw. in einem Bild zu erkennen.<\/p><p>Solche Modelle geben eine <strong>Bounding Box<\/strong> zur\u00fcck, die nichts anderes ist als ein Rahmen, der das zu erkennende Objekt umgibt. Um Text zu erkennen, werden diese Modelle modifiziert und angepasst. Ein Beispiel ist das <a href=\"https:\/\/github.com\/MhLiao\/TextBoxes\">TextBoxes-Modell<\/a>, das auf dem SSD-Modell (Single Short Detector) aufbaut, aber Bounding Boxes hinzuf\u00fcgt, die spezifischer f\u00fcr die Erkennung von Text sind.<\/p><p>Die Vorlage gibt die Bereiche des Bildes zur\u00fcck, die Text enthalten.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t\t<a href=\"https:\/\/www.google.com\/url?q=https:\/\/www.researchgate.net\/figure\/The-architecture-of-TextBoxes-a-29-layer-fully-convolutional-network-including-13_fig3_322355323&amp;sa=D&amp;source=docs&amp;ust=1663177989034716&amp;usg=AOvVaw2f0LVJREyJPzCjZ3-7EQOi\">\n\t\t\t\t\t\t\t<img decoding=\"async\" width=\"800\" height=\"241\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/Ex-architecture-modele-reconnaissance-texte-OCR-1-1024x308.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/Ex-architecture-modele-reconnaissance-texte-OCR-1-1024x308.jpg 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/Ex-architecture-modele-reconnaissance-texte-OCR-1-300x90.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/Ex-architecture-modele-reconnaissance-texte-OCR-1-768x231.jpg 768w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/Ex-architecture-modele-reconnaissance-texte-OCR-1-1536x463.jpg 1536w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/Ex-architecture-modele-reconnaissance-texte-OCR-1-2048x617.jpg 2048w\" sizes=\"(max-width: 800px) 100vw, 800px\">\t\t\t\t\t\t\t\t<\/a>\n\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t<p>Es gibt auch andere Erkennungsmethoden, die auf Segmentierung basieren. Die Segmentierung ist ein Verfahren, mit dem ein Bild in mehrere Bereiche, sogenannte Klassen, mit \u00e4hnlichen Elementen aufgeteilt wird. Hier ein Beispiel:<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t\t<a href=\"https:\/\/www.google.com\/url?q=https:\/\/makina-corpus.com\/societe\/partenariat-avec-lecole-polytechnique-federale-de-lausanne-pour-developper-un-outil-de&amp;sa=D&amp;source=docs&amp;ust=1663177989031206&amp;usg=AOvVaw3mO5Xe4eQBwjiEwbJYjIPo\">\n\t\t\t\t\t\t\t<img decoding=\"async\" width=\"675\" height=\"175\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/ocr2.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/ocr2.png 675w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/ocr2-300x78.png 300w\" sizes=\"(max-width: 675px) 100vw, 675px\">\t\t\t\t\t\t\t\t<\/a>\n\t\t\t\t\t\t\t\t\t\t\t<figcaption>Beispiel f\u00fcr die Segmentierung eines Bildes in verschiedene Klassen (Auto, B\u00fcrgersteig, Menschen, B\u00e4ume, &#8230;)<\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t<p>F\u00fcr die Segmentierung von Text werden h\u00e4ufig Faltungsneuronennetze (FCN) sowie pyramidenf\u00f6rmige Neuronennetze (FPN) verwendet. Hier ist die Architektur eines sehr leistungsf\u00e4higen Modells namens TextSnake.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t\t<a href=\"https:\/\/www.google.com\/url?q=https:\/\/github.com\/princewang1994\/TextSnake.pytorch&amp;sa=D&amp;source=docs&amp;ust=1663177989032936&amp;usg=AOvVaw0fOc0VjJpdcTIgPDfPbGPe\">\n\t\t\t\t\t\t\t<img decoding=\"async\" width=\"800\" height=\"486\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/TextSnake-OCR-1-1024x622.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/TextSnake-OCR-1-1024x622.jpg 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/TextSnake-OCR-1-300x182.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/TextSnake-OCR-1-768x466.jpg 768w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/TextSnake-OCR-1-1536x933.jpg 1536w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/TextSnake-OCR-1.jpg 1734w\" sizes=\"(max-width: 800px) 100vw, 800px\">\t\t\t\t\t\t\t\t<\/a>\n\t\t\t\t\t\t\t\t\t\t\t<figcaption>Architektur und Beispiel f\u00fcr die Segmentierung des TextSnake-Modells<\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t\t<h3>4. Texterkennung mithilfe von Deep Learning<\/h3>\t\t\n\t\t<p>Wir haben gerade den ersten Schritt eines Scannermodells gesehen, n\u00e4mlich die Erkennung von Bereichen im Dokument, die Text enthalten. Sobald dies geschehen ist, m\u00fcssen die Zeichen, die diese Bereiche bilden, erkannt werden, um daraus W\u00f6rter abzuleiten und das handgeschriebene Dokument in ein verwertbares Textformat zu \u00fcbersetzen.<\/p><p>Die am h\u00e4ufigsten verwendeten <a href=\"https:\/\/liora.io\/de\/machine-learning-definition-funktionsweise-anwendungen\">Machine-Learning-Modelle<\/a> zur L\u00f6sung von Texterkennungsproblemen sind rekurrente neuronale Netze. Ihr Vorteil ist, dass die verborgenen Schichten, aus denen sie bestehen, ein gemeinsames Speicherband teilen, was zur Folge hat, dass die Vorhersage auf der Grundlage fr\u00fcherer Vorhersagen beeinflusst wird.<\/p><p>Wenn du mehr dar\u00fcber erfahren m\u00f6chtest, wie sie funktionieren, findest du einen vollst\u00e4ndigen Artikel \u00fcber rekursive neuronale Netze in unserem Blog. Die am h\u00e4ufigsten verwendeten Schichten f\u00fcr Modelle mit rekursiven neuronalen Netzen sind LSTMs und GRUs. Wir f\u00fcgen diesen rekursiven Schichten Faltungsschichten hinzu.<\/p><p>Mithilfe der Faltung k\u00f6nnen relevante und lokale Merkmale aus Bildern mit Text extrahiert werden, und die rekursiven Schichten erm\u00f6glichen die Zuweisung von Labels, die den im Bild vorhandenen Zeichen entsprechen.<\/p><p>Jedem durch die Faltung erzeugten Merkmal wird ein Wahrscheinlichkeitsvektor der Zugeh\u00f6rigkeit zu jedem Label zugeordnet.<\/p><p>Die Texterkennung kann in folgendem Schema zusammengefasst werden:<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"1197\" height=\"1053\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/reconnaissance-text-dl-OCR-1.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/reconnaissance-text-dl-OCR-1.jpg 1197w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/reconnaissance-text-dl-OCR-1-300x264.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/reconnaissance-text-dl-OCR-1-1024x901.jpg 1024w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/05\/reconnaissance-text-dl-OCR-1-768x676.jpg 768w\" sizes=\"(max-width: 1197px) 100vw, 1197px\">\t\t\t\t\t\t\t\t\t\t\t<figcaption><\/figcaption>\n\t\t\t\t\t\t\t\t\t\t<\/figure>\n\t\t<p>Man darf nicht vergessen, dass es einen vorgeschalteten Texterkennungsteil geben muss, damit der Erkennungsteil richtig funktioniert.<\/p><p>In diesem Beispiel siehst du, dass das als Eingabe gegebene Bild den Text &#8222;a b&#8220; darstellt. Der Teil<br>Faltung wird das Bild in eine<strong> Feature Map<\/strong> zerlegen, die auch als Merkmalskarte bezeichnet wird. Man sieht, dass das Bild hier in 5 Sequenzen zerlegt wurde. Die rekursiven Schichten werden dann jeder Sequenz eine Klassenwahrscheinlichkeit zuordnen. Es gibt so viele Klassen, wie es m\u00f6gliche Zeichen gibt (Buchstaben des Alphabets, Sonderzeichen, &#8230;). F\u00fcr jede Sequenz w\u00e4hlen wir die Klasse, die die Wahrscheinlichkeit maximiert, erhalten eine Folge von Zeichen und k\u00f6nnen dann unseren endg\u00fcltigen Text daraus ableiten.<\/p><p>Allerdings kann man mit diesem Modell nicht \u00fcberpr\u00fcfen, ob das Wort oder der Satz, der als Ausgabe zur\u00fcckgegeben wird, frei von Rechtschreibfehlern ist, da man Zeichen f\u00fcr Zeichen vorhersagt, ohne sich darum zu k\u00fcmmern. Es gibt andere Modelle, die ein System zur Rechtschreibkorrektur implementieren. Dieser Ansatz wird Sprachmodell genannt und kann die Genauigkeit unseres Modells verbessern.<\/p>\t\t\n\t\t\t<h3>5. Fazit<\/h3>\t\t\n\t\t<p>Wir haben gerade ein Deep-Learning-Modell kennengelernt, mit dem das Problem der Ocerisation durch Optical Character Recognition gel\u00f6st werden kann.<\/p><p><a href=\"https:\/\/liora.io\/de\/style-transfer-deep-learning\">Deep Learning<\/a> hat diesen Bereich geradezu revolutioniert, da es im Gegensatz zu den Modellen, die zuvor entwickelt wurden, sehr genaue Vorhersagen liefert. Es f\u00e4llt auf, dass das Modell Techniken verwendet, die normalerweise in anderen Bereichen eingesetzt werden, wie z. B. die Erkennung von Objekten in einem Bild oder <a href=\"https:\/\/liora.io\/de\/nlp-natural-language-processing-eine-einfuhrung\">Natural Language Processing<\/a>, und dass diese Techniken sehr gut f\u00fcr die Ozonisierung funktionieren.<\/p><p>Wenn dir dieser Artikel gefallen hat und du weitere Methoden des Deep Learning kennenlernen m\u00f6chtest, lade ich dich ein, an unserem Deep-Learning-Expertenkurs teilzunehmen.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/weiterbildung-deep-learning\">Deep Learning Expertenkurs<\/a><\/div><\/div>\n\n\t\t<p>Auch interessant:<\/p><ul><li><a href=\"https:\/\/liora.io\/de\/apache-storm-was-ist-das-wozu-benutzt-man-es\">Apache Storm<\/a><\/li><li><a href=\"https:\/\/liora.io\/de\/data-loss-prevention-dlp-grundsaetze-und-umsetzung\">Data Loss Prevention<\/a><\/li><li><a href=\"https:\/\/liora.io\/de\/google-data-studio-das-wichtigste-ueber-das-dataviz-tool\">Google Data Studio<\/a><\/li><li><a href=\"https:\/\/liora.io\/de\/datenpipeline-funktion-und-bedeutung\">Datenpipeline<\/a><\/li><\/ul>","protected":false},"excerpt":{"rendered":"<p>Die optische Zeichenerkennung (OCR, Optical Character Recognition), auch Ocerisation genannt, umfasst alle Methoden, mit denen Textdateien aus Bildern mit handgeschriebenem Text erzeugt werden k\u00f6nnen. Mit dem Aufkommen der Digitaltechnik und der Automatisierung ist das Scannen zu einem unverzichtbaren Werkzeug geworden, da Bilder, die Text enthalten, nicht von einem Computer verarbeitet werden k\u00f6nnen. 1. Geschichte der [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":176254,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-176253","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/176253","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=176253"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/176253\/revisions"}],"predecessor-version":[{"id":217544,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/176253\/revisions\/217544"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/176254"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=176253"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=176253"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}