{"id":196152,"date":"2026-01-28T12:34:54","date_gmt":"2026-01-28T11:34:54","guid":{"rendered":"https:\/\/liora.io\/de\/?p=196152"},"modified":"2026-02-06T04:41:53","modified_gmt":"2026-02-06T03:41:53","slug":"spracherkennung","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/spracherkennung","title":{"rendered":"Spracherkennung: Definition, Urspr\u00fcnge und moderne technologische Anwendungen"},"content":{"rendered":"<p><strong><b>Mit seinem Smartphone zu sprechen, hat sich zu einer allt\u00e4glichen Aktivit\u00e4t entwickelt. Und eine Vielzahl von <\/b><a href=\"https:\/\/de.wikipedia.org\/wiki\/Spracherkennung\"><b>Sprachekennung-Systemen<\/b><\/a><b> hat sich als \u00e4u\u00dferst leistungsf\u00e4hig erwiesen. Trotzdem hat die Entwicklung, die Stimme des Menschen zu verstehen, mehrere Jahrzehnte in Anspruch genommen.<\/b><\/strong><\/p>\n<p>Sprachekennung ist mittlerweile ein Alltagsdienst geworden, den man in vielen Branchen antrifft:<\/p>\n<ul>\n<li>Jeder von uns nutzt es regelm\u00e4\u00dfig, um <a href=\"https:\/\/www.apple.com\/de\/ios\/siri\/\">mit seinem Smartphone oder Anwendungen zu kommunizieren<\/a> ;<\/li>\n<li>Nach einer medizinischen Untersuchung verwendet der Arzt diese Technologie, um seinen <b>Befund zu diktieren<\/b>;<\/li>\n<li>In der Regel ist es das Mittel, mit dem wir den Kontostand unseres Bankkontos pr\u00fcfen;<\/li>\n<li>usw.<\/li>\n<\/ul>\n<p>Allerdings, obwohl sich diese Technologie mittlerweile etabliert hat, dauerte es mehrere Jahrzehnte, bis sie ein akzeptables Qualit\u00e4tsniveau erreicht hatte.<\/p>\n<p>\n.elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]&gt;a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}<\/p>\n<h2 class=\"wp-block-heading\" id=\"h-kurze-geschichte-der-sprachekennung\">Kurze Geschichte der Sprachekennung<\/h2>\n<p><b>Sprachekennung basiert auf mehr als 70 Jahren wissenschaftlicher Forschung!<\/b> Die ersten Schritte in diesem Bereich wurden Anfang der 1950er Jahre gemacht.<\/p>\n<h3 class=\"wp-block-heading\" id=\"h-audrey\">Audrey<\/h3>\n<p>\n.elementor-widget-image{text-align:center}.elementor-widget-image a{display:inline-block}.elementor-widget-image a img[src$=&#8220;.svg&#8220;]{width:48px}.elementor-widget-image img{vertical-align:middle;display:inline-block}\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"1000\" height=\"523\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2024\/06\/audrey-speech-recognition.jpeg\" alt=\"\" loading=\"lazy\"><\/p>\n<p>Im <b>Jahr 1952<\/b> pr\u00e4sentierten die Bell Laboratories Audrey, das allererste Sprachekennung-System. Es konnte die Zahlen von 0 bis 9, einzeln ausgesprochen, mit einer <b>Erfolgsquote von 99 %<\/b> erkennen. Allerdings wurde diese 99%-Quote nur erreicht, wenn der Erfinder von Audrey selbst sprach. Bei anderen Sprechern lag die Quote n\u00e4her bei 70 bis 80 %. Von Beginn an wurde ein grundlegendes Problem adressiert: Die menschliche Stimme ist vielf\u00e4ltig. Jeder hat seine eigene Sprechweise, und das Problem der Sprachekennung ist daher komplex.<\/p>\n<h3 class=\"wp-block-heading\" id=\"h-shoebox\">Shoebox<\/h3>\n<p>Zehn Jahre sp\u00e4ter stellt <a href=\"https:\/\/www.ibm.com\/de-de\">IBM<\/a> im April 1962 auf einer Weltausstellung die sprachgesteuerte Rechenmaschine Shoebox vor. Dieses Ger\u00e4t, entwickelt von William C. Dersch in San Jose (Kalifornien), erkennt ebenfalls Zahlen von 0 bis 9 wie Audrey, aber auch sechzehn grundlegende englische W\u00f6rter, die einfachen arithmetischen Begriffen entsprechen: &#8222;add&#8220;, &#8222;subtract&#8220;, &#8222;total&#8220; usw.<\/p>\n<h3 class=\"wp-block-heading\" id=\"h-harpy\">Harpy<\/h3>\n<p><img decoding=\"async\" width=\"320\" height=\"231\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2024\/06\/harpy-speech-recognition.jpg\" alt=\"\" loading=\"lazy\"><\/p>\n<p>Anfang der <b>70er Jahre<\/b> entsteht unter der Leitung der US-Verteidigungsagentur DARPA das <a href=\"\/\">Harpy-System der Carnegie Mellon University<\/a>. Harpy kann 1011 W\u00f6rter mit gro\u00dfer Pr\u00e4zision erkennen, was einer F\u00e4higkeit gleichkommt, die mit der eines dreij\u00e4hrigen Kindes vergleichbar ist. Das markierte einen kleinen Triumph und entfachte eine Welle von Begeisterung f\u00fcr die Forschung im Bereich Sprachekennung.<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\"><br \/>\nSo entwickelt man eine Spracherkennung<br \/>\n<\/a><\/p>\n<h3 class=\"wp-block-heading\" id=\"h-tangora\">Tangora<\/h3>\n<p>Waren bisherige Ans\u00e4tze auf die Erkennung von Phonemen (Laut-Einheiten), um W\u00f6rter zu rekonstruieren, fokussiert, nahm die Sprachekennung ab den <b>1980er Jahren<\/b> neue Ans\u00e4tze an, einschlie\u00dflich statistischer Modelle. Auf dieser Grundlage entwickelte <b>IBM<\/b> Tangora, das versuchte, die folgenden W\u00f6rter basierend auf bereits analysierten Daten vorherzusagen. Tangora ben\u00f6tigte etwa zwanzig Minuten Training und konnte anschlie\u00dfend 20.000 W\u00f6rter sowie komplette S\u00e4tze erkennen.<\/p>\n<h3 class=\"wp-block-heading\" id=\"h-dragon-naturally-speaking\">Dragon Naturally Speaking<\/h3>\n<p><img decoding=\"async\" width=\"800\" height=\"413\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2024\/06\/Dragon-Naturally-Speaking-voice-recognition.jpg\" alt=\"\" loading=\"lazy\"><\/p>\n<p>Im Jahr 1997 pr\u00e4sentierte das Unternehmen Nuance seine Software <b>Dragon Professional<\/b>, was einen erheblichen Fortschritt darstellte. Diese Anwendung ben\u00f6tigte mehrere Stunden Training, aber nach dessen Abschluss konnte eine Person frei sprechen und musste ihre Texte nicht mehr selbst eintippen. Dragon war in der Lage, 100 W\u00f6rter pro Minute zu erkennen. Es wurde rasch von vielen \u00c4rzten und Anw\u00e4lten adoptiert. Bald darauf integrierte die Windows XP-Version, die 2001 erschien, ein Sprachekennung-Tool.<\/p>\n<h3 class=\"wp-block-heading\" id=\"h-google-voice-search-google-assistant\">Google Voice Search\/ Google Assistant<\/h3>\n<p>In den 2000er Jahren wurde das <b>Computerized Voice Processing<\/b> durch K\u00fcnstliche Intelligenz unterst\u00fctzt. Google Voice Search entschloss sich, Algorithmen des Machine Learnings mit dem Einsatz von Hochleistungsservern zu kombinieren. Die Anwendung wurde 2008 eingef\u00fchrt und markierte enorme Fortschritte. Dieses Produkt, das zum <b>Google Assistant<\/b> wurde, wurde nicht so beworben, wie es h\u00e4tte sein sollen, und ein anderer Dienst entriss ihm die Show.<\/p>\n<h3 class=\"wp-block-heading\" id=\"h-siri\">Siri<\/h3>\n<p><img decoding=\"async\" width=\"700\" height=\"385\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2024\/06\/apple-siri-voice-recognition.jpg\" alt=\"\" loading=\"lazy\"><\/p>\n<p>In <b>2011<\/b> machte Apple mit der Ank\u00fcndigung Schlagzeilen, dass Siri, ein virtueller Assistent, der verstehen kann, was wir ihm sagen, auf allen neuen <b>iPhone<\/b>s verf\u00fcgbar sein wird. Das war ein wichtiger Schritt, denn Sprachekennung wurde damit zu einem allt\u00e4glichen Werkzeug. Kurz darauf kamen 2014 Amazon&#8217;s Alexa und Microsoft&#8217;s Cortana auf den Markt.<\/p>\n<h2 class=\"wp-block-heading\" id=\"h-wie-funktioniert-spracherkennung\">Wie funktioniert Spracherkennung?<\/h2>\n<p>Aber wie funktioniert eine Sprachekennung-Anwendung heutzutage?<\/p>\n<p>Die <b>Sammlung des Tons<\/b> geschieht \u00fcber ein Mikrofon, das Signale in elektrische Impulse umwandelt, diese dann in ein analoges Signal verwandelt und schlie\u00dflich in ein digitales Signal \u00fcbersetzt.<\/p>\n<p>Anschlie\u00dfend kommt <b>Machine Learning zum Einsatz<\/b>. Es weist Phoneme syntaktischen Einheiten zu, verbindet die entschl\u00fcsselten Tonfrequenzen mit W\u00f6rtern und leitet dann die am besten passende Wortfolge ab. Das System nutzt Referenzmodelle, um bei diesem Prozess der Identifizierung wahrscheinlicher Wortfolgen zu unterst\u00fctzen. <a href=\"https:\/\/liora.io\/de\/nlp-natural-language-processing-eine-einfuhrung\">Techniken des Natural Language Processing<\/a> helfen dabei, <b>Semantik zu extrahieren<\/b>: Das Sprachekennung-Programm zielt darauf ab, die Bedeutung dessen zu verstehen, was ausgedr\u00fcckt wird.<\/p>\n<p>So k\u00f6nnen Anwendungen f\u00fcr Voice Dictation oder Konversationen entwickelt werden, die immer n\u00e4her an der menschlichen Realit\u00e4t sind.<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\"><br \/>\nSich in Spracherkennungs-KIs schulen lassen<br \/>\n<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mit seinem Smartphone zu sprechen, hat sich zu einer allt\u00e4glichen Aktivit\u00e4t entwickelt. Und eine Vielzahl von Sprachekennung-Systemen hat sich als \u00e4u\u00dferst leistungsf\u00e4hig erwiesen. Trotzdem hat die Entwicklung, die Stimme des Menschen zu verstehen, mehrere Jahrzehnte in Anspruch genommen.<\/p>\n","protected":false},"author":85,"featured_media":196154,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-196152","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/196152","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/85"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=196152"}],"version-history":[{"count":3,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/196152\/revisions"}],"predecessor-version":[{"id":216583,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/196152\/revisions\/216583"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/196154"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=196152"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=196152"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}