{"id":173127,"date":"2026-01-28T12:34:32","date_gmt":"2026-01-28T11:34:32","guid":{"rendered":"https:\/\/liora.io\/es\/?p=173127"},"modified":"2026-02-27T14:33:48","modified_gmt":"2026-02-27T13:33:48","slug":"reconocimiento-de-voz","status":"publish","type":"post","link":"https:\/\/liora.io\/es\/reconocimiento-de-voz","title":{"rendered":"Reconocimiento de voz: definici\u00f3n, origen y aplicaciones tecnol\u00f3gicas"},"content":{"rendered":"\n<p><strong>Hablar con su smartphone se ha convertido en una actividad habitual. Y un gran n\u00famero de sistemas de reconocimiento de voz demuestran ser muy eficaces. No obstante, el desarrollo que llev\u00f3 a la comprensi\u00f3n de la voz humana se ha prolongado por d\u00e9cadas.<\/strong><\/p>\n\n\n\n<p>El reconocimiento de voz se ha establecido como un servicio frecuente en numerosos \u00e1mbitos de actividad:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Cada uno de nosotros lo utiliza para <a href=\"https:\/\/elpais.com\/tecnologia\/2019\/07\/16\/actualidad\/1563284007_437099.html\">interactuar con su smartphone o con aplicaciones<\/a>;<\/li>\n\n\n\n<li>Al concluir una consulta m\u00e9dica, generalmente el m\u00e9dico recurre a esta tecnolog\u00eda para <b>dictar su informe<\/b>;<\/li>\n\n\n\n<li>Usualmente es as\u00ed como verificamos el saldo de nuestra cuenta bancaria;<\/li>\n\n\n\n<li>etc.<\/li>\n<\/ul>\n\n\n\n<p>Si bien esta tecnolog\u00eda se ha integrado en nuestro d\u00eda a d\u00eda, tuvieron que transcurrir varias d\u00e9cadas antes de que alcanzara un nivel de calidad satisfactorio.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-breve-historia-del-reconocimiento-de-voz\">Breve historia del reconocimiento de voz<\/h2>\n\n\n\n<p><b>\u00a1El reconocimiento de voz se sustenta en m\u00e1s de 70 a\u00f1os de investigaci\u00f3n cient\u00edfica!<\/b> Los primeros avances en este campo se remontan a principios de los a\u00f1os 50.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-audrey\">Audrey<\/h3>\n\n\n\n<figure class=\"wp-block-image aligncenter is-resized\" style=\"margin-top:var(--wp--preset--spacing--columns);margin-bottom:var(--wp--preset--spacing--columns)\"><img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/07\/audrey-speech-recognition.jpeg\" alt=\"\" style=\"width:auto;height:300px\" \/><\/figure>\n\n\n\n<p>En <b>1952<\/b>, surge Audrey, el primer sistema de reconocimiento de voz en los laboratorios Bell. Capaz de identificar los n\u00fameros del 0 al 9, pronunciados individualmente, con <b>una efectividad del 99%<\/b>. No obstante, este porcentaje del 99% se alcanza \u00fanicamente cuando el inventor de Audrey interact\u00faa. Con otros usuarios, la efectividad var\u00eda entre el 70 y el 80%. Desde el comienzo, se revela un aspecto cr\u00edtico de la problem\u00e1tica: la voz humana es diversa. Cada persona tiene su propia manera de expresarse y, por ende, el desaf\u00edo del reconocimiento de voz es intr\u00ednsecamente complejo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-shoebox\">Shoebox<\/h3>\n\n\n\n<p>Diez a\u00f1os despu\u00e9s, en abril de 1962 durante una exposici\u00f3n mundial, <b>IBM<\/b> presenta Shoebox, una calculadora operada por voz. Este dispositivo, creado por William C. Dersch en San Jos\u00e9 (California), reconoce los n\u00fameros del 0 al 9 al igual que Audrey, pero tambi\u00e9n diecis\u00e9is palabras en ingl\u00e9s que corresponden a t\u00e9rminos aritm\u00e9ticos b\u00e1sicos: \u00abplus\u00bb, \u00abminus\u00bb, \u00abtotal\u00bb\u2026<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-harpy\">Harpy<\/h3>\n\n\n\n<figure class=\"wp-block-image aligncenter is-resized\" style=\"margin-top:var(--wp--preset--spacing--columns);margin-bottom:var(--wp--preset--spacing--columns)\"><img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/07\/harpy-speech-recognition.jpg\" alt=\"\" style=\"width:auto;height:400px\" \/><\/figure>\n\n\n\n<p>A inicios de los <b>a\u00f1os 70<\/b>, impulsado por la agencia de defensa estadounidense DARPA, se introduce el <a href=\"https:\/\/liora.io\/es\/deep-learning-definicion\">sistema Harpy de la Universidad Carnegie Mellon<\/a>. Harpy logra identificar con precisi\u00f3n 1011 palabras, equivalente a la capacidad de un ni\u00f1o de tres a\u00f1os. Representa un peque\u00f1o triunfo y desencadena una ola de entusiasmo por la investigaci\u00f3n en reconocimiento de voz.<\/p>\n\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">Aprender a desarrollar el reconocimiento de voz<\/a><\/div>\n<\/div>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-tangora\">Tangora<\/h3>\n\n\n\n<p>Hasta ese momento, se hab\u00eda utilizado la detecci\u00f3n de fonemas para reconstruir las palabras. Desde los <b>a\u00f1os 80<\/b>, el reconocimiento de voz adopta enfoques innovadores, incluyendo modelos estad\u00edsticos. En esta l\u00ednea se desarroll\u00f3 <b>Tangora de IBM<\/b>, que intenta predecir qu\u00e9 palabras vendr\u00e1n a continuaci\u00f3n bas\u00e1ndose en el an\u00e1lisis previo. Tangora requiere alrededor de veinte minutos de entrenamiento, tras los cuales es capaz de reconocer 20 000 palabras y tambi\u00e9n frases completas.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-dragon-naturally-speaking\">Dragon Naturally Speaking<\/h3>\n\n\n\n<figure class=\"wp-block-image aligncenter\" style=\"margin-top:var(--wp--preset--spacing--columns);margin-bottom:var(--wp--preset--spacing--columns)\"><img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/07\/Dragon-Naturally-Speaking-voice-recognition.jpg\" alt=\"\" style=\"object-fit:cover\" \/><\/figure>\n\n\n\n<p>En 1997, la empresa Nuance lanza su software <b>Dragon Professional<\/b>, marcando un gran avance. Este programa necesita varias horas de entrenamiento, pero una vez finalizado, una persona puede hablar libremente y no necesita teclear sus textos. Dragon es capaz de reconocer 100 palabras por minuto. Ser\u00e1 adoptado por numerosos m\u00e9dicos y abogados. Como resultado, la edici\u00f3n XP de Windows que se lanza en 2001 incorpora una herramienta de reconocimiento de voz.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-google-voice-search-google-assistant\">Google Voice Search \/ Google Assistant<\/h3>\n\n\n\n<p>Durante los a\u00f1os 2000, el <a href=\"https:\/\/liora.io\/es\/nlp-word-embedding-word2vec-es\">procesamiento computacional de la voz<\/a> se beneficia del aporte de la inteligencia artificial. Google Voice Search decide integrar algoritmos de aprendizaje autom\u00e1tico con el empleo de servidores de alta capacidad. La aplicaci\u00f3n se introduce en 2008 y representa un significativo progreso. Este producto, que evolucionar\u00eda a <b>Google Assistant<\/b>, aunque no se destaca tanto como se esperaba, abre paso a <a href=\"https:\/\/www.xataka.com\/aplicaciones\/siri-historia-asistente-de-apple-como-ha-llegado-a-convertirse-en-pieza-clave-de-su-ecosistema\">otra innovaci\u00f3n que acapara la atenci\u00f3n<\/a>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"h-siri\">Siri<\/h3>\n\n\n\n<figure class=\"wp-block-image aligncenter is-resized\" style=\"margin-top:var(--wp--preset--spacing--columns);margin-bottom:var(--wp--preset--spacing--columns)\"><img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/07\/apple-siri-voice-recognition.jpg\" alt=\"\" style=\"width:auto;height:350px\" \/><\/figure>\n\n\n\n<p>En <b>2011<\/b>, Apple sorprende al anunciar que Siri, un asistente virtual capaz de comprender nuestros requerimientos, estar\u00e1 disponible en todos los nuevos <b>iPhone<\/b>. Representa un hito porque transforma el reconocimiento de voz en una herramienta de uso diario. Posteriormente, Alexa de Amazon y Cortana de Microsoft hacen su debut en 2014.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-como-funciona-el-reconocimiento-de-voz\">\u00bfC\u00f3mo funciona el reconocimiento de voz?<\/h2>\n\n\n\n<p>Entonces, \u00bfc\u00f3mo funciona hoy d\u00eda una aplicaci\u00f3n de reconocimiento de voz? La <b>captura del material sonoro<\/b> se realiza a trav\u00e9s de un micr\u00f3fono que convierte las se\u00f1ales en impulsos el\u00e9ctricos, los cuales son transformados a una se\u00f1al anal\u00f3gica y luego traducidos a formato digital.<\/p>\n\n\n\n<p>A partir de ah\u00ed, <a href=\"https:\/\/liora.io\/es\/chatgpt-como-funciona-este-algoritmo-de-pnl\">el aprendizaje autom\u00e1tico toma la iniciativa<\/a>. Realiza el emparejamiento de fonemas con unidades sint\u00e1cticas, asocia las frecuencias sonoras descodificadas con palabras y luego infiere la secuencia de palabras m\u00e1s adecuada. El sistema emplea modelos de referencia para facilitar este procedimiento de identificaci\u00f3n de las secuencias de palabras m\u00e1s probables. Las t\u00e9cnicas de procesamiento del lenguaje natural se ocupan de extraer la sem\u00e1ntica: el programa de reconocimiento de voz se esfuerza por entender el significado de lo que se expresa.<\/p>\n\n\n\n<p>De esta manera, podemos disfrutar de aplicaciones de dictado por voz o de interacci\u00f3n conversacional cada vez m\u00e1s cercanas a la realidad humana.<\/p>\n\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\">\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">Formaci\u00f3n en reconocimiento del habla AI<\/a><\/div>\n<\/div>\n\n\n\n<script type=\"application\/ld+json\">\n{\n  \"@context\": \"https:\/\/schema.org\",\n  \"@type\": \"FAQPage\",\n  \"mainEntity\": [\n    {\n      \"@type\": \"Question\",\n      \"name\": \"Breve historia del reconocimiento de voz\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"El reconocimiento de voz tiene m\u00e1s de 70 a\u00f1os de historia. Comenz\u00f3 en 1952 con Audrey (Bell Labs), que reconoc\u00eda n\u00fameros del 0 al 9. En 1962, IBM present\u00f3 Shoebox, una calculadora que reconoc\u00eda n\u00fameros y t\u00e9rminos aritm\u00e9ticos. En los 70, el sistema Harpy (Carnegie Mellon) alcanz\u00f3 1011 palabras. Los 80 trajeron modelos estad\u00edsticos con Tangora (IBM), que predec\u00eda palabras. En 1997, Dragon Naturally Speaking permiti\u00f3 dictado libre. Los 2000 integraron IA con Google Voice Search (2008), y en 2011 Siri de Apple llev\u00f3 la tecnolog\u00eda al p\u00fablico masivo, seguida por Alexa y Cortana en 2014.\"\n      }\n    },\n    {\n      \"@type\": \"Question\",\n      \"name\": \"\u00bfC\u00f3mo funciona el reconocimiento de voz?\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"El proceso comienza con un micr\u00f3fono que capta el sonido y lo convierte en se\u00f1ales el\u00e9ctricas, transformadas a formato digital. El aprendizaje autom\u00e1tico empareja fonemas con unidades sint\u00e1cticas y asocia frecuencias sonoras con palabras para inferir la secuencia m\u00e1s probable. Utiliza modelos de referencia para la identificaci\u00f3n, y el procesamiento del lenguaje natural extrae el significado sem\u00e1ntico. Esto permite aplicaciones de dictado por voz e interacci\u00f3n conversacional cada vez m\u00e1s precisas y naturales.\"\n      }\n    }\n  ]\n}\n<\/script>\n","protected":false},"excerpt":{"rendered":"<p>Hablar con su smartphone se ha convertido en una actividad habitual. Y un gran n\u00famero de sistemas de reconocimiento de voz demuestran ser muy eficaces. No obstante, el desarrollo que llev\u00f3 a la comprensi\u00f3n de la voz humana se ha prolongado por d\u00e9cadas.<\/p>\n","protected":false},"author":85,"featured_media":173129,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2440],"class_list":["post-173127","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ia"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/173127","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/users\/85"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/comments?post=173127"}],"version-history":[{"count":5,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/173127\/revisions"}],"predecessor-version":[{"id":184686,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/173127\/revisions\/184686"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media\/173129"}],"wp:attachment":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media?parent=173127"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/categories?post=173127"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}