{"id":163206,"date":"2026-02-26T13:34:53","date_gmt":"2026-02-26T12:34:53","guid":{"rendered":"https:\/\/multi.liora.io\/?p=158713"},"modified":"2026-02-26T13:34:53","modified_gmt":"2026-02-26T12:34:53","slug":"cross-validation-definicion-e-importancia","status":"publish","type":"post","link":"https:\/\/liora.io\/es\/cross-validation-definicion-e-importancia","title":{"rendered":"Cross-Validation : definici\u00f3n e importancia en Machine Learning"},"content":{"rendered":"<p><strong>La cross-validation o validaci\u00f3n cruzada es un m\u00e9todo que permite probar el rendimiento de un modelo predictivo de Machine Learning. Descubre las t\u00e9cnicas m\u00e1s utilizadas y c\u00f3mo aprender a dominarlas.<\/strong><\/p>\n<!-- \/wp:post-content -->\n\n<!-- wp:paragraph -->\n<p>Despu\u00e9s de entrenar<a href=\"https:\/\/liora.io\/es\/machine-learning-definicion-funcionamiento-usos\"> un modelo de Machine Learning<\/a> con datos etiquetados, se supone que tiene que funcionar con nuevos datos. No obstante, es importante <b>garantizar la exactitud de las predicciones<\/b> del modelo en producci\u00f3n. Para conseguirlo, es necesario validar el modelo. El <b>proceso de validaci\u00f3n<\/b> consiste en decidir si los resultados digitales que cuantifican las relaciones hipot\u00e9ticas entre las variables son aceptables como descripciones de los datos.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Con el fin de <b>evaluar el rendimiento de un modelo de Machine Learning<\/b>, hay que probarlo con nuevos datos. En funci\u00f3n del rendimiento del modelo con datos desconocidos, se puede determinar si a\u00fan falta por ajustarlo, se ha ajustado de m\u00e1s o est\u00e1 \u201cbien generalizado\u201d. Una de las t\u00e9cnicas m\u00e1s empleadas para probar la eficacia de un modelo de Machine Learning es la <b>\u201ccross-validation\u201d o validaci\u00f3n cruzada<\/b>. Este m\u00e9todo tambi\u00e9n es un procedimiento de \u201cre-sampling\u201d (remuestreo) que permite evaluar un modelo incluso con datos limitados.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Para efectuar una <b>\u201cCV\u201d (cross-validation)<\/b>, hace falta apartar de antemano una parte de los datos de la serie de datos de entrenamiento. Esos datos no se utilizar\u00e1n para entrenar el modelo, sino m\u00e1s tarde para probarlo y validarlo. A menudo en Machine Learning se usa la cross-validation para <b>comparar los diferentes modelos<\/b> y seleccionar el m\u00e1s adecuado para un problema espec\u00edfico. Esta t\u00e9cnica es a la vez f\u00e1cil de comprender, f\u00e1cil de implementar y tiene menos sesgos que los dem\u00e1s m\u00e9todos. Descubramos ahora las principales t\u00e9cnicas de validaci\u00f3n cruzada.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:embed {\"url\":\"https:\/\/youtu.be\/fSytzGwwBVw\",\"type\":\"video\",\"providerNameSlug\":\"youtube\",\"responsive\":true,\"className\":\"wp-embed-aspect-16-9 wp-has-aspect-ratio\"} -->\n<figure class=\"wp-block-embed is-type-video is-provider-youtube wp-block-embed-youtube wp-embed-aspect-16-9 wp-has-aspect-ratio\">\n  <div class=\"wp-block-embed__wrapper\">\n<iframe title=\"Machine Learning Fundamentals: Cross Validation\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/fSytzGwwBVw?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n  <\/div>\n<\/figure>\n<!-- \/wp:embed -->\n\n<!-- wp:heading -->\n<h2 id=\"h-la-tecnica-del-train-test-split\" class=\"wp-block-heading\">La t\u00e9cnica del Train-Test Split<\/h2>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p>El enfoque Train-Test Split consiste <b>en descomponer de manera aleatoria una serie de datos<\/b>. Una parte servir\u00e1 para el entrenamiento del modelo de Machine Learning, la otra permitir\u00e1 probarlo para la validaci\u00f3n. Por lo general, se reserva entre un <b>70 % y 80 % de los datos de la serie para el entrenamiento<\/b>. El 20-30 % restante se explotar\u00e1 en la cross-validation.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Esta <b>t\u00e9cnica es eficaz, salvo si los datos est\u00e1n limitados<\/b>. Entonces puede faltar alguna informaci\u00f3n contenida en los datos que no se utilizan para el entrenamiento y, por tanto, los resultados pueden tener un gran sesgo. Sin embargo, si la serie de datos es amplia y la distribuci\u00f3n es igual entre las dos muestras, este enfoque es totalmente adecuado. Se pueden separar los datos de manera manual o usar <b>el m\u00e9todo train_test split de scikit-learn<\/b>.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:buttons {\"className\":\"is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"} -->\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><!-- wp:button -->\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/liora.io\/es\/formacion-data-scientist\">Formarse en Machine Learning<\/a><\/div>\n<!-- \/wp:button --><\/div>\n<!-- \/wp:buttons -->\n\n<!-- wp:heading -->\n<h2 class=\"wp-block-heading\">El m\u00e9todo K-Folds<\/h2>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p>La t\u00e9cnica K-Folds es <b>f\u00e1cil de comprender y es particularmente conocida<\/b>. Respecto a otros enfoques de Cross-Validation, suele resultar un modelo menos sesgado. Justamente, permite garantizar que todas las observaciones de la serie de datos original tengan la oportunidad de aparecer en la serie de entrenamiento y en la serie de prueba. <b>En caso de datos de entrada limitados<\/b>, resulta uno de los mejores enfoques.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Primero se empieza <b>separando la serie de datos de manera aleatoria en K folds<\/b>. El procedimiento tiene un par\u00e1metro \u00fanico llamado \u201cK\u201d que hace referencia al n\u00famero de grupos en el se dividir\u00e1 la muestra. El <b>valor de K no debe ser ni demasiado bajo ni demasiado alto<\/b> y, por lo general, se elige un valor comprendido entre 5 y 10 en funci\u00f3n de la envergadura de la serie de datos. Por ejemplo, si K=10, la serie de datos se dividir\u00e1 en 10 partes.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Un <b>valor K m\u00e1s alto lleva a un modelo con menos sesgo<\/b>, pero una varianza demasiado amplia puede llevar a un ajuste excesivo. Un valor m\u00e1s bajo es pr\u00e1cticamente lo mismo que utilizar el m\u00e9todo Train-Test Split. <b>Despu\u00e9s se ajusta el modelo utilizando los folds K-1<\/b> (K menos 1). El modelo se valida usando el K-fold restante. Las puntuaciones y los errores se deben anotar.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>El <b>proceso se repite hasta que cada K-fold sirva<\/b> dentro de la serie de entrenamiento. La media de las puntuaciones registradas es la m\u00e9trica de rendimiento del modelo. Este <b>proceso se puede realizar de manera manual<\/b> o con ayuda de las funciones cross_val_score y cross_val-predict de la librer\u00eda Python de Scikit-Learn. La funci\u00f3n cross_val_score indica la puntuaci\u00f3n de cada fold de prueba, mientras que la funci\u00f3n cross_val_predict indica la puntuaci\u00f3n predicha para cada observaci\u00f3n de la serie de datos de entrada cuando formaba parte de la serie de prueba.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>En el caso de que el modelo (estimador) sea un clasificador y la variable objetivo (y) binaria o multiclase, se utiliza por defecto la t\u00e9cnica \u00abStratifiedKfold\u00bb. Este m\u00e9todo <b>presenta pliegues estratificados<\/b>, por ejemplo, manteniendo el porcentaje de muestras de cada clase en todos los folds. De este modo, los datos de los folds de entrenamiento y de prueba se distribuyen de manera equitativa.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>En los dem\u00e1s casos, se usa por defecto la t\u00e9cnica K_Fold para <b>dividir y entrenar el modelo<\/b>. Los folds se pueden utilizar como iteradores o en un bucle para entrenar en un marco de datos de Pandas.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:heading {\"level\":3} -->\n<h3 class=\"wp-block-heading\">\u00bfC\u00f3mo puedo aprender a usar la validaci\u00f3n cruzada?<\/h3>\n<!-- \/wp:heading -->\n\n<!-- wp:paragraph -->\n<p>La validaci\u00f3n cruzada es una etapa imprescindible en el proceso de Machine Learning. Para aprender a dominarla, puedes optar por <a href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">las formaciones de Liora<\/a>. <a href=\"https:\/\/liora.io\/es\/machine-learning-definicion-funcionamiento-usos\">El Machine Learning y todas sus t\u00e9cnicas<\/a> est\u00e1n en el coraz\u00f3n de <strong>nuestros programas de Data Scientist, Data Analyst y ML Engineer<\/strong>. Aprender\u00e1s todo el proceso, los algoritmos, las herramientas y las metodolog\u00edas necesarias para entrenar modelos y llevarlos a producci\u00f3n.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Nuestros cursos de formaci\u00f3n profesional te permiten adquirir todas las competencias necesarias <b>para trabajar en el \u00e1mbito de la Data Science<\/b>. De ese modo, podr\u00e1s aprender a dominar el lenguaje de programaci\u00f3n Python, la manipulaci\u00f3n de bases de datos, <a href=\"https:\/\/liora.io\/es\/dataviz-definicion-objetivos-y-usos\">el Dataviz<\/a> y <a href=\"https:\/\/liora.io\/es\/deep-learning-definicion\">el Deep Learning<\/a>. Todos nuestros cursos se pueden cursar <b>en<\/b> <b>formaci\u00f3n continua o en BootCamp<\/b>. Adem\u00e1s ofrecemos un enfoque de \u00ab<strong>blended learning<\/strong>\u00bb innovador que combina la formaci\u00f3n a distancia y la presencial para obtener lo mejor de ambos modelos.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:paragraph -->\n<p>Estos programas est\u00e1n dise\u00f1ados por profesionales y pensados para satisfacer las necesidades concretas de las empresas. Los alumnos reciben un <b>diploma certificado por la Universidad de la Sorbonne<\/b>, y un 93 % de ellos encontr\u00f3 un trabajo inmediatamente despu\u00e9s de terminar su formaci\u00f3n. Descubre los cursos de Liora.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:buttons {\"className\":\"is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\",\"style\":{\"spacing\":{\"margin\":{\"top\":\"var:preset|spacing|columns\",\"bottom\":\"var:preset|spacing|columns\"}}}} -->\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\" style=\"margin-top:var(--wp--preset--spacing--columns);margin-bottom:var(--wp--preset--spacing--columns)\"><!-- wp:button -->\n<div class=\"wp-block-button\"><a class=\"wp-block-button__link wp-element-button\" href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">Descubre nuestros cursos de Data Science<\/a><\/div>\n<!-- \/wp:button --><\/div>\n<!-- \/wp:buttons -->\n\n<!-- wp:paragraph -->\n<p>Ya lo sabes todo sobre la Cross-Validation. Descubre ahora <a href=\"https:\/\/liora.io\/es\/machine-learning-definicion-funcionamiento-usos\">nuestro dosier completo sobre Machine Learning<\/a> y <a href=\"https:\/\/liora.io\/es\/un-zoom-en-el-lenguaje-mas-popular\">nuestra introducci\u00f3n al lenguaje Python<\/a>.<\/p>\n<!-- \/wp:paragraph -->\n\n<!-- wp:html -->\n<script type=\"application\/ld+json\">\n{\n  \"@context\": \"https:\/\/schema.org\",\n  \"@type\": \"FAQPage\",\n  \"mainEntity\": [\n    {\n      \"@type\": \"Question\",\n      \"name\": \"La t\u00e9cnica del Train-Test Split\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"El enfoque Train-Test Split descompone aleatoriamente la serie de datos: una parte para entrenamiento (70-80%), otra para validaci\u00f3n (20-30%). Es eficaz con datos amplios y distribuci\u00f3n equilibrada. Si los datos son limitados, puede faltar informaci\u00f3n y generar sesgos. Se puede hacer manualmente o con train_test_split de scikit-learn.\"\n      }\n    },\n    {\n      \"@type\": \"Question\",\n      \"name\": \"El m\u00e9todo K-Folds\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"K-Folds divide aleatoriamente los datos en K grupos (valor entre 5-10). El modelo se entrena con K-1 folds y se valida con el fold restante, repitiendo hasta que cada fold sirva como prueba. La media de puntuaciones es la m\u00e9trica de rendimiento. Menos sesgado, ideal con datos limitados. Se implementa con cross_val_score\/cross_val_predict de scikit-learn. Para clasificadores binarios\/multiclase se usa 'StratifiedKfold' (mantiene porcentaje de clases en todos los folds).\"\n      }\n    },\n    {\n      \"@type\": \"Question\",\n      \"name\": \"\u00bfC\u00f3mo puedo aprender a usar la validaci\u00f3n cruzada?\",\n      \"acceptedAnswer\": {\n        \"@type\": \"Answer\",\n        \"text\": \"Liora ofrece formaciones Data Scientist, Data Analyst y ML Engineer con Machine Learning, Python, bases de datos, DataViz y Deep Learning. Programas en formaci\u00f3n continua o BootCamp con blended learning (distancia + presencial). Diploma certificado por Universidad de la Sorbonne, 93% empleabilidad inmediata.\"\n      }\n    }\n  ]\n}\n<\/script>\n<!-- \/wp:html -->","protected":false},"excerpt":{"rendered":"<p>La cross-validation o validaci\u00f3n cruzada es un m\u00e9todo que permite probar el rendimiento de un modelo predictivo de Machine Learning. Descubre las t\u00e9cnicas m\u00e1s utilizadas y c\u00f3mo aprender a dominarlas. Despu\u00e9s de entrenar un modelo de Machine Learning con datos etiquetados, se supone que tiene que funcionar con nuevos datos. No obstante, es importante garantizar [&hellip;]<\/p>\n","protected":false},"author":50,"featured_media":184486,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2440],"class_list":["post-163206","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ia"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/163206","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/users\/50"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/comments?post=163206"}],"version-history":[{"count":5,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/163206\/revisions"}],"predecessor-version":[{"id":184487,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/163206\/revisions\/184487"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media\/184486"}],"wp:attachment":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media?parent=163206"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/categories?post=163206"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}