{"id":168420,"date":"2026-01-28T16:49:52","date_gmt":"2026-01-28T15:49:52","guid":{"rendered":"https:\/\/liora.io\/es\/?p=168420"},"modified":"2026-02-06T09:30:15","modified_gmt":"2026-02-06T08:30:15","slug":"conjunto-de-datos-o-datasets","status":"publish","type":"post","link":"https:\/\/liora.io\/es\/conjunto-de-datos-o-datasets","title":{"rendered":"\u00bfQu\u00e9 es un conjunto de datos? \u00bfC\u00f3mo manipularlo?"},"content":{"rendered":"<p>\n.elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]&gt;a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}<\/p>\n<p><strong><b>Los datasets (o conjuntos de datos) suelen utilizarse en Machine Learning. Agrupan un conjunto coherente de datos en distintos formatos (texto, n\u00fameros, im\u00e1genes, v\u00eddeos, etc.).<\/b><\/strong><\/p>\n<h3>\u00bfQu\u00e9 es un conjunto de datos?<\/h3>\n<p>Los conjuntos de datos pueden representarse de distintas formas, como tablas, gr\u00e1ficos, \u00e1rboles, etc. Las <b>estructuras de matrices se utilizan a menudo<\/b> en algoritmos de Machine Learning.<\/p>\n<p>Cada valor de un conjunto de datos est\u00e1 asociado a un <b>atributo<\/b> y a una <b>observaci\u00f3n<\/b>.<\/p>\n<p>Tomemos, por ejemplo, los datos de diferentes personas con y sin Covid-19.<\/p>\n<p>Los atributos corresponder\u00e1n a diferentes caracter\u00edsticas como la edad, el peso, la altura, la ciudad de residencia, los s\u00edntomas, etc., mientras que cada observaci\u00f3n estar\u00e1 asociada a una persona diferente.<\/p>\n<p>\n.elementor-widget-image{text-align:center}.elementor-widget-image a{display:inline-block}.elementor-widget-image a img[src$=\u00bb.svg\u00bb]{width:48px}.elementor-widget-image img{vertical-align:middle;display:inline-block}<\/p>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"768\" height=\"309\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/01\/Capture-decran-2021-08-23-a-09.59.54-768x309-1.png\" alt=\"\" loading=\"lazy\"><figcaption>Attributs = Atributos \/ Observations = Observaciones<\/figcaption><\/figure>\n<p>La ventaja de los conjuntos de datos es que se pueden manipular y realizar diversos cambios en los datos. Vamos a echar un vistazo a c\u00f3mo manipularlos en <a href=\"https:\/\/liora.io\/es\/python-un-zoom-en-el-lenguaje-mas-popular\">Python<\/a>.<\/p>\n<p><a href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\"><br \/>\nQuiero aprender a manipular conjuntos de datos<br \/>\n<\/a><\/p>\n<h3>Manipulaci\u00f3n de conjuntos de datos en Python<\/h3>\n<p>En Python, los datos se manipulan utilizando la biblioteca Pandas, cuya documentaci\u00f3n est\u00e1 disponible <a href=\"https:\/\/pandas.pydata.org\/docs\/\">aqu\u00ed<\/a>.&nbsp;<\/p>\n<p>Se puede utilizar para crear o importar conjuntos de datos, y tambi\u00e9n para manipularlos antes de aplicar modelos de <a href=\"https:\/\/liora.io\/es\/machine-learning-y-viaje-una-ganga-para-el-sector\">Machine Learning<\/a>.<\/p>\n<p>Cuando obtenemos un conjunto de datos, necesitamos hacer algunas modificaciones. Esto se debe a que los datos suelen contener una serie de errores. Por ejemplo, pueden <b>faltar datos <\/b>(que a menudo son necesarios para el an\u00e1lisis). Tambi\u00e9n puede haber datos introducidos incorrectamente por el usuario (comas mal colocadas, demasiados 0, etc.). Tambi\u00e9n surgen problemas con el tipo de datos. A menudo, los atributos (como la edad, por ejemplo) est\u00e1n en formato texto, mientras que para utilizar funciones estad\u00edsticas sobre este atributo (como calcular la edad media, la desviaci\u00f3n t\u00edpica, etc.), necesitamos convertir los datos de este atributo en formato num\u00e9rico.<\/p>\n<p>Las funciones y m\u00e9todos de Pandas facilitan llevar a cabo estas diferentes etapas de manipulaci\u00f3n y realizar los cambios necesarios en nuestro conjunto de datos.<\/p>\n<p>Una vez procesados los datos del conjunto de datos, a menudo utilizamos algoritmos de Machine Learning en nuestros conjuntos de datos para predecir patrones.<\/p>\n<p>Retomemos el ejemplo de nuestro conjunto de datos de pacientes con Covid-19<\/p>\n<p>Cuando obtenemos este conjunto de datos, antes de crear modelos de Machine Learning, tenemos que <b>proceder a varias modificaciones<\/b>:<\/p>\n<ul>\n<li>No hay informaci\u00f3n sobre las caracter\u00edsticas personales del paciente 4, por lo que habr\u00e1 que <b>suprimir la l\u00ednea<\/b> (ya que es inutilizable).<\/li>\n<li>El tama\u00f1o se da en formato de texto (esto es claramente visible ya que hay una mezcla de n\u00fameros y texto en la casilla). En consecuencia, tenemos que <b>recuperar los 3 primeros caracteres<\/b> de cada celda y cambiar el tipo a formato num\u00e9rico.<\/li>\n<li>Podemos ver que el peso del paciente tiene un 0 de m\u00e1s<\/li>\n<\/ul>\n<p>Una vez establecidas todas estas modificaciones, podemos explotar los datos de forma pertinente y crear modelos. Normalmente, con un conjunto de datos como este, podemos predecir qu\u00e9 perfil de personas es probable que presente qu\u00e9 s\u00edntomas en una regi\u00f3n espec\u00edfica.<\/p>\n<p>Aunque es necesario manipular los conjuntos de datos, tambi\u00e9n hay que asegurarse de que las <b>fuentes de datos<\/b> son v\u00e1lidas. Trabajar con datos falsos ser\u00eda una p\u00e9rdida de tiempo.<\/p>\n<p>En un <a href=\"https:\/\/liora.io\/public-datasets-machine-learning\">art\u00edculo de nuestro blog<\/a> se enumeran los sitios donde se pueden <b>encontrar datos<\/b> de sitios competentes.<\/p>\n<p>Los conjuntos de datos son, por tanto, muy eficaces y f\u00e1ciles de utilizar para el tratamiento de datos. Nuestros cursos te permitir\u00e1n conocer las distintas herramientas de manipulaci\u00f3n de datos y planificar diferentes modelos. Si deseas m\u00e1s informaci\u00f3n, no dudes <a href=\"https:\/\/liora.io\/es\/proceso-de-inscripcion\">en ponerte en contacto con nosotros<\/a>.<\/p>\n<p><a href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data#\"><br \/>\nM\u00e1s informaci\u00f3n sobre nuestros cursos<br \/>\n<\/a><\/p>\n<h3>Los 5 mejores sitios para encontrar conjuntos de datos para Machine Learning<\/h3>\n<p><img decoding=\"async\" width=\"1024\" height=\"404\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/01\/illu_map_article_big_2-1024x404.jpg.webp\" alt=\"\" loading=\"lazy\"><\/p>\n<p>Si te interesa el sector aeroespacial, el deporte, el medio ambiente o el tr\u00e1fico rodado en la circunvalaci\u00f3n de Par\u00eds, descubre d\u00f3nde y c\u00f3mo recuperar conjuntos de datos adaptados a tus necesidades.<\/p>\n<p>Estos son los 5 mejores sitios para obtener datos de c\u00f3digo abierto en Internet.<\/p>\n<h4>1- Google Dataset Search<\/h4>\n<p>Esta herramienta desarrollada por <a href=\"\/\" data-wplink-edit=\"true\">Google<\/a> es una de las formas m\u00e1s eficaces de encontrar un conjunto de datos realizando una <b>simple b\u00fasqueda por palabra clave<\/b>.<\/p>\n<p>Ejemplo: Quiero hacer un proyecto de Machine Learning relacionado con el tenis y, m\u00e1s concretamente, con Roland Garros. \u00bfPor qu\u00e9 no a\u00f1adir los resultados de Nadal a mi proyecto?<\/p>\n<p>Todo lo que tienes que hacer es introducir estas 3 palabras clave en la barra de b\u00fasqueda como una simple b\u00fasqueda en Google.<\/p>\n<p>La b\u00fasqueda devuelve todos los conjuntos de datos que contengan las palabras clave que se buscan, junto con una breve descripci\u00f3n y datos adicionales sobre los conjuntos de datos (fuente, fecha de publicaci\u00f3n, tipo de licencia, etc.).<\/p>\n<p>Puedes afinar la b\u00fasqueda utilizando <b>ajustes avanzados<\/b> como la fecha de la \u00faltima actualizaci\u00f3n, los derechos de uso o si el conjunto de datos es gratuito.<\/p>\n<h4>2- INE (Instituto Nacional de Estad\u00edstica)<\/h4>\n<p>El INE es el organismo responsable de la estad\u00edstica oficial en Espa\u00f1a. Ofrece una amplia gama de datos estad\u00edsticos sobre poblaci\u00f3n, econom\u00eda, sociedad y m\u00e1s. Estos datos pueden ser \u00fatiles para proyectos de Machine Learning que requieran informaci\u00f3n demogr\u00e1fica y econ\u00f3mica.<\/p>\n<p>Se cubre una amplia gama de temas. Entre ellos figuran conjuntos de datos sobre econom\u00eda, sanidad, agricultura, medio ambiente, turismo, educaci\u00f3n y asuntos europeos.&nbsp;Adem\u00e1s de los datos brutos, el INE publica regularmente <b>informes<\/b>, an\u00e1lisis y publicaciones que pueden proporcionar contexto importante para comprender tendencias y evoluciones en diversos campos.<\/p>\n<h4>3- Fema.gov<\/h4>\n<p>La <b>Agencia Federal para la Gesti\u00f3n de Emergencias<\/b> de EE. UU. (FEMA) es responsable de prevenir y <b>proteger a la poblaci\u00f3n de amenazas<\/b> y peligros en Estados Unidos. Esta organizaci\u00f3n ha creado un sitio web para facilitar el <b>acceso gratuito a bases de datos<\/b> que contienen informaci\u00f3n sobre diversos temas.<\/p>\n<p>Los conjuntos de datos abarcan las cat\u00e1strofes ocurridas en el pa\u00eds, la gesti\u00f3n de emergencias, los programas de ayuda y los hogares que se han beneficiado de programas de prevenci\u00f3n de cat\u00e1strofes naturales.<\/p>\n<p>Cada p\u00e1gina contiene informaci\u00f3n sobre el conjunto de datos, su contenido y enlaces para descargarlos.<\/p>\n<h4>4- Data.nasa.gov<\/h4>\n<p>La NASA (Administraci\u00f3n Nacional de Aeron\u00e1utica y el Espacio) ha decidido poner a disposici\u00f3n del p\u00fablico algunos de sus conjuntos de datos con el objetivo de \u201cestimular tu creatividad para resolver los problemas de la Tierra\u201d.<\/p>\n<p>Adem\u00e1s de poner a disposici\u00f3n del p\u00fablico los datos, la organizaci\u00f3n tambi\u00e9n hace accesibles de forma gratuita los proyectos realizados por los investigadores y las API.<\/p>\n<p>Cuando acceda al cat\u00e1logo de conjuntos de datos, podr\u00e1 buscar por palabra clave y seleccionar entre una serie de filtros.<\/p>\n<p>Para cada conjunto de datos tendr\u00e1 acceso a una descripci\u00f3n detallada de las columnas y a una vista previa.<\/p>\n<h4>5- Datos Abiertos Gobierno de Espa\u00f1a<\/h4>\n<p>El <b>Portal de Datos Abiertos del Gobierno de Espa\u00f1a<\/b> es una plataforma integral que facilita el acceso a una rica diversidad de conjuntos de datos abiertos generados por distintas entidades gubernamentales de Espa\u00f1a. Este recurso, de car\u00e1cter p\u00fablico, se posiciona como un instrumento esencial para la <b>transparencia <\/b>y la <b>participaci\u00f3n ciudadana <\/b>al poner a disposici\u00f3n informaci\u00f3n relevante y actualizada.<\/p>\n<p>Entre las categor\u00edas destacadas se encuentran la salud, la educaci\u00f3n, medio ambiente, demograf\u00eda, etc.&nbsp;Estos datos no solo proporcionan una visi\u00f3n detallada de la situaci\u00f3n actual, sino que tambi\u00e9n permiten evaluar tendencias a lo largo del tiempo y analizar el impacto en la sociedad espa\u00f1ola.<\/p>\n<p>La accesibilidad del Portal de Datos Abiertos del Gobierno de Espa\u00f1a se ven reforzadas por herramientas interactivas que facilitan la visualizaci\u00f3n y descarga de la informaci\u00f3n. Adem\u00e1s, se promueve la utilizaci\u00f3n de estos conjuntos de datos para la investigaci\u00f3n, el desarrollo de aplicaciones y, por supuesto, para impulsar proyectos de Machine Learning que buscan extraer conocimiento valioso a partir de datos gubernamentales.<\/p>\n<p>Ahora que sabes d\u00f3nde encontrar conjuntos de datos de calidad, todo lo que tienes que hacer es aprender a entrenar tus modelos de Machine Learning con ellos.<\/p>\n<p><a href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data#\"><br \/>\nEmpezar un curso de Data Science<br \/>\n<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Los datasets (o conjuntos de datos) suelen utilizarse en Machine Learning. Agrupan un conjunto coherente de datos en distintos formatos (texto, n\u00fameros, im\u00e1genes, v\u00eddeos, etc.).<\/p>\n","protected":false},"author":85,"featured_media":168422,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2440],"class_list":["post-168420","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ia"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/168420","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/users\/85"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/comments?post=168420"}],"version-history":[{"count":3,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/168420\/revisions"}],"predecessor-version":[{"id":183002,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/168420\/revisions\/183002"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media\/168422"}],"wp:attachment":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media?parent=168420"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/categories?post=168420"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}