{"id":170779,"date":"2024-05-07T07:30:00","date_gmt":"2024-05-07T06:30:00","guid":{"rendered":"https:\/\/liora.io\/es\/?p=170779"},"modified":"2026-02-08T23:53:14","modified_gmt":"2026-02-08T22:53:14","slug":"el-dia-tipico-de-un-cientifico-de-datos","status":"publish","type":"post","link":"https:\/\/liora.io\/es\/el-dia-tipico-de-un-cientifico-de-datos","title":{"rendered":"Inmersi\u00f3n en el d\u00eda t\u00edpico de un Cient\u00edfico de Datos"},"content":{"rendered":"<style><br \/>\n.elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]>a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}<\/style>\n<h2><b>Investigaci\u00f3n exclusiva: \u00bfC\u00f3mo es el d\u00eda a d\u00eda de un Cient\u00edfico de Datos?<\/b><\/h2>\nMuchos sue\u00f1an con el <a href=\"https:\/\/liora.io\/es\/ficha-del-perfil-de-data-scientist\">trabajo de Cient\u00edfico de Datos<\/a>, sin entender completamente las <b>misiones asignadas<\/b> a este puesto.\n<blockquote><b>\u00bfQu\u00e9 hace concretamente un Cient\u00edfico de Datos?<\/b> \u00bfC\u00f3mo organiza su jornada este maestro de los datos?<\/blockquote>\nPara desentra\u00f1ar este misterio hemos seguido durante todo un d\u00eda a Daniel, Cient\u00edfico de Datos desde hace 3 a\u00f1os en <a href=\"\/\">liora.io<\/a>.\n<h3>En el centro de la acci\u00f3n: Vive este d\u00eda en v\u00eddeo<\/h3>\n<h3>9h &#8211; 10h: Pistoletazo de salida<\/h3>\nEs el inicio de un d\u00eda que se anticipa estimulante, Daniel tiene una cita con el equipo de \u00abData Science\u00bb para establecer el objetivo del d\u00eda. El desaf\u00edo actual del equipo: <b>crear una IA capaz de predecir las fluctuaciones de un \u00edndice burs\u00e1til<\/b>.\n<blockquote><em>As\u00ed que hoy nos sumergiremos en la rutina diaria de Daniel a trav\u00e9s de este fascinante tema que es el Machine Learning aplicado a las finanzas.<\/em><\/blockquote>\nEn un primer momento, Daniel quiere asegurarse de comprender bien el objetivo porque nuestro experimentado Cient\u00edfico de Datos sabe que: <b>el \u00e9xito del proyecto depende fundamentalmente de la comprensi\u00f3n de todos los par\u00e1metros a considerar<\/b>, apresurarse podr\u00eda garantizar un fracaso&#8230;\n\nDespu\u00e9s de muchas horas de intercambio con sus colegas, Daniel se siente finalmente listo, tiene <b>todas las herramientas necesarias<\/b> para empezar este ambicioso proyecto. \u00a1Que comience el trabajo!\n<h3>10h &#8211; 11h: Comprensi\u00f3n de la problem\u00e1tica empresarial<\/h3>\nTras haberse hecho <b>una primera idea de la viabilidad del proyecto<\/b>, Daniel piensa implementar una aplicaci\u00f3n f\u00e1cil de usar que permitir\u00e1 a cualquier usuario, experimentado o no, <b>operar en bolsa con el asesoramiento de la IA.<\/b>\n\nDaniel dedica tiempo previamente a <b>familiarizarse con las nociones y principios del sector en el que deber\u00e1 desarrollar un modelo<\/b>: en este caso, el sector financiero. Realmente parece <b>imposible para un Cient\u00edfico de Datos analizar resultados sin comprender su significado<\/b>. Luego, identifica progresivamente <b>los distintos pasos a seguir<\/b>. Efectivamente, el <a href=\"https:\/\/liora.io\/es\/data-science-definicion-problematica-y-casos-de-uso\">Cient\u00edfico de Datos debe ser paciente<\/a> para proporcionar a los futuros usuarios de su IA una cualidad indispensable y escasa, la <b>fiabilidad<\/b>.\n<h3>11h &#8211; 12h: Recolecci\u00f3n y an\u00e1lisis de datos<\/h3>\nEl primer paso de este largo viaje es la recolecci\u00f3n del Data Set: conjunto de datos. Son <b>todos los datos que el Cient\u00edfico de Datos proveer\u00e1 a un modelo algor\u00edtmico para obtener una predicci\u00f3n<\/b>.\n\nEste <b>Data Set<\/b> generalmente se divide en <b>2 partes<\/b> claramente diferenciadas<b>:<\/b>\n<ul>\n \t<li><b>70%<\/b> constituyen el <b>conjunto de entrenamiento (train set)<\/b> y servir\u00e1n para <b>\u00abaprender\u00bb los par\u00e1metros<\/b> del modelo.<\/li>\n \t<li><b>30%<\/b> forman el <b>conjunto de prueba (test set)<\/b> y se usar\u00e1n para <b>comprobar el rendimiento de los par\u00e1metros aprendidos<\/b> en el train set.<\/li>\n<\/ul>\nNo obstante, en la mayor\u00eda de los casos, Daniel no se preocupa de la recolecci\u00f3n de datos. El equipo de liora.io los proporciona utilizando diversas t\u00e9cnicas como el web scraping, que permite la extracci\u00f3n de datos de un sitio web a trav\u00e9s de un programa, un software autom\u00e1tico o por medio de otro sitio web.\n<h3>12h &#8211; 13h: Preparaci\u00f3n de datos: comprensi\u00f3n, an\u00e1lisis y limpieza<\/h3>\nUna vez que tiene los datos, Daniel se toma el tiempo para entenderlos y analizarlos. Lamentablemente, se da cuenta de que <b>los datos no son inmediatamente utilizables<\/b>. Sin preocupaciones&#8230;\n<blockquote>Por lo general, <b>los datos iniciales<\/b> rara vez son utilizables sin una limpieza previa. <b>Una de las tareas m\u00e1s importantes<\/b> del <b>Cient\u00edfico de Datos<\/b> es precisamente lo que se conoce como <b>limpieza de datos <\/b>(<a href=\"https:\/\/liora.io\/es\/datacleaning-limpieza-de-datos-definicion-tecnicas-importancia-en-data-science\">Data Cleaning<\/a>).<\/blockquote>\nPor ejemplo, es com\u00fan que los datos contengan <b>varias filas duplicadas o incluso vac\u00edas (gesti\u00f3n de NaN)<\/b>. Sin embargo, lenguajes de programaci\u00f3n como Python o R permiten abordar eficientemente estos tipos de problemas relacionados con la limpieza de datos.\n\nCompletada esta etapa, Daniel realiza un<b> an\u00e1lisis visual,<\/b> tambi\u00e9n con <b>Python<\/b>, para entender mejor el Data Set. Para ello, debe <b>dominar<\/b> bibliotecas como Matplotlib o Seaborn, que son muy f\u00e1ciles de usar.\n\nEste paso de visualizaci\u00f3n es crucial porque permite a Daniel <b>apoderarse de los datos y, sobre todo, asegurarse de su fiabilidad<\/b>. De hecho, el Cient\u00edfico de Datos siempre debe ser cauteloso con los datos que maneja para saber descartar aquellos que considere <b>in\u00fatiles o an\u00f3malos<\/b>.\n<h3>13h &#8211; 14h: Descanso<\/h3>\nDaniel se une a sus colegas en el \u00e1rea com\u00fan asignada para ello. Sin embargo, no se desconecta por completo de su nuevo proyecto, que le apasiona, y consulta a sus colegas sobre sus primeras observaciones. Consulta sus puntos de vista para posiblemente <b>considerar el problema desde una nueva perspectiva<\/b>.\n<h3>14h &#8211; 16h30: Exploraci\u00f3n de datos y modelado<\/h3>\nCon los datos ya limpios y listos para ser usados, comienza el <b>trabajo de exploraci\u00f3n de datos<\/b>.\n<blockquote>Su objetivo es <b>identificar las variables explicativas (o caracter\u00edsticas) m\u00e1s relevantes para la predicci\u00f3n<\/b> de las variaciones de un \u00edndice burs\u00e1til y en consecuencia <b>eliminar aquellas que ser\u00e1n in\u00fatiles y\/o redundantes<\/b> mediante un <b>an\u00e1lisis de correlaciones o una reducci\u00f3n de dimensiones a trav\u00e9s de un PCA (an\u00e1lisis de componentes principales)<\/b>, por ejemplo.<\/blockquote>\nDe hecho, cuanto m\u00e1s Daniel pueda identificar las variables m\u00e1s relevantes, m\u00e1s r\u00e1pido y eficiente ser\u00e1 su <b>algoritmo<\/b>.\n\nUna vez realizada esta identificaci\u00f3n, Daniel ahora usar\u00e1 un algoritmo de <b>Aprendizaje Autom\u00e1tico<\/b> capaz de decidir autom\u00e1ticamente sobre la subida o bajada de un \u00edndice burs\u00e1til. Generalmente, Daniel no empieza desde cero, ya existen algoritmos eficientes pre-codificados que se pueden encontrar en m\u00f3dulos como Scikit Learn de Python.\n\nSin embargo, la existencia de estos algoritmos no significa que el trabajo de Daniel termine aqu\u00ed, \u00a1ni mucho menos!\n<blockquote>Daniel debe<b> elegir entre cientos de algoritmos disponibles, el que mejor se adapte al problema. <\/b>Incluso cuando se ha elegido el algoritmo, queda por <b>definir las decenas de par\u00e1metros \u00f3ptimos<\/b> para que la predicci\u00f3n sea lo m\u00e1s efectiva posible.<\/blockquote>\nLa cuesti\u00f3n del <b>seleccionar los par\u00e1metros<\/b> es precisamente un paso esencial y <b>depende en particular del tipo de datos disponibles<\/b> (textos, tablas, im\u00e1genes, datos vocales, etc.), su balance o desequilibrio (soluciones: sobre\/submuestreo, cambio adecuado de la funci\u00f3n de p\u00e9rdida, etc.) o su volumen (gesti\u00f3n del riesgo de sobreajuste o subajuste).\n\nDebido al gran volumen de datos y la complejidad del problema, Daniel ha optado por usar una red neuronal convolucional, pero no hay que preocuparse, si los resultados no son convincentes, Daniel no dudar\u00e1 en cambiar de estrategia.\n<h3>16h30 &#8211; 18h: Evaluaci\u00f3n \u2013 Prueba<\/h3>\nDespu\u00e9s de implementar el modelo, llega el momento de la verdad: \u00bfser\u00e1 eficaz su algoritmo? \u00bfLograr\u00e1 un puntaje de predicci\u00f3n en el conjunto de prueba a la altura? Daniel piensa que tiene un primer resultado prometedor. <b>\u00abUn 60% no est\u00e1 nada mal, pero podemos y haremos m\u00e1s\u00bb.<\/b> comenta de manera entusiasta. Sabe que el potencial de su algoritmo puede atraer a un amplio espectro de clientes profesionales.\n<h3>18h: Fin del d\u00eda<\/h3>\nDaniel ha terminado su jornada por hoy. Ma\u00f1ana por la ma\u00f1ana, intentar\u00e1 <b>mejorar el rendimiento de su algoritmo predictivo<\/b>. Para ello, ya tiene una idea: a\u00f1adir a sus datos un an\u00e1lisis de tweets relacionados con el mundo financiero (t\u00e9cnicas de miner\u00eda de texto), lo cual, seg\u00fan \u00e9l, permitir\u00e1 <b>enriquecer el Data Set inicial<\/b> y establecer nuevas tendencias. Tambi\u00e9n planea para el d\u00eda siguiente ocuparse de la implementaci\u00f3n, es decir, de la puesta en producci\u00f3n del modelo junto con el Ingeniero de Datos del equipo.\n\nDespu\u00e9s de pasar un d\u00eda completo con Daniel, podemos ver que un Cient\u00edfico de Datos debe poseer habilidades t\u00e9cnicas y humanas s\u00f3lidas. Adem\u00e1s de <b>competencias claras en estad\u00edstica, programaci\u00f3n y Aprendizaje Autom\u00e1tico<\/b>, esta profesi\u00f3n requiere no solo un <b>esp\u00edritu de equipo impecable<\/b>, sino tambi\u00e9n intuici\u00f3n.\n\nLa intuici\u00f3n no s\u00f3lo de <b>identificar r\u00e1pidamente c\u00f3mo abordar un problema<\/b>, sino m\u00e1s bien la intuici\u00f3n de <b>determinar el modelo y los par\u00e1metros m\u00e1s adecuados<\/b>. Lo cierto es que <b>convertirse en Cient\u00edfico de Datos no es algo que se improvise<\/b>.\n\nPor esta raz\u00f3n, hemos creado un <a href=\"https:\/\/liora.io\/es\/formacion-data-scientist\">curso de Cient\u00edfico de Datos<\/a> con lanzamientos de formaciones cada mes en formatos Bootcamp o continuos.\n\n \t<link rel=\"stylesheet\" href=\"https:\/\/liora.io\/es\/app\/plugins\/elementor-pro\/assets\/css\/widget-animated-headline.min.css\">\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">Para conocer las pr\u00f3ximas fechas,\n\u00a1pulse aqu\u00ed!<\/a><\/div><\/div>\n<a href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">\t\t<\/a>","protected":false},"excerpt":{"rendered":"<p>Investigaci\u00f3n exclusiva: \u00bfC\u00f3mo es el d\u00eda a d\u00eda de un Cient\u00edfico de Datos? Muchos sue\u00f1an con el trabajo de Cient\u00edfico de Datos, sin entender completamente las misiones asignadas a este puesto. \u00bfQu\u00e9 hace concretamente un Cient\u00edfico de Datos? \u00bfC\u00f3mo organiza su jornada este maestro de los datos? Para desentra\u00f1ar este misterio hemos seguido durante todo [&hellip;]<\/p>\n","protected":false},"author":74,"featured_media":170781,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2440],"class_list":["post-170779","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ia"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/170779","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/users\/74"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/comments?post=170779"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/170779\/revisions"}],"predecessor-version":[{"id":183446,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/170779\/revisions\/183446"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media\/170781"}],"wp:attachment":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media?parent=170779"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/categories?post=170779"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}