{"id":169830,"date":"2024-05-24T09:51:09","date_gmt":"2024-05-24T08:51:09","guid":{"rendered":"https:\/\/liora.io\/es\/?p=169830"},"modified":"2026-02-08T23:52:07","modified_gmt":"2026-02-08T22:52:07","slug":"formacion-de-apache","status":"publish","type":"post","link":"https:\/\/liora.io\/es\/formacion-de-apache","title":{"rendered":"Formaci\u00f3n de Apache: \u00bfc\u00f3mo aprender Hadoop, Spark y Cassandra?"},"content":{"rendered":"<p><strong><b>Un entrenamiento de Apache te permitir\u00e1 aprender a manejar Hadoop, Spark, Hive o <\/b><a href=\"\/\"><b>Cassandra<\/b><\/a><b>. Si deseas trabajar en Ciencia de Datos, este es un paso esencial.&nbsp;<\/b><b>Los softwares de c\u00f3digo abierto de la <\/b><a href=\"\/\"><b>Fundaci\u00f3n Apache<\/b><\/a><b> son muy utilizados en inform\u00e1tica. En el campo de la Ciencia de Datos, varias de estas herramientas son consideradas imprescindibles.&nbsp;<\/b><b>Por lo tanto, el dominio de estos softwares es una habilidad muy buscada en las empresas para aprovechar el Big Data. Hacer un entrenamiento de Apache puede permitirte obtener habilidades valiosas.<\/b><\/strong><\/p>\t\t\n\t\t\t<h3>\u00bfQu\u00e9 es la Apache Software Foundation?<\/h3>\t\t\n\t\t<p>La <b>Fundaci\u00f3n de Software Apache es una organizaci\u00f3n sin fines de lucro<\/b>, fundada en 1999 en Forest Hill, Maryland. Supervisa y apoya el desarrollo de software de c\u00f3digo abierto.<\/p><p>Los miembros de esta fundaci\u00f3n son contribuyentes a los diferentes proyectos. <b>Los candidatos deben ser nominados y aprobados por una mayor\u00eda de miembros<\/b>. Solo individuos pueden postularse, y no se admiten corporaciones.<\/p><p>La ASF supervisa m\u00e1s de 100 proyectos, muchos de los cuales se subdividen en<b> subproyectos<\/b>. Entre los m\u00e1s populares, podemos mencionar a Hadoop, Spark o Cassandra.<\/p>\t\t\n\t\t\t<h3>\u00bfQu\u00e9 es Hadoop?<\/h3>\t\t\n\t\t<p><b>Hadoop es un marco de programaci\u00f3n<\/b> que permite procesar grandes conjuntos de datos dentro de un entorno distribuido. Es un framework gratuito basado en Java.<\/p><p>Los conjuntos de datos y las tareas anal\u00edticas se distribuyen entre los nodos de un <b>cl\u00faster de computadoras<\/b>. Esto permite descomponer las tareas en cargas de trabajo de menor escala ejecutadas en paralelo.<\/p><p>Es posible procesar datos estructurados y no estructurados. Dependiendo de las necesidades, <b>se puede escalar de un solo servidor a miles de m\u00e1quinas<\/b> gracias al escalado.<\/p><p>Originalmente, Apache Hadoop fue creado <b>para satisfacer las necesidades de empresas como Yahoo y Google<\/b>. En sus inicios, estos gigantes tecnol\u00f3gicos necesitaban procesar grandes vol\u00famenes de Big Data para entregar resultados de b\u00fasqueda web m\u00e1s r\u00e1pidamente.<\/p><p>El proyecto Hadoop fue inspirado por <b>Google MapReduce<\/b>, un modelo de programaci\u00f3n que permite dividir una aplicaci\u00f3n en varias fracciones para ejecutar en diferentes nodos. Fue creado por Doug Cutting y Mike Cafarella, mientras trabajaban en Apache Nutch.<\/p><p>El proyecto de c\u00f3digo abierto fue desplegado por Yahoo en c\u00f3digo abierto en 2008. Fue en 2012 que la Fundaci\u00f3n de Software Apache hizo disponible Hadoop <b>para el p\u00fablico<\/b>.<\/p><p>Este marco ha tenido un impacto mayor en el campo del Big Data. Se considera como <b>la base del moderno Data Lake Cloud<\/b>.<\/p><p>Ha democratizado el acceso al poder de c\u00e1lculo, y ha permitido que las empresas <b>analizaran conjuntos de Big Data utilizando software de c\u00f3digo abierto y hardware econ\u00f3mico<\/b>. Era una alternativa viable a las soluciones de Data Warehouse propietarias y cerradas disponibles hasta entonces.<\/p><p>Muchas organizaciones han podido almacenar y procesar grandes vol\u00famenes de datos, <b>acceder a un poder de c\u00e1lculo masivo, a un costo menor<\/b> y con una elasticidad incrementada en comparaci\u00f3n con los Data Warehouses.<\/p>\t\t\n\t\t\t<h3>\u00bfQu\u00e9 es Cassandra?<\/h3>\t\t\n\t\t<p>Cassandra es <b>un sistema de base de datos distribuido de c\u00f3digo abierto<\/b> dise\u00f1ado para el almacenamiento y la gesti\u00f3n de grandes vol\u00famenes de datos. Esta base de datos NoSQL distribuida fue inicialmente creada por Facebook para sus necesidades internas.<\/p><p>La empresa estadounidense necesitaba una base de datos para la funcionalidad de b\u00fasqueda de la app Messenger, para permitir a los usuarios <b>encontrar r\u00e1pidamente una conversaci\u00f3n<\/b>. La arquitectura de Cassandra combina el modelo de distribuci\u00f3n presentado por Amazon con Dynamo para el escalado horizontal, y el motor de almacenamiento descrito por Google BigTable.<\/p><p>As\u00ed naci\u00f3 la base de datos altamente escalable adecuada para la mayor\u00eda de los casos de uso de Big Data. Facebook la liber\u00f3 como proyecto de c\u00f3digo abierto en julio de 2008. En marzo de 2009, se convirti\u00f3 en <b>un proyecto Apache Incubator<\/b> antes de convertirse en un proyecto de nivel superior de la Fundaci\u00f3n Apache en abril de 2010.<\/p><p><b>Esta plataforma est\u00e1 ahora disponible gratuitamente bajo la licencia Apache 2.0<\/b>. Ofrece una disponibilidad continua sin interrupciones, un alto rendimiento, la escalabilidad necesaria para las aplicaciones modernas, al tiempo que ofrece simplicidad operativa y replicaci\u00f3n entre Centros de Datos y regiones.<\/p><p>Varios petabytes de informaci\u00f3n pueden ser soportados, con miles de operaciones concurrentes por segundo. Por lo tanto, las empresas son capaces de <b>procesar grandes vol\u00famenes de datos<\/b> en entornos h\u00edbridos y multi-cloud.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"800\" height=\"382\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-cassandra-1024x489.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-cassandra-1024x489.jpg 1024w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-cassandra-300x143.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-cassandra-768x367.jpg 768w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-cassandra.jpg 1374w\" sizes=\"(max-width: 800px) 100vw, 800px\">\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t<h3>\u00bfQu\u00e9 es Hive?<\/h3>\t\t\n\t\t<p>Apache Hive es <b>un sistema de Data Warehouse de c\u00f3digo abierto<\/b> distribuido. Permite realizar consultas y an\u00e1lisis sobre grandes conjuntos de datos almacenados en archivos de Hadoop y analizarlos.<\/p><p>Un Data Warehouse permite <b>almacenar datos de manera centralizada<\/b>, para simplificar su an\u00e1lisis. Con Hive, se pueden leer, escribir y manejar petabytes de datos utilizando SQL.<\/p><p>Basado en el marco de c\u00f3digo abierto Apache Hadoop, Hive est\u00e1 estrechamente integrado con esta plataforma. Est\u00e1 dise\u00f1ado para procesar r\u00e1pidamente petabytes de datos. Su caracter\u00edstica \u00fanica es la capacidad de <b>consultar grandes conjuntos de datos<\/b> con Apache Tez o MapReduce a trav\u00e9s de una interfaz SQL.<\/p><p>Originalmente, esta herramienta fue creada para permitir a los no programadores que conocen SQL trabajar en Big Data a trav\u00e9s de la interfaz <b>HiveQL<\/b>. Utiliza la t\u00e9cnica de \u00abbatch processing\u00bb para consultar r\u00e1pidamente una base de datos distribuida muy grande. Las consultas HiveQL se convierten en trabajos MapReduce o Tez ejecutados en el marco YARN de Hadoop. Las ventajas de Hive son su <b>velocidad<\/b>, su <b>interfaz familiar<\/b>, y su <b>extensibilidad<\/b>.<\/p>\t\t\n\t\t\t<h3>\u00bfQu\u00e9 es Spark?<\/h3>\t\t\n\t\t<p>Apache Spark es <b>un marco para el procesamiento de datos<\/b> que permite realizar tareas r\u00e1pidamente en conjuntos de datos muy grandes y tambi\u00e9n puede distribuir tareas de procesamiento de datos entre m\u00faltiples ordenadores.<\/p><p>Estas dos capacidades lo convierten en <b>un imprescindible para el Big Data y el Aprendizaje Autom\u00e1tico<\/b>: dos campos en los que se requiere un poder de c\u00e1lculo masivo para procesar grandes vol\u00famenes de datos.<\/p><p>Esta herramienta fue creada en AMPLab de la Universidad de California en Berkeley en 2009. Desde entonces, se ha convertido en <b>uno de los principales marcos de Big Data<\/b>.<\/p><p>La arquitectura de Spark se compone de dos componentes principales: <b>el driver<\/b> que convierte el c\u00f3digo en m\u00faltiples tareas para distribuir, y <b>los ejecutores de tareas<\/b>.<\/p><p>Un gestor de cl\u00faster tambi\u00e9n es necesario para la mediaci\u00f3n entre ambos. <b>Es posible usar Spark en modo cl\u00faster independiente<\/b>, <b>o en combinaci\u00f3n con Hadoop YARN, Kubernetes, Docker Swarm o Apache Mesos<\/b>.<\/p>\t\t\n\t\t\t<h3>\u00bfQu\u00e9 es Kafka?<\/h3>\t\t\n\t\t<p><b>Apache Kafka es un Data Store distribuido, optimizado para la ingesti\u00f3n y el procesamiento de datos en streaming<\/b> en tiempo real. Los datos en streaming se generan continuamente por miles de fuentes de datos enviando sus registros simult\u00e1neamente.<\/p><p>Por lo tanto, es necesario utilizar una plataforma capaz de manejar este flujo constante y de <b>procesar los datos de forma secuencial e incremental<\/b>.<\/p><p>Este es el papel de Kafka, que permite la \u00abpublicaci\u00f3n \/ suscripci\u00f3n\u00bb de flujos de registros, de <b>almacenar flujos de registros en el orden en que fueron generados<\/b>, y de <b>procesarlos en tiempo real<\/b>.<\/p><p>Principalmente se utiliza Kafka para <b>construir pipelines de datos en tiempo real<\/b> y <b>aplicaciones capaces de adaptarse<\/b>. Esta herramienta combina la mensajer\u00eda, el almacenamiento y el procesamiento de flujos para permitir el almacenamiento y an\u00e1lisis de datos hist\u00f3ricos y en tiempo real.<\/p><p>Los principales casos de uso son la construcci\u00f3n de pipelines y las aplicaciones de streaming en tiempo real. Un pipeline de datos permite procesar y transferir los datos de un sistema a otro de manera eficiente, y una aplicaci\u00f3n de streaming sirve para consumir flujos de datos. Tambi\u00e9n se utiliza como <b>intermediario de mensajes<\/b>, para procesar y gestionar las comunicaciones entre dos aplicaciones.<\/p><p>El funcionamiento de Kafka se basa en dos modelos de mensajer\u00eda: <b>el encolamiento<\/b>, y <b>la publicaci\u00f3n-suscripci\u00f3n<\/b>. El encolamiento permite distribuir el procesamiento de datos entre varias instancias de clientes. Esto lo hace altamente escalable.<\/p><p>El enfoque de publicaci\u00f3n-suscripci\u00f3n es, por otro lado, multi-suscripci\u00f3n. Sin embargo, cada mensaje va a cada suscriptor y por lo tanto no se pueden utilizar para <b>distribuir el trabajo entre m\u00faltiples procesos<\/b>.<\/p><p>Kafka utiliza <b>un modelo de log particionado<\/b> para combinar ambas soluciones. Consiste en una secuencia ordenada de registros, y los logs se dividen en segmentos o particiones que corresponden a los diferentes suscriptores.<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"800\" height=\"349\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-kafka-1024x447.jpg\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-kafka-1024x447.jpg 1024w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-kafka-300x131.jpg 300w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-kafka-768x335.jpg 768w, https:\/\/liora.io\/app\/uploads\/sites\/7\/2024\/04\/formation-apache-kafka.jpg 1520w\" sizes=\"(max-width: 800px) 100vw, 800px\">\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t<h3>\u00bfC\u00f3mo seguir una formaci\u00f3n de Apache?<\/h3>\t\t\n\t\t<p>Para aprender a usar el software de Apache, puedes <b>elegir los cursos de Liora<\/b>. Herramientas como Hadoop, Kafka, <a href=\"\/\">Hive<\/a> y Spark est\u00e1n en el programa de nuestro <b>curso de Data Engineer<\/b>, dentro del m\u00f3dulo de Big Data. Asimismo, nuestros <b>cursos de Data Scientist y Data Analyst<\/b> te permitir\u00e1n aprender el lenguaje SQL indispensable para usar la base de datos Cassandra.<\/p><p>M\u00e1s all\u00e1 de las herramientas de Apache, nuestros diferentes cursos te permitir\u00e1n adquirir todas las habilidades requeridas para ejercer los oficios de la Ciencia de Datos. Entre nuestros alumnos, <b>el 80% encontr\u00f3 empleo inmediatamente despu\u00e9s de la formaci\u00f3n<\/b>.<\/p><p>Nuestra aproximaci\u00f3n Blended Learning combina la tutor\u00eda individual en una plataforma en l\u00ednea, y las <b>Masterclass<\/b> colectivas. Los programas son creados por profesionales de la industria. Aprende m\u00e1s sobre nuestro m\u00e9todo de <a href=\"https:\/\/liora.io\/es\/blended-learning-el-nuevo-metodo-de-formacion-de-exito\">Blended Learning<\/a>.<\/p><p>Dependiendo de tus necesidades, puedes elegir entre el <b>BootCamp intensivo<\/b> y la Formaci\u00f3n Continua. Al final del curso, recibir\u00e1s un certificado otorgado por <b>MINES ParisTech \/ PSL Executive Education<\/b>. Conoce m\u00e1s sobre nuestro <a href=\"https:\/\/liora.io\/es\/bootcamp-definicion-interes-para-la-formacion\">BootCamp<\/a>.<\/p><p>Para la financiaci\u00f3n, todos nuestros cursos son elegibles para el <b>Compte Personnel de Formation<\/b>. No esperes m\u00e1s, y descubre los cursos de Liora.<\/p><p>Ahora sabes todo sobre las formaciones de Apache. Descubre nuestro dossier completo sobre Hadoop, y nuestro dossier sobre Spark.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/es\/nuestros-cursos-de-data\">M\u00e1s informaci\u00f3n sobre los cursos de formaci\u00f3n de Liora<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un entrenamiento de Apache te permitir\u00e1 aprender a manejar Hadoop, Spark, Hive o Cassandra. Si deseas trabajar en Ciencia de Datos, este es un paso esencial.&nbsp;Los softwares de c\u00f3digo abierto de la Fundaci\u00f3n Apache son muy utilizados en inform\u00e1tica. En el campo de la Ciencia de Datos, varias de estas herramientas son consideradas imprescindibles.&nbsp;Por lo [&hellip;]<\/p>\n","protected":false},"author":74,"featured_media":169835,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2440],"class_list":["post-169830","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ia"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/169830","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/users\/74"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/comments?post=169830"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/169830\/revisions"}],"predecessor-version":[{"id":183429,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/posts\/169830\/revisions\/183429"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media\/169835"}],"wp:attachment":[{"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/media?parent=169830"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/es\/wp-json\/wp\/v2\/categories?post=169830"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}