Evento Donostia 27/09: 芦Oportunidades en la Industria 4.0 desde el sector TEIC: el Big Data禄

La Facultad de Ingenier铆a de la Universidad de Deusto en colaboraci贸n con Gaia organiza una jornada dirigida a profesionales en torno a la Industria 4.0 y el聽 Big Data.

La evoluci贸n operativa y t茅cnica de los sectores industriales y de servicios va a requerir de nuevas herramientas, como consecuencia de la聽 transformaci贸n digital de las organizaciones. Este cambio requiere, por parte de los profesionales, de una inmersi贸n en conceptos, conocimiento y tecnolog铆a que puede reforzar la trayectoria profesional de los trabajadores y/o generar nuevas oportunidades de empleo para j贸venes y profesionales.

Objetivos generales

  • Compartir las previsiones de evoluci贸n operativa y t茅cnica que van a experimentar los sectores industriales, y otras actividades de servicios conexas, como consecuencia del desarrollo de la transformaci贸n digital de las organizaciones.
  • Poner al alcance de los asistentes conceptos y casos aplicados de empresas en el desarrollo de actividades 4.0 en sus tres fases: preproducci贸n, producci贸n o postproducci贸n.

Objetivos espec铆ficos

  • Reflexionar sobre iniciativas que refuercen las competencias de los profesionales ante este nuevo escenario.
  • Reflexionar sobre las oportunidades de desarrollar nuevos servicios gracias a la implantaci贸n de las TEIC en la industria.
  • Ofrecer herramientas y soluciones para el desarrollo profesional en la nueva sociedad digitalizada.
  • Entender las oportunidades que abre este paradigma del Big Data a la industria en el Pa铆s Vasco como en el desarrollo de la estrategia industria 4.0.

 

Programa

09:45 聽聽聽 Inscripci贸n y Registro (Free/ Gratuita)

10:00 聽聽 Presentaci贸n de la jornada y avance de las oportunidades

  • Alex Ray贸n, Vicedecano de Relaciones Externas y Formaci贸n Continua de la Facultad de聽 Ingenier铆a y Director Programa Big Data en Donostia 鈥 San Sebasti谩n y Business Intelligence
  • Tom谩s Iriondo, Director General de Gaia. Presentaci贸n de Oportunidades en la Industria 4.0 desde el Sector TEIC

10:35 聽聽 Mesa Redonda y Debate

  • Alex Ray贸n, Vicedecano de Relaciones Externas y Formaci贸n Continua de la Facultad de聽 Ingenier铆a y director Programa Big Data en Donostia 鈥 San Sebasti谩n y Business Intelligence 鈥 Moderador
  • Gorka Esnal, Nem Solutions
  • Pablo Garc铆a Bringas, Director DeustoTech
  • Fernando S谩enz, Savvy Data Systems
  • Mikel Lorente, Inform谩tica 68, S.A.

11:30 聽聽聽 Finalizaci贸n de la Jornada

11.30聽聽聽聽 Caf茅 Networking

Inscripci贸n y Registro

La participaci贸n en esta jornada es gratuita, si bien dado el aforo limitado del espacio rogamosconfirmaci贸n de asistencia a trav茅s del siguiente enlace

Para cualquier consulta o duda sobre la sesi贸n pueden contactar con nosotros en el correo: 聽formacion.ingenieria@deusto.es聽o en el tel茅fono: 94 413 92 08

Universidad de Deusto Donostia (Fuente: http://deustoemprende.deusto.es/lets-discover-innogune/)
Universidad de Deusto Donostia (Fuente: http://deustoemprende.deusto.es/lets-discover-innogune/)

Entrevistamos a Nagore de los R铆os, profesora de nuestro Programa de Big Data y Experto en Comunicaci贸n y Datos

La comunicaci贸n corporativa ya tiene claro que la mejor manera de llegar a sus receptores es con la caracterizaci贸n y eso s贸lo se consigue a trav茅s del Big Data鈥 (Nagore de los R铆os)

NagoreDeLosRios

Nagore de los R铆os participar谩 en nuestro聽Programa en Big Data y Business Intelligence聽 y Programa Experto en An谩lisis, Investigaci贸n y Comunicaci贸n de Datos que impulsa la Universidad de Deusto. Fundadora de Irekia, portal de Gobierno Abierto del Gobierno Vasco, y consultora Senior del Banco Mundial en iniciativas de Comunicaci贸n y Open Data, acercar谩 su experiencia en el 谩mbito del Big Data y otras cuestiones vinculadas con la comunicaci贸n y el Business Inteligence. Para Nagore de los R铆os, la complejidad del 谩mbito comunicativo en la actualidad, cuando se incorpora el Big Data, hace necesario el uso de metodolog铆as, como Outreach Tool, para dise帽ar estrategias y planes de comunicaci贸n. Participar谩 en el m贸dulo M3.1 de nuestro Programa de Big Data, en colaboraci贸n con M陋 Luz Guenaga y Alex Ray贸n, en las sesiones de Open Data y visualizaci贸n de datos.

Periodista de formaci贸n, consultora en Comunicaci贸n, experta en Open Data, 驴cu谩l es tu aportaci贸n al Programa en Big Data y Business Intelligence?

Tanto el Open Data como la comunicaci贸n est谩n muy ligados a los Datos. El Open Data porque en s铆 mismos son fuentes de datos que cualquiera puede extraer y con ello enriquecer su propio Big Data, cruzando sus datos con los Open Data, lo que supone aplicar el Business Intelligence de una forma mucho m谩s enriquecida y adem谩s de manera gratuita. Es la materia prima m谩s barata y accesible que alcanza gran valor cuando se cruza con otros datos bajo las preguntas adecuadas.聽

Y cuando hablamos de comunicaci贸n, en primer lugar, los datos son la primera y mejor fuente de informaci贸n, la m谩s fiable, la que nos aporta el mejor conocimiento, por lo que es clave realizar buenas preguntas a los datos para que nos ofrezcan las respuestas que deseamos conocer. En segundo lugar porque para comunicar es muy importante asegurarnos de que no generamos ruido, de que el destinatario est谩 receptivo a nuestro mensaje y es el destinatario acertado. De este modo, el Big Data se utiliza en dos momentos claves de la comunicaci贸n, el primero de ellos a la hora de hipersegmentar a los destinatarios, saber lo que desean o necesitan escuchar y en segundo lugar a la hora de vincular los mensajes y segmentarlos de la misma manera. Muchas veces queremos comunicar demasiadas cosas a todas las personas y eso no es eficaz. Si a la Comunicaci贸n le aplicamos las t茅cnicas de Business Intelligence y utilizamos bien el Big Data podemos obtener la respuesta exacta de quien es el que necesita recibir un determinado mensaje, y qu茅 mensaje es el m谩s adecuado.

Y por 煤ltimo el Big Data est谩 muy ligado al Marketing y a la Comunicaci贸n sobre todo a la hora de conocer los resultados, establecer los indicadores, extraer informaci贸n valiosa de las redes sociales y de lo que las personas y marcas est谩n hablando as铆 como observar los impactos que al emitir los mensajes somos capaces de producir o no en nuestros p煤blicos objetivos.

Cuando hablamos de comunicar, contamos con dos 谩mbitos, el del periodismo tradicional y la comunicaci贸n corporativa o institucional. 驴Qu茅 beneficios obtiene cada uno de ellos?

Ambos mundos est谩n despertando y entendiendo que los datos son la mejor fuente de informaci贸n posible. En el 谩mbito del periodismo se est谩n dando cuenta de que los datos no mienten y no tienen intenciones o est谩n condicionados, los periodistas empiezan a ver una ventaja no solo en la objetividad de sus informaciones sino tambi茅n en el acceso a las fuentes y en la rapidez para encontrar las respuestas y poder con ello contar las historias que los datos guardan.聽

En el 谩mbito de la comunicaci贸n corporativa tambi茅n se est谩n dando cuenta de que para llegar a sus receptores o clientes de forma m谩s directa la hipersegmentaci贸n es b谩sica y s贸lo se consigue a trav茅s del Big Data. Gracias al Big Data adem谩s pueden localizar a nuevos receptores que son p煤blico objetivo de las marcas o empresas, m谩s all谩 de los habituales medios de investigaci贸n sobre audiencias, que se centraban en los 煤ltimos a帽os en receptores que desde las redes sociales estaban dispuestos a escuchar los mensajes de la marca o los seguidores o fans que se consegu铆an por otras v铆as del marketing.聽

驴De qu茅 modo puede ayudar el Big Data a la comunicaci贸n de empresas e instituciones?

Con la aparici贸n de las redes sociales, las organizaciones encontraron una forma m谩s directa de llegar a su audiencia sin pasar por intermediarios, pero se encontraron con el problema de captar tr谩fico y atraerlas hasta sus perfiles o webs para poder hacer llegar sus mensajes. Gracias a la publicidad en internet que facilita la segmentaci贸n pudieron acotar a ese p煤blico pero segu铆an esperando a que fuesen los consumidores quienes, buscando productos similares o a trav茅s de palabras claves, acabasen en sus publicaciones o anuncios. Ahora con el Big Data hemos alcanzado ya el tercer nivel, y son las marcas las que por distintas v铆as recopilan informaci贸n de los consumidores, y utilizan el mejor canal para llegar a ellos.

Otra ventaja que encuentran ahora todas las organizaciones p煤blicas o privadas es que pueden cocrear mejor sus servicios con los destinatarios y usuarios finales. Ya no se basan en intuiciones o en evidencias o en encuestas o preguntas de satisfacci贸n donde los usuarios dec铆an que es lo que ellos mismos cre铆an que necesitaban o quer铆an (y digo cre铆an porque muchas veces pensamos que nos vamos a comportar de una cierta manera o vamos a tener unas necesidades concretas y luego la realidad es totalmente diferente). Los servicios y productos se pueden cocrear ahora de forma m谩s fehaciente, prediciendo el futuro y ofreciendo soluciones a lo que verdaderamente se va a consumir o necesitar

Pero para ello hace falta actuar con cierto m茅todo, por el volumen de informaci贸n que se maneja.

Si hablamos de comunicaci贸n en concreto, y queremos aplicar una estrategia y un plan de comunicaci贸n toda esa informaci贸n que el Big Data y el Business Inteligence nos ha aportado lo debemos canalizar y nos sirve de base para realizar una estrategia.聽Contar con una estrategia definida permite se帽alar objetivos y llegar a alcanzarlos, no perder la perspectiva, ser eficaz en el desarrollo de la ocupaci贸n correspondiente, no malgastar tiempo ni recursos, sobre todo en un mundo tan complejo como el presente. Y una vez determinada la estrategia es necesario un plan de acciones, porque el plan permite conocer de antemano qu茅 se pretende conseguir y c贸mo se piensa lograrlo.

Y para dise帽ar esa estrategia y el plan con el que se va a ejecutar, es necesaria una metodolog铆a. En este sentido, os recomiendo una metodolog铆a abierta y gratuita que se llama Outreachtool.com, que est谩 empezando a dar sus primeros pasos ahora.

驴Nos puedes explicar qu茅 es Outreach Tool, y que supone para la Comunicaci贸n corporativa e institucional en el 谩mbito del Big Data?

Se trata de una herramienta para generar estrategias y planes de comunicaci贸n efectivos de manera abierta, sencilla, intuitiva y 谩gil. Est谩 publicada bajo la licencia Creative Commons y se conforma por una metodolog铆a y una tabla din谩mica, que se pueden descargar gratuitamente. Se desarrolla en tres fases y se resuelve en un calendario de acciones para desarrollar la estrategia que se genera con la metodolog铆a.

A grandes rasgos (porque la metodolog铆a es m谩s completa) La primera fase gira en torno a la empresa, instituci贸n, marca personal para la que se prepara la estrategia. La segunda fase analiza el conjunto de receptores a los que se dirige el plan, con una profunda hipersegmentaci贸n de destinatarios. Porque no les interesa lo mismo a unos destinatarios que a otros, ni se quiere conseguir lo mismo de todos ellos. Esto marcar谩 tambi茅n lo que se va a comunicar, que se analiza en la tercera fase, cuando se concreta el qu茅, el c贸mo, el con qu茅 y el cu谩ndo comunicar.

Nuestro empe帽o con Outreach Tool ha sido obtener un mecanismo f谩cil de comprender y aplicar que, no obstante, no se desvirt煤e al simplificar en demas铆a el complejo entramado de claves que afectan a la comunicaci贸n. Buscamos que no se escape ning煤n detalle, que no caiga en la improvisaci贸n ninguna parte esencial de una buena estrategia de comunicaci贸n, pero que, al tiempo, no te resulte un trabajo farragoso ni tedioso.

驴Y c贸mo interviene el Big Data en Outreach Tool?

Para realizar cualquier estrategia es imprescindible poseer informaci贸n que nos indique que caminos tomar. Se puede trabajar con intuiciones, como hasta ahora se desarrollaban los planes de comunicaci贸n. Tambi茅n con la recogida 鈥渕anual鈥 de informaci贸n con entrevistas, estudios, an谩lisis, encuestas鈥 Pero si esa informaci贸n es obtenida a trav茅s del Big Data tendr谩 un grado de acierto mayor. Y, por supuesto, con la combinaci贸n de las tres v铆as, el resultado ser谩 todav铆a mejor.

Paradigma tiempo real para sistemas Big Data (II)

(venimos de una serie de un art铆culo introductorio a los tres paradigmas, y de uno anterior hablando del paradigma batch)

Dec铆amos en el art铆culo anterior, que a la hora de procesar grandes vol煤menes de datos existen dos principales enfoques: procesar una gran cantidad de datos por lotes o bien hacerlo, en peque帽os fragmentos, y en 芦tiempo real禄. Parece, as铆, bastante intuitivo pensar cu谩l es la idea del paradigma en tiempo real que trataremos en este art铆culo.

Este enfoque de procesamiento y an谩lisis de datos se asienta sobre la idea de implementar un modelo de flujo de datos en el que los datos fluyen constantemente a trav茅s de una serie de componentes que integran el sistema de Big Data que se est茅 implatando. Por ello, se le como como procesamiento 芦streaming禄 o de flujo. As铆, en tiempos muy peque帽os, procesamos de manera anal铆tica parte de la totalidad de los datos. Y, con estas caracter铆sticas,聽se superan muchas de las limitaciones del modelo batch.

Por estas caracter铆sticas, es importante que no entendamos este paradigma como la soluci贸n para聽analizar un conjunto de grandes datos. Por ello, no presentan esa capacidad, salvo excepciones. Por otro lado,聽una cosa es denominarlo 芦tiempo real禄 y otra es realmente pensar que esto se va a producir en veradero tiempo tiempo.聽Las limitaciones聽aparecen por:

  • Se debe disponer de suficiente memoria聽 para almacenar entradas de datos en cola. F铆jense en la diferencia con el paradigma batch, donde聽los procesos de Map y Reduce podr铆an聽ser algo lentos, dado que escrib铆an聽en disco entre las 聽diferentes fases.
  • La tasa de productividad del sistema deber铆a ser igual o m谩s r谩pida a la tasa de entrada de datos. Es decir, que la capacidad de procesamiento del sistema sea m谩s 谩gil y eficiente que la propia ingesta de datos. Esto, de nuevo, limita bastante la capacidad de dotar de 芦instantaneidad al sistema禄.
Plataforma de anal铆tica Big Data en tiempo real (Fuente: https://infocus.emc.com/wp-content/uploads/sites/8/2013/02/Real-time-Analytic-Platforms-Enable-New-Value-Creation-Opportunities.png)
Plataforma de anal铆tica Big Data en tiempo real (Fuente: https://infocus.emc.com/wp-content/uploads/sites/8/2013/02/Real-time-Analytic-Platforms-Enable-New-Value-Creation-Opportunities.png)

Uno de los principales objetivos de esta nueva arquitectura es desacoplar el uso que se hac铆a de Hadoop MapReduce para dar cabida a otros modelos de computaci贸n en paralelo como pueden ser:

  • MPI (Message Passing Interface):聽est谩ndar聽empleado en la programaci贸n concurrente para la sincronizaci贸n de procesos ante la existencia de m煤ltiples procesadores.
  • Spark:聽plataforma desarrollada en Scala para el an谩lisis avanzado y eficiente frente a las limitaciones de Hadoop. Tiene la habilidad de mantener todo en memoria, lo que le da ratios de hasta 100 veces mayor rapidez frente a MapReduce.聽Tiene un framework integrado para implementar an谩lisis avanzados. Tanto Cloudera, como Hortonworks, lo utilizan.

Y, con estos nuevos modelos, como hemos visto a lo largo de esta corta pero intensa historia del Big Data, aparecen una serie de tecnolog铆as y herramientas que permiten implementar y dar sentido a todo este funcionamiento:

  • Flume: herramienta para la ingesta de datos en entornos de tiempo real. Tiene tres componentes principales: Source (fuente de datos), Channel (el canal por el que se tratar谩n los datos) y Sink (persistencia de los datos). Para entornos de exigencias en t茅rminos de velocidad de respuesta, es una muy buena alternativa a herramientas ETL tradicionales.
Flume (Fuente: http://blog.cloudera.com/wp-content/uploads/sites/8/2012/10/fig.png)
Flume (Fuente: http://blog.cloudera.com/wp-content/uploads/sites/8/2012/10/fig.png)
  • Kafka: sistema de almacenamiento distribuido y replicado. Muy r谩pido y 谩gil en lecturas y escrituras. Funciona como un servicio de mensajer铆a y fue creado por Linkedin para responder a sus necesidades (por eso insisto tanto en que nunca estar铆amos hablando de 芦Big Data禄 sin las herramientas que Internet y sus grandes plataformas ha tra铆do). Unifica procesamiento OFF聽y ON, por lo que suma las ventajas de ambos sistemas (batch y real time). Funciona como si fuera un cluster.
Apache Kafka (Fuente: https://unpocodejava.files.wordpress.com/2012/12/image0019.jpg?w=780)
Apache Kafka (Fuente: https://unpocodejava.files.wordpress.com/2012/12/image0019.jpg?w=780)
  • Storm: 聽sistema de computaci贸n distribuido, por lo que se emplea en la etapa de an谩lisis de datos (de la cadena de valor de un proyecto de Big Data). Se define como un sistema de procesamiento de eventos complejos (Complex Event Processing, CEP), lo que le hace ideal para responder a sistemas en los que los datos llegan de manera repentina pero continua. Por ejemplo, en herramientas tan habituales para nosotros como WhatsApp, Facebook o Twitter, as铆 como herramientas como sensores (ante la ocurrencia de un evento) o un servicio聽financiero que podamos ejecutar en cualquier momento.

Vistas estas tres tecnolog铆as, queda claro que la arquitectura resultante de un proyecto de tiempo real quedar铆a compuesto por聽Flume (ingesta de datos de diversas fuentes) –>聽Kafka (encolamos y almacenamos) –> Storm (analizamos).

Fuente: http://www.slideshare.net/Datadopter/the-three-generations-of-big-data-processing
Fuente: http://www.slideshare.net/Datadopter/the-three-generations-of-big-data-processing

Vistas todas estas caracter铆sticas, podemos concluir que para proyectos donde el 芦tama帽o禄 sea el *verdadero* problema, el enfoque Batch ser谩 el bueno. Cuando el 芦problema禄 sea la velocidad, el enfoque en tiempo real, es la soluci贸n a adoptar.

(continuar谩)

Oh my Goat!

(Art铆culo escrito por Miren Guti茅rrez, directora del Programa聽Experto en An谩lisis, Investigaci贸n y Comunicaci贸n de Datos de la Universidad de Deusto)

El nuevo indicador de pobreza se visualiza con 鈥渕itras鈥 y 鈥渃oronas鈥: cuanto m谩s elevada la mitra, m谩s pobre el pa铆s (ver LIC o low income countries), cuanto m谩s agudos los picos de la corona, m谩s rico (ver HIC o high income countries).

hic lic

驴Es un nuevo indicador de Naciones Unidas? No, es un trabajo de un alumno del Programa Experto An谩lisis, investigaci贸n y comunicaci贸n de datos鈥 de Deusto.聽 Resulta que la presencia de cabras en un pa铆s est谩 directamente relacionada con la pobreza.

Con esta premisa, Santiago L贸pez se聽 propuso 鈥descubrir la verdad sobre la idea generalizada de que la cabra es un producto de regiones sin recursos o en desarrollo, o es una imagen transmitida por los films en los que se muestran regiones pobres con un ni帽o pastoreando cabras. Ya que alternativamente las modernas tendencias culinarias y gastron贸micas han a帽adido al conocido asado de cabrito, los exquisitos beneficios de la leche de cabra y de su delicioso queso de cabra鈥.

Result贸, adem谩s, que en la historia, conforme los pa铆ses van desarroll谩ndose, desde 1961 hasta 2013, el ganado caprino va desapareciendo (ver siguiente gr谩fico).

驴C贸mo se ha hecho este estudio? Primero, los datos se obtienen de diversas fuentes oficiales y no oficiales, con m茅todos tan dispares como descarga de archivos xls y csv de fuentes de datos Open Data y con formaci贸n de datos mediante t茅cnicas y herramientas de scraping de archivos pdf y p谩ginas web. Y homogenizando datos de Excel con Google Refine, verificando la informaci贸n, cantidades, superficies, etc., seleccionando a帽os y realizando comparaciones de la hip贸tesis en series anuales para verificar su coherencia y evoluci贸n a trav茅s de los a帽os.

Pero lo m谩s interesante es la idea y la forma en que se ha comunicado.

Si te apetece aprender estas t茅cnicas, pero sobre todo c贸mo encontrar historias en los datos y comunicarlas, ap煤ntate al Programa Experto 鈥An谩lisis, investigaci贸n y comunicaci贸n de datos鈥 de Deusto.

Paradigma batch para sistemas Big Data (I)

(venimos de un art铆culo introductorio a los tres paradigmas)

Cuando hablamos del verdadero momento en el que podemos considerar nace聽esta 芦era del Big Data禄, comentamos que se puede considerar el desarrollo de MapReduce y Hadoop como las primeras 芦tecnolog铆as Big Data禄.聽Estas tecnolog铆as se centraban en un enfoque de Batch Processing. Es decir, el objetivo era acumular todos los datos que se pudieran, procesarlos y producir resultados que se 芦empaquetaban禄 por lotes.

Con este enfoque, Hadoop ha sido la herramienta m谩s empleada. Es una herramienta realmente buena para almacenar enormes cantidades de datos y luego poder escalarlos horizontalmente mientras vamos聽a帽adiendo nodos en nuestro cl煤ster de m谩quinas.

Big Data Batch Processing (Fuente: http://www.datasciencecentral.com/profiles/blogs/batch-vs-real-time-data-processing)
Big Data Batch Processing (Fuente: http://www.datasciencecentral.com/profiles/blogs/batch-vs-real-time-data-processing)

Como se puede apreciar en la imagen, el 芦problema禄 que aparece en este enfoque es que el retraso en tiempo que introduce disponer de un ETL que carga los datos para su procesamiento, no ser谩 tan 谩gil como hacerlo de manera continua con un enfoque de tiempo real.聽El procesamiento en trabajos batch de Hadoop MapReduce es el que domina en este enfoque. Y lo hace, apoy谩ndose en todo momento de un ETL, de los que ya hablamos en este blog.

Hasta la fecha la gran mayor铆a de las organizaciones聽han empleado este paradigma 芦Batch禄. No era necesaria mayor sofisticaci贸n. Sin embargo, como ya comentamos anteriormente, existen聽exigencias mayores. Los datos, en muchas ocasiones, deben ser procesados en tiempo real, permitiendo as铆 a la organizaci贸n tomar decisiones inmediatamente. Esas organizaciones en las que la diferencia entre segundos y minutos s铆 es cr铆tica.

Hadoop, en los 煤ltimos tiempos, es consciente de 芦esta econom铆a de tiempo real禄 en la que nos hemos instalado. Por ello, ha mejorado bastante su capacidad de gesti贸n. Sin embargo, todav铆a es considerado por muchos una soluci贸n demasiado r铆gida para algunas funciones. Por ello, hoy en d铆a, 芦solo禄 es considerado el ideal en casos como:

  • No necesita un c谩lculo con una periodicidad alta (una vez al d铆a, una vez al de X horas, etc.)
  • C谩lculos que se deban ejecutar solo a final de mes (facturas de una gran organizaci贸n, asientos contables, arqueos de caja, etc.)
  • Generaci贸n de informes con una periodicidad baja.
  • etc.

Como el tema no es tan sencillo como en un art铆culo de este tipo podamos describir, en los 煤ltimos a帽os han nacido una serie de herramientas y tecnolog铆as alrededor de Hadoop para ayudar en esa tarea de analizar grandes cantidades de datos. Para analizar las mismas -a pesar de que cada una de ellas da para un art铆culo por s铆 sola-, lo descomponemos en las cuatro etapas de la cadena de valor de un proyecto de Big Data:

1) Ingesta de datos

Destacan tecnolog铆as como:

  • Flume:聽recolectar, agregar y mover grandes cantidades de datos desde diferentes fuentes a un data store centralizado.
  • Comandos HDFS: utilizar los comandos propios de HDFS para trabajar con los datos gestionados en el ecosistema de Hadoop.
  • Sqoop:聽permitir la transferencia de informaci贸n entre Hadoop y los grandes almacenes de datos estructurados (MySQL, PostgreSQL, Oracle, SQL Server,聽DB2, etc.)

2) Procesamiento de datos聽

Destacan tecnolog铆as como:

  • MapReduce: del que ya hablamos, as铆 que no me extiendo.
  • Hive: framework creado originalmente por Facebook para trabajar con el sistemas de ficheros distribuidos de Hadoop (HDFS). El objetivo no era otro que facilitar el trabajo, dado que a trav茅s de sus querys SQL (HiveQL) podemos lanzar consultas que luego se traducen a trabajos MapReduce. Dado que trabajar con este 煤ltimo resultaba laborioso, surgi贸 como una forma de facilitar dicha labor.
  • Pig: herramienta que facilta el an谩lisis de grandes vol煤menes de datos a trav茅s de un lenguaje de alto nivel. Su estructura permite la paralelizaci贸n, que hace a煤n m谩s eficiente el procesamiento de vol煤menes de datos, as铆 como la infraestructura necesaria para ello.
  • Cascading:聽crear y ejecutar聽flujos de trabajo de procesamiento de datos en cl煤steres Hadoop usando cualquier lenguaje basado en JVM (la m谩quina virtual de Java). De nuevo, el objetivo es quitar la complejidad de trabajar con MapReduce y sus trabajos. Es muy empleado en entornos complejos como la bioinform谩tica, algoritmos de Machine Learning, an谩lisis predictivo, Web Mining y herramientas聽ETL.
  • Spark: facilita enormemente el desarrollo de programas de uso masivo de datos.聽Creado en la Universidad de Berkeley, ha sido considerado el primer software de c贸digo abierto que hace la programaci贸n distribuida聽accesible y m谩s f谩cil para 芦m谩s p煤blicos禄 que los muy especializados. De nuevo, aporta facilidad frente a MapReduce.

3) Almacenamiento de datos

Destacan tecnolog铆as como:

  • HDFS: sistema de archivos de un cluster Hadoop que funciona de manera m谩s eficiente聽con聽un聽n煤mero reducido de archivos de datos聽de gran volumen, que con una cantidad superior de archivos de datos m谩s peque帽os.
  • HBase:聽permite聽manejar todos los聽datos y tenerlos distribuidos a trav茅s de lo que denominan regiones, una partici贸n tipo Nodo de Hadoop que se guarda en un servidor. La regi贸n aleatoria en la que se guardan los datos de una tabla es decidida,聽d谩ndole un tama帽o fijo a partir del cual la tabla debe distribuirse a trav茅s de las regiones. Aporta, as铆, eficiencia en el trabajo de almacenamiento de datos.

4) Servicio de datos

En esta 煤ltima etapa, en realidad, no es que destaque una tecnolog铆a o herramienta, sino que destacar铆a el 芦para qu茅禄 se ha hecho todo lo anterior. Es decir, qu茅 podemos ofrecer/servir una vez que los datos han sido procesados y puestos a disposici贸n del proyecto de Big Data.

Seguiremos esta serie hablando del enfoque de 芦tiempo real禄, y haciendo una comparaci贸n con los resultados que ofrece este paradigma 芦batch禄.