C贸mo los metadatos nos pueden ayudar a predecir tu trabajo gracias al Big Data

El pasado noviembre, salt贸 a la palestra del 芦mundo de los datos禄 una noticia que en Espa帽a ha pasado algo desapercibida (al menos en los 聽medios generalistas). No obstante, no creo que sus implicaciones sean menores. La agencia de espionaje de Canad谩, la CSIS, hab铆a estado recolectando metadatos (datos generados en el uso de medios digitales como el correo electr贸nico, los mapas de geolocalizaci贸n, etc.) durante 10 a帽os.

El tribunal supremo de Canad谩, instruyendo la causa, decret贸 -como no podr铆a ser de otro modo- que esto era ilegal. Por m谩s que tuviera un fin de eventuales espionajes o amenazas por terrorismo, la seguridad y privacidad del ciudadano por delante de todo.

Estos metadatos, para que se hagan ustedes a la idea, incluyen desde n煤meros de tel茅fono, localizaciones, direcciones de email, duraciones de las llamadas o comunicaciones, etc. Es decir, datos asociados a acciones, no el contenido de las mismas en s铆 (las llamadas y sus contenidos… en cuyo caso estar铆amos hablando de algo a煤n m谩s grave). El CSIS quer铆a esto porque en 2006 puso en marcha un programa que bautiz贸 como 芦Operational Data Analysis Centre禄 para producir informaci贸n inteligente que ayudase a la toma de decisiones estrat茅gicas en favor de la seguridad del pa铆s.

Esta noticia, me result贸 bastante ilustrativa porque los metadatos (los grandes olvidados, sobre los que he escrito en alguna ocasi贸n a colaci贸n de whatsapp y Facebook), pueden revelar mucha informaci贸n sobre nosotros mismos. C贸mo nos comportamos, qu茅 y por qu茅 decidimos qu茅, c贸mo聽tomamos las decisiones, etc. En definitiva, un mont贸n de informaci贸n personal, que nunca podemos olvidar. Como ha hecho el tribunal supremo de justicia canadiense, por m谩s que se trate de una agencia p煤blica la que ha cometido el delito.

Pues bien, me acordaba de esta noticia al leer que un equipo de investigadores de la empresa de telecomunicaciones noruega Telenor, junto con el MIT Media Lab y la organizaci贸n sin 谩nimo de lucro Flowminder, han encontrado un m茅todo para, partiendo de metadatos, predecir el estado ocupacional/profesional de una persona (desempleado o a qu茅 se dedica). Pod茅is leer el art铆culo aqu铆.

Estimating individual employment status using mobile phone network data (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Estimating individual employment status using mobile phone network data (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)

El paper explica maravillosamente el modelo predictivo que han conformado. La variable dependiente, no era otra que una variable categ贸rica de 18 p貌sibles estados (uno por cada profesi贸n, desde estudiante, empleado/ocupado y tipos de ocupaci贸n). 驴Las independientes? (es decir, las predictoras); pues los metadatos que dec铆amos antes: un total de 160 caracter铆sticas o variables (casi nada), tomadas desde dispositivos m贸viles y categorizadas en tres categor铆as: financieras, de movilidad y sociales. Para qu茅 explicarlo, si en el paper sale una tabla con todas esas caracter铆sticas:

Los metadatos de nuestros dispositivos m贸viles (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Los metadatos de nuestros dispositivos m贸viles (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)

Todos estos datos generamos desde nuestro dispositivo m贸vil. Que, como dec铆amos,聽ayudan a predecir, entre muchas cosas, una cuesti贸n tan importante como nuestro estado de ocupaci贸n. Para ello, el equipo investigador ha comparado diferentes modelos predictivos (GBM, Random Forest, SVM, kNN, redes neuronales, etc.). Tras estudiar los rendimientos de cada modelo predictivo, se quedaron con una arquitectura de red neuronal usando un 75/25% de training/testing, siendo la precisi贸n del modelo, de media, un total de un 67,5%.聽Hay profesiones donde es m谩s f谩cil acertar y en otras m谩s dif铆cil. Ser谩 que algunos nos comportamos de manera m谩s predecible y otros de menos 馃檪

Precisi贸n de los modelos predictivos para predecir ocupaciones (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Precisi贸n de los modelos predictivos para predecir ocupaciones (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)

驴Qu茅 variables son 聽las m谩s cr铆ticas? Es decir, las que 芦mejor predicen禄 una profesi贸n. Nada menos que la聽la torre de telecomunicaciones a las que m谩s se conecta una persona (latitud y longitud), el n煤mero de lugares visitados (por frecuencia) y el radio de viaje (c贸mo se aleja de su hogar, la celda de conexi贸n m谩s cercana y que m谩s frecuenta -salvo que durmamos mucho en hoteles :-)-). 驴Alguien se extra帽a entonces por qu茅 Google Maps es gratuito? Lo de siempre, introduzcan en el navegador maps.google.com/locationhistory. En la siguiente imagen, representan la relaci贸n de estas variables y c贸mo ayudan a predecir la ocupaci贸n:

Relaci贸n entre variables predictoras y ocupaciones (Fuente: https://arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Relaci贸n entre variables predictoras y ocupaciones (Fuente: https://arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Profesiones y variables predictoras (Fuente: http://motherboard.vice.com/read/how-metadata-can-reveal-what-your-job-is)
Profesiones y variables predictoras (Fuente: http://motherboard.vice.com/read/how-metadata-can-reveal-what-your-job-is)

Este modelo de deep learning (aprendizaje cognitivo o profundo), este tipo de software que est谩 revolucionando tantos procesos, dado que se entrenan a s铆 solos para encontrar patrones en grandes聽cantidades de datos, est谩 en boca de muchos ahora. Su potencial es tan grande, que permitir que una agencia p煤blica federal los emplee para cosas como las que aqu铆 descritas, me parece聽preocupante.

Y ahora ustedes se estar谩n preguntando de d贸nde habr谩n estos investigadores obtenido los datos.聽Telenor 馃檪 Es decir, la empresa de telecomunicaciones que, obviamente de manera anonimizada, han procesado hasta 76.000聽conexiones de dispositivos m贸viles a sus torres de comunicaciones. Y de ah铆 han salido estos metadatos. Un proyecto, solo basado en esos datos, pero que imag铆nense lo que puede mejorar si lo integramos con otras fuentes de datos. Modelos a煤n m谩s聽precisos a nivel de predicci贸n. Un proyecto de Big Data en toda regla.

Como ven, estos proyectos de Big Data, tienen mucho potencial. Todo est谩 por hacer y aprender. En nuestros programas de Big Data, adem谩s de ver los diferentes modelos predictivos, tambi茅n aprendemos a integrar todas esas fuentes de datos, mejorar su calidad en un modelo de datos 煤nico y unificado, as铆 como a montar infraestructuras de Big Data que optimicen estos procesamientos.

La problematizaci贸n de los modelos Media en su reconversi贸n industrial: el dato en el n煤cleo de la reformulaci贸n de su valor

(art铆culo escrito por Jon Goikoetxea Goiri, soci贸logo y alumno de la primera promoci贸n del Programa de Big Data y Business Intelligence, consultor en Marketing estrat茅gico, anal铆tico e Investigaci贸n de Mercados y聽exdirector de marketing de DEIA y GRUPO NOTICIAS -谩rea de Estrategia y Medios Digitales- (2009-2016).

*********************************

La paradoja fundamental de la situaci贸n actual de los medios de comunicaci贸n -al menos desde el punto de vista de sus modelos de negocio– reside en que al desarrollo de la demanda no le acompa帽a simult谩neamente una evoluci贸n positiva de sus modelos de negocio. Nunca anteriormente se consumi贸 comunicaci贸n e informaci贸n en semejante medida. Y, sin embargo, cada vez resulta m谩s complicado hallar un solo medio de comunicaci贸n con sus cifras de negocio siquiera en equilibrio. Y ello a nivel mundial.

En los 煤ltimos decenios, y de manera significativamente m谩s acelerada en los 煤ltimos a帽os, la聽 transformaci贸n de los modelos de negocio de los medios de comunicaci贸n ha abarcado desde la reestructuraci贸n de la propuesta de valor de producto/servicio hasta el significado del consumo para el usuario, lector, espectador, oyente. El cambio en las pautas, la distribuci贸n, las 聽configuraciones de la demanda y, last but not least, en la esencia misma del 鈥榪u茅鈥 comunicativo: los anta帽o medios de informaci贸n han devenido gen茅ricos medios de comunicaci贸n. Los peri贸dicos en ampl铆simas ediciones digitales. Las televisiones, en una multiplicidad de canales targetizados, formatos multiplataforma de emisi贸n y con la incorporaci贸n del consumo diferido. Las radios, en la amplificaci贸n de sus programaciones a trav茅s de podcast y reemisiones a la carta.

La digitalizaci贸n de la creaci贸n y distribuci贸n de contenidos audiovisuales ha convertido a la mera captaci贸n de la atenci贸n en el campo de batalla, en la sustancia, la naturaleza, en la materia prima del modelo Media actual. Ello ha afectado de manera definitiva a los soportes comunicativos tradicionales, y significadamente a la prensa al tratarse del 煤nico medio de pago, frente a radio, televisi贸n y, actualmente, los medios digitales de orientaci贸n generalista.

Pero la digitalizaci贸n tambi茅n ha incluido a la generaci贸n de datos -al dato mismo- en la f贸rmula misma para aproximarse a la reformulaci贸n de su valor, para aprehender qu茅 est谩 ocurriendo con el sentido y las pautas de consumo de Medios. Para adaptar, expresado simplificadamente, la estructura de la oferta de medios a las nuevas configuraciones de la demanda, de la audiencia, del p煤blico. Al fin y al cabo, la digitalizaci贸n es dato. En s铆 misma.

Comprender y dotar de sentido a lo que est谩 ocurriendo es el pilar mismo de la reconversi贸n industrial en la que se hallan los medios de comunicaci贸n. Ubicar el dato en el n煤cleo, la condici贸n de posibilidad misma para la reformulaci贸n de su valor, o para ahondar en sus condiciones de monetizaci贸n, si se prefiere el apremio.

Ese tr谩nsito traum谩tico de lo anal贸gico a lo digital, ese salto abismal que puede metaforizarse en la conversi贸n del m贸dulo de prensa tradicional en herramientas de gesti贸n de campa帽as de publicidad program谩tica personalizada ha supuesto tambi茅n la transformaci贸n de los paradigmas de an谩lisis impactando directamente sobre las segmentaciones del marketing como base para la toma de decisiones. La complejidad del consumo de medios actual requiere de paradigmas anal铆ticos a esa altura.

La tradicional estructura modular de la Prensa impresa camina dando pasos hacia ecosistemas de compra program谩tica publicitaria, en entornos digitales (Fuente: IAB)
La tradicional estructura modular de la Prensa impresa camina dando pasos hacia ecosistemas de compra program谩tica publicitaria, en entornos digitales (Fuente: IAB)

Y todo ello, por 煤ltimo, en un h谩bitat en el que el volumen, la variedad, la diversidad, y la velocidad de generaci贸n de datos de consumo e interacci贸n de los usuarios crece extraordinariamente, muy probablemente por encima de la capacidad de empresas y organizaciones -de los medios de comunicaci贸n en su configuraci贸n actual- para organizarlos, dotarlos de un framework anal铆tico s贸lido, productivo y continuo y digerirlos con orientaci贸n de generaci贸n de valor de negocio.

Una 煤nica cuesti贸n es segura, entre todo: el dato estar谩 en el centro del futuro de los medios de comunicaci贸n. Conformar谩 el eje del cambio de paradigma que acompa帽ar谩 todo ello, desde la rutinaria perspectiva contenido-c茅ntrica a una usuario-c茅ntrica y dotada de esquemas de an谩lisis que trasciendan los marcos actuales de comprensi贸n del consumo de medios y contemplen algoritmos y modelizaciones de car谩cter m谩s avanzado y complejo. A la altura anal铆tica de lo que ocurre. El Big Data llama a las puertas del futuro de los medios de comunicaci贸n.

Tecnolog铆as de ingesta de datos en proyectos 芦Big Data禄 en tiempo real

Cuando hablamos de las etapas que compon铆an un proyecto de Big Data, y sus diferentes paradigmas para afrontarlo, una cuesti贸n que cit茅 fue la siguiente:

Si antes dec铆amos que un proyecto 鈥淏ig Data鈥 consta de cuatro etapas 鈥(1) Ingesti贸n; (2) Procesamiento; (3) Almacenamiento y (4) Servicio-, con este enfoque, nada m谩s ser 鈥渋ngestados鈥, son transferidos a su procesamiento. Esto, adem谩s, se hace de manera continua. En lugar de tener que procesar 鈥済randes cantidades鈥, son, en todo momento, procesadas 鈥減eque帽as cantidades鈥.

Hadoop, que marc贸聽un hito para procesar datos en batch, dejaba paso a Spark, como plataforma de referencia para el an谩lisis de grandes cantidades de datos en tiempo real. Y para que Spark聽traiga las ventajas que solemos citar (100 vez m谩s r谩pido聽en memoria y hasta 10 veces m谩s en disco que Hadoop y su paradigma MapReduce), necesitamos sistemas 谩giles de 芦alimentaci贸n de datos禄. Es decir, de ingesta de datos.

Es el proceso por el cual los datos聽que se obtienen en tiempo real van siendo capturados聽temporalmente para un posterior procesamiento. Ese momento 芦posterior禄 es pr谩cticamente instant谩neo a efectos de escala temporal.聽Esto se est谩 produciendo mucho, por ejemplo, en el mundo de los sensores y el聽 IoT (Internet of Things). No podemos lanzar alarmas en tiempo real si no contamos con una arquitectura como esta. Muchos sectores son ya los que est谩n migrando a estas arquitecturas de ingesta de datos en un mundo en tiempo real.

Y es que el 芦tiempo real禄, el streaming, comienza ya desde la etapa de ingesti贸n de datos. Tenemos que conectarnos a fuentes de datos en tiempo real, como dec铆amos, para permitir su procesamiento instant茅ano.聽En la era del Business Intelligence, e incluso en la era del聽芦Big Data batch禄, los ETL eran los que permit铆an hacer estas cosas. Hemos聽hablado ya de su importancia. Sin embargo, son herramientas que en tiempo real, no ofrecen el rendimiento esperado, por lo que necesitamos alternativas.

ETL vs Spark (fuente: http://image.slidesharecdn.com/k2ionstoica-151028153637-lva1-app6892/95/spark-summit-eu-2015-revolutionizing-big-data-in-the-enterprise-with-spark-10-638.jpg?cb=1469144488)
ETL vs Spark (fuente: http://image.slidesharecdn.com/k2ionstoica-151028153637-lva1-app6892/95/spark-summit-eu-2015-revolutionizing-big-data-in-the-enterprise-with-spark-10-638.jpg?cb=1469144488)

Estas son el tipo de cosas que permiten hacer聽Spark y Storm, cuyo paradigma en tiempo real ya comentamos en su d铆a. Aparecen, junto a ellos, una serie de tecnolog铆as y herramientas que permiten implementar y dar sentido a todo este funcionamiento:

  • Flume: herramienta para la ingesta de datos en entornos de tiempo real. Tiene tres componentes principales: Source (fuente de datos), Channel (el canal por el que se tratar谩n los datos) y Sink (persistencia de los datos). Para entornos de exigencias en t茅rminos de velocidad de respuesta, es una muy buena alternativa a herramientas ETL tradicionales.
  • Kafka: sistema de almacenamiento distribuido y replicado. Muy r谩pido y 谩gil en lecturas y escrituras. Funciona como un servicio de mensajer铆a y fue creado por Linkedin para responder a sus necesidades (por eso insisto tanto en que nunca estar铆amos hablando de 鈥淏ig Data鈥 sin las herramientas que Internet y sus grandes plataformas ha tra铆do). Unifica procesamiento OFF聽y ON, por lo que suma las ventajas de ambos sistemas (batch y real time). Es un聽sistema distribuido de colas,聽el m谩s conocido actualmente, pero existen otros como聽RabbitMQ, y soluciones en la cloud como AWS Kinesis.
  • Sistemas de procesamiento de logs,聽donde podemos encontrar tecnolog铆as como LogStash, Chukwa y Fluentd.

Con estas principales tecnolog铆as en el men煤, LogStash y Flume, se han convertido en las dos principales soluciones Open Source para聽lo que podr铆amos bautizar como 芦ETL en tiempo real禄. Es decir, para la necesidad de recoger datos en tiempo real. La ingesta de datos como etapa de un proyecto de Big Data.

Y, de este modo, nacen 芦packs tecnol贸gicos禄 alternativos al ETL como es EFK, acr贸nimo de Elastic Search + Flume + Kibana. Se trata de una plataforma para procesar datos en tiempo real, tanto estructurados como no estructurados. Todo ello, con tecnolog铆as Open Source, lo que podr铆a venir a animar a 聽muchas empresas que lean esta noticia, y entiendan el valor que tiene esto para sus seguras necesidades (cada vez m谩s) en tiempo real.

  • Elastic Search:聽motor de b煤squeda, orientado a documentos, basado en Apache Lucene.
  • Flume: ejcuci贸n de procesos de extracci贸n, transformaci贸n y carga de datos de manera eficiente.
  • Kibana: dashboards en tiempo real, procesando y aprovechando los datos en tiempo real indexados v铆a Elastich Search.

Con todo esto, quedar铆an esquemas tecnol贸gicamente muy enriquecidos y 煤tiles para necesidades de negocio como el que se presenta a continuaci贸n:

Proyectos Big Data en tiempo real (Fuente: http://www.slideshare.net/Stratio/meetup-es-efk)
Proyectos Big Data en tiempo real (Fuente: http://www.slideshare.net/Stratio/meetup-es-efk)

Como pod茅is apreciar, en estos ecosistemas, los ETL ya no cumplen la funci贸n que han venido desempe帽ando hist贸ricamente. Su rendimiento en tiempo real es realmente bajo. Por lo que tenemos que dar un paso m谩s all谩. E聽introducir nuevas tecnolog铆as de ingesti贸n de datos. Kakfa, Flume, Elastic Search, etc., son esas tecnolog铆as. Si tu empresa est谩 empezando a tener problemas con el datamart tradicional, o si la base de datos ya no da mucho m谩s de s铆, quiz谩s en este ecosistema tecnol贸gico tengamos la soluci贸n.

Nosotros, en nuestro Programa de Big Data, todo esto lo vemos durante 25 horas, montando una arquitectura en tiempo real que d茅 respuesta a las necesidades de empresas que cada vez necesitan m谩s esto. Las tecnolog铆as de ingesta de datos al servicio de las necesidades de negocios en tiempo real.

Del 芦Big Data禄 al 芦Data Capital禄: aprovechando el valor de los datos con un data lake

Hay dos grandes formas de entender esta era del Big Data: como una evoluci贸n del Business Intelligence -herramientas que extraen inteligencia de la informaci贸n de una compa帽铆a y sobre 茅sta elaboran algunas predicciones-, o como una disrupci贸n. La primera consideraci贸n, suele descartarla.

El Business Intelligence, se聽signific贸 en una 茅poca en la que eran los datawarehouse la norma. Es decir, grandes almacenes de datos, estructurados, con una administraci贸n r铆gida.聽No solo ya desde la 贸ptica del almacenamiento del dato es diferente su consideraci贸n, sino tambi茅n desde la mirada de procesamiento de datos. El BI ten铆a un marcado car谩cter descriptivo. En esta nueva era del Big Data, creo que la predicci贸n es la norma y lo que todo el mundo quiere hacer. Adelantarse al futuro, pero de una manera m谩s informada y evidenciada. Es decir, asent谩ndose en la mayor cantidad de informaci贸n posible.

Y esto, claro, como hemos comentado muchas veces, es m谩s posible que nunca antes en la historia, por la gran cantidad de datos existentes. Pero, son datos, que muchas veces, no podemos estructurar (la l贸gica seguida por los datawarehouse). Son datos, adem谩s, que muchas veces, no se pueden聽芦juntar禄 con otros; es mejor mantenerlos por separado, y luego ya tratar de juntarlos en tiempo de procesamiento para la extracci贸n de valor.

Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg
Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg

Esta l贸gica, va un paso m谩s all谩 dentro del paradigma del Big Data. Supone considerar el dato como otro activo m谩s. Es m谩s, supone considerar el dato como el activo m谩s cr铆tico de la organizaci贸n. Y as铆,聽disponer de un 芦data capital禄, como otro activo m谩s de la organizaci贸n, que permita ser luego capitalizado y activado para su puesta en valor en la organizaci贸n. Es decir, el almacenamiento en bruto de datos, puede ser interesante, sin mayor orden, estructura ni criterio de clasificaci贸n.

El problema es que en este momento, la mayor parte de las empresas (tanto grandes, medianas como peque帽as),聽est谩 a煤n en la fase inicial: recopilan la informaci贸n y la almacenan. Pero todav铆a no saben muy bien qu茅 se puede hacer con ella. Por ello mismo, ya hay algunos que聽empiezan a considerar que en este estad铆o, en el que todav铆a las organizaciones no saben muy bien qu茅 hacer, pero s铆 que disponen de datos, es fundametal articular una estrategia de almacenamiento de datos con sentido.

Y aqu铆, emerge con fuerza el concepto de 芦data lake禄. Como se puede ver en la siguiente representaci贸n gr谩fica, se trata de un repositorio de datos estructurados y no estructurados, sin ning煤n preprocesamiento, guardando los datos en bruto, y sin esquema. A los que venimos originariamente de la administraci贸n de bases de datos y sus esquemas r铆gidos, un concepto, un paradigma, sustantivamente diferente. Al carecer de esquema, a帽adir nuevos datos, ser谩 relativamente f谩cil.

Fuente: Microsoft
Fuente: Microsoft

Se trata, en definitiva, de proveer a las empresas de un mecanismo de聽almacenamiento de datos sin mayor compromiso. Ya veremos en qu茅 momento se nos ocurre qu茅 hacer. El problema que ven铆amos arrastrando, es que los sistemas de esquemas de datos,聽en muchas ocasiones, condicionaban luego lo que poder hacer con los datos. Porque ya representaban 芦algo禄.

Con esta explicaci贸n, se puede entender por qu茅 esta era del Big Data, es para m铆 un paso m谩s all谩 del Business Intelligence. En la era del BI, todos los datos que recog铆amos (estructurados y no estructurados), los orden谩bamos y clasific谩bamos seg煤n el esquema. En un data lake, tambi茅n recogemos todos los datos, pero no los alteramos, limpiamos o manipulamos. Su valor queda bruto, y ya veremos en su d铆a qu茅 hacer con ello.

Sin alterar la 芦materia prima禄 y dejarla en bruto, dejamos abierto el campo de explotaci贸n. Y estas opciones, tan prometedoras para muchas empresas, es lo que est谩 haciendo que cada vez m谩s empresas me pregunten por los data lakes. Es algo que para la capitalizaci贸n del dato dentro de las organizaciones, se alinea muy bien. Ya veremos alg煤n d铆a qu茅 preguntas hacerles a los datos. Todav铆a no lo sabemos, pero no nos importa. Sabemos que esos datos tendr谩n valor.

Por todo esto, ya hay muchos profesionales del Big Data que dicen de cambiar el paradigma ETL (Extract, Transform, Load, del que ya habl茅 aqu铆) por ELT (Extract, Load, Transform). Es decir, ya transformaremos despu茅s, no antes, lo que suele restringir mucha las opciones de lo que podremos hacer. Los data lakes, precisamente adoptan ese rol de almac茅n de datos 芦neutro禄, en el que no condicionamos luego lo que se podr谩 hacer. Y por eso, las herramientas ELT (que no son nuevas, por otro lado), tambi茅n pudieran vivir un renacimiento.

Para cerrar, una imagen muy representativa de la idea trasladada hoy.

Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/sites/8/2014/09/Data-lake-vs-Data-warehouse.jpg)
Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/sites/8/2014/09/Data-lake-vs-Data-warehouse.jpg)