Archivo de la etiqueta: deusto

Industria 4.0 y Big Data

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao

A pesar de su vida relativamente breve, el Big data está listo para optimizar la Industria 4.0. Algunas empresas están utilizando conjuntos de datos para mejorar y observar la producción, minimizar los errores de producción, gestionar los riesgos y optimizar la velocidad de montaje en la planta de producción. No sólo el Big Data puede ayudar a lograr una mayor eficiencia, sino que también puede conducir a un ahorro de costos en la línea de producción.

Mejoras en la cadena de suministros

A menudo se usa el Big Data para identificar, corregir y reducir los riesgos involucrados en la cadena de suministro. Procesos que incluyen la adquisición de materias primas, así como el almacenamiento y distribución de productos terminados presentan desafíos únicos que se pueden abordar a través del Big Data. Las cadenas de suministro más grandes y complejas serán más susceptibles que las estructuras más pequeñas, pero casi todas pueden beneficiarse de la gran recopilación y procesamiento de datos.

La cantidad de datos no es el único obstáculo a superar. Los fabricantes están ahora lidiando con más fuentes de datos y materiales que nunca. Los registros del centro de llamadas, el tráfico en línea, las reclamaciones de los clientes e incluso los mensajes en los medios sociales se utilizan para recopilar valiosos datos de los consumidores.

Aunque gran parte de esta información va actualmente a la cuneta, puede archivarse y utilizarse en el futuro para tomar decisiones de negocios, establecer objetivos organizacionales y mejorar el servicio al cliente.

Mejora en la comunicación

También se puede utilizar el Big Data para reforzar las comunicaciones entre los compañeros de trabajo, los consumidores e incluso sus máquinas de producción. Industrial Internet of Things (IIoT) ha generado una amplia red de dispositivos y equipos interconectados.

Tanto las materias primas como las piezas acabadas pueden ser etiquetadas con chips inteligentes RFID, que informan sobre su ubicación exacta y su estado físico en cualquier momento durante el proceso de producción o envío. Las máquinas de autodiagnóstico pueden evitar problemas adicionales y evitar lesiones personales mediante el apagado automático para mantenimiento o reparación. Todas estas características tienen el potencial de eficiencia y ahorro de costos que los primeros pioneros de la industria no habrían podido imaginar en sus mejores sueños.

Aumento de oportunidades de capacitación

Una de las aplicaciones más obvias y beneficiosas de la gestión del Big Data, se puede ver en la formación de su personal. Una gran cantidad de nuevos roles son necesarios para acomodar los proyectos Big Data.

Aparte de proporcionar más oportunidades para los empleados motivados, Big Data también se puede aprovechar para fortalecer y la eficacia de sus programas de formación actuales. Al recolectar y monitorizar los datos relacionados con el desempeño individual de los trabajadores, la productividad general, o la revisión del currículum cuando sea necesario. Esto le permite enfrentar mejor las debilidades y las refuerza con formación y entrenamiento. Los resultados pueden ser comparados y contrastados entre diferentes departamentos, competidores y la industria en general.

Los fabricantes que trabajan con Big Data, cosechan las mayores recompensas, mejoras en su cadena de suministro, comunicaciones más sólidas entre compañeros de trabajo y socios y obtienen más oportunidades de capacitación.

Esto es sólo el comienzo de lo que puede ofrecer el Big Data a la Industria 4.0.

Evolución de la industria hacia la 4.0: ¿qué aporta el Big Data?
Evolución de la industria hacia la 4.0: ¿qué aporta el Big Data?

¿Por qué son relevantes las políticas de Gobierno Abierto, Big Data y Open Data?

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

The question lies at the heart of our campaign, which argues that government’s role should be to collect and administer high-quality raw data, but make it freely available to everyone to create innovative services”. “Free our Data campaign”. Reino Unido. Junio de 2006.

¿La Seguridad Social será solvente para nuestros nietos? ¿Cuál es el impacto de las nuevas inversiones en salud, educación y carreteras? ¿Cuál será la proyección de las políticas en la Industria 4.0 de la C.A. de Euskadi? Estas son, algunas de las preguntas que se pueden resolver con Big Data.

El Big Data es una combinación de la información masiva de datos y los recursos tecnológicos. Al igual que las empresas, las administraciones públicas (AAPP) pueden conocer mucho más a los ciudadanos, lo que leen, lo que perciben, etc.

La combinación e implantación de políticas de Gobierno Abierto, “Big Data” y “Open Data” pueden brindar importantes y sustanciosos beneficios a los ciudadanos. Estudios como demosEuropa (2014) concluyen que los países que apuestan por la transparencia de sus administraciones públicas mediante normas de buen gobierno cuentan con instituciones más fuertes, que favorecen la cohesión social.

Según un estudio realizado en la Unión Europea la implementación de las políticas de Gobierno Abierto “Big Data” y “Open Data” tendrán un efecto considerable. El impacto dependerá, lógicamente, del grado de extensión y desarrollo de nuevas tecnologías en cada economía y sector productivo, así como del grado de dependencia y utilidad de dicha información en cada uno de ellos. De hecho, aunque se prevé un impacto positivo en todos los sectores económicos, las ramas de actividad sobre las que se espera un mayor impacto serán la industria manufacturera y el comercio, seguidas de las actividades inmobiliarias, el sistema sanitario y la administración pública (ver siguiente mapa).

Impacto económico Big Data y Open Data en la UE
Impacto económico Big Data y Open Data en la UE

En cuanto al impacto geográfico, conviene llamar la atención sobre el caso particular de España, ya que será uno de los países en los que menos repercusión económica tenga el “Big Data” y “Open Data”. Ello se debe al todavía limitado desarrollo de este tipo de tecnologías que permitan aflorar adecuadamente los beneficios que pueden llegar a reportar a la economía, así como de una mayor representatividad de las PYMES en el tejido empresarial español. Ahora bien, el hecho de que el impacto estimado del “Big Data” y “Open Data” sea mayor en los países del norte europeo, donde se han desarrollado mucho más estas tecnologías, pone de manifiesto que éstas ofrecen rendimientos crecientes que conviene aprovechar, independientemente del posicionamiento de cada uno de los países.

Impacto económico del Big Data y Open Data para países europeos y sectores económicos 2013-2020
Impacto económico del Big Data y Open Data para países europeos y sectores económicos 2013-2020

Aunque podemos percibir que la C.A. de Euskadi puede tener un comportamiento similar a las regiones del norte y centro de Europa visualizando el siguiente gráfico, dónde se refleja el interés de los ciudadanos por el Big Data.

Fuente: Google. Los números reflejan el interés de búsqueda en relación con el mayor valor de un gráfico en una región y en un periodo determinados. Un valor de 100 indica la popularidad máxima de un término, mientras que 50 y 0 indican una popularidad que es la mitad o inferior al 1%, respectivamente, en relación al mayor valor.
Fuente: Google. Los números reflejan el interés de búsqueda en relación con el mayor valor de un gráfico en una región y en un periodo determinados. Un valor de 100 indica la popularidad máxima de un término, mientras que 50 y 0 indican una popularidad que es la mitad o inferior al 1%, respectivamente, en relación al mayor valor.

Un elevado número de países han planteado iniciativas de “Open Data”, con el objetivo de incentivar la actividad económica, favorecer la innovación y promover la rendición de cuentas por parte de las AA.PP. Estas iniciativas en absoluto se limitan a los países más avanzados, sino que se están aplicando en múltiples territorios como herramienta de desarrollo económico, como es el caso de India. No obstante, la formulación de buenas prácticas requiere una selección de los principales referentes a escala internacional. Para ello, es posible analizar estudios recientes como, por ejemplo, el Barómetro elaborado por la World Wide Web Foundation.

Open Data Barometer
Open Data Barometer

Reino Unido es el país más avanzado en materia de “Open Government Data” (OGD), tanto en lo que se refiere a la adaptación de sus instituciones, ciudadanos y tejido empresarial, como en la implementación de iniciativas públicas y en el impacto conseguido por las mismas.

El Reino Unido es reconocido ejemplo como uno de los principales referentes a escala internacional en materia de Gobierno Abierto. Sus actividades en torno a la liberación de datos comenzaron en 2006, a instancias de diversas campañas impulsadas por la sociedad civil y los medios de comunicación (como “Free our Data”), y ha logrado mantener un claro apoyo a estas estrategias tanto por parte de los últimos Primeros Ministros como de los principales partidos políticos británicos.

Entre los objetivos de la estrategia de apertura de datos de Reino Unido destaca la importancia atribuida a la innovación y a la dinamización económica que estas iniciativas pueden favorecer. En este sentido, se ha creado un organismo no gubernamental, el Open Data Institute (de financiación público-privada), cuya misión específica es apoyar la creación de valor económico a partir de los datos puestos a disposición de ciudadanos y empresas. Asimismo, las distintas áreas de la Administración han recibido el mandato de diseñar estrategias propias de apertura de datos, incluyendo acciones específicas que incentiven el uso de sus datos y la realización de informes públicos periódicos sobre sus avances en este ámbito.

Por otra parte, el Reino Unido ha puesto en marcha soluciones que tratan de contribuir a resolver los problemas que surgen al publicar grandes volúmenes de datos correspondientes a áreas de actividad o responsabilidad muy diversa. En este sentido, cabe subrayar:

  1. La creación de los Sector Transparency Boards en diversos departamentos de la Administración. Estos grupos de trabajo cuentan con la participación de representantes de la sociedad civil y de las empresas, y tienen como objetivo canalizar las solicitudes de datos y orientar al Gobierno sobre las prioridades a seguir para liberar nuevos conjuntos de datos.
  2. El desarrollo de programas de formación, competiciones y eventos diseñados para incentivar el uso de datos públicos por parte de la sociedad civil.
  3. La asignación de financiación pública a programas dirigidos a incrementar el aprovechamiento de los datos liberados por parte del tejido empresarial.
  4. Asimismo, se observan esfuerzos dirigidos a incrementar la calidad, estandarización y facilidad de explotación de los datos distribuidos (como los derivados del servicio cartográfico, el registro catastral, el registro mercantil).

Guía para comenzar con algoritmos de Machine Learning

El interés por el concepto de “machine learning” no para de crecer. Como siempre, una buena manera de saberlo, es utilizando herramientas de agregación de intereses como son Google Trends (las tendencias de búsquedas en Google) y Google N Gram Viewer (que indexa libros que tiene Google escaneados y sus términos  gramaticales). Las siguientes dos imágenes hablan por sí solas:

Búsqueda del término "machine learning" en Google (Fuente: Google Trends)
Búsqueda del término “machine learning” en Google (Fuente: Google Trends)
El término "machine learning" en libros en el último siglo (Fuente: Google N Gram Viewer)
El término “machine learning” en libros en el último siglo (Fuente: Google N Gram Viewer)

Sin embargo, no se trata de un término nuevo que hayamos introducido en esta era del Big Data. Lo que sí ha ocurrido es el “boom de los datos” (derivado de la digitalización de gran parte de las cosas que hacemos y nos rodean) y el abaratamiento de su almacenamiento  y procesamiento (básicamente, los ordenadores  y sus procesadores cuestan mucho menos que antes). Vamos, dos de los vectores que describen esta era que hemos bautizado como “Big Data”.

Los algoritmos de machine learning están viviendo un renacimiento gracias a esta mayor disponibilidad de datos y cómputo. Estos dos elementos permiten que estos algoritmos aprendan conceptos por sí solos, sin tener que ser programados. Es decir, se trata de ese conjunto de reglas abstractas que por sí solas son construidas, lo que ha traído y permitido que se “autonconfiguren”.

La utilidad que tienen estos algoritmos es bastante importante para las organizaciones, dado que son especialmente buenos para adelantarnos a lo que pueda ocurrir. Es decir, que son bastante buenos para predecir, que es como sabéis, una de las grandes “inquietudes” del momento. Se pueden utilizar estos algoritmos de ML para otras cuestiones, pero su interés máximo radica en la parte predictiva.

Este tipo de problemas, los podemos clasificar en dos grandes categorías:

  • Problemas de regresión: la variable que queremos predecir es numérica (las ventas de una empresa a partir de los precios a fijar)
  • Problemas de clasificación: cuando la variable a predecir es un conjunto de estados discretos o categóricos. Pueden ser:
    • Binaria: {Sí, No}, {Azul, Rojo}, {Fuga, No Fuga}, etc.
    • Múltiple: Comprará {Producto1, Producto2…}, etc.
    • Ordenada: Riesgo {Bajo, Medio, Alto}, ec.

Estas dos categorías nos permiten caracterizar el tipo de problema a afrontar. Y en cuanto a soluciones, los algoritmos de machine learning, se pueden agrupar en tres grupos:

  • Modelos lineales: trata de encontrar una línea que se “ajuste” bien a la nube de puntos que se disponen. Aquí destacan desde modelos muy conocidos y usados como la regresión lineal (también conocida como la regresión de mínimos cuadrados), la logística (adaptación de la lineal a problemas de clasificación -cuando son variables discretas o categóricas-). Estos dos modelos tienen tienen el problema del “overfit”: esto es, que se ajustan “demasiado” a los datos disponibles, con el riesgo que esto tiene para nuevos datos que pudieran llegar. Al ser modelos relativamente simples, no ofrecen resultados muy buenos para comportamientos más complicados.
  • Modelos de árbol: modelos precisos, estables y más sencillos de interpretar básicamente porque construyes unas reglas de decisión que se pueden representar como un árbol. A diferencia de los modelos lineales, pueden representar relaciones no lineales para resolver problemas. En estos modelos, destacan los árboles de decisión y los random forest (una media de árboles de decisión). Al ser más precisos y elaborados, obviamente ganamos en capacidad predictiva, pero perdemos en rendimiento. Nada es gratis.
  • Redes neuronales: las redes artificiales de neuronas tratan, en cierto modo, de replicar el comportamiento del cerebro, donde tenemos millones de neuronas que se interconectan en red para enviarse mensajes unas a otras. Esta réplica del funcionamiento del cerebro humano es uno de los “modelos de moda” por las habilidades cognitivas de razonamiento que adquieren. El reconocimiento de imágenes o vídeos, por ejemplo, es un mecanismo compleja que nada mejor que una red neuronal para hacer. El problema, como el cerebro humano, es que son/somos lentos de entrenar, y necesitan mucha capacidad de cómputo. Quizás sea de los modelos que más ha ganado con la “revolución de los datos”; tanto los datos como materia prima, como procesadores de entrenamiento, le vienen como anillo al dedo para las necesidades que tienen.

En el gran blog Dataconomy, han elaborado una chuleta que es realmente expresiva y sencilla para que podamos comenzar “desde cero” con algoritmos de machine learning. La tendremos bien a mano en nuestros Programas de Big Data en Deusto.

Guía para principiantes de algoritmos de Machine Learning (Fuente: dataconomy.com)
Guía para principiantes de algoritmos de Machine Learning (Fuente: dataconomy.com)

Nuestro Alumni Iker Ezkerra, 10º clasificado en una competición de Big Data de Microsoft

El pasado miércoles 5 de Abril, tuvimos la ceremonia de entrega de diplomas de la promoción de 2016 de nuestro Programa de Big Data y Business Intelligence en la sede de Bilbao. Un total de 58 alumnos, a los que queremos extender nuestra felicitación desde aquí también.

Pero quizás, una de las mejores noticias que pudimos recibir ese día es que uno de esos 58, Iker Ezkerra, Alumni de dicha promoción, nos comunicó que había quedado 10º clasificado en una competición de Big Data que había organizado Microsoft. Concretamente en esta:

Competición Microsoft modelo concesión crediticio
Competición Microsoft modelo concesión crediticio

Una competición en la que el objetivo era desarrollar un modelo predictivo de eventuales impagos de clientes que solicitaban un préstamos hipotecario. Todo ello, utilizando tecnologías de Microsoft. Un reto interesante dado que la validación del modelo que cada participante desarrollaba, se realizaba con con 2 datasets que cada participante no conocía a priori. Se va escalando posiciones en el ranking en función del scoring que va obteniendo el modelo. ¿El resultado? El citado décimos puesto para Iker, además de obtener la certificación “Microsoft Professional Program Certificate in Data Science“.

Iker Ezkerra, décimo puesto competición Big Data Microsoft
Iker Ezkerra, décimo puesto competición Big Data Microsoft

Dentro de este proyecto, Iker tuvo que aprender un poco sobre la mecánica de concesión de créditos. Cuando solicitamos un préstamos hipotecario al banco, estas entidades financieras utilizan modelos estadísticos para determinar si el cliente va a ser capaz de hacer frente a los pagos o no. Las variables que influyen en esa capacidad de devolver el capital e intereses son muchos y complejos; ahí radica parte de la dificultad de esta competición, y donde Iker tuvo que trabajar mucho con los datos de origen para tratar de entender y acorralar bien a las variables que mejor podrían predecir el eventual “default” de un cliente.

Un total de 110.000 registros, para entrenar un modelo de Machine Learning. Por si alguien se anima en ver todo lo que pudo trabajar Iker, aquí os dejamos un enlace donde podréis encontrar el dataset. Y aquí los criterios de evaluación seguidos, que creo pueden ser interesantes para entender cómo funcionan este tipo de modelos predictivos.

Le pedí a Iker un breve párrafo describiendo su experiencia, dado que al final, nadie mejor que él para describirla. Y, muy amablemente, me envío esto, que para nosotros, desde Deusto Ingeniería, es un placer poder leer:

En los últimos meses del Programa en Big Data buscando documentación, formación y sobre todo datos que pudiese utilizar en un proyecto con el que poder poner en práctica los conocimientos que estaba adquiriendo me encontré con una Web esponsorizada por Microsoft en la que se ofrecen varios retos en los que poder poner en práctica tus conocimientos en análisis de datos. Estos retos ofrecen una visión bastante completa de lo que sería el ciclo de vida de un proyecto de análisis de datos como la limpieza del dataset, detección de outliers, normalización de datos, etc. Además algo que para mi ha sido muy interesante es que detrás de cada modelo que vas entrenando hay una “validación” de lo “bueno” que es tu modelo con lo que te sirve para darte cuenta de si tienes problemas de overfitting, limpieza de datos correcta, etc. Ya que por detrás de todo esto hay un equipo de gente que valida tu modelo con otros 2 datasets obteniendo un “score” que te permite ir escalando posiciones en una lista de competidores a nivel internacional.

Con todo esto y tras muchas horas de trabajo conseguí obtener la décima posición que para alguien que hace 1 año no sabía ni lo que era la KPI creo que no está nada mal :). Así que animo a todo el mundo con inquietudes en el mundo del dato a participar en este tipo de “competiciones” que te permiten poner a prueba los conocimientos que has adquirido y también a quitarte complejos en esta área de la informática que para algunos nos es nueva.

Felicidades, Zorionak, Congratulations, una vez más, Iker. Un placer poder disfrutar de vuestros éxitos en el mundo del Big Data.

Google adquiere la comunidad de “ciencia del dato” Kaggle

La semana pasada, nos enteramos de una noticia que, para nosotros, los del “Big Data”, debe ser bastante relevante: se ha confirmado que Google ha adquirido una de nuestras comunidades preferidas, Kaggle. Quizás alguno se pregunte por qué esta noticia es tan relevante. La propia web de Kaggle te lo dice nada más entrar:

Your Home for Data Science

La casa para hacer “ciencia de datos” o sacar valor a los datos a través de modelos analíticos. En nuestros Programas de Big Data, es frecuente que salga Kaggle durante las clases. No ya solo por invitar a nuestros estudiantes a sus competiciones, lo importante, como suele pasarnos en muchos de estos espacios web, es la comunidad en sí: más de 500.000 personas que se juntan en esa plataforma para discutir alrededor del dato y la ciencia del dato (Data Science). Y que encima, publican datasets con los que “jugar”.

Datasets de Kaggle
Datasets de Kaggle

Es la home o punto de inicio de muchas personas que se dedican al dato. El primer sitio al que acudían a buscar respuesta a algún tema que se nos complicaba. Un lugar donde estaban los mejores de todo el mundo. Donde muchos profesores hemos diseñado clases o hemos construido nuestra forma de afrontar los problemas alrededor de los datos.

Y Kaggle, ahora ha sido adquirida por Google. Esta, llevaba ya un tiempo detrás del tema, al parecer. Acababan de organizar conjuntamente una competición de 100.000 dólares para clasificar vídeos de Youtube. Una competición que permitía la integración nativa con la plataforma de machine learning de Google, la que se ha venido a conocer como Google Cloud Platform. En nuestro Programa en Tecnologías de Big Data en Madrid, ya hemos tenido un par de sesiones con nuestro profesor (y Alumni) Alex Urcola, de Google, alrededor de estas tecnologías y servicios web que ofrece Google.

Es probable que Google, en su interés, haya siempre valorado más la comunidad que la tecnología. Pero no podemos olvidar que Kaggle, para sus competiciones, comenzó con scripts, que luego acabaron siendo “kernels”, o núcleos para permitir el desarrollo de soluciones analíticas avanzadas.

Kernels de Kaggle
Kernels de Kaggle

Y tampoco podemos olvidar que Google seguro ha valorado la cantidad de puestos de trabajo que ya comenzaba a gestionar Kaggle: algo así como un “LinkedIn vertical” para el mundo del Big Data.

Como ven, lo que parece claro, es que la apuesta de Google por el mundo de la inteligencia artificial y el Big Data está claro. Y esto es lo que me parece noticia. Ya hablábamos en un artículo reciente sobre cómo las grandes tecnológicas querían correr en esta carrera por la inteligencia artificial. Es probable que Google ahora busque aglutinar todas sus soluciones de manejo de datos en un mismo ecosistema. Después de liberar TensorFlow (que nació dentro de las necesidades existentes en el equipo Google Brain), ha visto como su uso se dispara. En la carrera que Google mantiene con Amazon por los servicios en la nube, quizás, va siendo momento de verticalizarse en un área donde es fácil que todos veamos a Google como un actor válido y de referencia.

¿Y qué mas tiene Kaggle? Pues obviamente, como comunidad que es, talento. De hecho, de nuevo, basado en cuestiones medianamente intuitivas y lógicas, es fácil pensar que Google quiere tener en su órbita a los mayores expertos en el mundo en el manejo de datos y la algoritmia. Y eso, hoy en día, está en Kaggle. Y es que reclutar talento en esta era digital y de datos, es sin duda alguno, el gran reto que afrontan las comunidades. Que Kaggle haya sido capaz de construir ese ecosistema alrededor, hace que todos entendamos que estar cerca del talento, sea absolutamente necesario.

Big Data para transformar la industria del automóvil

(Artículo de nuestro profesor Jonatan Belarde, en el Programa en Big Data y Business Intelligence)

En el módulo de negocio del Programa de BI y Big Data hacemos un ejercicio con los alumnos. Les proponemos transformar una industria, a priori tradicional, en un modelo de negocio totalmente diferente, gracias al uso de los datos. A lo largo de las tres ediciones hemos transformado negocios tan diversos como la apicultura, la distribución de contenidos, franquicias para despiojar o peluquerías.

Uno de los casos habituales es la transformación de una OEM de automoción (fabricante de automóviles), una industria cuya transformación se acelera con las evoluciones hacia los vehículos eléctricos y autónomos. Pero esta industria tiene más cambios que abordar. A los alumnos les preguntamos, ¿cómo imaginas el mundo dentro de 10 años? ¿Y cual es el papel que ocuparían los actuales fabricantes de vehículos sabiendo que cada vez se van a vender menos vehículos y habrá más competidores?

Lo habitual es recurrir a las fórmulas en auge como el carsharing, pero pensemos en la movilidad como si fuera un servicio (Maas) y en el coche como si fuera un smartphone, el dispositivo a través del cual interaccionamos con otras aplicaciones y servicios mientras viajamos, conduciendo o no.

Entrando en otras industrias

Esta es la gran pregunta que se están haciendo los fabricantes de vehículos, ¿en qué industrias puedo incursionar gracias a los datos que extraigo de mis usuarios y dispositivos (vehículos)? y ¿a cuanto de su mercado puedo aspirar? McKinsey estimó hace dos años que la industria crecerá 215 mil millones de dólares, y esto sin construir más automóviles.

Fuente imagen: https://unsplash.com | Autor Karlis Dambrans |
Fuente imagen: https://unsplash.com | Autor Karlis Dambrans |

Por ejemplo un sector como el de las aseguradoras que están haciendo grandes esfuerzos y aproximaciones para competir con alguien que sabe cada kilómetro que recorre un asegurado: la distancia, el día, la hora, la meteorología, los accidentes cercanos, la ocupación de vehículo, la velocidad a la que circula, las personas con las que viaja, el motivo del viaje (fiesta, negocios?), etc. Todas son variables que en un análisis del riesgo (scoring) hace que un seguro sea más barato (menos riesgo) que otro. Pólizas de seguro a medida, no por vehículo y edad como existen ahora, sino por kilómetro, circunstancia y minuto, y en tiempo real, ajustándose a las variaciones de los parámetros según viajamos. ¿Por qué un seguro debe cobrar cuando un vehículo está aparcado en nuestro garaje? Porque sin datos deben prever las coberturas de accidentes tanto si está en uso como sino, calculando entre el grueso de sus clientes la rentabilidad global de la actividad. No pueden hacer una oferta personalizada como la que podrían estar ofreciendo si dispusieran de datos, sino un sistema en el que los justos pagan por pecadores para que las cuentas cuadren a final de año. Los seguros van a tener más difícil que un fabricante de vehículos el acceso a estos datos durante la conducción. Una vez más, quien tiene el contacto con el usuario y el cliente final tiene el control del negocio, y en pocos años serán los OEM los que controlen este contacto.

¿Puede el fabricante de automóviles, que conoce todos nuestros movimientos y rutinas, convertirse en quien abastezca energéticamente a nuestros vehículos? Calculando los consumos, distancias, desplazamientos podría ofertar tarifas planas para abastecer de energía eléctrica a sus clientes conductores, incluso ofrecerles puntos de carga a los que estamos poco acostumbrados hasta ahora: cargadores de vehículos en los parking de los supermercados mientras hacemos la compra, en la universidad mientras estamos en clase, en el museo, en la playa ¿en una propiedad privada? ¿Quien es el único que sabe cuántos conductores, y a qué hora, y con cuánta recurrencia pasan por allí con los depósitos de electricidad llenos o vacíos?

Un vehículo que tiene absolutamente todo medido y calculado (y está en red con decenas de miles de vehículos y dispositivos) sabe si una ruta es más o menos económica, rápida o cómoda porque sabe el tráfico que hay, la velocidad a la que se puede viajar, y las alternativas. ¿Pagarías 5 euros por ahorrarte 7 en un desplazamiento? ¿Cambiarías de ruta si te ofrecen “llenar” el depósito al 50% porque hay un sobrante de energía en un determinado lugar en un determinado momento? Una vez más el vehículo intermediaría entre la oferta y la demanda y sería quien haría la reserva del servicio y por último, el pago (otra intermediación conseguida en una industria indirecta: la banca).

De igual forma actuaría con los mantenimientos, al identificarnos como usuario al entrar en un automóvil, automáticamente va a conocer nuestras configuraciones, nuestros hábitos y preferencias. Conocerá por ejemplo los viajes que hemos realizado anteriormente, los destinos habituales, el número de paradas. Y puede ofrecer un servicio de mantenimiento personalizado, en base a la probabilidad más alta de ser contratado por esa persona en ese momento y en ese lugar.

Podría llegar a ofrecernos música y contenidos audiovisuales (videos, podcast…) Conocería la música que habitualmente escuchamos cuando estamos viajando. Al usuario podría interesarle contratar temporalmente un servicio de streaming durante el trayecto, con una intermediación entre un Spotify o Apple Music y el viajero, y cobrándole una tasa por el tiempo de escucha de la música, vídeo, etc.

¿Podría un OEM de automoción atacar otros negocios como el de la economía colaborativa, tipo UBER, Blablacar, etc…? ¿Podría intermediar en el transporte de personas y cargas en vehículos entre empresas y particulares? Si UBER, Blablacar, Airbnb están funcionando es gracias a los datos que consigue durante la prestación de sus servicios, y la interacción digital con los mismos. No olvidemos que los fabricantes de automóviles van a ser los mejor posicionados para obtener estos datos, con opciones, si lo hacen bien, de apropiarse del negocio del alquiler, el carsharing, el free-car y cuanto modelo esté en contacto con el desplazamiento, la movilidad, los viajes….

Con datos, solo hay que echarle imaginación y hacer números… y usar las tecnologías Big Data.

La carrera hacia la ventaja competitiva en la era del dato: plataformas de Inteligencia Artificial y la derrota de la intuición humana

Ya va a hacer un año de lo que muchos bautizaron como uno de los principales hitos de la historia de la Inteligencia Artificial. Un algoritmo de inteligencia artificial de Google, derrotaba a Lee Sedol, hasta entonces el campeón mundial y mayor experto del juego “Go”. Un juego creado en China hace entre 2.000 y 3.000 años, y que goza de gran popularidad en el mundo oriental.

AlphaGo, el
AlphaGo, el “jugador inteligente” de Google derrotando a Lee Sedol, experto ganador del juego “Go” (Fuente: https://qz.com/639952/googles-ai-won-the-game-go-by-defying-millennia-of-basic-human-instinct/)

No era la primera vez que las principales empresas tecnológicas empleaban estos “juegos populares” para mostrar su fortaleza tecnológica y progreso. Todavía recuerdo en mi juventud, allá por 1997, ver en directo cómo Deep Blue de IBM derrotaba a mi ídolo Garry Kasparov. O como Watson, un sistema inteligente desarrollado también por IBM, se hizo popular cuando se presentó al concurso Jeopardy y ganó a los dos mejores concursantes de la historia del programa.

La metáfora de la “batalla” muchos la concebimos como la “batalla” del humano frente a la inteligencia artificial. La conclusión de la victoria de los robots parece clara: la inteligencia artificial podía ya con el instinto humano. Nuestra principal ventaja competitiva (esos procesos difícilmente modelizables y parametrizables como la creatividad, el instinto, la resolución de problemas con heurísticas improvisadas y subjetivas, etc.), se ponía en duda frente a las máquinas.

No solo desde entonces, sino ya tiempo atrás, las principales empresas tecnológicas, están corriendo en un entorno de competitividad donde disponer de plataformas de explotación de datos basadas en software de inteligencia artificial es lo que da competitividad a las empresas. Amazon, Google, IBM, Microsoft, etc., son solo algunas de las que están en esta carrera. Disponer de herramientas que permiten replicar ese funcionamiento del cerebro y comportamiento humano, ya hemos dicho en varias ocasiones, abre nuevos horizontes de creación de valor añadido.

¿Qué es una plataforma de inteligencia artificial? Básicamente un software que una empresa provee a terceras, que hace que éstas, dependan de la misma para su día a día. El sistema operativo que creó Microsoft (Windows) o el buscador que Alphabet creó en su día (Google), son dos ejemplos de plataformas. Imaginaros vuestro día a día sin sistema operativo o google (¿os lo imagináis?). ¿Será la inteligencia artificial la próxima frontera?

No somos pocos los que pensamos que así será. IBM ya dispone de Watson, que está tratando de divulgar y meter por todas las esquinas. Una estrategia bajo mi punto de vista bastante inteligente: cuanta más gente lo vea y use, más valor añadido podrá construir sobre la misma. Es importante llegar el primero.

Según IDC, para 2020, el despliegue masivo de soluciones de inteligencia artificial hará que los ingresos generados por estas plataformas pase de los 8.000 millones de dólares actuales a los más de 47.000 millones de dólares en 2020. Es decir, un crecimiento anual compuesto (CAGR), de más de un 55%. Estamos hablando de unas cifras que permiten vislumbrar la creación de una industria en sí mismo.

CAGR de los sistemas de inteligencia artificial y cognitivos (Fuente: http://www.idc.com/getdoc.jsp?containerId=prUS41878616)
CAGR de los sistemas de inteligencia artificial y cognitivos (Fuente: http://www.idc.com/getdoc.jsp?containerId=prUS41878616)

¿Y qué están haciendo las grandes tecnológicas? IBM, que como decíamos antes lleva ya tiempo en esto, creó en 2014, una división entera para explotar Watson. En 2015, Microsoft y Amazon han añadido capacidades de machine learning a sus plataformas Cloud respectivas. A sus clientes, que explotan esos servicios en la nube, les ayudan prediciendo hechos y comportamientos, lo que las aporta eficiencia en procesos. Un movimiento, bastante inteligente de valor añadido (siempre que se toque costes e ingresos que se perciben de manera directa, el despliegue y adopción de una tecnología será más sencillo). Google ha sacado en abierto (un movimiento de los suyos), TensorFlow, una librería de inteligencia artificial que pone a disposición de desarrolladores. Facebook, de momento usa todas las capacidades de análisis de grandes volúmenes de datos para sí mismo. Pero no será raro pensar que pronto hará algo para el exterior, a sabiendas que atesora uno de los mayores tesoros de datos (que esto no va solo de software, sino también de materias primas).

Según IDC, solo un 1% de las aplicaciones software del mundo disponen de características de inteligencia artificial. Por lo tanto, es bastante evidente pensar que su incorporación tiene mucho recorrido. En el informe que anteriormente decíamos, también vaticina que para ese 2020 el % de empresas que habrán incorporado soluciones de inteligencia artificial rondará el 50%.

Por todo ello, es razonable pensar que necesitaremos profesionales que sean capaces no solo de explotar datos gracias a los algoritmos de inteligencia artificial, sino también de crear valor sobre estos grandes conjuntos de datos. Nosotros, con nuestros Programas de Big Data, esperamos tener para rato. Esta carrera acaba de comenzar, y nosotros llevamos ya corriéndola un tiempo para estar bien entrenados. La intuición humana, no obstante, esperamos siga siendo difícilmente modelizable. Al menos, que podamos decirles a los algoritmos, qué deben hacer, sin perder su gobierno.

Cuándo y por qué puede fallar un modelo predictivo

Las pasadas elecciones americanas, han vuelto a poner encima de la mesa un debate que parece ya clásico: los (supuestos) fallos de las encuestas. El debate también salió con la infravaloración que se hizo a la victoria del Partido Popular el pasado 26-J, el “sorpasso” que las encuestas vaticinaron o en el Brexit.

Las encuestas, como modelos que son, son una aproximación a la realidad. Lo que suele fallar en esos modelos de aproximación no son tanto los métodos predictivos empleados, sino cómo se pondera la idea de la incertidumbre. Y es que estos ejercicios de adelantarnos a lo que puede ocurrir en un futuro (predecir), nunca borran ni eliminan la incertidumbre. El mundo es así, no es lineal.

Lo que ocurre es que nuestra mente no funciona bien bajo incertidumbre, por lo que la encanta utilizar las predicciones como una idea cerrada y segura. Así manejamos la información con más facilidad, reducimos nuestra fatiga cognitiva,  y podemos conversar sobre los temas con más facilidad con la gente.

Pero los modelos predictivos, como decía, no son tan sencillos. Ni los modelos estadísticos para tratar de hacer una previsión de los resultados electorales, ni los que tratan de predecir qué ocurrirá en la economía o con la meteorología. Siempre habrá incertidumbre.

Miremos el caso de las elecciones americanas para ilustrar la idea de cuándo y por qué puede fallar un modelo predictivo. Cuando hablamos del Teorema de Bayes, ya dijimos que predecir consta de tres partes constituyentes:

  1. Modelos
  2. Calidad de datos
  3. Juicio humano

Vayamos por partes. Los modelos. Ningún modelo es perfecto, el famoso aforismo de la estadística (“All models are wrong“) de George Box que citó en este artículo de 1976. A sabiendas que la ciencia política llevada décadas estudiando el campo, que hay gente realmente buena detrás construyendo modelos predictivos (FiveThirtyEight, Predictwise, etc.), no tengo la sensación de que fuera un problema metodológico de captura de mecanismos -atributos, variables predictoras- de elección de presidente (comportamiento de los diferentes estados, variables económicas y sociales, momentum, ruido social, etc.).

No obstante, como señala este reportaje de New York Times, es posible y probable que los modelos no recogieran bien cómo Trump desplazó el debate a la derecha y ganó en zonas rurales el gran soporte urbano que tenía Clinton. Aquí juegan otros elementos (el mecanismo de asignación de electores), pero entiendo eso sí estaba recogido. Como veis, más incertidumbres que certezas. Pero esto es lo que tiene hacer modelos; a posteriori te das cuenta, pero a priori es difícil estimar las mejores variables a incorporar.

Modelo predictivo de fivethirtyeight.com
Modelo predictivo de fivethirtyeight.com

En segundo lugar, los datos en sí. De su calidad y su vital importancia, también hemos hablado mucho por aquí. Evidentemente, en un proceso electoral en el que cada vez los medios digitales tienen mayor protagonismo, es un candidato este eje a ser considerado. La falta de veracidad de las respuestas de las encuestas (no sea que alguien se entere que voy a votar a Trump, incluso un fallo de memoria, por las prisas con las que se suele responder), el sesgo de respuesta (te respondo a lo que tú me preguntas, no más), sesgos muestrales (¿cómo preguntar a todos a sabiendas de la ausencia de uso de medios digitales o telefónicos en muchos casos?, aquí es donde entraría el margen de error), etc. Es por todos estos problemas de los datos por los que cada vez hay más “cocina” o corrección de las respuestas por quién lo ha podido preguntar/hacer la encuesta. Por otro lado, no olvidemos la cada vez mayor importancia de las redes sociales, donde los efectos de red son difíciles de recoger todavía a nivel metodológico. Por todo esto, es probable que los datos que lleguen a los modelos, no sean los mejores en estos momentos. Y que haya mucho que mejorar aún en toda esta parte.

En tercer y último lugar, esta la interpretación de los resultados que ofrece un modelo. Es decir, el juicio humano. Como decíamos al comienzo, es difícil en ocasiones, en un modelo predictivo, explicar a la gente que todo lo que aquí se “modeliza” es una aproximación a una realidad mucho más complicada que lo que un modelo representa. Esa diferencia, ese gap, es lo que ponderamos con la incertidumbre. Como no sabemos lo que va a ocurrir con 100% de certeza, lo expresamos. Un intervalo de confianza del 95%, no garantiza, obviamente, nada. Este valor quiere decir que de cada 20 muestras sobre esa misma población (el electorado americano), 19 veces, el valor a predecir (el resultado electoral), estará contenido en el modelo. Solo se “fallará” (que tampoco es un término del todo correcto en este  contexto), en 1 de cada 20 ocasiones. ¿Puede ser este el caso de la victoria de Donald Trump o el resto de situaciones explicadas al comienzo? Es posible y probable.

Como ven, hacer un modelo predictivo no es un tarea sencilla. Por ello, es bueno manejar esta terminología básica de elementos críticos a considerar para saber muy bien lo que se está haciendo. En nuestros Programas de Big Data, por eso empezamos siempre hablando de modelado y calidad de datos, para luego empezar con la estadística y los modelos de aprendizaje supervisado y no supervisado (Machine Learning). No todo es software, claro.

Cómo los metadatos nos pueden ayudar a predecir tu trabajo gracias al Big Data

El pasado noviembre, saltó a la palestra del “mundo de los datos” una noticia que en España ha pasado algo desapercibida (al menos en los  medios generalistas). No obstante, no creo que sus implicaciones sean menores. La agencia de espionaje de Canadá, la CSIS, había estado recolectando metadatos (datos generados en el uso de medios digitales como el correo electrónico, los mapas de geolocalización, etc.) durante 10 años.

El tribunal supremo de Canadá, instruyendo la causa, decretó -como no podría ser de otro modo- que esto era ilegal. Por más que tuviera un fin de eventuales espionajes o amenazas por terrorismo, la seguridad y privacidad del ciudadano por delante de todo.

Estos metadatos, para que se hagan ustedes a la idea, incluyen desde números de teléfono, localizaciones, direcciones de email, duraciones de las llamadas o comunicaciones, etc. Es decir, datos asociados a acciones, no el contenido de las mismas en sí (las llamadas y sus contenidos… en cuyo caso estaríamos hablando de algo aún más grave). El CSIS quería esto porque en 2006 puso en marcha un programa que bautizó como “Operational Data Analysis Centre” para producir información inteligente que ayudase a la toma de decisiones estratégicas en favor de la seguridad del país.

Esta noticia, me resultó bastante ilustrativa porque los metadatos (los grandes olvidados, sobre los que he escrito en alguna ocasión a colación de whatsapp y Facebook), pueden revelar mucha información sobre nosotros mismos. Cómo nos comportamos, qué y por qué decidimos qué, cómo tomamos las decisiones, etc. En definitiva, un montón de información personal, que nunca podemos olvidar. Como ha hecho el tribunal supremo de justicia canadiense, por más que se trate de una agencia pública la que ha cometido el delito.

Pues bien, me acordaba de esta noticia al leer que un equipo de investigadores de la empresa de telecomunicaciones noruega Telenor, junto con el MIT Media Lab y la organización sin ánimo de lucro Flowminder, han encontrado un método para, partiendo de metadatos, predecir el estado ocupacional/profesional de una persona (desempleado o a qué se dedica). Podéis leer el artículo aquí.

Estimating individual employment status using mobile phone network data (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Estimating individual employment status using mobile phone network data (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)

El paper explica maravillosamente el modelo predictivo que han conformado. La variable dependiente, no era otra que una variable categórica de 18 pòsibles estados (uno por cada profesión, desde estudiante, empleado/ocupado y tipos de ocupación). ¿Las independientes? (es decir, las predictoras); pues los metadatos que decíamos antes: un total de 160 características o variables (casi nada), tomadas desde dispositivos móviles y categorizadas en tres categorías: financieras, de movilidad y sociales. Para qué explicarlo, si en el paper sale una tabla con todas esas características:

Los metadatos de nuestros dispositivos móviles (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Los metadatos de nuestros dispositivos móviles (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)

Todos estos datos generamos desde nuestro dispositivo móvil. Que, como decíamos, ayudan a predecir, entre muchas cosas, una cuestión tan importante como nuestro estado de ocupación. Para ello, el equipo investigador ha comparado diferentes modelos predictivos (GBM, Random Forest, SVM, kNN, redes neuronales, etc.). Tras estudiar los rendimientos de cada modelo predictivo, se quedaron con una arquitectura de red neuronal usando un 75/25% de training/testing, siendo la precisión del modelo, de media, un total de un 67,5%. Hay profesiones donde es más fácil acertar y en otras más difícil. Será que algunos nos comportamos de manera más predecible y otros de menos :-)

Precisión de los modelos predictivos para predecir ocupaciones (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Precisión de los modelos predictivos para predecir ocupaciones (Fuente: arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)

¿Qué variables son  las más críticas? Es decir, las que “mejor predicen” una profesión. Nada menos que la la torre de telecomunicaciones a las que más se conecta una persona (latitud y longitud), el número de lugares visitados (por frecuencia) y el radio de viaje (cómo se aleja de su hogar, la celda de conexión más cercana y que más frecuenta -salvo que durmamos mucho en hoteles :-)-). ¿Alguien se extraña entonces por qué Google Maps es gratuito? Lo de siempre, introduzcan en el navegador maps.google.com/locationhistory. En la siguiente imagen, representan la relación de estas variables y cómo ayudan a predecir la ocupación:

Relación entre variables predictoras y ocupaciones (Fuente: https://arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Relación entre variables predictoras y ocupaciones (Fuente: https://arxiv.org/ftp/arxiv/papers/1612/1612.03870.pdf)
Profesiones y variables predictoras (Fuente: http://motherboard.vice.com/read/how-metadata-can-reveal-what-your-job-is)
Profesiones y variables predictoras (Fuente: http://motherboard.vice.com/read/how-metadata-can-reveal-what-your-job-is)

Este modelo de deep learning (aprendizaje cognitivo o profundo), este tipo de software que está revolucionando tantos procesos, dado que se entrenan a sí solos para encontrar patrones en grandes cantidades de datos, está en boca de muchos ahora. Su potencial es tan grande, que permitir que una agencia pública federal los emplee para cosas como las que aquí descritas, me parece preocupante.

Y ahora ustedes se estarán preguntando de dónde habrán estos investigadores obtenido los datos. Telenor :-) Es decir, la empresa de telecomunicaciones que, obviamente de manera anonimizada, han procesado hasta 76.000 conexiones de dispositivos móviles a sus torres de comunicaciones. Y de ahí han salido estos metadatos. Un proyecto, solo basado en esos datos, pero que imagínense lo que puede mejorar si lo integramos con otras fuentes de datos. Modelos aún más precisos a nivel de predicción. Un proyecto de Big Data en toda regla.

Como ven, estos proyectos de Big Data, tienen mucho potencial. Todo está por hacer y aprender. En nuestros programas de Big Data, además de ver los diferentes modelos predictivos, también aprendemos a integrar todas esas fuentes de datos, mejorar su calidad en un modelo de datos único y unificado, así como a montar infraestructuras de Big Data que optimicen estos procesamientos.

Del “Big Data” al “Data Capital”: aprovechando el valor de los datos con un data lake

Hay dos grandes formas de entender esta era del Big Data: como una evolución del Business Intelligence -herramientas que extraen inteligencia de la información de una compañía y sobre ésta elaboran algunas predicciones-, o como una disrupción. La primera consideración, suele descartarla.

El Business Intelligence, se significó en una época en la que eran los datawarehouse la norma. Es decir, grandes almacenes de datos, estructurados, con una administración rígida. No solo ya desde la óptica del almacenamiento del dato es diferente su consideración, sino también desde la mirada de procesamiento de datos. El BI tenía un marcado carácter descriptivo. En esta nueva era del Big Data, creo que la predicción es la norma y lo que todo el mundo quiere hacer. Adelantarse al futuro, pero de una manera más informada y evidenciada. Es decir, asentándose en la mayor cantidad de información posible.

Y esto, claro, como hemos comentado muchas veces, es más posible que nunca antes en la historia, por la gran cantidad de datos existentes. Pero, son datos, que muchas veces, no podemos estructurar (la lógica seguida por los datawarehouse). Son datos, además, que muchas veces, no se pueden “juntar” con otros; es mejor mantenerlos por separado, y luego ya tratar de juntarlos en tiempo de procesamiento para la extracción de valor.

Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg
Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg

Esta lógica, va un paso más allá dentro del paradigma del Big Data. Supone considerar el dato como otro activo más. Es más, supone considerar el dato como el activo más crítico de la organización. Y así, disponer de un “data capital”, como otro activo más de la organización, que permita ser luego capitalizado y activado para su puesta en valor en la organización. Es decir, el almacenamiento en bruto de datos, puede ser interesante, sin mayor orden, estructura ni criterio de clasificación.

El problema es que en este momento, la mayor parte de las empresas (tanto grandes, medianas como pequeñas), está aún en la fase inicial: recopilan la información y la almacenan. Pero todavía no saben muy bien qué se puede hacer con ella. Por ello mismo, ya hay algunos que empiezan a considerar que en este estadío, en el que todavía las organizaciones no saben muy bien qué hacer, pero sí que disponen de datos, es fundametal articular una estrategia de almacenamiento de datos con sentido.

Y aquí, emerge con fuerza el concepto de “data lake”. Como se puede ver en la siguiente representación gráfica, se trata de un repositorio de datos estructurados y no estructurados, sin ningún preprocesamiento, guardando los datos en bruto, y sin esquema. A los que venimos originariamente de la administración de bases de datos y sus esquemas rígidos, un concepto, un paradigma, sustantivamente diferente. Al carecer de esquema, añadir nuevos datos, será relativamente fácil.

Fuente: Microsoft
Fuente: Microsoft

Se trata, en definitiva, de proveer a las empresas de un mecanismo de almacenamiento de datos sin mayor compromiso. Ya veremos en qué momento se nos ocurre qué hacer. El problema que veníamos arrastrando, es que los sistemas de esquemas de datos, en muchas ocasiones, condicionaban luego lo que poder hacer con los datos. Porque ya representaban “algo”.

Con esta explicación, se puede entender por qué esta era del Big Data, es para mí un paso más allá del Business Intelligence. En la era del BI, todos los datos que recogíamos (estructurados y no estructurados), los ordenábamos y clasificábamos según el esquema. En un data lake, también recogemos todos los datos, pero no los alteramos, limpiamos o manipulamos. Su valor queda bruto, y ya veremos en su día qué hacer con ello.

Sin alterar la “materia prima” y dejarla en bruto, dejamos abierto el campo de explotación. Y estas opciones, tan prometedoras para muchas empresas, es lo que está haciendo que cada vez más empresas me pregunten por los data lakes. Es algo que para la capitalización del dato dentro de las organizaciones, se alinea muy bien. Ya veremos algún día qué preguntas hacerles a los datos. Todavía no lo sabemos, pero no nos importa. Sabemos que esos datos tendrán valor.

Por todo esto, ya hay muchos profesionales del Big Data que dicen de cambiar el paradigma ETL (Extract, Transform, Load, del que ya hablé aquí) por ELT (Extract, Load, Transform). Es decir, ya transformaremos después, no antes, lo que suele restringir mucha las opciones de lo que podremos hacer. Los data lakes, precisamente adoptan ese rol de almacén de datos “neutro”, en el que no condicionamos luego lo que se podrá hacer. Y por eso, las herramientas ELT (que no son nuevas, por otro lado), también pudieran vivir un renacimiento.

Para cerrar, una imagen muy representativa de la idea trasladada hoy.

Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/2014/09/Data-lake-vs-Data-warehouse.jpg)
Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/2014/09/Data-lake-vs-Data-warehouse.jpg)