Archivo de la etiqueta: big data

Nueva propuesta de reglamento Europeo: pon un Data Protection Officer en tu empresa

Recientemente, mi compañero Iñaki Pariente, nos ilustraba sobre la importancia de la componente jurídica en todo proyecto de Big Data. Estos días, en el Parlamento Europeo, se está produciendo mucha actividad en torno a todo ello. Concretamente, están trabajando una Propuesta de Reglamento General de Protección de Datos, del Parlamento Europeo y del Consejo.

El núcleo de lo que se está tratanto es la protección de las personas físicas en lo que respecta al tratamiento de datos personales y la libre circulación de estos datos. En adelante, a efectos de simplificación, me referiré a ello como Reglamento General de Protección de Datos (RGPD).

La legislación vigente en la Unión Europea en materia de protección de datos es la Directiva 95/46/CE. Esta fue adoptada en 1995 con un doble objetivo: defender el derecho fundamental sobre la protección de datos y garantizar la libre circulación de estos datos entre los Estados miembros (en una época en que la libre circulación de capitales, personas y bienes era algo del día a día). Se complementó posteriormente mediante la Decisión Marco 2008/977/JAI, como instrumento general a escala de la Unión Europea para la protección de datos personales tratados en contextos de cooperación policial y judicial.

Y ahora pasamos a 2015. La rapidez con que la evolución digital está cambiando muchos de los planos de nuestra sociedad y nuestra economía,  ha supuestos nuevos retos en lo que a la protección de datos personales se refiere. Ahora, el volumen de datos es mucho mayor, permitiendo que tanto empresas privadas como entidades públicas pueden aprovecharlos. Además, las personas físicas, generan y difunden un volumen de datos nunca visto hasta la fecha.

A la par, los legisladores se dan cuenta que para poder desarrollar una sociedad realmente digital y un Mercado Único Digital (también debatido e impulsado hace unos meses en la Comisión Europea), es fundamental generar confianza en entornos online. Si la confianza no existe, las personas no nos veremos tan implicados en comprar online o a relacionarnos con la administración a través de Internet. La protección de datos personales desempeña, por tanto, una función esencial en la Agenda Digital para Europa y más concretamente en la Estrategia Europa 2020 para el crecimiento y la competitividad.

Esta nuevo reglamento de protección de datos, afectará a muchas personas e instituciones. Si tienes una empresa o aspiras a trabajar en una radicada en Europa o que haga negocios en Europa, tienes más de 250 trabajadores o tu núcleo de negocio se centra en el procesamiento de datos (que cada vez son más las empresas en ello), tu empresa tendrá, bajo propuesta de dicho Reglamento que contratar un Data Protection Officer (DPO en adelante).

Eso de «centrarse en el procesamiento de datos«, que resulta ciertamente ambiguo, por lo que he podido leer se refiere a «tratamientos de datos masivos, que afecten a centenares de miles o millones de usuarios y que se mantengan periódicamente actualizados como la elaboración de perfiles de clientes o en el mundo de marketing«. Por lo tanto, creo que no son pocas las empresas que quedarán afectadas por ello.

¿Y qué es esto del DPO y en qué medida me afectaría? Este perfil tendrá que encargarse de tareas mucho más extensas que las atribuidas al responsable de seguridad, figura regulada en el Reglamento que desarrolla la Ley Orgánica de Protección de Datos de España (que data de 1999). Este último, actualmente se encarga de «coordinar y controlar las medidas de seguridad«. Pero, el DPO tendrá una función no solo de seguridad, sino con una mirada hacia dentro de la organización y hacia fuera:

  • Dentro de la empresa: informar y asesorar a todos los trabajadores de la organización en lo que a sus obligaciones con respecto a la normativa de protección de datos se refiere. Además, deberá elaborar los protocolos de asignación de responsabilidades y educación en esta materia, y velar por su cumplimiento. Por lo tanto, amplía sus funciones en esta materia.
  • Fuera de la empresa: será el encargado de responder a las solicitudes de información de la autoridad de control -la Agencia Española de Protección de Datos (AEPD) o equivalentes en Comunidades Autónomas- y cooperar con ellao para cualquier solicitud.

Este proceso de «blindaje» será tan exigente que hará que las empresas tengan que publicar los datos de contacto de sus Data Protection Officer, así como comunicárselo a la autoridad de control. Esto hará un ejercicio de transparencia y accountability que emana la importancia que adquiere. Es más, el proyecto de reglamento determina que no podrá ser despedido o sancionado mientras ejerza y ejecute sus tareas (artículo 36.3), ni tampoco encontrar injerencias o instrucciones en el ejercicio de sus tareas. Dada la naturaleza del desempeño de sus funciones, está obligado a guardar secreto y confidencialidad. Y, aunque puede, dentro del organigrama de trabajo, tener asignadas otras funciones o tareas, éstas no pueden dar lugar a un conflicto de intereses.

¿Y qué pasa si no cumplo este reglamento? Las multas por no cumplir reglamentos Europeos son importantes; hasta un 2% de los Ingresos de la organización o 100 millones por cada infracción. Esto invita a la cooperación y complicidad por parte de las instituciones.

Como ven, la reglamentación para la protección de datos personales vuelve a endurecerse y hacer que Europa, siga fiel a su estilo de garantzar los derechos fundamentales de sus ciudadanos. Entenderán así, que  la protección de datos quedó excluida de las negociaciones sobre el crucial tratado de Asociación Transatlántica de Comercio e Inversión que negocian la Unión Europea y Estados Unidos.  Otro tema que traerá largas reflexiones. Y ahí veremos el papel del Data Protection Officer como eje clave en las organizaciones.

El Data Protection Officer (Fuente: http://www.computing.co.uk/ctg/feature/2306122/rise-of-the-data-protection-officer)
El Data Protection Officer (Fuente: http://www.computing.co.uk/ctg/feature/2306122/rise-of-the-data-protection-officer)

Análisis de redes sociales: el poder de la teoría de grafos

Cuando hablamos de procesamiento de datos, automáticamente a muchos de nosotros nos vienen muchos números a la cabeza, muchas técnicas estadísticas, conclusiones cuantitativas, etc. Esto es así, pero es que hay mundo más allá de los números. Dos de las explotaciones de datos que más popularidad están ganando en los últimos tiempos, especialmente derivado de que se estima (más arriba, más abajo) que aproximadamente el 80% de los datos son desestructurados, son el análisis de textos y el análisis de redes sociales.

El análisis de textos o Text Mining hace  referencia al análisis de textos o contenidos escritos sin ningún tipo de estructura. Se calcula que el 80% de la información de una empresa está almacenada en forma de documentos. Sin duda, este campo de estudio es muy amplio, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto).

El segundo campo en el que veremos gran recorrido (ya lo estamos viendo) es el análisis de redes sociales o estructuras de grafos. Ya hablamos de ello en un artículo anterior. No es solo análisis de las redes sociales entendidas como análisis de contenido de Social Media. Es un estudio numérico, algebraico, de una representación de conocimiento en formato de grafo. Un campo que mezcla la sociología y las matemáticas (el álgebra de grafos) en el que hay actores o entidades que interactúan, pudiendo representar estas acciones a partir de un grafo.

Un grafo o representación de la interacción entre entidades o actores a través del álgebra de grafos (Fuente: http://www.adictosaltrabajo.com/tutoriales/web-htmlcomo-grafo/)
Un grafo o representación de la interacción entre entidades o actores a través del álgebra de grafos (Fuente: http://www.adictosaltrabajo.com/tutoriales/web-htmlcomo-grafo/)

El interés por estudiar los patrones y estructura que esconden esta representación de nodos y aristas ha crecido en los últimos años a medida que ha aumentado la relación entre agentes. Es decir, a medida que han crecido las redes sociales (¿cómo se relacionan mis clientes en facebook?), ha crecido la influencia de una persona en otra para comprar (los millenials confían más en la reputación de sus amigos que en la publicidad de las marcas), las redes de proveedores y clientes han aumentado sustancialmente (por la globalización de la economía y la interconexión internacional), etc., crece el interés por estudiar qué patrones pueden descubrirse para incrementar la inteligencia del negocio.

¿Y por qué esto de interés ahora? En la medida en que un problema dado (acordaros, primer paso de un proyecto Big Data), puede ser modelado mediante un grafo y resuelto mediante algoritmos específicos de la teoría de grafos, la información que podemos obtener es muy relevante. Esto es algo que los topógrafos (cómo enlazar las estaciones del metro de Nueva York de la manera más eficiente para todas las variables a optimizar -distancia, coste, satisfacción usuario, etc.-) o los antropólogos (cómo se han relacionado las especies y los efectos producidos unos en otros) llevan muchos años ya explotando. Ahora, da el salto al mundo del consumo, la sanidad, la educación, etc.

¿Qué nos puede aportar un grafo, una red social, y su análisis a nuestros interes? Las redes sociales pueden definirse como un conjunto bien delimitado de actores como pueden ser individuos, grupos, organizaciones, comunidades, sociedades globales, entre otros. Están vinculados unos a otros a través de una relación o un conjunto de relaciones sociales. El análisis de estos vínculos puede ser empleado para interpretar comportamientos sociales de los implicados. Esto es lo que ha venido a denominarse el Análisis de Redes Sociales o ARS (Social Network Analysis, o SNA).

Dentro del ARS, uno de los conceptos clave es la Sociometría. Su fundador, Jacob Levy Moreno, la describió como:

“La sociometría tiene por objeto el estudio matemático de las propiedades psicológicas de las poblaciones; con este fin utiliza una técnica experimental fundada sobre los métodos cuantitativos y expone los resultados obtenidos por la aplicación de estos métodos. Persigue así una encuesta metódica sobre la evolución y la organización de los grupos y sobre la posición de los individuos en los grupos”.

Usando una herramienta interactiva como Gephi,  se puede visualizar, explorar y analizar toda clase de redes y sistemas complejos, grafos jerárquicos y dinámicos. Es decir, hacer sociometría. Una herramienta de este tipo nos permitirá obtener diferentes métricas, que podemos clasificar en tres niveles:

  1. Nivel global de un grafo
    • Coeficiente de agrupamiento: nivel de agrupamiento de los nodos, para saber cómo de cohesionados o integrados están los agentes/actores.
    • Camino característico: mide el grado de separación de los nodos, para determinar lo contrario al punto anterior: cómo de separados o alejados están, y poder buscar así medidas para juntar más la relación entre agentes/actores.
    • Densidad: un grafo puede ser denso (cuando tiene muchas aristas) o disperso (muy pocas aristas). En este sentido, se puede interpretar como que hay mucha o poca conexión.
    • Diámetro: es el máximo de las distancias entre cualesquiera par de nodos. De esta manera, sabemos cómo de «alejados» o «próximos» están en agregado a la hora de comparar varios grafos.
    • Grado medio: número de vecinos (conexiones a otros nodos) medio que tiene un grado. Indicará cuál es la media de conexiones que tiene un nodo, de manera que se puede saber su popularidad..
    • Centralidad: permite realizar un análisis para indicar aquellos nodos que poseen una mayor cantidad de relaciones y por ende, los influyentes dentro del grupo. De esta manera, sabemos su «popularidad», lo que nos puede dar mucha información para saber la importancia de un nodo dentro del total.
  2. Nivel comunidad (grupos de nodos dentro de un grafo)
    • Comunidades: instrumento para conocerse a sí mismo, para conocer a los otros, al grupo concreto que vive su momento, y en general a los grupos que viven procesos similares. De esta manera, podemos agrupar a los nodos por patrones de similtud.
    • Puentes entre comunidades: ¿cómo se conectan estas comunidades? ¿cómo de comunicables son esas comunidades? Para trazar planes de actuación o de marketing.
    • Centros locales vs. periferia: para saber, dentro de las comunidades, los nodos que son más centrales o críticos, frente a los que no lo son.
  3. Nivel nodo (propiedades de un influenciador dado)
    • Centralidad: es una métrica de poder. El valor 0.522 para la centralidad de un nodo indica que si para cada par de influenciadores buscamos el camino más corto en el grafo, el 52.2% de estos caminos pasa por ese influenciador. Mide su popularidad, y el algoritmo de Google, por ejemplo, funcionó durante mucho tiempo así, siendo cada nodo, una página web o recurso en Internet.

      Métricas de un nodo en una red (Fuente: http://historiapolitica.com/redhistoria/imagenes/ndos/larrosa4.jpg)
      Métricas de un nodo en una red (Fuente: http://historiapolitica.com/redhistoria/imagenes/ndos/larrosa4.jpg)
    • Modularidad: la modularidad es una medida de la estructura de las redes o grafos. Fue diseñado para medir la fuerza de la división de una red en módulos (también llamados grupos, agrupamientos o comunidades). Las redes con alta modularidad tienen conexiones sólidas entre los nodos dentro de los módulos, pero escasas conexiones entre nodos en diferentes módulos.
    • Intermediación: se puede enfocar como la capacidad que inviste el nodo en ocupar una posición intermediaria en las comunicaciones entre el resto de los influenciadores. Aquellos, con mayor intermediación tienen un gran liderazgo, debido a que controlan los flujos de comunicación. Y esto, de nuevo, da mucha inteligencia a un negocio.
    • Pagerank: algoritmo que permite dar un valor numérico ( ranking ) a cada nodo de un grafo que mide de alguna forma su conectividad. Es el famoso pagerank que utilizó Google (de hecho, el algoritmo fue diseñado por los creadores de Google, que es de donde viene su pasado matemático).
    • Closeness: cuán fácil es llegar a los otros vértices. Indicará, por lo tanto, cómo de cerca queda ese influenciador para llegar a contactar con otros. Esto, permite saber cuán importante es ese nodo dentro de la red de influencia para eventuales comunicaciones o relaciones con otros nodos.

Todo esto ya se está empleando en campos tan diversos como el marketing digital (para la detección de influenciadores entre los seguidores, de especial importancia en la economía colaborativa, donde la reputación online es clave de consumo), el fútbol (para la detección que Xavi y Xabi Alonso fueron la clave en el campeonato de Sudáfrica para que España ganase, en lugar de Iniesta, autor del gol), optimización de rutas de distribución (por ejemplo, la de un taxi, en tiempo real, para evitar congestiones en ciudades como Pekín o New York), conocer los tipos de conversaciones que se mantienen con tu audiencia/comunidad (muy usado en televisión y Twitter), saber cuáles son los drivers de compra que más afectan a las decisiones de consumo de tus clientes, etc.

Y tú, ¿a qué esperas para que el análisis de grafos puedan aportarte inteligencia a tu representación en forma de red social? De nuevo, las matemáticas, además de la sociología, a disposición de la inteligencia de un negocio. Bienvenidos al análisis de redes sociales.

Marketing Intelligence: cómo optimizar mi estrategia de marketing a través del Big Data

Que el Big Data puede aportar mucho al mundo del marketing es algo que ya hemos señalado con anterioridad. En la era de Internet, la era digital, y dentro del mundo del marketing, el usuario tiene el poder: busca, recomienda, sugiere, se queja, etc. Es fundamental que todos estos que afectarán, en última instancia, a la oferta de una compañía, así como al propio mercado, las marcas lo tengan controlado.

Los beneficios que una organización puede obtener del análisis de estos datos a nivel de marketing son claros: conocimiento de sus clientes, mercados, productos, etc, redundando esto en nuevos mercados, nuevos segmentos, alineamiento de la empresa a los clientes. En definitiva nuevos ingresos y ahorros.

Oportunidades que se enmarcan en una era en la que personalización y especialización que demanda un cliente exigente e informado. El consumidor considera ahora Internet en todo el proceso de compra, emplea el móvil de manera omnipresente (por lo que se multiplican los puntos de contacto) y quiere una experiencia coherente entre canales para que se fidelice a nuestra marca. Es lo que se ha venido a denominar el customer journey o buyer journey, donde el dato juega un papel fundamental. Los puntos de contacto, tanto físicos como digitales, se han multiplicado, y en cada uno de ellos, tenemos una fuente de aprendizaje de lo que quiere, recomienda, busca, etc. nuestro cliente muy importante.

El Customer Journey y el marketing intelligence: un viaje a través de los puntos de contacto físicos y digitales (Fuente: http://www.chuimedia.co.ke/wp-content/uploads/sites/8/2014/11/perfect-consumers-journey.png)
El Customer Journey: un viaje a través de los puntos de contacto físicos y digitales (Fuente: http://www.chuimedia.co.ke/wp-content/uploads/sites/8/2014/11/perfect-consumers-journey.png)

Así, tenemos que ofrecer a nuestros clientes experiencias de compra únicas e integrales a través de estrategias omnicanal. Hasta un 65% de los clientes visita canales online antes de comprar en las tiendas físicas. El cliente decide el canal por el que quiere comprar, y no nosotros como empresas. Y en todo esto, el dato es el activo con el que poder habilitar todas estas opciones.

El Business Intelligence y Analytics aporta la inteligencia al dato para convertirlo en conocimiento y disponer de ese valor estratégico. Hablamos de aumentar el valor que ofrecemos al cliente, y para nosotros, como empresa, aumentar la rentabilidad que obtenemos del mismo. En la siguiente representación podemos ver cómo a lo largo del tiempo, la ganancia, el valor, que sacamos a un cliente es cada vez mayor. Y para ello, tenemos diferentes técnicas de tratamiento de datos que nos pueden ayudar en esta tarea. Y en ello, centraremos lo que resta del artículo.

Cómo aumentar el valor obtenido de los clientes (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)
Cómo aumentar el valor obtenido de los clientes
(Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)

La idea es analizar la parte más transaccional (de compra-venta) con las acciones de marketing. Con este dúo, sacamos acciones de marketing con objetivos, personalizado e hipersegmentado. Se trata de analizar los datos contextuales de una compra (momento, lugar, composición de la cesta de la compra), lo enmarcamos en perspectiva (frecuencia, tiempo entre última compra, etc.) analizamos el cliente (si lo hace con tarjeta de fidelización, edad y perfil sociodemográfico, si viene incentivado por un descuento, etc.) y el canal por el que entra (online -tienda online, landing page, redes sociales, etc- u offline), y preguntarnos cosas. Ya hemos dicho en alguna otra ocasión que esta era se caracteriza por la curiosidad, por saber hacernos las preguntas correctas para sacarles valor a los datos.

Por lo tanto, corresponde hablar de modelos de análisis de datos más avanzados. Y, dentro del área de marketing, los cuatro más relevantes son:

  1. Modelos de propensión a la compra (cross y upselling): modelos que calculan la probabilidad de aceptación que tiene un cliente de adquirir productos complementarios (cross) o productos de más alta gama (up) para hacer una venta más rentable. Ambas técnicas las fomentamos presentando productos de una manera amigable, de tal modo que incite a comprar complementos que se sugieren de manera personalizada. Y para ello, se puede emplear la técnica de las reglas de asociación, también conocida como Market Basket Analysis o análisis de afinidad.
  2. Modelos de propensión a la fuga: Uno de los fundamentos básicos de la experiencia humana es que el futuro próximo es parecido al pasado reciente. Esto lo podemos considerar para alcanzar objetivos de retener a los mejores/más rentables clientes, e identificar los factores clave que influyen en el attrition (fuga de clientes). Se utilizan scores para priorizar los clientes objetivo de acciones de retención. Estos clientes son identificados cuando alcanzan ciertos valores en variables con mucha capacidad predictiva (quejas interpuestas, menor frecuencia de compra, etc.) Cada empresa dispone de su modelo, y luego podrá aplicar acciones como descuentos a los más propensos a irse, promociones adhoc a un conjunto de clientes que si bien no son los más propensos a irse ya no tienen la mejor experiencia de cliente, etc. etc.
  3. Optimización de las campañas y acciones dentro de una estrategia omnicanal: con la aparición de Internet, las organizaciones se vieron en la necesidad de crear presencia en múltiples canales. Las estrategias omnicanal, tienen dos objetivos principales: 1) Ofrecer al consumidor una experiencia de compra coherente y sin disrupción entre los diferentes canales; 2) Usar los canales digitales como un vector de generación de tráfico hacia la tienda. Los principales retos no son tanto tecnológicos, sino organizacionales (estructura, incentivos alineados) y operacionales (procesos, políticas y workflows consistentes). La integración con el CRM se vuelve crítica. Así, podremos responder a preguntas como: ¿en qué canal centrarnos? ¿Cuál funciona? ¿Cómo comunicar los datos de un canal con otro? Para un tamaño de cesta dado (y en definitiva, de margen absoluto determinado), ¿qué acción online u offline de marketing reforzar? Conocer cuáles son las que más leads convierten, y por segmentos de población, para así poder personalizar las acciones.
    Disponemos de herramientas como Chaordic o Hubspot que permiten hacer la traza de navegación desde que un futuro cliente es un lead, para así poder conocer cuál ha sido la acción y el canal que le ha llevado a su conversión a cliente final. Una vez que teníamos identificados los objetivos (evitar fugas, aumentar la rentabilidad de un cliente determinado, etc.), es cuando podíamos a través de campañas y acciones de marketing hacer un plan de acción.
    En definitiva, se trata de programar y automatizar la ejecución de campañas, interactuar con los canales, y capturar las respuestas y medir la efectividad de las mismas. A nivel matemático, lo que hacemos es un análisis de sensibilidad.
  4. Inversión que puedo asumir para adquirir nuevos clientes a tenor del valor que les puedo sacar en el tiempo: la adquisición de clientes y cómo poder rentabilizar esa inversión en el tiempo. A sabiendas que en Internet yo pago por adquirir clientes (una lógica de marketing nueva y que la era digital aporta), rentabilizar el Coste de Adquisición (CAC) con el Valor del Cliente a lo largo del tiempo (CLV) es la idea fundamental. Muchos negocios plantean proyectos de marketing que requieren de este enfoque. Es decir, dependen de presentarles un plan de negocio donde se les argumente la pertinencia y necesidades de hacer inversiones en marketing (Coste de Adquisición) por la rentabilidad que se le puede sacar a cada cliente en el tiempo si conseguimos fidelizar al mismo. El problema es que los cálculos que se suelen hacer para calcular el coste máximo de una campaña de captación de clientes se basa en una venta única típicamente. Lo que no se tiene en cuenta es que ese mismo cliente podría repetir su compra, que es lo que suele ocurrir en los enfoques de fidelización que tan útiles resultan. Por lo tanto, hacer el cálculo matemático del CAC y el CLV resultan de enorme interés para poder poner en marcha acciones estratégicas de marketing que permitan maximizar el negocio.

En definitiva, en el campo del Marketing Intelligence, vamos a poner la estadística al servicio del negocio. Os dejamos abajo una presentación de una sesión del programa en la que vemos muchas de estas cuestiones para que podáis profundizar.

Por qué hablamos del Business Analytics y no solo de Business Intelligence

El Business Intelligence (Inteligencia de Negocios) es un conjunto de métodos y técnicas que han venido empleándose desde hace años en diferentes sectores para ayudar en la toma de decisiones. Básicamente consiste en el procesamiento de datos para obtener información resumida y sintetizada de todos ellos.

Lo que ha ocurrido es que en los últimos años ha aparecido un nuevo paradigma, que hemos venido a denominar Big Data. Un paradigma que se puede describir por sus cinco elementos que lo caracterizan: Volumen (gran cantidad de datos), Variedad (diferentes formatos, estructuras, etc. de datos), Velocidad (gran velocidad a la que los generemos), Variabilidad (datos no muy estáticos, sino que cambian con cierta frecuencia) y Valor (el gran potencial de generación de valor que tienen para las organizaciones).

Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/sites/8/2014/02/bigdata-v5-lens.jpg)
Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/sites/8/2014/02/bigdata-v5-lens.jpg)

Este nuevo paradigma, junto con los métodos avanzados de procesamiento estadístico y matemático (incertidumbre y exactitud) de datos, enriquecen y permiten una toma de decisiones aún más estratégica e informada. Ahora, una empresa no solo puede resumir el pasado (enfoque Business Intelligence), sino que también puede establecer relaciones y comparaciones entre variables para tratar de adelantarse al futuro (Business Analytics).

Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)
Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)

Es decir, que evolucionamos del Business Intelligence tradicional al Business Analytics gracias al nuevo paradigma que trae el Big Data y los métodos de procesamiento de datos más avanzados. Con estos servicios de Business Analytics, básicamente, a una compañía, lo que podemos ofrecerle son dos tipos de explotaciones de datos:

  • Informar: ver lo que ha ocurrido en el pasado, y tomar decisiones reactivas (Business Intelligence).
  • Predecir: inferir lo que puede ocurrir en el pasado, y tomar decisiones proactivas (Business Analytics)

A partir de estos principios básicos de lo que el Business Analytics es, ya pueden ustedes imaginarse el gran potencial que tiene. Como decía al comienzo, el Business Analytics trae una inteligencia a los negocios enriquecido a través de modelos estadísticos que permiten descubrir nuevas estructuras, patrones, relaciones entre variables, etc. Esto, sumado a la era de la ingente cantidad de datos, hace que las compañías se puedan beneficiar de todo ello en muchas áreas: sanidad, educación, marketing, producción, logística, etc.

Para que se hagan ustedes a la idea, y puedan llevarlo a un plano práctico de su día a día, puede responder a preguntas como:

  • ¿Cómo puedo descubrir más información relevante sobre mis clientes? Datos como los drivers que le llevan realmente a comprar, cómo se relacionan mis clientes entre ellos, qué opiniones son las que han sido clave para la toma de decisión de compra, etc.
  • ¿Qué pasaría si cambio el precio de mis productos/servicios? Es decir, disponer de un análisis de sensibilidad de una variable (precio) respecto a su impacto en otra (ventas totales de ese producto o sobre otros), de manera que puedo ver la relación entre las mismas.
  • ¿Cómo puedo reducir la tasa de abandonos de mis clientes? Es decir, construir un modelo de propensión a la fuga, para saber qué puntos o acciones son las que pueden llevar a un cliente a abandonarme. De esta manera, a futuro, tendría más probabilidad de encontrar clientes que pudieran marcharse de la compañía.
  • ¿Cómo puedo identificar a los clientes más rentables? No desde el punto de vista de las ventas totales, sino del valor que extraigo de cada uno de ellos (entendiendo valor como margen de beneficio)
  • ¿Cómo puedo detectar fraude? Analizando el histórico de valores que van tomando las variables para los casos de éxito (no hay fraude, se paga a tiempo, no hay insolvencias, etc.) y los de fracaso (fraudes, impagos, etc.), se pueden construir modelos que relacionen las variables que frecuentemente están asociados a los casos de fracaso, y así poder anticiparse a futuro.
  • etc.

Para poder hacer esto, como pueden imaginarse, los métodos de descubrimiento de información resultan fundamentales. Bueno, partiendo de la base que lo más importante es que tengamos bien preprocesada nuestra información, porque sin eso, cualquier algoritmo fallará. Esto es precisamente lo que hablamos al introducir los ETL y la importancia de la calidad de datos y su preprocesado.

Los métodos a utilizar son variados y a veces uno no sabe cuál de ellos va a dar mejores resultados o cuál de ellos se adecúa a lo que yo realmente estoy buscando. En el blog Peekaboo publicaron un cheat sheet (una «chuleta» de toda la vida) que utilizo siempre en los cursos introductorios a Business Analytics, dado que es bastante expreisva.

Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)
Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Más que una chuleta, es un flujograma que terminará en el método que deberíamos utilizar para el objetivo que perisgamos. Como podéis ver, simplemente navegando por las preguntas que se van realizando a través del flujograma, puedo llegar yo a saber qué familia de tratamiento de datos es la más adecuada para los objetivos que persigo.

Como podéis comprobar, el punto de partida es tener una muestra de 50 instancias/observaciones. A partir de ahí, o bien debemos buscar más, o bien poder seguir navegando hasta encontrar el método más adecuado. ¿Qué buscamos?

  • ¿Predecir una cantidad numérica? Aquí los métodos de regresión serán tu solución.
  • ¿Predecir una categoría? Los clasificadores pueden servir para alcanzar estos objetivos.
  • ¿Agrupar mis instancias/observaciones por un comportamiento común? Las técnicas de clusterización me permiten a mí agrupar observaciones por patrones similares.
  • ¿Observando la estructura de mi conjunto de datos? Las técnicas de reducción de la dimensionalidad son las que me pueden servir para este objetivo.

En definitiva, ya podéis observar cómo la ayuda a la toma de decisiones estratégicas (el Business Intelligence tradicional), se ha visto enriquecido gracias a dos nuevas dimensiones: una tecnológica (el Big Data) y otra matemática/estadística. ¿A qué esperas para sacar valor del Business Analytics en tu organización?

La aplicación del Big Data y Business Intelligence en la creación de valor para el cliente

(Entrada escrita por David Ruiz de Olano, Director de Programas en Deusto Business School)

Asistiendo a una jornada de Alex Rayón, es cada vez más evidente que la forma de hacer marketing tiene que cambiar. Alex es director del seminario de Big Data & Business Intelligence (BDBI), organizado entre la Facultad de Ingeniería de Deusto y Deusto Business School, y profesor e investigador en la Universidad de Deusto sobre Marketing y Big Data y muy activo en esta área.

Desde el punto de vista de marketing, tradicionalmente el proceso del marketing (marketing estratégico y marketing operacional) se puede ilustrar con la siguiente figura:

El proceso de marketing (Fuente: elaboración propia)
El proceso de marketing (Fuente: elaboración propia)

Evidentemente en el análisis de las 5C, todos los datos que se puedan traducir en información ayudarán a tener un mejor diagnóstico de nuestro entorno.

Pero lo que me interesa de esta jornada es la aplicación del BDBI en la creación de valor para el cliente. Una de las claves en el marketing es la segmentación (¿quién es mi cliente?). Tradicionalmente las empresas identifican quién es su público objetivo, basado en parámetros demográficos, sociales, económicos, comportamiento, etc… de un mercado más general. Con esta identificación, buscan cuáles son sus problemas, necesidades, etc… escogen un público determinado y se posicionan en ese nicho.

Como decía Kotler, gurú del marketing del siglo pasado – como pasa el tiempo-, si resuelves el problema de segmentación, automáticamente tendrás las respuestas para definir tus 4Ps (producto, promoción, lugar y precio) y te saldrán automáticamente. Porque una vez sabes quién es tu potencial cliente, ya sabes qué producto tienes que ofrecerle, qué ventajas tiene que tener sobre los competidores, dónde está y cómo poder llegar a él, qué precio está dispuesto a pagar. Teniendo muy claro quién es mi cliente, cuántas horas de reuniones nos podríamos ahorrar discutiendo sobre el precio…

Evidentemente BDBI tiene mucho que decir en la segmentación. Pero no tanto a priori, si no a posteriori. Con la cantidad de datos que las empresas tienes sobre nosotros, ya no hace falta hacer hipótesis de quién es nuestro cliente: basta mirar en los datos e identificarlos.

Gracias a las herramientas de BDBI (que por cierto, ni son caras ni difíciles de usar), basta un poco de curiosidad, jugar con los datos y empezar a ver correlaciones. ¿Hay alguna relación entre los clientes que compran 2 mismos productos? ¿Es nuestra segmentación inicial la que se refleja en las compras de nuestros clientes y las ventas de nuestros productos? ¿A qué horas del día hay un comportamiento de compra parecido? Por ejemplo, en Tableau, una empresa que intenta facilitar la visualización de BDBI, podéis ver un caso sobre la segmentación y el hecho de cuestionarnos nuestras hipótesis iniciales.

Esta aproximación que aparentemente parece que es sólo válida para comercios B2C online se pueden extraer de otros lugares. El BDBI no es exclusivo de negocios online, nacidos en la era digital. Efectivamente, lo tienen más fácil, pero todas las empresas pueden empezar a explorar. Quizás sea ese uno de los retos para la implementación del BDBI en los negocios que no vienen del mundo online. Como comentaba Alex, un 60%- 80% de los esfuerzos para una estrategia de BDBI se centran en los datos y en el ETL (Extracción, Transformación y carga o Load), encontrarlos entre las diferentes partes del negocio (ERPs, CRM, departamento financiero, controller, etc…), limpiarlos y ponerlos bonitos. Aunque Alex menciona 4 etapas y el tiempo que se va a dedicar a cada etapa:

  • Etapa 1: Cargar datos (hasta un 80%)
  • Etapa 2: Preguntas (5%)
  • Etapa 3: Modelo estadístico/analítico (5%)
  • Etapa 4: Visualización de resultados (10%)

Quizás mi visión sería empezar por las preguntas y terminar en el modelo estadístico. Pero lo que estoy seguro es que una de las grandes aportaciones del BDBI al marketing es en el tema de segmentación, pasando de una segmentación clásica a una clusterización (que hasta ahora era más complicado). La maravilla del BDBI es que no tenemos que pensar cuáles son las variables para hacer el cluster, las propias herramientas nos dirás qué cluster son los que representan mejor a los clientes y qué características. También, incluso nos permitirá saber cuál es la probabilidad de que un cliente de telefonía abandone su compañía y qué características tiene o saber la características del cliente de un banco portugués que no compra un producto y el proceso comercial asociado. Y por otra parte, ayudarnos a hacer preguntas que hasta ahora ni nos habíamos imaginado.

Lo que está claro, es que si una empresa quiere sobrevivir en los próximos 10 años, de una forma u otra, el BDBI le impactará de alguna manera. La pregunta es ¿espero a que me obliguen o empiezo a explorar ya? La creación de valor en mi organización a través del Big Data y Business Intelligence está a mi disposición.

Ciclo «El empleo hoy: oportunidades de mañana. Big Data y Business Intelligence», 2 de Diciembre, 2015

Son muchas las estadísticas que hacen referencia a la oportunidad de empleo que existe alrededor del Big Data. Según Gartner, en 2015 van a ser necesarios 4,4 millones de personas formadas en el campo del análisis de datos y su explotación. En este sentido, McKinsey sitúa en torno al 50% la brecha entre la demanda y la oferta de puestos de trabajo relacionados con el análisis de datos en 2018. Es decir, existe un enorme déficit de científicos y analistas de datos.

Por otro lado, el Big Data está empezando a entrar en los procesos de negocio de las organizaciones de manera transversal. Anteriormente, era empleado para necesidades concretas (evitar la fuga de clientes, mejora de las acciones del marketing, etc.), siendo impulsado mayoritariamente por los equipos técnicos y tecnológicos de las compañías. Se están creando nuevas herramientas analíticas diseñadas para las necesidades de las unidades de negocio, con sencillas, útiles e intuitivas interfaces gráficas. De este modo, el usuario de negocio impulsa la adopción de soluciones Big Data como soporte a la toma de decisiones de negocio.

La llegada de Big Data al usuario de negocio representa una oportunidad de ampliar el número de usuarios y extender el ámbito de actuación. Se prevé así que cada vez entren más proveedores, tanto de soluciones tecnológicas como de agregadores de datos. Y es que el Big Data comienza a ser el elemento principal para la transformación de las organizaciones (en constante búsqueda de la eficiencia y la mejora de sus procesos) e inclusos de sus modelos de negocio (nuevas oportunidades de monetización). En este sentido, son muchas las organizaciones que han pasado de productos a servicios, y necesitan reinventarse sobre el análisis de los datos.

Con todo ello, y ante la multidimensionalidad de esta transformación económica y tecnológica, se están creando nuevos perfiles y puestos de trabajo desconocidos en nuestra sociedad y que tienen que ver con los datos. Big Data implica un cambio en la dirección y organización de las empresas. El que no esté preparado para hacer las preguntas adecuadas, sabiendo que se lo puede preguntar a los sistemas, estará desperdiciando el potencial de su organización. Y en ello necesitará un perfil que conozca del ámbito técnico, del económico, del legal, del humano, etc., y de competencias genéricas como la inquietud, el trabajo en equipo, la creatividad, orientación a la calidad y el cliente, etc. Queda claro así, que esto no es un campo sólo técnico; es mucho más amplio y diverso.

Las empresas están empezando a entender la necesidad de trabajar con los datos, y eso teniendo en cuenta que actualmente sólo se usa el 5% del todo el caudal de datos. Pero es manifiesta la falta de talento.

Por todo ello, organizamos un ciclo de eventos que hemos denominado «El empleo hoy: oportunidades de mañana. Big Data y Business Intelligence«. El primero de ellos, será el próximo 2 de Diciembre. Contaremos con la presencia de protagonistas de este cambio. Empresas, que sí tienen esta visión del dato como elemento transformador de su organización y su modelo de negocio. Empresas, que demandan este talento que todavía es muy escaso. Puedes registrarte en este formulario, con una inscripción totalmente gratuita. El evento lo celebraremos entre las 9:15 y 13:30, en la Sala Ellacuría de la Biblioteca-CRAI de la Universidad de Deusto.

Todos los detalles del programa los podéis encontrar en la parte inferior de este artículo. Contaremos con la presencia de un reputado conferencista internacional, Patricio Moreno, CEO de la empresa Datalytics. Con mucha presencia en varios países de Latinoamérica y Europa, nos ofrecerá una visión global de las oportunidades de transformación que trae el Big Data a las organizaciones y a las personas para su desempeño laboral futuro. Además, Natalia Maeso, gerente en Deloitte, nos contará cómo desde el mundo de la consultoría (Deloitte es la primera firma en consultoría a nivel mundial), las oportunidades laborales que trae el Big Data. Los niveles de contratación del mundo de la consultoría en este sector son realmente altos.

Por último, cerraremos la jornada con una mesa redonda, en la que además de Patricio y Natalia, contaremos con Antonio Torrado de HP, Marita Alba de CIMUBISA y David Ruiz de Smartup, para debatir y conversar sobre las competencias, conocimientos y técnicas necesarias para los profesionales que hacen que las organizaciones evolucionen hacia la ventaja competitiva que ofrece la explotación de los datos.

Os esperamos a todos el 2 de Diciembre. Os dejamos el formulario de inscripción aquí.

Programa

Empleo y Big Data (Fuente: http://noticias.infocif.es/sites/default/files/styles/n1000x540/public/i/a/big_0.jpg?itok=wivBVYS0)
Empleo y Big Data (Fuente: http://noticias.infocif.es/sites/default/files/styles/n1000x540/public/i/a/big_0.jpg?itok=wivBVYS0)

Visual Analytics: la visualización analítica, eficiente e inteligente de datos

Suelo decir en los cursos que el gran reto que nos queda por resolver es «pintar bien el Big Data«. Con estas palabras semánticamente pobres, lo que trato de decir es que la representación visual del dato no es un tema trivial; y que nos podemos esforzar en hacer un gran proyecto de tratamiento de datos, integración y depuración, etc., que si luego finalmente no lo visualizamos apropiadamente, el usuario puede no estar completamente satisfecho con ello. Por ello, he querido dedicar este artículo para hablar del área del Visual Analytics o visualización analítica e inteligente de datos.

Antoine de Saint-Exupery, autor de “El principito”, dijo eso de “La perfección se alcanza no cuando no hay nada más que añadir, sino cuando no hay nada más que quitar”. Es decir, un enfoque minimalista. Y es que la visualización de información es una mezcla entre narrativa, diseño y estadística. Estos tres campos tienen que ir inexorablemente unidos para no correr el peligro de perderse con la interpretación de la idea a través de estímulos visuales. Las buenas representaciones gráficas, deben cumplir una serie de características:

  1. Señalar relaciones, tendencias o patrones
  2. Explorar datos para inferir nuevo conocimiento
  3. Facilitar el entendimiento de un concepto, idea o hecho
  4. Permitir la observación de una realidad desde diferentes puntos de vista
  5. Y permitir recordar una idea.

Estos serán nuestros cinco objetivos cuando representamos algo en una gráfica o representación visual. A partir de hoy, nuestras cinco obsesiones cuando vayamos a representar una idea o relación de manera gráfica. ¿Cumplen estas características tus visualizaciones de datos e información? La puesta en valor del dato, como ven, no es algo trivial. Para prueba, un caso, cogido medianamente al azar:

Cancelaciones de aviones desde 2007 a 2010 (Fuente: USA TODAY)
Cancelaciones de aviones desde 2007 a 2010 (Fuente: USA TODAY)

¿Problemas? En primer lugar, ¿qué quiere señalar? Si es una relación, tendencia o patrón, ¿no debería darnos más idea de si los números son relevantes o no? ¿qué significan? ¿cómo me afectan? No facilita entender un concepto, sino que introduce varias dimensiones (tiempo, cancelaciones de vuelos, variación de la tendencia, etc.). Y, encima, lo hace representándolo sobre el ala de un avión. ¿Quiere transmitir seguridad o inseguridad? Genera dudas. Hubiera sido esto más simple si fuera como una cebolla con una única capa: una idea, una relación, un concepto clave. No hace falta más.

La representación visual es una forma de expresión más. Como las matemáticas, la música o la escritura, tiene una serie de reglas que respetar. Hoy en día, en que la cantidad de datos y la tecnología ya no son un problema, el reto para las empresas recae en conocer los conceptos básicos de representación visual. Es lo que se ha venido a conocer como la ciencia del Visual Analytics, definida como la ciencia del razonamiento analítico facilitado a través de interfaces visuales interactivas. De ahí que hoy en día los medios de comunicación utilicen cada vez estas representaciones gráficas de datos e información con las que podemos interactuar.

El uso de representaciones visuales e interactivas de elementos abstractos permite ampliar y mejorar el procesamiento cognitivo. Por lo tanto, para transladar ideas y relaciones, ayuda mucho disponer de una gráfica interactiva. Hay muchos teóricos y autores que se han dedicado a generar teoría y práctica en este campo de la representación visual de información. De hecho, la historia de la visualización no es algo realmente nuevo. En el Siglo XVII, ya destacaron autores como Joseph Priestley y William Playfair. Más tarde, en el Siglo XIX, podemos citar a John Snow, Charles J. Minard y F. Nightingale como los más relevantes (destacando especialmente el primero, que a través de una representación geográfica logró contener una plaga de cólera en Londres). Ya en el Siglo XX, Jacques Bertin, John Tukey, Edward Tufte y Leland Wilkinson son los autores más citados en lo que a visualización y representación de la información se refiere.

Representación gráfica del brote de cólera de John Snow: nacen así, los Sistemas de Información Geográfica o SIG (Fuente: http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/)
Representación gráfica del brote de cólera de John Snow: nacen así, los Sistemas de Información Geográfica o SIG (Fuente: http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/)

Tufte es quizás el autor más citado. Su libro “The Visual Display of Quantitative Information”, una biblia para los equipos de visualización eficientes y rigurosas. De hecho, los principios de Tufte, los podemos resumir en la integridad gráfica y el diseño estético. Siempre destaca cómo los atributos más importantes el color, el tamaño, la orientación y el lugar de la página donde presentamos una gráfica. Y es que, por mucho que nos sorprenda o por simple que nos parezca, la codificación del valor (datos univariados, bivariados o multivariados) y la codificación de la relación de valores (líneas, mapas, diagramas, etc.), no es un asunto trivial. Un ejemplo de esto sería la siguiente gráfica:

Banking the World Bank (Fuente: http://blogs.elpais.com/.a/6a00d8341bfb1653ef0153903125d9970b-550wi)
Banking the World Bank (Fuente: http://blogs.elpais.com/.a/6a00d8341bfb1653ef0153903125d9970b-550wi)

Si cogemos el gráfico anterior y yo os hago preguntas relacionadas con la identificación del mayor donante o el mayor receptor, ustedes tendrían problemas. Quizás con un patrón de color esto se hubiera resuelto. Pero ni con esas.  Un mapa no es la mejora manera de representar este tipo de datos (y hoy en día se abusa mucho de los mapas). Si quiero responder a las preguntas anteriores, tengo que realizar una búsqueda de las cifras, memorizarlas y luego compararlas.  Lo dicho al comienzo; una idea, un patrón, una relación, y luego, búsqueda de la mejor gráfica para ello. Por eso los gráficos de tarta… mejor dejarlos para el postre 😉 (los humanos no somos especialmente hábiles comparando trozos de un círculo cuando hablamos de áreas… que es lo que propone un gráfico de tarta con los trocitos en los que descomponemos un círculo)

Quizás la referencia más importante de todo esto que estamos hablando se encuentre en el artículo que en 1985 escribieron Cleveland y McGill, titulado “Ranking of elementary perceptual tasks”. Dos investigadores de AT&T Bell Labs, William S. Cleveland y Robert McGill, publicaron este artículo central en el Journal of the American Statistical Association. Propone una guía con las representaciones visuales más apropiadas en función del objetivo de cada gráfico, lo cual nos ofrece otro pequeño manual para ayudarnos a representar la información de manera inteligente y eficiente.

“A graphical form that involves elementary perceptual tasks that lead to more accurate judgements than another graphical form (with the same quantitative information) will result in a better organization and increase the chances of a correct perception of patterns and behavior.” (William S. Cleveland y Robert McGill, 1985)

Dicho todo esto, y con la aparición del Big Data, muchos autores comenzaron a trabajar en crear metodologías eficientes para la visualización de información. Lo que hemos denominado al comienzo como Visual Analytics: la visualización analítica, eficiente e inteligente de datos que ayuda a aumentar el entendimiento e interpretación de una idea, una relación, un patrón, etc.

En nuestro Programa de Big Data y Business Intelligence, celebraremos próximamente una sesión en la que precisamente hablaremos de todo esto. Cómo seguir una serie de pasos y criterios a considerar para ayudar al lector, al usuario, a entender y pensar mejor. Un campo que se nutre de los conocimientos del área de Human-Computer-Interaction (HCI) y de la visualización de información. Y, como muestro en la siguiente figura (un proceso de Visual Analytics basado en trabajos de Daniel Keim y otros), aplicaremos un método para pasar del dato al conocimiento, a través de los modelos analíticos y la visualización de información que no confunda, y como decía Saint-Exupery, simplifique.

Proceso de Visual Analytics (Fuente: elaboración propia)
Proceso de Visual Analytics (Fuente: elaboración propia)

¿Cuál será el resultado de esta sesión? Un dashboard, un informe, un panel de mando de KPIs bien diseñado y elaborado. Es decir, conocimiento eficiente e inteligente para ayudar a las organizaciones a tomar decisiones apoyándose en gráficos bien elaborados. Un dashboard que cumpla con nuestros cinco principios y que permita al estudiante llevarse su tabla periódica de los métodos de visualización eficiente.

Tabla periódica de los métodos de visualización (Fuente: http://www.visual-literacy.org/periodic_table/periodic_table.html)
Tabla periódica de los métodos de visualización (Fuente: http://www.visual-literacy.org/periodic_table/periodic_table.html)

Herramientas ETL y su relevancia en la cadena de valor del dato

El proceso de Extracción (E), Transformación (T) y Carga (L, de Load en Inglés) -ETL- consume entre el 60% y el 80% del tiempo de un proyecto de Business Intelligence. Suelo empezar con este dato siempre a hablar de las herramientas ETL por la importancia que tienen dentro de cualquier proyecto de manejo de datos. Tal es así, que podemos afirmar que proceso clave en la vida de todo proyecto y que por lo tanto debemos conocer. Y éste es el objetivo de este artículo.

La cadena de valor de un proyecto de Business Intelligence la podemos representar de la siguiente manera:

Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)
Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)

Hecha la representación gráfica, es entendible ya el valor que aporta una herramienta ETL. Como vemos, es la recoge todos los datos de las diferentes fuentes de datos (un ERP, CRM, hojas de cálculo sueltas, una base de datos SQL, un archivo JSON de una BBDD NoSQL orientada a documentos, etc.), y ejecuta las siguientes acciones (principales, y entre otras):

  • Validar los datos
  • Limpiar los datos
  • Transformar los datos
  • Agregar los datos
  • Cargar los datos

Esto, tradiocionalmente se ha venido realizando con código a medida. Lo que se puede entender, ha traído muchos problemas desde la óptica del mantenimiento de dicho código y la colaboración dentro de un equipo de trabajo. Lo que vamos a ver en este artículo es la importancia de estas acciones y qué significan. Por resumirlo mucho, un proceso de datos cualquiera comienza en el origen de datos, continúa con la intervención de una herramienta ETL, y concluye en el destino de los datos que posteriormente va a ser explotada, representada en pantalla, etc.

¿Y por qué la importancia de una herramienta ETL? Básicamente, ejecutamos las acciones de validar, limpiar, transformar, etc. datos para minimizar los fallos que en etapas posteriores del proceso de datos pudieran darse (existencia de campos o valores nulos, tablas de referencia inexistentes, caídas del suministro eléctrico, etc.).

Este parte del proceso consume una parte significativa de todo el proceso (como decíamos al comienzo), por ello requiere recursos, estrategia, habilidades especializadas y tecnologías. Y aquí es donde necesitamos una herramienta ETL que nos ayude en todo ello. ¿Y qué herramientas ETL tenemos a nuestra disposición? Pues desde los fabricantes habituales (SAS, Informatica, SAP, Talend, Information Builders, IBM, Oracle, Microsoft, etc.), hasta herramientas con un coste menor (e incluso abiertas) como Pentaho KettleTalend y RapidMiner. En nuestro Programa de Big Data y Business Intelligence, utilizamos mucho tanto SAS como Pentaho Kettle (especialmente esta última), por lo que ayuda a los estudiantes a integrar, depurar la calidad, etc. de los datos que disponen. A continuación os dejamos una comparación entre herramientas:

Comparación Talend vs. Pentaho Kettle
Comparación Talend vs. Pentaho Kettle

¿Y qué hacemos con el proceso y las herramientas ETL en nuestro programa? Varias acciones, para hacer conscientes al estudiante sobre lo que puede aportar estas herramientas a sus proyectos. A continuación destacamos 5 subprocesos, que son los que se ejecutarían dentro de la herramienta:

  1. Extracción: recuperación de los datos físicamente de las distintas fuentes de información. Probamos a extrar desde una base de datos de un ERP, CRM, etc., hasta una hoja de cálculo, una BBDD documental como un JSOn, etc. En este momento disponemos de los datos en bruto. ¿Problemas que nos podemos encontrar al acceder a los datos para extraerlos? Básicamente se refieren a que provienen de distintas fuentes (la V de Variedad), BBDD, plataformas tecnológicas, protocolos de comunicaciones, juegos de caracteres y tipos de datos.
  2. Limpieza: recuperación de los datos en bruto, para, posteriormente: comprobar su calidad, eliminar los duplicados y, cuando es posible, corrige los valores erróneos y completar los valores vacíos. Es decir se transforman los datos -siempre que sea posible- para reducir los errores de carga. En este momento disponemos de datos limpios y de alta calidad. ¿Problemas?ausencia de valores, campos que tienen distintas utilidades, valores crípticos, vulneración de las reglas de negocio, identificadores que no son únicos, etc. La limpieza de datos, en consecuencia, se divide en distintas etapas, que debemos trabajar para dejar los datos bien trabajados y limpios.
    • Depurar los valores (parsing)
    • Corregir (correcting)
    • Estandarizar (standardizing)
    • Relacionar (matching)
    • Consolidar (consolidating)
  3. Transformación: este proceso recupera los datos limpios y de alta calidad y los estructura y resume en los distintos modelos de análisis. El resultado de este proceso es la obtención de datos limpios, consistentes y útiles. La transformación de los datos se hace partiendo de los datos una vez “limpios” (la etapa 2 de este proceso)(. Transformamos los datos de acuerdo con las reglas de negocio y los estándares que han sido establecidos por el equipo de trabajo. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados, etc.
  4. Integración: Este proceso valida que los datos que cargamos en el datawarehouse o la BBDD de destino (antes de pasar a su procesamiento) son consistentes con las definiciones y formatos del datawarehouse; los integra en los distintos modelos de las distintas áreas de negocio que hemos definido en el mismo.
  5. Actualización: Este proceso es el que nos permite añadir los nuevos datos al datawarehouse o base de datos de destino.

Para concluir este artículo, os dejamos la presentación de una de las sesiones de nuestro Programa de Big Data y Business Intelligence. En esta sesión, hablamos de los competidores y productos de mercado ETL.

Evitando el fraude a través de la presentación de la información en grafos

En nuestro workshop del pasado 27 de Octubre, también estuvo como ponente Jesús Barrasa, Field Engineer de Neo Technology. Básicamente, el  objetivo de su ponencia fue contarnos cómo poder prevenir el fraude a través de la modelización de la información en grafos. Este formalización matemática, que ha ganado bastante popularidad en los últimos años, permite una expresividad de información tan alta, que para muchas aplicaciones donde el descubrimiento de la información es crítica (como es el evitar el fraude), puede ser vital.

Pero, empecemos por lo básico. Jesús, nos describió lo que es un grafo. Un conjunto de vértices (o nodos), que están unidos por arcos o aristas. De este modo, tenemos una información representada a través de relaciones binarias entre el conjunto de elementos. Fue Leonhard Euler, matemático suizo, el inventor de la teoría de grafos en 1736. Por lo tanto, no estamos hablando de un instrumento matemático nuevo.

Un grafo, como conjunto de vértices y arcos (Fuente: https://www.flickr.com/photos/thefangmonster/352461415/in/photolist-x9suX-fDVc6-88T8hQ-7X9u8d-afsXkh-i6KLs-6PpBb6-836Ttv-85z1hy-rA46-rjfq-5RTzeU-bDcg8x-f5s1g3-a1Jv37-bsDVCK-7i62o-5WbpbF-i6LKS-aRBH8x-5RPjSa-h1Xkr2-4d5ypn-DifCQ-7SGo1D-9C4Y3c-noNEE9-7noTPo-7dYzTc-7dYzxZ-d672zw-99Z1f9-bz2Y9P-bquhCW-881tVy-4vn6sS-7Zebpn-4t7P4n-bdYG1z-ePUf2-aVcE68-f7Tsq-7JdUAY-bmhmrn-e2KEC6-63bkHm-e8zMaZ-88V6bY-9ZjTax-7SGo6Z)
Un grafo, como conjunto de vértices y arcos (Fuente: https://www.flickr.com/photos/thefangmonster/352461415/in/photolist-x9suX-fDVc6-88T8hQ-7X9u8d-afsXkh-i6KLs-6PpBb6-836Ttv-85z1hy-rA46-rjfq-5RTzeU-bDcg8x-f5s1g3-a1Jv37-bsDVCK-7i62o-5WbpbF-i6LKS-aRBH8x-5RPjSa-h1Xkr2-4d5ypn-DifCQ-7SGo1D-9C4Y3c-noNEE9-7noTPo-7dYzTc-7dYzxZ-d672zw-99Z1f9-bz2Y9P-bquhCW-881tVy-4vn6sS-7Zebpn-4t7P4n-bdYG1z-ePUf2-aVcE68-f7Tsq-7JdUAY-bmhmrn-e2KEC6-63bkHm-e8zMaZ-88V6bY-9ZjTax-7SGo6Z)

Pues bien, este tipo de representación de información (en grafos) es el tipo de bases de datos que más está ganando en popularidad en los últimos años (consultar datos aquí). Su uso en aplicaciones como las redes sociales (y todo lo que tiene que ver con el Análisis de Redes Sociales o Social Network Analysis), el análisis de impacto en redes de telecomunicaciones, sistemas de recomendación (como los de Amazon), logística (y la optimización de los puntos de entrega -vértices- a través de la distancia entre puntos – longitud de las aristas -), etc., son solo algunos ejemplos de la potencia que tiene la representación de la información en grafos.

Jesús nos introdujo un caso concreto que desde Neo Technology han trabajado para la detección y prevención del fraude. Un contexto de aplicación, que además de tener cierta sensibilidad social en los últimos años, no solo es aplicable al ámbito económico, sino también a muchos otros donde el fraude ha sido recurrente y muy difícil de detectar. El problema hasta la fecha es que los límites del modelo relacional de bases de datos (el que ha imperado hasta la fecha) han traído siempre una serie de asuntos que complicaban la detección:

  • Complejidad al modelizar relaciones (por asuntos como la integridad relacional, etc.)
  • Degradación del rendimiento al aumentar el número de asociaciones y con el volumen de datos
  • Complejidad de las consultas
  • La necesidad de rediseñar el esquema de datos cuando se introducen nuevas asociaciones y tipos de datos
  • etc.

Estos puntos (entre otros), hacen que las bases de datos relacionales tradicionales resulten hoy en día inadecuadas cuando las asociaciones entre puntos de datos son útiles y valiosas en tiempo real. Y aquí es donde las bases de datos NoSQL (orientadas a documentos, las columnares, las de grafos, etc.), son bastante útiles para soliviantar este problema.

Introducida esta necesidad por las bases de datos de grafos, Jesús nos contó el caso concreto de los defraudadores. Personas que solicitan líneas de crédito, actúan de manera aparentemente normal, extienden el crédito y de repente desaparecen. De hecho, decenas de miles de millones de dólares son defraudados al año solo a bancos estadounidenses. 25% del total de créditos personales son amortizados como pérdidas. Para prevenir esto, la modelización de los datos como grafos puede ayudar.

¿Qué es lo que se representa como un grafo? ¿Qué datos/información? Lo que Jesús denominó los anillos de fraude (que podéis encontrar en la imagen debajo de estas líneas). Acciones que va realizando un usuario, y que como son representadas a través de relaciones, permite no solo detectar el fraude, sino también minimizar pérdidas y prevenirlo en la medida de lo posible a través de cadenas de conexión sospechosas.

Anillo de fraude (Fuente: Neo Technology)
Anillo de fraude (Fuente: Neo Technology)

Como siempre, os dejamos al final de este artículo las diapositivas empleadas por Jesús. Otro caso más de aplicación del Big Data y de mejora de las sociedades, empresas e instituciones a través de la puesta en valor de los datos. En este caso, los grafos.

Smart City Bilbao: los datos al servicio de la ciudad

En el workshop que organizamos el pasado 27 de Octubre, también participó CIMUBISA, entidad municipal del Ayuntamiento de Bilbao. Básicamente, nos habló sobre la formulación estratégica de ciudad que tenía Bilbao, y cómo el Big Data impactaba sobre ella.

CIMUBISA expuso la formulación estratégica de ciudad que tiene Bilbao. Una estrategia que gira en torno a 5 ejes de actuación:

  1. Administración 4.0
  2. Tecnologías en el espacio urbano
  3. Ciudadanía digital y calidad de vida
  4. Desarrollo económico inteligente
  5. Gobernanza

Y en esta estrategia, el dato, la información, resultan clave para ayudar a decidir. No podemos construir una administración inteligente sin una información de calidad para tomar decisiones que beneficien a la sociedad en su conjunto. Prueba de ello es la representación esquemática que se muestra a continuación, en la que la estrategia política, se artícula en torno a diferentes fuentes de información, que la estrategia «Smart City Bilbao» procesa y pone en valor. Fuentes como la escucha directa en la calle, lo que los medios de comunicación señalan sobre la ciudad, lo que se obtiene del fomento de la participación, investigaciones cuantitativas y cualitativas, escucha institucional interna, redes sociales, etc.

La información para decidir, estrategia de Smart Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)
La información para decidir, estrategia de Smart Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)

¿Y con todos estos datos recogidos que se hace en Bilbao? Un análisis descriptivo, predictivo y prescriptivo. Es decir, técnicas de data mining para extraer más información aún de los datos ya capturados.  Un carácter descriptivo para saber lo que pasa en Bilbao; un carácter predictivo para simular lo que pudiera pasar en Bilbao cuando se den unos valores en una serie de variables; y un carácter prescriptivo para recomendar a Bilbao en qué parámetros se ha de incidir para mejorar la gestión y la administración en aras de maximizar el bienestar del ciudadano.

En última instancia, esos datos capturados y tratados con carácter descriptivo, predictivo y prescriptivo, es visualizado. ¿De qué manera? Gráficos, tablas, dashboards, mapas de calor, etc., en áreas como la movilidad y el tráfico, la seguridad y emergencias, la gestión de residuos, eficiencia energética, etc.

Mapas para la visualización de datos de la ciudad de Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)
Mapas para la visualización de datos de la ciudad de Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)

Por último, nos hablaron del proyecto Big Bilbao, un nuevo concurso que aspira a posicionar a Bilbao en el mapa en esto del Big Data. Un proyecto transformador de inteligencia de ciudad. El principal objetivo de este proyecto es crear una plataforma que permita explotar datos de distintas fuentes, estructurados y no estructurados, que permitan mejorar la eficiencia de la gestión de la ciudad. Es decir, una smart city con funcionalidades avanzadas y de altas prestaciones.

Con todo esto que hemos explicado, no nos debe extrañar lo que ya citamos en el artículo sobre ciudades inteligentes; Bilbao, fue la primera certificada UNE como Ciudad Inteligente o Smart City.

Os dejamos la presentación para terminar este post, por si quisieráis extender los detalles sobre lo descrito anteriormente.