Archivo de la etiqueta: deusto

Visual Analytics: la visualización analítica, eficiente e inteligente de datos

Suelo decir en los cursos que el gran reto que nos queda por resolver es «pintar bien el Big Data«. Con estas palabras semánticamente pobres, lo que trato de decir es que la representación visual del dato no es un tema trivial; y que nos podemos esforzar en hacer un gran proyecto de tratamiento de datos, integración y depuración, etc., que si luego finalmente no lo visualizamos apropiadamente, el usuario puede no estar completamente satisfecho con ello. Por ello, he querido dedicar este artículo para hablar del área del Visual Analytics o visualización analítica e inteligente de datos.

Antoine de Saint-Exupery, autor de “El principito”, dijo eso de “La perfección se alcanza no cuando no hay nada más que añadir, sino cuando no hay nada más que quitar”. Es decir, un enfoque minimalista. Y es que la visualización de información es una mezcla entre narrativa, diseño y estadística. Estos tres campos tienen que ir inexorablemente unidos para no correr el peligro de perderse con la interpretación de la idea a través de estímulos visuales. Las buenas representaciones gráficas, deben cumplir una serie de características:

  1. Señalar relaciones, tendencias o patrones
  2. Explorar datos para inferir nuevo conocimiento
  3. Facilitar el entendimiento de un concepto, idea o hecho
  4. Permitir la observación de una realidad desde diferentes puntos de vista
  5. Y permitir recordar una idea.

Estos serán nuestros cinco objetivos cuando representamos algo en una gráfica o representación visual. A partir de hoy, nuestras cinco obsesiones cuando vayamos a representar una idea o relación de manera gráfica. ¿Cumplen estas características tus visualizaciones de datos e información? La puesta en valor del dato, como ven, no es algo trivial. Para prueba, un caso, cogido medianamente al azar:

Cancelaciones de aviones desde 2007 a 2010 (Fuente: USA TODAY)
Cancelaciones de aviones desde 2007 a 2010 (Fuente: USA TODAY)

¿Problemas? En primer lugar, ¿qué quiere señalar? Si es una relación, tendencia o patrón, ¿no debería darnos más idea de si los números son relevantes o no? ¿qué significan? ¿cómo me afectan? No facilita entender un concepto, sino que introduce varias dimensiones (tiempo, cancelaciones de vuelos, variación de la tendencia, etc.). Y, encima, lo hace representándolo sobre el ala de un avión. ¿Quiere transmitir seguridad o inseguridad? Genera dudas. Hubiera sido esto más simple si fuera como una cebolla con una única capa: una idea, una relación, un concepto clave. No hace falta más.

La representación visual es una forma de expresión más. Como las matemáticas, la música o la escritura, tiene una serie de reglas que respetar. Hoy en día, en que la cantidad de datos y la tecnología ya no son un problema, el reto para las empresas recae en conocer los conceptos básicos de representación visual. Es lo que se ha venido a conocer como la ciencia del Visual Analytics, definida como la ciencia del razonamiento analítico facilitado a través de interfaces visuales interactivas. De ahí que hoy en día los medios de comunicación utilicen cada vez estas representaciones gráficas de datos e información con las que podemos interactuar.

El uso de representaciones visuales e interactivas de elementos abstractos permite ampliar y mejorar el procesamiento cognitivo. Por lo tanto, para transladar ideas y relaciones, ayuda mucho disponer de una gráfica interactiva. Hay muchos teóricos y autores que se han dedicado a generar teoría y práctica en este campo de la representación visual de información. De hecho, la historia de la visualización no es algo realmente nuevo. En el Siglo XVII, ya destacaron autores como Joseph Priestley y William Playfair. Más tarde, en el Siglo XIX, podemos citar a John Snow, Charles J. Minard y F. Nightingale como los más relevantes (destacando especialmente el primero, que a través de una representación geográfica logró contener una plaga de cólera en Londres). Ya en el Siglo XX, Jacques Bertin, John Tukey, Edward Tufte y Leland Wilkinson son los autores más citados en lo que a visualización y representación de la información se refiere.

Representación gráfica del brote de cólera de John Snow: nacen así, los Sistemas de Información Geográfica o SIG (Fuente: http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/)
Representación gráfica del brote de cólera de John Snow: nacen así, los Sistemas de Información Geográfica o SIG (Fuente: http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/)

Tufte es quizás el autor más citado. Su libro “The Visual Display of Quantitative Information”, una biblia para los equipos de visualización eficientes y rigurosas. De hecho, los principios de Tufte, los podemos resumir en la integridad gráfica y el diseño estético. Siempre destaca cómo los atributos más importantes el color, el tamaño, la orientación y el lugar de la página donde presentamos una gráfica. Y es que, por mucho que nos sorprenda o por simple que nos parezca, la codificación del valor (datos univariados, bivariados o multivariados) y la codificación de la relación de valores (líneas, mapas, diagramas, etc.), no es un asunto trivial. Un ejemplo de esto sería la siguiente gráfica:

Banking the World Bank (Fuente: http://blogs.elpais.com/.a/6a00d8341bfb1653ef0153903125d9970b-550wi)
Banking the World Bank (Fuente: http://blogs.elpais.com/.a/6a00d8341bfb1653ef0153903125d9970b-550wi)

Si cogemos el gráfico anterior y yo os hago preguntas relacionadas con la identificación del mayor donante o el mayor receptor, ustedes tendrían problemas. Quizás con un patrón de color esto se hubiera resuelto. Pero ni con esas.  Un mapa no es la mejora manera de representar este tipo de datos (y hoy en día se abusa mucho de los mapas). Si quiero responder a las preguntas anteriores, tengo que realizar una búsqueda de las cifras, memorizarlas y luego compararlas.  Lo dicho al comienzo; una idea, un patrón, una relación, y luego, búsqueda de la mejor gráfica para ello. Por eso los gráficos de tarta… mejor dejarlos para el postre 😉 (los humanos no somos especialmente hábiles comparando trozos de un círculo cuando hablamos de áreas… que es lo que propone un gráfico de tarta con los trocitos en los que descomponemos un círculo)

Quizás la referencia más importante de todo esto que estamos hablando se encuentre en el artículo que en 1985 escribieron Cleveland y McGill, titulado “Ranking of elementary perceptual tasks”. Dos investigadores de AT&T Bell Labs, William S. Cleveland y Robert McGill, publicaron este artículo central en el Journal of the American Statistical Association. Propone una guía con las representaciones visuales más apropiadas en función del objetivo de cada gráfico, lo cual nos ofrece otro pequeño manual para ayudarnos a representar la información de manera inteligente y eficiente.

“A graphical form that involves elementary perceptual tasks that lead to more accurate judgements than another graphical form (with the same quantitative information) will result in a better organization and increase the chances of a correct perception of patterns and behavior.” (William S. Cleveland y Robert McGill, 1985)

Dicho todo esto, y con la aparición del Big Data, muchos autores comenzaron a trabajar en crear metodologías eficientes para la visualización de información. Lo que hemos denominado al comienzo como Visual Analytics: la visualización analítica, eficiente e inteligente de datos que ayuda a aumentar el entendimiento e interpretación de una idea, una relación, un patrón, etc.

En nuestro Programa de Big Data y Business Intelligence, celebraremos próximamente una sesión en la que precisamente hablaremos de todo esto. Cómo seguir una serie de pasos y criterios a considerar para ayudar al lector, al usuario, a entender y pensar mejor. Un campo que se nutre de los conocimientos del área de Human-Computer-Interaction (HCI) y de la visualización de información. Y, como muestro en la siguiente figura (un proceso de Visual Analytics basado en trabajos de Daniel Keim y otros), aplicaremos un método para pasar del dato al conocimiento, a través de los modelos analíticos y la visualización de información que no confunda, y como decía Saint-Exupery, simplifique.

Proceso de Visual Analytics (Fuente: elaboración propia)
Proceso de Visual Analytics (Fuente: elaboración propia)

¿Cuál será el resultado de esta sesión? Un dashboard, un informe, un panel de mando de KPIs bien diseñado y elaborado. Es decir, conocimiento eficiente e inteligente para ayudar a las organizaciones a tomar decisiones apoyándose en gráficos bien elaborados. Un dashboard que cumpla con nuestros cinco principios y que permita al estudiante llevarse su tabla periódica de los métodos de visualización eficiente.

Tabla periódica de los métodos de visualización (Fuente: http://www.visual-literacy.org/periodic_table/periodic_table.html)
Tabla periódica de los métodos de visualización (Fuente: http://www.visual-literacy.org/periodic_table/periodic_table.html)

Herramientas ETL y su relevancia en la cadena de valor del dato

El proceso de Extracción (E), Transformación (T) y Carga (L, de Load en Inglés) -ETL- consume entre el 60% y el 80% del tiempo de un proyecto de Business Intelligence. Suelo empezar con este dato siempre a hablar de las herramientas ETL por la importancia que tienen dentro de cualquier proyecto de manejo de datos. Tal es así, que podemos afirmar que proceso clave en la vida de todo proyecto y que por lo tanto debemos conocer. Y éste es el objetivo de este artículo.

La cadena de valor de un proyecto de Business Intelligence la podemos representar de la siguiente manera:

Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)
Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)

Hecha la representación gráfica, es entendible ya el valor que aporta una herramienta ETL. Como vemos, es la recoge todos los datos de las diferentes fuentes de datos (un ERP, CRM, hojas de cálculo sueltas, una base de datos SQL, un archivo JSON de una BBDD NoSQL orientada a documentos, etc.), y ejecuta las siguientes acciones (principales, y entre otras):

  • Validar los datos
  • Limpiar los datos
  • Transformar los datos
  • Agregar los datos
  • Cargar los datos

Esto, tradiocionalmente se ha venido realizando con código a medida. Lo que se puede entender, ha traído muchos problemas desde la óptica del mantenimiento de dicho código y la colaboración dentro de un equipo de trabajo. Lo que vamos a ver en este artículo es la importancia de estas acciones y qué significan. Por resumirlo mucho, un proceso de datos cualquiera comienza en el origen de datos, continúa con la intervención de una herramienta ETL, y concluye en el destino de los datos que posteriormente va a ser explotada, representada en pantalla, etc.

¿Y por qué la importancia de una herramienta ETL? Básicamente, ejecutamos las acciones de validar, limpiar, transformar, etc. datos para minimizar los fallos que en etapas posteriores del proceso de datos pudieran darse (existencia de campos o valores nulos, tablas de referencia inexistentes, caídas del suministro eléctrico, etc.).

Este parte del proceso consume una parte significativa de todo el proceso (como decíamos al comienzo), por ello requiere recursos, estrategia, habilidades especializadas y tecnologías. Y aquí es donde necesitamos una herramienta ETL que nos ayude en todo ello. ¿Y qué herramientas ETL tenemos a nuestra disposición? Pues desde los fabricantes habituales (SAS, Informatica, SAP, Talend, Information Builders, IBM, Oracle, Microsoft, etc.), hasta herramientas con un coste menor (e incluso abiertas) como Pentaho KettleTalend y RapidMiner. En nuestro Programa de Big Data y Business Intelligence, utilizamos mucho tanto SAS como Pentaho Kettle (especialmente esta última), por lo que ayuda a los estudiantes a integrar, depurar la calidad, etc. de los datos que disponen. A continuación os dejamos una comparación entre herramientas:

Comparación Talend vs. Pentaho Kettle
Comparación Talend vs. Pentaho Kettle

¿Y qué hacemos con el proceso y las herramientas ETL en nuestro programa? Varias acciones, para hacer conscientes al estudiante sobre lo que puede aportar estas herramientas a sus proyectos. A continuación destacamos 5 subprocesos, que son los que se ejecutarían dentro de la herramienta:

  1. Extracción: recuperación de los datos físicamente de las distintas fuentes de información. Probamos a extrar desde una base de datos de un ERP, CRM, etc., hasta una hoja de cálculo, una BBDD documental como un JSOn, etc. En este momento disponemos de los datos en bruto. ¿Problemas que nos podemos encontrar al acceder a los datos para extraerlos? Básicamente se refieren a que provienen de distintas fuentes (la V de Variedad), BBDD, plataformas tecnológicas, protocolos de comunicaciones, juegos de caracteres y tipos de datos.
  2. Limpieza: recuperación de los datos en bruto, para, posteriormente: comprobar su calidad, eliminar los duplicados y, cuando es posible, corrige los valores erróneos y completar los valores vacíos. Es decir se transforman los datos -siempre que sea posible- para reducir los errores de carga. En este momento disponemos de datos limpios y de alta calidad. ¿Problemas?ausencia de valores, campos que tienen distintas utilidades, valores crípticos, vulneración de las reglas de negocio, identificadores que no son únicos, etc. La limpieza de datos, en consecuencia, se divide en distintas etapas, que debemos trabajar para dejar los datos bien trabajados y limpios.
    • Depurar los valores (parsing)
    • Corregir (correcting)
    • Estandarizar (standardizing)
    • Relacionar (matching)
    • Consolidar (consolidating)
  3. Transformación: este proceso recupera los datos limpios y de alta calidad y los estructura y resume en los distintos modelos de análisis. El resultado de este proceso es la obtención de datos limpios, consistentes y útiles. La transformación de los datos se hace partiendo de los datos una vez “limpios” (la etapa 2 de este proceso)(. Transformamos los datos de acuerdo con las reglas de negocio y los estándares que han sido establecidos por el equipo de trabajo. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados, etc.
  4. Integración: Este proceso valida que los datos que cargamos en el datawarehouse o la BBDD de destino (antes de pasar a su procesamiento) son consistentes con las definiciones y formatos del datawarehouse; los integra en los distintos modelos de las distintas áreas de negocio que hemos definido en el mismo.
  5. Actualización: Este proceso es el que nos permite añadir los nuevos datos al datawarehouse o base de datos de destino.

Para concluir este artículo, os dejamos la presentación de una de las sesiones de nuestro Programa de Big Data y Business Intelligence. En esta sesión, hablamos de los competidores y productos de mercado ETL.

Evitando el fraude a través de la presentación de la información en grafos

En nuestro workshop del pasado 27 de Octubre, también estuvo como ponente Jesús Barrasa, Field Engineer de Neo Technology. Básicamente, el  objetivo de su ponencia fue contarnos cómo poder prevenir el fraude a través de la modelización de la información en grafos. Este formalización matemática, que ha ganado bastante popularidad en los últimos años, permite una expresividad de información tan alta, que para muchas aplicaciones donde el descubrimiento de la información es crítica (como es el evitar el fraude), puede ser vital.

Pero, empecemos por lo básico. Jesús, nos describió lo que es un grafo. Un conjunto de vértices (o nodos), que están unidos por arcos o aristas. De este modo, tenemos una información representada a través de relaciones binarias entre el conjunto de elementos. Fue Leonhard Euler, matemático suizo, el inventor de la teoría de grafos en 1736. Por lo tanto, no estamos hablando de un instrumento matemático nuevo.

Un grafo, como conjunto de vértices y arcos (Fuente: https://www.flickr.com/photos/thefangmonster/352461415/in/photolist-x9suX-fDVc6-88T8hQ-7X9u8d-afsXkh-i6KLs-6PpBb6-836Ttv-85z1hy-rA46-rjfq-5RTzeU-bDcg8x-f5s1g3-a1Jv37-bsDVCK-7i62o-5WbpbF-i6LKS-aRBH8x-5RPjSa-h1Xkr2-4d5ypn-DifCQ-7SGo1D-9C4Y3c-noNEE9-7noTPo-7dYzTc-7dYzxZ-d672zw-99Z1f9-bz2Y9P-bquhCW-881tVy-4vn6sS-7Zebpn-4t7P4n-bdYG1z-ePUf2-aVcE68-f7Tsq-7JdUAY-bmhmrn-e2KEC6-63bkHm-e8zMaZ-88V6bY-9ZjTax-7SGo6Z)
Un grafo, como conjunto de vértices y arcos (Fuente: https://www.flickr.com/photos/thefangmonster/352461415/in/photolist-x9suX-fDVc6-88T8hQ-7X9u8d-afsXkh-i6KLs-6PpBb6-836Ttv-85z1hy-rA46-rjfq-5RTzeU-bDcg8x-f5s1g3-a1Jv37-bsDVCK-7i62o-5WbpbF-i6LKS-aRBH8x-5RPjSa-h1Xkr2-4d5ypn-DifCQ-7SGo1D-9C4Y3c-noNEE9-7noTPo-7dYzTc-7dYzxZ-d672zw-99Z1f9-bz2Y9P-bquhCW-881tVy-4vn6sS-7Zebpn-4t7P4n-bdYG1z-ePUf2-aVcE68-f7Tsq-7JdUAY-bmhmrn-e2KEC6-63bkHm-e8zMaZ-88V6bY-9ZjTax-7SGo6Z)

Pues bien, este tipo de representación de información (en grafos) es el tipo de bases de datos que más está ganando en popularidad en los últimos años (consultar datos aquí). Su uso en aplicaciones como las redes sociales (y todo lo que tiene que ver con el Análisis de Redes Sociales o Social Network Analysis), el análisis de impacto en redes de telecomunicaciones, sistemas de recomendación (como los de Amazon), logística (y la optimización de los puntos de entrega -vértices- a través de la distancia entre puntos – longitud de las aristas -), etc., son solo algunos ejemplos de la potencia que tiene la representación de la información en grafos.

Jesús nos introdujo un caso concreto que desde Neo Technology han trabajado para la detección y prevención del fraude. Un contexto de aplicación, que además de tener cierta sensibilidad social en los últimos años, no solo es aplicable al ámbito económico, sino también a muchos otros donde el fraude ha sido recurrente y muy difícil de detectar. El problema hasta la fecha es que los límites del modelo relacional de bases de datos (el que ha imperado hasta la fecha) han traído siempre una serie de asuntos que complicaban la detección:

  • Complejidad al modelizar relaciones (por asuntos como la integridad relacional, etc.)
  • Degradación del rendimiento al aumentar el número de asociaciones y con el volumen de datos
  • Complejidad de las consultas
  • La necesidad de rediseñar el esquema de datos cuando se introducen nuevas asociaciones y tipos de datos
  • etc.

Estos puntos (entre otros), hacen que las bases de datos relacionales tradicionales resulten hoy en día inadecuadas cuando las asociaciones entre puntos de datos son útiles y valiosas en tiempo real. Y aquí es donde las bases de datos NoSQL (orientadas a documentos, las columnares, las de grafos, etc.), son bastante útiles para soliviantar este problema.

Introducida esta necesidad por las bases de datos de grafos, Jesús nos contó el caso concreto de los defraudadores. Personas que solicitan líneas de crédito, actúan de manera aparentemente normal, extienden el crédito y de repente desaparecen. De hecho, decenas de miles de millones de dólares son defraudados al año solo a bancos estadounidenses. 25% del total de créditos personales son amortizados como pérdidas. Para prevenir esto, la modelización de los datos como grafos puede ayudar.

¿Qué es lo que se representa como un grafo? ¿Qué datos/información? Lo que Jesús denominó los anillos de fraude (que podéis encontrar en la imagen debajo de estas líneas). Acciones que va realizando un usuario, y que como son representadas a través de relaciones, permite no solo detectar el fraude, sino también minimizar pérdidas y prevenirlo en la medida de lo posible a través de cadenas de conexión sospechosas.

Anillo de fraude (Fuente: Neo Technology)
Anillo de fraude (Fuente: Neo Technology)

Como siempre, os dejamos al final de este artículo las diapositivas empleadas por Jesús. Otro caso más de aplicación del Big Data y de mejora de las sociedades, empresas e instituciones a través de la puesta en valor de los datos. En este caso, los grafos.

Smart City Bilbao: los datos al servicio de la ciudad

En el workshop que organizamos el pasado 27 de Octubre, también participó CIMUBISA, entidad municipal del Ayuntamiento de Bilbao. Básicamente, nos habló sobre la formulación estratégica de ciudad que tenía Bilbao, y cómo el Big Data impactaba sobre ella.

CIMUBISA expuso la formulación estratégica de ciudad que tiene Bilbao. Una estrategia que gira en torno a 5 ejes de actuación:

  1. Administración 4.0
  2. Tecnologías en el espacio urbano
  3. Ciudadanía digital y calidad de vida
  4. Desarrollo económico inteligente
  5. Gobernanza

Y en esta estrategia, el dato, la información, resultan clave para ayudar a decidir. No podemos construir una administración inteligente sin una información de calidad para tomar decisiones que beneficien a la sociedad en su conjunto. Prueba de ello es la representación esquemática que se muestra a continuación, en la que la estrategia política, se artícula en torno a diferentes fuentes de información, que la estrategia «Smart City Bilbao» procesa y pone en valor. Fuentes como la escucha directa en la calle, lo que los medios de comunicación señalan sobre la ciudad, lo que se obtiene del fomento de la participación, investigaciones cuantitativas y cualitativas, escucha institucional interna, redes sociales, etc.

La información para decidir, estrategia de Smart Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)
La información para decidir, estrategia de Smart Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)

¿Y con todos estos datos recogidos que se hace en Bilbao? Un análisis descriptivo, predictivo y prescriptivo. Es decir, técnicas de data mining para extraer más información aún de los datos ya capturados.  Un carácter descriptivo para saber lo que pasa en Bilbao; un carácter predictivo para simular lo que pudiera pasar en Bilbao cuando se den unos valores en una serie de variables; y un carácter prescriptivo para recomendar a Bilbao en qué parámetros se ha de incidir para mejorar la gestión y la administración en aras de maximizar el bienestar del ciudadano.

En última instancia, esos datos capturados y tratados con carácter descriptivo, predictivo y prescriptivo, es visualizado. ¿De qué manera? Gráficos, tablas, dashboards, mapas de calor, etc., en áreas como la movilidad y el tráfico, la seguridad y emergencias, la gestión de residuos, eficiencia energética, etc.

Mapas para la visualización de datos de la ciudad de Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)
Mapas para la visualización de datos de la ciudad de Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)

Por último, nos hablaron del proyecto Big Bilbao, un nuevo concurso que aspira a posicionar a Bilbao en el mapa en esto del Big Data. Un proyecto transformador de inteligencia de ciudad. El principal objetivo de este proyecto es crear una plataforma que permita explotar datos de distintas fuentes, estructurados y no estructurados, que permitan mejorar la eficiencia de la gestión de la ciudad. Es decir, una smart city con funcionalidades avanzadas y de altas prestaciones.

Con todo esto que hemos explicado, no nos debe extrañar lo que ya citamos en el artículo sobre ciudades inteligentes; Bilbao, fue la primera certificada UNE como Ciudad Inteligente o Smart City.

Os dejamos la presentación para terminar este post, por si quisieráis extender los detalles sobre lo descrito anteriormente.

El scoring bancario en los tiempos del Big Data

Con este artículo vamos a abrir una serie de cinco artículos donde expondremos las cinco ponencias y sus preguntas asociadas del pasado workshop celebrado el 27 de Octubre en la Universidad de Deusto.

El workshop, titulado como «Aplicación del Big Data en sectores económicos estratégicos«,  tenía como principal objetivo mostrar la aplicación del Big Data en varios sectores estratégicos para la economía Española (finanzas, sector público, cultura, inversión y turismo). La primera de las intervenciones corrió a cargo de Jorge Monge, de Management Solutions, que nos expuso cómo elaborar un scoring financiero y su relevancia en la era del Big Data.

La revolución tecnológica se produce a magnitudes nunca antes observadas. El sector financiero no es ajeno a ese cambio, conjugando una reestructuración sin precedentes, con un cambio de perfil de usuario muy acusado. Así, se está pasando de la Banca Digital 1.0 a la 4.0, una innovación liderada por el cliente, y donde la analítica omnicanal con datos estructurados y no estructurados se torna fundamental.

La Banca Digital 4.0 (Fuente: Management Solutions)
La Banca Digital 4.0 (Fuente: Management Solutions)

Las entidades financieras, gracias a esta transformación digital, disponen de gran cantidad de información pública, con la que hacer perfiles detallados no solo a sus clientes actuales, sino también a sus clientes potenciales. Dado que la capacidad de procesamiento se ha visto multiplicado por las nuevas arquitecturas del Big Data, esto tampoco supone un problema. Los modelos de scoring (como el que Jorge expuso) pertenecen al ámbito de riesgos de las entidades bancarias, intentando clasificar a los clientes potenciales en función de su probabilidad de impago. Nos contó un proyecto real en el que con datos anonimizados de una cartera de 72.000 clientes potenciales, se mezclaron datos tradicionales de transacciones, con datos de redes sociales, para conformar un modelo analítico. Éste, conformado por variables significativas de cara a evaluar el incumplimiento, permitía mejorar el poder precitivo del scoring bancario.

El reto actual radica en la gran cantidad de datos. Jorge señaló cómo aunque se genere gran cantidad de información, esta no sería útil si no pudiera procesarse. Sin embargo, la capacidad de procesamiento se ha visto multiplicada por las nuevas arquitecturas de Big Data. Destacó, aquí, Hadoop, Hive, Pig, Mahout, R, Python, etc. Varias de las herramientas que ya comentamos en un post pasado.

Por último, destacaba, que el reto ya no es tecnológico. El reto es poder entender el procesamiento que hacen estas herramientas. Así, ha surgido un nuevo rol multidisciplinar para hacer frente a este problema: el data scientist, que integra conocimientos de tecnología, de programación, de matemáticas, de estadística, de negocio, etc. Hablaremos de este perfil más adelante. Y, cerraba la sesión, destacando la importancia de la calidad de la información, el reto que suponen las variables cualitativas y la desambiguación.

Os dejamos, para finalizar el artículo, la presentación realizada por Jonge Monge. Aprovechamos este artículo para agradecerle nuevamente su participación y aportaciones de valor.

Webinar 3 de Noviembre: «Aplicación Big Data a Finanzas, Marketing y Sanidad»

La sociedad se ha tecnificado, y cada vez estamos más interconectados. A eso unámosle que el coste computacional es cada vez menor, y cada vez se están digitalizando más procesos y actividades de nuestro día a día. Esto, claro está, representa una oportunidad para las organizaciones, empresas y personas que quieran tratar y analizar los datos en tiempo real (Real-Time Analytics). Se puede  obtener así valor para la toma de decisiones o para sus clientes: ayudar a las empresas a vender más (detectando patrones de compra, por ejemplo), a optimizar costes (detectando cuellos de botella o introduciendo mecanismos de prevención), a encontrar más clientes (por patrones de comportamiento), a detectar puntos de mejora en procesos (por regularidades empíricas de mal funcionamiento) y un largo etcétera.

Tres sectores que se están aprovechando enormemente de las posibilidades que el Big Data trae son el financiero, el área de marketing y el sector sanitario. Se trata de sectores con sus diferentes particularidades (regulación, servicio público, etc.), pero donde los datos son generados a gran velocidad, en grandes volúmenes, con una gran variedad, donde la veracidad es crítico y donde queremos generar valor. Las 5 “V”s del Big Data al servicio de la mejora de organizaciones de dichos sectores.

Las 5

Las 5 «V»s del Big Data: Volumen, Velocidad, Valor, Veracidad y Variedad (Fuente: https://www.emaze.com/@AOTTTQLO/Big-data-Analytics-for-Security-Intelligence)

El próximo 3 de Noviembre a las 18:30, el Director del Programa de Big Data y Business Intelligence, Alex Rayón, entrevistará a través de un webinar a tres expertos profesionales en cada uno de los tres sectores citados: Pedro Gómez (profesional del ámbito financiero), Joseba Díaz (profesional con experiencia en proyectos sanitarios y profesional Big Data en HP) y Jon Goikoetxea (Director de Comunicación y Marketing del Grupo Noticias y el diario Deia y alumno de la primera edición del Programa Big Data y Business Intelligence).

Inscríbete, y en pocos días recibirás instrucciones para unirte al Webinar. El enlace para la inscripción lo podéis encontrar aquí. Y si conoces a alguien que pueda interesarle esta información, reenvíasela 😉

Agradecemos, como siempre, el apoyo a nuestros patrocinadores HP, SAS y Entelgy.

Las ciudades inteligentes: ¿qué hace una administración y en qué le puede ayudar el Big Data?

Hoy venimos a hablar de las ciudades inteligentes o Smart Cities, y su relación con el mundo de los datos en general, y el Big Data en particular. El término «Smart City» ha venido a bautizar un concepto, todavía muy dominado por el marketing y la industria, pero que con la urbanización constante (se espera que para 2050 el 86% de la población de los países desarrollados y el 64% de los que están en vías de desarrollo) y la mayor penetración tecnológica (y sus datos asociados), será cada vez más familiar para todos nosotros.

Las ciudades son complejos sistemas en tiempo real que generan grandes cantidades de datos. Hay diferentes agentes y sistemas que interaccionan, lo cual hace que su gestión sea complicada. Por lo tanto, un uso inteligente de las TIC puede facilitar hacer frente a los retos presentes y futuros.

Una ciudad que hace uso de las TIC para la gestión eficiente de su complejidad y su prestación de servicios (Fuente: https://s-media-cache-ak0.pinimg.com/736x/27/9d/a7/279da792f47931195932654e2f051574.jpg)
Una ciudad que hace uso de las TIC para la gestión eficiente de su complejidad y su prestación de servicios (Fuente: https://s-media-cache-ak0.pinimg.com/736x/27/9d/a7/279da792f47931195932654e2f051574.jpg)

Desde una perspectiva tecnológica, en cuanto a lo que puede aportar a las ciudades, se dice que las smart cities aprovechan todo el potencial de los avances tecnológicos y de los datos para ahorrar costes a partir de la eficiencia en la gestión. Los ámbitos en los cuales una ciudad puede adquirir inteligencia son muy amplios, pero pueden resumirse en aquellos aspectos de una gestión que:  mejora el transporte, mejora los servicios públicos, eficiencia y sostenibilidad de la energía, del consumo de agua, y del manejo de residuos; garantizar seguridad pública, acceso a la información pública y transparencia, etc. Por lo tanto es un concepto multidimensional que hace referencia a muchos conceptos asociados y que recurrentemente aparecen de la mano:

  • Inteligencia en Medio Ambiente
  • Inteligencia para la calidad de vida
  • Ciudadanía Inteligente
  • Gobierno Inteligente
  • Inteligencia para la movilidad
  • Inteligencia Económica
  • etc.

Es decir, que los datos y sus aplicaciones serán útiles siempre refiréndonos a los procesos que a una administración pública le competen (seguridad ciudadana, medio ambiente, etc.). Este discurso, que desde la tecnología (la industria que antes decíamos) se ha venido impulsando, en realidad se puede traducir en tres fuerzas que movilizan las Smart Cities: Tecnologías de la Información y la Comunicación (TIC), economía, y las personas (sociedad civil). Es decir, las TIC y sus datos asociados, son un elemento; pero sin un incentivo económico (¿qué me puede aportar esto a mí?) y sin una sociedad inclusiva que sea partícipe y se la escuche, una ciudad nunca será inteligente (referiéndose a cómo hemos entendido y bautizado este concepto al inicio).

Para que se entienda lo mucho que puede aportar la digitalización y los datos al día a día de la administración de una ciudad vamos a entender primero qué es un gobierno municipal y en qué consiste su trabajo. En términos muy simplificados, un gobierno municipal elabora planes y programas. Para su elaboración, se suelen emplear necesidades manifestadas o no manifestadas de los ciudadanos, se quiere conocer su opinión, etc. Pero, especialmente, se desea conocer el resultado y el impacto con el fin de poder mejorar constantemente.

Se puede vestir el discurso de las Smart Cities con muchas cosas: Internet of Things, adelantarse en la recogida de basuras, regadíos inteligentes, etc. Pero, al final, una administración debe satisfacer al ciudadano. Eso es lo que resume cualquier aplicación que podamos tener en la cabeza. En este punto es cuando se puede integrar la analítica digital en los planes de un gobierno inteligente. Ofrecer una perspectiva más amplia, a través de datos propios y ajenos, integrando los servicios públicos en sus dimensiones virtuales y presenciales, y todo ello, siendo analizado en tiempo real a través del «Real-Time Analytics» (estrategias analíticas de búsquedas de patrones, inteligencia dependiente del contexto), es lo que el Big Data aporta a una ciudad inteligente.

Para que una ciudad pueda adoptar las posibilidades que el Big Data le brinda, debe acometer una serie de pasos. Un primer punto interesante, es tener una visión única del ciudadano. ¿Tiene tu ciudad un servicio de este tipo? Es decir, ¿sabe mi ayuntamiento que cuando hablo en Twitter soy @alrayon, cuando subo una foto en Instagram soy @alrayon, que cuando les mando un email lo hago con mi cuenta @deusto.es y que cuando me presento en persona uso mi DNI? ¿O para ellos soy cuatro personas/identidades diferentes?

Una vez sabido esto, podemos hacer un análisis del ciudadano. En términos de gestión, para una administración pública, la «transacción«, entendida como elemento de relación mínima, es la solicitud de un servicio. ¿Algún ayuntamiento tiene hecha una comparación entre lo que buscan sus ciudadanos y lo que efectivamente solicitan? ¿Cuál es el ratio de éxito y de satisfacción de los ciudadanos en estos términos? Es decir, ¿qué interesa a mis vecinos? ¿Qué buscan, consultan? ¿Cuándo lo hacen? ¿Desde dónde vienen y hasta dónde llegan? Y, por no hablar, de la cantidad de canales que usarán para ello, y la secuencia entre dichos canales. Esta analítica sobre las peticiones y transacciones podría arrojar mucha información para la elaboración de planes y programas. Esta gran cantidad de datos generados puede ser tratada posteriormente por herramientas de Big Data.

Modelo general de atención al ciudadano (Fuente: gamadero.gob.mx)
Modelo general de atención al ciudadano (Fuente: gamadero.gob.mx)

Por otro lado. ¿están satisfechos mis ciudadanos? Y ahora ustedes me dirán que vayamos a preguntárselo con unas encuestas. Pero, ¿se han monitorizado las conversaciones sociales? Es decir, ¿sabemos de sobre qué y dónde conversan mis vecinos en las redes sociales y otros medios digitales?

Para que todo esto sea posible, necesitamos que nuestras ciudades adopten la la analítica digital. Puede aportar mucho valor tanto en la recogida de datos, como en procesamiento, como en la toma de decisiones final.  Las Ciudades Inteligentes requieren de tecnología para la captura de datos y el procesamiento de la información. Y, a partir del conocimiento generado, poder avanzar con la posterior toma de decisiones para el mejoramiento de la ciudad. Vamos a ver y entender estos tres pasos.

  1. En primer lugar, la obtención de datos. Hoy en día, hay muchos datos generándose fuera de los procedimientos habituales de una administración. Una administracióne debe ser consciente que sus canales son ON y OFF. Quizás muchas de ellas no estén ON, pero sus ciudadanos sí lo están. Por lo tanto, un primer paso que debieran conocer es la sincronización de la captura del dato.
  2. En segundo lugar, el procesamiento de datos. Imagínaros que en una determinada quiere abanderar el lema «Ciudad del conocimiento y la cultura» (habrá ya más de una con esto en la cabeza). Dentro de su plan «Fomentando la lectura», un programa puede «Fomentar la lectura en la población juvenil».  Supongamos que podemos integrar, como fuentes de datos el impacto que ha tenido una campaña de comunicación que hemos puesto en marcha, unas encuestas, los dartos de préstamos y bibliotecas, la compra de libros en tiendas ON y OFF, etc.
  3. Y un tercer elemento es la toma de decisión final. Aquí, ayuda mucho la puesta en valor del dato a través de los sistemas de visualización y reporting. La inteligencia es la capacidad para anticipar la incertidumbre. Con ella, se logró, por primera vez en la evolución, anteponer el problema a la solución.

Y todo esto que hemos contado, ¿dónde está ocurriendo? Pues en muchos sitios. Desde barrios de Londres donde el análisis de datos de los móviles permite anticiparse a la comisión de un delito, sistemas para buscar potenciales terroristas en las redes sociales y con la huella digital (la seguridad ciudadana es uno de los vectores de desarrollo más importantes de hoy en día), algoritmos para patrullar la ciudad de manera efectiva y eficiente (desarrollado por la Universidad de Granada), el análisis urbano cuantitativo, la apertura de portales de datos públicos en abierto para la generación de riqueza a partir de los mismos (casos New York City o Londres), etc. Un sinfín de posibles aplicaciones.

Existe ya la norma ISO 37120:2014, que recoge los indicadores para la prestación de servicios en ciudad y la calidad de vida. El Banco Mundial Y Transparencia Internacional también dieron pasos en esa línea. España también. Desde la norma UNE 178301:2015,  de Ciudades Inteligentes y Datos Abiertos (Open Data), hasta ciudades que están recorriendo este camino: Bilbao, perimera certificada UNE como Ciudad Inteligente.

¿Y qué tecnologías nos ofrece el Big Data para todo ello?

  • Tratamiento de información generada «abiertamente» por humanos; es decir, tratamiento de datos no estructurados, que representa una gran cantidad de datos generados en contextos de ciudad.
  • Tratamiento de imágenes, audios y vídeos: alertas en tiempo real por eventos que pudieran detectarse a través del procesamiento de imágenes, audios o vídeos.
  • Agrupación de ideas: considerando todas las aportaciones y manifestaciones que nos trasladan los ciudadanos, agrupar por conceptos, términos, ideas, etc. Es decir, clusterizar, para detectar patrones y relaciones.
  • Análisis de sentimiento: sobre la base de las manifestaciones de los ciudadanos, ¿podemos decir que tenemos una buena impresión entre la ciudadanía?
  • (y un largo etcétera)

En definitiva, el campo del Big Data al servicio de los ciudadanos, su bienestar y satisfacción. Las ciudades inteligentes del futuro deberán aprovechar estas oportunidades tecnológicas para enriquecerse socialmente y lograr unas sociedades inclusivas y participativas. Un aparato de gestión informacional y del conocimiento sin precedentes. Reaparece en la sociedad la posibilidad de conocer de manera objetiva, neutral y desinterasada la realidad a estudiar (el ciudadano, su bienestar y satisfacción), reflejada ahora en los datos masivos observados a través de una metodología –el Big Data y el uso de algoritmos- capaz de ofrecernos una imagen supuestamente perfecta de la realidad.

Eligiendo una herramienta de Analítica: SAS, R o Python

(Artículo escrito por Pedro Gómez Tejerina, profesional del sector financiero, y profesor de nuestro Programa de Big Data y Business Intelligence)

Probablemente si estás leyendo este blog tengas un problema analítico que quieras resolver con datos. Es posible también que tengas unos conocimientos de estadística que quieras poner en práctica, así que es hora de elegir una herramienta analítica. Así que vamos a intentar orientaros en la elección, aunque las tres herramientas de analítica nos van a permitir hacer en general los mismos análisis:

  1. Conocimientos previos de programación. Si sabes programar y vienes de un entorno web, probablemente Python sea el más fácil de aprender. Es un lenguaje más generalista que los otros dos y solamente tendrás que aprender el uso de las librerías para hacer análisis de datos (Pandas, Numpy, Scipy, etc.). Si no es el caso y lo tuyo no es programar, SAS es más fácil de aprender que R, que es el lenguaje más diferente de los tres, dado su origen académico-estadístico.
  2. Herramientas User Friendly y GUI: Tanto SAS (SAS Enterprise Guide, SAS Enterprise Miner, SAS Visual Analytics) como R (Rattle, RStudio, Rcommander) tienen buenas interfaces visuales que pueden resolver problemas analíticos sin tener la necesidad de programar. Python dispone de menos (Orange), aunque dispone de una buena herramienta de enseñanza: los notebooks.
  3. Coste de las herramientas. SAS es un software comercial y bastante caro. Además el uso de cada una de sus capacidades se vende por paquetes, así que el coste total como herramienta analítica es muy caro. La parte buena es que tienes un soporte. Por el contrario, tanto R como Python son gratuitos, si bien es cierto que empresas como Revolution Analytics ofrecen soporte, formación y su propia distribución de R con un coste bastante inferior a SAS. Normalmente sólo las grandes empresas (bancos, compañías telefónicas, cadenas de alimentación, INE, etc.) disponen de SAS debido a su coste.
  4. Estabilidad de la herramienta. Al ser un software comercial, en SAS no hay problemas de compatibilidad de versiones. R al tener un origen académico ofrece distintas librerías para hacer un mismo trabajo y no todas funcionan en versiones anteriores de R. Para evitar estos problemas en una gran empresa recomendaría utilizar alguna distribución comercial de Revolution Analytics por ejemplo.
  5. Volumen de datos. Las única diferencia es que SAS almacena los datos en tu ordenador en vez de en memoria (R), si bien es cierto que las 3 tienen conexiones con Hadoop y las herramientas de Big Data.
  6. Capacidad de innovación. Si necesitas utilizar las últimas técnicas estadísticas o de Machine Learning SAS no es tu amigo. Es un software comercial que para garantizar la estabilidad de uso entre versiones retrasa la incorporación de nuevas técnicas. Aquí el líder es R seguido de Python.

Conclusión: no es fácil quedarse con una herramienta de analítica y las personas que trabajamos en grandes compañías estamos habituados a trabajar con varias. SAS ofrece soluciones integradoras a un coste elevado. R tiene muchas capacidades de innovación debido a su origen y Python tiene la ventaja de ser un lenguaje de programación generalista que además puede servir para hacer Data Mining o Machine Learning. La elección dependerá de lo que estés dispuesto a pagar y tus necesidades específicas. Yo tengo la suerte o desgracia de trabajar en una gran empresa, así que dispongo de las 3.

Tendencias en lo que a demanda de perfiles con conocimiento de R, SAS y Python se refiere (Fuente: http://www.statsblogs.com/2013/12/06/sas-is-abandoned-by-the-market-for-advanced-analytics/)
Tendencias en lo que a demanda de perfiles con conocimiento de R, SAS y Python se refiere (Fuente: http://www.statsblogs.com/2013/12/06/sas-is-abandoned-by-the-market-for-advanced-analytics/)

Más información en:

  • http://www.analyticsvidhya.com/blog/2014/03/sas-vs-vs-python-tool-learn/
  • http://blog.datacamp.com/r-or-python-for-data-analysis/

Del Data Mining al Big Data en el mundo del Marketing

(Artículo escrito por Pedro Gómez Tejerina, profesional del sector financiero, y profesor de nuestro Programa de Big Data y Business Intelligence)

¿Alguna vez te has preguntado cómo eligen las grandes compañías los clientes a los que lanzan sus campañas? ¿Por qué por ejemplo puede un banco enviarme un mail o una carta para ofrecerme el último plan de pensiones que han diseñado y no a mi vecino si los dos somos clientes del mismo banco y vivimos en el mismo edificio?

La selección de a qué clientes lanzar campañas de marketing forma parte de lo que se denomina Data Mining o Minería de Datos. Tradicionalmente las grandes compañías han analizado los datos históricos que almacenan sobre sus clientes para buscar aquellos clientes que no tienen contratado un producto actualmente con ellas, pero que de alguna forma sí se parecen a otros clientes que sí tienen dicho producto. La idea es sencilla: ¿no tendría sentido sólo enviar comunicaciones sobre campañas de Marketing de un producto a los clientes que aunque no lo tengan contratado actualmente sí tengan probabilidad de hacerlo en un futuro? La base sobre la que se basan para calcular esas probabilidades es la estadística y los algoritmos de Machine Learning y las comparaciones se hacen en base a los datos históricos almacenados sobre los clientes.

Haciendo esas comparaciones basadas en los datos que tienen sobre los clientes las empresas consiguen aumentar sus tasas de éxito de contratación de productos de manera significativa y ofrecen productos que de cierta forma son mucho más personalizados, ya que tienen en cuenta mis datos como persona individual antes de ofrecérmelos. Además se ahorran mucho dinero en publicidad, ya que en cierta forma están centrando el tiro seleccionando únicamente los clientes con alta probabilidad (propensión) de compra.

Pero actualmente estamos en una nueva era caracterizada por la abundancia de información (Big Data). ¿Por qué no utilizar además de la información interna de los clientes datos que podamos obtener de fuentes externas? ¿No tendría sentido en el ejemplo del banco anterior tener en cuenta que yo en alguna ocasión he navegado por internet buscando información sobre planes de pensiones? ¿No he mostrado de alguna forma ya mi interés por el producto al haberlo buscado por internet? ¿No sería más probable que yo contratara el plan de pensiones que mi vecino que nunca se ha preocupado por su jubilación?

Como empresa podría utilizar los datos de navegación de mi web para mejorar el proceso anterior. ¿Y si además a pesar de que el banco no tiene información sobre el valor de la casa en la que vivo, obtiene información sobre el valor de la misma en el catastro u otras fuentes de información externas? El cruce de información interna sobre los clientes con información externa es lo que actualmente se denomina Big Data y permite a las grandes empresas obtener más información sobre los clientes y tal y como hemos visto con mi ejemplo, mejorar su precisión a la hora de elegir futuros clientes para sus productos.

Moraleja: si antes las grandes compañías lo sabían todo sobre nosotros, hoy todavía más. Como consuelo, al menos es más probable que sólo reciba comunicaciones sobre productos en los que es más probable que esté realmente interesado no tengan que eliminar demasiados emails comerciales porque no me interesan.

Workshop «Aplicación del Big Data en sectores económicos estratégicos»

El Big Data está empezando a entrar en los procesos de negocio de las organizaciones de manera transversal. Su uso se está «democratizando», de manera que cada vez más entra en un discurso de «usuario» en lugar de ser un tema que se trate únicamente en ámbitos más técnicos y tecnológicos.

Hasta la fecha, el uso del Big Data se limitaba a necesidades concretas: evitar la fuga de clientes, mejorar la eficiencia de las acciones del marketing, promover el mantenimiento preventivo en lugar del correctivo, etc. Estas aplicaciones, eran impulsadas mayoritariamente por los equipos técnicos y tecnológicos de las compañías.

Sin embargo, en los últimos tiempos, se están creando nuevas herramientas analíticas diseñadas para las necesidades de las unidades de negocio, con sencillas, útiles e intuitivas interfaces gráficas. De este modo, el usuario de negocio impulsa la adopción de soluciones Big Data como soporte a la toma de decisiones de negocio. Prueba de ello son aplicaciones como Gephi, Tableau, CartoDB o RStudio, que han simplificado mucho el trabajo, haciendo que las habilidades técnicas no sean un limitante para adentrarse en el mundo del Big Data.

Mapa de calor en CartoDB (Fuente: camo.githubusercontent.com)
Mapa de calor en CartoDB (Fuente: camo.githubusercontent.com)

La llegada de Big Data al usuario de negocio representa una oportunidad de ampliar el número de usuarios y extender el ámbito de actuación. Se prevé así que cada vez entren más proveedores, tanto de soluciones tecnológicas como de agregadores de datos. Todo esto, sin olvidar la importancia del cumplimiento de las políticas de gobierno de TI, la protección de la información y de los datos, así como los riesgos de seguridad.

Por todo ello, hemos organizado el próximo 27 de Octubre de 2015, de 15:30 a 18:00, en nuestra Sala Garate de la Universidad de Deusto, un workshop titulado «Aplicación del Big Data en sectores económicos estratégicos«. En este evento podrá conocer varias soluciones de diferentes sectores en los que este movimiento de aplicación del Big Data para usuarios de negocio está ocurriendo. La concesión de préstamos en el sector financiero, la puesta en valor de piezas culturales, sistemas para evitar el fraude, el aumento de la seguridad ciudadana o la mejora del sistema de ventas en aeropuertos representan ejemplos donde poder observar lo descrito anteriormente. Con esto, veremos cuál es el ritmo de adopción de Big Data en las organizaciones, y cuáles son los mecanismos de implantación de las soluciones con carácter transversal en las organizaciones.

Contaremos con empresas de reconocido prestigio en la materia como nuestros patrocinadores SAS, HP y Entelgy, así como nuestros colaboradores de Management Solutions, CIMUBISA, RIAM-GNOSS y NEO4J.

Puedes inscribirte a través de este formulario. Te esperamos para aprender cómo el Big Data está entrando en los sectores económicos estratégicos.

WorkshopBigData27.10

Sigue nuestras novedades en el análisis y puesta en valor del dato en: Blog Deusto BigDataWeb Programa Big Data.