Podcast del webinar 芦Aplicaci贸n del Big Data a Finanzas, Marketing y Sanidad禄

El 3 de noviembre de 2015, el Director del Programa de Big Data y Business Intelligence, Alex Ray贸n, entrevist贸 a trav茅s de un webinar a tres expertos profesionales en cada uno de los tres sectores citados: Pedro G贸mez (profesional del 谩mbito financiero), Joseba D铆az (profesional con experiencia en proyectos sanitarios y profesional Big Data en HP) y Jon Goikoetxea (Director de Comunicaci贸n y Marketing del Grupo Noticias y el diario Deia y alumno de la primera edici贸n del Programa Big Data y Business Intelligence).

En la sesi贸n pudimos conocer la aplicaci贸n del Big Data a los tres sectores (finanzas, sanidad y comunicaci贸n&marketing), conociendo experiencias reales y enfoques pr谩cticos de la puesta en valor del dato.聽Os dejamos el enlace donde pod茅is escuchar el podcast de la sesi贸n.

Ciclo 芦El empleo hoy: oportunidades de ma帽ana. Big Data y Business Intelligence禄, 2 de Diciembre, 2015

Son muchas las estad铆sticas que hacen referencia a la oportunidad de empleo que existe alrededor del Big Data. Seg煤n Gartner, en 2015 van a ser necesarios 4,4 millones de personas formadas en el campo del an谩lisis de datos y su explotaci贸n. En este sentido, McKinsey sit煤a en torno al 50% la brecha entre la demanda y la oferta de puestos de trabajo relacionados con el an谩lisis de datos en 2018. Es decir, existe un enorme d茅ficit de cient铆ficos y analistas de datos.

Por otro lado, el Big Data est谩 empezando a entrar en los procesos de negocio de las organizaciones de manera transversal. Anteriormente, era empleado para necesidades concretas (evitar la fuga de clientes, mejora de las acciones del marketing, etc.), siendo impulsado mayoritariamente por los equipos t茅cnicos y tecnol贸gicos de las compa帽铆as. Se est谩n creando nuevas herramientas anal铆ticas dise帽adas para las necesidades de las unidades de negocio, con sencillas, 煤tiles e intuitivas interfaces gr谩ficas. De este modo, el usuario de negocio impulsa la adopci贸n de soluciones Big Data como soporte a la toma de decisiones de negocio.

La llegada de Big Data al usuario de negocio representa una oportunidad de ampliar el n煤mero de usuarios y extender el 谩mbito de actuaci贸n. Se prev茅 as铆 que cada vez entren m谩s proveedores, tanto de soluciones tecnol贸gicas como de agregadores de datos. Y es que el Big Data comienza a ser el elemento principal para la transformaci贸n de las organizaciones (en constante b煤squeda de la eficiencia y la mejora de sus procesos) e inclusos de sus modelos de negocio (nuevas oportunidades de monetizaci贸n). En este sentido, son muchas las organizaciones que han pasado de productos a servicios, y necesitan reinventarse sobre el an谩lisis de los datos.

Con todo ello, y ante la multidimensionalidad de esta transformaci贸n econ贸mica y tecnol贸gica, se est谩n creando nuevos perfiles y puestos de trabajo desconocidos en nuestra sociedad y que tienen que ver con los datos. Big Data implica un cambio en la direcci贸n y organizaci贸n de las empresas. El que no est茅 preparado para hacer las preguntas adecuadas, sabiendo que se lo puede preguntar a los sistemas, estar谩 desperdiciando el potencial de su organizaci贸n. Y en ello necesitar谩 un perfil que conozca del 谩mbito t茅cnico, del econ贸mico, del legal, del humano, etc., y de competencias gen茅ricas como la inquietud, el trabajo en equipo, la creatividad, orientaci贸n a la calidad y el cliente, etc. Queda claro as铆, que esto no es un campo s贸lo t茅cnico; es mucho m谩s amplio y diverso.

Las empresas est谩n empezando a entender la necesidad de trabajar con los datos, y eso teniendo en cuenta que actualmente s贸lo se usa el 5% del todo el caudal de datos. Pero es manifiesta la falta de talento.

Por todo ello, organizamos un ciclo de eventos que hemos denominado 芦El empleo hoy: oportunidades de ma帽ana. Big Data y Business Intelligence芦. El primero de ellos, ser谩 el pr贸ximo 2 de Diciembre. Contaremos聽con聽la presencia de protagonistas de este cambio. Empresas, que s铆 tienen esta visi贸n del dato como elemento transformador de su organizaci贸n y su modelo de negocio. Empresas, que demandan este talento que todav铆a es muy escaso. Puedes registrarte en este formulario, con una inscripci贸n totalmente gratuita. El evento lo celebraremos entre las 9:15 y 13:30, en la Sala Ellacur铆a de la Biblioteca-CRAI de la Universidad de Deusto.

Todos los detalles del programa los pod茅is encontrar en la parte inferior de este art铆culo. Contaremos con la presencia de un reputado conferencista internacional, Patricio Moreno, CEO de la empresa Datalytics. Con mucha presencia en varios pa铆ses de Latinoam茅rica y Europa, nos ofrecer谩 una visi贸n global de las oportunidades de transformaci贸n que trae el Big Data a las organizaciones y a las personas para su desempe帽o laboral futuro. Adem谩s, Natalia Maeso, gerente en Deloitte, nos contar谩 c贸mo desde el mundo de la consultor铆a (Deloitte es la primera firma en consultor铆a a nivel mundial), las oportunidades laborales que trae el Big Data. Los niveles de contrataci贸n del mundo de la consultor铆a en este sector son realmente altos.

Por 煤ltimo, cerraremos la jornada con una mesa redonda, en la que adem谩s de Patricio y Natalia, contaremos con Antonio Torrado de HP, Marita Alba de CIMUBISA y David Ruiz de Smartup, para debatir y conversar sobre las competencias, conocimientos y t茅cnicas necesarias para los profesionales que hacen que las organizaciones evolucionen hacia la ventaja competitiva que ofrece la explotaci贸n de los datos.

Os esperamos a todos el 2 de Diciembre. Os dejamos el formulario de inscripci贸n aqu铆.

Programa

Empleo y Big Data (Fuente: http://noticias.infocif.es/sites/default/files/styles/n1000x540/public/i/a/big_0.jpg?itok=wivBVYS0)
Empleo y Big Data (Fuente: http://noticias.infocif.es/sites/default/files/styles/n1000x540/public/i/a/big_0.jpg?itok=wivBVYS0)

Visual Analytics: la visualizaci贸n anal铆tica, eficiente e inteligente de datos

Suelo decir en los cursos que el gran reto que nos queda por resolver es 芦pintar bien el Big Data芦. Con estas palabras sem谩nticamente pobres, lo que trato de decir es que la representaci贸n visual del dato no es un tema trivial; y que nos podemos esforzar en hacer un gran proyecto de聽tratamiento de datos, integraci贸n y depuraci贸n, etc., que si luego finalmente no lo visualizamos apropiadamente, el usuario puede no estar completamente satisfecho con ello. Por ello, he querido dedicar este art铆culo para hablar del 谩rea del Visual Analytics o visualizaci贸n anal铆tica e inteligente de datos.

Antoine de Saint-Exupery, autor de 鈥El principito鈥, dijo eso de聽鈥La perfecci贸n se alcanza no cuando no hay nada m谩s que a帽adir, sino cuando no hay nada m谩s que quitar鈥. Es decir, un enfoque minimalista. Y es que la visualizaci贸n de informaci贸n es una mezcla entre narrativa, dise帽o y estad铆stica. Estos tres campos tienen que ir inexorablemente unidos para no correr el peligro de perderse con la interpretaci贸n de la idea a trav茅s de est铆mulos visuales. Las buenas representaciones gr谩ficas, deben cumplir una serie de caracter铆sticas:

  1. Se帽alar relaciones, tendencias o patrones
  2. Explorar datos para inferir nuevo conocimiento
  3. Facilitar el entendimiento de un concepto, idea o hecho
  4. Permitir la observaci贸n de una realidad desde diferentes puntos de vista
  5. Y聽permitir recordar una idea.

Estos ser谩n nuestros cinco objetivos cuando representamos algo en una gr谩fica o representaci贸n visual. A partir de hoy, nuestras cinco obsesiones cuando vayamos a representar聽una idea o relaci贸n de manera gr谩fica.聽驴Cumplen estas caracter铆sticas tus visualizaciones de datos e informaci贸n?聽La puesta en valor del dato, como ven, no es algo trivial. Para prueba,聽un caso, cogido medianamente al azar:

Cancelaciones de aviones desde 2007 a 2010 (Fuente: USA TODAY)
Cancelaciones de aviones desde 2007 a 2010 (Fuente: USA TODAY)

驴Problemas? En primer lugar, 驴qu茅 quiere se帽alar? Si es una relaci贸n, tendencia o patr贸n, 驴no deber铆a darnos m谩s idea de si los n煤meros son relevantes o no? 驴qu茅 significan? 驴c贸mo me afectan?聽No facilita entender un concepto, sino que introduce varias dimensiones (tiempo, cancelaciones de vuelos, variaci贸n de la tendencia, etc.). Y, encima, lo hace represent谩ndolo sobre el ala de un avi贸n. 驴Quiere transmitir seguridad o inseguridad? Genera dudas. Hubiera sido esto m谩s simple si fuera como una cebolla con una 煤nica capa: una idea, una relaci贸n, un concepto clave. No hace falta m谩s.

La representaci贸n visual es una forma de expresi贸n m谩s. Como las matem谩ticas, la m煤sica o la escritura, tiene una serie de reglas que respetar. Hoy en d铆a, en que la cantidad de datos y la tecnolog铆a ya no son un problema, el reto para las empresas recae en conocer los conceptos b谩sicos de representaci贸n visual. Es lo que se ha venido a conocer como la ciencia del Visual Analytics, definida como la ciencia del razonamiento anal铆tico facilitado a trav茅s de interfaces visuales interactivas. De ah铆 que hoy en d铆a los medios de comunicaci贸n utilicen cada vez estas representaciones gr谩ficas de datos e informaci贸n con las que podemos interactuar.

El uso de representaciones visuales e interactivas de elementos abstractos permite ampliar y mejorar el procesamiento cognitivo.聽Por lo tanto, para transladar ideas y relaciones, ayuda mucho disponer de una gr谩fica interactiva.聽Hay muchos te贸ricos y autores que se han dedicado a generar teor铆a y pr谩ctica en este campo de la representaci贸n visual de informaci贸n. De hecho, la historia de la visualizaci贸n no es algo realmente nuevo. En el Siglo XVII, ya destacaron autores como Joseph Priestley y William Playfair. M谩s tarde, en el Siglo XIX, podemos citar a John Snow, Charles J. Minard y F. Nightingale como los m谩s relevantes (destacando especialmente el primero, que a trav茅s de una representaci贸n geogr谩fica logr贸 contener una plaga de c贸lera en Londres). Ya en el Siglo XX, Jacques Bertin, John Tukey, Edward Tufte y Leland Wilkinson son los autores m谩s citados en lo que a visualizaci贸n y representaci贸n de la informaci贸n se refiere.

Representaci贸n gr谩fica del brote de c贸lera de John Snow: nacen as铆, los Sistemas de Informaci贸n Geogr谩fica o SIG (Fuente: http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/)
Representaci贸n gr谩fica del brote de c贸lera de John Snow: nacen as铆, los Sistemas de Informaci贸n Geogr谩fica o SIG (Fuente: http://blog.rtwilson.com/john-snows-cholera-data-in-more-formats/)

Tufte es quiz谩s el autor m谩s citado. Su libro 鈥The Visual Display of Quantitative Information鈥, una biblia para los equipos de visualizaci贸n聽eficientes y rigurosas. De hecho, los principios de Tufte, los podemos resumir en la integridad gr谩fica y el dise帽o est茅tico. Siempre destaca c贸mo los atributos m谩s importantes el color, el tama帽o, la orientaci贸n y el lugar de la p谩gina donde presentamos una gr谩fica. Y es que, por mucho que nos sorprenda o por simple que nos parezca, la codificaci贸n del valor (datos univariados, bivariados o multivariados) y la codificaci贸n de la relaci贸n de valores (l铆neas, mapas, diagramas, etc.), no es un asunto trivial. Un ejemplo de esto ser铆a la siguiente gr谩fica:

Banking the World Bank (Fuente: http://blogs.elpais.com/.a/6a00d8341bfb1653ef0153903125d9970b-550wi)
Banking the World Bank (Fuente: http://blogs.elpais.com/.a/6a00d8341bfb1653ef0153903125d9970b-550wi)

Si cogemos el gr谩fico anterior y yo os hago preguntas聽relacionadas con la identificaci贸n del mayor donante o el mayor receptor, ustedes tendr铆an problemas. Quiz谩s con un patr贸n de color esto se hubiera resuelto. Pero ni con esas. 聽Un mapa no es la mejora manera de representar este tipo de datos (y hoy en d铆a se abusa mucho de los mapas).聽Si quiero responder a las preguntas anteriores, tengo que realizar una b煤squeda de las cifras, memorizarlas y luego compararlas. 聽Lo dicho al comienzo; una idea, un patr贸n, una relaci贸n, y luego, b煤squeda de la mejor gr谩fica para ello. Por eso los gr谩ficos de tarta… mejor dejarlos para el postre 馃槈 (los humanos no somos especialmente h谩biles comparando trozos de un c铆rculo cuando hablamos de 谩reas… que es lo que propone un gr谩fico de tarta con los trocitos en los que descomponemos un c铆rculo)

Quiz谩s la referencia m谩s importante de todo esto que estamos hablando se encuentre en el art铆culo que en 1985 escribieron Cleveland y McGill, titulado 鈥Ranking of elementary perceptual tasks鈥.聽Dos investigadores de AT&T Bell Labs, William S. Cleveland y Robert McGill, publicaron este聽art铆culo central en el Journal of the American Statistical Association.聽Propone una gu铆a con las representaciones visuales m谩s apropiadas en funci贸n del objetivo de cada gr谩fico, lo cual nos ofrece otro peque帽o manual para ayudarnos a representar la informaci贸n de manera inteligente y eficiente.

鈥淎 graphical form that involves elementary perceptual tasks that lead to more accurate judgements than another graphical form (with the same quantitative information) will result in a better organization and increase the chances of a correct perception of patterns and behavior.鈥 (William S. Cleveland y Robert McGill, 1985)

Dicho todo esto, y con la aparici贸n del Big Data, muchos autores comenzaron a trabajar en crear metodolog铆as eficientes para la visualizaci贸n de informaci贸n. Lo que hemos denominado al comienzo como Visual Analytics: la visualizaci贸n anal铆tica, eficiente e inteligente de datos que ayuda a aumentar el entendimiento e interpretaci贸n de una idea, una relaci贸n, un patr贸n, etc.

En nuestro Programa de Big Data y Business Intelligence, celebraremos pr贸ximamente una sesi贸n en la que precisamente hablaremos de todo esto. C贸mo seguir una serie de pasos y criterios a considerar para ayudar al lector, al usuario, a entender y pensar mejor. Un campo que se nutre de los conocimientos del 谩rea de Human-Computer-Interaction (HCI) y de la visualizaci贸n de informaci贸n. Y, como muestro en la siguiente figura (un聽proceso聽de Visual Analytics basado en trabajos de Daniel Keim y otros), aplicaremos un m茅todo para pasar del dato al conocimiento, a trav茅s de los modelos anal铆ticos y la visualizaci贸n de informaci贸n que no confunda, y como dec铆a Saint-Exupery, simplifique.

Proceso de Visual Analytics (Fuente: elaboraci贸n propia)
Proceso de Visual Analytics (Fuente: elaboraci贸n propia)

驴Cu谩l ser谩 el resultado de esta sesi贸n? Un dashboard, un informe, un panel de mando de KPIs bien dise帽ado y elaborado.聽Es decir, conocimiento eficiente e inteligente para ayudar a las organizaciones a tomar decisiones apoy谩ndose en gr谩ficos bien elaborados. Un dashboard que cumpla con nuestros cinco principios y que permita al estudiante llevarse su tabla peri贸dica de los m茅todos de visualizaci贸n eficiente.

Tabla peri贸dica de los m茅todos de visualizaci贸n (Fuente: http://www.visual-literacy.org/periodic_table/periodic_table.html)
Tabla peri贸dica de los m茅todos de visualizaci贸n (Fuente: http://www.visual-literacy.org/periodic_table/periodic_table.html)

Una buena armadura jur铆dica en los proyectos de Big Data y la protecci贸n de datos

(Por I帽aki Pariente,聽鈥嶥irector de la Agencia Vasca de Protecci贸n de Datos y Profesor de la Facultad de Derecho y el Programa de Big Data y Business Intelligence de la Universidad de Deusto)

Asistimos en estos 煤ltimos a帽os a una gran revoluci贸n silenciosa en el 谩mbito tecnol贸gico: Internet de las cosas, aplicaciones m贸viles, smart cities, big data, etc. Son temas que est谩n a diario en los blogs y publicaciones digitales, y tambi茅n en boca de los profesionales.聽Y en mi opini贸n el gran desconocido en toda esta evoluci贸n es el asesor jur铆dico del proyecto.

Siempre que un tecn贸logo, inform谩tico o emprendedor en general oye la menci贸n al asesoramiento jur铆dico huye como de ello como de la p贸lvora.聽Sin embargo, es la clave para que un proyecto tecnol贸gico salga adelante o no.

El problema es encontrar a alguien que aporte al proyecto una visi贸n facilitadora, que provoque que el proyecto avance pero que al mismo tiempo consiga que el proyecto no se salga de los ra铆les de lo legalmente permitido.

Si no conseguimos este equilibrio, el resultado siempre ser谩 malo, y pueden darse dos casos de fracaso: No tengo en cuenta el asesoramiento, hasta el final del proyecto, y por lo tanto, si no estoy cumpliendo los requisitos legales, el proyecto puede quedar paralizado por este incumplimiento; o lo tengo en cuenta, pero no es el asesoramiento adecuado, y consigue paralizar o hacer in煤til el proyecto.

Este equilibrio es la clave. Actualmente existen metodolog铆as innovadoras que permitir谩n que los proyectos tecnol贸gicos, bien asesorados, avancen y sean exitosos, el secreto es saber implementarlas y utilizarlas adecuadamente, y siempre con la perspectiva de que el proyecto tenga una buena orientaci贸n .

Sin embargo, y en el momento en que nos encontramos debemos mantener una doble perspectiva: debemos cumplir en lo sustancial la normativa en vigor (Ley Org谩nica de Protecci贸n de Datos y Reglamento de desarrollo), pero al mismo tiempo debemos enfocar la nueva normativa, insertando estos principios en los proyectos innovadoras. Las herramientas por lo tanto deben de ser dobles, y adaptadas permanentemente.

Y ello sin olvidar las modificaciones que introducir谩 el Reglamento Europeo de Protecci贸n de Datos una vez que sea aprobado, el cual previsiblemente introducir谩 la obligaci贸n de realizar evaluaciones en todos los procesos en los que haya tratamiento masivo de datos personales, lo que, de aqu铆 en adelante, ser谩 lo habitual.

Como conclusi贸n, un panorama que reivindica el papel del experto en Derecho en este mundo tecnol贸gico y reivindica adem谩s una visi贸n jur铆dica estricta de este problema. Y en todo ello, destaca la protecci贸n de datos como elemento a cuidar y respetar.

Herramientas ETL y su relevancia en la cadena de valor del dato

El聽proceso de Extracci贸n (E), Transformaci贸n (T) y Carga (L, de Load en Ingl茅s) -ETL-聽consume entre el 60% y el 80% del tiempo de un聽proyecto de Business Intelligence. Suelo empezar con este dato siempre a hablar de las herramientas ETL por la importancia que tienen dentro de cualquier proyecto de manejo de datos. Tal es as铆, que podemos afirmar que聽proceso clave en聽la vida de todo proyecto y que por lo tanto debemos conocer.聽Y 茅ste es el objetivo de este art铆culo.

La cadena de valor de un proyecto de Business Intelligence la podemos representar de la siguiente manera:

Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)
Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)

Hecha la representaci贸n gr谩fica, es聽entendible ya el valor que aporta una herramienta ETL. Como vemos, es la recoge todos los datos de las diferentes fuentes de datos (un ERP, CRM, hojas de c谩lculo sueltas, una base de datos SQL, un archivo JSON de una BBDD NoSQL orientada a documentos, etc.), y ejecuta las siguientes acciones (principales, y entre otras):

  • Validar los datos
  • Limpiar los datos
  • Transformar los datos
  • Agregar los datos
  • Cargar los datos

Esto, tradiocionalmente se ha venido realizando con c贸digo a medida. Lo que se puede entender, ha tra铆do muchos problemas desde la 贸ptica del mantenimiento de dicho c贸digo y la colaboraci贸n dentro de un equipo de trabajo. Lo que vamos a ver en este art铆culo es la importancia de estas acciones y qu茅 significan.聽Por resumirlo mucho, un proceso de datos cualquiera comienza en el origen de datos, contin煤a con la intervenci贸n de una herramienta ETL, y concluye en el destino de los聽datos que posteriormente va a ser explotada,聽representada en pantalla, etc.

驴Y por qu茅 la importancia de una herramienta ETL?聽B谩sicamente, ejecutamos las acciones de validar, limpiar, transformar, etc. datos para minimizar los fallos que en etapas posteriores del proceso de datos pudieran darse (existencia de campos o valores nulos, tablas de referencia inexistentes, ca铆das del suministro el茅ctrico,聽etc.).

Este parte del proceso consume una parte significativa de todo el proceso (como dec铆amos al comienzo),聽por ello requiere recursos, estrategia, habilidades especializadas聽y tecnolog铆as. Y aqu铆 es donde necesitamos una herramienta ETL que nos ayude en todo ello.聽驴Y qu茅 herramientas ETL tenemos a nuestra disposici贸n? Pues desde los fabricantes habituales (SAS, Informatica, SAP, Talend, Information Builders, IBM, Oracle, Microsoft, etc.), hasta herramientas con un coste menor聽(e incluso abiertas)聽como Pentaho Kettle,聽Talend聽y RapidMiner. En nuestro Programa de Big Data y Business Intelligence, utilizamos mucho tanto SAS como Pentaho Kettle (especialmente esta 煤ltima), por lo que ayuda a los estudiantes a integrar, depurar la calidad, etc. de los datos que disponen. A continuaci贸n os dejamos聽una comparaci贸n entre herramientas:

Comparaci贸n Talend vs. Pentaho Kettle
Comparaci贸n Talend vs. Pentaho Kettle

驴Y qu茅 hacemos con el proceso y las herramientas ETL en nuestro programa? Varias acciones, para hacer conscientes al estudiante sobre lo que puede aportar estas herramientas a sus proyectos. A continuaci贸n destacamos聽5 subprocesos, que son los que se ejecutar铆an dentro de la herramienta:

  1. Extracci贸n: recuperaci贸n de聽los datos f铆sicamente de las聽distintas fuentes de informaci贸n. Probamos a extrar desde una base de datos de un ERP, CRM, etc., hasta una hoja de c谩lculo, una BBDD documental como un JSOn, etc. En este momento disponemos聽de los datos en bruto. 驴Problemas que nos podemos encontrar al acceder a los datos para extraerlos?聽B谩sicamente se refieren a que provienen de distintas fuentes (la V de Variedad), BBDD, plataformas tecnol贸gicas, protocolos de comunicaciones, juegos de caracteres y tipos de datos.
  2. Limpieza: recuperaci贸n de聽los datos en bruto, para, posteriormente: comprobar聽su聽calidad, eliminar los duplicados y, cuando es posible, corrige聽los valores err贸neos y completar los valores vac铆os. Es decir se聽transforman los datos -siempre que sea posible- para reducir聽los errores de carga. En este momento disponemos de datos聽limpios y de alta calidad. 驴Problemas?ausencia de valores, campos que tienen distintas utilidades, valores cr铆pticos, vulneraci贸n de las reglas de negocio, identificadores que no son 煤nicos, etc.聽La limpieza de datos, en consecuencia, se divide en distintas etapas,聽que debemos trabajar para dejar los datos bien trabajados y limpios.
    • Depurar los valores (parsing)
    • Corregir (correcting)
    • Estandarizar (standardizing)
    • Relacionar (matching)
    • Consolidar (consolidating)
  3. Transformaci贸n: este proceso recupera los datos limpios y聽de alta calidad y los estructura y resume聽en los distintos聽modelos de an谩lisis. El resultado de este proceso es聽la obtenci贸n de datos limpios, consistentes y聽煤tiles.聽La transformaci贸n de los datos se hace partiendo de los datos una vez聽鈥渓impios鈥 (la etapa 2 de este proceso)(. Transformamos los datos de acuerdo con las reglas de negocio y聽los est谩ndares que han sido establecidos por el equipo de trabajo. La transformaci贸n incluye: cambios聽de formato, sustituci贸n de c贸digos, valores derivados y agregados, etc.
  4. Integraci贸n: Este proceso valida que los datos que cargamos聽en el datawarehouse o la BBDD de destino (antes de pasar a su procesamiento) son consistentes con las definiciones聽y formatos del datawarehouse; los integra en los distintos聽modelos de las distintas 谩reas de negocio que hemos definido聽en el mismo.
  5. Actualizaci贸n: Este proceso es el que nos permite a帽adir los聽nuevos datos al datawarehouse o base de datos de destino.

Para concluir este art铆culo, os dejamos la presentaci贸n de una de las sesiones de nuestro Programa de Big Data y Business Intelligence. En esta sesi贸n, hablamos de los competidores y productos de mercado ETL.

Evitando el fraude a trav茅s de la presentaci贸n de la informaci贸n en grafos

En nuestro workshop del pasado 27 de Octubre, tambi茅n estuvo como ponente Jes煤s Barrasa, Field Engineer de Neo Technology. B谩sicamente, el 聽objetivo de su ponencia fue contarnos c贸mo poder prevenir el fraude a trav茅s de la modelizaci贸n de la informaci贸n en grafos. Este formalizaci贸n matem谩tica, que ha ganado bastante popularidad en los 煤ltimos a帽os, permite una expresividad de informaci贸n tan alta, que para muchas aplicaciones donde el descubrimiento de la informaci贸n es cr铆tica (como es el evitar el fraude), puede ser vital.

Pero, empecemos por lo b谩sico. Jes煤s, nos describi贸 lo que es un grafo. Un conjunto de v茅rtices (o nodos), que est谩n unidos por arcos o aristas. De este modo, tenemos una informaci贸n representada a trav茅s de relaciones binarias entre el conjunto de elementos. Fue Leonhard Euler, matem谩tico suizo, el inventor de la teor铆a de grafos en 1736. Por lo tanto, no estamos hablando de un instrumento matem谩tico nuevo.

Un grafo, como conjunto de v茅rtices y arcos (Fuente: https://www.flickr.com/photos/thefangmonster/352461415/in/photolist-x9suX-fDVc6-88T8hQ-7X9u8d-afsXkh-i6KLs-6PpBb6-836Ttv-85z1hy-rA46-rjfq-5RTzeU-bDcg8x-f5s1g3-a1Jv37-bsDVCK-7i62o-5WbpbF-i6LKS-aRBH8x-5RPjSa-h1Xkr2-4d5ypn-DifCQ-7SGo1D-9C4Y3c-noNEE9-7noTPo-7dYzTc-7dYzxZ-d672zw-99Z1f9-bz2Y9P-bquhCW-881tVy-4vn6sS-7Zebpn-4t7P4n-bdYG1z-ePUf2-aVcE68-f7Tsq-7JdUAY-bmhmrn-e2KEC6-63bkHm-e8zMaZ-88V6bY-9ZjTax-7SGo6Z)
Un grafo, como conjunto de v茅rtices y arcos (Fuente: https://www.flickr.com/photos/thefangmonster/352461415/in/photolist-x9suX-fDVc6-88T8hQ-7X9u8d-afsXkh-i6KLs-6PpBb6-836Ttv-85z1hy-rA46-rjfq-5RTzeU-bDcg8x-f5s1g3-a1Jv37-bsDVCK-7i62o-5WbpbF-i6LKS-aRBH8x-5RPjSa-h1Xkr2-4d5ypn-DifCQ-7SGo1D-9C4Y3c-noNEE9-7noTPo-7dYzTc-7dYzxZ-d672zw-99Z1f9-bz2Y9P-bquhCW-881tVy-4vn6sS-7Zebpn-4t7P4n-bdYG1z-ePUf2-aVcE68-f7Tsq-7JdUAY-bmhmrn-e2KEC6-63bkHm-e8zMaZ-88V6bY-9ZjTax-7SGo6Z)

Pues bien, este tipo de representaci贸n de informaci贸n (en grafos) es el tipo de bases de datos que m谩s est谩 ganando en popularidad en los 煤ltimos a帽os (consultar datos aqu铆). Su uso en aplicaciones como las redes sociales (y todo lo que tiene que ver con el An谩lisis de Redes Sociales o Social Network Analysis), el an谩lisis de impacto en redes de telecomunicaciones, sistemas de recomendaci贸n (como los de Amazon), log铆stica (y la optimizaci贸n de los puntos de entrega -v茅rtices- a trav茅s de la distancia entre puntos – longitud de las aristas -), etc., son solo algunos ejemplos de la potencia que tiene la representaci贸n de la informaci贸n en grafos.

Jes煤s nos introdujo un caso concreto que desde Neo Technology han trabajado para la detecci贸n y prevenci贸n del fraude. Un contexto de aplicaci贸n, que adem谩s de tener cierta sensibilidad social en los 煤ltimos a帽os,聽no solo es aplicable al 谩mbito econ贸mico, sino tambi茅n a muchos otros donde el fraude ha sido recurrente y muy dif铆cil de detectar. El problema hasta la fecha es que los l铆mites del modelo relacional de bases de datos (el que ha imperado hasta la fecha) han tra铆do siempre una serie de asuntos que complicaban la detecci贸n:

  • Complejidad al modelizar relaciones (por asuntos como la integridad relacional, etc.)
  • Degradaci贸n del rendimiento al aumentar el n煤mero de asociaciones y con el volumen de datos
  • Complejidad de las consultas
  • La necesidad de redise帽ar el esquema de datos cuando se introducen nuevas asociaciones y tipos de datos
  • etc.

Estos puntos (entre otros), hacen que las bases de datos relacionales tradicionales resulten hoy en d铆a inadecuadas cuando las asociaciones entre puntos de datos son 煤tiles y valiosas en tiempo real. Y aqu铆 es donde las bases de datos NoSQL (orientadas a documentos, las columnares, las de grafos, etc.), son bastante 煤tiles para soliviantar este problema.

Introducida esta necesidad por las bases de datos de grafos, Jes煤s nos cont贸 el caso concreto de los defraudadores. Personas que solicitan l铆neas de cr茅dito, act煤an de manera aparentemente normal, extienden el cr茅dito y de repente desaparecen. De hecho, decenas de miles de millones de d贸lares son defraudados al a帽o solo a bancos estadounidenses. 25% del total de cr茅ditos personales son amortizados como p茅rdidas. Para prevenir esto, la modelizaci贸n de los datos como grafos puede ayudar.

驴Qu茅 es lo que se representa como un grafo? 驴Qu茅 datos/informaci贸n? Lo que Jes煤s denomin贸 los anillos de fraude (que pod茅is encontrar en la imagen debajo de estas l铆neas). Acciones que va realizando un usuario, y que como son representadas a trav茅s de relaciones, permite no solo detectar el fraude, sino tambi茅n minimizar p茅rdidas y prevenirlo en la medida de lo posible a trav茅s de cadenas de conexi贸n sospechosas.

Anillo de fraude (Fuente: Neo Technology)
Anillo de fraude (Fuente: Neo Technology)

Como siempre, os dejamos al final de este art铆culo las聽diapositivas empleadas por Jes煤s. Otro caso m谩s de aplicaci贸n del Big Data y de mejora de las sociedades, empresas e instituciones a trav茅s de la puesta en valor de los datos. En este caso, los grafos.

Smart City Bilbao: los datos al servicio de la ciudad

En el workshop que organizamos el pasado 27 de Octubre, tambi茅n particip贸 CIMUBISA, entidad municipal del Ayuntamiento de Bilbao. B谩sicamente, nos habl贸 sobre la formulaci贸n estrat茅gica de ciudad que ten铆a Bilbao, y c贸mo el Big Data impactaba sobre ella.

CIMUBISA expuso la formulaci贸n estrat茅gica de ciudad que tiene Bilbao. Una estrategia que gira en torno a 5 ejes de actuaci贸n:

  1. Administraci贸n 4.0
  2. Tecnolog铆as en el espacio urbano
  3. Ciudadan铆a digital y calidad de vida
  4. Desarrollo econ贸mico inteligente
  5. Gobernanza

Y en esta estrategia, el dato, la informaci贸n, resultan clave para ayudar a decidir. No podemos construir una administraci贸n inteligente sin una informaci贸n de calidad para聽tomar decisiones que beneficien a la sociedad en su conjunto. Prueba de ello es la representaci贸n esquem谩tica que se muestra a continuaci贸n, en la que la estrategia pol铆tica, se art铆cula en torno a diferentes fuentes de informaci贸n, que la estrategia 芦Smart City Bilbao禄 procesa y pone en valor. Fuentes como la escucha directa en la calle, lo que los medios de comunicaci贸n se帽alan sobre la ciudad, lo que se obtiene del fomento de la participaci贸n, investigaciones cuantitativas y cualitativas, escucha institucional interna, redes sociales, etc.

La informaci贸n para decidir, estrategia de Smart Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)
La informaci贸n para decidir, estrategia de Smart Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)

驴Y con todos estos datos recogidos que se hace en Bilbao? Un an谩lisis descriptivo, predictivo y prescriptivo. Es decir, t茅cnicas de data mining聽para extraer m谩s informaci贸n a煤n de los datos ya capturados.聽聽Un car谩cter descriptivo para saber lo que pasa en Bilbao; un car谩cter predictivo para simular lo que pudiera pasar en Bilbao cuando se den unos valores en una serie de variables; y un car谩cter prescriptivo para recomendar a Bilbao en qu茅 par谩metros se ha de incidir para mejorar la gesti贸n y la administraci贸n en aras de maximizar el bienestar del ciudadano.

En 煤ltima instancia, esos datos capturados y tratados con car谩cter descriptivo, predictivo y prescriptivo, es visualizado. 驴De qu茅 manera? Gr谩ficos, tablas, dashboards, mapas de calor, etc., en 谩reas como la movilidad y el tr谩fico, la seguridad y emergencias, la gesti贸n de residuos, eficiencia energ茅tica, etc.

Mapas para la visualizaci贸n de datos de la ciudad de Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)
Mapas para la visualizaci贸n de datos de la ciudad de Bilbao (Fuente: http://www.slideshare.net/deusto/smart-bilbao-los-datos-al-servicio-de-la-ciudad-big-data-open-data-etc)

Por 煤ltimo, nos hablaron del proyecto Big Bilbao, un nuevo concurso que aspira a posicionar a Bilbao en el mapa en esto del Big Data. Un proyecto transformador de inteligencia de ciudad. El principal objetivo de este proyecto es crear una plataforma que permita explotar datos de distintas fuentes, estructurados y no estructurados, que permitan mejorar la eficiencia de la gesti贸n de la ciudad. Es decir, una smart city con聽funcionalidades avanzadas y de altas prestaciones.

Con todo esto que hemos explicado, no nos debe extra帽ar lo que ya citamos聽en el art铆culo sobre ciudades inteligentes;聽Bilbao, fue la primera聽certificada UNE como Ciudad Inteligente聽o Smart City.

Os dejamos la presentaci贸n para terminar este post, por si quisier谩is extender los detalles sobre lo聽descrito anteriormente.

El scoring bancario en los tiempos del Big Data

Con este art铆culo vamos a abrir una serie de cinco art铆culos donde expondremos las cinco ponencias y sus preguntas asociadas del pasado workshop celebrado el 27 de Octubre en la Universidad de Deusto.

El workshop, titulado como 芦Aplicaci贸n del Big Data en sectores econ贸micos estrat茅gicos芦, 聽ten铆a como principal objetivo mostrar la aplicaci贸n del Big Data en varios sectores estrat茅gicos para la econom铆a Espa帽ola (finanzas, sector p煤blico, cultura, inversi贸n y turismo). La primera de las intervenciones corri贸 a cargo de Jorge Monge, de Management Solutions, que nos expuso c贸mo聽elaborar un scoring financiero y su relevancia en la era del Big Data.

La revoluci贸n tecnol贸gica se produce a magnitudes nunca antes observadas. El sector financiero no es ajeno a ese cambio, conjugando una reestructuraci贸n sin precedentes, con un cambio de perfil de usuario muy acusado. As铆, se est谩 pasando de la Banca Digital 1.0 a la 4.0, una innovaci贸n liderada por el cliente, y donde la anal铆tica omnicanal con datos estructurados y no estructurados se torna fundamental.

La Banca Digital 4.0 (Fuente: Management Solutions)
La Banca Digital 4.0 (Fuente: Management Solutions)

Las entidades financieras, gracias a esta transformaci贸n digital, disponen de gran cantidad de informaci贸n p煤blica, con la que hacer perfiles detallados no solo a sus clientes actuales, sino tambi茅n a sus clientes potenciales. Dado que la capacidad de procesamiento se ha visto multiplicado por las nuevas arquitecturas del Big Data, esto tampoco supone un problema. Los modelos de scoring (como el que Jorge expuso) pertenecen al 谩mbito de riesgos de las entidades bancarias, intentando clasificar a los clientes potenciales en funci贸n de su probabilidad de impago. Nos cont贸 un proyecto real en el que con datos anonimizados de una cartera de 72.000 clientes potenciales, se mezclaron datos tradicionales de transacciones, con datos de redes sociales, para聽conformar un modelo anal铆tico. 脡ste, conformado por variables significativas de cara a evaluar el incumplimiento, permit铆a mejorar el poder precitivo del scoring bancario.

El reto actual radica en la gran cantidad de datos. Jorge se帽al贸 c贸mo aunque se genere gran cantidad de informaci贸n, esta no ser铆a 煤til si no pudiera procesarse.聽Sin embargo, la capacidad de procesamiento se ha visto multiplicada por las nuevas arquitecturas de Big Data. Destac贸, aqu铆, Hadoop, Hive, Pig, Mahout, R, Python, etc. Varias de las herramientas que ya comentamos en un post pasado.

Por 煤ltimo, destacaba, que el reto ya no es tecnol贸gico. El reto es poder entender el procesamiento que hacen estas herramientas. As铆, ha surgido un nuevo rol multidisciplinar para hacer frente a este problema: el data scientist, que integra conocimientos de tecnolog铆a, de programaci贸n, de matem谩ticas, de estad铆stica, de negocio, etc. Hablaremos de este perfil m谩s adelante. Y, cerraba la聽sesi贸n, destacando la importancia de la calidad de la informaci贸n, el reto que suponen las variables cualitativas y la desambiguaci贸n.

Os dejamos, para finalizar el art铆culo, la presentaci贸n realizada por Jonge Monge. Aprovechamos este art铆culo para agradecerle nuevamente su participaci贸n y聽aportaciones de valor.