Archivo de la etiqueta: business intelligence

¿Qué hace un «Científico de datos» y por qué es una profesión tan sexy?

Mucho se ha escrito la que aparentemente va a ser la profesión más sexy del Siglo XXI. Más allá de titulares tan rimbonbantes (digo yo, que quedan muchas cosas todavía que inventar y hacer en este siglo :-), lo que viene a expresar esa idea es la importancia que va a tener un científico de datos en una era de datos ubicuos, coste de almacenamiento, procesamiento y transporte prácticamente cero y de constante digitalización. La práctica moderna del análisis de datos, lo que popularmente y muchas veces erróneamente se conoce como «Big Data», se asienta sobre lo que es la «Ciencia del Dato» o «Data Science».

En 2012, Davenport y Patil escribían un influyente artículo en la Harvard Business Review en la que exponían que el científico de datos era la profesión más sexy del Siglo XXI. Un profesional que combinando conocimientos de matemáticas, estadística y programación, se encarga de analizar los grandes volúmenes de datos. A diferencia de la estadística tradicional que utilizaba muestras, el científico de datos aplica sus conocimientos estadísticos para resolver problemas de negocio aplicando las nuevas tecnologías, que permiten realizar cálculos que hasta ahora no se podían realizar.

Y va ganando en popularidad en los últimos años debido sobre todo al desarrollo de la parte más tecnológica. Las tecnologías de Big Data empiezan a posibilitar que las empresas las adopten y empiecen a poner en valor el análisis de datos en su día a día. Pero, ahí, es cuando se dan cuenta que necesitan algo más que tecnología. La estadística para la construcción de modelos analíticos, las matemáticas para la formulación de los problemas y su expresión codificada para las máquinas, y, el conocimiento de dominio (saber del área funcional de la empresa que lo quiere adoptar, el sector de actividad económica, etc. etc.), se tornan igualmente fundamentales.

Pero, si esto es tan sexy ¿qué hace el científico de datos? Y sobre todo, ¿qué tiene que ver esto con el Big Data y el Business Intelligence? Para responder a ello, me gusta siempre referenciar en los cursos y conferencias la representación en formato de diagrama de Venn que hizo Drew Conway en 2010:

Diagrama de Venn del
Diagrama de Venn del «Científico de datos» (Fuente: Drew Conway)

Como se puede apreciar, se trata de una agregación de tres disciplinas que se deben entender bien en este nuevo paradigma que ha traído el Big Data:

  • «Hacking skills» o «competencias digitales con pensamiento computacional«: sé que al traducirlo al Español, pierdo mucho del significado de lo que expresa las «Hacking Skills». Pero creo que se entiende bien también lo que quieren decir las «competencias digitales». Estamos en una época en la que constante «algoritmización» de lo que nos rodea, el pensamiento computacional que ya hay países que han metido desde preescolar, haga que las competencias digitales no pasen solo por «saber de Ofimática» o de «sistemas de información». Esto va más de tener ese mirada hacia lo que los ordenadores hacen, cómo procesan datos y cómo los utilizan para obtener conclusiones. Yo a esto lo llamo «Pensamiento computacional», como una (mala) traducción de «Computation thinking», que junto con las competencias digitales (entender lo que hacen las herramientas digitales y ponerlo en práctica), me parecen fundamentales.
  • Estadística y matemáticas: en primer lugar, la estadística, que es una herramienta crítica para la resolución de problemas. Nos dota de unos instrumentos de trabajo de enorme valor para los que trabajamos con problemas de la empresa. Y las matemáticas, ay, qué decir de la ciencia formal por antonomasía, la que siguiendo razonamientos lógicos, nos permite estudiar propiedades y relaciones entre las variables que formarán parte de nuestro problema. Si bien las matemáticas se la ha venido a conocer como la ciencia exacta, en la estadística, nos gusta más jugar con intervalos de confianza  y la incertidumbre. Pero, por sus propias particularidades, se nutren mutuamente, y hace que para construir modelos analíticos que permitan resolver los problemas que las empresas y organizaciones nos planteen, necesitemos ambas dos.
  • Conocimiento del dominio: para poder diseñar y desarrollar la aplicación del análisis masivo de datos a diferentes casos de uso y aplicación, es necesario conocer el contexto. Los problemas se deben plantear acorde a estas características. Como siempre digo, esto del Big Data es más una cuestión de plantar bien los problemas que otra cosa, por lo que saber hacer las preguntas correctas con las personas que bien conocen el dominio de aplicación es fundamental. Por esto me suelo a referir a «que hay tantos proyectos de Big Data como empresas».  Cada proyecto es un mundo, por lo que cuando alguien te cuente su proyecto, luego relativízalo a tus necesidades 😉

Estas tres cuestiones (informática y computación, métodos estadísticos y áreas de aplicación/dominio), también fueron citadas por William S. Cleveland en 2001 en su artículo «Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics«. Por lo tanto, no es una concepción nueva.

Este Diagrama de Venn ha ido evolucionando mucho. Uno de los que más me gustan es éste, que integra las ciencias sociales. Nuestro Programa Experto en Análisis, Investigación y Comunicación de Datos precisamente busca ese enfoque.

La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)
La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)

Calidad de datos: mucho más que una acción puntual

(Artículo escrito por David Guerrero, profesional del sector financiero y profesor del Programa de Big Data y Business Intelligence de la Universidad de Deusto)

En la sociedad de la información actual las empresas manejan cantidades ingentes de datos, tanto propios como ajenos. Cada vez es más habitual ver reportes obtenidos a partir de diversas técnicas analíticas, y cuadros de mando generados por medio de sistemas de reporting para alta dirección.

A partir de estos informes se toman decisiones que en muchas ocasiones pueden ser cruciales para el devenir de la empresa. Entonces, es de suponer, que estos informes están hechos tomando como base una información de altísima calidad. Pero, ¿realmente lo están?

La calidad de la información o Data Quality en inglés, está cobrando mayor relevancia en los procesos de las organizaciones. Buena parte de culpa la tienen los reguladores, que están empezando a exigir políticas y procedimientos que aseguren unos niveles óptimos de calidad de los datos: Master Data Management (MDM).

No disponer de una política de calidad de datos implica que todos los equipos que vayan a trabajar la información tengan que invertir tiempo en limpiar los datos antes de poder explotarlos para otros propósitos. Además, se corre el riesgo de que en ese proceso de limpieza se generen discrepancias de información si no se adoptan los mismos criterios a la hora de realizar las adaptaciones oportunas.

Las cifras hablan por sí solas, y los expertos coinciden en que 2016 será un año de gran crecimiento en la industria del Data Quality.

  • 78% de las empresas tienen problemas en los envíos de email
  • 83% de las empresas están luchando contra silos de datos
  • 81% de los retailers no pueden apalancarse en los programas de fidelidad debido a información inexacta
  • 87% de las instituciones financieras tienen dificultades para obtener inteligencia confiable
  • 63% de las compañías todavía no tienen un enfoque coherente de la Calidad de Datos

En definitiva, para que las organizaciones puedan obtener valor de sus datos, deben primero poner orden en la gestión, tratamiento y conservación de la información. Los datos son y deben ser la materia prima que guíe la toma de decisiones de nuestra empresa, y para ello deben presentar en el formato esperado, en el momento preciso, para las personas que lo necesitan y con la máxima calidad.

Fuente: http://www.datasciencecentral.com/profiles/blogs/will-2016-be-the-year-you-clean-up-your-dirty-data

Por qué hablamos del Business Analytics y no solo de Business Intelligence

El Business Intelligence (Inteligencia de Negocios) es un conjunto de métodos y técnicas que han venido empleándose desde hace años en diferentes sectores para ayudar en la toma de decisiones. Básicamente consiste en el procesamiento de datos para obtener información resumida y sintetizada de todos ellos.

Lo que ha ocurrido es que en los últimos años ha aparecido un nuevo paradigma, que hemos venido a denominar Big Data. Un paradigma que se puede describir por sus cinco elementos que lo caracterizan: Volumen (gran cantidad de datos), Variedad (diferentes formatos, estructuras, etc. de datos), Velocidad (gran velocidad a la que los generemos), Variabilidad (datos no muy estáticos, sino que cambian con cierta frecuencia) y Valor (el gran potencial de generación de valor que tienen para las organizaciones).

Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/sites/8/2014/02/bigdata-v5-lens.jpg)
Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/sites/8/2014/02/bigdata-v5-lens.jpg)

Este nuevo paradigma, junto con los métodos avanzados de procesamiento estadístico y matemático (incertidumbre y exactitud) de datos, enriquecen y permiten una toma de decisiones aún más estratégica e informada. Ahora, una empresa no solo puede resumir el pasado (enfoque Business Intelligence), sino que también puede establecer relaciones y comparaciones entre variables para tratar de adelantarse al futuro (Business Analytics).

Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)
Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)

Es decir, que evolucionamos del Business Intelligence tradicional al Business Analytics gracias al nuevo paradigma que trae el Big Data y los métodos de procesamiento de datos más avanzados. Con estos servicios de Business Analytics, básicamente, a una compañía, lo que podemos ofrecerle son dos tipos de explotaciones de datos:

  • Informar: ver lo que ha ocurrido en el pasado, y tomar decisiones reactivas (Business Intelligence).
  • Predecir: inferir lo que puede ocurrir en el pasado, y tomar decisiones proactivas (Business Analytics)

A partir de estos principios básicos de lo que el Business Analytics es, ya pueden ustedes imaginarse el gran potencial que tiene. Como decía al comienzo, el Business Analytics trae una inteligencia a los negocios enriquecido a través de modelos estadísticos que permiten descubrir nuevas estructuras, patrones, relaciones entre variables, etc. Esto, sumado a la era de la ingente cantidad de datos, hace que las compañías se puedan beneficiar de todo ello en muchas áreas: sanidad, educación, marketing, producción, logística, etc.

Para que se hagan ustedes a la idea, y puedan llevarlo a un plano práctico de su día a día, puede responder a preguntas como:

  • ¿Cómo puedo descubrir más información relevante sobre mis clientes? Datos como los drivers que le llevan realmente a comprar, cómo se relacionan mis clientes entre ellos, qué opiniones son las que han sido clave para la toma de decisión de compra, etc.
  • ¿Qué pasaría si cambio el precio de mis productos/servicios? Es decir, disponer de un análisis de sensibilidad de una variable (precio) respecto a su impacto en otra (ventas totales de ese producto o sobre otros), de manera que puedo ver la relación entre las mismas.
  • ¿Cómo puedo reducir la tasa de abandonos de mis clientes? Es decir, construir un modelo de propensión a la fuga, para saber qué puntos o acciones son las que pueden llevar a un cliente a abandonarme. De esta manera, a futuro, tendría más probabilidad de encontrar clientes que pudieran marcharse de la compañía.
  • ¿Cómo puedo identificar a los clientes más rentables? No desde el punto de vista de las ventas totales, sino del valor que extraigo de cada uno de ellos (entendiendo valor como margen de beneficio)
  • ¿Cómo puedo detectar fraude? Analizando el histórico de valores que van tomando las variables para los casos de éxito (no hay fraude, se paga a tiempo, no hay insolvencias, etc.) y los de fracaso (fraudes, impagos, etc.), se pueden construir modelos que relacionen las variables que frecuentemente están asociados a los casos de fracaso, y así poder anticiparse a futuro.
  • etc.

Para poder hacer esto, como pueden imaginarse, los métodos de descubrimiento de información resultan fundamentales. Bueno, partiendo de la base que lo más importante es que tengamos bien preprocesada nuestra información, porque sin eso, cualquier algoritmo fallará. Esto es precisamente lo que hablamos al introducir los ETL y la importancia de la calidad de datos y su preprocesado.

Los métodos a utilizar son variados y a veces uno no sabe cuál de ellos va a dar mejores resultados o cuál de ellos se adecúa a lo que yo realmente estoy buscando. En el blog Peekaboo publicaron un cheat sheet (una «chuleta» de toda la vida) que utilizo siempre en los cursos introductorios a Business Analytics, dado que es bastante expreisva.

Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)
Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Más que una chuleta, es un flujograma que terminará en el método que deberíamos utilizar para el objetivo que perisgamos. Como podéis ver, simplemente navegando por las preguntas que se van realizando a través del flujograma, puedo llegar yo a saber qué familia de tratamiento de datos es la más adecuada para los objetivos que persigo.

Como podéis comprobar, el punto de partida es tener una muestra de 50 instancias/observaciones. A partir de ahí, o bien debemos buscar más, o bien poder seguir navegando hasta encontrar el método más adecuado. ¿Qué buscamos?

  • ¿Predecir una cantidad numérica? Aquí los métodos de regresión serán tu solución.
  • ¿Predecir una categoría? Los clasificadores pueden servir para alcanzar estos objetivos.
  • ¿Agrupar mis instancias/observaciones por un comportamiento común? Las técnicas de clusterización me permiten a mí agrupar observaciones por patrones similares.
  • ¿Observando la estructura de mi conjunto de datos? Las técnicas de reducción de la dimensionalidad son las que me pueden servir para este objetivo.

En definitiva, ya podéis observar cómo la ayuda a la toma de decisiones estratégicas (el Business Intelligence tradicional), se ha visto enriquecido gracias a dos nuevas dimensiones: una tecnológica (el Big Data) y otra matemática/estadística. ¿A qué esperas para sacar valor del Business Analytics en tu organización?

La aplicación del Big Data y Business Intelligence en la creación de valor para el cliente

(Entrada escrita por David Ruiz de Olano, Director de Programas en Deusto Business School)

Asistiendo a una jornada de Alex Rayón, es cada vez más evidente que la forma de hacer marketing tiene que cambiar. Alex es director del seminario de Big Data & Business Intelligence (BDBI), organizado entre la Facultad de Ingeniería de Deusto y Deusto Business School, y profesor e investigador en la Universidad de Deusto sobre Marketing y Big Data y muy activo en esta área.

Desde el punto de vista de marketing, tradicionalmente el proceso del marketing (marketing estratégico y marketing operacional) se puede ilustrar con la siguiente figura:

El proceso de marketing (Fuente: elaboración propia)
El proceso de marketing (Fuente: elaboración propia)

Evidentemente en el análisis de las 5C, todos los datos que se puedan traducir en información ayudarán a tener un mejor diagnóstico de nuestro entorno.

Pero lo que me interesa de esta jornada es la aplicación del BDBI en la creación de valor para el cliente. Una de las claves en el marketing es la segmentación (¿quién es mi cliente?). Tradicionalmente las empresas identifican quién es su público objetivo, basado en parámetros demográficos, sociales, económicos, comportamiento, etc… de un mercado más general. Con esta identificación, buscan cuáles son sus problemas, necesidades, etc… escogen un público determinado y se posicionan en ese nicho.

Como decía Kotler, gurú del marketing del siglo pasado – como pasa el tiempo-, si resuelves el problema de segmentación, automáticamente tendrás las respuestas para definir tus 4Ps (producto, promoción, lugar y precio) y te saldrán automáticamente. Porque una vez sabes quién es tu potencial cliente, ya sabes qué producto tienes que ofrecerle, qué ventajas tiene que tener sobre los competidores, dónde está y cómo poder llegar a él, qué precio está dispuesto a pagar. Teniendo muy claro quién es mi cliente, cuántas horas de reuniones nos podríamos ahorrar discutiendo sobre el precio…

Evidentemente BDBI tiene mucho que decir en la segmentación. Pero no tanto a priori, si no a posteriori. Con la cantidad de datos que las empresas tienes sobre nosotros, ya no hace falta hacer hipótesis de quién es nuestro cliente: basta mirar en los datos e identificarlos.

Gracias a las herramientas de BDBI (que por cierto, ni son caras ni difíciles de usar), basta un poco de curiosidad, jugar con los datos y empezar a ver correlaciones. ¿Hay alguna relación entre los clientes que compran 2 mismos productos? ¿Es nuestra segmentación inicial la que se refleja en las compras de nuestros clientes y las ventas de nuestros productos? ¿A qué horas del día hay un comportamiento de compra parecido? Por ejemplo, en Tableau, una empresa que intenta facilitar la visualización de BDBI, podéis ver un caso sobre la segmentación y el hecho de cuestionarnos nuestras hipótesis iniciales.

Esta aproximación que aparentemente parece que es sólo válida para comercios B2C online se pueden extraer de otros lugares. El BDBI no es exclusivo de negocios online, nacidos en la era digital. Efectivamente, lo tienen más fácil, pero todas las empresas pueden empezar a explorar. Quizás sea ese uno de los retos para la implementación del BDBI en los negocios que no vienen del mundo online. Como comentaba Alex, un 60%- 80% de los esfuerzos para una estrategia de BDBI se centran en los datos y en el ETL (Extracción, Transformación y carga o Load), encontrarlos entre las diferentes partes del negocio (ERPs, CRM, departamento financiero, controller, etc…), limpiarlos y ponerlos bonitos. Aunque Alex menciona 4 etapas y el tiempo que se va a dedicar a cada etapa:

  • Etapa 1: Cargar datos (hasta un 80%)
  • Etapa 2: Preguntas (5%)
  • Etapa 3: Modelo estadístico/analítico (5%)
  • Etapa 4: Visualización de resultados (10%)

Quizás mi visión sería empezar por las preguntas y terminar en el modelo estadístico. Pero lo que estoy seguro es que una de las grandes aportaciones del BDBI al marketing es en el tema de segmentación, pasando de una segmentación clásica a una clusterización (que hasta ahora era más complicado). La maravilla del BDBI es que no tenemos que pensar cuáles son las variables para hacer el cluster, las propias herramientas nos dirás qué cluster son los que representan mejor a los clientes y qué características. También, incluso nos permitirá saber cuál es la probabilidad de que un cliente de telefonía abandone su compañía y qué características tiene o saber la características del cliente de un banco portugués que no compra un producto y el proceso comercial asociado. Y por otra parte, ayudarnos a hacer preguntas que hasta ahora ni nos habíamos imaginado.

Lo que está claro, es que si una empresa quiere sobrevivir en los próximos 10 años, de una forma u otra, el BDBI le impactará de alguna manera. La pregunta es ¿espero a que me obliguen o empiezo a explorar ya? La creación de valor en mi organización a través del Big Data y Business Intelligence está a mi disposición.

Herramientas ETL y su relevancia en la cadena de valor del dato

El proceso de Extracción (E), Transformación (T) y Carga (L, de Load en Inglés) -ETL- consume entre el 60% y el 80% del tiempo de un proyecto de Business Intelligence. Suelo empezar con este dato siempre a hablar de las herramientas ETL por la importancia que tienen dentro de cualquier proyecto de manejo de datos. Tal es así, que podemos afirmar que proceso clave en la vida de todo proyecto y que por lo tanto debemos conocer. Y éste es el objetivo de este artículo.

La cadena de valor de un proyecto de Business Intelligence la podemos representar de la siguiente manera:

Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)
Cadena de valor de un proyecto de BI (Fuente: http://www.intechopen.com/books/supply-chain-management-new-perspectives/intelligent-value-chain-networks-business-intelligence-and-other-ict-tools-and-technologies-in-suppl)

Hecha la representación gráfica, es entendible ya el valor que aporta una herramienta ETL. Como vemos, es la recoge todos los datos de las diferentes fuentes de datos (un ERP, CRM, hojas de cálculo sueltas, una base de datos SQL, un archivo JSON de una BBDD NoSQL orientada a documentos, etc.), y ejecuta las siguientes acciones (principales, y entre otras):

  • Validar los datos
  • Limpiar los datos
  • Transformar los datos
  • Agregar los datos
  • Cargar los datos

Esto, tradiocionalmente se ha venido realizando con código a medida. Lo que se puede entender, ha traído muchos problemas desde la óptica del mantenimiento de dicho código y la colaboración dentro de un equipo de trabajo. Lo que vamos a ver en este artículo es la importancia de estas acciones y qué significan. Por resumirlo mucho, un proceso de datos cualquiera comienza en el origen de datos, continúa con la intervención de una herramienta ETL, y concluye en el destino de los datos que posteriormente va a ser explotada, representada en pantalla, etc.

¿Y por qué la importancia de una herramienta ETL? Básicamente, ejecutamos las acciones de validar, limpiar, transformar, etc. datos para minimizar los fallos que en etapas posteriores del proceso de datos pudieran darse (existencia de campos o valores nulos, tablas de referencia inexistentes, caídas del suministro eléctrico, etc.).

Este parte del proceso consume una parte significativa de todo el proceso (como decíamos al comienzo), por ello requiere recursos, estrategia, habilidades especializadas y tecnologías. Y aquí es donde necesitamos una herramienta ETL que nos ayude en todo ello. ¿Y qué herramientas ETL tenemos a nuestra disposición? Pues desde los fabricantes habituales (SAS, Informatica, SAP, Talend, Information Builders, IBM, Oracle, Microsoft, etc.), hasta herramientas con un coste menor (e incluso abiertas) como Pentaho KettleTalend y RapidMiner. En nuestro Programa de Big Data y Business Intelligence, utilizamos mucho tanto SAS como Pentaho Kettle (especialmente esta última), por lo que ayuda a los estudiantes a integrar, depurar la calidad, etc. de los datos que disponen. A continuación os dejamos una comparación entre herramientas:

Comparación Talend vs. Pentaho Kettle
Comparación Talend vs. Pentaho Kettle

¿Y qué hacemos con el proceso y las herramientas ETL en nuestro programa? Varias acciones, para hacer conscientes al estudiante sobre lo que puede aportar estas herramientas a sus proyectos. A continuación destacamos 5 subprocesos, que son los que se ejecutarían dentro de la herramienta:

  1. Extracción: recuperación de los datos físicamente de las distintas fuentes de información. Probamos a extrar desde una base de datos de un ERP, CRM, etc., hasta una hoja de cálculo, una BBDD documental como un JSOn, etc. En este momento disponemos de los datos en bruto. ¿Problemas que nos podemos encontrar al acceder a los datos para extraerlos? Básicamente se refieren a que provienen de distintas fuentes (la V de Variedad), BBDD, plataformas tecnológicas, protocolos de comunicaciones, juegos de caracteres y tipos de datos.
  2. Limpieza: recuperación de los datos en bruto, para, posteriormente: comprobar su calidad, eliminar los duplicados y, cuando es posible, corrige los valores erróneos y completar los valores vacíos. Es decir se transforman los datos -siempre que sea posible- para reducir los errores de carga. En este momento disponemos de datos limpios y de alta calidad. ¿Problemas?ausencia de valores, campos que tienen distintas utilidades, valores crípticos, vulneración de las reglas de negocio, identificadores que no son únicos, etc. La limpieza de datos, en consecuencia, se divide en distintas etapas, que debemos trabajar para dejar los datos bien trabajados y limpios.
    • Depurar los valores (parsing)
    • Corregir (correcting)
    • Estandarizar (standardizing)
    • Relacionar (matching)
    • Consolidar (consolidating)
  3. Transformación: este proceso recupera los datos limpios y de alta calidad y los estructura y resume en los distintos modelos de análisis. El resultado de este proceso es la obtención de datos limpios, consistentes y útiles. La transformación de los datos se hace partiendo de los datos una vez “limpios” (la etapa 2 de este proceso)(. Transformamos los datos de acuerdo con las reglas de negocio y los estándares que han sido establecidos por el equipo de trabajo. La transformación incluye: cambios de formato, sustitución de códigos, valores derivados y agregados, etc.
  4. Integración: Este proceso valida que los datos que cargamos en el datawarehouse o la BBDD de destino (antes de pasar a su procesamiento) son consistentes con las definiciones y formatos del datawarehouse; los integra en los distintos modelos de las distintas áreas de negocio que hemos definido en el mismo.
  5. Actualización: Este proceso es el que nos permite añadir los nuevos datos al datawarehouse o base de datos de destino.

Para concluir este artículo, os dejamos la presentación de una de las sesiones de nuestro Programa de Big Data y Business Intelligence. En esta sesión, hablamos de los competidores y productos de mercado ETL.

Webinar 3 de Noviembre: «Aplicación Big Data a Finanzas, Marketing y Sanidad»

La sociedad se ha tecnificado, y cada vez estamos más interconectados. A eso unámosle que el coste computacional es cada vez menor, y cada vez se están digitalizando más procesos y actividades de nuestro día a día. Esto, claro está, representa una oportunidad para las organizaciones, empresas y personas que quieran tratar y analizar los datos en tiempo real (Real-Time Analytics). Se puede  obtener así valor para la toma de decisiones o para sus clientes: ayudar a las empresas a vender más (detectando patrones de compra, por ejemplo), a optimizar costes (detectando cuellos de botella o introduciendo mecanismos de prevención), a encontrar más clientes (por patrones de comportamiento), a detectar puntos de mejora en procesos (por regularidades empíricas de mal funcionamiento) y un largo etcétera.

Tres sectores que se están aprovechando enormemente de las posibilidades que el Big Data trae son el financiero, el área de marketing y el sector sanitario. Se trata de sectores con sus diferentes particularidades (regulación, servicio público, etc.), pero donde los datos son generados a gran velocidad, en grandes volúmenes, con una gran variedad, donde la veracidad es crítico y donde queremos generar valor. Las 5 “V”s del Big Data al servicio de la mejora de organizaciones de dichos sectores.

Las 5

Las 5 «V»s del Big Data: Volumen, Velocidad, Valor, Veracidad y Variedad (Fuente: https://www.emaze.com/@AOTTTQLO/Big-data-Analytics-for-Security-Intelligence)

El próximo 3 de Noviembre a las 18:30, el Director del Programa de Big Data y Business Intelligence, Alex Rayón, entrevistará a través de un webinar a tres expertos profesionales en cada uno de los tres sectores citados: Pedro Gómez (profesional del ámbito financiero), Joseba Díaz (profesional con experiencia en proyectos sanitarios y profesional Big Data en HP) y Jon Goikoetxea (Director de Comunicación y Marketing del Grupo Noticias y el diario Deia y alumno de la primera edición del Programa Big Data y Business Intelligence).

Inscríbete, y en pocos días recibirás instrucciones para unirte al Webinar. El enlace para la inscripción lo podéis encontrar aquí. Y si conoces a alguien que pueda interesarle esta información, reenvíasela 😉

Agradecemos, como siempre, el apoyo a nuestros patrocinadores HP, SAS y Entelgy.

Del Data Mining al Big Data en el mundo del Marketing

(Artículo escrito por Pedro Gómez Tejerina, profesional del sector financiero, y profesor de nuestro Programa de Big Data y Business Intelligence)

¿Alguna vez te has preguntado cómo eligen las grandes compañías los clientes a los que lanzan sus campañas? ¿Por qué por ejemplo puede un banco enviarme un mail o una carta para ofrecerme el último plan de pensiones que han diseñado y no a mi vecino si los dos somos clientes del mismo banco y vivimos en el mismo edificio?

La selección de a qué clientes lanzar campañas de marketing forma parte de lo que se denomina Data Mining o Minería de Datos. Tradicionalmente las grandes compañías han analizado los datos históricos que almacenan sobre sus clientes para buscar aquellos clientes que no tienen contratado un producto actualmente con ellas, pero que de alguna forma sí se parecen a otros clientes que sí tienen dicho producto. La idea es sencilla: ¿no tendría sentido sólo enviar comunicaciones sobre campañas de Marketing de un producto a los clientes que aunque no lo tengan contratado actualmente sí tengan probabilidad de hacerlo en un futuro? La base sobre la que se basan para calcular esas probabilidades es la estadística y los algoritmos de Machine Learning y las comparaciones se hacen en base a los datos históricos almacenados sobre los clientes.

Haciendo esas comparaciones basadas en los datos que tienen sobre los clientes las empresas consiguen aumentar sus tasas de éxito de contratación de productos de manera significativa y ofrecen productos que de cierta forma son mucho más personalizados, ya que tienen en cuenta mis datos como persona individual antes de ofrecérmelos. Además se ahorran mucho dinero en publicidad, ya que en cierta forma están centrando el tiro seleccionando únicamente los clientes con alta probabilidad (propensión) de compra.

Pero actualmente estamos en una nueva era caracterizada por la abundancia de información (Big Data). ¿Por qué no utilizar además de la información interna de los clientes datos que podamos obtener de fuentes externas? ¿No tendría sentido en el ejemplo del banco anterior tener en cuenta que yo en alguna ocasión he navegado por internet buscando información sobre planes de pensiones? ¿No he mostrado de alguna forma ya mi interés por el producto al haberlo buscado por internet? ¿No sería más probable que yo contratara el plan de pensiones que mi vecino que nunca se ha preocupado por su jubilación?

Como empresa podría utilizar los datos de navegación de mi web para mejorar el proceso anterior. ¿Y si además a pesar de que el banco no tiene información sobre el valor de la casa en la que vivo, obtiene información sobre el valor de la misma en el catastro u otras fuentes de información externas? El cruce de información interna sobre los clientes con información externa es lo que actualmente se denomina Big Data y permite a las grandes empresas obtener más información sobre los clientes y tal y como hemos visto con mi ejemplo, mejorar su precisión a la hora de elegir futuros clientes para sus productos.

Moraleja: si antes las grandes compañías lo sabían todo sobre nosotros, hoy todavía más. Como consuelo, al menos es más probable que sólo reciba comunicaciones sobre productos en los que es más probable que esté realmente interesado no tengan que eliminar demasiados emails comerciales porque no me interesan.

Workshop «Aplicación del Big Data en sectores económicos estratégicos»

El Big Data está empezando a entrar en los procesos de negocio de las organizaciones de manera transversal. Su uso se está «democratizando», de manera que cada vez más entra en un discurso de «usuario» en lugar de ser un tema que se trate únicamente en ámbitos más técnicos y tecnológicos.

Hasta la fecha, el uso del Big Data se limitaba a necesidades concretas: evitar la fuga de clientes, mejorar la eficiencia de las acciones del marketing, promover el mantenimiento preventivo en lugar del correctivo, etc. Estas aplicaciones, eran impulsadas mayoritariamente por los equipos técnicos y tecnológicos de las compañías.

Sin embargo, en los últimos tiempos, se están creando nuevas herramientas analíticas diseñadas para las necesidades de las unidades de negocio, con sencillas, útiles e intuitivas interfaces gráficas. De este modo, el usuario de negocio impulsa la adopción de soluciones Big Data como soporte a la toma de decisiones de negocio. Prueba de ello son aplicaciones como Gephi, Tableau, CartoDB o RStudio, que han simplificado mucho el trabajo, haciendo que las habilidades técnicas no sean un limitante para adentrarse en el mundo del Big Data.

Mapa de calor en CartoDB (Fuente: camo.githubusercontent.com)
Mapa de calor en CartoDB (Fuente: camo.githubusercontent.com)

La llegada de Big Data al usuario de negocio representa una oportunidad de ampliar el número de usuarios y extender el ámbito de actuación. Se prevé así que cada vez entren más proveedores, tanto de soluciones tecnológicas como de agregadores de datos. Todo esto, sin olvidar la importancia del cumplimiento de las políticas de gobierno de TI, la protección de la información y de los datos, así como los riesgos de seguridad.

Por todo ello, hemos organizado el próximo 27 de Octubre de 2015, de 15:30 a 18:00, en nuestra Sala Garate de la Universidad de Deusto, un workshop titulado «Aplicación del Big Data en sectores económicos estratégicos«. En este evento podrá conocer varias soluciones de diferentes sectores en los que este movimiento de aplicación del Big Data para usuarios de negocio está ocurriendo. La concesión de préstamos en el sector financiero, la puesta en valor de piezas culturales, sistemas para evitar el fraude, el aumento de la seguridad ciudadana o la mejora del sistema de ventas en aeropuertos representan ejemplos donde poder observar lo descrito anteriormente. Con esto, veremos cuál es el ritmo de adopción de Big Data en las organizaciones, y cuáles son los mecanismos de implantación de las soluciones con carácter transversal en las organizaciones.

Contaremos con empresas de reconocido prestigio en la materia como nuestros patrocinadores SAS, HP y Entelgy, así como nuestros colaboradores de Management Solutions, CIMUBISA, RIAM-GNOSS y NEO4J.

Puedes inscribirte a través de este formulario. Te esperamos para aprender cómo el Big Data está entrando en los sectores económicos estratégicos.

WorkshopBigData27.10

Sigue nuestras novedades en el análisis y puesta en valor del dato en: Blog Deusto BigDataWeb Programa Big Data.

¡Hola mundo Deusto BigData!

A través de este artículo queremos daros la bienvenida a nuestro blog Deusto BigData. Un espacio dedicado a temas relacionados el Big Data. Un concepto que hace referencia al gran volumen de datos que se generan en la actualidad y su impacto en diferentes contextos: las organizaciones en general (y las empresas en particular), la sociedad, las personas, etc.

Nuestra Universidad lleva ya tiempo trabajando en la materia, tanto desde un punto de vista docente, como desde la investigación y la transferencia. Con este blog, queremos divulgar los principales conceptos asociados a este mundo del Big Data: la importancia de gestionar la calidad de los datos, las implicaciones de las 5 V’s del Big Data, los modelos analíticos, los Cuadros de Mando Integrales, algoritmos, estadística multivariante, dashboard de visualización de métricas, etc.

Además de artículos de divulgación, iremos informando de los eventos y jornadas que periódicamente organizamos alrededor del Big Data y los programas formativos que tenemos en la universidad (el Programa de Big Data y Business Intelligence y el Programa de Big Data y Business Intelligence formato executive).

Queremos contribuir a que conozcas de una manera sencilla el fascinante mundo de los datos. Puedes suscribirte a nuestro blog en el panel lateral derecho. Esperamos que disfrutes de Deusto BigData 🙂

Big Data (Imagen: By Camelia.boban (Own work), CC BY-SA 3.0)
Big Data (Imagen: By Camelia.boban (Own work), CC BY-SA 3.0)