Archivo de la etiqueta: business intelligence

Lenguaje R: herramienta potente y gratuita para la inteligencia de negocio – Ejemplo de análisis de texto

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Después de un año de duro trabajo, termino el Programa de Big Data y Business Intelligence impartido por la facultad de ingeniería de la Universidad de Deusto. A lo largo de este tiempo, hemos aprendido muchísimo de las múltiples facetas de este concepto tan amplio que es el “Big Data”, pero, sin duda, uno de los mejores y más prácticos decubrimientos ha sido el entornolenguaje “R”.

R es un lenguaje superversatil, gratuito y con un soporte “open” impresionante en internet (por supuesto en inglés), que te permite encontrar siempre solución, una paquete desarrollado y scripts de ejemplo, para cualquier necesidad que te encuentres en un proyecto. Yo, en este tiempo en el que me he podido empezar a asomar a este universo de posibilidades, lo he utilizado en prácticas de casos reales para distintos usos:

  • Hacer calidad y manipulación de datos, eliminando las limitaciones de volumen que tenemos con herramientas habituales como Excel, y utilizando funciones que, en un solo paso, realizan operaciones que de otra manera supondrían numerosas pasos y tablas intermedias.
  • Aplicar modelos de predicción (regresión, clasificación) y descripción (clustering, asociación, correlación,..) a importantes volúmenes de datos para extraer conclusiones relevantes y no inmediatas.
  • Pasar información de un soporte-formato a otro de manera sencilla para poder importar o exportar desde o hacia distintas fuentes.
  • Hacer tratamientos de texto: palabras key, nubes de palabras o análisis de sentimiento de cualquier texto, incluso de páginas web o RRSS (facebook, twitter,..)

Esta última aplicación de análisis de texto,  ha sido el objeto de mi último proyecto de trabajo en el máster, cuyo objetivo era practicar con algunas de las herramientas que R tiene para estos cometidos.

Decidí analizar los textos de los discursos de navidad del Lehendakari y del Rey de España en diciembre 2007 y diciembre 2017. Quéría observar qué diferencias y evolución ha habido entre los dos perfiles en estos 10 años. Tras la correspondiente limpieza y adecuación de los textos, por ejemplo sustituyendo ñ por gn, eliminando tildes, poniendo en minúsculas todo, igualando conceptos similares como democracia – democrático/a para poder observar mejor su peso, etc. muestro un ejemplo de algunos de los resultados obtenidos

Las palabras que no faltan en ninguno de los discursos, estando presentes en todos, más de 2 veces, son las siguientes:

Palabras discurso lehendakari y rey (Fuente: elaboración propia)
Palabras discurso lehendakari y rey (Fuente: elaboración propia)

Las 20 palabras más repetidas en cada discurso, y su frecuencia de aparición a lo largo del mismo, son las siguientes:

Las palabras más repetidas en cada discurso (Fuente: elaboración propia)
Las palabras más repetidas en cada discurso (Fuente: elaboración propia)
Las palabras más repetidas II (Fuente: elaboración propia)
Las palabras más repetidas II (Fuente: elaboración propia)

Sin ánimo de ser exhaustiva ni realizar valoraciones, destaco algunas observaciones sencillas que se pueden extraer como ejemplo:

  • El Lehendakari Ibarretxe en 2007 ha sido sin duda el más reiterativo en los conceptos clave de su discurso ya que presenta claramente una frecuencia más alta en mayor número de palabras que los demás.
  • En 2007 el Lehendakari repetía la palabra ETA mientras que el Rey usaba “terrorismo” y la temática “terrorismo” ha perdido peso en 2017
  • En 2017 ambos dirigentes presentan en sus primeros puestos de reiteración, sus ámbitos territoriales (Euskadi, España) y aspectos ligados a la convivencia, sociedad o personas.
  • En 2017 “Cataluña” no es mencionada de manera relevante por el Lehendakari y sí por el Rey que destaca también otras palabras ligadas a este asunto.
  • La palabra “constitución”, principal argumento del discurso del Rey en 2007, desaparece de los discursos en 2017, siendo sustituida por conceptos más “soft”como democracia, derecho, principios,…
  • La “política” es claramente una preocupación de los 2 Lehendakaris, mientras que no es destacada por los Reyes de España.
  • La palabra “paz” la repiten ambos Lehendakaris y no los reyes, y la palabra “vida” a la inversa, está muy presente en los discursos de los reyes pero no de los Lehendakaris.

Esté hincapié en determinados conceptos se muestra más graficamente si elaboramos las NUBES DE PALABRAS, resultantes de seleccionar los términos que cada gobernante ha utilizado en más de 6 ocasiones a lo largo de sus discursos. Los tamaños y colores de letra representan pesos de frecuencias relativas dentro de cada discurso:

Nubes de Palabras Rey y Lehendakari (Fuente: elaboración propia)
Nubes de Palabras Rey y Lehendakari (Fuente: elaboración propia)

Se observa un distinto estilo de comunicación entre los dirigentes españoles y vascos. Los lehendakaris presentan un estilo en el que abundan los términos muy reiterados, mientras que en el caso de los reyes, éstos concentran la insistencia en menos términos.

Por último, he querido hacer una pequeña prueba del funcionamiento de las herramientas de análisis de sentimiento. R dispone de diversos paquetes para ello, yo he usado Tidyverse y Tidytext, que presentan 3 lexicons que realizan una valoración “emocional” de los sentimientos que teóricamente generan las palabras utilizadas. Los lexicones son en inglés, por lo que he traducido directamente con google (R dispone también de paquetes específicos de traducción que utilizar APIs por ejemplo de microsoft, pero no he tenido tiempo de probarlos)  los discursos del 2017 y, sin realizar ninguna revisión de la calidad de la traducción (seguramente habría que refinar muchas expresiones y términos), le he pasado los diccionarios lexicon de BING y NRC a cada discurso, para observar qué tipo de emociones provoca cada uno.

He aquí el resultado resumido del peso de cada sentimiento en los discursos de 2017:

Análisis del sentimiento discursos Rey y Lehendakari (Fuente: elaboración propia)
Análisis del sentimiento discursos Rey y Lehendakari (Fuente: elaboración propia)

Por último, utilizando el lexicon de AFINN que valora numéricamente las palabras entre -5 y +5 según la negatividad o positividad de sentimientos generados, el resultado final es el siguiente, expresado en los correspondientes histogramas de frecuencia de presencia de cada tipo de valor emocional:

Nota: el número de palabras totales/únicas que se ha podido valorar (que después de ser traducido el discurso, estaban presentes en el lexicon) en cada caso ha sido de 85/53 para el Lehendakari y de 106/87.
Nota: el número de palabras totales/únicas que se ha podido valorar (que después de ser traducido el discurso, estaban presentes en el lexicon) en cada caso ha sido de 85/53 para el Lehendakari y de 106/87.

Se observa que el discurso del lehendakari se encuentra sesgado hacia la positividad mientras que el del Rey de España presenta más valores extremos, lo que resulta en un valor “emocional” medio de +1,06 sobre 5 en el caso del lehendakari y de un 0,49 sobre 5 en el caso de el Rey, resultados que corroboran el obtenido en la clasificación de términos anterior.

En resumen, que R es una herramienta que, una vez realizado el esfuerzo inicial imprescindible para adquirir la competencia mínima, presenta un enorme potencial de aplicación a casi cualquier necesidad o problema de análisis de datos que a una empresa se le pueda presentar, siendo un aliado muy interesante y recomendable para el desarrollo del business intelligence.

Lanzamiento de proyecto H2020 EDI: European Data Incubator en Deusto

Nuestra actividad alrededor del mundo del Big Data sigue creciendo. La Universidad de Deusto, a través de DeustoTech (el equipo MORElab (envisioning future internet)), coordinará el proyecto europeo European Data Incubator (EDI) por valor de 7,7 millones de euros para potenciar la creación de 140 nuevas empresas que exploten las tecnologías de Big Data y dar así solución a los retos de grandes proveedores de datos en Europa.

European Data Incubator
European Data Incubator

Este proyecto ha recibido financiación del programa de investigación e innovación Horizonte 2020 de la Unión Europea en virtud del acuerdo de subvención n° 779790.

Esta iniciativa busca, como decíamos anteriormente, atender a la creciente necesidad de contar con emprendedores de datos que saquen valor de los  mismos a través de la ciencia de datos. No se trata solo de dominar un conjunto de tecnologías y herramientas, como hemos señalado en este blog con anterioridad, sino de aprender cómo poder aplicarlos para resolver problemas de negocio. Es difícil hoy en día encontrar ese perfil que no solo tenga una visión técnica, sino que también tenga esa visión de negocio para aplicarlo a diferentes realidades de empresa.

Por todo ello, el equipo de DeustoTech Morelab, cuenta con el apoyo de nuestro Deusto Entrepreneurship Center, que tratará de impulsar y trasladar a los participantes las skills necesarias para explotar el gran volumen de datos que han aparecido en nuestra sociedad derivado de su digitalización. Es decir, que podamos contar con más perfiles de científicas y científicos de datos, esos perfiles de los que tanto se habla, y no sabemos muchas veces cómo de claro está que se entienda lo que es.

El perfil del científico o científica de datos (Fuente: https://upxacademy.com/wp-content/uploads/sites/8/2016/11/Data-Scientist.png)
El perfil del científico o científica de datos (Fuente: https://upxacademy.com/wp-content/uploads/sites/8/2016/11/Data-Scientist.png)

Si os interesa conocer qué oportunidades os ofrecemos con esta iniciativa de desarrollo de perfiles de Big Data para el emprendimiento y la puesta en valor de los datos, os invitamos a participar el próximo 10 de enero en el evento donde daremos a conocer todos los detalles. El catalizador europeo de la innovación y promoción de start-ups en Big Data llega a Deusto! Apúntate aquí a nuestro European Data Incubator.

European Data Incubator (http://mailchi.mp/60944d96e91a/edi-839529?e=a8568517ec)
European Data Incubator (http://mailchi.mp/60944d96e91a/edi-839529?e=a8568517ec)

RGPD: El mundo del dato desafía a la ley (por Elen Irazabal)

(Artículo escrito por Elen Irazabal, alumni de Deusto Derecho y alumna de la II Edición del Programa en Tecnologías de Big Data en nuestra sede de Madrid)

Resulta sorprendente que uno de los puntos más confusos del nuevo Reglamento General de Protección de Datos (RGPD), sea la propia contextualización social en la que se sustenta: la imprecisa conexión entre la privacidad y los datos de carácter personal.

Reglamento Europeo de Protección de Datos o RGPD (Fuente: https://tulopd.es/wp-content/uploads/sites/8/2016/09/RGPD.png)
Reglamento Europeo de Protección de Datos o RGPD (Fuente: https://tulopd.es/wp-content/uploads/sites/8/2016/09/RGPD.png)

Veamos ahora porqué este criterio puede hacer del reglamento una ley inefectiva:

El concepto de privacidad ha sido objeto de evolución y re-definición a lo largo de los tiempos a medida que la sociedad avanzaba y se adaptaba a los retos del momento. No debemos entender el concepto de privacidad como absoluto, pues la privacidad es un conjunto de atributos personales que competen a la persona y la cesión que realiza en el día a día de cada atributo que la compone, la valora el propio sujeto en base a lo que recibe a cambio.

Desde que internet se materializó como parte de nuestra actividad diaria, el mundo del dato ha impulsado la re-valorización de la privacidad. De hecho, el propio concepto de privacidad ha sido transformado por todos nosotros durante la última década al interactuar en el espacio digital a cambio de beneficios económicos y sociales. Sin embargo, la cesión de privacidad de los individuos ha traído una ola de incertidumbre presente y de futuro.

Por ello, uno de los puntos clave del Reglamento es el control  del usuario de sus datos durante toda la vida del dato con especial hincapié en el procesamiento de los mismos. Por tanto, el legislador europeo faculta al usuario del derecho a controlar sus datos personales y la capacidad para disponer y decidir sobre los mismos [1]. De manera que, este derecho dota al individuo de un campo mayor de ejercicio, donde el Reglamento también es aplicable en aquéllos casos que no se vulnera o genera un riesgo real a la privacidad de las personas.

Esto tiene varias acepciones desde el punto de vista del dato y del usuario:

  • Que el reglamento intervenga en la vida del dato cuando no comporta ningún riesgo y que por tanto, se establezcan prohibiciones que vulneren el valor del dato. En última instancia, repercutirán en los servicios que proporcionan a los propios usuarios.
  • Que el ciudadano, al no poder realizar un cálculo de impacto en su esfera privada desconozca las implicaciones de sus decisiones en todo el proceso de la vida de sus datos. Y que por tanto, el ciudadano no sea capaz de tener un control efectivo sobre ellos.

En definitiva, puede generar un desequilibrio entre el mundo físico del usuario y el universo digital del dato que podría optimizarse si la legislación en lugar de ser resultado de la planificación de los gobiernos, facilitara la fusión de los dos mundos.

[1] Agencia Española de Protección de Datos:  http://www.agpd.es/portalwebAGPD/CanalDelCiudadano/derechos/index-ides-idphp.php

Big data en la seguridad alimentaria

(Artículo escrito por Izaskun Larrea, antigua alumna de la promoción de 2016/17 en el Programa en Big Data y Business Intelligence en Bilbao)

En los últimos años, se ha escrito mucho sobre Big Data  y su potencial para revolucionar la forma en que operan las empresas y los servicios públicos. La visión se está convirtiendo rápidamente en realidad, podemos tener redes de sensores conectados que recopilan datos de fábricas, vehículos, hospitales, hogares, tiendas y cadenas de suministro en todo el mundo. Se dice que es la tecnología que permitirá todo, desde las ciudades inteligentes que pueden, por ejemplo, optimizar el flujo de tráfico, el uso de energía y la señalización,  hasta predecir un terremoto.

En este artículo exploramos cuál será el impacto continuo del Big Data  en la seguridad alimentaria. En particular, examinamos el conocimiento aceptado de que el Big Data, con su capacidad de monitorear y controlar los sistemas de forma remota, nos ayudará a avanzar para garantizar la seguridad alimentaria.

Algo tan complejo como las cadenas mundiales de suministro de alimentos, va a requerir una visión coordinada y colaborativa que no deje piedra sin remover, con cada componente haciendo su parte.

Seguridad Alimentaria y Big Data
Seguridad Alimentaria y Big Data

Trazabilidad de la cadena alimentaria

Actualmente, el Big Data se usa con mayor frecuencia en la industria alimentaria para  rastrear el estado de los productos a través de la producción, el procesamiento y la cadena de suministro. En el nivel más básico, las empresas han estado utilizando códigos de barras y etiquetas RFID durante más de 20 años para rastrear productos alimenticios desde sus puntos de origen hasta plantas de procesamiento, transporte, almacenamiento, puntos de distribución y minoristas de alimentos .

En años más recientes, también hemos visto el desarrollo de sensores más sofisticados que pueden monitorear los factores de seguridad hasta un nivel de detalle fino durante el procesamiento de alimentos y la logística. Ahora es relativamente común que las empresas instalen redes de sensores que midan las partículas de polvo de los alimentos, la temperatura o la humedad en plantas de fabricación de alimentos y contenedores de transporte.

Estamos viendo esfuerzos más avanzados, como el proyecto MUSE-Tech financiado recientemente por la UE (espectroscopía fotoacústica, espectroscopía de UV-Vis Cuasi Imaging y detección de temperatura distribuida) para mejorar la manera en que los fabricantes manejan los materiales en bruto y en el proceso.

El proyecto desarrolló un dispositivo multisensor que puede reaccionar en tiempo real  las variaciones en las materias primas y las condiciones de procesamiento para optimizar la calidad y la seguridad de los alimentos procesados. Una línea del proyecto se ha centrado en reducir el riesgo de desarrollar acrilamida, un compuesto tóxico en alimentos con almidón, como las papas fritas durante la cocción, al especificar nuevas pautas para el tiempo y la temperatura de fritura.

Combinados, los beneficios de estos enfoques son muchos. Por un lado, ayudan a las empresas alimentarias a cumplir la legislación alimentaria. Esto específicamente establece disposiciones para mejorar las prácticas de seguridad alimentaria y una mayor responsabilidad a través de la rastreabilidad.

La  monitorización integral de los de los alimentos, permite que varias partes involucradas en las redes de suministro, las empresas de logística y los minoristas identifiquen rápidamente los puntos de origen y distribución. Anteriormente, estas investigaciones podrían haber llevado semanas o meses.

Sin embargo, aunque toda esta capacidad es buena para una seguridad alimentaria eficiente e identifica los  problemas más rápidamente, solo nos lleva tan lejos hacia las verdaderas posibilidades que se ofrecen. Para eso, necesitamos agregar Big Data a la mezcla.

Avances en el análisis de Big Data

A medida que Internet of Things se desarrolla en sofistificación y escala, se están produciendo grandes cantidades de datos que antes no estaban disponibles. ¿Cómo podemos utilizar toda esta información para mejorar la forma en que trabajamos?

Este es el trabajo de Big Data Analytics, el campo del Big Data  que progresa rápidamente y que puede usarse para extraer conjuntos de datos excepcionalmente grandes y descubrir patrones ocultos, correlaciones desconocidas, puntos de falla, tendencias del mercado, preferencias del cliente y todo tipo de información comercial útil.

En la industria alimentaria, los conjuntos de datos se están incrementando por la gran cantidad de datos generados por las redes de sensores de monitoreo que ya hemos descrito.

Sin embargo, esto es solo el comienzo. Lo que es realmente interesante es el potencial de encontrar nuevas correlaciones mediante el análisis de los datos de seguridad alimentaria junto con los datos de sensores de otras fuentes científicas y ambientales. Esto creará la posibilidad de ofrecer avances aún más profundos.

Un ejemplo de cómo esto puede funcionar es una colaboración actual entre Mars e IBM, que se centra en la secuenciación del ADN y el ARN de las bacterias que se producen dentro de los alimentos en las cadenas de suministro mundiales. El objetivo del proyecto es crear un índice genético de las bacterias normales que se producen en los alimentos.

Esto ayudará a determinar más fácilmente las anomalías en las muestras de alimentos que muestran la presencia de bacterias dañinas. Proporcionará una mejor comprensión de las causas de la contaminación y la propagación de enfermedades transmitidas por los alimentos.

Business Intelligence vs. Torturadores de datos

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Retomamos la actividad tras el verano iniciando mi tercer (y penúltimo) módulo del curso anual “Programa de Big Data y Business Intelligence” de la Universidad de Deusto. En esta primera sesión, de un breve repaso de conceptos clave de estadística quiero destacar una frase, que “cojo prestada” de la presentación de nuestro profesor Enrique Onieva, que me ha encantado porque es absolutamente cierta:

“Unos datos convenientemente torturados te dirán todo aquello que desees oír”

El arte de “torturar” datos lo manejan con maestría muchas profesiones como por ejemplo los periodistas, que encuentran soporte a los titulares que convenga publicar, o también por ejemplo (debo de reconocerlo), nosotros los consultores, en algunos informes de diagnóstico o selección. Porque es cierto que siempre encuentras en un conjunto de datos un punto de vista de análisis que refuerza tus argumentos, y a la contra lo mismo.

Por eso, en este mundo del Business Intelligence es tan crucial:

  • Tener claras las preguntas a responder, los objetivos perseguidos en el análisis de los datos, que a menudo requiere de una secuencia de preguntas que van de lo más general a lo más particular y que habitualmente te van obligando a enriquecer tu información con más datos de los inicialmente disponibles.

Así por ejemplo, no es lo mismo preguntarse:

“Qué producto/servicio se vende más” <-> “Con qué producto/servicio ganamos más”

“Qué máquina tiene más incidencias/averías” <-> “Qué máquina tiene más incidencias/averías por unidad de producción”

“Qué clientes hemos perdido” <-> “Qué clientes hemos perdido por nº de reclamaciones/incidencias registradas”

  • Conocer muy bien los datos a analizar: sus circunstancias de obtención, fiabilidad del dato, significado y relevancia de cada campo/atributo disponible, etc.

Resumiendo:

CALIDAD DEL ANÁLISIS=
CALIDAD DEL DATO
+
CALIDAD DEL GESTOR

data wrangling

Fuente: https://alumni.berkeley.edu/sites/default/files/styles/960×400/public/wranglingbigdata.jpg?itok=k0fK1fJQ

Del «Big Data» al «Data Capital»: aprovechando el valor de los datos con un data lake

Hay dos grandes formas de entender esta era del Big Data: como una evolución del Business Intelligence -herramientas que extraen inteligencia de la información de una compañía y sobre ésta elaboran algunas predicciones-, o como una disrupción. La primera consideración, suele descartarla.

El Business Intelligence, se significó en una época en la que eran los datawarehouse la norma. Es decir, grandes almacenes de datos, estructurados, con una administración rígida. No solo ya desde la óptica del almacenamiento del dato es diferente su consideración, sino también desde la mirada de procesamiento de datos. El BI tenía un marcado carácter descriptivo. En esta nueva era del Big Data, creo que la predicción es la norma y lo que todo el mundo quiere hacer. Adelantarse al futuro, pero de una manera más informada y evidenciada. Es decir, asentándose en la mayor cantidad de información posible.

Y esto, claro, como hemos comentado muchas veces, es más posible que nunca antes en la historia, por la gran cantidad de datos existentes. Pero, son datos, que muchas veces, no podemos estructurar (la lógica seguida por los datawarehouse). Son datos, además, que muchas veces, no se pueden «juntar» con otros; es mejor mantenerlos por separado, y luego ya tratar de juntarlos en tiempo de procesamiento para la extracción de valor.

Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg
Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg

Esta lógica, va un paso más allá dentro del paradigma del Big Data. Supone considerar el dato como otro activo más. Es más, supone considerar el dato como el activo más crítico de la organización. Y así, disponer de un «data capital», como otro activo más de la organización, que permita ser luego capitalizado y activado para su puesta en valor en la organización. Es decir, el almacenamiento en bruto de datos, puede ser interesante, sin mayor orden, estructura ni criterio de clasificación.

El problema es que en este momento, la mayor parte de las empresas (tanto grandes, medianas como pequeñas), está aún en la fase inicial: recopilan la información y la almacenan. Pero todavía no saben muy bien qué se puede hacer con ella. Por ello mismo, ya hay algunos que empiezan a considerar que en este estadío, en el que todavía las organizaciones no saben muy bien qué hacer, pero sí que disponen de datos, es fundametal articular una estrategia de almacenamiento de datos con sentido.

Y aquí, emerge con fuerza el concepto de «data lake». Como se puede ver en la siguiente representación gráfica, se trata de un repositorio de datos estructurados y no estructurados, sin ningún preprocesamiento, guardando los datos en bruto, y sin esquema. A los que venimos originariamente de la administración de bases de datos y sus esquemas rígidos, un concepto, un paradigma, sustantivamente diferente. Al carecer de esquema, añadir nuevos datos, será relativamente fácil.

Fuente: Microsoft
Fuente: Microsoft

Se trata, en definitiva, de proveer a las empresas de un mecanismo de almacenamiento de datos sin mayor compromiso. Ya veremos en qué momento se nos ocurre qué hacer. El problema que veníamos arrastrando, es que los sistemas de esquemas de datos, en muchas ocasiones, condicionaban luego lo que poder hacer con los datos. Porque ya representaban «algo».

Con esta explicación, se puede entender por qué esta era del Big Data, es para mí un paso más allá del Business Intelligence. En la era del BI, todos los datos que recogíamos (estructurados y no estructurados), los ordenábamos y clasificábamos según el esquema. En un data lake, también recogemos todos los datos, pero no los alteramos, limpiamos o manipulamos. Su valor queda bruto, y ya veremos en su día qué hacer con ello.

Sin alterar la «materia prima» y dejarla en bruto, dejamos abierto el campo de explotación. Y estas opciones, tan prometedoras para muchas empresas, es lo que está haciendo que cada vez más empresas me pregunten por los data lakes. Es algo que para la capitalización del dato dentro de las organizaciones, se alinea muy bien. Ya veremos algún día qué preguntas hacerles a los datos. Todavía no lo sabemos, pero no nos importa. Sabemos que esos datos tendrán valor.

Por todo esto, ya hay muchos profesionales del Big Data que dicen de cambiar el paradigma ETL (Extract, Transform, Load, del que ya hablé aquí) por ELT (Extract, Load, Transform). Es decir, ya transformaremos después, no antes, lo que suele restringir mucha las opciones de lo que podremos hacer. Los data lakes, precisamente adoptan ese rol de almacén de datos «neutro», en el que no condicionamos luego lo que se podrá hacer. Y por eso, las herramientas ELT (que no son nuevas, por otro lado), también pudieran vivir un renacimiento.

Para cerrar, una imagen muy representativa de la idea trasladada hoy.

Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/sites/8/2014/09/Data-lake-vs-Data-warehouse.jpg)
Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/sites/8/2014/09/Data-lake-vs-Data-warehouse.jpg)

 

Evento 17/11/2016: «Las oportunidades de la Inteligencia de Cliente aplicadas al Retail» (Deusto – Bilbao)

 

CABECERA-INGENIERIA-PLANTILLAS
Las oportunidades de la Inteligencia de Cliente aplicadas al Retail
La Facultad de Ingeniería de la Universidad de Deusto en colaboración con Eroski organiza una jornada dirigida a profesionales en torno al Retail y el Big Data.

El procesamiento del enorme volumen de datos y su trasformación en conocimiento es la base de grandes oportunidades en el sector de la Distribución y del Gran Consumo. Estamos asistiendo a grandes avances, tanto en la optimización de procesos como en la personalización de la relación con los clientes, aportándoles soluciones de mayor valor para ellos.

Regístrate

 

Programa:
9:45 Inscripción y Registro (Free/ Gratuita)
10:00 Presentación de la jornada y avance de las oportunidades

  • Alex Rayón, Vicedecano de Relaciones Externas y Formación Continua de la Facultad de Ingeniería y Director Programas Big Data.
  • Ana Cuevas, Directora Proyectos Estratégicos de Marketing,  Grupo Eroski.
10:30 Mesa Redonda y Debate

  • Alex Rayón, Vicedecano-Universidad de Deusto (moderador)
  • Ana Cuevas, Directora Proyectos Estratégicos de Marketing,  Grupo Eroski
  • Iñaki Pariente, Socio Director Dayntic Legal
  • Maider Hormaza, Directora comercial y marketing de Kaiku Corporacionalimentaria
  • David Ruiz,  CEO Smartup
  • Félix Diez, Director Innovación Versia
11:30 Finalización de la Jornada y Café Networking

 

calendar 2
17 Noviembre 
mapa2
 
Sala Garate
Universidad de Deusto

Bilbao
reloj 2
10:00-11:30
Para más información:

bigdata.deusto.es
formacion.ingenieria@deusto.es
944 139 208
Abierta la matricula
BDBI 2017 en Bilbao
© 2016 University of Deusto – All right reserved

 

CABECERA-INGENIERIA-PLANTILLAS
Bezeroen adimenaren aukerak txikizkako merkataritzara aplikatuta
Deustuko Unibertsitateko Ingeniaritza Fakultateak profesionalentzako jardunaldi bat antolatu du, Eroskiren laguntzaz, txikizkako merkataritzaz eta Big Dataz.

Datu kopuru eskerga prozesatzea eta hori guztia ezagutza bihurtzea da aukera askoren oinarria banaketa eta kontsumo handiaren sektorean. Aurrerakuntza handien lekuko gara, bai prozesuen optimizazioan, bai bezeroekiko harremanaren pertsonalizazioan, eta horrek balio handiagoko soluzioak ematen dizkiete bezeroei.

Erregistratu

  

Egitaraua:
 9:45  Izen ematea eta erregistratzea (Doakoa/Free)
10:00  Jardunaldiaren aurkezpena eta aukeren aurrerapena

  • Alex Rayón, Ingeniaritza Fakultateko Kanpo Harremanetako eta Etengabeko Prestakuntzako dekanordea eta Big Data eta Business Intelligence Programaren zuzendaria.
  • Ana Cuevas, Marketineko Proiektu Estrategikoen zuzendaria, Eroski Taldea. 
10:30  Mahai-ingurua eta eztabaida

  • Alex Rayón, Dekanordea-Deustuko Unibertsitatea (moderatzailea)
  • Ana Cuevas, Marketineko Proiektu Estrategikoen zuzendaria, Eroski Taldea 
  • Iñaki Pariente, Dayntic Legal-enbazkide-zuzendaria
  • Maider Hormaza, Kaiku Elkargintza Korporazioko merkataritza eta marketineko zuzendaria
  • David Ruiz, Smartup-en CEO-a
  • Félix Diez, Versia-ren Berrikuntzako zuzendaria
11:30  Jardunaldiaren amaiera eta Networkinga, kafe bat hartuz

 

calendar 2
Azaroak 17 
mapa2
 
Garate Aretoa
Deustoko Unibertsitatea
Bilbo
reloj 2
10:00-11:30
Informazio gehiago:

bigdata.deusto.es
formacion.ingenieria@deusto.es
944 139 208
© 2016 University of Deusto – All right reserved

Entrevistamos a Nagore de los Ríos, profesora de nuestro Programa de Big Data y Experto en Comunicación y Datos

La comunicación corporativa ya tiene claro que la mejor manera de llegar a sus receptores es con la caracterización y eso sólo se consigue a través del Big Data” (Nagore de los Ríos)

NagoreDeLosRios

Nagore de los Ríos participará en nuestro Programa en Big Data y Business Intelligence  y Programa Experto en Análisis, Investigación y Comunicación de Datos que impulsa la Universidad de Deusto. Fundadora de Irekia, portal de Gobierno Abierto del Gobierno Vasco, y consultora Senior del Banco Mundial en iniciativas de Comunicación y Open Data, acercará su experiencia en el ámbito del Big Data y otras cuestiones vinculadas con la comunicación y el Business Inteligence. Para Nagore de los Ríos, la complejidad del ámbito comunicativo en la actualidad, cuando se incorpora el Big Data, hace necesario el uso de metodologías, como Outreach Tool, para diseñar estrategias y planes de comunicación. Participará en el módulo M3.1 de nuestro Programa de Big Data, en colaboración con Mª Luz Guenaga y Alex Rayón, en las sesiones de Open Data y visualización de datos.

Periodista de formación, consultora en Comunicación, experta en Open Data, ¿cuál es tu aportación al Programa en Big Data y Business Intelligence?

Tanto el Open Data como la comunicación están muy ligados a los Datos. El Open Data porque en sí mismos son fuentes de datos que cualquiera puede extraer y con ello enriquecer su propio Big Data, cruzando sus datos con los Open Data, lo que supone aplicar el Business Intelligence de una forma mucho más enriquecida y además de manera gratuita. Es la materia prima más barata y accesible que alcanza gran valor cuando se cruza con otros datos bajo las preguntas adecuadas. 

Y cuando hablamos de comunicación, en primer lugar, los datos son la primera y mejor fuente de información, la más fiable, la que nos aporta el mejor conocimiento, por lo que es clave realizar buenas preguntas a los datos para que nos ofrezcan las respuestas que deseamos conocer. En segundo lugar porque para comunicar es muy importante asegurarnos de que no generamos ruido, de que el destinatario está receptivo a nuestro mensaje y es el destinatario acertado. De este modo, el Big Data se utiliza en dos momentos claves de la comunicación, el primero de ellos a la hora de hipersegmentar a los destinatarios, saber lo que desean o necesitan escuchar y en segundo lugar a la hora de vincular los mensajes y segmentarlos de la misma manera. Muchas veces queremos comunicar demasiadas cosas a todas las personas y eso no es eficaz. Si a la Comunicación le aplicamos las técnicas de Business Intelligence y utilizamos bien el Big Data podemos obtener la respuesta exacta de quien es el que necesita recibir un determinado mensaje, y qué mensaje es el más adecuado.

Y por último el Big Data está muy ligado al Marketing y a la Comunicación sobre todo a la hora de conocer los resultados, establecer los indicadores, extraer información valiosa de las redes sociales y de lo que las personas y marcas están hablando así como observar los impactos que al emitir los mensajes somos capaces de producir o no en nuestros públicos objetivos.

Cuando hablamos de comunicar, contamos con dos ámbitos, el del periodismo tradicional y la comunicación corporativa o institucional. ¿Qué beneficios obtiene cada uno de ellos?

Ambos mundos están despertando y entendiendo que los datos son la mejor fuente de información posible. En el ámbito del periodismo se están dando cuenta de que los datos no mienten y no tienen intenciones o están condicionados, los periodistas empiezan a ver una ventaja no solo en la objetividad de sus informaciones sino también en el acceso a las fuentes y en la rapidez para encontrar las respuestas y poder con ello contar las historias que los datos guardan. 

En el ámbito de la comunicación corporativa también se están dando cuenta de que para llegar a sus receptores o clientes de forma más directa la hipersegmentación es básica y sólo se consigue a través del Big Data. Gracias al Big Data además pueden localizar a nuevos receptores que son público objetivo de las marcas o empresas, más allá de los habituales medios de investigación sobre audiencias, que se centraban en los últimos años en receptores que desde las redes sociales estaban dispuestos a escuchar los mensajes de la marca o los seguidores o fans que se conseguían por otras vías del marketing. 

¿De qué modo puede ayudar el Big Data a la comunicación de empresas e instituciones?

Con la aparición de las redes sociales, las organizaciones encontraron una forma más directa de llegar a su audiencia sin pasar por intermediarios, pero se encontraron con el problema de captar tráfico y atraerlas hasta sus perfiles o webs para poder hacer llegar sus mensajes. Gracias a la publicidad en internet que facilita la segmentación pudieron acotar a ese público pero seguían esperando a que fuesen los consumidores quienes, buscando productos similares o a través de palabras claves, acabasen en sus publicaciones o anuncios. Ahora con el Big Data hemos alcanzado ya el tercer nivel, y son las marcas las que por distintas vías recopilan información de los consumidores, y utilizan el mejor canal para llegar a ellos.

Otra ventaja que encuentran ahora todas las organizaciones públicas o privadas es que pueden cocrear mejor sus servicios con los destinatarios y usuarios finales. Ya no se basan en intuiciones o en evidencias o en encuestas o preguntas de satisfacción donde los usuarios decían que es lo que ellos mismos creían que necesitaban o querían (y digo creían porque muchas veces pensamos que nos vamos a comportar de una cierta manera o vamos a tener unas necesidades concretas y luego la realidad es totalmente diferente). Los servicios y productos se pueden cocrear ahora de forma más fehaciente, prediciendo el futuro y ofreciendo soluciones a lo que verdaderamente se va a consumir o necesitar

Pero para ello hace falta actuar con cierto método, por el volumen de información que se maneja.

Si hablamos de comunicación en concreto, y queremos aplicar una estrategia y un plan de comunicación toda esa información que el Big Data y el Business Inteligence nos ha aportado lo debemos canalizar y nos sirve de base para realizar una estrategia. Contar con una estrategia definida permite señalar objetivos y llegar a alcanzarlos, no perder la perspectiva, ser eficaz en el desarrollo de la ocupación correspondiente, no malgastar tiempo ni recursos, sobre todo en un mundo tan complejo como el presente. Y una vez determinada la estrategia es necesario un plan de acciones, porque el plan permite conocer de antemano qué se pretende conseguir y cómo se piensa lograrlo.

Y para diseñar esa estrategia y el plan con el que se va a ejecutar, es necesaria una metodología. En este sentido, os recomiendo una metodología abierta y gratuita que se llama Outreachtool.com, que está empezando a dar sus primeros pasos ahora.

¿Nos puedes explicar qué es Outreach Tool, y que supone para la Comunicación corporativa e institucional en el ámbito del Big Data?

Se trata de una herramienta para generar estrategias y planes de comunicación efectivos de manera abierta, sencilla, intuitiva y ágil. Está publicada bajo la licencia Creative Commons y se conforma por una metodología y una tabla dinámica, que se pueden descargar gratuitamente. Se desarrolla en tres fases y se resuelve en un calendario de acciones para desarrollar la estrategia que se genera con la metodología.

A grandes rasgos (porque la metodología es más completa) La primera fase gira en torno a la empresa, institución, marca personal para la que se prepara la estrategia. La segunda fase analiza el conjunto de receptores a los que se dirige el plan, con una profunda hipersegmentación de destinatarios. Porque no les interesa lo mismo a unos destinatarios que a otros, ni se quiere conseguir lo mismo de todos ellos. Esto marcará también lo que se va a comunicar, que se analiza en la tercera fase, cuando se concreta el qué, el cómo, el con qué y el cuándo comunicar.

Nuestro empeño con Outreach Tool ha sido obtener un mecanismo fácil de comprender y aplicar que, no obstante, no se desvirtúe al simplificar en demasía el complejo entramado de claves que afectan a la comunicación. Buscamos que no se escape ningún detalle, que no caiga en la improvisación ninguna parte esencial de una buena estrategia de comunicación, pero que, al tiempo, no te resulte un trabajo farragoso ni tedioso.

¿Y cómo interviene el Big Data en Outreach Tool?

Para realizar cualquier estrategia es imprescindible poseer información que nos indique que caminos tomar. Se puede trabajar con intuiciones, como hasta ahora se desarrollaban los planes de comunicación. También con la recogida “manual” de información con entrevistas, estudios, análisis, encuestas… Pero si esa información es obtenida a través del Big Data tendrá un grado de acierto mayor. Y, por supuesto, con la combinación de las tres vías, el resultado será todavía mejor.

Mallorca Wifi: una agencia de medios sobre una infraestructura WiFi, gracias al Big Data

El pasado viernes 17 de Junio, invitaron a @deusto #bigdata a participar en una jornada organizada por la Universidad de Islas Baleares en torno al Big Data y sus aplicaciones. Obviamente, en Baleares, donde el turismo supone aproximadamente la mitad del PIB de la región, mucha de la conversación se centró en cómo operadores, plataformas, etc. utilizan el análisis masivo de datos para el desarrollo turístico.

Entre las ponencias, una de las que más me llamó la atención fue la del CEO y fundador de Mallorca Wifi, Maurici Socias. Una persona con la que luego tuve rato para conversar y entender bien lo que para mí ha sido un auténtico descubrimiento y muy grata sorpresa. Un emprendedor nato que llevo más de 20 años en el sector de las telecomunicaciones, en constante “reinvención” por la propia evolución del sector. He de decirles que es una auténtica gozada escucharle hablar de sus proyectos desde los tiempos de Terra, pasando por los inicios de Google y el Marketing Digital en España, hasta llegar a la competición atroz actual en la que el Big Data y el Marketing Intelligence pueden aportar tanto a la eficiencia de las acciones de una compañía. Quería, por ello, compartir con todos vosotros el modelo de Mallorca Wifi y cuál es su relación con el mundo del Big Data.

Fuente: Mallorca Wifi
Fuente: Mallorca Wifi

Una de las cosas que llama la atención cuando le escuchas describir qué es Mallorca Wifi es su propuesta de valor como “agencia de medios”. Sí, Mallorca Wifi es una agencia de medios. Una agencia, eso sí, que creo, no tiene mucha competencia. ¿Por qué? Por su capacidad de segmentar, personalizar la oferta, hilar bien fino y sobre todo, hacer un marketing centrado en el consumidor.

Os he hablado en anteriores ocasiones de lo que puede aportar el Big Data al mundo del marketing actual. Seguimos, aún hoy en día, y a pesar de las grandes bondades tecnológicas existentes, en un marketing masivo, en el que impactamos a muchas personas a la vez, con la esperanza matemática que solo por estadística, “alguno caerá”. El problema de este modelo, no solo es que su concepción se hizo en una época en la que las capacidades tecnológicas eran bastante limitadas y tenía bastante sentido, sino que es que además, los consumidores estamos muy cansados de los modelos publicitarios actuales. Son totalmente invasivos, nos generan una mala experiencia de usuario y consumidor, por lo que resultan poco eficientes para las marcas.

Sin embargo, las empresas siguen todavía apostando por esos modelos. Quizás es que los puestos de dirección de marketing necesiten también ese espíritu emprendedor por soportes que tengan un nuevo modelo. Nuevos formatos en los que el consumidor sea consecuencia y no causa; es decir, no vayamos a donde haya consumidores, sino traigamos a los consumidores a un nuevo esquema de relación. Un esquema en el que los impactos publicitarios tengan valor y no les resulte incómodo.

Pues bien, aunque pueda sorprender, un nuevo soporte de valor y centrado en el consumidor es Mallorca Wifi. Sí, un operador de infraestructura Wifi, es, bajo mi punto de vista, uno de los soportes más eficienes que puede haber. Y, hasta donde sé, un modelo sin precedentes en España. ¿Qué hace Maurici con Mallorca Wifi? Básicamente ofrecer a un visitante de Palma (extendiendo ahora su ámbito de actuación por toda la isla) wifi gratis sin solicitarle datos a cambio. Sin que tengamos que introducir datos de registro tan molestos como anticuados para las capacidades tecnológicas actuales. Y totalmente gratis, insisto. Y sin financiación pública.

Aquí es cuando le pregunté a Maurici una cosa tan básica como: “Entonces, ¿cómo ganáis dinero?”. Pues básicamente introduciendo la posibilidad para las marcas de “patrocinar” la conexión al Wifi en puntos estratégicos de Palma de Mallorca. Piensen en ustedes mismos, cuando no quieren consumir ese recurso tan escaso como son los datos, y prefieren conectarse a una wifi gratuita que encima no le pide datos personales. La relación que estableceré con esa empresa, esa marca, que le da Wifi gratis, será bastante afectiva, y estará usted muy agradecido por ello. En definitiva, convertir una infraestructura Wifi en un nuevo soporte publicitario. Bajo mi punto de vista, un modelo totalmente innovador y de valor. Que tardarán todavía muchas empresas en entender, pero que aquellas que lo hagan, le sacarán importantes beneficios, por el engagement que genera con el usuario.

Fuente: Mallorca Wifi
Fuente: Mallorca Wifi

¿Y qué tiene que ver todo esto con el Big Data? Pues bastante. De hecho, Maurici está ahora explorando la posibilidad de abrir una nueva línea de trabajo en torno a ello. Piensen ustedes que todos aquellos dispositivos móviles que lleven la Wifi encendido (que son prácticamente todos), tratan de conectarse a los puntos de acceso que tiene Mallorca Wifi. En ese momento, se obtienen muchos datos sobre el dispositivo, pudiendo llegar a caracterizar a ese usuario por el idioma del móvil (de dónde viene), cómo se desplaza (por tener intercalados los puntos de acceso), a qué velocidad lo hace, si acude a esos puntos con bastante regularidad, si lo hace siempre acompañado de otro dispositivo móvil, a qué hora lo hace, etc.

Si esos datos son anonimizados, y agregados en su conjunto, la capacidad de Mallorca Wifi de diseñar y lanzar una línea de negocio basado en datos de marketing contextual es bastante potente. Y, bajo mi punto de vista, otro caso más de lo que considero un movimiento brillante: dotarse de una infraestructura (wifi en este caso) que sea capaz de generar datos, que luego resulten de valor para diferentes propuestas de valor. Lo mismo que ocurre con una tarjeta de fidelización, un CRM o las líneas de telecomunicación tradicionales que tanto han trabajo con el Big Data.

El marketing contextual inteligente, se hace así posible, gracias a los datos que genera una red inteligente como esta. Todo ello, respetando al usuario, su privacidad y la ley. Brillante, y realmente inteligente. Mi más sincera enhorabuena y ánimo a personas emprendedoras que apuestan por la innovación y el dato como futuras palancas de desarrollo. Mallorca Wifi, una agencia de medios sobre una red Wifi gracias al Big Data.

R vs. Python para el análisis de datos en proyectos de Big Data

Cuando abrimos este blog, dedicamos una entrada a comparar diferentes herramientas analíticas. En su día, hablamos de SAS, R y Python, mostrando la experiencia que tenía en el manejo de las tres de nuestro profesor Pedro Gómez. Desde entonces, han aparecido varias noticias y reflexiones comparando especialmente dos de ellas: R y Python. DataCamp publicó hace unos meses la infografía que ponemos al final de este artículo comparando ambas.

El análisis de datos, obviamente, es una parte nuclear de cualquier proyecto de Big Data. El análisis de los diferentes flujos de datos y su combinación para obtener nuevos patrones, tendencias, estructuras, etc. se puede realizar con diferentes herramientas y lenguajes de programación. La elección de estas últimas es una cuestión en muchas ocasiones de gustos, de preferencias, pero también en otras ocasiones, objeto de detallados análisis.

La infografía que hoy nos acompaña agrega múltiples fuentes que comparan R y Python. Por eso mismo, nos ha resultado interesante para compartir con vosotros. Compara ambos lenguajes desde una perspectiva de la Ciencia de Datos, o Data Science, disciplina que ya describimos en una entrada anterior.  Las debilidades y fortalezas que se muestran, así como sus ventajas y desventajas, puede ayudaros a la hora de seleccionar el mejor lenguaje de programación para vuestro problema dado. Y es que, como solemos decir, cada proyecto, cada problema, cada contexto de empresa, es diferente, por lo que dar sugerencias absolutas suele resultar complicado.

Dado que suele ser un factor bastante determinante, de entre las múltiples características para la toma de decisión, cabe destacar que ambos lenguajes gozan de una amplia comunidad de desarrollo. En este sentido, ninguna diferencia. Quizás lo que mejor caracteriza a cada uno de los lenguajes, es la frase que destacan los que elaboraran la infografía:

Python is often praised for being a general-purpose language with an easy-to-understand syntax and R’s functionality is developed with statisticians in mind, thereby giving it field-specific advantages such as great features for data visualization”

Os dejamos con la infografía para que podáis por vuestra seguir conociendo mejor cada uno de los dos: R vs. Python o Python vs. R. Seguiremos de cerca la evolución de ambos.