Archivo de la etiqueta: business intelligence

Business Intelligence vs. Torturadores de datos

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Retomamos la actividad tras el verano iniciando mi tercer (y penúltimo) módulo del curso anual “Programa de Big Data y Business Intelligence” de la Universidad de Deusto. En esta primera sesión, de un breve repaso de conceptos clave de estadística quiero destacar una frase, que “cojo prestada” de la presentación de nuestro profesor Enrique Onieva, que me ha encantado porque es absolutamente cierta:

“Unos datos convenientemente torturados te dirán todo aquello que desees oír”

El arte de “torturar” datos lo manejan con maestría muchas profesiones como por ejemplo los periodistas, que encuentran soporte a los titulares que convenga publicar, o también por ejemplo (debo de reconocerlo), nosotros los consultores, en algunos informes de diagnóstico o selección. Porque es cierto que siempre encuentras en un conjunto de datos un punto de vista de análisis que refuerza tus argumentos, y a la contra lo mismo.

Por eso, en este mundo del Business Intelligence es tan crucial:

  • Tener claras las preguntas a responder, los objetivos perseguidos en el análisis de los datos, que a menudo requiere de una secuencia de preguntas que van de lo más general a lo más particular y que habitualmente te van obligando a enriquecer tu información con más datos de los inicialmente disponibles.

Así por ejemplo, no es lo mismo preguntarse:

“Qué producto/servicio se vende más” <-> “Con qué producto/servicio ganamos más”

“Qué máquina tiene más incidencias/averías” <-> “Qué máquina tiene más incidencias/averías por unidad de producción”

“Qué clientes hemos perdido” <-> “Qué clientes hemos perdido por nº de reclamaciones/incidencias registradas”

  • Conocer muy bien los datos a analizar: sus circunstancias de obtención, fiabilidad del dato, significado y relevancia de cada campo/atributo disponible, etc.

Resumiendo:

CALIDAD DEL ANÁLISIS=
CALIDAD DEL DATO
+
CALIDAD DEL GESTOR

data wrangling

Fuente: https://alumni.berkeley.edu/sites/default/files/styles/960×400/public/wranglingbigdata.jpg?itok=k0fK1fJQ

Del “Big Data” al “Data Capital”: aprovechando el valor de los datos con un data lake

Hay dos grandes formas de entender esta era del Big Data: como una evolución del Business Intelligence -herramientas que extraen inteligencia de la información de una compañía y sobre ésta elaboran algunas predicciones-, o como una disrupción. La primera consideración, suele descartarla.

El Business Intelligence, se significó en una época en la que eran los datawarehouse la norma. Es decir, grandes almacenes de datos, estructurados, con una administración rígida. No solo ya desde la óptica del almacenamiento del dato es diferente su consideración, sino también desde la mirada de procesamiento de datos. El BI tenía un marcado carácter descriptivo. En esta nueva era del Big Data, creo que la predicción es la norma y lo que todo el mundo quiere hacer. Adelantarse al futuro, pero de una manera más informada y evidenciada. Es decir, asentándose en la mayor cantidad de información posible.

Y esto, claro, como hemos comentado muchas veces, es más posible que nunca antes en la historia, por la gran cantidad de datos existentes. Pero, son datos, que muchas veces, no podemos estructurar (la lógica seguida por los datawarehouse). Son datos, además, que muchas veces, no se pueden “juntar” con otros; es mejor mantenerlos por separado, y luego ya tratar de juntarlos en tiempo de procesamiento para la extracción de valor.

Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg
Fuente: http://2.bp.blogspot.com/-dfr85pnA6R0/VtRjMG1rrUI/AAAAAAAAAHA/xsv2qhPtLIo/s302/Francisco%2BJavier%2BCervigon%2BRuckauer.jpg

Esta lógica, va un paso más allá dentro del paradigma del Big Data. Supone considerar el dato como otro activo más. Es más, supone considerar el dato como el activo más crítico de la organización. Y así, disponer de un “data capital”, como otro activo más de la organización, que permita ser luego capitalizado y activado para su puesta en valor en la organización. Es decir, el almacenamiento en bruto de datos, puede ser interesante, sin mayor orden, estructura ni criterio de clasificación.

El problema es que en este momento, la mayor parte de las empresas (tanto grandes, medianas como pequeñas), está aún en la fase inicial: recopilan la información y la almacenan. Pero todavía no saben muy bien qué se puede hacer con ella. Por ello mismo, ya hay algunos que empiezan a considerar que en este estadío, en el que todavía las organizaciones no saben muy bien qué hacer, pero sí que disponen de datos, es fundametal articular una estrategia de almacenamiento de datos con sentido.

Y aquí, emerge con fuerza el concepto de “data lake”. Como se puede ver en la siguiente representación gráfica, se trata de un repositorio de datos estructurados y no estructurados, sin ningún preprocesamiento, guardando los datos en bruto, y sin esquema. A los que venimos originariamente de la administración de bases de datos y sus esquemas rígidos, un concepto, un paradigma, sustantivamente diferente. Al carecer de esquema, añadir nuevos datos, será relativamente fácil.

Fuente: Microsoft
Fuente: Microsoft

Se trata, en definitiva, de proveer a las empresas de un mecanismo de almacenamiento de datos sin mayor compromiso. Ya veremos en qué momento se nos ocurre qué hacer. El problema que veníamos arrastrando, es que los sistemas de esquemas de datos, en muchas ocasiones, condicionaban luego lo que poder hacer con los datos. Porque ya representaban “algo”.

Con esta explicación, se puede entender por qué esta era del Big Data, es para mí un paso más allá del Business Intelligence. En la era del BI, todos los datos que recogíamos (estructurados y no estructurados), los ordenábamos y clasificábamos según el esquema. En un data lake, también recogemos todos los datos, pero no los alteramos, limpiamos o manipulamos. Su valor queda bruto, y ya veremos en su día qué hacer con ello.

Sin alterar la “materia prima” y dejarla en bruto, dejamos abierto el campo de explotación. Y estas opciones, tan prometedoras para muchas empresas, es lo que está haciendo que cada vez más empresas me pregunten por los data lakes. Es algo que para la capitalización del dato dentro de las organizaciones, se alinea muy bien. Ya veremos algún día qué preguntas hacerles a los datos. Todavía no lo sabemos, pero no nos importa. Sabemos que esos datos tendrán valor.

Por todo esto, ya hay muchos profesionales del Big Data que dicen de cambiar el paradigma ETL (Extract, Transform, Load, del que ya hablé aquí) por ELT (Extract, Load, Transform). Es decir, ya transformaremos después, no antes, lo que suele restringir mucha las opciones de lo que podremos hacer. Los data lakes, precisamente adoptan ese rol de almacén de datos “neutro”, en el que no condicionamos luego lo que se podrá hacer. Y por eso, las herramientas ELT (que no son nuevas, por otro lado), también pudieran vivir un renacimiento.

Para cerrar, una imagen muy representativa de la idea trasladada hoy.

Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/2014/09/Data-lake-vs-Data-warehouse.jpg)
Data Lake vs Data Warehouse (Fuente: http://www.martinsights.com/wp-content/uploads/2014/09/Data-lake-vs-Data-warehouse.jpg)

 

Evento 17/11/2016: “Las oportunidades de la Inteligencia de Cliente aplicadas al Retail” (Deusto – Bilbao)

 

CABECERA-INGENIERIA-PLANTILLAS
Las oportunidades de la Inteligencia de Cliente aplicadas al Retail
La Facultad de Ingeniería de la Universidad de Deusto en colaboración con Eroski organiza una jornada dirigida a profesionales en torno al Retail y el Big Data.

El procesamiento del enorme volumen de datos y su trasformación en conocimiento es la base de grandes oportunidades en el sector de la Distribución y del Gran Consumo. Estamos asistiendo a grandes avances, tanto en la optimización de procesos como en la personalización de la relación con los clientes, aportándoles soluciones de mayor valor para ellos.

Regístrate

 

Programa:
9:45 Inscripción y Registro (Free/ Gratuita)
10:00 Presentación de la jornada y avance de las oportunidades

  • Alex Rayón, Vicedecano de Relaciones Externas y Formación Continua de la Facultad de Ingeniería y Director Programas Big Data.
  • Ana Cuevas, Directora Proyectos Estratégicos de Marketing,  Grupo Eroski.
10:30 Mesa Redonda y Debate

  • Alex Rayón, Vicedecano-Universidad de Deusto (moderador)
  • Ana Cuevas, Directora Proyectos Estratégicos de Marketing,  Grupo Eroski
  • Iñaki Pariente, Socio Director Dayntic Legal
  • Maider Hormaza, Directora comercial y marketing de Kaiku Corporacionalimentaria
  • David Ruiz,  CEO Smartup
  • Félix Diez, Director Innovación Versia
11:30 Finalización de la Jornada y Café Networking

 

calendar 2
17 Noviembre 
mapa2
 
Sala Garate
Universidad de Deusto

Bilbao
reloj 2
10:00-11:30
Para más información:

bigdata.deusto.es
formacion.ingenieria@deusto.es
944 139 208
Abierta la matricula
BDBI 2017 en Bilbao
© 2016 University of Deusto – All right reserved

 

CABECERA-INGENIERIA-PLANTILLAS
Bezeroen adimenaren aukerak txikizkako merkataritzara aplikatuta
Deustuko Unibertsitateko Ingeniaritza Fakultateak profesionalentzako jardunaldi bat antolatu du, Eroskiren laguntzaz, txikizkako merkataritzaz eta Big Dataz.

Datu kopuru eskerga prozesatzea eta hori guztia ezagutza bihurtzea da aukera askoren oinarria banaketa eta kontsumo handiaren sektorean. Aurrerakuntza handien lekuko gara, bai prozesuen optimizazioan, bai bezeroekiko harremanaren pertsonalizazioan, eta horrek balio handiagoko soluzioak ematen dizkiete bezeroei.

Erregistratu

  

Egitaraua:
 9:45  Izen ematea eta erregistratzea (Doakoa/Free)
10:00  Jardunaldiaren aurkezpena eta aukeren aurrerapena

  • Alex Rayón, Ingeniaritza Fakultateko Kanpo Harremanetako eta Etengabeko Prestakuntzako dekanordea eta Big Data eta Business Intelligence Programaren zuzendaria.
  • Ana Cuevas, Marketineko Proiektu Estrategikoen zuzendaria, Eroski Taldea. 
10:30  Mahai-ingurua eta eztabaida

  • Alex Rayón, Dekanordea-Deustuko Unibertsitatea (moderatzailea)
  • Ana Cuevas, Marketineko Proiektu Estrategikoen zuzendaria, Eroski Taldea 
  • Iñaki Pariente, Dayntic Legal-enbazkide-zuzendaria
  • Maider Hormaza, Kaiku Elkargintza Korporazioko merkataritza eta marketineko zuzendaria
  • David Ruiz, Smartup-en CEO-a
  • Félix Diez, Versia-ren Berrikuntzako zuzendaria
11:30  Jardunaldiaren amaiera eta Networkinga, kafe bat hartuz

 

calendar 2
Azaroak 17 
mapa2
 
Garate Aretoa
Deustoko Unibertsitatea
Bilbo
reloj 2
10:00-11:30
Informazio gehiago:

bigdata.deusto.es
formacion.ingenieria@deusto.es
944 139 208
© 2016 University of Deusto – All right reserved

Entrevistamos a Nagore de los Ríos, profesora de nuestro Programa de Big Data y Experto en Comunicación y Datos

La comunicación corporativa ya tiene claro que la mejor manera de llegar a sus receptores es con la caracterización y eso sólo se consigue a través del Big Data” (Nagore de los Ríos)

NagoreDeLosRios

Nagore de los Ríos participará en nuestro Programa en Big Data y Business Intelligence  y Programa Experto en Análisis, Investigación y Comunicación de Datos que impulsa la Universidad de Deusto. Fundadora de Irekia, portal de Gobierno Abierto del Gobierno Vasco, y consultora Senior del Banco Mundial en iniciativas de Comunicación y Open Data, acercará su experiencia en el ámbito del Big Data y otras cuestiones vinculadas con la comunicación y el Business Inteligence. Para Nagore de los Ríos, la complejidad del ámbito comunicativo en la actualidad, cuando se incorpora el Big Data, hace necesario el uso de metodologías, como Outreach Tool, para diseñar estrategias y planes de comunicación. Participará en el módulo M3.1 de nuestro Programa de Big Data, en colaboración con Mª Luz Guenaga y Alex Rayón, en las sesiones de Open Data y visualización de datos.

Periodista de formación, consultora en Comunicación, experta en Open Data, ¿cuál es tu aportación al Programa en Big Data y Business Intelligence?

Tanto el Open Data como la comunicación están muy ligados a los Datos. El Open Data porque en sí mismos son fuentes de datos que cualquiera puede extraer y con ello enriquecer su propio Big Data, cruzando sus datos con los Open Data, lo que supone aplicar el Business Intelligence de una forma mucho más enriquecida y además de manera gratuita. Es la materia prima más barata y accesible que alcanza gran valor cuando se cruza con otros datos bajo las preguntas adecuadas. 

Y cuando hablamos de comunicación, en primer lugar, los datos son la primera y mejor fuente de información, la más fiable, la que nos aporta el mejor conocimiento, por lo que es clave realizar buenas preguntas a los datos para que nos ofrezcan las respuestas que deseamos conocer. En segundo lugar porque para comunicar es muy importante asegurarnos de que no generamos ruido, de que el destinatario está receptivo a nuestro mensaje y es el destinatario acertado. De este modo, el Big Data se utiliza en dos momentos claves de la comunicación, el primero de ellos a la hora de hipersegmentar a los destinatarios, saber lo que desean o necesitan escuchar y en segundo lugar a la hora de vincular los mensajes y segmentarlos de la misma manera. Muchas veces queremos comunicar demasiadas cosas a todas las personas y eso no es eficaz. Si a la Comunicación le aplicamos las técnicas de Business Intelligence y utilizamos bien el Big Data podemos obtener la respuesta exacta de quien es el que necesita recibir un determinado mensaje, y qué mensaje es el más adecuado.

Y por último el Big Data está muy ligado al Marketing y a la Comunicación sobre todo a la hora de conocer los resultados, establecer los indicadores, extraer información valiosa de las redes sociales y de lo que las personas y marcas están hablando así como observar los impactos que al emitir los mensajes somos capaces de producir o no en nuestros públicos objetivos.

Cuando hablamos de comunicar, contamos con dos ámbitos, el del periodismo tradicional y la comunicación corporativa o institucional. ¿Qué beneficios obtiene cada uno de ellos?

Ambos mundos están despertando y entendiendo que los datos son la mejor fuente de información posible. En el ámbito del periodismo se están dando cuenta de que los datos no mienten y no tienen intenciones o están condicionados, los periodistas empiezan a ver una ventaja no solo en la objetividad de sus informaciones sino también en el acceso a las fuentes y en la rapidez para encontrar las respuestas y poder con ello contar las historias que los datos guardan. 

En el ámbito de la comunicación corporativa también se están dando cuenta de que para llegar a sus receptores o clientes de forma más directa la hipersegmentación es básica y sólo se consigue a través del Big Data. Gracias al Big Data además pueden localizar a nuevos receptores que son público objetivo de las marcas o empresas, más allá de los habituales medios de investigación sobre audiencias, que se centraban en los últimos años en receptores que desde las redes sociales estaban dispuestos a escuchar los mensajes de la marca o los seguidores o fans que se conseguían por otras vías del marketing. 

¿De qué modo puede ayudar el Big Data a la comunicación de empresas e instituciones?

Con la aparición de las redes sociales, las organizaciones encontraron una forma más directa de llegar a su audiencia sin pasar por intermediarios, pero se encontraron con el problema de captar tráfico y atraerlas hasta sus perfiles o webs para poder hacer llegar sus mensajes. Gracias a la publicidad en internet que facilita la segmentación pudieron acotar a ese público pero seguían esperando a que fuesen los consumidores quienes, buscando productos similares o a través de palabras claves, acabasen en sus publicaciones o anuncios. Ahora con el Big Data hemos alcanzado ya el tercer nivel, y son las marcas las que por distintas vías recopilan información de los consumidores, y utilizan el mejor canal para llegar a ellos.

Otra ventaja que encuentran ahora todas las organizaciones públicas o privadas es que pueden cocrear mejor sus servicios con los destinatarios y usuarios finales. Ya no se basan en intuiciones o en evidencias o en encuestas o preguntas de satisfacción donde los usuarios decían que es lo que ellos mismos creían que necesitaban o querían (y digo creían porque muchas veces pensamos que nos vamos a comportar de una cierta manera o vamos a tener unas necesidades concretas y luego la realidad es totalmente diferente). Los servicios y productos se pueden cocrear ahora de forma más fehaciente, prediciendo el futuro y ofreciendo soluciones a lo que verdaderamente se va a consumir o necesitar

Pero para ello hace falta actuar con cierto método, por el volumen de información que se maneja.

Si hablamos de comunicación en concreto, y queremos aplicar una estrategia y un plan de comunicación toda esa información que el Big Data y el Business Inteligence nos ha aportado lo debemos canalizar y nos sirve de base para realizar una estrategia. Contar con una estrategia definida permite señalar objetivos y llegar a alcanzarlos, no perder la perspectiva, ser eficaz en el desarrollo de la ocupación correspondiente, no malgastar tiempo ni recursos, sobre todo en un mundo tan complejo como el presente. Y una vez determinada la estrategia es necesario un plan de acciones, porque el plan permite conocer de antemano qué se pretende conseguir y cómo se piensa lograrlo.

Y para diseñar esa estrategia y el plan con el que se va a ejecutar, es necesaria una metodología. En este sentido, os recomiendo una metodología abierta y gratuita que se llama Outreachtool.com, que está empezando a dar sus primeros pasos ahora.

¿Nos puedes explicar qué es Outreach Tool, y que supone para la Comunicación corporativa e institucional en el ámbito del Big Data?

Se trata de una herramienta para generar estrategias y planes de comunicación efectivos de manera abierta, sencilla, intuitiva y ágil. Está publicada bajo la licencia Creative Commons y se conforma por una metodología y una tabla dinámica, que se pueden descargar gratuitamente. Se desarrolla en tres fases y se resuelve en un calendario de acciones para desarrollar la estrategia que se genera con la metodología.

A grandes rasgos (porque la metodología es más completa) La primera fase gira en torno a la empresa, institución, marca personal para la que se prepara la estrategia. La segunda fase analiza el conjunto de receptores a los que se dirige el plan, con una profunda hipersegmentación de destinatarios. Porque no les interesa lo mismo a unos destinatarios que a otros, ni se quiere conseguir lo mismo de todos ellos. Esto marcará también lo que se va a comunicar, que se analiza en la tercera fase, cuando se concreta el qué, el cómo, el con qué y el cuándo comunicar.

Nuestro empeño con Outreach Tool ha sido obtener un mecanismo fácil de comprender y aplicar que, no obstante, no se desvirtúe al simplificar en demasía el complejo entramado de claves que afectan a la comunicación. Buscamos que no se escape ningún detalle, que no caiga en la improvisación ninguna parte esencial de una buena estrategia de comunicación, pero que, al tiempo, no te resulte un trabajo farragoso ni tedioso.

¿Y cómo interviene el Big Data en Outreach Tool?

Para realizar cualquier estrategia es imprescindible poseer información que nos indique que caminos tomar. Se puede trabajar con intuiciones, como hasta ahora se desarrollaban los planes de comunicación. También con la recogida “manual” de información con entrevistas, estudios, análisis, encuestas… Pero si esa información es obtenida a través del Big Data tendrá un grado de acierto mayor. Y, por supuesto, con la combinación de las tres vías, el resultado será todavía mejor.

Mallorca Wifi: una agencia de medios sobre una infraestructura WiFi, gracias al Big Data

El pasado viernes 17 de Junio, invitaron a @deusto #bigdata a participar en una jornada organizada por la Universidad de Islas Baleares en torno al Big Data y sus aplicaciones. Obviamente, en Baleares, donde el turismo supone aproximadamente la mitad del PIB de la región, mucha de la conversación se centró en cómo operadores, plataformas, etc. utilizan el análisis masivo de datos para el desarrollo turístico.

Entre las ponencias, una de las que más me llamó la atención fue la del CEO y fundador de Mallorca Wifi, Maurici Socias. Una persona con la que luego tuve rato para conversar y entender bien lo que para mí ha sido un auténtico descubrimiento y muy grata sorpresa. Un emprendedor nato que llevo más de 20 años en el sector de las telecomunicaciones, en constante “reinvención” por la propia evolución del sector. He de decirles que es una auténtica gozada escucharle hablar de sus proyectos desde los tiempos de Terra, pasando por los inicios de Google y el Marketing Digital en España, hasta llegar a la competición atroz actual en la que el Big Data y el Marketing Intelligence pueden aportar tanto a la eficiencia de las acciones de una compañía. Quería, por ello, compartir con todos vosotros el modelo de Mallorca Wifi y cuál es su relación con el mundo del Big Data.

Fuente: Mallorca Wifi
Fuente: Mallorca Wifi

Una de las cosas que llama la atención cuando le escuchas describir qué es Mallorca Wifi es su propuesta de valor como “agencia de medios”. Sí, Mallorca Wifi es una agencia de medios. Una agencia, eso sí, que creo, no tiene mucha competencia. ¿Por qué? Por su capacidad de segmentar, personalizar la oferta, hilar bien fino y sobre todo, hacer un marketing centrado en el consumidor.

Os he hablado en anteriores ocasiones de lo que puede aportar el Big Data al mundo del marketing actual. Seguimos, aún hoy en día, y a pesar de las grandes bondades tecnológicas existentes, en un marketing masivo, en el que impactamos a muchas personas a la vez, con la esperanza matemática que solo por estadística, “alguno caerá”. El problema de este modelo, no solo es que su concepción se hizo en una época en la que las capacidades tecnológicas eran bastante limitadas y tenía bastante sentido, sino que es que además, los consumidores estamos muy cansados de los modelos publicitarios actuales. Son totalmente invasivos, nos generan una mala experiencia de usuario y consumidor, por lo que resultan poco eficientes para las marcas.

Sin embargo, las empresas siguen todavía apostando por esos modelos. Quizás es que los puestos de dirección de marketing necesiten también ese espíritu emprendedor por soportes que tengan un nuevo modelo. Nuevos formatos en los que el consumidor sea consecuencia y no causa; es decir, no vayamos a donde haya consumidores, sino traigamos a los consumidores a un nuevo esquema de relación. Un esquema en el que los impactos publicitarios tengan valor y no les resulte incómodo.

Pues bien, aunque pueda sorprender, un nuevo soporte de valor y centrado en el consumidor es Mallorca Wifi. Sí, un operador de infraestructura Wifi, es, bajo mi punto de vista, uno de los soportes más eficienes que puede haber. Y, hasta donde sé, un modelo sin precedentes en España. ¿Qué hace Maurici con Mallorca Wifi? Básicamente ofrecer a un visitante de Palma (extendiendo ahora su ámbito de actuación por toda la isla) wifi gratis sin solicitarle datos a cambio. Sin que tengamos que introducir datos de registro tan molestos como anticuados para las capacidades tecnológicas actuales. Y totalmente gratis, insisto. Y sin financiación pública.

Aquí es cuando le pregunté a Maurici una cosa tan básica como: “Entonces, ¿cómo ganáis dinero?”. Pues básicamente introduciendo la posibilidad para las marcas de “patrocinar” la conexión al Wifi en puntos estratégicos de Palma de Mallorca. Piensen en ustedes mismos, cuando no quieren consumir ese recurso tan escaso como son los datos, y prefieren conectarse a una wifi gratuita que encima no le pide datos personales. La relación que estableceré con esa empresa, esa marca, que le da Wifi gratis, será bastante afectiva, y estará usted muy agradecido por ello. En definitiva, convertir una infraestructura Wifi en un nuevo soporte publicitario. Bajo mi punto de vista, un modelo totalmente innovador y de valor. Que tardarán todavía muchas empresas en entender, pero que aquellas que lo hagan, le sacarán importantes beneficios, por el engagement que genera con el usuario.

Fuente: Mallorca Wifi
Fuente: Mallorca Wifi

¿Y qué tiene que ver todo esto con el Big Data? Pues bastante. De hecho, Maurici está ahora explorando la posibilidad de abrir una nueva línea de trabajo en torno a ello. Piensen ustedes que todos aquellos dispositivos móviles que lleven la Wifi encendido (que son prácticamente todos), tratan de conectarse a los puntos de acceso que tiene Mallorca Wifi. En ese momento, se obtienen muchos datos sobre el dispositivo, pudiendo llegar a caracterizar a ese usuario por el idioma del móvil (de dónde viene), cómo se desplaza (por tener intercalados los puntos de acceso), a qué velocidad lo hace, si acude a esos puntos con bastante regularidad, si lo hace siempre acompañado de otro dispositivo móvil, a qué hora lo hace, etc.

Si esos datos son anonimizados, y agregados en su conjunto, la capacidad de Mallorca Wifi de diseñar y lanzar una línea de negocio basado en datos de marketing contextual es bastante potente. Y, bajo mi punto de vista, otro caso más de lo que considero un movimiento brillante: dotarse de una infraestructura (wifi en este caso) que sea capaz de generar datos, que luego resulten de valor para diferentes propuestas de valor. Lo mismo que ocurre con una tarjeta de fidelización, un CRM o las líneas de telecomunicación tradicionales que tanto han trabajo con el Big Data.

El marketing contextual inteligente, se hace así posible, gracias a los datos que genera una red inteligente como esta. Todo ello, respetando al usuario, su privacidad y la ley. Brillante, y realmente inteligente. Mi más sincera enhorabuena y ánimo a personas emprendedoras que apuestan por la innovación y el dato como futuras palancas de desarrollo. Mallorca Wifi, una agencia de medios sobre una red Wifi gracias al Big Data.

R vs. Python para el análisis de datos en proyectos de Big Data

Cuando abrimos este blog, dedicamos una entrada a comparar diferentes herramientas analíticas. En su día, hablamos de SAS, R y Python, mostrando la experiencia que tenía en el manejo de las tres de nuestro profesor Pedro Gómez. Desde entonces, han aparecido varias noticias y reflexiones comparando especialmente dos de ellas: R y Python. DataCamp publicó hace unos meses la infografía que ponemos al final de este artículo comparando ambas.

El análisis de datos, obviamente, es una parte nuclear de cualquier proyecto de Big Data. El análisis de los diferentes flujos de datos y su combinación para obtener nuevos patrones, tendencias, estructuras, etc. se puede realizar con diferentes herramientas y lenguajes de programación. La elección de estas últimas es una cuestión en muchas ocasiones de gustos, de preferencias, pero también en otras ocasiones, objeto de detallados análisis.

La infografía que hoy nos acompaña agrega múltiples fuentes que comparan R y Python. Por eso mismo, nos ha resultado interesante para compartir con vosotros. Compara ambos lenguajes desde una perspectiva de la Ciencia de Datos, o Data Science, disciplina que ya describimos en una entrada anterior.  Las debilidades y fortalezas que se muestran, así como sus ventajas y desventajas, puede ayudaros a la hora de seleccionar el mejor lenguaje de programación para vuestro problema dado. Y es que, como solemos decir, cada proyecto, cada problema, cada contexto de empresa, es diferente, por lo que dar sugerencias absolutas suele resultar complicado.

Dado que suele ser un factor bastante determinante, de entre las múltiples características para la toma de decisión, cabe destacar que ambos lenguajes gozan de una amplia comunidad de desarrollo. En este sentido, ninguna diferencia. Quizás lo que mejor caracteriza a cada uno de los lenguajes, es la frase que destacan los que elaboraran la infografía:

Python is often praised for being a general-purpose language with an easy-to-understand syntax and R’s functionality is developed with statisticians in mind, thereby giving it field-specific advantages such as great features for data visualization”

Os dejamos con la infografía para que podáis por vuestra seguir conociendo mejor cada uno de los dos: R vs. Python o Python vs. R. Seguiremos de cerca la evolución de ambos.

¿Qué hace un “Científico de datos” y por qué es una profesión tan sexy?

Mucho se ha escrito la que aparentemente va a ser la profesión más sexy del Siglo XXI. Más allá de titulares tan rimbonbantes (digo yo, que quedan muchas cosas todavía que inventar y hacer en este siglo :-), lo que viene a expresar esa idea es la importancia que va a tener un científico de datos en una era de datos ubicuos, coste de almacenamiento, procesamiento y transporte prácticamente cero y de constante digitalización. La práctica moderna del análisis de datos, lo que popularmente y muchas veces erróneamente se conoce como “Big Data”, se asienta sobre lo que es la “Ciencia del Dato” o “Data Science”.

En 2012, Davenport y Patil escribían un influyente artículo en la Harvard Business Review en la que exponían que el científico de datos era la profesión más sexy del Siglo XXI. Un profesional que combinando conocimientos de matemáticas, estadística y programación, se encarga de analizar los grandes volúmenes de datos. A diferencia de la estadística tradicional que utilizaba muestras, el científico de datos aplica sus conocimientos estadísticos para resolver problemas de negocio aplicando las nuevas tecnologías, que permiten realizar cálculos que hasta ahora no se podían realizar.

Y va ganando en popularidad en los últimos años debido sobre todo al desarrollo de la parte más tecnológica. Las tecnologías de Big Data empiezan a posibilitar que las empresas las adopten y empiecen a poner en valor el análisis de datos en su día a día. Pero, ahí, es cuando se dan cuenta que necesitan algo más que tecnología. La estadística para la construcción de modelos analíticos, las matemáticas para la formulación de los problemas y su expresión codificada para las máquinas, y, el conocimiento de dominio (saber del área funcional de la empresa que lo quiere adoptar, el sector de actividad económica, etc. etc.), se tornan igualmente fundamentales.

Pero, si esto es tan sexy ¿qué hace el científico de datos? Y sobre todo, ¿qué tiene que ver esto con el Big Data y el Business Intelligence? Para responder a ello, me gusta siempre referenciar en los cursos y conferencias la representación en formato de diagrama de Venn que hizo Drew Conway en 2010:

Diagrama de Venn del
Diagrama de Venn del “Científico de datos” (Fuente: Drew Conway)

Como se puede apreciar, se trata de una agregación de tres disciplinas que se deben entender bien en este nuevo paradigma que ha traído el Big Data:

  • Hacking skills” o “competencias digitales con pensamiento computacional: sé que al traducirlo al Español, pierdo mucho del significado de lo que expresa las “Hacking Skills”. Pero creo que se entiende bien también lo que quieren decir las “competencias digitales”. Estamos en una época en la que constante “algoritmización” de lo que nos rodea, el pensamiento computacional que ya hay países que han metido desde preescolar, haga que las competencias digitales no pasen solo por “saber de Ofimática” o de “sistemas de información”. Esto va más de tener ese mirada hacia lo que los ordenadores hacen, cómo procesan datos y cómo los utilizan para obtener conclusiones. Yo a esto lo llamo “Pensamiento computacional”, como una (mala) traducción de “Computation thinking”, que junto con las competencias digitales (entender lo que hacen las herramientas digitales y ponerlo en práctica), me parecen fundamentales.
  • Estadística y matemáticas: en primer lugar, la estadística, que es una herramienta crítica para la resolución de problemas. Nos dota de unos instrumentos de trabajo de enorme valor para los que trabajamos con problemas de la empresa. Y las matemáticas, ay, qué decir de la ciencia formal por antonomasía, la que siguiendo razonamientos lógicos, nos permite estudiar propiedades y relaciones entre las variables que formarán parte de nuestro problema. Si bien las matemáticas se la ha venido a conocer como la ciencia exacta, en la estadística, nos gusta más jugar con intervalos de confianza  y la incertidumbre. Pero, por sus propias particularidades, se nutren mutuamente, y hace que para construir modelos analíticos que permitan resolver los problemas que las empresas y organizaciones nos planteen, necesitemos ambas dos.
  • Conocimiento del dominio: para poder diseñar y desarrollar la aplicación del análisis masivo de datos a diferentes casos de uso y aplicación, es necesario conocer el contexto. Los problemas se deben plantear acorde a estas características. Como siempre digo, esto del Big Data es más una cuestión de plantar bien los problemas que otra cosa, por lo que saber hacer las preguntas correctas con las personas que bien conocen el dominio de aplicación es fundamental. Por esto me suelo a referir a “que hay tantos proyectos de Big Data como empresas”.  Cada proyecto es un mundo, por lo que cuando alguien te cuente su proyecto, luego relativízalo a tus necesidades 😉

Estas tres cuestiones (informática y computación, métodos estadísticos y áreas de aplicación/dominio), también fueron citadas por William S. Cleveland en 2001 en su artículo “Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics“. Por lo tanto, no es una concepción nueva.

Este Diagrama de Venn ha ido evolucionando mucho. Uno de los que más me gustan es éste, que integra las ciencias sociales. Nuestro Programa Experto en Análisis, Investigación y Comunicación de Datos precisamente busca ese enfoque.

La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)
La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)

Calidad de datos: mucho más que una acción puntual

(Artículo escrito por David Guerrero, profesional del sector financiero y profesor del Programa de Big Data y Business Intelligence de la Universidad de Deusto)

En la sociedad de la información actual las empresas manejan cantidades ingentes de datos, tanto propios como ajenos. Cada vez es más habitual ver reportes obtenidos a partir de diversas técnicas analíticas, y cuadros de mando generados por medio de sistemas de reporting para alta dirección.

A partir de estos informes se toman decisiones que en muchas ocasiones pueden ser cruciales para el devenir de la empresa. Entonces, es de suponer, que estos informes están hechos tomando como base una información de altísima calidad. Pero, ¿realmente lo están?

La calidad de la información o Data Quality en inglés, está cobrando mayor relevancia en los procesos de las organizaciones. Buena parte de culpa la tienen los reguladores, que están empezando a exigir políticas y procedimientos que aseguren unos niveles óptimos de calidad de los datos: Master Data Management (MDM).

No disponer de una política de calidad de datos implica que todos los equipos que vayan a trabajar la información tengan que invertir tiempo en limpiar los datos antes de poder explotarlos para otros propósitos. Además, se corre el riesgo de que en ese proceso de limpieza se generen discrepancias de información si no se adoptan los mismos criterios a la hora de realizar las adaptaciones oportunas.

Las cifras hablan por sí solas, y los expertos coinciden en que 2016 será un año de gran crecimiento en la industria del Data Quality.

  • 78% de las empresas tienen problemas en los envíos de email
  • 83% de las empresas están luchando contra silos de datos
  • 81% de los retailers no pueden apalancarse en los programas de fidelidad debido a información inexacta
  • 87% de las instituciones financieras tienen dificultades para obtener inteligencia confiable
  • 63% de las compañías todavía no tienen un enfoque coherente de la Calidad de Datos

En definitiva, para que las organizaciones puedan obtener valor de sus datos, deben primero poner orden en la gestión, tratamiento y conservación de la información. Los datos son y deben ser la materia prima que guíe la toma de decisiones de nuestra empresa, y para ello deben presentar en el formato esperado, en el momento preciso, para las personas que lo necesitan y con la máxima calidad.

Fuente: http://www.datasciencecentral.com/profiles/blogs/will-2016-be-the-year-you-clean-up-your-dirty-data

Por qué hablamos del Business Analytics y no solo de Business Intelligence

El Business Intelligence (Inteligencia de Negocios) es un conjunto de métodos y técnicas que han venido empleándose desde hace años en diferentes sectores para ayudar en la toma de decisiones. Básicamente consiste en el procesamiento de datos para obtener información resumida y sintetizada de todos ellos.

Lo que ha ocurrido es que en los últimos años ha aparecido un nuevo paradigma, que hemos venido a denominar Big Data. Un paradigma que se puede describir por sus cinco elementos que lo caracterizan: Volumen (gran cantidad de datos), Variedad (diferentes formatos, estructuras, etc. de datos), Velocidad (gran velocidad a la que los generemos), Variabilidad (datos no muy estáticos, sino que cambian con cierta frecuencia) y Valor (el gran potencial de generación de valor que tienen para las organizaciones).

Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/2014/02/bigdata-v5-lens.jpg)
Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/2014/02/bigdata-v5-lens.jpg)

Este nuevo paradigma, junto con los métodos avanzados de procesamiento estadístico y matemático (incertidumbre y exactitud) de datos, enriquecen y permiten una toma de decisiones aún más estratégica e informada. Ahora, una empresa no solo puede resumir el pasado (enfoque Business Intelligence), sino que también puede establecer relaciones y comparaciones entre variables para tratar de adelantarse al futuro (Business Analytics).

Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)
Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)

Es decir, que evolucionamos del Business Intelligence tradicional al Business Analytics gracias al nuevo paradigma que trae el Big Data y los métodos de procesamiento de datos más avanzados. Con estos servicios de Business Analytics, básicamente, a una compañía, lo que podemos ofrecerle son dos tipos de explotaciones de datos:

  • Informar: ver lo que ha ocurrido en el pasado, y tomar decisiones reactivas (Business Intelligence).
  • Predecir: inferir lo que puede ocurrir en el pasado, y tomar decisiones proactivas (Business Analytics)

A partir de estos principios básicos de lo que el Business Analytics es, ya pueden ustedes imaginarse el gran potencial que tiene. Como decía al comienzo, el Business Analytics trae una inteligencia a los negocios enriquecido a través de modelos estadísticos que permiten descubrir nuevas estructuras, patrones, relaciones entre variables, etc. Esto, sumado a la era de la ingente cantidad de datos, hace que las compañías se puedan beneficiar de todo ello en muchas áreas: sanidad, educación, marketing, producción, logística, etc.

Para que se hagan ustedes a la idea, y puedan llevarlo a un plano práctico de su día a día, puede responder a preguntas como:

  • ¿Cómo puedo descubrir más información relevante sobre mis clientes? Datos como los drivers que le llevan realmente a comprar, cómo se relacionan mis clientes entre ellos, qué opiniones son las que han sido clave para la toma de decisión de compra, etc.
  • ¿Qué pasaría si cambio el precio de mis productos/servicios? Es decir, disponer de un análisis de sensibilidad de una variable (precio) respecto a su impacto en otra (ventas totales de ese producto o sobre otros), de manera que puedo ver la relación entre las mismas.
  • ¿Cómo puedo reducir la tasa de abandonos de mis clientes? Es decir, construir un modelo de propensión a la fuga, para saber qué puntos o acciones son las que pueden llevar a un cliente a abandonarme. De esta manera, a futuro, tendría más probabilidad de encontrar clientes que pudieran marcharse de la compañía.
  • ¿Cómo puedo identificar a los clientes más rentables? No desde el punto de vista de las ventas totales, sino del valor que extraigo de cada uno de ellos (entendiendo valor como margen de beneficio)
  • ¿Cómo puedo detectar fraude? Analizando el histórico de valores que van tomando las variables para los casos de éxito (no hay fraude, se paga a tiempo, no hay insolvencias, etc.) y los de fracaso (fraudes, impagos, etc.), se pueden construir modelos que relacionen las variables que frecuentemente están asociados a los casos de fracaso, y así poder anticiparse a futuro.
  • etc.

Para poder hacer esto, como pueden imaginarse, los métodos de descubrimiento de información resultan fundamentales. Bueno, partiendo de la base que lo más importante es que tengamos bien preprocesada nuestra información, porque sin eso, cualquier algoritmo fallará. Esto es precisamente lo que hablamos al introducir los ETL y la importancia de la calidad de datos y su preprocesado.

Los métodos a utilizar son variados y a veces uno no sabe cuál de ellos va a dar mejores resultados o cuál de ellos se adecúa a lo que yo realmente estoy buscando. En el blog Peekaboo publicaron un cheat sheet (una “chuleta” de toda la vida) que utilizo siempre en los cursos introductorios a Business Analytics, dado que es bastante expreisva.

Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)
Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Más que una chuleta, es un flujograma que terminará en el método que deberíamos utilizar para el objetivo que perisgamos. Como podéis ver, simplemente navegando por las preguntas que se van realizando a través del flujograma, puedo llegar yo a saber qué familia de tratamiento de datos es la más adecuada para los objetivos que persigo.

Como podéis comprobar, el punto de partida es tener una muestra de 50 instancias/observaciones. A partir de ahí, o bien debemos buscar más, o bien poder seguir navegando hasta encontrar el método más adecuado. ¿Qué buscamos?

  • ¿Predecir una cantidad numérica? Aquí los métodos de regresión serán tu solución.
  • ¿Predecir una categoría? Los clasificadores pueden servir para alcanzar estos objetivos.
  • ¿Agrupar mis instancias/observaciones por un comportamiento común? Las técnicas de clusterización me permiten a mí agrupar observaciones por patrones similares.
  • ¿Observando la estructura de mi conjunto de datos? Las técnicas de reducción de la dimensionalidad son las que me pueden servir para este objetivo.

En definitiva, ya podéis observar cómo la ayuda a la toma de decisiones estratégicas (el Business Intelligence tradicional), se ha visto enriquecido gracias a dos nuevas dimensiones: una tecnológica (el Big Data) y otra matemática/estadística. ¿A qué esperas para sacar valor del Business Analytics en tu organización?

La aplicación del Big Data y Business Intelligence en la creación de valor para el cliente

(Entrada escrita por David Ruiz de Olano, Director de Programas en Deusto Business School)

Asistiendo a una jornada de Alex Rayón, es cada vez más evidente que la forma de hacer marketing tiene que cambiar. Alex es director del seminario de Big Data & Business Intelligence (BDBI), organizado entre la Facultad de Ingeniería de Deusto y Deusto Business School, y profesor e investigador en la Universidad de Deusto sobre Marketing y Big Data y muy activo en esta área.

Desde el punto de vista de marketing, tradicionalmente el proceso del marketing (marketing estratégico y marketing operacional) se puede ilustrar con la siguiente figura:

El proceso de marketing (Fuente: elaboración propia)
El proceso de marketing (Fuente: elaboración propia)

Evidentemente en el análisis de las 5C, todos los datos que se puedan traducir en información ayudarán a tener un mejor diagnóstico de nuestro entorno.

Pero lo que me interesa de esta jornada es la aplicación del BDBI en la creación de valor para el cliente. Una de las claves en el marketing es la segmentación (¿quién es mi cliente?). Tradicionalmente las empresas identifican quién es su público objetivo, basado en parámetros demográficos, sociales, económicos, comportamiento, etc… de un mercado más general. Con esta identificación, buscan cuáles son sus problemas, necesidades, etc… escogen un público determinado y se posicionan en ese nicho.

Como decía Kotler, gurú del marketing del siglo pasado – como pasa el tiempo-, si resuelves el problema de segmentación, automáticamente tendrás las respuestas para definir tus 4Ps (producto, promoción, lugar y precio) y te saldrán automáticamente. Porque una vez sabes quién es tu potencial cliente, ya sabes qué producto tienes que ofrecerle, qué ventajas tiene que tener sobre los competidores, dónde está y cómo poder llegar a él, qué precio está dispuesto a pagar. Teniendo muy claro quién es mi cliente, cuántas horas de reuniones nos podríamos ahorrar discutiendo sobre el precio…

Evidentemente BDBI tiene mucho que decir en la segmentación. Pero no tanto a priori, si no a posteriori. Con la cantidad de datos que las empresas tienes sobre nosotros, ya no hace falta hacer hipótesis de quién es nuestro cliente: basta mirar en los datos e identificarlos.

Gracias a las herramientas de BDBI (que por cierto, ni son caras ni difíciles de usar), basta un poco de curiosidad, jugar con los datos y empezar a ver correlaciones. ¿Hay alguna relación entre los clientes que compran 2 mismos productos? ¿Es nuestra segmentación inicial la que se refleja en las compras de nuestros clientes y las ventas de nuestros productos? ¿A qué horas del día hay un comportamiento de compra parecido? Por ejemplo, en Tableau, una empresa que intenta facilitar la visualización de BDBI, podéis ver un caso sobre la segmentación y el hecho de cuestionarnos nuestras hipótesis iniciales.

Esta aproximación que aparentemente parece que es sólo válida para comercios B2C online se pueden extraer de otros lugares. El BDBI no es exclusivo de negocios online, nacidos en la era digital. Efectivamente, lo tienen más fácil, pero todas las empresas pueden empezar a explorar. Quizás sea ese uno de los retos para la implementación del BDBI en los negocios que no vienen del mundo online. Como comentaba Alex, un 60%- 80% de los esfuerzos para una estrategia de BDBI se centran en los datos y en el ETL (Extracción, Transformación y carga o Load), encontrarlos entre las diferentes partes del negocio (ERPs, CRM, departamento financiero, controller, etc…), limpiarlos y ponerlos bonitos. Aunque Alex menciona 4 etapas y el tiempo que se va a dedicar a cada etapa:

  • Etapa 1: Cargar datos (hasta un 80%)
  • Etapa 2: Preguntas (5%)
  • Etapa 3: Modelo estadístico/analítico (5%)
  • Etapa 4: Visualización de resultados (10%)

Quizás mi visión sería empezar por las preguntas y terminar en el modelo estadístico. Pero lo que estoy seguro es que una de las grandes aportaciones del BDBI al marketing es en el tema de segmentación, pasando de una segmentación clásica a una clusterización (que hasta ahora era más complicado). La maravilla del BDBI es que no tenemos que pensar cuáles son las variables para hacer el cluster, las propias herramientas nos dirás qué cluster son los que representan mejor a los clientes y qué características. También, incluso nos permitirá saber cuál es la probabilidad de que un cliente de telefonía abandone su compañía y qué características tiene o saber la características del cliente de un banco portugués que no compra un producto y el proceso comercial asociado. Y por otra parte, ayudarnos a hacer preguntas que hasta ahora ni nos habíamos imaginado.

Lo que está claro, es que si una empresa quiere sobrevivir en los próximos 10 años, de una forma u otra, el BDBI le impactará de alguna manera. La pregunta es ¿espero a que me obliguen o empiezo a explorar ya? La creación de valor en mi organización a través del Big Data y Business Intelligence está a mi disposición.