Todas las entradas de: Álex Rayón

La Medicina 5P: sanidad y Big Data

Watson, un sistema inteligente desarrollado por IBM, se hizo popular cuando se presentó al concurso Jeopardy y ganó a los dos mejores concursantes de la historia del programa. Es un programa basado en el «formato trivial«: programas que requieren de unas preguntas, y un conjunto de respuestas cerradas. Watson, con una capacidad descomunal para replicar muchas de las singularidades de los humanos (formulación de hipótesis, búsqueda de evidencias, comparación de posibles respuestas, selección de la mejor respuesta en base a diferentes parámetros, tratamiento de información no estructurada, etc.), dejó al mundo a la puerta de los nuevos sistemas basados en grandes cantidades de datos.

Pero esta herramienta no fue diseñada y desarrollada para ganar concursos televisivos. Llegó para aportar valor en diferentes sectores y actividades económicas. Primero, fue el sector sanitario, que es el que nos va a ocupar hoy en este recorrido por las posibilidades que trae el Big Data y el Business Intelligence.

Watson fue solicitada por la empresa de servicios sanitarios WellPoint y el Memorial Sloan-Kettering Cancer Center para proporcionar servicios de diagnóstico. Es decir, ayudar en una de las tareas más singulares del ser humano: detectar problemas. Watson pronto comenzó a mostrar sus resultados. Mejoró la predicción desde un 50% hasta el 90%.

Watson como apoyo al diagnóstico de un médico (Fuente: https://tctechcrunch2011.files.wordpress.com/2015/07/11825174446_ed8992056f_k.jpg?w=738)
Watson como apoyo al diagnóstico de un médico (Fuente: https://tctechcrunch2011.files.wordpress.com/2015/07/11825174446_ed8992056f_k.jpg?w=738)

Watson aporta al campo sanitario muchas ventajas. Especialmente, porque a un servicio y profesión como las del ámbito sanitario, viene muy bien el disponer de muchos datos de evidencias pasadas, casos parecidos (misma tupla «pregunta»-«respuesta»), lectura de conocimiento no estructurada (artículos científicos sobre evidencias para la cura de enfermedades, etc.) Y es que al final, la decisión sobre el mejor tratamiento es una mezcla de todas esas capacidades.

Presentado este contexto con Watson, podríamos así preguntarnos: ¿cómo ha cambiado entonces el mundo sanitario gracias al Big Data? Pues de manera considerable. Especialmente, por la eficiencia que aporta a los sistemas de salud a la hora de la presentación del servicio al paciente (obviamente lo más importante), tanto en términos de eficiencia como de buen resultado.

En la cadena de valor de los sistemas sanitarios, al final, hay muchos agentes a los que esta gran cantidad de datos les podría aportar mucho valor en su día a día:

Agentes de un Sistema Sanitario (Fuente: http://3.bp.blogspot.com/-kV428JAK1SY/TggNPktCI1I/AAAAAAAAAJA/NsgDhYy8kyA/s1600/Hospital.png)
Agentes de un Sistema Sanitario (Fuente: http://3.bp.blogspot.com/-kV428JAK1SY/TggNPktCI1I/AAAAAAAAAJA/NsgDhYy8kyA/s1600/Hospital.png)

Pacientes, gestores, proveedores de servicios auxiliares y, como no, los cuidadores (médicos, cirujanos, enfermeros, etc.), podrían beneficiarse de la eficiencia y ventajas que trae obtener insights de los datos. Aquí es donde varios expertos de la materia hablan de la futura Medicina 5P, el cruce entre la sanidad y Big Data:

  • Personalizada: el eterno sueño de la medicina. Poder dar un tratamiento singular al diagnóstico y necesidades concretas de cada uno de los pacientes. Con el Big Data, la cantidad ingente de datos, y el contexto que describe a cada uno de los pacientes, esto es posible. Solo es cuestión de «codificar» en datos lo que hasta ahora no hemos hecho, en cuestión de aspectos clínicos como estado de ánimo, emociones, expresión del dolor, etc.
  • Predictiva: se trataría de pasar de un modelo reactivo de sanidad a otro modelo activo y predictivo mucho más eficiente en el que el sistema sanitario y sus cuidadores, advierte directamente al paciente de situaciones potencialmente peligrosas. La estadística al servicio de nuestra salud.
  • Preventiva: se trataría de prevenir la aparición de enfermedades, basada en un conjunto de actuaciones médicas y el análisis de patrones y datos históricos. Ya sabemos esa máxima de «Es mejor prevenir que lamentar», que en medicina cobra más sentido que en cualquier otra área de la vida.
  • Participativa: la importancia que todos los agentes de los que hemos hablado anteriormente estén bien coordinados. El trabajo con pacientes no solamente tiene impacto en los aspectos terapéuticos, sino también en la gestión y los procesos, de manera que no escape detalle alguno (esto en España, donde tenemos una fragmentación de la organización del Sistema Sanitario importante, con 17 sistemas, vendría realmente bien).
  • Poblacional: para toda la población. La posibilidad de hacer más eficiente el sistema podría traer que con los mismos recursos, pudiéramos atender a un mayor volumen de población. En definitiva, no dejar a nadie sin atención.

Tampoco esta labor será sencilla. Mucho del conocimiento sanitario se encuentra expresado en fuentes no estructuradas. Es decir, sin ningún tipo de estructuración en matrices de datos. Las tecnologías para procesar este conocimiento es bastante más complicada y costosa que la que procesa datos estructurados.

Por otro lado, mucho de los tratamientos sanitarios funcionan en un contexto dado, pero no en otros. Esto hace que la codificación en datos de este contexto resulte vital. Y a su vez, genera más complejidad tanto de generación y gestión de datos, como de procesamiento y posterior puesta en valor. Además, la complejidad de los datos (desde los genóminos, pasando por biomarcadores, así como aspectos de índoles social) es importante. Su organización, vital para sacarle valor a los datos.

Como suele ocurrir con el Big Data, esto no está exento de riesgos. La recogida de los datos de comportamiento de los pacientes con sensores, genera datos. ¿Y dónde quedan? ¿Y de quién son? Son aspectos que, como suele ocurrir, la ley aún no contempla. Es algo que en anteriores ocasiones ya he comentado. Los aspectos sociales y de comunicación resultan críticos aquí. No debemos olvidar los aspectos de privacidad entonces. Y por último, el «profiling» de clientes y las posibilidades de toma de decisiones ajenas a la ética que trae. ¿No atenderé a un cliente que a tenor de los datos está en un riesgo alto? ¿No cubriré con una póliza de seguro a una persona con muchas probabilidades de fallecer? Pueden resultar cuestiones obvias, pero no está de menos sacarlas.

Ya ven que son muchos sectores los que traen posibilidades y retos con el Big Data. El campo sanitario no es esquivo a ello. La sanidad y Big Data de la mano para una mejor sociedad y bienestar de todos.

Privacy y Security by design: ¿qué son y por qué son relevantes?

En esta era de la personalización, del consumidor exigente, una cosa que obviamos es que sí, las empresas saben más de nosotros que nunca. Y quieren saber cada vez más. Según el estudio The Talent Dividend, elaborado por la revista MIT Sloan Management Review y la empresa de software analítico SAS, basado en entrevistas a 28 ejecutivos de firmas internacionales y encuestas a 2.719 empleados, el 50% de las compañías asegura que entre sus prioridades está aprender a transformar los datos en acciones de negocio.

¿Sabemos realmetne lo que hacen las empresas con nuestros datos e información? ¿Cómo la protegen? ¿Qué hacen con ella? ¿La venderán? ¿Cumplen con lo que nos dicen? Datos que vamos dejando sin daros cuenta cada vez que hacemos una búsqueda en Google, cada vez que compartimos un tweet, un post, una fotografía en Instagram o un comentario en Facebook. Por poner solo varios ejemplos.

Cuando de forma voluntaria accedes a compartir datos con tus apps, parece de justicia, que el uso de esa información te traiga ciertos beneficios. De ahí, podemos decir que es importante que te digan qué harán con esa información. Por todo ello, aparecen las preocupaciones por la privacidad. En Europa, es algo que nos preocupa. Por eso también saber dónde dejamos esos datos: si es un proveedor americano, ¿está en Europa también? ¿o los manda para EEUU automáticamente?

Para resolver todas estas inquietudes y preguntas abiertas, el grupo de trabajo del artículo 29, un organismo consultivo de la Comisión Europea, se dedica a efectuar recomendaciones en materia de privacidad.

Grupo de Trabajo del Artículo 29 (Fuente: http://ec.europa.eu/justice/data-protection/article-29/index_en.htm)
Grupo de Trabajo del Artículo 29 (Fuente: http://ec.europa.eu/justice/data-protection/article-29/index_en.htm)

El pasado 2014, elaboró una opinión (Dictamen 8/2014), sobre los riesgos a la privacidad de este mundo conectado. Esas líneas de reflexión, posiblemente generen regulaciones futuras, y se centraban en dos elementos: «privacy by design» y el «security by design«. ¿Qué es esto?

Básicamente, se trata de un enfoque que aboga por la privacidad y la necesidad de tener en cuenta la seguridad en el mismo momento del diseño de los objetos inteligentes. Es decir, en lugar de tener que hacer este ejercicio de protección y seguridad a posteriori, hagámoslo antes de fabricar los objetos.

Este enfoque está ganando especial relevancia ante el previsible auge de los objetos conectados a Internet. Es decir, el paradigma Internet of Things. Cuando estemos interaccionando a través de Internet con «todos» los objetos que nos rodean (el microondas, el coche, el teléfono móvil, el autobús, la tarjeta de crédito, etc.), obviamente, la cantidad de datos que vamos a generar va a ser aun mayor que la actual. Es por ello, que tenemos «Big Data» para rato. Pero también debemos tener preocupación por la privacidad de los datos que generamos, y sobre todo, hacerlo en un marco de seguridad.

Pues bien, este Grupo de Trabajo del artículo 29, habla del Privacy y Security by design como una forma de enfocar el diseño y desarrollo de los objetos conectados a Internet de los que nos rodearemos a futuro. Y me ha parecido especialmente relevante citar estas cuestiones debido a que el software que deberemos desarrollar para poner en valor esos datos, deberá cumplir estos principios también.

¿De qué estamos hablando? Básicamente, de la protección de datos y de aspectos relacionados como:

  • El Dictamen plantea tres escenarios donde se debe prestar especial atención:
    • Tecnología para llevar puesta (wearable computing)
    • Dispositivos capaces de registrar información relacionada con la actividad física de las personas
    • La domótica
  • Los objetos que recogen datos relacionados con la salud y el bienestar del ciudadano, pese, a ser anónimos en un principio, pueden revelar aspectos específicos de hábitos, comportamientos y preferencias, configurando patrones de la vida de las persona (con los consiguienres riesgos morales que puede suponer).
  • Recomendaciones de utilidad en el desarrollo de estándares tecnológicos en el ámbito del Internet de las Cosas (y así evitar problemas para el usuario a la hora de querer cambiar de un contexto a otro)
  • Alerta que el usuario puede perder el control sobre la difusión de sus datos si la recogida y el procesamiento de los mismos se realiza de manera transparente o no (la importancia de tener claro el marco donde serán tratados esos datos)
  • Manifestar claramente que la información personal sólo puede ser recogida para unos fines determinados y legítimos

Considerando estos aspectos antes de empezar el diseño y fabricación de un objeto, el dictamen asegura que evitaríamos muchos problemas y retos legales y éticos que tenemos en la actualidad.

Ya ven, de nuevo, que la era del Big Data, además de que nos vaya a dar mucho trabajo a futuro, también chocará con los marcos normativos. Por eso es importante también considerar enfoques tan novedodos como el «Privacy y Security by design«, y así evitar limitaciones de diseño y desarrollo a futuro, chocando con el ámbito jurídico.

La analítica avanzada en tiendas, vacas y ascensores: la predicción al servicio de la productividad

Leyendo tres noticias de sectores diferentes (lineal de productos, rendimiento de las vacas y seguridad en ascensores), uno puede darse cuenta de la capacidad que tienen las tecnologías habilitantes Big Data e Internet of Things para aumentar los resultados y las posibilidades de un negocio dado.

Fuente: http://cincodias.com/cincodias/2016/01/07/pyme/1452160715_268138.html
Fuente: http://cincodias.com/cincodias/2016/01/07/pyme/1452160715_268138.html
Fuente: http://www.elconfidencial.com/tecnologia/2015-06-05/microsoft-inteligencia-artificial-big-data-vacas_869589/
Fuente: http://www.elconfidencial.com/tecnologia/2015-06-05/microsoft-inteligencia-artificial-big-data-vacas_869589/
Fuente: http://economia.elpais.com/economia/2015/10/27/actualidad/1445970291_443260.html
Fuente: http://economia.elpais.com/economia/2015/10/27/actualidad/1445970291_443260.html

Hace ya 10 años, fabricantes de electrodomésticos nos hablaban sobre la posibilidad de hacer pedidos con carácter predictivo sobre la base de tu consumo. Pensábamos en ello como algo irreal. A mí me cogió esa época como estudiante de Ingeniería en Informática. ¿Meter Internet en objetos físicos? Nos parecía algo irreal.

Pero hoy, estos objetos conectados e inteligentes, son toda una realidad. Para que un objeto sea inteligente, debe ser capaz de monitorizar. Es decir, sensores y datos externos entiendan el entorno y sean capaces de informar de los cambios. Y lo que ha ocurrido en estos últimos años son dos cosas: Por un lado que las tecnologías han ido madurando, hasta los sistemas de análisis de datos, motores de reglas para generar automatizaciones y toma de decisiones actuales (popular y ambiguamente denominados «Big Data«). Y, en segundo lugar, la generalización de las interfaces o API que han permitido la definición de estándares y los «things» u objetos, ahora se interconectan, hablan y trabajan solidaria y colegidamente.

Esta nueva revolución industrial, según General Electric, será capaz de producir un incremento del 1% en la eficiencia de las empresas. Y eso, aún hoy en día, en el que el 99% de los objetos del mundo, no están todavía conectados a Internet, por lo que no pueden beneficiarse de todas estas eventuales mejoras. Por ello, CISCO, en su informe «Internet de las cosas y la evolución de Internet«, alerta que en 2020 habrá más de 36.000 millones de dispositivos inteligentes conectados en lo que se ha venido a denominar Internet of Everything.

Todo esto, para el «mundo Big Data» es una oportunidad muy importante. Se estima que menos del 1% de la información derivada de la conectividad de los objetios se emplea. Existe, así, mucho potencial para la optimización, modelos preventivos y predictivos, y en definitiva, para la monetización. Las tres noticias antes mostradas, son prueba de lo que intentamos exponer en este artículo.

Por un lado, MobileXperience, que ofrece más productividad a las empresas y adelantarse a demandas de producto y satisfacer mejor la experiencia de cliente. Es decir, «adelantarse» a las compras de los clientes, lo que puede traer, no solo mejor rendimiento de la ubicación de los productos en el lineal (más ventas), sino también menos costes logísticos y de almacén (menos coste). Es decir, dos de las principales ventajas de lo que el Big Data aporta a las empresas.

El segundo lugar, el «Internet de las vacas«. Como se puede leer aquí, si se colocan sensores en las patas de las vacas con objeto de monitorizar sus pasos, a través de los patrones que se obtengan, se puede determinar el momento óptimo para inseminarla y predecir así el sexo del ternero. Los resultados son que en las granjas que han probado este sistema, se ha logrado un 50% más de terneros, con los consiguientes beneficios.

Por último, ThyseenKrupp Elevadores, que quería obtener una ventaja competitiva a través de lo que más importa a sus clientes: fiabilidad (pensad en vosotros mismos al montar a un ascensor). Por lo tanto, a menos averías, más fiabilidad, y más ventajas competitiva. Para ello, resulta fundamental adelantarse a situaciones en las que el ascensor suele averiarse. Por ello, se desarrolló una solución para detectar problemas en ascensores ante las primeras señales de alerta, y así hacer un mantenimiento preventivo en lugar de correctivo (lo cual trae importantes ahorros a las empresas). Más allá de aspectos mecánicos y de diseño, los sensores y los datos que generan importantes oportunidades de mejora en los procesos de la organización.

ThyseenKrupp calcula que la suma de las esperas de los 1.000 millones de personas que anualmente emplean alguno de los 12 millones de ascensores que funcionan en el mundo, produce pérdidas de 190 millones de horas (traduzcan esto a euros en su emprsa…). Una cifra que podría reducirse a la mitad si todos los aparatos llevaran el nuevo sistema. Por lo tanto, más productividad para las empresas.

En un país como España, quinto país con más ascensores del mundo (880.000 unidades), puede tener un impacto importante. Y ahora piensen en la proyección de urbanización en el mundo,  y la necesidad de ascensores que habrá (según proyecciones demográficas de Naciones Unidas, en 2050 vivirán cerca de 9.100 millones de personas en ciudades, un 70% de la población global). De nuevo, el Big Data, como promesa de gran impacto social, económico y productivo.

Según Accenture, en un informe elaborado con stakeholders de la industria, esta tendencia de convergencia entre Big Data e Internet of Things, se puede resumir en torno a cinco actividades de negocio:

  • Transporte conectado: mejora de la experiencia en medios de transporte.
  • Espacios conectados: mejora del uso de espacios físicos donde trabajamos y vivimos, incluyendo edificios inteligentes, hogares inteligentes u otros lugares donde se puede reducir el consumo energético.
  • Operaciones conectadas: enriquecimiento de los procesos de trabajo y de los activos para aumentar la productividad.
  • Sanidad conectada: mejora de la calidad de los servicios sanitarios, experiencia de los pacientes -lo más importante, claro-, y los procesos operativos y de uso de equipos médicos.
  • Comercio conectado: nuevos procesos conectados: sistemas de pago, logística, ofertas personalizadas, canales de distribución, etc.

Como pueden ver, la predicción y el mantenimiento preventivo puede traer tanto ahorros como ingresos. En algún sitio de la cadena de valor de una empresa hay una oportunidad de mejora. Noticias que abren la vía a la reflexión sobre cómo un negocio, pudiera explotar sus datos, y «adelantarse» a hechos. Todo ello, de la mano del Internet de las cosas y del paradigma de la analítica avanzada. Uno de los aspectos clave del Big Data y Business Intelligence.

«Usage-based insurance»: transformación del sector asegurador con el Big Data

Una de las cuestiones que más hemos tratado en nuestros últimos eventos tiene que ver con la transformación de diferentes modelos de negocio, industrias y organizaciones sobre la base de la introducción de la «economía del dato» o «tecnologías Big Data».

Estas realidades de transformación, es un aspecto que veremos en cada vez más industrias y sectores. El informe de Accenture «El Internet de las Cosas en la estrategia de los ejecutivos Españoles«, se recoge como el 60% de la alta dirección ve mucho potencial en el Internet of Things. Esto abre una enorme oportunidad para los datos, porque la sensorización de «nuestra vida, y los objetos que nos rodean«, obviamente tiene una capacidad de generación de datos descomunal. Pero en este mismo informe se recoge como se estima que se emplea menos del 1% de la información y los datos que se generan gracias al IoT.

Uno de los sectores con mayor potencial en dicho informe es el de los vehículos personales, con la inclusión de sistemas de diagnóstico a bordo que monitorizan los patrones de conducción para poder ofrecer pólizas a medida. La «personalización de la economía» llegando a otro sector más. De hecho, según el Informe Global de Automoción, El 82% de los conductores espera beneficios de los datos que genere su vehículo.

Dentro de la industria de los seguros, hablamos de las pólizas de vehículos, dada la transformación que está viviendo en los últimos años. Comencemos por EEUU, donde las cosas suelen ir más rápido que por otras latitudes y longitudes. Compañías como Allstate con su programa «Drivewise», State Farm con «Drive Safe and Save» y Progressive con «Snapshot», ofrecen ahora a sus clientes un esquema de relación basada en: yo monitorizo cómo conduces, y si te comportas bien acorde a unos parámetros conocidos, pagarás menos. Es lo que se ha venido a llamar «Usage-based insurance«. Como ya pagamos por el consumo que hacemos de electricidad (bueno, más o menos) o por la gasolina, pues eso mismo, pero en el sector asegurador. Una tendencia que cada vez veremos en más sectores.

El Big Data lo que introduce es la reducción de costes que habitualmente se generan por la asimetría de información. Como yo no sé si te vas a portar bien, por si las moscas, te cobro una póliza mayor. Para ello, las compañías aseguradoras te instalan un GPS que monitorizan patrones de conducción. Estos datos, que tú consientes ceder a la compañía, son, con una granularidad/frecuencia de muestro de entre 1 y 5 segundos:

  • Ubicación: latitud y longitud por donde te vas desplazando.
  • Grado de aceleración/desaceleración: km/h ganados o perdidos, y su comparación en términos de segundos para saber la brusquedad
  • Vector de giro: fuerzas G, que mide en cierto modo la fuerza del giro y su grado de cambio para detectar brusquedad, agresividad, etc.
  • Hora y día: sello de tiempo, para saber sobre qué horas y días te desplazads

Con estos datos (que seguramente tengan más), podemos saber, para un conductor dado:

  • Cómo de brusco conduce: aceleración/desaceleración (el acelerómetro que incorpora lo permite)
  • Cómo gira: fuerzas G de giro para saber su agresividad en las mismas
  • Lugares por los que ha pasado: ¿lugares seguros? ¿carreteras principales o secundarias? etc.
  • Carreteras que más frecuentemente emplea (ya sabemos que las secundarias tienen una tasa de siniestralidad superior)
  • Horas y días de más frecuencia de conducción, para saber si conduce en «rush hours» u «horas pico» (por ejemplo, ya sabemos que a las noches, y en carreteras secundarias, el índice de mortalidad y riesgo es también mayor)
  • Velocidad y estadísticos básicos: media, moda, mediana, máxima, mínima (y poder sacar así patrones)
  • Respeto a las señales de circulación: dado que sabemos por dónde se ha movido, y tenemos datos cartográficos con las limitaciones de velocidad integradas, podemos sacar un «score de buena conducta«, incluso con «grados de cumplimiento» para saber si respeta las normas de circulación.
  • etc.

Según he podido entender,  basan su modelo analítico de scoring en estos datos, de manera que obtienen un «score de conductor«. Un poco en la línea de lo que es disponer de un «score crediticio» (como ya hablamos aquí). Este score permite que con una fórmula de ahorro, podamos decirle a cada conductor cuánto le vamos a cobrar dado su riesgo de conducción. Este modelo de «Pay How You Drive» (PHYD) abre muchas nuevas puertas y seguro vemos recorrido en todo ello próximamente.

Score de conducción (Fuente: https://i.ytimg.com/vi/gj-RO5FE5q4/maxresdefault.jpg)
Score de conducción (Fuente: https://i.ytimg.com/vi/gj-RO5FE5q4/maxresdefault.jpg)

Obviamente en todo esto, no podemos dejar de lado el trade-off entre «Ahorro» vs. «Privacidad». ¿Qué riesgos pueden existir? Que se sepa dónde estemos en todo momento (y el consiguiendo y manido «Gran Hermano»), la «Third-party doctrine» (si cedo los datos a un tecero, no puedo luego reclamarlos de vuelta) y que esto de la información despersonalizada es un mito. Ahora bien, veo «ahorros» no solo individuales, sino globales:

  • Cuando una persona se autodiagnostica, gana en conciencia, por lo que es más probable que cambie de comportamiento. En este punto, y con el objetivo de hacer algún contraste, sería interesante ir perdiendo endogamía en la muestra (actualmente todos los conductores que en EEUU están contratando estos seguros son precisamente los que ya mejor conducían…). Aunque también es cierto que si se acaban metiendo todos «los buenos», los que se quedarían fuera, ¿entiendo reaccionarían? Muy interesante esta línea desde el punto de vista sociológico.
  • Si el «score de conducción» fuese elevado a «Dato público de interés general», podríamos mejorar mucho el sector. Si las compañías aseguradores debieran pasarse ese dato a través de un «Registro Central del Estado«, mucho mejoraría. Como ya funciona para evitar el fraude, por ejemplo. De hecho, entiendo, el primer interesado en esto sería el Ministerio del Interior.
  • Hacer coches y carreteras más seguras, dado que sabríamos cómo se comportan, en agregado los conductores que pasen por determinados puntos. Esto, seguro que a la Dirección General de Tráfico le puede interesar.
  • Se podría llegar a acuerdos con comercios habitualmente relacionados con el vehículo (estaciones de repostaje, compra de productos en tiendas, grandes centros comerciales a los que habitualmente nos desplazamos en vehículos, estaciones de radio, etc.) para ofrecer descuentos a comercios asociados o los que quieran asociar su branding a determinados patrones de conducción.
  • etc.

Hay factores de riesgo al volante que dejamos de lado (micrófonos para el ruido, cámaras para la mirada, copiloto -según un estudio de la Fundación Línea Directa la mujer al volante y el hombre como acompañante es la fórmula de menor riesgo-, etc.), pero quizás veamos pronto todo esto integrado también. Haciendo un rápido Googling para España, he dado con Next Seguros, compañía aseguradora que basa su modelo de negocio en mucho de lo que aquí hemos explicado. En Rastreator salen también algunas otras genéricas que también ofrecen estas posibilidades.

Por último, nunca olvidar del plano legal y la importancia del «Compliance Officer» y garantizarnos que todo esto es posible (a sabiendas que EEUU no es España/Europa, y que la nueva Directiva de Protección de Datos está a la vuelta de la esquina).

Ya ven que esto del «Usage-based insurance» abre muchas cuestiones a reflexionar y transforma muchos elementos de un sector (modelo de negocio, tarificación, plano legal, etc.). Una más, entre las industrias, que el Big Data está dotando de nuevas capacidades.

Del Open Data al Linked Open Data: sacando valor de los datos enlazados

El Big Data, como nuevo paradigma de generación, procesamiento y extracción de conocimiento de los datos, facilita muchas oportunidades. Podemos medirlo prácticamente todo. Esto está dando lugar a diferentes movimientos, como el «Quantify Self«, que nos permite a cada uno de nosotros medir todo lo que hacemos (deporte, ingesta alimentos, horas de sueño, etc.).

Pero, el asunto central no es tanto ya medir, sino entender. Por eso, suelo decir que me gusta más hablar del «Understand Self«. Buscando en Google, veo que todavía no es un término que nadie haya acuñado ni capitalizado. Quizás porque no tiene mucho branding para la industria. Pero quizás podamos extrapolarlo a «Understand Things«. Es decir, que tenemos que cambiar el pensamiento desde la obsesión por el medir y el guardar, a una nueva obsesión: entender, procesar y sacar valor a los datos.

Pero esto no es sencillo. Especialmente, porque los datos brutos son poco expresivos. Necesitamos dar contexto a los datos. ¿Para qué sirve los diez kilómetros o las 1.000 calorias que has ingerido hoy? ¿Para que sirve que una empresa capte 1.000 nuevos leads o tenga más de 200 Likes? Medir está bien, pero hay que dar un paso más allá.

Por todo ello, es importante no confundir datos con información y conocimiento. Si nadie es capaz de analizar la cantidad de datos que generamos, es mejor considerarlo como basura digital. Según un estudio de EMC, en 2013 sólo el 22% de los datos del universo digital fueron útiles, y sólo el 5% de los ellos fueron analizados. A esto me refería al inicio de este artículo.

Supongo que ya habrán visto en innumerables ocasiones la representación estructural entre los Datos, la Información, el Conocimiento, y cada vez más, la Sabiduría. Me refiero a esta representación:

Pirámide Datos - Información - Conocimiento - Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/)
Pirámide Datos – Información – Conocimiento – Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/)

Representa las relaciones estructurales entre Datos, Información, Conocimiento y Sabiduría. La información son datos con cierto sentido significado, el Conocimiento, es Información y contexto, y la Sabiduría, es Conocimiento aplicado. Hasta aquí, entiendo que no aportamos mucha novedad a lo ya conocido.

Pero, lo que sí creemos que aporta es hacer una reflexión sobre esta pirámide cuando hablemos en entornos del sector público y agentes privados con cada vez mayor conversación e implicación con sus agentes (el fenómeno de la transparencia y la participación).

Son numerosas las iniciativas de Open Data que existen en la actualidad. En España, especialmente impulsadas por la Ley de Transparencia y todas las referencias que dicha normativa hace respecto a la apertura de conocimiento. El problema suele radicar en que nos hemos centrado mucho en hacer un ejercicio de aperturaOpen«), dejando de lado el objetivo último de la utilidad del dato en contextos y aplicaciones (es decir, pasar del dato bruto a conocimiento aplicado). Los beneficios vinculados a este movimiento (transparencia y rendición de cuentas, mejora en la toma de decisiones y promoción de una ciudadanía activa, eficiencia operativa, valor económico, etc.), son claros. Pero, ¿alguien conoce alguna medición objetiva y crítica sobre si realmente estamos alcanzado alguno de esos objetivos?

En todo ello, vemos dos asuntos que debieran pensarse más: 1) Las dificultades para hacer progresos en términos de usabilidad y utilidad de ese bien público que es el dato; y 2) El riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades.

En cuanto al punto 1), cabe destacar aquí el fenómeno que en otros países se está viviendo respecto a la migración del «mero» Open Data, al «Open Linked Data». Los datos, cuanto más enlazados y conectados, más valor y utilidad adquieren.  Existen varias disciplinas habilitadoras como la computación y codificación del conocimiento, las redes, la computación ubicua, el almacenamiento de datos, etc.. Todas ellas, creciendo a un ritmo vertiginoso. El origen y el despliegue de datos es muy considerable, y son generados por sistemas de vigilancia y control (smart metering, control de tráfico), por dispositivos digitales (desde smartphones a cámaras), sensores activos y pasivos, escáner y las diferentes versiones de los datos voluntarios (a través de transacciones, interacciones en redes sociales, sousveillance, sistemas de crowdsourcing y ciencia ciudadana), etc.

¿Cómo juntamos todo eso y le damos una utilidad y una usabilidad a la ciudadanía? A través del enlazamiento. Una capa semántica que dé significado a todos esos datos, y que haga que los datos se entiendan entre sí, y que por consiguiente, las máquinas entiendan a los datos. Esto acelera las capacidades y multiplica las posibilidades a los que quieran sacar usabilidad de todos ellos. Big Data no puede no ser Semantic Big Data. Se trata de hacer que las máquinas entiendan nuestro lenguaje para así procesarlo mejor y ofrecer soluciones más afinadas a nuestros problemas. Crear un hub del conocimiento donde todo esté conectado y bien estructurado. Es decir, pasar al Linked Open Data.

Open Linked Data (Fuente: https://en.wikipedia.org/wiki/Linked_open_data)
Open Linked Data (Fuente: https://en.wikipedia.org/wiki/Linked_open_data)

Y la representación sobre estas líneas trabaja en favor de todo ello. Vemos como ya son muchas las organizaciones que publican datos y los enlazan a una gran red de datasets conectados. Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió un esquema de desarrollo de 5 estrellas para Datos Abiertos.

Esquema de cinco estrellas para datos abiertos (Fuente: http://5stardata.info/es/)
Esquema de cinco estrellas para datos abiertos (Fuente: http://5stardata.info/es/)

★ publica tus datos en la Web (con cualquier formato) y bajo una licencia abierta (un PDF colgado en una web, algo muy habitual en nuestro entorno)
★★ publícalos como datos estructurados (un Excel en vez de una imagen de una tabla escaneada, también bastante habitual)
★★★ usa formatos no propietarios (CSV en lugar de Excel, que ya cuesta ver en el entornos)
★★★★ usa URIs para denotar cosas, así la gente puede apuntar a estas
★★★★★ enlaza tus datos a otros datos para proveer contexto

Creo y espero, que en los próximos años, avancemos más hacia esa web de datos enlazados y abiertos.

Respecto a 2), el riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades. En relación a todo ello, me he terminado recientemente de leer el libro «The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences» de Rob Kitchin.  Desde el primer capítulo, este formidable autor se centra en el significado epistemológico de la pirámide DIKW (Data-Information-Knowledge-Wisdom), para afrontar con una mirada crítica, los datos en términos económicos, técnicos, éticos, políticos o filosóficos, con un posicionamiento claro desde el inicio:

“[…] how data are ontologically defined and delimited is not a neutral, technical process, but a normative, political, and ethical one that is often contested and has consequences for subsequent analysis, interpretation and action”.

Esta idea deque el Big Data lo tenemos que sacar de un debate puramente técnico, y llevarlo a otras disciplinas, está cada vez más extendido. Se trata de darle sentido multidimensional a un nuevo paradigma que tiene ideología, normativa, valor económico, etc. Por lo tanto, es susceptible de generar desigualdad, por lo que requiere de intervención pública para mantener nuestros estados sociales de derecho. Es algo que Kitchin no para de destacar a lo largo de todo el libro. Y es algo que tiene mucho que ver con el Linked Open Data; una filosofía marcadamente comunitaria y de generación de riqueza conjunta que puede ayudar en todo ello. Nuestro compañero Diego López-de-Ipiña lleva hablando de esto desde hace ya mucho tiempo (pueden ver sus presentaciónes en su canal de SlideShare).

Esto, que en el mundo del análisis del dato en empresas privadas es importante, más  lo es aún cuando la reflexión se extiende al ámbito público, cuyos socios-dueños-accionistas, somos todos, y no siempre ejercemos como tal con una postura crítica y responsable. El Linked Open Data nos permitirá pasar, de manera efectiva y social, del dato en bruto, al conocimiento colectivo.

Calidad de datos: mucho más que una acción puntual

(Artículo escrito por David Guerrero, profesional del sector financiero y profesor del Programa de Big Data y Business Intelligence de la Universidad de Deusto)

En la sociedad de la información actual las empresas manejan cantidades ingentes de datos, tanto propios como ajenos. Cada vez es más habitual ver reportes obtenidos a partir de diversas técnicas analíticas, y cuadros de mando generados por medio de sistemas de reporting para alta dirección.

A partir de estos informes se toman decisiones que en muchas ocasiones pueden ser cruciales para el devenir de la empresa. Entonces, es de suponer, que estos informes están hechos tomando como base una información de altísima calidad. Pero, ¿realmente lo están?

La calidad de la información o Data Quality en inglés, está cobrando mayor relevancia en los procesos de las organizaciones. Buena parte de culpa la tienen los reguladores, que están empezando a exigir políticas y procedimientos que aseguren unos niveles óptimos de calidad de los datos: Master Data Management (MDM).

No disponer de una política de calidad de datos implica que todos los equipos que vayan a trabajar la información tengan que invertir tiempo en limpiar los datos antes de poder explotarlos para otros propósitos. Además, se corre el riesgo de que en ese proceso de limpieza se generen discrepancias de información si no se adoptan los mismos criterios a la hora de realizar las adaptaciones oportunas.

Las cifras hablan por sí solas, y los expertos coinciden en que 2016 será un año de gran crecimiento en la industria del Data Quality.

  • 78% de las empresas tienen problemas en los envíos de email
  • 83% de las empresas están luchando contra silos de datos
  • 81% de los retailers no pueden apalancarse en los programas de fidelidad debido a información inexacta
  • 87% de las instituciones financieras tienen dificultades para obtener inteligencia confiable
  • 63% de las compañías todavía no tienen un enfoque coherente de la Calidad de Datos

En definitiva, para que las organizaciones puedan obtener valor de sus datos, deben primero poner orden en la gestión, tratamiento y conservación de la información. Los datos son y deben ser la materia prima que guíe la toma de decisiones de nuestra empresa, y para ello deben presentar en el formato esperado, en el momento preciso, para las personas que lo necesitan y con la máxima calidad.

Fuente: http://www.datasciencecentral.com/profiles/blogs/will-2016-be-the-year-you-clean-up-your-dirty-data

Nueva propuesta de reglamento Europeo: pon un Data Protection Officer en tu empresa

Recientemente, mi compañero Iñaki Pariente, nos ilustraba sobre la importancia de la componente jurídica en todo proyecto de Big Data. Estos días, en el Parlamento Europeo, se está produciendo mucha actividad en torno a todo ello. Concretamente, están trabajando una Propuesta de Reglamento General de Protección de Datos, del Parlamento Europeo y del Consejo.

El núcleo de lo que se está tratanto es la protección de las personas físicas en lo que respecta al tratamiento de datos personales y la libre circulación de estos datos. En adelante, a efectos de simplificación, me referiré a ello como Reglamento General de Protección de Datos (RGPD).

La legislación vigente en la Unión Europea en materia de protección de datos es la Directiva 95/46/CE. Esta fue adoptada en 1995 con un doble objetivo: defender el derecho fundamental sobre la protección de datos y garantizar la libre circulación de estos datos entre los Estados miembros (en una época en que la libre circulación de capitales, personas y bienes era algo del día a día). Se complementó posteriormente mediante la Decisión Marco 2008/977/JAI, como instrumento general a escala de la Unión Europea para la protección de datos personales tratados en contextos de cooperación policial y judicial.

Y ahora pasamos a 2015. La rapidez con que la evolución digital está cambiando muchos de los planos de nuestra sociedad y nuestra economía,  ha supuestos nuevos retos en lo que a la protección de datos personales se refiere. Ahora, el volumen de datos es mucho mayor, permitiendo que tanto empresas privadas como entidades públicas pueden aprovecharlos. Además, las personas físicas, generan y difunden un volumen de datos nunca visto hasta la fecha.

A la par, los legisladores se dan cuenta que para poder desarrollar una sociedad realmente digital y un Mercado Único Digital (también debatido e impulsado hace unos meses en la Comisión Europea), es fundamental generar confianza en entornos online. Si la confianza no existe, las personas no nos veremos tan implicados en comprar online o a relacionarnos con la administración a través de Internet. La protección de datos personales desempeña, por tanto, una función esencial en la Agenda Digital para Europa y más concretamente en la Estrategia Europa 2020 para el crecimiento y la competitividad.

Esta nuevo reglamento de protección de datos, afectará a muchas personas e instituciones. Si tienes una empresa o aspiras a trabajar en una radicada en Europa o que haga negocios en Europa, tienes más de 250 trabajadores o tu núcleo de negocio se centra en el procesamiento de datos (que cada vez son más las empresas en ello), tu empresa tendrá, bajo propuesta de dicho Reglamento que contratar un Data Protection Officer (DPO en adelante).

Eso de «centrarse en el procesamiento de datos«, que resulta ciertamente ambiguo, por lo que he podido leer se refiere a «tratamientos de datos masivos, que afecten a centenares de miles o millones de usuarios y que se mantengan periódicamente actualizados como la elaboración de perfiles de clientes o en el mundo de marketing«. Por lo tanto, creo que no son pocas las empresas que quedarán afectadas por ello.

¿Y qué es esto del DPO y en qué medida me afectaría? Este perfil tendrá que encargarse de tareas mucho más extensas que las atribuidas al responsable de seguridad, figura regulada en el Reglamento que desarrolla la Ley Orgánica de Protección de Datos de España (que data de 1999). Este último, actualmente se encarga de «coordinar y controlar las medidas de seguridad«. Pero, el DPO tendrá una función no solo de seguridad, sino con una mirada hacia dentro de la organización y hacia fuera:

  • Dentro de la empresa: informar y asesorar a todos los trabajadores de la organización en lo que a sus obligaciones con respecto a la normativa de protección de datos se refiere. Además, deberá elaborar los protocolos de asignación de responsabilidades y educación en esta materia, y velar por su cumplimiento. Por lo tanto, amplía sus funciones en esta materia.
  • Fuera de la empresa: será el encargado de responder a las solicitudes de información de la autoridad de control -la Agencia Española de Protección de Datos (AEPD) o equivalentes en Comunidades Autónomas- y cooperar con ellao para cualquier solicitud.

Este proceso de «blindaje» será tan exigente que hará que las empresas tengan que publicar los datos de contacto de sus Data Protection Officer, así como comunicárselo a la autoridad de control. Esto hará un ejercicio de transparencia y accountability que emana la importancia que adquiere. Es más, el proyecto de reglamento determina que no podrá ser despedido o sancionado mientras ejerza y ejecute sus tareas (artículo 36.3), ni tampoco encontrar injerencias o instrucciones en el ejercicio de sus tareas. Dada la naturaleza del desempeño de sus funciones, está obligado a guardar secreto y confidencialidad. Y, aunque puede, dentro del organigrama de trabajo, tener asignadas otras funciones o tareas, éstas no pueden dar lugar a un conflicto de intereses.

¿Y qué pasa si no cumplo este reglamento? Las multas por no cumplir reglamentos Europeos son importantes; hasta un 2% de los Ingresos de la organización o 100 millones por cada infracción. Esto invita a la cooperación y complicidad por parte de las instituciones.

Como ven, la reglamentación para la protección de datos personales vuelve a endurecerse y hacer que Europa, siga fiel a su estilo de garantzar los derechos fundamentales de sus ciudadanos. Entenderán así, que  la protección de datos quedó excluida de las negociaciones sobre el crucial tratado de Asociación Transatlántica de Comercio e Inversión que negocian la Unión Europea y Estados Unidos.  Otro tema que traerá largas reflexiones. Y ahí veremos el papel del Data Protection Officer como eje clave en las organizaciones.

El Data Protection Officer (Fuente: http://www.computing.co.uk/ctg/feature/2306122/rise-of-the-data-protection-officer)
El Data Protection Officer (Fuente: http://www.computing.co.uk/ctg/feature/2306122/rise-of-the-data-protection-officer)

Análisis de redes sociales: el poder de la teoría de grafos

Cuando hablamos de procesamiento de datos, automáticamente a muchos de nosotros nos vienen muchos números a la cabeza, muchas técnicas estadísticas, conclusiones cuantitativas, etc. Esto es así, pero es que hay mundo más allá de los números. Dos de las explotaciones de datos que más popularidad están ganando en los últimos tiempos, especialmente derivado de que se estima (más arriba, más abajo) que aproximadamente el 80% de los datos son desestructurados, son el análisis de textos y el análisis de redes sociales.

El análisis de textos o Text Mining hace  referencia al análisis de textos o contenidos escritos sin ningún tipo de estructura. Se calcula que el 80% de la información de una empresa está almacenada en forma de documentos. Sin duda, este campo de estudio es muy amplio, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto).

El segundo campo en el que veremos gran recorrido (ya lo estamos viendo) es el análisis de redes sociales o estructuras de grafos. Ya hablamos de ello en un artículo anterior. No es solo análisis de las redes sociales entendidas como análisis de contenido de Social Media. Es un estudio numérico, algebraico, de una representación de conocimiento en formato de grafo. Un campo que mezcla la sociología y las matemáticas (el álgebra de grafos) en el que hay actores o entidades que interactúan, pudiendo representar estas acciones a partir de un grafo.

Un grafo o representación de la interacción entre entidades o actores a través del álgebra de grafos (Fuente: http://www.adictosaltrabajo.com/tutoriales/web-htmlcomo-grafo/)
Un grafo o representación de la interacción entre entidades o actores a través del álgebra de grafos (Fuente: http://www.adictosaltrabajo.com/tutoriales/web-htmlcomo-grafo/)

El interés por estudiar los patrones y estructura que esconden esta representación de nodos y aristas ha crecido en los últimos años a medida que ha aumentado la relación entre agentes. Es decir, a medida que han crecido las redes sociales (¿cómo se relacionan mis clientes en facebook?), ha crecido la influencia de una persona en otra para comprar (los millenials confían más en la reputación de sus amigos que en la publicidad de las marcas), las redes de proveedores y clientes han aumentado sustancialmente (por la globalización de la economía y la interconexión internacional), etc., crece el interés por estudiar qué patrones pueden descubrirse para incrementar la inteligencia del negocio.

¿Y por qué esto de interés ahora? En la medida en que un problema dado (acordaros, primer paso de un proyecto Big Data), puede ser modelado mediante un grafo y resuelto mediante algoritmos específicos de la teoría de grafos, la información que podemos obtener es muy relevante. Esto es algo que los topógrafos (cómo enlazar las estaciones del metro de Nueva York de la manera más eficiente para todas las variables a optimizar -distancia, coste, satisfacción usuario, etc.-) o los antropólogos (cómo se han relacionado las especies y los efectos producidos unos en otros) llevan muchos años ya explotando. Ahora, da el salto al mundo del consumo, la sanidad, la educación, etc.

¿Qué nos puede aportar un grafo, una red social, y su análisis a nuestros interes? Las redes sociales pueden definirse como un conjunto bien delimitado de actores como pueden ser individuos, grupos, organizaciones, comunidades, sociedades globales, entre otros. Están vinculados unos a otros a través de una relación o un conjunto de relaciones sociales. El análisis de estos vínculos puede ser empleado para interpretar comportamientos sociales de los implicados. Esto es lo que ha venido a denominarse el Análisis de Redes Sociales o ARS (Social Network Analysis, o SNA).

Dentro del ARS, uno de los conceptos clave es la Sociometría. Su fundador, Jacob Levy Moreno, la describió como:

“La sociometría tiene por objeto el estudio matemático de las propiedades psicológicas de las poblaciones; con este fin utiliza una técnica experimental fundada sobre los métodos cuantitativos y expone los resultados obtenidos por la aplicación de estos métodos. Persigue así una encuesta metódica sobre la evolución y la organización de los grupos y sobre la posición de los individuos en los grupos”.

Usando una herramienta interactiva como Gephi,  se puede visualizar, explorar y analizar toda clase de redes y sistemas complejos, grafos jerárquicos y dinámicos. Es decir, hacer sociometría. Una herramienta de este tipo nos permitirá obtener diferentes métricas, que podemos clasificar en tres niveles:

  1. Nivel global de un grafo
    • Coeficiente de agrupamiento: nivel de agrupamiento de los nodos, para saber cómo de cohesionados o integrados están los agentes/actores.
    • Camino característico: mide el grado de separación de los nodos, para determinar lo contrario al punto anterior: cómo de separados o alejados están, y poder buscar así medidas para juntar más la relación entre agentes/actores.
    • Densidad: un grafo puede ser denso (cuando tiene muchas aristas) o disperso (muy pocas aristas). En este sentido, se puede interpretar como que hay mucha o poca conexión.
    • Diámetro: es el máximo de las distancias entre cualesquiera par de nodos. De esta manera, sabemos cómo de «alejados» o «próximos» están en agregado a la hora de comparar varios grafos.
    • Grado medio: número de vecinos (conexiones a otros nodos) medio que tiene un grado. Indicará cuál es la media de conexiones que tiene un nodo, de manera que se puede saber su popularidad..
    • Centralidad: permite realizar un análisis para indicar aquellos nodos que poseen una mayor cantidad de relaciones y por ende, los influyentes dentro del grupo. De esta manera, sabemos su «popularidad», lo que nos puede dar mucha información para saber la importancia de un nodo dentro del total.
  2. Nivel comunidad (grupos de nodos dentro de un grafo)
    • Comunidades: instrumento para conocerse a sí mismo, para conocer a los otros, al grupo concreto que vive su momento, y en general a los grupos que viven procesos similares. De esta manera, podemos agrupar a los nodos por patrones de similtud.
    • Puentes entre comunidades: ¿cómo se conectan estas comunidades? ¿cómo de comunicables son esas comunidades? Para trazar planes de actuación o de marketing.
    • Centros locales vs. periferia: para saber, dentro de las comunidades, los nodos que son más centrales o críticos, frente a los que no lo son.
  3. Nivel nodo (propiedades de un influenciador dado)
    • Centralidad: es una métrica de poder. El valor 0.522 para la centralidad de un nodo indica que si para cada par de influenciadores buscamos el camino más corto en el grafo, el 52.2% de estos caminos pasa por ese influenciador. Mide su popularidad, y el algoritmo de Google, por ejemplo, funcionó durante mucho tiempo así, siendo cada nodo, una página web o recurso en Internet.

      Métricas de un nodo en una red (Fuente: http://historiapolitica.com/redhistoria/imagenes/ndos/larrosa4.jpg)
      Métricas de un nodo en una red (Fuente: http://historiapolitica.com/redhistoria/imagenes/ndos/larrosa4.jpg)
    • Modularidad: la modularidad es una medida de la estructura de las redes o grafos. Fue diseñado para medir la fuerza de la división de una red en módulos (también llamados grupos, agrupamientos o comunidades). Las redes con alta modularidad tienen conexiones sólidas entre los nodos dentro de los módulos, pero escasas conexiones entre nodos en diferentes módulos.
    • Intermediación: se puede enfocar como la capacidad que inviste el nodo en ocupar una posición intermediaria en las comunicaciones entre el resto de los influenciadores. Aquellos, con mayor intermediación tienen un gran liderazgo, debido a que controlan los flujos de comunicación. Y esto, de nuevo, da mucha inteligencia a un negocio.
    • Pagerank: algoritmo que permite dar un valor numérico ( ranking ) a cada nodo de un grafo que mide de alguna forma su conectividad. Es el famoso pagerank que utilizó Google (de hecho, el algoritmo fue diseñado por los creadores de Google, que es de donde viene su pasado matemático).
    • Closeness: cuán fácil es llegar a los otros vértices. Indicará, por lo tanto, cómo de cerca queda ese influenciador para llegar a contactar con otros. Esto, permite saber cuán importante es ese nodo dentro de la red de influencia para eventuales comunicaciones o relaciones con otros nodos.

Todo esto ya se está empleando en campos tan diversos como el marketing digital (para la detección de influenciadores entre los seguidores, de especial importancia en la economía colaborativa, donde la reputación online es clave de consumo), el fútbol (para la detección que Xavi y Xabi Alonso fueron la clave en el campeonato de Sudáfrica para que España ganase, en lugar de Iniesta, autor del gol), optimización de rutas de distribución (por ejemplo, la de un taxi, en tiempo real, para evitar congestiones en ciudades como Pekín o New York), conocer los tipos de conversaciones que se mantienen con tu audiencia/comunidad (muy usado en televisión y Twitter), saber cuáles son los drivers de compra que más afectan a las decisiones de consumo de tus clientes, etc.

Y tú, ¿a qué esperas para que el análisis de grafos puedan aportarte inteligencia a tu representación en forma de red social? De nuevo, las matemáticas, además de la sociología, a disposición de la inteligencia de un negocio. Bienvenidos al análisis de redes sociales.

Marketing Intelligence: cómo optimizar mi estrategia de marketing a través del Big Data

Que el Big Data puede aportar mucho al mundo del marketing es algo que ya hemos señalado con anterioridad. En la era de Internet, la era digital, y dentro del mundo del marketing, el usuario tiene el poder: busca, recomienda, sugiere, se queja, etc. Es fundamental que todos estos que afectarán, en última instancia, a la oferta de una compañía, así como al propio mercado, las marcas lo tengan controlado.

Los beneficios que una organización puede obtener del análisis de estos datos a nivel de marketing son claros: conocimiento de sus clientes, mercados, productos, etc, redundando esto en nuevos mercados, nuevos segmentos, alineamiento de la empresa a los clientes. En definitiva nuevos ingresos y ahorros.

Oportunidades que se enmarcan en una era en la que personalización y especialización que demanda un cliente exigente e informado. El consumidor considera ahora Internet en todo el proceso de compra, emplea el móvil de manera omnipresente (por lo que se multiplican los puntos de contacto) y quiere una experiencia coherente entre canales para que se fidelice a nuestra marca. Es lo que se ha venido a denominar el customer journey o buyer journey, donde el dato juega un papel fundamental. Los puntos de contacto, tanto físicos como digitales, se han multiplicado, y en cada uno de ellos, tenemos una fuente de aprendizaje de lo que quiere, recomienda, busca, etc. nuestro cliente muy importante.

El Customer Journey y el marketing intelligence: un viaje a través de los puntos de contacto físicos y digitales (Fuente: http://www.chuimedia.co.ke/wp-content/uploads/sites/8/2014/11/perfect-consumers-journey.png)
El Customer Journey: un viaje a través de los puntos de contacto físicos y digitales (Fuente: http://www.chuimedia.co.ke/wp-content/uploads/sites/8/2014/11/perfect-consumers-journey.png)

Así, tenemos que ofrecer a nuestros clientes experiencias de compra únicas e integrales a través de estrategias omnicanal. Hasta un 65% de los clientes visita canales online antes de comprar en las tiendas físicas. El cliente decide el canal por el que quiere comprar, y no nosotros como empresas. Y en todo esto, el dato es el activo con el que poder habilitar todas estas opciones.

El Business Intelligence y Analytics aporta la inteligencia al dato para convertirlo en conocimiento y disponer de ese valor estratégico. Hablamos de aumentar el valor que ofrecemos al cliente, y para nosotros, como empresa, aumentar la rentabilidad que obtenemos del mismo. En la siguiente representación podemos ver cómo a lo largo del tiempo, la ganancia, el valor, que sacamos a un cliente es cada vez mayor. Y para ello, tenemos diferentes técnicas de tratamiento de datos que nos pueden ayudar en esta tarea. Y en ello, centraremos lo que resta del artículo.

Cómo aumentar el valor obtenido de los clientes (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)
Cómo aumentar el valor obtenido de los clientes
(Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)

La idea es analizar la parte más transaccional (de compra-venta) con las acciones de marketing. Con este dúo, sacamos acciones de marketing con objetivos, personalizado e hipersegmentado. Se trata de analizar los datos contextuales de una compra (momento, lugar, composición de la cesta de la compra), lo enmarcamos en perspectiva (frecuencia, tiempo entre última compra, etc.) analizamos el cliente (si lo hace con tarjeta de fidelización, edad y perfil sociodemográfico, si viene incentivado por un descuento, etc.) y el canal por el que entra (online -tienda online, landing page, redes sociales, etc- u offline), y preguntarnos cosas. Ya hemos dicho en alguna otra ocasión que esta era se caracteriza por la curiosidad, por saber hacernos las preguntas correctas para sacarles valor a los datos.

Por lo tanto, corresponde hablar de modelos de análisis de datos más avanzados. Y, dentro del área de marketing, los cuatro más relevantes son:

  1. Modelos de propensión a la compra (cross y upselling): modelos que calculan la probabilidad de aceptación que tiene un cliente de adquirir productos complementarios (cross) o productos de más alta gama (up) para hacer una venta más rentable. Ambas técnicas las fomentamos presentando productos de una manera amigable, de tal modo que incite a comprar complementos que se sugieren de manera personalizada. Y para ello, se puede emplear la técnica de las reglas de asociación, también conocida como Market Basket Analysis o análisis de afinidad.
  2. Modelos de propensión a la fuga: Uno de los fundamentos básicos de la experiencia humana es que el futuro próximo es parecido al pasado reciente. Esto lo podemos considerar para alcanzar objetivos de retener a los mejores/más rentables clientes, e identificar los factores clave que influyen en el attrition (fuga de clientes). Se utilizan scores para priorizar los clientes objetivo de acciones de retención. Estos clientes son identificados cuando alcanzan ciertos valores en variables con mucha capacidad predictiva (quejas interpuestas, menor frecuencia de compra, etc.) Cada empresa dispone de su modelo, y luego podrá aplicar acciones como descuentos a los más propensos a irse, promociones adhoc a un conjunto de clientes que si bien no son los más propensos a irse ya no tienen la mejor experiencia de cliente, etc. etc.
  3. Optimización de las campañas y acciones dentro de una estrategia omnicanal: con la aparición de Internet, las organizaciones se vieron en la necesidad de crear presencia en múltiples canales. Las estrategias omnicanal, tienen dos objetivos principales: 1) Ofrecer al consumidor una experiencia de compra coherente y sin disrupción entre los diferentes canales; 2) Usar los canales digitales como un vector de generación de tráfico hacia la tienda. Los principales retos no son tanto tecnológicos, sino organizacionales (estructura, incentivos alineados) y operacionales (procesos, políticas y workflows consistentes). La integración con el CRM se vuelve crítica. Así, podremos responder a preguntas como: ¿en qué canal centrarnos? ¿Cuál funciona? ¿Cómo comunicar los datos de un canal con otro? Para un tamaño de cesta dado (y en definitiva, de margen absoluto determinado), ¿qué acción online u offline de marketing reforzar? Conocer cuáles son las que más leads convierten, y por segmentos de población, para así poder personalizar las acciones.
    Disponemos de herramientas como Chaordic o Hubspot que permiten hacer la traza de navegación desde que un futuro cliente es un lead, para así poder conocer cuál ha sido la acción y el canal que le ha llevado a su conversión a cliente final. Una vez que teníamos identificados los objetivos (evitar fugas, aumentar la rentabilidad de un cliente determinado, etc.), es cuando podíamos a través de campañas y acciones de marketing hacer un plan de acción.
    En definitiva, se trata de programar y automatizar la ejecución de campañas, interactuar con los canales, y capturar las respuestas y medir la efectividad de las mismas. A nivel matemático, lo que hacemos es un análisis de sensibilidad.
  4. Inversión que puedo asumir para adquirir nuevos clientes a tenor del valor que les puedo sacar en el tiempo: la adquisición de clientes y cómo poder rentabilizar esa inversión en el tiempo. A sabiendas que en Internet yo pago por adquirir clientes (una lógica de marketing nueva y que la era digital aporta), rentabilizar el Coste de Adquisición (CAC) con el Valor del Cliente a lo largo del tiempo (CLV) es la idea fundamental. Muchos negocios plantean proyectos de marketing que requieren de este enfoque. Es decir, dependen de presentarles un plan de negocio donde se les argumente la pertinencia y necesidades de hacer inversiones en marketing (Coste de Adquisición) por la rentabilidad que se le puede sacar a cada cliente en el tiempo si conseguimos fidelizar al mismo. El problema es que los cálculos que se suelen hacer para calcular el coste máximo de una campaña de captación de clientes se basa en una venta única típicamente. Lo que no se tiene en cuenta es que ese mismo cliente podría repetir su compra, que es lo que suele ocurrir en los enfoques de fidelización que tan útiles resultan. Por lo tanto, hacer el cálculo matemático del CAC y el CLV resultan de enorme interés para poder poner en marcha acciones estratégicas de marketing que permitan maximizar el negocio.

En definitiva, en el campo del Marketing Intelligence, vamos a poner la estadística al servicio del negocio. Os dejamos abajo una presentación de una sesión del programa en la que vemos muchas de estas cuestiones para que podáis profundizar.

Por qué hablamos del Business Analytics y no solo de Business Intelligence

El Business Intelligence (Inteligencia de Negocios) es un conjunto de métodos y técnicas que han venido empleándose desde hace años en diferentes sectores para ayudar en la toma de decisiones. Básicamente consiste en el procesamiento de datos para obtener información resumida y sintetizada de todos ellos.

Lo que ha ocurrido es que en los últimos años ha aparecido un nuevo paradigma, que hemos venido a denominar Big Data. Un paradigma que se puede describir por sus cinco elementos que lo caracterizan: Volumen (gran cantidad de datos), Variedad (diferentes formatos, estructuras, etc. de datos), Velocidad (gran velocidad a la que los generemos), Variabilidad (datos no muy estáticos, sino que cambian con cierta frecuencia) y Valor (el gran potencial de generación de valor que tienen para las organizaciones).

Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/sites/8/2014/02/bigdata-v5-lens.jpg)
Las cinco V del Big Data (Fuente: http://boursinos.gr/wp-content/uploads/sites/8/2014/02/bigdata-v5-lens.jpg)

Este nuevo paradigma, junto con los métodos avanzados de procesamiento estadístico y matemático (incertidumbre y exactitud) de datos, enriquecen y permiten una toma de decisiones aún más estratégica e informada. Ahora, una empresa no solo puede resumir el pasado (enfoque Business Intelligence), sino que también puede establecer relaciones y comparaciones entre variables para tratar de adelantarse al futuro (Business Analytics).

Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)
Business Analytics vs. Business Intelligence (Fuente: https://wiki.smu.edu.sg/is101_2012/img_auth.php/e/ec/Business_Analytics.jpg)

Es decir, que evolucionamos del Business Intelligence tradicional al Business Analytics gracias al nuevo paradigma que trae el Big Data y los métodos de procesamiento de datos más avanzados. Con estos servicios de Business Analytics, básicamente, a una compañía, lo que podemos ofrecerle son dos tipos de explotaciones de datos:

  • Informar: ver lo que ha ocurrido en el pasado, y tomar decisiones reactivas (Business Intelligence).
  • Predecir: inferir lo que puede ocurrir en el pasado, y tomar decisiones proactivas (Business Analytics)

A partir de estos principios básicos de lo que el Business Analytics es, ya pueden ustedes imaginarse el gran potencial que tiene. Como decía al comienzo, el Business Analytics trae una inteligencia a los negocios enriquecido a través de modelos estadísticos que permiten descubrir nuevas estructuras, patrones, relaciones entre variables, etc. Esto, sumado a la era de la ingente cantidad de datos, hace que las compañías se puedan beneficiar de todo ello en muchas áreas: sanidad, educación, marketing, producción, logística, etc.

Para que se hagan ustedes a la idea, y puedan llevarlo a un plano práctico de su día a día, puede responder a preguntas como:

  • ¿Cómo puedo descubrir más información relevante sobre mis clientes? Datos como los drivers que le llevan realmente a comprar, cómo se relacionan mis clientes entre ellos, qué opiniones son las que han sido clave para la toma de decisión de compra, etc.
  • ¿Qué pasaría si cambio el precio de mis productos/servicios? Es decir, disponer de un análisis de sensibilidad de una variable (precio) respecto a su impacto en otra (ventas totales de ese producto o sobre otros), de manera que puedo ver la relación entre las mismas.
  • ¿Cómo puedo reducir la tasa de abandonos de mis clientes? Es decir, construir un modelo de propensión a la fuga, para saber qué puntos o acciones son las que pueden llevar a un cliente a abandonarme. De esta manera, a futuro, tendría más probabilidad de encontrar clientes que pudieran marcharse de la compañía.
  • ¿Cómo puedo identificar a los clientes más rentables? No desde el punto de vista de las ventas totales, sino del valor que extraigo de cada uno de ellos (entendiendo valor como margen de beneficio)
  • ¿Cómo puedo detectar fraude? Analizando el histórico de valores que van tomando las variables para los casos de éxito (no hay fraude, se paga a tiempo, no hay insolvencias, etc.) y los de fracaso (fraudes, impagos, etc.), se pueden construir modelos que relacionen las variables que frecuentemente están asociados a los casos de fracaso, y así poder anticiparse a futuro.
  • etc.

Para poder hacer esto, como pueden imaginarse, los métodos de descubrimiento de información resultan fundamentales. Bueno, partiendo de la base que lo más importante es que tengamos bien preprocesada nuestra información, porque sin eso, cualquier algoritmo fallará. Esto es precisamente lo que hablamos al introducir los ETL y la importancia de la calidad de datos y su preprocesado.

Los métodos a utilizar son variados y a veces uno no sabe cuál de ellos va a dar mejores resultados o cuál de ellos se adecúa a lo que yo realmente estoy buscando. En el blog Peekaboo publicaron un cheat sheet (una «chuleta» de toda la vida) que utilizo siempre en los cursos introductorios a Business Analytics, dado que es bastante expreisva.

Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)
Selección de la técnica de tratamiento de datos más adecuada (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Más que una chuleta, es un flujograma que terminará en el método que deberíamos utilizar para el objetivo que perisgamos. Como podéis ver, simplemente navegando por las preguntas que se van realizando a través del flujograma, puedo llegar yo a saber qué familia de tratamiento de datos es la más adecuada para los objetivos que persigo.

Como podéis comprobar, el punto de partida es tener una muestra de 50 instancias/observaciones. A partir de ahí, o bien debemos buscar más, o bien poder seguir navegando hasta encontrar el método más adecuado. ¿Qué buscamos?

  • ¿Predecir una cantidad numérica? Aquí los métodos de regresión serán tu solución.
  • ¿Predecir una categoría? Los clasificadores pueden servir para alcanzar estos objetivos.
  • ¿Agrupar mis instancias/observaciones por un comportamiento común? Las técnicas de clusterización me permiten a mí agrupar observaciones por patrones similares.
  • ¿Observando la estructura de mi conjunto de datos? Las técnicas de reducción de la dimensionalidad son las que me pueden servir para este objetivo.

En definitiva, ya podéis observar cómo la ayuda a la toma de decisiones estratégicas (el Business Intelligence tradicional), se ha visto enriquecido gracias a dos nuevas dimensiones: una tecnológica (el Big Data) y otra matemática/estadística. ¿A qué esperas para sacar valor del Business Analytics en tu organización?