Archivo de la etiqueta: big data

El nivel de madurez de una organización para entrar en el mundo de Analytics / Big Data

El nivel de madurez de una organización para afrontar proyectos de Big Data / Analytics es un elemento que siempre debemos tener presente. Un proyecto, con la mejor tecnología, no tiene por qué ser exitoso si no sumamos otros elementos que también contribuyen al resultado global del proyecto.

En estos años, hay organizaciones que se han dedicado a obtener frameworks para medir ese nivel de madurez de una organización. Uno de los que más nos gusta es éste que veis a continuación, el Analytics Maturity Quotient (AMQ™):

Analytics Maturity Quotient (AMQ)
Analytics Maturity Quotient (AMQ)

Como se puede apreciar, son cinco factores los que suman y contribuyen a ese nivel de madurez para afrontar estos proyectos en una organización:

  • Calidad de los datos: todo empieza con la calidad de los datos. Nosotros estamos tan de acuerdo en ello, que nuestro primer módulo trata precisamente sobre la importancia de disponer de una buena calidad de datos. Si una organización tiene un buen sistema para el almacenamiento de datos, una buena infraesturctura de datos, ha empezado bien el proyecto. Aquí también suele citarse el paradigma «GIGO»: si metemos malos datos, por mucho que tengamos buenos modelos analíticos, no podremos obtener buenos resultados de nuestro proyecto de Big Data.
    Este factor, el de calidad de datos, afecta a su vez a otros cuatro. Pero, como se puede entrever en su representación formal, es el más importante y representativo del conjunto de ellos. Debemos disponer de buenos datos.
  • Liderazgo «data-driven»: el 40% del éxito restante (una vez que disponemos de «buenos datos«), depende de un liderazgo institucional y organizativo que se crea de verdad que los datos y su análisis son una palanca excelente para la mejora de la toma de decisiones dentro de la compañía. En el artículo que abrió la boca a todos con esto del Big Data («Big Data: the management revolution«) de la Harvard Business Review, se ilustraba esta idea de cambiar el paradigma de toma de decisiones de la «persona que más ganaba» (el HIPPO, highest paid person’s opinion, a la fundamentación en datos). Necesitamos así líderes, CEO, gerentes, responsables de líneas, que «compren» este discurso y valor de los datos como palanca de apoyo a la toma de decisiones.
  • Personas con habilidades analíticas: un 30% del éxito dependerá de disponer de un buen equipo. Éste, es ahora mismo el gran handicap en España, sin ir más lejos. Faltan «profesionales Big Data«, en todos los roles que esto puede exigir: Data Science para interrogar apropiadamente los datos, tecnólogos de Big Data con capacidades de despliegue de infraestructura, estadísticos y matemáticos, «visualizadores» de datos, etc. A esto, debemos sumarle la importancia de tener cierta orientación a procesos de negocio o mercado en general, dado que los datos son objetivos per se; de dónde se extrae valor es de su interpretación, interrogación y aplicación a diferentes necesidades de empresa. Ahora mismo, este handicap las empresas lo están resolviendo con la formación de las personas de su organización.
  • Proceso de toma de decisiones «data-driven»: con el Big Data, obtendremos «insights». Ideas clave que nos permitirán mejorar nuestro proceso de toma de decisiones. Una orientación hacia el análisis de datos como la palanca sobre la que se tomarán las decisiones dentro de la compañía. Y las decisiones se toman, una vez que la orientación al dato se ha metido en los procesos. ¿Cómo tomaremos la decisión de invertir en marketing? ¿En base a la eficiencia de las inversiones y la capacidad de convertir a ventas? ¿O en base a un incremento respecto al presupuesto del ejercicio pasado? Los datos están para tomar decisiones, no para ser «un proyecto más«. Un 20% es éste factor crítico de éxito.
  • Infraestructura tecnológica: por último, obviamente, es difícil emprender un proyecto de este calibre sin infraestructura tecnológica. Por tecnología Big Data no va a ser. Nosotros también le dedicamos un buen número de horas de otro módulo a ello. El panorama tecnológico es cada vez más amplio. Pero, ya ven los elementos anteriores que debemos tener en consideración antes de llegar a este punto.

En cierto modo, estos elementos (Calidad de los datos, Liderazgo, Personas, Decisiones con datos e Infraestructura), con diferentes pasos y orden de importancia, es lo mismo que viene a recomendar un libro que encuentro siempre muy interesante para comenzar con el Big Data: «Big Data: Using Smart Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance«. De él, extraigo la siguiente imagen, que creo ilustra muy bien la idea:

SMART model includes Start with strategy, Measure metrics and Data, Analyse your data, Report your results and Transform your business and decision making (Fuente: http://www.amazon.es/dp/1118965833/ref=asc_df_111896583332101237/?tag=googshopes-21&creative=24538&creativeASIN=1118965833&linkCode=df0&hvdev=c&hvnetw=g&hvqmt=)
SMART model includes Start with strategy, Measure metrics and Data, Analyse your data, Report your results and Transform your business and decision making (Fuente: http://www.amazon.es/dp/1118965833/ref=asc_df_111896583332101237/?tag=googshopes-21&creative=24538&creativeASIN=1118965833&linkCode=df0&hvdev=c&hvnetw=g&hvqmt=)

Ya veis que esto del Big Data y Analytics no va solo de tecnología. Hay muchos otros factores. Que, todos ellos, afectan al nivel de madurez de una organización para sacar provecho de un proyecto de análisis de datos.  Así que, para el próximo proyecto de Big Data que vayas a comenzar, ¿cómo tienes estos elementos de «maduros»?

Sesiones «Smart Data» en Forotech 2016

Esta semana que entra, celebramos Forotech 2016, que resulta siempre muy especial para los que conformamos la comunidad Deusto Ingeniería. Un encuentro entre la universidad, empresas, estudiantes y el público en general para despertar el interés por la ingeniería y la tecnología.

Entre las numerosas actividades que podréis encontrar, el próximo jueves 10 de marzo, celebramos, por la tarde, varias actividades relacionadas con el «Big Data». Buscamos otra mirada a este mundo de los datos. Una mirada hacia la inteligencia, hacia la calidad de los datos, hacia el volumen de datos justo y necesario para extraer conocimiento y fuentes de valor de los mismos, y su importancia en la toma de decisiones estratégicas y de negocio. De ahí que hayamos utilizado el término «Smart» en lugar del término «Big».

El concepto «Smart Data» hace referencia a información inteligente que puede ser clave para la toma de decisiones. En lugar de enfocar los problemas los problemas desde una óptica de «mucha cantidad para sacar algo de valor«, lo enfocamos desde una lógica de «datos justos que ya permitan sacar conclusiones significativas«.

De 15:30 a 17:00, organizamos una de nuestros habituales sesiones interactivas que hemos venido a bautizar como «Datos Inteligentes-Smart Data«. Para ello, tenemos la fortuna de contar con la moderación de Iñaki Ortega, director de Deusto Business School – Madrid. Una persona muy reconocida en este mundo de cruce entre la era digital y los negocios, que nos guiará a lo largo de una sesión en la que participarán cuatro personas:

  • José Luis García Díaz. Director de Soluciones de Gobierno y Sanidad. en Microsoft. Título ponencia: “Dato = Moneda/Sociedad Digital
  • Javier Goikoetxea González. CEO Grupo NEXT. Título ponencia: “Caso práctico de uso de la información; el caso del Grupo NEXT
  • Ana Cruz Orti. Account Executive para cuentas Enterprise en Linkedin. Título ponencia: “TBD
  • Alex Rayón. Director Programa de Big Data y Business Intelligence. Título ponencia: «El poder del Big Data en nuestras sociedades inteligentes, pero con una dimensión ética«.

Los cuatro ponentes, expondrán su caso y visión particular sobre contextos donde el dato ha dotado de una inteligencia a la toma de decisiones. Y lo harán, exponiéndolo durante unos breves 15 minutos, y con un «formato TED«, píldoras de vídeo que serán grabadas y que luego colgaré aquí en el blog. Una vez concluídas sus intervenciones, se realizará un «debate a cuatro sin atril» sobre diferentes cuestiones en las que Iñaki Ortega nos guiará. Un debate que busca una conversación natural sobre los temas, en los que poder obtener conclusiones alrededor de ese enfoque hacia «la inteligencia de los datos«.

Una vez finalizado este evento, entregaremos los títulos a los graduados de la primera promoción de nuestro Programa de Big Data y Business Intelligence. Un total de 21 estudiantes, que ocupan ahora su día a día en la aplicación de los datos en diferentes contextos de su día a día (sanidad, medios de comunicación, comercio electrónico, consultoría tecnológica, finanzas, etc.).

Para finalizar la jornada, contaremos con otro invitado de verdadero lujo, Miguel Zugaza, director del Museo del Prado. Junto con Ricardo Maturana, CEO de GNOSS, la empresa proveedora de la tecnología que ha permitido este proyecto, nos hablará sobre el proyecto de transformación digital que ha emprendido en el Prado. Un proyecto, apoyado, entre otras cuestiones, en datos abiertos y enlazados, como ya expliqué aquí.

Navegando por el Museo del Prado en la web
Navegando por el Museo del Prado en la web

El proyecto de datos abiertos con el que el Museo del Prado ofrece a sus visitantes la posibilidad de disfrutar de una experiencia de visita digital, se fundamenta en la apertura de sus obras y los atributos que la describen. Unos datos enlazados, que permiten sugerir visitas, recomendar obras y autores, etc. En definitiva, el diseño y desarrollo de experiencias web enriquecidas gracias a otro enfoque de «Smart Data«.

En definitiva, una apasionante jornada de tarde de jueves, en la que los datos nos acompañarán desde las 15:30 hasta la noche. Estáis todos invitados e invitadas para entender este enfoque «Smart data». La inscripción a cualquiera de los eventos que he descrito la puedes realizar en este formulario. Te esperamos 🙂

Deusto Ingeniería y su línea Big Data en el Congreso HORECA de AECOC 2016

Nuestra línea de trabajo Big Data de la Facultad de Ingeniería de la Universidad de Deusto estará presente en el próximo Congreso HORECA de AECOC que se celebrará los próximos 1 y 2 de Marzo en Madrid. Me han invitado para divulgar los principales beneficios que aporta el Big Data a la HOstelería, REstauración y CAfeterías (HORECA), desde una perspectiva de negocio. Una oportunidad inigualable para presentar todos nuestros trabajos, dado que es un congreso que reúne anualmente a más de 500 directivos y empresarios de las empresas de toda la cadena de valor de la hostelería.

Venimos colaborando con AECOC en diferentes actividades. Una asociación que recoge a los fabricantes y distribuidores del gran consumo, tal y como su acrónimo indica (la Asociación Española de Codificación Comercial, los que ponen «los códigos de barras«). El curso pasado nos premiaron con el máximo máximo reconocimiento de la categoría de Tecnología Aplicada y el Accésit de la de Supply Chain por una herramienta para la mejora de la cadena de suministro (proyecto donde participó mi compañero Alberto de la Calle) y a nuestra «Deusto Moto Team«, por el diseño y creación de una moto ecológica para el transporte urbano de mercancías (proyecto de mi compañero Jon García Barruetabeña y sus estudiantes).

Y ahora, se interesan por las oportunidades que todos nuestros trabajos en Big Data brindan al sector del consumo en general, y al canal HORECA en particular. Y de ello quería hablar hoy, aprovechando que tengo que preparar las ideas para la conferencia.

Como suelo decir, el Big Data, sirve para tres cuestiones principales:

  1. Ganar más dinero
  2. Evitar perderlo por la fuga de clientes (la importancia de la fidelización)
  3. Ahorro de costes mediante la optimización de procesos

Dada la enorme competencia existente ya hoy en día, la diferenciación debe venir por otras vías. La gran cantidad de canales que disponen los consumidores, el bombardeo de impactos publicitarios, la gigantesca campaña de descuentos y tarjetas de fidelización, etc., está provocando que las marcas tengan que dar un paso más allá. Y, al canal HORECA todo ello le viene genial. Y es que el Big Data, permite:

  • Geolocalizar el target de clientes
  • Estimar el mercado potencial de clientes
  • Hacer una previsión de ventas por zonas y puntos de venta
  • Que permite, a su vez, optimizar el proceso de abastacimiento y logística
  • Optimizar las campañas de marketing y distribución
  • etc.

La clave para las marcas de consumo recae en ser capaces de, primero, generar y estructura bien los datos, y, en segundo lugar, ser capaces de sacar valor de los mismos transformándolos en conocimiento. Hablaré de estos dos elementos a continuación, como forma de agrupar los principales retos y oportunidades que dispone una marca de consumo hoy en día.

En primer lugar, la imperancia de disponer de «datos de calidad«. En nuestro Programa de Big Data y Business Intelligence, lo primero que hacemos es ver esta parte. Tener datos y más datos no tiene sentido por si solo. Hablamos de la importancia de disponer de:

  • Un buen modelo de datos como instrumento de representación y recuperación de los datos, que permita que todos los sistemas que alimentan y explotan los mismos se entiendan.
  • Una buena calidad de los datos que se consigue resolviendo problemas de calidad que pueden aparecer en cinco dimensiones (Relevancia, Unicidad, Completitud, Exactitud y Consistencia).

Esta parte, quizás la «menos sexy del mundo del Big Data«, resulta al final de todo quizás la que más condiciona el éxito de un proyecto. Las empresas deben tener conciencia sobre ello. Y es que en un mundo en el que las fuentes de datos pueden ser internas o externas, estructuradas o desestructuras, etc., ordenar y limpiar los datos es más importante que nunca. Para un canal HORECA, que tendrá datos de redes sociales, información en los CRM, información de los TPVs (transacciones comerciales pagadas vía tarjeta de crédito), datos georeferenciados por dispositivos móviles, etc., resulta fundamental.

En segundo lugar, ser capaces de transformar estos «datos bien preparados» en conocimiento. Es decir, poner los datos a trabajar para ayudar a tomar decisiones. Se trata de introducir la modelización estadística (previsión) y la matemática (optimización), que es lo que vemos en nuestro módulos M2.2. del Programa de Big Data y Business Intelligence.

Y para ello, creo que se deben ejecutar las transformaciones de datos en conocimiento en tres etapas:

  1. Diagnóstico y modelado de perfiles de clientes: resulta crítico conocer mejor al cliente, para que así podamos focalizar mejor el target, definir las estructuras comerciales, promociones, políticas de distribución, etc. Una lectura hacia lo que ha ocurrido en el pasado. En cada punto del canal HORECA, resultaría interesante disponer:
    • Cómo es la gente que ahí compra
    • Su nivel de ingresos
    • Tipología del hogar dominante
    • Tasa de desemploe
    • Precio medio del m2 de la vivienda
    • Dónde está la competencia
    • Dónde se sitúan los puntos de venta
    • etc.
  2. Del modelado del pasado, a la predicción del futuro: una vez que sabemos algo sobre los patrones de consumo, tendencias, etc., es hora de tratar de adelantarnos a la ocurrencia de los hechos. Aquí es cuando hablamos de un enfoque de futuro (el Business Analytics). De tal manera que podamos estimar el mercado potencial para una zona dada, preveer las ventas en cada área o en un canal de venta determinado. Aquí se trata de darle a una empresa:
    • Modelos de propensión a la compra por zonas y puntos
    • Modelos de propensión a la fuga de clientes por previsiones de abandono
    • Localizar el potencial de cada target de mercado (densidad de cada zona)
    • Estimar el lugar óptimo para la apertura de un nuevo emplazamiento sobre la base de la rentabilidad (considerando target, competencia y canibalizar otros puntos de venta propios)
    • Entender lo que gasta y en qué gasta cada perfil de cliente
    • Diseñar estrategias para el cross y up-selling
    • Ajustar la distribución de productos
    • Patrones de consumo georeferenciados (¿se consume más cerca del trabajo o del hogar? Las ofertas y mensajes publicitarios no debieran ser iguales)
    • % de probabilidad de compra de un determinado producto por parte de un determinado perfil de cliente
    • etc.
  3. De la predicción a la prescripción: esto es lo que buscan las empresas. Fijaros la cantidad de pasos previos que he descrito para llegar al punto por el cual las empresas van a pagar un proyecto de Big Data. Van a pagar por saber qué tienen que hacer para ganar más dinero, evitar perderlo u optimizar procesos. Es decir, van a pagar por que les prescribamos que deben hacer. Si nos ajustamos más al target de mercado, y tener una previsión de ventas por puntos y zonas, podremos ajustar mejor los mensajes y las estructuras comerciales, logrando así una mayor eficiencia en el uso de recursos, y por lo tanto, un mayor retorno sobre la inversión. Con las predicciones anteriores, podríamos prescribir a una empresa en relación a todas sus áreas funcionales, haciendo así un 360º a la empresa y su inteligencia:
    • Distribución
    • Abastecimiento
    • Comercial
    • Marketing
    • Ventas
    • Publicidad
    • etc.

Como hemos venido señalando, el poder del Big Data es realmente enorme. En nuestras manos está sacar todo su potencial. Y es que al final, para una empresa del canal HORECA, un mayor conocimiento geográfico del cliente, concentrar esfuerzos donde hay potencial, incrementar la rentabilidad comercial resulta clave para su eficiencia económica y financiera.

Congreso HORECA de AECOC (Fuente: http://www.shoppingleeks.com/wp-content/uploads/sites/8/2015/05/IMG_0535.jpg)
Congreso HORECA de AECOC (Fuente: http://www.shoppingleeks.com/wp-content/uploads/sites/8/2015/05/IMG_0535.jpg)

El empleo y Big Data: oportunidades de futuro

Este pasado viernes 29 de Enero arrancamos la segunda edición de nuestro Programa en Big Data y Business Intelligence.  El grupo lleno (27 plazas), y con varias personas en lista de espera que no hemos podido incluir en el grupo final. Ya estamos trabajando en la apertura de un segundo grupo, ante el número de peticiones que siguen llegándonos.

Estamos realmente contentos por muchos motivos. Pero quizás, el que más nos satisface, es poder seguir formando personas en un área que cada vez es más objetivo decir está trayendo un empleo de calidad y futuro. Revisemos cifras e informes para avalar esta afirmación. Una simple búsqueda en uno de los portales de referencia ya arroja bastante luz alrededor de todo ello:

Búsqueda rápida en Infojobs por puestos de trabajo en Big Data
Búsqueda rápida en Infojobs por puestos de trabajo en Big Data

¿Por qué las empresas empiezan a demandar con fuerza el Big Data? Pues básicamente por lo que aportan al día a día de una compañía. Dado que ayuda a tomar decisiones de negocio directamente relacionadas con el resultado económico, las empresas rápidamente reaccionan. Básicamente, en las tres principales utilidades que ofrece el Big Data: Ganar más dinero, Ahorrar costes, Evitar fraude y fuga de clientes. Todas, explotaciones relacionadas con el resultado económico de una empresa, como decía.

Las capacidades analíticas, que son precisamente las habilidades que trabajamos en nuestro Programa, ayudan mucho al profesional Big Data a aportar valor allí donde se desempeñe profesionalmente. Como dice la siguiente noticia: «Las empresas se rifan (literalmente) a los profesionales del Big Data«.

Las empresas se rifan (literalmente) a los profesionales del Big Data (Fuente: http://www.marketingdirecto.com/actualidad/marketing/las-empresas-se-rifan-literalmente-a-los-profesionales-del-big-data/)
Las empresas se rifan (literalmente) a los profesionales del Big Data (Fuente: http://www.marketingdirecto.com/actualidad/marketing/las-empresas-se-rifan-literalmente-a-los-profesionales-del-big-data/)

Mucho ha llovido desde que en 2012 la revista Harvard Business Review calificó como «la profesión más sexy del siglo XXI». Cuando creamos el programa hace año y medio, pusimos esto:

Según Gartner, en 2015 van a ser necesarios 4,4 millones de personas formadas en el campo del análisis de datos y su explotación. En este sentido, McKinsey sitúan en torno al 50% la brecha entre la demanda y la oferta de puestos de trabajo relacionados con el análisis de datos en 2018.

1,2 millones de puestos de trabajo serían para Europa Occidental. Pero creo que estamos ya a unas alturas que datos más concretos y actuales pueden ser expuestos. El Bureau of Labor Statistics (BLS) de Estados Unidos prevé que entre 2010 y 2020 los empleos relacionados con la tecnología crezcan un 22%. Dado que en el sector de la tecnología, uno de los paradigmas reinantes, es el del Big Data, no creo que esté equivocado al afirmar que muchos de esos puestos de trabajo irán a parar a «perfiles de datos«. La sensorización del mundo, la introducción de tecnologías avanzadas en la industria, está haciendo que cada vez existan más datos, y por lo tanto, más demanda para poner ese dato en valor. Ahí es donde necesitamos esos perfiles.

El recorrido es aún amplio porque en España, solo un 4,8% de las empresas ha integrado la tecnología de Big Data en sus estrategias de negocio. Aunque seguramente esta cifra sea mayor hoy en día, la idea sigue vigente: cada vez más empresas se preguntan por la utilidad que pudiera tener el Big Data en su día a día. Hace cosa de un mes, Expansión me entrevistó precisamente hablando de todo esto, cómo el Big Data iba a cambiar nuestra forma de trabajar.

Más allá de las cifras en términos absolutos, es bueno ver la tendencia relativa. Quizás las cifras más claras las ofrece el «Observatorio del Empleo en perfiles Big data«.  Las ofertas de empleo en España para el sector Big Data, según el portal ticjob.es (portal de empleo especializado en el ámbito TIC) se han triplicado en los últimos 12 meses pasando de 646 a 1.797 trabajos ofertados. Pero es que además, el número de candidatos por vacantes ha descendido de 9 a 5. Es decir, crece la demanda, pero baja la oferta.

Fuente: ticjob.es
Fuente: ticjob.es
Fuente: ticjob.es
Fuente: ticjob.es

Como veis, la demanda por perfiles Big Data tiene un crecimiento importante. Pero, también los salarios, como se puede apreciar en la siguiente gráfica:

Fuente: ticjob.es
Fuente: ticjob.es

Los puestos de trabajo Big Data tuvieron un salario promedio en 2014 de 37.705 euros. Solo el perfil de arquitecto de información (que en cierto modo también guarda relación con el área de Big Data), tenía un salario más alto. Y eso que, según el mismo informe, el descenso del salario se debe básicamente a la amplia incorporación de perfiles que tienen menos de 3 años de experiencia, y que por lo tanto, hacen bajar la media. Pero, aún así, un salto cualitativo importante en términos de calidad del trabajo, independientemente de la edad del candidato.

Por lo tanto, como decíamos al comienzo, parece que el Big Data nos va a dar trabajo durante un tiempo determinado. El empleo y Big Data gozan de buena salud, y así lo trabajaremos con la formación de calidad que daremos a nuestros participantes de esta segunda edición del Programa. Bienvenidos a todos y todas 🙂

La Medicina 5P: sanidad y Big Data

Watson, un sistema inteligente desarrollado por IBM, se hizo popular cuando se presentó al concurso Jeopardy y ganó a los dos mejores concursantes de la historia del programa. Es un programa basado en el «formato trivial«: programas que requieren de unas preguntas, y un conjunto de respuestas cerradas. Watson, con una capacidad descomunal para replicar muchas de las singularidades de los humanos (formulación de hipótesis, búsqueda de evidencias, comparación de posibles respuestas, selección de la mejor respuesta en base a diferentes parámetros, tratamiento de información no estructurada, etc.), dejó al mundo a la puerta de los nuevos sistemas basados en grandes cantidades de datos.

Pero esta herramienta no fue diseñada y desarrollada para ganar concursos televisivos. Llegó para aportar valor en diferentes sectores y actividades económicas. Primero, fue el sector sanitario, que es el que nos va a ocupar hoy en este recorrido por las posibilidades que trae el Big Data y el Business Intelligence.

Watson fue solicitada por la empresa de servicios sanitarios WellPoint y el Memorial Sloan-Kettering Cancer Center para proporcionar servicios de diagnóstico. Es decir, ayudar en una de las tareas más singulares del ser humano: detectar problemas. Watson pronto comenzó a mostrar sus resultados. Mejoró la predicción desde un 50% hasta el 90%.

Watson como apoyo al diagnóstico de un médico (Fuente: https://tctechcrunch2011.files.wordpress.com/2015/07/11825174446_ed8992056f_k.jpg?w=738)
Watson como apoyo al diagnóstico de un médico (Fuente: https://tctechcrunch2011.files.wordpress.com/2015/07/11825174446_ed8992056f_k.jpg?w=738)

Watson aporta al campo sanitario muchas ventajas. Especialmente, porque a un servicio y profesión como las del ámbito sanitario, viene muy bien el disponer de muchos datos de evidencias pasadas, casos parecidos (misma tupla «pregunta»-«respuesta»), lectura de conocimiento no estructurada (artículos científicos sobre evidencias para la cura de enfermedades, etc.) Y es que al final, la decisión sobre el mejor tratamiento es una mezcla de todas esas capacidades.

Presentado este contexto con Watson, podríamos así preguntarnos: ¿cómo ha cambiado entonces el mundo sanitario gracias al Big Data? Pues de manera considerable. Especialmente, por la eficiencia que aporta a los sistemas de salud a la hora de la presentación del servicio al paciente (obviamente lo más importante), tanto en términos de eficiencia como de buen resultado.

En la cadena de valor de los sistemas sanitarios, al final, hay muchos agentes a los que esta gran cantidad de datos les podría aportar mucho valor en su día a día:

Agentes de un Sistema Sanitario (Fuente: http://3.bp.blogspot.com/-kV428JAK1SY/TggNPktCI1I/AAAAAAAAAJA/NsgDhYy8kyA/s1600/Hospital.png)
Agentes de un Sistema Sanitario (Fuente: http://3.bp.blogspot.com/-kV428JAK1SY/TggNPktCI1I/AAAAAAAAAJA/NsgDhYy8kyA/s1600/Hospital.png)

Pacientes, gestores, proveedores de servicios auxiliares y, como no, los cuidadores (médicos, cirujanos, enfermeros, etc.), podrían beneficiarse de la eficiencia y ventajas que trae obtener insights de los datos. Aquí es donde varios expertos de la materia hablan de la futura Medicina 5P, el cruce entre la sanidad y Big Data:

  • Personalizada: el eterno sueño de la medicina. Poder dar un tratamiento singular al diagnóstico y necesidades concretas de cada uno de los pacientes. Con el Big Data, la cantidad ingente de datos, y el contexto que describe a cada uno de los pacientes, esto es posible. Solo es cuestión de «codificar» en datos lo que hasta ahora no hemos hecho, en cuestión de aspectos clínicos como estado de ánimo, emociones, expresión del dolor, etc.
  • Predictiva: se trataría de pasar de un modelo reactivo de sanidad a otro modelo activo y predictivo mucho más eficiente en el que el sistema sanitario y sus cuidadores, advierte directamente al paciente de situaciones potencialmente peligrosas. La estadística al servicio de nuestra salud.
  • Preventiva: se trataría de prevenir la aparición de enfermedades, basada en un conjunto de actuaciones médicas y el análisis de patrones y datos históricos. Ya sabemos esa máxima de «Es mejor prevenir que lamentar», que en medicina cobra más sentido que en cualquier otra área de la vida.
  • Participativa: la importancia que todos los agentes de los que hemos hablado anteriormente estén bien coordinados. El trabajo con pacientes no solamente tiene impacto en los aspectos terapéuticos, sino también en la gestión y los procesos, de manera que no escape detalle alguno (esto en España, donde tenemos una fragmentación de la organización del Sistema Sanitario importante, con 17 sistemas, vendría realmente bien).
  • Poblacional: para toda la población. La posibilidad de hacer más eficiente el sistema podría traer que con los mismos recursos, pudiéramos atender a un mayor volumen de población. En definitiva, no dejar a nadie sin atención.

Tampoco esta labor será sencilla. Mucho del conocimiento sanitario se encuentra expresado en fuentes no estructuradas. Es decir, sin ningún tipo de estructuración en matrices de datos. Las tecnologías para procesar este conocimiento es bastante más complicada y costosa que la que procesa datos estructurados.

Por otro lado, mucho de los tratamientos sanitarios funcionan en un contexto dado, pero no en otros. Esto hace que la codificación en datos de este contexto resulte vital. Y a su vez, genera más complejidad tanto de generación y gestión de datos, como de procesamiento y posterior puesta en valor. Además, la complejidad de los datos (desde los genóminos, pasando por biomarcadores, así como aspectos de índoles social) es importante. Su organización, vital para sacarle valor a los datos.

Como suele ocurrir con el Big Data, esto no está exento de riesgos. La recogida de los datos de comportamiento de los pacientes con sensores, genera datos. ¿Y dónde quedan? ¿Y de quién son? Son aspectos que, como suele ocurrir, la ley aún no contempla. Es algo que en anteriores ocasiones ya he comentado. Los aspectos sociales y de comunicación resultan críticos aquí. No debemos olvidar los aspectos de privacidad entonces. Y por último, el «profiling» de clientes y las posibilidades de toma de decisiones ajenas a la ética que trae. ¿No atenderé a un cliente que a tenor de los datos está en un riesgo alto? ¿No cubriré con una póliza de seguro a una persona con muchas probabilidades de fallecer? Pueden resultar cuestiones obvias, pero no está de menos sacarlas.

Ya ven que son muchos sectores los que traen posibilidades y retos con el Big Data. El campo sanitario no es esquivo a ello. La sanidad y Big Data de la mano para una mejor sociedad y bienestar de todos.

Privacy y Security by design: ¿qué son y por qué son relevantes?

En esta era de la personalización, del consumidor exigente, una cosa que obviamos es que sí, las empresas saben más de nosotros que nunca. Y quieren saber cada vez más. Según el estudio The Talent Dividend, elaborado por la revista MIT Sloan Management Review y la empresa de software analítico SAS, basado en entrevistas a 28 ejecutivos de firmas internacionales y encuestas a 2.719 empleados, el 50% de las compañías asegura que entre sus prioridades está aprender a transformar los datos en acciones de negocio.

¿Sabemos realmetne lo que hacen las empresas con nuestros datos e información? ¿Cómo la protegen? ¿Qué hacen con ella? ¿La venderán? ¿Cumplen con lo que nos dicen? Datos que vamos dejando sin daros cuenta cada vez que hacemos una búsqueda en Google, cada vez que compartimos un tweet, un post, una fotografía en Instagram o un comentario en Facebook. Por poner solo varios ejemplos.

Cuando de forma voluntaria accedes a compartir datos con tus apps, parece de justicia, que el uso de esa información te traiga ciertos beneficios. De ahí, podemos decir que es importante que te digan qué harán con esa información. Por todo ello, aparecen las preocupaciones por la privacidad. En Europa, es algo que nos preocupa. Por eso también saber dónde dejamos esos datos: si es un proveedor americano, ¿está en Europa también? ¿o los manda para EEUU automáticamente?

Para resolver todas estas inquietudes y preguntas abiertas, el grupo de trabajo del artículo 29, un organismo consultivo de la Comisión Europea, se dedica a efectuar recomendaciones en materia de privacidad.

Grupo de Trabajo del Artículo 29 (Fuente: http://ec.europa.eu/justice/data-protection/article-29/index_en.htm)
Grupo de Trabajo del Artículo 29 (Fuente: http://ec.europa.eu/justice/data-protection/article-29/index_en.htm)

El pasado 2014, elaboró una opinión (Dictamen 8/2014), sobre los riesgos a la privacidad de este mundo conectado. Esas líneas de reflexión, posiblemente generen regulaciones futuras, y se centraban en dos elementos: «privacy by design» y el «security by design«. ¿Qué es esto?

Básicamente, se trata de un enfoque que aboga por la privacidad y la necesidad de tener en cuenta la seguridad en el mismo momento del diseño de los objetos inteligentes. Es decir, en lugar de tener que hacer este ejercicio de protección y seguridad a posteriori, hagámoslo antes de fabricar los objetos.

Este enfoque está ganando especial relevancia ante el previsible auge de los objetos conectados a Internet. Es decir, el paradigma Internet of Things. Cuando estemos interaccionando a través de Internet con «todos» los objetos que nos rodean (el microondas, el coche, el teléfono móvil, el autobús, la tarjeta de crédito, etc.), obviamente, la cantidad de datos que vamos a generar va a ser aun mayor que la actual. Es por ello, que tenemos «Big Data» para rato. Pero también debemos tener preocupación por la privacidad de los datos que generamos, y sobre todo, hacerlo en un marco de seguridad.

Pues bien, este Grupo de Trabajo del artículo 29, habla del Privacy y Security by design como una forma de enfocar el diseño y desarrollo de los objetos conectados a Internet de los que nos rodearemos a futuro. Y me ha parecido especialmente relevante citar estas cuestiones debido a que el software que deberemos desarrollar para poner en valor esos datos, deberá cumplir estos principios también.

¿De qué estamos hablando? Básicamente, de la protección de datos y de aspectos relacionados como:

  • El Dictamen plantea tres escenarios donde se debe prestar especial atención:
    • Tecnología para llevar puesta (wearable computing)
    • Dispositivos capaces de registrar información relacionada con la actividad física de las personas
    • La domótica
  • Los objetos que recogen datos relacionados con la salud y el bienestar del ciudadano, pese, a ser anónimos en un principio, pueden revelar aspectos específicos de hábitos, comportamientos y preferencias, configurando patrones de la vida de las persona (con los consiguienres riesgos morales que puede suponer).
  • Recomendaciones de utilidad en el desarrollo de estándares tecnológicos en el ámbito del Internet de las Cosas (y así evitar problemas para el usuario a la hora de querer cambiar de un contexto a otro)
  • Alerta que el usuario puede perder el control sobre la difusión de sus datos si la recogida y el procesamiento de los mismos se realiza de manera transparente o no (la importancia de tener claro el marco donde serán tratados esos datos)
  • Manifestar claramente que la información personal sólo puede ser recogida para unos fines determinados y legítimos

Considerando estos aspectos antes de empezar el diseño y fabricación de un objeto, el dictamen asegura que evitaríamos muchos problemas y retos legales y éticos que tenemos en la actualidad.

Ya ven, de nuevo, que la era del Big Data, además de que nos vaya a dar mucho trabajo a futuro, también chocará con los marcos normativos. Por eso es importante también considerar enfoques tan novedodos como el «Privacy y Security by design«, y así evitar limitaciones de diseño y desarrollo a futuro, chocando con el ámbito jurídico.

La analítica avanzada en tiendas, vacas y ascensores: la predicción al servicio de la productividad

Leyendo tres noticias de sectores diferentes (lineal de productos, rendimiento de las vacas y seguridad en ascensores), uno puede darse cuenta de la capacidad que tienen las tecnologías habilitantes Big Data e Internet of Things para aumentar los resultados y las posibilidades de un negocio dado.

Fuente: http://cincodias.com/cincodias/2016/01/07/pyme/1452160715_268138.html
Fuente: http://cincodias.com/cincodias/2016/01/07/pyme/1452160715_268138.html
Fuente: http://www.elconfidencial.com/tecnologia/2015-06-05/microsoft-inteligencia-artificial-big-data-vacas_869589/
Fuente: http://www.elconfidencial.com/tecnologia/2015-06-05/microsoft-inteligencia-artificial-big-data-vacas_869589/
Fuente: http://economia.elpais.com/economia/2015/10/27/actualidad/1445970291_443260.html
Fuente: http://economia.elpais.com/economia/2015/10/27/actualidad/1445970291_443260.html

Hace ya 10 años, fabricantes de electrodomésticos nos hablaban sobre la posibilidad de hacer pedidos con carácter predictivo sobre la base de tu consumo. Pensábamos en ello como algo irreal. A mí me cogió esa época como estudiante de Ingeniería en Informática. ¿Meter Internet en objetos físicos? Nos parecía algo irreal.

Pero hoy, estos objetos conectados e inteligentes, son toda una realidad. Para que un objeto sea inteligente, debe ser capaz de monitorizar. Es decir, sensores y datos externos entiendan el entorno y sean capaces de informar de los cambios. Y lo que ha ocurrido en estos últimos años son dos cosas: Por un lado que las tecnologías han ido madurando, hasta los sistemas de análisis de datos, motores de reglas para generar automatizaciones y toma de decisiones actuales (popular y ambiguamente denominados «Big Data«). Y, en segundo lugar, la generalización de las interfaces o API que han permitido la definición de estándares y los «things» u objetos, ahora se interconectan, hablan y trabajan solidaria y colegidamente.

Esta nueva revolución industrial, según General Electric, será capaz de producir un incremento del 1% en la eficiencia de las empresas. Y eso, aún hoy en día, en el que el 99% de los objetos del mundo, no están todavía conectados a Internet, por lo que no pueden beneficiarse de todas estas eventuales mejoras. Por ello, CISCO, en su informe «Internet de las cosas y la evolución de Internet«, alerta que en 2020 habrá más de 36.000 millones de dispositivos inteligentes conectados en lo que se ha venido a denominar Internet of Everything.

Todo esto, para el «mundo Big Data» es una oportunidad muy importante. Se estima que menos del 1% de la información derivada de la conectividad de los objetios se emplea. Existe, así, mucho potencial para la optimización, modelos preventivos y predictivos, y en definitiva, para la monetización. Las tres noticias antes mostradas, son prueba de lo que intentamos exponer en este artículo.

Por un lado, MobileXperience, que ofrece más productividad a las empresas y adelantarse a demandas de producto y satisfacer mejor la experiencia de cliente. Es decir, «adelantarse» a las compras de los clientes, lo que puede traer, no solo mejor rendimiento de la ubicación de los productos en el lineal (más ventas), sino también menos costes logísticos y de almacén (menos coste). Es decir, dos de las principales ventajas de lo que el Big Data aporta a las empresas.

El segundo lugar, el «Internet de las vacas«. Como se puede leer aquí, si se colocan sensores en las patas de las vacas con objeto de monitorizar sus pasos, a través de los patrones que se obtengan, se puede determinar el momento óptimo para inseminarla y predecir así el sexo del ternero. Los resultados son que en las granjas que han probado este sistema, se ha logrado un 50% más de terneros, con los consiguientes beneficios.

Por último, ThyseenKrupp Elevadores, que quería obtener una ventaja competitiva a través de lo que más importa a sus clientes: fiabilidad (pensad en vosotros mismos al montar a un ascensor). Por lo tanto, a menos averías, más fiabilidad, y más ventajas competitiva. Para ello, resulta fundamental adelantarse a situaciones en las que el ascensor suele averiarse. Por ello, se desarrolló una solución para detectar problemas en ascensores ante las primeras señales de alerta, y así hacer un mantenimiento preventivo en lugar de correctivo (lo cual trae importantes ahorros a las empresas). Más allá de aspectos mecánicos y de diseño, los sensores y los datos que generan importantes oportunidades de mejora en los procesos de la organización.

ThyseenKrupp calcula que la suma de las esperas de los 1.000 millones de personas que anualmente emplean alguno de los 12 millones de ascensores que funcionan en el mundo, produce pérdidas de 190 millones de horas (traduzcan esto a euros en su emprsa…). Una cifra que podría reducirse a la mitad si todos los aparatos llevaran el nuevo sistema. Por lo tanto, más productividad para las empresas.

En un país como España, quinto país con más ascensores del mundo (880.000 unidades), puede tener un impacto importante. Y ahora piensen en la proyección de urbanización en el mundo,  y la necesidad de ascensores que habrá (según proyecciones demográficas de Naciones Unidas, en 2050 vivirán cerca de 9.100 millones de personas en ciudades, un 70% de la población global). De nuevo, el Big Data, como promesa de gran impacto social, económico y productivo.

Según Accenture, en un informe elaborado con stakeholders de la industria, esta tendencia de convergencia entre Big Data e Internet of Things, se puede resumir en torno a cinco actividades de negocio:

  • Transporte conectado: mejora de la experiencia en medios de transporte.
  • Espacios conectados: mejora del uso de espacios físicos donde trabajamos y vivimos, incluyendo edificios inteligentes, hogares inteligentes u otros lugares donde se puede reducir el consumo energético.
  • Operaciones conectadas: enriquecimiento de los procesos de trabajo y de los activos para aumentar la productividad.
  • Sanidad conectada: mejora de la calidad de los servicios sanitarios, experiencia de los pacientes -lo más importante, claro-, y los procesos operativos y de uso de equipos médicos.
  • Comercio conectado: nuevos procesos conectados: sistemas de pago, logística, ofertas personalizadas, canales de distribución, etc.

Como pueden ver, la predicción y el mantenimiento preventivo puede traer tanto ahorros como ingresos. En algún sitio de la cadena de valor de una empresa hay una oportunidad de mejora. Noticias que abren la vía a la reflexión sobre cómo un negocio, pudiera explotar sus datos, y «adelantarse» a hechos. Todo ello, de la mano del Internet de las cosas y del paradigma de la analítica avanzada. Uno de los aspectos clave del Big Data y Business Intelligence.

«Usage-based insurance»: transformación del sector asegurador con el Big Data

Una de las cuestiones que más hemos tratado en nuestros últimos eventos tiene que ver con la transformación de diferentes modelos de negocio, industrias y organizaciones sobre la base de la introducción de la «economía del dato» o «tecnologías Big Data».

Estas realidades de transformación, es un aspecto que veremos en cada vez más industrias y sectores. El informe de Accenture «El Internet de las Cosas en la estrategia de los ejecutivos Españoles«, se recoge como el 60% de la alta dirección ve mucho potencial en el Internet of Things. Esto abre una enorme oportunidad para los datos, porque la sensorización de «nuestra vida, y los objetos que nos rodean«, obviamente tiene una capacidad de generación de datos descomunal. Pero en este mismo informe se recoge como se estima que se emplea menos del 1% de la información y los datos que se generan gracias al IoT.

Uno de los sectores con mayor potencial en dicho informe es el de los vehículos personales, con la inclusión de sistemas de diagnóstico a bordo que monitorizan los patrones de conducción para poder ofrecer pólizas a medida. La «personalización de la economía» llegando a otro sector más. De hecho, según el Informe Global de Automoción, El 82% de los conductores espera beneficios de los datos que genere su vehículo.

Dentro de la industria de los seguros, hablamos de las pólizas de vehículos, dada la transformación que está viviendo en los últimos años. Comencemos por EEUU, donde las cosas suelen ir más rápido que por otras latitudes y longitudes. Compañías como Allstate con su programa «Drivewise», State Farm con «Drive Safe and Save» y Progressive con «Snapshot», ofrecen ahora a sus clientes un esquema de relación basada en: yo monitorizo cómo conduces, y si te comportas bien acorde a unos parámetros conocidos, pagarás menos. Es lo que se ha venido a llamar «Usage-based insurance«. Como ya pagamos por el consumo que hacemos de electricidad (bueno, más o menos) o por la gasolina, pues eso mismo, pero en el sector asegurador. Una tendencia que cada vez veremos en más sectores.

El Big Data lo que introduce es la reducción de costes que habitualmente se generan por la asimetría de información. Como yo no sé si te vas a portar bien, por si las moscas, te cobro una póliza mayor. Para ello, las compañías aseguradoras te instalan un GPS que monitorizan patrones de conducción. Estos datos, que tú consientes ceder a la compañía, son, con una granularidad/frecuencia de muestro de entre 1 y 5 segundos:

  • Ubicación: latitud y longitud por donde te vas desplazando.
  • Grado de aceleración/desaceleración: km/h ganados o perdidos, y su comparación en términos de segundos para saber la brusquedad
  • Vector de giro: fuerzas G, que mide en cierto modo la fuerza del giro y su grado de cambio para detectar brusquedad, agresividad, etc.
  • Hora y día: sello de tiempo, para saber sobre qué horas y días te desplazads

Con estos datos (que seguramente tengan más), podemos saber, para un conductor dado:

  • Cómo de brusco conduce: aceleración/desaceleración (el acelerómetro que incorpora lo permite)
  • Cómo gira: fuerzas G de giro para saber su agresividad en las mismas
  • Lugares por los que ha pasado: ¿lugares seguros? ¿carreteras principales o secundarias? etc.
  • Carreteras que más frecuentemente emplea (ya sabemos que las secundarias tienen una tasa de siniestralidad superior)
  • Horas y días de más frecuencia de conducción, para saber si conduce en «rush hours» u «horas pico» (por ejemplo, ya sabemos que a las noches, y en carreteras secundarias, el índice de mortalidad y riesgo es también mayor)
  • Velocidad y estadísticos básicos: media, moda, mediana, máxima, mínima (y poder sacar así patrones)
  • Respeto a las señales de circulación: dado que sabemos por dónde se ha movido, y tenemos datos cartográficos con las limitaciones de velocidad integradas, podemos sacar un «score de buena conducta«, incluso con «grados de cumplimiento» para saber si respeta las normas de circulación.
  • etc.

Según he podido entender,  basan su modelo analítico de scoring en estos datos, de manera que obtienen un «score de conductor«. Un poco en la línea de lo que es disponer de un «score crediticio» (como ya hablamos aquí). Este score permite que con una fórmula de ahorro, podamos decirle a cada conductor cuánto le vamos a cobrar dado su riesgo de conducción. Este modelo de «Pay How You Drive» (PHYD) abre muchas nuevas puertas y seguro vemos recorrido en todo ello próximamente.

Score de conducción (Fuente: https://i.ytimg.com/vi/gj-RO5FE5q4/maxresdefault.jpg)
Score de conducción (Fuente: https://i.ytimg.com/vi/gj-RO5FE5q4/maxresdefault.jpg)

Obviamente en todo esto, no podemos dejar de lado el trade-off entre «Ahorro» vs. «Privacidad». ¿Qué riesgos pueden existir? Que se sepa dónde estemos en todo momento (y el consiguiendo y manido «Gran Hermano»), la «Third-party doctrine» (si cedo los datos a un tecero, no puedo luego reclamarlos de vuelta) y que esto de la información despersonalizada es un mito. Ahora bien, veo «ahorros» no solo individuales, sino globales:

  • Cuando una persona se autodiagnostica, gana en conciencia, por lo que es más probable que cambie de comportamiento. En este punto, y con el objetivo de hacer algún contraste, sería interesante ir perdiendo endogamía en la muestra (actualmente todos los conductores que en EEUU están contratando estos seguros son precisamente los que ya mejor conducían…). Aunque también es cierto que si se acaban metiendo todos «los buenos», los que se quedarían fuera, ¿entiendo reaccionarían? Muy interesante esta línea desde el punto de vista sociológico.
  • Si el «score de conducción» fuese elevado a «Dato público de interés general», podríamos mejorar mucho el sector. Si las compañías aseguradores debieran pasarse ese dato a través de un «Registro Central del Estado«, mucho mejoraría. Como ya funciona para evitar el fraude, por ejemplo. De hecho, entiendo, el primer interesado en esto sería el Ministerio del Interior.
  • Hacer coches y carreteras más seguras, dado que sabríamos cómo se comportan, en agregado los conductores que pasen por determinados puntos. Esto, seguro que a la Dirección General de Tráfico le puede interesar.
  • Se podría llegar a acuerdos con comercios habitualmente relacionados con el vehículo (estaciones de repostaje, compra de productos en tiendas, grandes centros comerciales a los que habitualmente nos desplazamos en vehículos, estaciones de radio, etc.) para ofrecer descuentos a comercios asociados o los que quieran asociar su branding a determinados patrones de conducción.
  • etc.

Hay factores de riesgo al volante que dejamos de lado (micrófonos para el ruido, cámaras para la mirada, copiloto -según un estudio de la Fundación Línea Directa la mujer al volante y el hombre como acompañante es la fórmula de menor riesgo-, etc.), pero quizás veamos pronto todo esto integrado también. Haciendo un rápido Googling para España, he dado con Next Seguros, compañía aseguradora que basa su modelo de negocio en mucho de lo que aquí hemos explicado. En Rastreator salen también algunas otras genéricas que también ofrecen estas posibilidades.

Por último, nunca olvidar del plano legal y la importancia del «Compliance Officer» y garantizarnos que todo esto es posible (a sabiendas que EEUU no es España/Europa, y que la nueva Directiva de Protección de Datos está a la vuelta de la esquina).

Ya ven que esto del «Usage-based insurance» abre muchas cuestiones a reflexionar y transforma muchos elementos de un sector (modelo de negocio, tarificación, plano legal, etc.). Una más, entre las industrias, que el Big Data está dotando de nuevas capacidades.

Del Open Data al Linked Open Data: sacando valor de los datos enlazados

El Big Data, como nuevo paradigma de generación, procesamiento y extracción de conocimiento de los datos, facilita muchas oportunidades. Podemos medirlo prácticamente todo. Esto está dando lugar a diferentes movimientos, como el «Quantify Self«, que nos permite a cada uno de nosotros medir todo lo que hacemos (deporte, ingesta alimentos, horas de sueño, etc.).

Pero, el asunto central no es tanto ya medir, sino entender. Por eso, suelo decir que me gusta más hablar del «Understand Self«. Buscando en Google, veo que todavía no es un término que nadie haya acuñado ni capitalizado. Quizás porque no tiene mucho branding para la industria. Pero quizás podamos extrapolarlo a «Understand Things«. Es decir, que tenemos que cambiar el pensamiento desde la obsesión por el medir y el guardar, a una nueva obsesión: entender, procesar y sacar valor a los datos.

Pero esto no es sencillo. Especialmente, porque los datos brutos son poco expresivos. Necesitamos dar contexto a los datos. ¿Para qué sirve los diez kilómetros o las 1.000 calorias que has ingerido hoy? ¿Para que sirve que una empresa capte 1.000 nuevos leads o tenga más de 200 Likes? Medir está bien, pero hay que dar un paso más allá.

Por todo ello, es importante no confundir datos con información y conocimiento. Si nadie es capaz de analizar la cantidad de datos que generamos, es mejor considerarlo como basura digital. Según un estudio de EMC, en 2013 sólo el 22% de los datos del universo digital fueron útiles, y sólo el 5% de los ellos fueron analizados. A esto me refería al inicio de este artículo.

Supongo que ya habrán visto en innumerables ocasiones la representación estructural entre los Datos, la Información, el Conocimiento, y cada vez más, la Sabiduría. Me refiero a esta representación:

Pirámide Datos - Información - Conocimiento - Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/)
Pirámide Datos – Información – Conocimiento – Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/)

Representa las relaciones estructurales entre Datos, Información, Conocimiento y Sabiduría. La información son datos con cierto sentido significado, el Conocimiento, es Información y contexto, y la Sabiduría, es Conocimiento aplicado. Hasta aquí, entiendo que no aportamos mucha novedad a lo ya conocido.

Pero, lo que sí creemos que aporta es hacer una reflexión sobre esta pirámide cuando hablemos en entornos del sector público y agentes privados con cada vez mayor conversación e implicación con sus agentes (el fenómeno de la transparencia y la participación).

Son numerosas las iniciativas de Open Data que existen en la actualidad. En España, especialmente impulsadas por la Ley de Transparencia y todas las referencias que dicha normativa hace respecto a la apertura de conocimiento. El problema suele radicar en que nos hemos centrado mucho en hacer un ejercicio de aperturaOpen«), dejando de lado el objetivo último de la utilidad del dato en contextos y aplicaciones (es decir, pasar del dato bruto a conocimiento aplicado). Los beneficios vinculados a este movimiento (transparencia y rendición de cuentas, mejora en la toma de decisiones y promoción de una ciudadanía activa, eficiencia operativa, valor económico, etc.), son claros. Pero, ¿alguien conoce alguna medición objetiva y crítica sobre si realmente estamos alcanzado alguno de esos objetivos?

En todo ello, vemos dos asuntos que debieran pensarse más: 1) Las dificultades para hacer progresos en términos de usabilidad y utilidad de ese bien público que es el dato; y 2) El riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades.

En cuanto al punto 1), cabe destacar aquí el fenómeno que en otros países se está viviendo respecto a la migración del «mero» Open Data, al «Open Linked Data». Los datos, cuanto más enlazados y conectados, más valor y utilidad adquieren.  Existen varias disciplinas habilitadoras como la computación y codificación del conocimiento, las redes, la computación ubicua, el almacenamiento de datos, etc.. Todas ellas, creciendo a un ritmo vertiginoso. El origen y el despliegue de datos es muy considerable, y son generados por sistemas de vigilancia y control (smart metering, control de tráfico), por dispositivos digitales (desde smartphones a cámaras), sensores activos y pasivos, escáner y las diferentes versiones de los datos voluntarios (a través de transacciones, interacciones en redes sociales, sousveillance, sistemas de crowdsourcing y ciencia ciudadana), etc.

¿Cómo juntamos todo eso y le damos una utilidad y una usabilidad a la ciudadanía? A través del enlazamiento. Una capa semántica que dé significado a todos esos datos, y que haga que los datos se entiendan entre sí, y que por consiguiente, las máquinas entiendan a los datos. Esto acelera las capacidades y multiplica las posibilidades a los que quieran sacar usabilidad de todos ellos. Big Data no puede no ser Semantic Big Data. Se trata de hacer que las máquinas entiendan nuestro lenguaje para así procesarlo mejor y ofrecer soluciones más afinadas a nuestros problemas. Crear un hub del conocimiento donde todo esté conectado y bien estructurado. Es decir, pasar al Linked Open Data.

Open Linked Data (Fuente: https://en.wikipedia.org/wiki/Linked_open_data)
Open Linked Data (Fuente: https://en.wikipedia.org/wiki/Linked_open_data)

Y la representación sobre estas líneas trabaja en favor de todo ello. Vemos como ya son muchas las organizaciones que publican datos y los enlazan a una gran red de datasets conectados. Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió un esquema de desarrollo de 5 estrellas para Datos Abiertos.

Esquema de cinco estrellas para datos abiertos (Fuente: http://5stardata.info/es/)
Esquema de cinco estrellas para datos abiertos (Fuente: http://5stardata.info/es/)

★ publica tus datos en la Web (con cualquier formato) y bajo una licencia abierta (un PDF colgado en una web, algo muy habitual en nuestro entorno)
★★ publícalos como datos estructurados (un Excel en vez de una imagen de una tabla escaneada, también bastante habitual)
★★★ usa formatos no propietarios (CSV en lugar de Excel, que ya cuesta ver en el entornos)
★★★★ usa URIs para denotar cosas, así la gente puede apuntar a estas
★★★★★ enlaza tus datos a otros datos para proveer contexto

Creo y espero, que en los próximos años, avancemos más hacia esa web de datos enlazados y abiertos.

Respecto a 2), el riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades. En relación a todo ello, me he terminado recientemente de leer el libro «The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences» de Rob Kitchin.  Desde el primer capítulo, este formidable autor se centra en el significado epistemológico de la pirámide DIKW (Data-Information-Knowledge-Wisdom), para afrontar con una mirada crítica, los datos en términos económicos, técnicos, éticos, políticos o filosóficos, con un posicionamiento claro desde el inicio:

“[…] how data are ontologically defined and delimited is not a neutral, technical process, but a normative, political, and ethical one that is often contested and has consequences for subsequent analysis, interpretation and action”.

Esta idea deque el Big Data lo tenemos que sacar de un debate puramente técnico, y llevarlo a otras disciplinas, está cada vez más extendido. Se trata de darle sentido multidimensional a un nuevo paradigma que tiene ideología, normativa, valor económico, etc. Por lo tanto, es susceptible de generar desigualdad, por lo que requiere de intervención pública para mantener nuestros estados sociales de derecho. Es algo que Kitchin no para de destacar a lo largo de todo el libro. Y es algo que tiene mucho que ver con el Linked Open Data; una filosofía marcadamente comunitaria y de generación de riqueza conjunta que puede ayudar en todo ello. Nuestro compañero Diego López-de-Ipiña lleva hablando de esto desde hace ya mucho tiempo (pueden ver sus presentaciónes en su canal de SlideShare).

Esto, que en el mundo del análisis del dato en empresas privadas es importante, más  lo es aún cuando la reflexión se extiende al ámbito público, cuyos socios-dueños-accionistas, somos todos, y no siempre ejercemos como tal con una postura crítica y responsable. El Linked Open Data nos permitirá pasar, de manera efectiva y social, del dato en bruto, al conocimiento colectivo.

Calidad de datos: mucho más que una acción puntual

(Artículo escrito por David Guerrero, profesional del sector financiero y profesor del Programa de Big Data y Business Intelligence de la Universidad de Deusto)

En la sociedad de la información actual las empresas manejan cantidades ingentes de datos, tanto propios como ajenos. Cada vez es más habitual ver reportes obtenidos a partir de diversas técnicas analíticas, y cuadros de mando generados por medio de sistemas de reporting para alta dirección.

A partir de estos informes se toman decisiones que en muchas ocasiones pueden ser cruciales para el devenir de la empresa. Entonces, es de suponer, que estos informes están hechos tomando como base una información de altísima calidad. Pero, ¿realmente lo están?

La calidad de la información o Data Quality en inglés, está cobrando mayor relevancia en los procesos de las organizaciones. Buena parte de culpa la tienen los reguladores, que están empezando a exigir políticas y procedimientos que aseguren unos niveles óptimos de calidad de los datos: Master Data Management (MDM).

No disponer de una política de calidad de datos implica que todos los equipos que vayan a trabajar la información tengan que invertir tiempo en limpiar los datos antes de poder explotarlos para otros propósitos. Además, se corre el riesgo de que en ese proceso de limpieza se generen discrepancias de información si no se adoptan los mismos criterios a la hora de realizar las adaptaciones oportunas.

Las cifras hablan por sí solas, y los expertos coinciden en que 2016 será un año de gran crecimiento en la industria del Data Quality.

  • 78% de las empresas tienen problemas en los envíos de email
  • 83% de las empresas están luchando contra silos de datos
  • 81% de los retailers no pueden apalancarse en los programas de fidelidad debido a información inexacta
  • 87% de las instituciones financieras tienen dificultades para obtener inteligencia confiable
  • 63% de las compañías todavía no tienen un enfoque coherente de la Calidad de Datos

En definitiva, para que las organizaciones puedan obtener valor de sus datos, deben primero poner orden en la gestión, tratamiento y conservación de la información. Los datos son y deben ser la materia prima que guíe la toma de decisiones de nuestra empresa, y para ello deben presentar en el formato esperado, en el momento preciso, para las personas que lo necesitan y con la máxima calidad.

Fuente: http://www.datasciencecentral.com/profiles/blogs/will-2016-be-the-year-you-clean-up-your-dirty-data