La Medicina 5P: sanidad y Big Data

30 enero, 2016 Álex Rayón 2 comentarios

Watson, un sistema inteligente desarrollado por IBM, se hizo popular cuando se presentó al concurso Jeopardy y ganó a los dos mejores concursantes de la historia del programa. Es un programa basado en el «formato trivial«: programas que requieren de unas preguntas, y un conjunto de respuestas cerradas. Watson, con una capacidad descomunal para replicar muchas de las singularidades de los humanos (formulación de hipótesis, búsqueda de evidencias, comparación de posibles respuestas, selección de la mejor respuesta en base a diferentes parámetros, tratamiento de información no estructurada, etc.), dejó al mundo a la puerta de los nuevos sistemas basados en grandes cantidades de datos.

Pero esta herramienta no fue diseñada y desarrollada para ganar concursos televisivos. Llegó para aportar valor en diferentes sectores y actividades económicas. Primero, fue el sector sanitario, que es el que nos va a ocupar hoy en este recorrido por las posibilidades que trae el Big Data y el Business Intelligence.

Watson fue solicitada por la empresa de servicios sanitarios WellPoint y el Memorial Sloan-Kettering Cancer Center para proporcionar servicios de diagnóstico. Es decir, ayudar en una de las tareas más singulares del ser humano: detectar problemas. Watson pronto comenzó a mostrar sus resultados. Mejoró la predicción desde un 50% hasta el 90%.

Watson como apoyo al diagnóstico de un médico (Fuente: https://tctechcrunch2011.files.wordpress.com/2015/07/11825174446_ed8992056f_k.jpg?w=738)

Watson aporta al campo sanitario muchas ventajas. Especialmente, porque a un servicio y profesión como las del ámbito sanitario, viene muy bien el disponer de muchos datos de evidencias pasadas, casos parecidos (misma tupla «pregunta»-«respuesta»), lectura de conocimiento no estructurada (artículos científicos sobre evidencias para la cura de enfermedades, etc.) Y es que al final, la decisión sobre el mejor tratamiento es una mezcla de todas esas capacidades.

Presentado este contexto con Watson, podríamos así preguntarnos: ¿cómo ha cambiado entonces el mundo sanitario gracias al Big Data? Pues de manera considerable. Especialmente, por la eficiencia que aporta a los sistemas de salud a la hora de la presentación del servicio al paciente (obviamente lo más importante), tanto en términos de eficiencia como de buen resultado.

En la cadena de valor de los sistemas sanitarios, al final, hay muchos agentes a los que esta gran cantidad de datos les podría aportar mucho valor en su día a día:

Agentes de un Sistema Sanitario (Fuente: http://3.bp.blogspot.com/-kV428JAK1SY/TggNPktCI1I/AAAAAAAAAJA/NsgDhYy8kyA/s1600/Hospital.png)

Pacientes, gestores, proveedores de servicios auxiliares y, como no, los cuidadores (médicos, cirujanos, enfermeros, etc.), podrían beneficiarse de la eficiencia y ventajas que trae obtener insights de los datos. Aquí es donde varios expertos de la materia hablan de la futura Medicina 5P, el cruce entre la sanidad y Big Data:

Personalizada: el eterno sueño de la medicina. Poder dar un tratamiento singular al diagnóstico y necesidades concretas de cada uno de los pacientes. Con el Big Data, la cantidad ingente de datos, y el contexto que describe a cada uno de los pacientes, esto es posible. Solo es cuestión de «codificar» en datos lo que hasta ahora no hemos hecho, en cuestión de aspectos clínicos como estado de ánimo, emociones, expresión del dolor, etc.
Predictiva: se trataría de pasar de un modelo reactivo de sanidad a otro modelo activo y predictivo mucho más eficiente en el que el sistema sanitario y sus cuidadores, advierte directamente al paciente de situaciones potencialmente peligrosas. La estadística al servicio de nuestra salud.
Preventiva: se trataría de prevenir la aparición de enfermedades, basada en un conjunto de actuaciones médicas y el análisis de patrones y datos históricos. Ya sabemos esa máxima de «Es mejor prevenir que lamentar», que en medicina cobra más sentido que en cualquier otra área de la vida.
Participativa: la importancia que todos los agentes de los que hemos hablado anteriormente estén bien coordinados. El trabajo con pacientes no solamente tiene impacto en los aspectos terapéuticos, sino también en la gestión y los procesos, de manera que no escape detalle alguno (esto en España, donde tenemos una fragmentación de la organización del Sistema Sanitario importante, con 17 sistemas, vendría realmente bien).
Poblacional: para toda la población. La posibilidad de hacer más eficiente el sistema podría traer que con los mismos recursos, pudiéramos atender a un mayor volumen de población. En definitiva, no dejar a nadie sin atención.

Tampoco esta labor será sencilla. Mucho del conocimiento sanitario se encuentra expresado en fuentes no estructuradas. Es decir, sin ningún tipo de estructuración en matrices de datos. Las tecnologías para procesar este conocimiento es bastante más complicada y costosa que la que procesa datos estructurados.

Por otro lado, mucho de los tratamientos sanitarios funcionan en un contexto dado, pero no en otros. Esto hace que la codificación en datos de este contexto resulte vital. Y a su vez, genera más complejidad tanto de generación y gestión de datos, como de procesamiento y posterior puesta en valor. Además, la complejidad de los datos (desde los genóminos, pasando por biomarcadores, así como aspectos de índoles social) es importante. Su organización, vital para sacarle valor a los datos.

Como suele ocurrir con el Big Data, esto no está exento de riesgos. La recogida de los datos de comportamiento de los pacientes con sensores, genera datos. ¿Y dónde quedan? ¿Y de quién son? Son aspectos que, como suele ocurrir, la ley aún no contempla. Es algo que en anteriores ocasiones ya he comentado. Los aspectos sociales y de comunicación resultan críticos aquí. No debemos olvidar los aspectos de privacidad entonces. Y por último, el «profiling» de clientes y las posibilidades de toma de decisiones ajenas a la ética que trae. ¿No atenderé a un cliente que a tenor de los datos está en un riesgo alto? ¿No cubriré con una póliza de seguro a una persona con muchas probabilidades de fallecer? Pueden resultar cuestiones obvias, pero no está de menos sacarlas.

Ya ven que son muchos sectores los que traen posibilidades y retos con el Big Data. El campo sanitario no es esquivo a ello. La sanidad y Big Data de la mano para una mejor sociedad y bienestar de todos.

Privacy y Security by design: ¿qué son y por qué son relevantes?

23 enero, 2016 Álex Rayón Deja un comentario

En esta era de la personalización, del consumidor exigente, una cosa que obviamos es que sí, las empresas saben más de nosotros que nunca. Y quieren saber cada vez más. Según el estudio The Talent Dividend, elaborado por la revista MIT Sloan Management Review y la empresa de software analítico SAS, basado en entrevistas a 28 ejecutivos de firmas internacionales y encuestas a 2.719 empleados, el 50% de las compañías asegura que entre sus prioridades está aprender a transformar los datos en acciones de negocio.

¿Sabemos realmetne lo que hacen las empresas con nuestros datos e información? ¿Cómo la protegen? ¿Qué hacen con ella? ¿La venderán? ¿Cumplen con lo que nos dicen? Datos que vamos dejando sin daros cuenta cada vez que hacemos una búsqueda en Google, cada vez que compartimos un tweet, un post, una fotografía en Instagram o un comentario en Facebook. Por poner solo varios ejemplos.

Cuando de forma voluntaria accedes a compartir datos con tus apps, parece de justicia, que el uso de esa información te traiga ciertos beneficios. De ahí, podemos decir que es importante que te digan qué harán con esa información. Por todo ello, aparecen las preocupaciones por la privacidad. En Europa, es algo que nos preocupa. Por eso también saber dónde dejamos esos datos: si es un proveedor americano, ¿está en Europa también? ¿o los manda para EEUU automáticamente?

Para resolver todas estas inquietudes y preguntas abiertas, el grupo de trabajo del artículo 29, un organismo consultivo de la Comisión Europea, se dedica a efectuar recomendaciones en materia de privacidad.

Grupo de Trabajo del Artículo 29 (Fuente: http://ec.europa.eu/justice/data-protection/article-29/index_en.htm)

El pasado 2014, elaboró una opinión (Dictamen 8/2014), sobre los riesgos a la privacidad de este mundo conectado. Esas líneas de reflexión, posiblemente generen regulaciones futuras, y se centraban en dos elementos: «privacy by design» y el «security by design«. ¿Qué es esto?

Básicamente, se trata de un enfoque que aboga por la privacidad y la necesidad de tener en cuenta la seguridad en el mismo momento del diseño de los objetos inteligentes. Es decir, en lugar de tener que hacer este ejercicio de protección y seguridad a posteriori, hagámoslo antes de fabricar los objetos.

Este enfoque está ganando especial relevancia ante el previsible auge de los objetos conectados a Internet. Es decir, el paradigma Internet of Things. Cuando estemos interaccionando a través de Internet con «todos» los objetos que nos rodean (el microondas, el coche, el teléfono móvil, el autobús, la tarjeta de crédito, etc.), obviamente, la cantidad de datos que vamos a generar va a ser aun mayor que la actual. Es por ello, que tenemos «Big Data» para rato. Pero también debemos tener preocupación por la privacidad de los datos que generamos, y sobre todo, hacerlo en un marco de seguridad.

Pues bien, este Grupo de Trabajo del artículo 29, habla del Privacy y Security by design como una forma de enfocar el diseño y desarrollo de los objetos conectados a Internet de los que nos rodearemos a futuro. Y me ha parecido especialmente relevante citar estas cuestiones debido a que el software que deberemos desarrollar para poner en valor esos datos, deberá cumplir estos principios también.

¿De qué estamos hablando? Básicamente, de la protección de datos y de aspectos relacionados como:

El Dictamen plantea tres escenarios donde se debe prestar especial atención:
- Tecnología para llevar puesta (wearable computing)
- Dispositivos capaces de registrar información relacionada con la actividad física de las personas
- La domótica
Los objetos que recogen datos relacionados con la salud y el bienestar del ciudadano, pese, a ser anónimos en un principio, pueden revelar aspectos específicos de hábitos, comportamientos y preferencias, configurando patrones de la vida de las persona (con los consiguienres riesgos morales que puede suponer).
Recomendaciones de utilidad en el desarrollo de estándares tecnológicos en el ámbito del Internet de las Cosas (y así evitar problemas para el usuario a la hora de querer cambiar de un contexto a otro)
Alerta que el usuario puede perder el control sobre la difusión de sus datos si la recogida y el procesamiento de los mismos se realiza de manera transparente o no (la importancia de tener claro el marco donde serán tratados esos datos)
Manifestar claramente que la información personal sólo puede ser recogida para unos fines determinados y legítimos

Considerando estos aspectos antes de empezar el diseño y fabricación de un objeto, el dictamen asegura que evitaríamos muchos problemas y retos legales y éticos que tenemos en la actualidad.

Ya ven, de nuevo, que la era del Big Data, además de que nos vaya a dar mucho trabajo a futuro, también chocará con los marcos normativos. Por eso es importante también considerar enfoques tan novedodos como el «Privacy y Security by design«, y así evitar limitaciones de diseño y desarrollo a futuro, chocando con el ámbito jurídico.

La analítica avanzada en tiendas, vacas y ascensores: la predicción al servicio de la productividad

17 enero, 2016 Álex Rayón Deja un comentario

Leyendo tres noticias de sectores diferentes (lineal de productos, rendimiento de las vacas y seguridad en ascensores), uno puede darse cuenta de la capacidad que tienen las tecnologías habilitantes Big Data e Internet of Things para aumentar los resultados y las posibilidades de un negocio dado.

Fuente: http://cincodias.com/cincodias/2016/01/07/pyme/1452160715_268138.html

Fuente: http://www.elconfidencial.com/tecnologia/2015-06-05/microsoft-inteligencia-artificial-big-data-vacas_869589/

Fuente: http://economia.elpais.com/economia/2015/10/27/actualidad/1445970291_443260.html

Hace ya 10 años, fabricantes de electrodomésticos nos hablaban sobre la posibilidad de hacer pedidos con carácter predictivo sobre la base de tu consumo. Pensábamos en ello como algo irreal. A mí me cogió esa época como estudiante de Ingeniería en Informática. ¿Meter Internet en objetos físicos? Nos parecía algo irreal.

Pero hoy, estos objetos conectados e inteligentes, son toda una realidad. Para que un objeto sea inteligente, debe ser capaz de monitorizar. Es decir, sensores y datos externos entiendan el entorno y sean capaces de informar de los cambios. Y lo que ha ocurrido en estos últimos años son dos cosas: Por un lado que las tecnologías han ido madurando, hasta los sistemas de análisis de datos, motores de reglas para generar automatizaciones y toma de decisiones actuales (popular y ambiguamente denominados «Big Data«). Y, en segundo lugar, la generalización de las interfaces o API que han permitido la definición de estándares y los «things» u objetos, ahora se interconectan, hablan y trabajan solidaria y colegidamente.

Esta nueva revolución industrial, según General Electric, será capaz de producir un incremento del 1% en la eficiencia de las empresas. Y eso, aún hoy en día, en el que el 99% de los objetos del mundo, no están todavía conectados a Internet, por lo que no pueden beneficiarse de todas estas eventuales mejoras. Por ello, CISCO, en su informe «Internet de las cosas y la evolución de Internet«, alerta que en 2020 habrá más de 36.000 millones de dispositivos inteligentes conectados en lo que se ha venido a denominar Internet of Everything.

Todo esto, para el «mundo Big Data» es una oportunidad muy importante. Se estima que menos del 1% de la información derivada de la conectividad de los objetios se emplea. Existe, así, mucho potencial para la optimización, modelos preventivos y predictivos, y en definitiva, para la monetización. Las tres noticias antes mostradas, son prueba de lo que intentamos exponer en este artículo.

Por un lado, MobileXperience, que ofrece más productividad a las empresas y adelantarse a demandas de producto y satisfacer mejor la experiencia de cliente. Es decir, «adelantarse» a las compras de los clientes, lo que puede traer, no solo mejor rendimiento de la ubicación de los productos en el lineal (más ventas), sino también menos costes logísticos y de almacén (menos coste). Es decir, dos de las principales ventajas de lo que el Big Data aporta a las empresas.

El segundo lugar, el «Internet de las vacas«. Como se puede leer aquí, si se colocan sensores en las patas de las vacas con objeto de monitorizar sus pasos, a través de los patrones que se obtengan, se puede determinar el momento óptimo para inseminarla y predecir así el sexo del ternero. Los resultados son que en las granjas que han probado este sistema, se ha logrado un 50% más de terneros, con los consiguientes beneficios.

Por último, ThyseenKrupp Elevadores, que quería obtener una ventaja competitiva a través de lo que más importa a sus clientes: fiabilidad (pensad en vosotros mismos al montar a un ascensor). Por lo tanto, a menos averías, más fiabilidad, y más ventajas competitiva. Para ello, resulta fundamental adelantarse a situaciones en las que el ascensor suele averiarse. Por ello, se desarrolló una solución para detectar problemas en ascensores ante las primeras señales de alerta, y así hacer un mantenimiento preventivo en lugar de correctivo (lo cual trae importantes ahorros a las empresas). Más allá de aspectos mecánicos y de diseño, los sensores y los datos que generan importantes oportunidades de mejora en los procesos de la organización.

ThyseenKrupp calcula que la suma de las esperas de los 1.000 millones de personas que anualmente emplean alguno de los 12 millones de ascensores que funcionan en el mundo, produce pérdidas de 190 millones de horas (traduzcan esto a euros en su emprsa…). Una cifra que podría reducirse a la mitad si todos los aparatos llevaran el nuevo sistema. Por lo tanto, más productividad para las empresas.

En un país como España, quinto país con más ascensores del mundo (880.000 unidades), puede tener un impacto importante. Y ahora piensen en la proyección de urbanización en el mundo, y la necesidad de ascensores que habrá (según proyecciones demográficas de Naciones Unidas, en 2050 vivirán cerca de 9.100 millones de personas en ciudades, un 70% de la población global). De nuevo, el Big Data, como promesa de gran impacto social, económico y productivo.

Según Accenture, en un informe elaborado con stakeholders de la industria, esta tendencia de convergencia entre Big Data e Internet of Things, se puede resumir en torno a cinco actividades de negocio:

Transporte conectado: mejora de la experiencia en medios de transporte.
Espacios conectados: mejora del uso de espacios físicos donde trabajamos y vivimos, incluyendo edificios inteligentes, hogares inteligentes u otros lugares donde se puede reducir el consumo energético.
Operaciones conectadas: enriquecimiento de los procesos de trabajo y de los activos para aumentar la productividad.
Sanidad conectada: mejora de la calidad de los servicios sanitarios, experiencia de los pacientes -lo más importante, claro-, y los procesos operativos y de uso de equipos médicos.
Comercio conectado: nuevos procesos conectados: sistemas de pago, logística, ofertas personalizadas, canales de distribución, etc.

Como pueden ver, la predicción y el mantenimiento preventivo puede traer tanto ahorros como ingresos. En algún sitio de la cadena de valor de una empresa hay una oportunidad de mejora. Noticias que abren la vía a la reflexión sobre cómo un negocio, pudiera explotar sus datos, y «adelantarse» a hechos. Todo ello, de la mano del Internet de las cosas y del paradigma de la analítica avanzada. Uno de los aspectos clave del Big Data y Business Intelligence.

Entrevista con Mari Luz Congosto

15 enero, 2016 Miren Gutiérrez Deja un comentario

[:es]¿Te perdiste la interesante presentación de @congosto? En esta entrevista, Congosto nos habla del futuro del análisis de datos y las oportunidades que se abren en este campo.

[:]

Stop the presses!!

15 enero, 2016 Miren Gutiérrez Deja un comentario

[:es]Tenemos una corrección en las fechas del primer itinerario del Experto. El itinerario «Comunicación institucional y corporativa» comenzará el viernes 8 de abril, al mismo tiempo que el segundo itinerario enfocado en «Análisis de datos».

La buena noticia es que tenéis más tiempo para solicitar la entrada en el Programa.

Como sabéis, este año, el Experto “Análisis, investigación y comunicación de datos” tiene dos itinerarios con un módulo común central. La novedad ahora es que éstos transcurrirán de forma simultánea.

El primer itinerario, dirigido por el experto en comunicación Dr. Xabier Barandiaran, está centrado en la comunicación institucional y corporativa. El segundo, centrado en el análisis y la comunicación de datos, está dirigido por la experta en comunicación y datos Miren Gutierrez. El módulo central, del viernes 8 de abril al sábado 23 de abril, se enfoca en el fenómeno conocido como big data, la transparencia y el gobierno abierto.[:]

Twitter como herramienta para medir política

14 enero, 2016 Miren Gutiérrez Deja un comentario

[:es]Compartimos la presentación de la experta Mariluz Congosto, investigadora de la Universidad Carlos III

Miren Gutierrez

Todavía estamos a vueltas con si se forma gobierno o no, pero ¿quién ganó las elecciones en Twitter? Para Mari Luz Congosto, experta minera de datos, la pregunta estaría mal formulada. Y es que “no por mucho tuitear se consiguen más escaños,” dice. La pregunta correcta sería más bien: ¿cómo se comportaron los candidatos en redes durante la campaña y qué dice de ellos? Bueno, hubo de todo, meteduras de pata, ataques y despistes, así como conductas correctas.

Mariluz Congosto en un momento de su charla en la Universidad de Deusto.

Se puede saber mucho de las personas por cómo actúan en las redes, y eso es precisamente lo que es capaz de ver Congosto con una herramienta que ha creado para analizar y visualizar datos extraídos de Twitter[1]. Un ejemplo es cómo se comportaron los candidatos, sus partidos y sus círculos durante la veda que se establece en la jornada de reflexión, que no respetaron todos.

“Aquí no reflexiona nadie; durante la jornada de reflexión, casi todos tuitearon. Y es que Twitter no se para ni para eso… Entramos en el terreno de la alegalidad,” dice Congosto en una charla que inaugura el lanzamiento del Programa Experto “Análisis, investigación y comunicación de datos”, de la universidad de Deusto.

Durante la jornada de reflexión rigen una serie de prohibiciones legales para hacer propaganda política. Sin embargo, por ejemplo, a las 11:59, Pablo Iglesias lanzaba un tuit que decía “Este domingo la gente corriente va a pronunciar una palabra que siempre le ha sido prohibida: victoria #VotaPodemos20D”, precedido de otros en la misma línea.

“Estos mensajes se lanzan (en el filo de la medianoche) y ya no se pueden parar,” dice la experta.

Y ya comenzada la prohibición, Pedro Sánchez y Mariano Rajoy enviaban cálidas fotografías, el primero con su esposa y el segundo con su perrito.

Quizás lo más chocante fueron los duros mensajes enviados desde @Espeonza, una cuenta dedicada a criticar a la líder del PP y vinculada a Podemos, poco antes de la medianoche.

Durante la campaña destacaron otras cosas. Tuits puntuales, por ejemplo, como el de Rajoy el día 18, que, en tono inusualmente jocoso, hablaba sobre las gafas perdidas en la agresión que había sufrido dos días antes, y que fue retuiteado por decenas de miles de personas.

Otro asunto que destacó fue el supuesto ataque “bolivariano” contra Albert Rivera en mayo del año pasado. Pero a Congosto le picó la curiosidad y desmontó que había detrás del ataque apócrifo. “Yo hasta entonces no había visto ataques directos de ese calibre (en Twitter), así que me metí a mirar de dónde habían salido los primeros tuits”, cuenta Congosto.

En un artículo publicado en El Español, la experta contaba cómo había descubierto que el ‘hashtag’ #desmontandoaciudadanos, que fue trending topic en España y generó más de 80.000 tuits en 24 horas, “no fue un fenómeno espontáneo ni una campaña venezolana, sino el fruto de un plan impulsado por decenas de cuentas afines a Podemos”.

¿Cómo son los candidatos según su comportamiento? “Pablo Iglesias es un hombre tranquilo, que tuitea todos los días,” a un ritmo de unos seis tuits por día, dice Congosto. Albert Rivera tuitea también personalmente con regularidad. Y es que las cuentas con más éxito son aquellas que llevan los candidatos personalmente, y precisamente éstas son las que no bajan el ritmo una vez terminada la campaña. “Son más eficaces los líderes como difusores de contenidos que los partidos, pero éstos últimos son importantes porque generan los contenidos,” dice.

Las ventajas de fijarse en Twitter para observar la vida política son muchas. En esta red social, triunfan el ingenio y la creatividad. “En Twitter no te puedes enrollar, y no todo el mundo es capaz de sintetizar,” dice la experta. Asimismo, el acceso a los candidatos es directo, inmediato y fresco. Y al tuitear, las personalidades emergen y se aviva el debate. “Cuando se caldea, la política tiene audiencias de partido de fútbol.”

Aunque admite que el análisis de Twitter no es, por ahora, una buena herramienta para predecir resultados de elecciones, Congosto asegura que puede detectar cambios de última hora que no pueden captar las encuestas.

Pero existen dificultades. Las barreras para hacer análisis certeros son principalmente tres: no todas las personas están representadas en Twitter, por edad y “porque algunas no se atreven”. Otras barreras para el análisis en Twitter son las personas que tienen hiperactividad y tuitean casi compulsivamente, y las que usan identidades falsas.

Ahora hay que diferenciar entre las conversaciones genuinas y las “marketineras”, que están diseñadas por los aparatos de los partidos y que nada tienen de ingenuas. Y también saber identificar que cada partido tiene su estilo. “PP, por ejemplo, es todo hashtag,” dice Congosto. Así que si estudias solo a los usuarios, por ejemplo, te pierdes una parte del panorama político importante.

Por eso, la experta examinó por separado tres elementos: los #hashtags (tuits que incluyeron hashtags de campaña), los candidatos (tuits que mencionaron a los perfiles de twitter de los candidatos) y los nombres (tuits que mencionaron a los candidatos por su nombre y tuits relacionados con los debates de los candidatos en los medios) a fin de tener una idea precisa de cómo se desarrollaban los debates y la campaña en general. En sus bases de datos tiene clasificados a 700 políticos y políticas españoles, por partidos.

Otra cosa que pudo analizar la experta es cómo se situaron cada partido y sus comunidades durante las diferentes elecciones de los últimos meses. Por ejemplo, en las elecciones de Andalucía de 2015, las visualizaciones dejaban ver la “estrecha relación entre Podemos e IU.

En Madrid en 2015, se veía claramente que Esperanza Aguirre y Manuela Carmena tienen sus propias comunidades, que no necesariamente coinciden con las de sus partidos. Las mismas distancias se pueden percibir entre el PP Madrid y el PP nacional.

En Cataluña, el Cup Nacional, Junts pel Sí y Esquerra “salen muy pegados”.

Finalmente, en las elecciones generales, la actividad en Twitter fue frenética, como se puede ver en la siguiente ilustración, que muestra más de 14.000 tuits por minuto.

La diferencia con otras elecciones es de orden de magnitud, “ha crecido tremendamente la participación, y ya son cantidades difíciles de monitorizar”, comenta la experta.

¿Cómo está evolucionando Twitter? Cada vez más no se recurre a un mensaje de texto, sino contenidos multimedia, que son mucho más difíciles de analizar. “Pero habrá que inventar algo”, añade Congosto. “Además, lo importante ahora no es el número de seguidores, sino qué se dice. Hay plataformas que te venden followers, y no por eso tienes más impacto”.

Otra cosa que ha cambiado en Twitter es que “ahora se retuitea más”. Y de eso tienen la culpa los dispositivos móviles. Antes se tuiteaba desde el ordenador; ahora desde cualquier lado, en los móviles. Y claro, lo que ha aumentado “es lo que produce poco esfuerzo”.

Congosto es licenciada en Informática por la Universidad Politécnica de Madrid y Máster en Telemática por la Universidad Carlos III. Y ahora está a punto de doctorarse esta misma universidad. Ha trabajado en entornos de investigación en Telefónica I+D, y ha participado en la creación plataformas sociales dedicadas a la divulgación científica. Actualmente es investigadora del Departamento de Telemática de la Universidad Carlos III. Está especializada en minería y visualización de datos.

[1] La captura de datos se ha hecho con API REST de Twitter con el método GET/search/tweets. Los datos se han elaborado con herramientas de t-hoarder para medir las frecuencias de tuits por minuto y la generación del grafo de RT. Los nodos de los grafos corresponden a los usuarios que hicieron al menos un RT de los tuits del hashtag #7DElDebateDecisivo. Los arcos son los RT de un nodo A a un nodo B. El tamaño de las etiquetas de los nodos es proporcional al número de mensajes retransmitidos.[:]

Novedades en la edición de 2016 del Experto en Análisis, investigación y comunicación de datos

13 enero, 2016 Miren Gutiérrez Deja un comentario

[:es]Este año el experto tendrá dos itinerarios con un módulo común central.

El primero, dirigido por el experto en comunicación Dr. Xabier Barandiaran y centrado en la comunicación institucional y corporativa, comienza el viernes 5 de febrero y termina el sábado 30 de abril.
El segundo, centrado en el análisis y la comunicación de datos, comienza el día viernes 8 de abril y termina el viernes 17 de junio, y está dirigido por la experta en comunicación y datos Miren Gutierrez.

Ambos tienen en común un módulo central, del viernes 8 de abril al sábado 23 de abril, que se enfoca en el fenómeno conocido como big data, la transparencia y el gobierno abierto.

El primer itinerario está dirigido a profesionales o estudiantes de postgrado, tanto de administraciones públicas de todos los niveles (local, autonómico o estatal) como de empresas privadas y de publicidad, que quieran profundizar o especializarse en la comunicación institucional o corporativa.

El segundo está dirigido a personal de administraciones públicas, empresas, medios de comunicación y ONGs que desee aprovechar el boom de los datos para mejorar la comunicación con sus audiencias, hacer análisis de sus datos y aumentar su eficacia interna. Ambos itinerarios tienen un carácter profesionalizante y práctico, y tienen como objetivo abrir puertas a nuevas profesiones y oportunidades.

Cada itinerario implica la obtención de 21 ETCS y su conclusión conlleva el título de Experto/a.

Como el año pasado, las clases presenciales se desarrollarán en el campus de la Universidad de Deusto en Donostia, en régimen de viernes tarde (16:00-20:00) y sábado mañana (10:00-14:00).

El programa será evaluado con la realización de un proyecto –en el primer caso un plan estratégico y en el segundo, un proyecto de análisis y/o visualización de datos—, que será acompañado y apoyado por el equipo docente en tiempo real y con ayuda de asistencia virtual. Los/as participantes podrán traer proyectos de sus empresas u organizaciones si lo desean.

Para las preguntas más concretas sobre el itinerario “Comunicación estratégica institucional y corporativa”, hay que dirigirse a Xabier Bariandiaran, email: xabier.barandiaran@deusto.es.

Para preguntas sobre el itinerario “Análisis, investigación y comunicación de datos”, a Miren Gutierrez, email: m.gutiérrez@deusto.es.

Y para cualquier otra información, se puede consultar la página www.data.deusto.es y seguir pendientes de nuestro blog, donde puede acceder a entrevistas e información de nuestros/as invitados/as, participantes y proyectos, además de información interesante relativa al mundo de la comunicación y los datos.

¡Animaos!

[Foto original: https://www.flickr.com/photos/deusto/23200085440/][:]

«Usage-based insurance»: transformación del sector asegurador con el Big Data

10 enero, 2016 Álex Rayón 9 comentarios

Una de las cuestiones que más hemos tratado en nuestros últimos eventos tiene que ver con la transformación de diferentes modelos de negocio, industrias y organizaciones sobre la base de la introducción de la «economía del dato» o «tecnologías Big Data».

Estas realidades de transformación, es un aspecto que veremos en cada vez más industrias y sectores. El informe de Accenture «El Internet de las Cosas en la estrategia de los ejecutivos Españoles«, se recoge como el 60% de la alta dirección ve mucho potencial en el Internet of Things. Esto abre una enorme oportunidad para los datos, porque la sensorización de «nuestra vida, y los objetos que nos rodean«, obviamente tiene una capacidad de generación de datos descomunal. Pero en este mismo informe se recoge como se estima que se emplea menos del 1% de la información y los datos que se generan gracias al IoT.

Uno de los sectores con mayor potencial en dicho informe es el de los vehículos personales, con la inclusión de sistemas de diagnóstico a bordo que monitorizan los patrones de conducción para poder ofrecer pólizas a medida. La «personalización de la economía» llegando a otro sector más. De hecho, según el Informe Global de Automoción, El 82% de los conductores espera beneficios de los datos que genere su vehículo.

Dentro de la industria de los seguros, hablamos de las pólizas de vehículos, dada la transformación que está viviendo en los últimos años. Comencemos por EEUU, donde las cosas suelen ir más rápido que por otras latitudes y longitudes. Compañías como Allstate con su programa «Drivewise», State Farm con «Drive Safe and Save» y Progressive con «Snapshot», ofrecen ahora a sus clientes un esquema de relación basada en: yo monitorizo cómo conduces, y si te comportas bien acorde a unos parámetros conocidos, pagarás menos. Es lo que se ha venido a llamar «Usage-based insurance«. Como ya pagamos por el consumo que hacemos de electricidad (bueno, más o menos) o por la gasolina, pues eso mismo, pero en el sector asegurador. Una tendencia que cada vez veremos en más sectores.

El Big Data lo que introduce es la reducción de costes que habitualmente se generan por la asimetría de información. Como yo no sé si te vas a portar bien, por si las moscas, te cobro una póliza mayor. Para ello, las compañías aseguradoras te instalan un GPS que monitorizan patrones de conducción. Estos datos, que tú consientes ceder a la compañía, son, con una granularidad/frecuencia de muestro de entre 1 y 5 segundos:

Ubicación: latitud y longitud por donde te vas desplazando.
Grado de aceleración/desaceleración: km/h ganados o perdidos, y su comparación en términos de segundos para saber la brusquedad
Vector de giro: fuerzas G, que mide en cierto modo la fuerza del giro y su grado de cambio para detectar brusquedad, agresividad, etc.
Hora y día: sello de tiempo, para saber sobre qué horas y días te desplazads

Con estos datos (que seguramente tengan más), podemos saber, para un conductor dado:

Cómo de brusco conduce: aceleración/desaceleración (el acelerómetro que incorpora lo permite)
Cómo gira: fuerzas G de giro para saber su agresividad en las mismas
Lugares por los que ha pasado: ¿lugares seguros? ¿carreteras principales o secundarias? etc.
Carreteras que más frecuentemente emplea (ya sabemos que las secundarias tienen una tasa de siniestralidad superior)
Horas y días de más frecuencia de conducción, para saber si conduce en «rush hours» u «horas pico» (por ejemplo, ya sabemos que a las noches, y en carreteras secundarias, el índice de mortalidad y riesgo es también mayor)
Velocidad y estadísticos básicos: media, moda, mediana, máxima, mínima (y poder sacar así patrones)
Respeto a las señales de circulación: dado que sabemos por dónde se ha movido, y tenemos datos cartográficos con las limitaciones de velocidad integradas, podemos sacar un «score de buena conducta«, incluso con «grados de cumplimiento» para saber si respeta las normas de circulación.
etc.

Según he podido entender, basan su modelo analítico de scoring en estos datos, de manera que obtienen un «score de conductor«. Un poco en la línea de lo que es disponer de un «score crediticio» (como ya hablamos aquí). Este score permite que con una fórmula de ahorro, podamos decirle a cada conductor cuánto le vamos a cobrar dado su riesgo de conducción. Este modelo de «Pay How You Drive» (PHYD) abre muchas nuevas puertas y seguro vemos recorrido en todo ello próximamente.

Score de conducción (Fuente: https://i.ytimg.com/vi/gj-RO5FE5q4/maxresdefault.jpg)

Obviamente en todo esto, no podemos dejar de lado el trade-off entre «Ahorro» vs. «Privacidad». ¿Qué riesgos pueden existir? Que se sepa dónde estemos en todo momento (y el consiguiendo y manido «Gran Hermano»), la «Third-party doctrine» (si cedo los datos a un tecero, no puedo luego reclamarlos de vuelta) y que esto de la información despersonalizada es un mito. Ahora bien, veo «ahorros» no solo individuales, sino globales:

Cuando una persona se autodiagnostica, gana en conciencia, por lo que es más probable que cambie de comportamiento. En este punto, y con el objetivo de hacer algún contraste, sería interesante ir perdiendo endogamía en la muestra (actualmente todos los conductores que en EEUU están contratando estos seguros son precisamente los que ya mejor conducían…). Aunque también es cierto que si se acaban metiendo todos «los buenos», los que se quedarían fuera, ¿entiendo reaccionarían? Muy interesante esta línea desde el punto de vista sociológico.
Si el «score de conducción» fuese elevado a «Dato público de interés general», podríamos mejorar mucho el sector. Si las compañías aseguradores debieran pasarse ese dato a través de un «Registro Central del Estado«, mucho mejoraría. Como ya funciona para evitar el fraude, por ejemplo. De hecho, entiendo, el primer interesado en esto sería el Ministerio del Interior.
Hacer coches y carreteras más seguras, dado que sabríamos cómo se comportan, en agregado los conductores que pasen por determinados puntos. Esto, seguro que a la Dirección General de Tráfico le puede interesar.
Se podría llegar a acuerdos con comercios habitualmente relacionados con el vehículo (estaciones de repostaje, compra de productos en tiendas, grandes centros comerciales a los que habitualmente nos desplazamos en vehículos, estaciones de radio, etc.) para ofrecer descuentos a comercios asociados o los que quieran asociar su branding a determinados patrones de conducción.
etc.

Hay factores de riesgo al volante que dejamos de lado (micrófonos para el ruido, cámaras para la mirada, copiloto -según un estudio de la Fundación Línea Directa la mujer al volante y el hombre como acompañante es la fórmula de menor riesgo-, etc.), pero quizás veamos pronto todo esto integrado también. Haciendo un rápido Googling para España, he dado con Next Seguros, compañía aseguradora que basa su modelo de negocio en mucho de lo que aquí hemos explicado. En Rastreator salen también algunas otras genéricas que también ofrecen estas posibilidades.

Por último, nunca olvidar del plano legal y la importancia del «Compliance Officer» y garantizarnos que todo esto es posible (a sabiendas que EEUU no es España/Europa, y que la nueva Directiva de Protección de Datos está a la vuelta de la esquina).

Ya ven que esto del «Usage-based insurance» abre muchas cuestiones a reflexionar y transforma muchos elementos de un sector (modelo de negocio, tarificación, plano legal, etc.). Una más, entre las industrias, que el Big Data está dotando de nuevas capacidades.

Del Open Data al Linked Open Data: sacando valor de los datos enlazados

4 enero, 2016 Álex Rayón 3 comentarios

El Big Data, como nuevo paradigma de generación, procesamiento y extracción de conocimiento de los datos, facilita muchas oportunidades. Podemos medirlo prácticamente todo. Esto está dando lugar a diferentes movimientos, como el «Quantify Self«, que nos permite a cada uno de nosotros medir todo lo que hacemos (deporte, ingesta alimentos, horas de sueño, etc.).

Pero, el asunto central no es tanto ya medir, sino entender. Por eso, suelo decir que me gusta más hablar del «Understand Self«. Buscando en Google, veo que todavía no es un término que nadie haya acuñado ni capitalizado. Quizás porque no tiene mucho branding para la industria. Pero quizás podamos extrapolarlo a «Understand Things«. Es decir, que tenemos que cambiar el pensamiento desde la obsesión por el medir y el guardar, a una nueva obsesión: entender, procesar y sacar valor a los datos.

Pero esto no es sencillo. Especialmente, porque los datos brutos son poco expresivos. Necesitamos dar contexto a los datos. ¿Para qué sirve los diez kilómetros o las 1.000 calorias que has ingerido hoy? ¿Para que sirve que una empresa capte 1.000 nuevos leads o tenga más de 200 Likes? Medir está bien, pero hay que dar un paso más allá.

Por todo ello, es importante no confundir datos con información y conocimiento. Si nadie es capaz de analizar la cantidad de datos que generamos, es mejor considerarlo como basura digital. Según un estudio de EMC, en 2013 sólo el 22% de los datos del universo digital fueron útiles, y sólo el 5% de los ellos fueron analizados. A esto me refería al inicio de este artículo.

Supongo que ya habrán visto en innumerables ocasiones la representación estructural entre los Datos, la Información, el Conocimiento, y cada vez más, la Sabiduría. Me refiero a esta representación:

Pirámide Datos - Información - Conocimiento - Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/) — Pirámide Datos – Información – Conocimiento – Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/)

Representa las relaciones estructurales entre Datos, Información, Conocimiento y Sabiduría. La información son datos con cierto sentido significado, el Conocimiento, es Información y contexto, y la Sabiduría, es Conocimiento aplicado. Hasta aquí, entiendo que no aportamos mucha novedad a lo ya conocido.

Pero, lo que sí creemos que aporta es hacer una reflexión sobre esta pirámide cuando hablemos en entornos del sector público y agentes privados con cada vez mayor conversación e implicación con sus agentes (el fenómeno de la transparencia y la participación).

Son numerosas las iniciativas de Open Data que existen en la actualidad. En España, especialmente impulsadas por la Ley de Transparencia y todas las referencias que dicha normativa hace respecto a la apertura de conocimiento. El problema suele radicar en que nos hemos centrado mucho en hacer un ejercicio de apertura («Open«), dejando de lado el objetivo último de la utilidad del dato en contextos y aplicaciones (es decir, pasar del dato bruto a conocimiento aplicado). Los beneficios vinculados a este movimiento (transparencia y rendición de cuentas, mejora en la toma de decisiones y promoción de una ciudadanía activa, eficiencia operativa, valor económico, etc.), son claros. Pero, ¿alguien conoce alguna medición objetiva y crítica sobre si realmente estamos alcanzado alguno de esos objetivos?

En todo ello, vemos dos asuntos que debieran pensarse más: 1) Las dificultades para hacer progresos en términos de usabilidad y utilidad de ese bien público que es el dato; y 2) El riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades.

En cuanto al punto 1), cabe destacar aquí el fenómeno que en otros países se está viviendo respecto a la migración del «mero» Open Data, al «Open Linked Data». Los datos, cuanto más enlazados y conectados, más valor y utilidad adquieren. Existen varias disciplinas habilitadoras como la computación y codificación del conocimiento, las redes, la computación ubicua, el almacenamiento de datos, etc.. Todas ellas, creciendo a un ritmo vertiginoso. El origen y el despliegue de datos es muy considerable, y son generados por sistemas de vigilancia y control (smart metering, control de tráfico), por dispositivos digitales (desde smartphones a cámaras), sensores activos y pasivos, escáner y las diferentes versiones de los datos voluntarios (a través de transacciones, interacciones en redes sociales, sousveillance, sistemas de crowdsourcing y ciencia ciudadana), etc.

¿Cómo juntamos todo eso y le damos una utilidad y una usabilidad a la ciudadanía? A través del enlazamiento. Una capa semántica que dé significado a todos esos datos, y que haga que los datos se entiendan entre sí, y que por consiguiente, las máquinas entiendan a los datos. Esto acelera las capacidades y multiplica las posibilidades a los que quieran sacar usabilidad de todos ellos. Big Data no puede no ser Semantic Big Data. Se trata de hacer que las máquinas entiendan nuestro lenguaje para así procesarlo mejor y ofrecer soluciones más afinadas a nuestros problemas. Crear un hub del conocimiento donde todo esté conectado y bien estructurado. Es decir, pasar al Linked Open Data.

Y la representación sobre estas líneas trabaja en favor de todo ello. Vemos como ya son muchas las organizaciones que publican datos y los enlazan a una gran red de datasets conectados. Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió un esquema de desarrollo de 5 estrellas para Datos Abiertos.

Esquema de cinco estrellas para datos abiertos (Fuente: http://5stardata.info/es/)

★ publica tus datos en la Web (con cualquier formato) y bajo una licencia abierta (un PDF colgado en una web, algo muy habitual en nuestro entorno)
★★ publícalos como datos estructurados (un Excel en vez de una imagen de una tabla escaneada, también bastante habitual)
★★★ usa formatos no propietarios (CSV en lugar de Excel, que ya cuesta ver en el entornos)
★★★★ usa URIs para denotar cosas, así la gente puede apuntar a estas
★★★★★ enlaza tus datos a otros datos para proveer contexto

Creo y espero, que en los próximos años, avancemos más hacia esa web de datos enlazados y abiertos.

Respecto a 2), el riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades. En relación a todo ello, me he terminado recientemente de leer el libro «The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences» de Rob Kitchin. Desde el primer capítulo, este formidable autor se centra en el significado epistemológico de la pirámide DIKW (Data-Information-Knowledge-Wisdom), para afrontar con una mirada crítica, los datos en términos económicos, técnicos, éticos, políticos o filosóficos, con un posicionamiento claro desde el inicio:

“[…] how data are ontologically defined and delimited is not a neutral, technical process, but a normative, political, and ethical one that is often contested and has consequences for subsequent analysis, interpretation and action”.

Esta idea deque el Big Data lo tenemos que sacar de un debate puramente técnico, y llevarlo a otras disciplinas, está cada vez más extendido. Se trata de darle sentido multidimensional a un nuevo paradigma que tiene ideología, normativa, valor económico, etc. Por lo tanto, es susceptible de generar desigualdad, por lo que requiere de intervención pública para mantener nuestros estados sociales de derecho. Es algo que Kitchin no para de destacar a lo largo de todo el libro. Y es algo que tiene mucho que ver con el Linked Open Data; una filosofía marcadamente comunitaria y de generación de riqueza conjunta que puede ayudar en todo ello. Nuestro compañero Diego López-de-Ipiña lleva hablando de esto desde hace ya mucho tiempo (pueden ver sus presentaciónes en su canal de SlideShare).

Esto, que en el mundo del análisis del dato en empresas privadas es importante, más lo es aún cuando la reflexión se extiende al ámbito público, cuyos socios-dueños-accionistas, somos todos, y no siempre ejercemos como tal con una postura crítica y responsable. El Linked Open Data nos permitirá pasar, de manera efectiva y social, del dato en bruto, al conocimiento colectivo.

Deusto Data

Archivo por meses: enero 2016