Archivo de la etiqueta: big data

RGPD: El mundo del dato desafía a la ley (por Elen Irazabal)

(Artículo escrito por Elen Irazabal, alumni de Deusto Derecho y alumna de la II Edición del Programa en Tecnologías de Big Data en nuestra sede de Madrid)

Resulta sorprendente que uno de los puntos más confusos del nuevo Reglamento General de Protección de Datos (RGPD), sea la propia contextualización social en la que se sustenta: la imprecisa conexión entre la privacidad y los datos de carácter personal.

Reglamento Europeo de Protección de Datos o RGPD (Fuente: https://tulopd.es/wp-content/uploads/2016/09/RGPD.png)
Reglamento Europeo de Protección de Datos o RGPD (Fuente: https://tulopd.es/wp-content/uploads/2016/09/RGPD.png)

Veamos ahora porqué este criterio puede hacer del reglamento una ley inefectiva:

El concepto de privacidad ha sido objeto de evolución y re-definición a lo largo de los tiempos a medida que la sociedad avanzaba y se adaptaba a los retos del momento. No debemos entender el concepto de privacidad como absoluto, pues la privacidad es un conjunto de atributos personales que competen a la persona y la cesión que realiza en el día a día de cada atributo que la compone, la valora el propio sujeto en base a lo que recibe a cambio.

Desde que internet se materializó como parte de nuestra actividad diaria, el mundo del dato ha impulsado la re-valorización de la privacidad. De hecho, el propio concepto de privacidad ha sido transformado por todos nosotros durante la última década al interactuar en el espacio digital a cambio de beneficios económicos y sociales. Sin embargo, la cesión de privacidad de los individuos ha traído una ola de incertidumbre presente y de futuro.

Por ello, uno de los puntos clave del Reglamento es el control  del usuario de sus datos durante toda la vida del dato con especial hincapié en el procesamiento de los mismos. Por tanto, el legislador europeo faculta al usuario del derecho a controlar sus datos personales y la capacidad para disponer y decidir sobre los mismos [1]. De manera que, este derecho dota al individuo de un campo mayor de ejercicio, donde el Reglamento también es aplicable en aquéllos casos que no se vulnera o genera un riesgo real a la privacidad de las personas.

Esto tiene varias acepciones desde el punto de vista del dato y del usuario:

  • Que el reglamento intervenga en la vida del dato cuando no comporta ningún riesgo y que por tanto, se establezcan prohibiciones que vulneren el valor del dato. En última instancia, repercutirán en los servicios que proporcionan a los propios usuarios.
  • Que el ciudadano, al no poder realizar un cálculo de impacto en su esfera privada desconozca las implicaciones de sus decisiones en todo el proceso de la vida de sus datos. Y que por tanto, el ciudadano no sea capaz de tener un control efectivo sobre ellos.

En definitiva, puede generar un desequilibrio entre el mundo físico del usuario y el universo digital del dato que podría optimizarse si la legislación en lugar de ser resultado de la planificación de los gobiernos, facilitara la fusión de los dos mundos.

[1] Agencia Española de Protección de Datos:  http://www.agpd.es/portalwebAGPD/CanalDelCiudadano/derechos/index-ides-idphp.php

Big data en la seguridad alimentaria

(Artículo escrito por Izaskun Larrea, antigua alumna de la promoción de 2016/17 en el Programa en Big Data y Business Intelligence en Bilbao)

En los últimos años, se ha escrito mucho sobre Big Data  y su potencial para revolucionar la forma en que operan las empresas y los servicios públicos. La visión se está convirtiendo rápidamente en realidad, podemos tener redes de sensores conectados que recopilan datos de fábricas, vehículos, hospitales, hogares, tiendas y cadenas de suministro en todo el mundo. Se dice que es la tecnología que permitirá todo, desde las ciudades inteligentes que pueden, por ejemplo, optimizar el flujo de tráfico, el uso de energía y la señalización,  hasta predecir un terremoto.

En este artículo exploramos cuál será el impacto continuo del Big Data  en la seguridad alimentaria. En particular, examinamos el conocimiento aceptado de que el Big Data, con su capacidad de monitorear y controlar los sistemas de forma remota, nos ayudará a avanzar para garantizar la seguridad alimentaria.

Algo tan complejo como las cadenas mundiales de suministro de alimentos, va a requerir una visión coordinada y colaborativa que no deje piedra sin remover, con cada componente haciendo su parte.

Seguridad Alimentaria y Big Data
Seguridad Alimentaria y Big Data

Trazabilidad de la cadena alimentaria

Actualmente, el Big Data se usa con mayor frecuencia en la industria alimentaria para  rastrear el estado de los productos a través de la producción, el procesamiento y la cadena de suministro. En el nivel más básico, las empresas han estado utilizando códigos de barras y etiquetas RFID durante más de 20 años para rastrear productos alimenticios desde sus puntos de origen hasta plantas de procesamiento, transporte, almacenamiento, puntos de distribución y minoristas de alimentos .

En años más recientes, también hemos visto el desarrollo de sensores más sofisticados que pueden monitorear los factores de seguridad hasta un nivel de detalle fino durante el procesamiento de alimentos y la logística. Ahora es relativamente común que las empresas instalen redes de sensores que midan las partículas de polvo de los alimentos, la temperatura o la humedad en plantas de fabricación de alimentos y contenedores de transporte.

Estamos viendo esfuerzos más avanzados, como el proyecto MUSE-Tech financiado recientemente por la UE (espectroscopía fotoacústica, espectroscopía de UV-Vis Cuasi Imaging y detección de temperatura distribuida) para mejorar la manera en que los fabricantes manejan los materiales en bruto y en el proceso.

El proyecto desarrolló un dispositivo multisensor que puede reaccionar en tiempo real  las variaciones en las materias primas y las condiciones de procesamiento para optimizar la calidad y la seguridad de los alimentos procesados. Una línea del proyecto se ha centrado en reducir el riesgo de desarrollar acrilamida, un compuesto tóxico en alimentos con almidón, como las papas fritas durante la cocción, al especificar nuevas pautas para el tiempo y la temperatura de fritura.

Combinados, los beneficios de estos enfoques son muchos. Por un lado, ayudan a las empresas alimentarias a cumplir la legislación alimentaria. Esto específicamente establece disposiciones para mejorar las prácticas de seguridad alimentaria y una mayor responsabilidad a través de la rastreabilidad.

La  monitorización integral de los de los alimentos, permite que varias partes involucradas en las redes de suministro, las empresas de logística y los minoristas identifiquen rápidamente los puntos de origen y distribución. Anteriormente, estas investigaciones podrían haber llevado semanas o meses.

Sin embargo, aunque toda esta capacidad es buena para una seguridad alimentaria eficiente e identifica los  problemas más rápidamente, solo nos lleva tan lejos hacia las verdaderas posibilidades que se ofrecen. Para eso, necesitamos agregar Big Data a la mezcla.

Avances en el análisis de Big Data

A medida que Internet of Things se desarrolla en sofistificación y escala, se están produciendo grandes cantidades de datos que antes no estaban disponibles. ¿Cómo podemos utilizar toda esta información para mejorar la forma en que trabajamos?

Este es el trabajo de Big Data Analytics, el campo del Big Data  que progresa rápidamente y que puede usarse para extraer conjuntos de datos excepcionalmente grandes y descubrir patrones ocultos, correlaciones desconocidas, puntos de falla, tendencias del mercado, preferencias del cliente y todo tipo de información comercial útil.

En la industria alimentaria, los conjuntos de datos se están incrementando por la gran cantidad de datos generados por las redes de sensores de monitoreo que ya hemos descrito.

Sin embargo, esto es solo el comienzo. Lo que es realmente interesante es el potencial de encontrar nuevas correlaciones mediante el análisis de los datos de seguridad alimentaria junto con los datos de sensores de otras fuentes científicas y ambientales. Esto creará la posibilidad de ofrecer avances aún más profundos.

Un ejemplo de cómo esto puede funcionar es una colaboración actual entre Mars e IBM, que se centra en la secuenciación del ADN y el ARN de las bacterias que se producen dentro de los alimentos en las cadenas de suministro mundiales. El objetivo del proyecto es crear un índice genético de las bacterias normales que se producen en los alimentos.

Esto ayudará a determinar más fácilmente las anomalías en las muestras de alimentos que muestran la presencia de bacterias dañinas. Proporcionará una mejor comprensión de las causas de la contaminación y la propagación de enfermedades transmitidas por los alimentos.

6 maneras en los que el sistema sanitario puede utilizar el Big Data

(Artículo escrito por Izaskun Larrea, antigua alumna de la promoción de 2016/17 en el Programa en Big Data y Business Intelligence en Bilbao)

El Big Data se ha instalado en una amplia gama de sectores. La asistencia sanitaria está preparada para grandes iniciativas de datos -como una de los servicios más grandes y complejos de la Unión Europea- hay un número increíble de aplicaciones potenciales para el análisis predictivo.

Mientras que algunas organizaciones de salud han comenzado a ver el valor en el uso de Big Data, la sanidad en su conjunto ha sido muy lenta en adoptar grandes iniciativas de datos por una serie de razones. Aquí hay sólo 6 de las muchas formas en que la atención sanitaria podría utilizar Big Data y por qué no están aprovechando su potencial máximo.

Sanidad y Big Data (Fuente: https://www.datanami.com/2015/08/26/medical-insight-set-to-flow-from-semantic-data-lakes/)
Sanidad y Big Data (Fuente: https://www.datanami.com/2015/08/26/medical-insight-set-to-flow-from-semantic-data-lakes/)

(1) Prevención de errores de medicación

Los errores de medicación son un problema serio en las organizaciones sanitarias. Debido a que los seres humanos cometen errores ocasionales (incluso algo tan simple como elegir el medicamento equivocado en un menú desplegable), los pacientes a veces terminan con el medicamento equivocado, lo que podría causar daño o incluso la muerte.

El Big Data puede ayudar a reducir estas tasas de error de forma espectacular mediante el análisis de los registros del paciente con todos los medicamentos recetados, y marcar cualquier cosa que parece fuera de lugar. MedAware, una Start Up israelí ya ha desarrollado este tipo de software, con resultados alentadores. Los registros de 747.985 pacientes fueron analizados en un estudio clínico, y de ellos, 15.693 fueron sospechosos de error. De una muestra de 300, aproximadamente el 75% de estas alertas fueron validadas, mostrando que el software podría ser una herramienta importante para los médicos, potencialmente ahorrando a la industria hasta 18 mil millones de euros por año.

Desafortunadamente, al igual que ocurre con muchas grandes iniciativas de datos en salud, hay algunos obstáculos para la adopción generalizada. Debido a la antigüedad de muchos sistemas de TI de atención médica, la implementación de estos dispositivos puede tardar en adaptarse. Además, los datos sanitarios son muy sensibles y las organizaciones tienen que ser muy cuidadosas con la seguridad y el cumplimiento de las regulaciones comunitarias.

(2)Identificación de pacientes de alto riesgo

Muchos sistemas de atención sanitaria tienen que lidiar con altas tasas de pacientes que recurren repetidamente al servicio de urgencias, lo que aumenta los costos de atención médica y no conduce a una mejor atención o resultados para estos pacientes.

Usando el análisis predictivo, algunos hospitales han sido capaces de reducir el número de visitas a urgencias identificando a pacientes de alto riesgo y ofreciendo atención personalizada centrada en el paciente.

Actualmente, uno de los principales obstáculos a superar en la identificación de pacientes de alto riesgo es la falta de datos. En general, hay simplemente muy pocos datos o están muy dispersos, lo que hace casi imposible obtener una imagen precisa de los riesgos reales.

(3) Reducción de los costos hospitalarios y de los tiempos de lista de espera

Existe un enorme potencial para reducir costos con Big Data en salud. También hay una oportunidad para reducir los tiempos de lista de espera, algo que cuesta dinero a todos. Un hospital en París está utilizando la analítica predictiva para ayudar con la dotación de personal. Al predecir las tasas de admisión en las próximas dos semanas, el hospital puede asignar personal sanitario basado en estos números.

Hay muchas maneras en que los hospitales podrían recortar costos usando analítica predictiva, pero pocas organizaciones lo han hecho todavía.

Los presupuestos de los hospitales son complejos y, aunque el potencial de retorno de la inversión (ROI) es alto, algunas organizaciones simplemente no están dispuestas a invertir en Big Data puesto que los resultados no siempre se ven a corto plazo.

(4) Prevención de incumplimientos de seguridad y fraude

Según un estudio, el sistema sanitario es 200% más propenso a experimentar una violación de datos que otras industrias, simplemente porque los datos personales son muy valiosos. Con esto en mente, algunas organizaciones han utilizado el Big Data para ayudar a prevenir el fraude y las amenazas de seguridad. Por ejemplo, los Centros de Servicios de Medicare y Medicaid (EEUU) fueron capaces de evitar un fraude de 210.7 millones de dólares en sólo un año usando análisis de Big Data.

Desafortunadamente, además de los beneficios preventivos del Big Data, también hay algunos grandes riesgos de seguridad. Muchas organizaciones se cuidan de hacerse más vulnerables de lo que ya son, lo que es comprensible teniendo en cuenta las regulaciones comunitarias de información del paciente.

(5) Mejorar el compromiso y los resultados de los pacientes

El interés del consumidor en dispositivos que monitorizan las medidas tomadas, las horas de sueño, la frecuencia cardíaca y otros datos muestran que la introducción de estos dispositivos como una ayuda médica podría ayudar a mejorar la participación y los resultados del paciente. Los nuevos portátiles pueden seguir tendencias de salud específicas y retransmitirlos de nuevo a la nube donde pueden ser monitorizados por los médicos. Esto puede ser útil para todo, desde el asma hasta la tensión arterial, y ayudar a los pacientes a mantenerse independientes y reducir las visitas innecesarias a los médicos.

Estos portátiles están desafortunadamente todavía comenzando, y las complicaciones con la seguridad, la compatibilidad del software, y otros obstáculos están limitando actualmente su utilidad.

(6)Uso generalizado de registros de Historia Clínica Electrónica

En general, la industria podría ahorrar hasta 400.000 millones de dólares al aprovechar adecuadamente el Big Data, pero la adopción es muy lenta.

La buena noticia es que la mayoría de los hospitales finalmente han cambiado a usar la historia clínica electrónica, lo que está haciendo más fácil para los profesionales de la salud un acceso más fácil a los datos. Este es un gran primer paso para facilitar la implementación de grandes plataformas de datos, ya que hay muchos más datos para trabajar. Sin embargo, con el enfoque cauteloso que muchos hospitales toman para cambiar, y un abrumador número de posibles aplicaciones, muchos administradores se sienten abrumados e inseguros de dónde empezar. Sin embargo, a medida que más organizaciones de salud trabajen con Big Data, esta práctica se convertirá en la norma en lugar de la excepción.

Business Intelligence vs. Torturadores de datos

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Retomamos la actividad tras el verano iniciando mi tercer (y penúltimo) módulo del curso anual “Programa de Big Data y Business Intelligence” de la Universidad de Deusto. En esta primera sesión, de un breve repaso de conceptos clave de estadística quiero destacar una frase, que “cojo prestada” de la presentación de nuestro profesor Enrique Onieva, que me ha encantado porque es absolutamente cierta:

“Unos datos convenientemente torturados te dirán todo aquello que desees oír”

El arte de “torturar” datos lo manejan con maestría muchas profesiones como por ejemplo los periodistas, que encuentran soporte a los titulares que convenga publicar, o también por ejemplo (debo de reconocerlo), nosotros los consultores, en algunos informes de diagnóstico o selección. Porque es cierto que siempre encuentras en un conjunto de datos un punto de vista de análisis que refuerza tus argumentos, y a la contra lo mismo.

Por eso, en este mundo del Business Intelligence es tan crucial:

  • Tener claras las preguntas a responder, los objetivos perseguidos en el análisis de los datos, que a menudo requiere de una secuencia de preguntas que van de lo más general a lo más particular y que habitualmente te van obligando a enriquecer tu información con más datos de los inicialmente disponibles.

Así por ejemplo, no es lo mismo preguntarse:

“Qué producto/servicio se vende más” <-> “Con qué producto/servicio ganamos más”

“Qué máquina tiene más incidencias/averías” <-> “Qué máquina tiene más incidencias/averías por unidad de producción”

“Qué clientes hemos perdido” <-> “Qué clientes hemos perdido por nº de reclamaciones/incidencias registradas”

  • Conocer muy bien los datos a analizar: sus circunstancias de obtención, fiabilidad del dato, significado y relevancia de cada campo/atributo disponible, etc.

Resumiendo:

CALIDAD DEL ANÁLISIS=
CALIDAD DEL DATO
+
CALIDAD DEL GESTOR

data wrangling

Fuente: https://alumni.berkeley.edu/sites/default/files/styles/960×400/public/wranglingbigdata.jpg?itok=k0fK1fJQ

Desmitificando los “big data”: Diez cosas que hay que saber*

El término big data se escucha hasta en la sopa. Ahora resulta que todo es big data. Pero nada más lejos de la realidad; la mayor parte de las personas que manejan y analizan datos, emplean small data. Pero ¿qué los distingue? He aquí la lista de las diez que hay que saber sobre los big data.

  1. No todo son big data

La mayor parte de los/as profesionales que usan datos se basan en small data: datos que aparecen en un volumen y formato que los hacen utilizables y analizables. Los big data, en cambio, son tan enormes y complejos que no se pueden gestionar o analizar con métodos de procesamiento de datos tradicionales.  El análisis y procesamiento de los big data, sin embargo, puede producir small data. A la vez, los small data pueden hacerse más big cuando se funden, escalan e interrelacionan para crear bases de datos mayores.

  1. !Los big data son big!

Algunos definen los big data simplemente por su volumen: son tan grandes que solo se pueden extraer, gestionar, almacenar, analizar y visualizar usando infraestructuras y métodos especiales.  Vivimos en la era de los big data, que se miden, no en terabytes, sino en petabytes y exabytes (donde peta- denota un factor de 1015 y exa- de 1018).

  1. Una definición de big data habla de…

una profusión de objetos digitales y contenido online generado por usuarios/as durante sus actividades digitales, interceptación masiva de interacciones y metadatos (es decir, los datos sobre los datos), así como producto de la dataficación de la actividad humana y no humana, que es tan grande, puede ser procesada con tal velocidad, es tan variada, tiene tanto potencial económico, y muestra tal nivel de exactitud y complejidad que puede ser considerada realmente grande, y por tanto solo puede ser analizada por nuevas infraestructuras y métodos.

  1. No existe el “dato crudo” u objetivo

Como ya dijo en 2013 Lisa Gitelman en su muy citado libro “Raw Data” Is an Oxymoron: afirmar que un dato está “crudo”, es decir, desprovisto de intención, parcialidad o prejuicios, es simplemente erróneo. Los datos no surgen de la nada. La recopilación de datos y metadatos es constante, subrepticia y abarcadora: cada clic  y cada “me gusta” son almacenados y analizados en alguna parte. Estos datos son de todo menos “crudos”; no debemos pensar en ellos como un recurso natural, sino como un recurso cultural que necesita ser generado, protegido e interpretado. Los datos son “cocinados” en los procesos de recolección y uso (procesos que, a la vez, son “cocinados”); y no todo puede ser, ni es, “reducido” a los datos o “dataficado”. Por tanto, los conjuntos de datos, por muy big que sean, pueden esconder errores, vacíos y arbitrariedades.

  1. Los datos no son el “nuevo petróleo”

Ya la comparación no es muy afortunada en los tiempos del cambio climático. Pero aunque el “valor” es una de las uves asociadas a los big data (junto con volumen, velocidad, variedad, veracidad y otras palabras que empiezan con uve), los datos no son valiosos en sí mismos; hay que transformarlos en utilizables, analizables y accionables para poder extraer valor de ellos. “Limpiar datos” desestructurados y desconectados (es decir, no comparables ni relacionables) es posiblemente la tarea más ardua y desagradecida en la gestión de datos. En resumidas cuentas: los datos son la base de la información, pero no son información.

  1. No se necesitan big data para hacer buenos análisis de datos

Ahora estudiosos y estudiosas, como Jennifer  Gabrys, Helen  Pritchard y Benjamin Barratt, hablan de datos “suficientemente buenos” (good enough data). Se refieren, por ejemplo, a datos generados por personas no expertas (crowdsourced data). Estos datos pueden ser la base de potentes proyectos como algunas de las aplicaciones de la plataforma Ushahidi que han servido para organizar ayuda humanitaria y asistir a víctimas en casos de conflicto armado y desastre. En estos casos, los datos proporcionados por la gente sobre una crisis se amasan, verifican y visualizan en mapas interactivos que están revolucionando la asistencia humanitaria.

  1. Todo el mundo miente…

Los big data pueden servir para hacer estudios enormemente iluminadores. Seth Stephens-Davidowitz acaba de publicar Everybody Lies. Este libro –subtitulado algo así como: “lo que internet puede decirnos acerca de quiénes somos realmente”— es una muestra de que cómo la gente miente en las encuestas y posturea en las redes sociales, mientras que se “desnuda” cuando hace búsquedas en internet. Basado en el análisis masivo de las búsquedas en Google, otras bases de datos y sitios web, Stephens-Davidowitz descubre que la gente es mucho más racista, machista e innoble de lo que piensa o admite. Y es que los chistes racistas aumentan alrededor del 30% en el Día de Martin Luther King en los Estados Unidos, y hacer promesas “es una señal segura de que alguien no hará algo”.

  1. Y no todo el mundo tiene acceso a los big data

¿Quiénes amasan big data? Sobre todo los gobiernos (desde datos macroeconómicos o demográficos hasta datos procedentes de la interceptación de comunicaciones y la vigilancia) y las grandes corporaciones. Las revelaciones de Snowden en 2013 mostraron, por ejemplo, que los servicios de inteligencia del gobierno estadounidense, con la colaboración empresas privadas y otros gobiernos, habían establecido una tupida capa de vigilancia e interceptación datos sobre las comunicaciones de millones de personas en todo el mundo. Cathy O’Neil, en su libro Weapons of Math Destruction, muestra cómo los programas basados en big data aumentan la eficiencia de “la publicidad predatoria” y socavan la democracia. Otros estudiosos, como Sandra Braman, Zeynep Tufekciy y Seeta Peña Gangadharan, hablan de cómo los gobiernos, con la connivencia de algunas empresas, hacer perfiles, discriminan a grupos vulnerables y potencian la vigilancia indiscriminada, omnipresente y preventiva.

Por otro lado, el movimiento open data hace campaña para que los datos públicos sean abiertos, accesibles y usables. Y muchos gobiernos, grandes y pequeños como por ejemplo Irekia, se han apuntado a  abrir los cofres de sus datos, y cada vez hay más presión para que este movimiento se extienda.

  1. Los datos, big o small, no son para todo el mundo

En un alarde de entusiasmo, Simon Rogers comparó en 2012 el análisis de datos con el punk: “cualquiera puede hacerlo”. Bueno…, pues no es así exactamente. No solamente los big data no están disponibles para cualquier punk, sino que, como Daniel Innerarity señala, las herramientas para convertirlos en analizables y útiles no están al alcance de cualquiera tampoco.

  1. Sin embargo, los datos tampoco son inaccesibles

Pero las barreras para acceder tanto a datos como a las herramientas para usarlos han ido cayendo en los últimos años. Forensic Architecture, con Amnistía Internacional, ha creado un modelo interactivo de la prisión más notoria de Siria utilizando los recuerdos de los sonidos de la cárcel narrados por supervivientes que habían sido retenidos en la oscuridad. El proyecto, llamado Saydnaya: Dentro de una prisión de tortura siria, tiene como objetivo mostrar las condiciones dentro de la prisión. Cuando los datos no están disponibles, hay organizaciones que los generan. WeRobotics pone en circulación “drones comunitarios” para captar datos sobre las condiciones de los glaciares en Nepal, por ejemplo, con el objeto de analizarlos y lanzar alarmas. InfoAmazonia, entre otras cosas, ha publicado un calendario que superpone el tiempo contado por los pueblos indígenas del Río Tiquié y el tiempo medido en el calendario gregoriano, en un diálogo que nunca tuvieron antes.

Más cerca, en nuestro entorno, estudiantes del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto publicaron este año un informe sobre basuras marinas a nivel estatal, en colaboración con la Asociación Ambiente Europeo, que tuvo repercusión en medios y generó un debate sobre los plásticos en el mar. La empresa Bunt Planet utiliza infraestructuras de datos para trazar redes eficientes e inteligentes. Y el centro de investigación DeustoTech aplica robótica y big data para diseñar la movilidad del futuro.

Cuesta adquirir las habilidades, pero programas como el nuestro están al alcance de quien quiere echarle ganas, tiene curiosidad y está abierto/a aprender.

Miren Gutiérrez

Directora del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto

 

*Este post es la versión completa de un artículo publicado en Noticias de Gipuzkoa.

Comunicando los resultados de Big Data eficientemente

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

¡Hacer predicciones no es suficiente! Los científicos de datos eficaces saben explicar e interpretar sus resultados y comunicar los hallazgos con precisión a las partes interesadas para tomar decisiones empresariales. La visualización es el campo de investigación que estudia la comunicación efectiva de resultados cuantitativos vinculando percepción, cognición y algoritmos.  Es necesario aprender a reconocer, diseñar y utilizar visualizaciones efectivas.

Como Data Scientist debemos explorar las consideraciones éticas sobre el Big Data y cómo estas consideraciones están comenzando a influir en la política y en la sociedad. Tenemos limitaciones en el uso de la tecnología para proteger la privacidad y los códigos de conducta que emergen para guiar el comportamiento de los científicos de los datos.

Las inferencias estadísticas del Big Data, heterogéneos y ruidosos son inútiles si no puede comunicarlos a sus colegas, a sus clientes, a su administración y a todas las partes interesadas, parece ir paradójicamente empeorando. Pero la reproducibilidad no es sólo para los académicos: los científicos de datos que no pueden compartir, explicar y defender sus métodos para que otros puedan construir son difíciles de entender. La importancia de la investigación reproducible y cómo el cloud computing está ofreciendo nuevos mecanismos para compartir código, datos, entornos e incluso costos que son críticos para la reproducibilidad práctica.

comunicación Big Data

Últimamente, he trabajado en una serie de proyectos que requieren la recapitulación del Big Data para desarrollar materiales de comunicación que transmiten mensajes clave con claridad y precisión.

Si bien el tipo y la cantidad de datos, las áreas temáticas y el público objetivo de cada pieza de comunicaciones varían, cada proyecto implica el uso de los siguientes pasos para producir piezas de comunicaciones efectivas en el Big Data:

  1. Evaluar la exactitud de tus datos. Ya sea porque esté explorado en Internet, interpretando un informe técnico de 100 páginas, analizando los datos de demostración reportados por el usuario o resumiendo los resultados de un trabajo, es importante hacer preguntas sobre tus datos. ¿Tus fuentes proporcionan información conflictiva que es contraria a lo que esperabas? Si es así, haz un poco de investigación adicional para resolver estos problemas y excluir cualquier fuente no confiable.
  2. Analizar lo que dice la información – Ahora que sabes que tus datos son más precisos, es el momento de organizarlo en categorías lógicas. ¿Cuáles son los principales bloques de información con los que se trata? ¿Tienes información cualitativa y cuantitativa? Una vez que tengas una mejor comprensión de la profundidad y amplitud de tus datos, puedes resumir con mayor facilidad los puntos clave de cada agrupación de datos.
  3. Determinar lo que es más importante para tu audiencia – Es fácil resumir todos los datos con los que estás trabajando, pero algunos datos son más importantes para tu audiencia que otros. ¿Alguno de tus puntos clave fue sorprendente o nuevo? Trate de encontrar tus puntos clave, preguntarse qué es significativo y por qué cada punto importa. Si tú no puedes llegar a una respuesta, es probable que el punto clave no debe ser incluido.
  4. Identificar el formato más significativo para la presentación de tus datos – Para aumentar la eficacia de tu análisis, este paso debe estar realmente en tu mente durante todo el proceso del análisis de datos. Es importante determinar qué formato de comunicaciones será más útil para tu audiencia, para que tu proyecto inspire acción en lugar de simplemente una exposición de información masiva. ¿Es probable que tu público realice físicamente un resumen ejecutivo o una hoja informativa? ¿Es probable que eliminen las páginas o el capítulo de un informe que más se relaciona con tu investigación? El propósito de la información debe determinar el formato de tu informe. Y por supuesto, no olvides que vivimos en una edad muy visual. Debemos de usar señales visuales para comunicar temas complejos.

Un análisis de datos eficaz requiere hacer el trabajo desde abajo para que nadie más en la organización se atasque con el Big Data. Tu audiencia no tendrá tiempo para luchar para determinar qué información es más importante. Es tu trabajo interpretar los datos para ellos.

Demanda laboral para expertos en Big Data

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

Data Scientist, ha sido elegida como mejor profesión en los EE.UU en el 2016 por el portal de empleo Glassdoor.

Aunque son las empresas tecnológicas como Microsoft, Facebook e IBM las que emplean a la mayoría de los científicos de datos, según un informe de RJ Metrics, estos profesionales también son demandados en otros sectores.

No es de extrañar que la mayoría de las personas que eligen esta profesión empiecen estudiando empresariales, economía, ciencia, tecnología, ingeniería y matemáticas, etc.  La contribución positiva del Big Data a la economía y competitividad en el mercado global de alta tecnología es innegable.

Es por eso que tantos estudiantes se están matriculando en universidades que ofrecen disciplinas en Big Data y Business Intelligence.  Esta especialización está vinculada a las empresas de más rápido crecimiento y al éxito de las carreras profesionales de sus trabajadores.

Muchas carreras del futuro dependerán en gran medida de los expertos en Big Data, que analizarán e informarán sobre los datos que se utilizan en última instancia como factores clave en la toma de decisiones para empresas y organizaciones en diversos sectores. Según el Computer Business Review, se prevé que el mercado de Big Data crecerá a 46.340 millones de dólares para el 2018 a medida que más y más empresas adopten nuevas tecnologías y una mentalidad digital.

Según la encuesta de Peer Research de Big Data Analytics de Intel, las organizaciones y los ejecutivos concluyeron que el Big Data es una de las principales prioridades para las empresas. El Big Data está presente en casi todos los aspectos de la vida cotidiana y una razón principal por la cual muchas empresas contratarán graduados con una especialización en análisis de datos.

En España, uno de los mayores retos en este terreno es contar con los profesionales adecuados para procesar, filtrar y extraer valor de todos estos datos. No en vano, las ofertas de empleo en el sector del Big Data aumentaron un 92% en 2015. Según el Observatorio de Empleo de Big Data y, en los seis primeros meses de este año, la demanda de científicos de datos creció un 45% en Europa, según la consultora Procorre. En países como Portugal, este porcentaje aumentó un espectacular 79% en esta primera mitad de 2016.

De acuerdo con las estimaciones realizadas por IDC, el mercado español de big data y analytics ha crecido un 6,3% con relación al mismo periodo del año pasado, alcanzando los 191 millones de Euros.  Esto corresponde a un aumento de más de 11 millones de euros, lo que revela el enfoque en el dato como una preocupación creciente de las empresas de este país.

Empleo y Big Data
Empleo y Big Data

España es el octavo país del mundo con más científicos de datos (2,02% del total, frente al 2,20% de Alemania o el 7,12% de Reino Unido) pero la demanda supera con creces la cantidad de profesionales cualificados existente. Por ello, tanto universidades como empresas privadas han comenzado a ofertar programas especializados en ‘data science’ que permitan cubrir este ‘gap’ formativo que existe en la actualidad.

En 2016 se ha producido un incremento generalizado del nivel salarial, destacando el fuerte auge para los perfiles Business Intelligence y Big Data donde el rango salarial ha aumentado a los 39.700 euros brutos anuales este año.

Por lo tanto, como dice Stephane Levesque, CEO de ticjob.es. “Es un buen momento para formarse y desarrollar la carrera profesional en Big Data debido a la escasez de perfiles, las buenas oportunidades profesionales y el nivel salarial ofrecido”.

Industria 4.0 y Big Data

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao

A pesar de su vida relativamente breve, el Big data está listo para optimizar la Industria 4.0. Algunas empresas están utilizando conjuntos de datos para mejorar y observar la producción, minimizar los errores de producción, gestionar los riesgos y optimizar la velocidad de montaje en la planta de producción. No sólo el Big Data puede ayudar a lograr una mayor eficiencia, sino que también puede conducir a un ahorro de costos en la línea de producción.

Mejoras en la cadena de suministros

A menudo se usa el Big Data para identificar, corregir y reducir los riesgos involucrados en la cadena de suministro. Procesos que incluyen la adquisición de materias primas, así como el almacenamiento y distribución de productos terminados presentan desafíos únicos que se pueden abordar a través del Big Data. Las cadenas de suministro más grandes y complejas serán más susceptibles que las estructuras más pequeñas, pero casi todas pueden beneficiarse de la gran recopilación y procesamiento de datos.

La cantidad de datos no es el único obstáculo a superar. Los fabricantes están ahora lidiando con más fuentes de datos y materiales que nunca. Los registros del centro de llamadas, el tráfico en línea, las reclamaciones de los clientes e incluso los mensajes en los medios sociales se utilizan para recopilar valiosos datos de los consumidores.

Aunque gran parte de esta información va actualmente a la cuneta, puede archivarse y utilizarse en el futuro para tomar decisiones de negocios, establecer objetivos organizacionales y mejorar el servicio al cliente.

Mejora en la comunicación

También se puede utilizar el Big Data para reforzar las comunicaciones entre los compañeros de trabajo, los consumidores e incluso sus máquinas de producción. Industrial Internet of Things (IIoT) ha generado una amplia red de dispositivos y equipos interconectados.

Tanto las materias primas como las piezas acabadas pueden ser etiquetadas con chips inteligentes RFID, que informan sobre su ubicación exacta y su estado físico en cualquier momento durante el proceso de producción o envío. Las máquinas de autodiagnóstico pueden evitar problemas adicionales y evitar lesiones personales mediante el apagado automático para mantenimiento o reparación. Todas estas características tienen el potencial de eficiencia y ahorro de costos que los primeros pioneros de la industria no habrían podido imaginar en sus mejores sueños.

Aumento de oportunidades de capacitación

Una de las aplicaciones más obvias y beneficiosas de la gestión del Big Data, se puede ver en la formación de su personal. Una gran cantidad de nuevos roles son necesarios para acomodar los proyectos Big Data.

Aparte de proporcionar más oportunidades para los empleados motivados, Big Data también se puede aprovechar para fortalecer y la eficacia de sus programas de formación actuales. Al recolectar y monitorizar los datos relacionados con el desempeño individual de los trabajadores, la productividad general, o la revisión del currículum cuando sea necesario. Esto le permite enfrentar mejor las debilidades y las refuerza con formación y entrenamiento. Los resultados pueden ser comparados y contrastados entre diferentes departamentos, competidores y la industria en general.

Los fabricantes que trabajan con Big Data, cosechan las mayores recompensas, mejoras en su cadena de suministro, comunicaciones más sólidas entre compañeros de trabajo y socios y obtienen más oportunidades de capacitación.

Esto es sólo el comienzo de lo que puede ofrecer el Big Data a la Industria 4.0.

Evolución de la industria hacia la 4.0: ¿qué aporta el Big Data?
Evolución de la industria hacia la 4.0: ¿qué aporta el Big Data?

¿Cómo el Big Data puede cambiar la atención sanitaria en el Servicio Vasco de Salud?

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

Si desea averiguar cómo el Big Data está ayudando a conseguir un mundo mejor, no hay mejor ejemplo que los usos que se encuentran en la atención sanitaria.

La última década ha sido testigo de enormes avances en la cantidad de datos que habitualmente generamos y recopilamos, así como nuestra capacidad de utilizar la tecnología para analizarla y entenderla. La intersección de estas tendencias es lo que llamamos “Big Data” y está ayudando a las empresas de todas las industrias a ser más eficientes y productivas.

La asistencia sanitaria no es diferente. Además da mejorar los beneficios y reducir los gastos generales, Big Data en la atención sanitaria se utiliza para predecir epidemias, curar enfermedades, mejorar la calidad de vida y evitar muertes evitables. Con la población mundial en aumento y con la población cada día más longeva, los modelos de tratamiento están cambiando rápidamente, y muchas de las decisiones están siendo impulsadas por los datos. Actualmente, la necesidad es saber cada día más sobre los pacientes, desde que nacen –  recogiendo señales de advertencia de una enfermedad grave en una etapa suficientemente temprana para que el tratamiento sea más eficiente que si no hemos precedido los antecedentes del individuo.

Así que para crear un proyecto Big Data en la atención sanitaria, vamos a empezar por el principio – antes de que se detecte la enfermedad.

Pacientes que reciben el alta en hospitales
Pacientes que reciben el alta en hospitales

Es mejor prevenir que curar

Los teléfonos inteligentes fueron sólo el comienzo. Con las aplicaciones que les permiten ser utilizados como podómetros para medir cuánto caminas en un día, a los contadores de calorías para ayudarte a planificar tu dieta, millones de nosotros estamos utilizando la tecnología móvil para conseguir un estilo de vida saludable. Más recientemente, ha surgido un flujo constante de dispositivos portátiles dedicados como Fitbit, Jawbone y Samsung Gear Fit que permiten realizar un seguimiento de su progreso y cargar sus datos para ser recolectados junto con los demás datos.

En un futuro muy cercano, podremos utilizar estos datos con su médico quien lo utilizará como parte de su caja de herramientas de diagnóstico. Incluso aunque no esté enfermo, el acceso a las bases de datos de Big data, conseguir la información sobre el estado de la salud los pacientes de Osakidetza permitirá que los problemas sean afrontados antes de que ocurran, y se tomen decisiones terapéuticas o educativas, permitiendo que Osakidetza consiga información privilegiada.

Estos proyectos de Big Data, a menudo son creados por asociaciones entre profesionales médicos y de Big Data, con la prioridad de mirar hacia el futuro e identificar problemas antes de que sucedan. Un ejemplo recientemente creado es el proyecto Pittsburgh Health Data Alliance, que pretende tomar datos de diversas fuentes (tales como registros médicos y datos genéticos e incluso uso de medios sociales) para dibujar un cuadro completo del paciente.  Con el fin de ofrecer un paquete de atención médica adaptada.

Los datos de los pacientes no serán tratados aisladamente. Se comparará y analizará junto a  otros, destacando amenazas y problemas específicos a través de patrones que surgen durante el análisis. Esto permite que con este sofisticado modelo predictivo que se crea, un médico será capaz de evaluar el resultado probable de cualquier tratamiento que él o ella está considerando, respaldado por los datos de otros pacientes con las mismas condiciones, factores genéticos y estilo de vida.

Programas como este son el intento de la industria para hacer frente a uno de los mayores obstáculos en la búsqueda de la salud basada en Big Data: la industria médica recolecta una gran cantidad de datos, pero a menudo se encuentra en archivos y controlados por diferentes direcciones médicas, hospitales, clínicas, y los departamentos administrativos.

Otra asociación es entre Apple y IBM. Las dos compañías están colaborando en una gran plataforma de salud de datos que permitirá a los usuarios de iPhone y Apple Watch compartir datos con el Servicio de Salud Watson Health de IBM. El objetivo es descubrir nuevos conocimientos médicos a partir de cruzar en tiempo real la actividad y los datos biométricos de millones de pacientes potenciales.

En conclusión, existe un gran potencial para desarrollar una atención sanitaria más selectiva, de amplio alcance y eficiencia mediante la explotación del Big Data. Sin embargo, también se ha demostrado que el campo de la salud tiene algunas características muy específicas y desafíos que requieren de un esfuerzo dirigido y de la investigación para alcanzar todo su potencial.

¿Por qué son relevantes las políticas de Gobierno Abierto, Big Data y Open Data?

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

The question lies at the heart of our campaign, which argues that government’s role should be to collect and administer high-quality raw data, but make it freely available to everyone to create innovative services”. “Free our Data campaign”. Reino Unido. Junio de 2006.

¿La Seguridad Social será solvente para nuestros nietos? ¿Cuál es el impacto de las nuevas inversiones en salud, educación y carreteras? ¿Cuál será la proyección de las políticas en la Industria 4.0 de la C.A. de Euskadi? Estas son, algunas de las preguntas que se pueden resolver con Big Data.

El Big Data es una combinación de la información masiva de datos y los recursos tecnológicos. Al igual que las empresas, las administraciones públicas (AAPP) pueden conocer mucho más a los ciudadanos, lo que leen, lo que perciben, etc.

La combinación e implantación de políticas de Gobierno Abierto, “Big Data” y “Open Data” pueden brindar importantes y sustanciosos beneficios a los ciudadanos. Estudios como demosEuropa (2014) concluyen que los países que apuestan por la transparencia de sus administraciones públicas mediante normas de buen gobierno cuentan con instituciones más fuertes, que favorecen la cohesión social.

Según un estudio realizado en la Unión Europea la implementación de las políticas de Gobierno Abierto “Big Data” y “Open Data” tendrán un efecto considerable. El impacto dependerá, lógicamente, del grado de extensión y desarrollo de nuevas tecnologías en cada economía y sector productivo, así como del grado de dependencia y utilidad de dicha información en cada uno de ellos. De hecho, aunque se prevé un impacto positivo en todos los sectores económicos, las ramas de actividad sobre las que se espera un mayor impacto serán la industria manufacturera y el comercio, seguidas de las actividades inmobiliarias, el sistema sanitario y la administración pública (ver siguiente mapa).

Impacto económico Big Data y Open Data en la UE
Impacto económico Big Data y Open Data en la UE

En cuanto al impacto geográfico, conviene llamar la atención sobre el caso particular de España, ya que será uno de los países en los que menos repercusión económica tenga el “Big Data” y “Open Data”. Ello se debe al todavía limitado desarrollo de este tipo de tecnologías que permitan aflorar adecuadamente los beneficios que pueden llegar a reportar a la economía, así como de una mayor representatividad de las PYMES en el tejido empresarial español. Ahora bien, el hecho de que el impacto estimado del “Big Data” y “Open Data” sea mayor en los países del norte europeo, donde se han desarrollado mucho más estas tecnologías, pone de manifiesto que éstas ofrecen rendimientos crecientes que conviene aprovechar, independientemente del posicionamiento de cada uno de los países.

Impacto económico del Big Data y Open Data para países europeos y sectores económicos 2013-2020
Impacto económico del Big Data y Open Data para países europeos y sectores económicos 2013-2020

Aunque podemos percibir que la C.A. de Euskadi puede tener un comportamiento similar a las regiones del norte y centro de Europa visualizando el siguiente gráfico, dónde se refleja el interés de los ciudadanos por el Big Data.

Fuente: Google. Los números reflejan el interés de búsqueda en relación con el mayor valor de un gráfico en una región y en un periodo determinados. Un valor de 100 indica la popularidad máxima de un término, mientras que 50 y 0 indican una popularidad que es la mitad o inferior al 1%, respectivamente, en relación al mayor valor.
Fuente: Google. Los números reflejan el interés de búsqueda en relación con el mayor valor de un gráfico en una región y en un periodo determinados. Un valor de 100 indica la popularidad máxima de un término, mientras que 50 y 0 indican una popularidad que es la mitad o inferior al 1%, respectivamente, en relación al mayor valor.

Un elevado número de países han planteado iniciativas de “Open Data”, con el objetivo de incentivar la actividad económica, favorecer la innovación y promover la rendición de cuentas por parte de las AA.PP. Estas iniciativas en absoluto se limitan a los países más avanzados, sino que se están aplicando en múltiples territorios como herramienta de desarrollo económico, como es el caso de India. No obstante, la formulación de buenas prácticas requiere una selección de los principales referentes a escala internacional. Para ello, es posible analizar estudios recientes como, por ejemplo, el Barómetro elaborado por la World Wide Web Foundation.

Open Data Barometer
Open Data Barometer

Reino Unido es el país más avanzado en materia de “Open Government Data” (OGD), tanto en lo que se refiere a la adaptación de sus instituciones, ciudadanos y tejido empresarial, como en la implementación de iniciativas públicas y en el impacto conseguido por las mismas.

El Reino Unido es reconocido ejemplo como uno de los principales referentes a escala internacional en materia de Gobierno Abierto. Sus actividades en torno a la liberación de datos comenzaron en 2006, a instancias de diversas campañas impulsadas por la sociedad civil y los medios de comunicación (como “Free our Data”), y ha logrado mantener un claro apoyo a estas estrategias tanto por parte de los últimos Primeros Ministros como de los principales partidos políticos británicos.

Entre los objetivos de la estrategia de apertura de datos de Reino Unido destaca la importancia atribuida a la innovación y a la dinamización económica que estas iniciativas pueden favorecer. En este sentido, se ha creado un organismo no gubernamental, el Open Data Institute (de financiación público-privada), cuya misión específica es apoyar la creación de valor económico a partir de los datos puestos a disposición de ciudadanos y empresas. Asimismo, las distintas áreas de la Administración han recibido el mandato de diseñar estrategias propias de apertura de datos, incluyendo acciones específicas que incentiven el uso de sus datos y la realización de informes públicos periódicos sobre sus avances en este ámbito.

Por otra parte, el Reino Unido ha puesto en marcha soluciones que tratan de contribuir a resolver los problemas que surgen al publicar grandes volúmenes de datos correspondientes a áreas de actividad o responsabilidad muy diversa. En este sentido, cabe subrayar:

  1. La creación de los Sector Transparency Boards en diversos departamentos de la Administración. Estos grupos de trabajo cuentan con la participación de representantes de la sociedad civil y de las empresas, y tienen como objetivo canalizar las solicitudes de datos y orientar al Gobierno sobre las prioridades a seguir para liberar nuevos conjuntos de datos.
  2. El desarrollo de programas de formación, competiciones y eventos diseñados para incentivar el uso de datos públicos por parte de la sociedad civil.
  3. La asignación de financiación pública a programas dirigidos a incrementar el aprovechamiento de los datos liberados por parte del tejido empresarial.
  4. Asimismo, se observan esfuerzos dirigidos a incrementar la calidad, estandarización y facilidad de explotación de los datos distribuidos (como los derivados del servicio cartográfico, el registro catastral, el registro mercantil).