Datos para el siglo XXI: Experiencias desde el programa de datos de Deusto*

Cada vez más empresas, instituciones y organizaciones de diversos sectores están utilizando la infraestructura de datos –bases de datos, software, algoritmos, gestión, almacenamiento— para mejorar su eficiencia interna, su inteligencia, los servicios que ofrece, y sus programas y productos. Y cada vez más el mercado laboral exige conocimientos en la obtención, análisis y visualización de datos.

En un informe sobre el tema, CNBC dice que los/as expertos/as con habilidades para tratar datos acaparan los trabajos más “sexy” y que los/as profesionales que ofrecen estas habilidades son solo un 20% de lo que necesita el mercado. Y eso solo en el sector privado.

El Programa de postgrado universitario “Análisis, investigación y comunicación de datos” de la Universidad de Deusto trata de preparar a profesionales de los sectores privado y público, tercer sector y medios para estar a la altura de este reto.

¿Qué aporta el Programa? “En primer lugar, he sido consciente de la importancia de los datos para contar historias. En segundo lugar, se me ha mostrado un mundo de posibilidades donde encontrar temas estadísticos y, en tercer lugar, me he acercado a herramientas estadísticas que no conocía” dice Cristina Leciñana, periodista de la revista Consumer, quien ha sido participante en la edición pasada.

Para Ricardo León, Director General de la empresa Checkfarma y especialista en estrategias de mercado, el programa conduce a “conocer nuevas herramientas de análisis de datos (R, Carto, Tableau, etc.) y ver ejemplos reales de transformación del dato en algo con más valor para posteriormente poder publicarlo. Y enriquecerme con otros profesionales, profesores y compañeros de muy diferentes perfiles”.

“En mi vida laboral me ha servido para publicar un par de artículos de gestión este año en revistas especializadas en el mundo de la farmacia –agrega Ricardo—. Me ha ayudado a perder el miedo a publicar y hacer públicos ciertos hallazgos, y me gustaría seguir haciéndolo”.

Ricardo ha comenzado a publicar informes aplicando el análisis de datos a la gestión de los stock en farmacia, por ejemplo.

Lo que lo distingue al Programa “Análisis, investigación y comunicación de datos” es que trabaja en casos reales, con datos reales, que hace un seguimiento individualizado de los proyectos realizados por los/as participantes, y que pone a disposición de cada proyecto un elenco de docentes de primer nivel, que cuenta con expertos y expertas como Mar Cabra, Premio Pulitzer 2017, y Sergio Álvarez Leiva, fundador del gigante de la cartografía digital CARTO.

Este postgrado ofrece preparación en tres ámbitos: legal (en materia tanto de acceso a datos como de protección de datos); herramientas para la obtención y análisis de datos y redes; y comunicación y visualización de datos, así como aplicación del análisis y la visualización a casos prácticos. Es profesionalizante, práctico y basado en casos.

Ahora “intento aplicar una mirada más investigadora en los reportajes que planteo en la revista. Partir del dato para buscar y encontrar temas”, agrega Cristina.

Los/as participantes de otras ediciones incluyen periodistas, ingenieros/as, especialistas en marketing, gestores/as en los sectores público y privado, investigadores/as y representantes de organizaciones del tercer sector. La última edición, por ejemplo, produjo un informe sobre datos de presencia de basuras marinas en playas y riberas de todo el estado, en colaboración con la Asociación Ambiente Europeo, que tuvo repercusión en medios y generó un debate sobre los plásticos en el mar.

“Personalmente ha sido enriquecedor –dice Ricardo, que es también uno de los autores del informe—. He podido salirme de mi esfera del conocimiento y entrar en otros campos, como fue el poder participar en el proyecto de las basuras marinas. Fue muy satisfactorio encontrar información relevante con el ejemplo de las bolsas de plástico en las playas y su menor presencia tras el cambio en el consumo y que existiera cierta correlación”.

“Lo recomendaría sin lugar a dudas. A nivel empresarial, el dato es fundamental para tomar decisiones y se necesita hoy más que nunca que, por la ingente cantidad de datos que se generan, esas decisiones sean facilitadas por una mejor información, y ésa se consigue con el análisis de los datos y su tratamiento. El curso te ayuda en ese camino”, concluye.

En su tercera edición, el Programa se desarrollará entre el 13 de octubre al 17 de enero, en un régimen de viernes tarde y sábado mañana, de forma que los/as participantes pueden compaginarlo con sus trabajos o estudios. Todavía hay plazas para esta edición. Los plazos y más información sobre los requisitos los encuentras en la web datos.deusto.es.

*Este post amplía una nota publicada por EiTB.

Miren Gutierrez es Directora del Programa Experto “Análisis, investigación y comunicación de datos” de la Universidad de Deusto

Business Intelligence vs. Torturadores de datos

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Retomamos la actividad tras el verano iniciando mi tercer (y penúltimo) módulo del curso anual “Programa de Big Data y Business Intelligence” de la Universidad de Deusto. En esta primera sesión, de un breve repaso de conceptos clave de estadística quiero destacar una frase, que “cojo prestada” de la presentación de nuestro profesor Enrique Onieva, que me ha encantado porque es absolutamente cierta:

“Unos datos convenientemente torturados te dirán todo aquello que desees oír”

El arte de “torturar” datos lo manejan con maestría muchas profesiones como por ejemplo los periodistas, que encuentran soporte a los titulares que convenga publicar, o también por ejemplo (debo de reconocerlo), nosotros los consultores, en algunos informes de diagnóstico o selección. Porque es cierto que siempre encuentras en un conjunto de datos un punto de vista de análisis que refuerza tus argumentos, y a la contra lo mismo.

Por eso, en este mundo del Business Intelligence es tan crucial:

  • Tener claras las preguntas a responder, los objetivos perseguidos en el análisis de los datos, que a menudo requiere de una secuencia de preguntas que van de lo más general a lo más particular y que habitualmente te van obligando a enriquecer tu información con más datos de los inicialmente disponibles.

Así por ejemplo, no es lo mismo preguntarse:

“Qué producto/servicio se vende más” <-> “Con qué producto/servicio ganamos más”

“Qué máquina tiene más incidencias/averías” <-> “Qué máquina tiene más incidencias/averías por unidad de producción”

“Qué clientes hemos perdido” <-> “Qué clientes hemos perdido por nº de reclamaciones/incidencias registradas”

  • Conocer muy bien los datos a analizar: sus circunstancias de obtención, fiabilidad del dato, significado y relevancia de cada campo/atributo disponible, etc.

Resumiendo:

CALIDAD DEL ANÁLISIS=
CALIDAD DEL DATO
+
CALIDAD DEL GESTOR

data wrangling

Fuente: https://alumni.berkeley.edu/sites/default/files/styles/960×400/public/wranglingbigdata.jpg?itok=k0fK1fJQ

Desmitificando los “big data”: Diez cosas que hay que saber*

El término big data se escucha hasta en la sopa. Ahora resulta que todo es big data. Pero nada más lejos de la realidad; la mayor parte de las personas que manejan y analizan datos, emplean small data. Pero ¿qué los distingue? He aquí la lista de las diez que hay que saber sobre los big data.

  1. No todo son big data

La mayor parte de los/as profesionales que usan datos se basan en small data: datos que aparecen en un volumen y formato que los hacen utilizables y analizables. Los big data, en cambio, son tan enormes y complejos que no se pueden gestionar o analizar con métodos de procesamiento de datos tradicionales.  El análisis y procesamiento de los big data, sin embargo, puede producir small data. A la vez, los small data pueden hacerse más big cuando se funden, escalan e interrelacionan para crear bases de datos mayores.

  1. !Los big data son big!

Algunos definen los big data simplemente por su volumen: son tan grandes que solo se pueden extraer, gestionar, almacenar, analizar y visualizar usando infraestructuras y métodos especiales.  Vivimos en la era de los big data, que se miden, no en terabytes, sino en petabytes y exabytes (donde peta- denota un factor de 1015 y exa- de 1018).

  1. Una definición de big data habla de…

una profusión de objetos digitales y contenido online generado por usuarios/as durante sus actividades digitales, interceptación masiva de interacciones y metadatos (es decir, los datos sobre los datos), así como producto de la dataficación de la actividad humana y no humana, que es tan grande, puede ser procesada con tal velocidad, es tan variada, tiene tanto potencial económico, y muestra tal nivel de exactitud y complejidad que puede ser considerada realmente grande, y por tanto solo puede ser analizada por nuevas infraestructuras y métodos.

  1. No existe el “dato crudo” u objetivo

Como ya dijo en 2013 Lisa Gitelman en su muy citado libro “Raw Data” Is an Oxymoron: afirmar que un dato está “crudo”, es decir, desprovisto de intención, parcialidad o prejuicios, es simplemente erróneo. Los datos no surgen de la nada. La recopilación de datos y metadatos es constante, subrepticia y abarcadora: cada clic  y cada “me gusta” son almacenados y analizados en alguna parte. Estos datos son de todo menos “crudos”; no debemos pensar en ellos como un recurso natural, sino como un recurso cultural que necesita ser generado, protegido e interpretado. Los datos son “cocinados” en los procesos de recolección y uso (procesos que, a la vez, son “cocinados”); y no todo puede ser, ni es, “reducido” a los datos o “dataficado”. Por tanto, los conjuntos de datos, por muy big que sean, pueden esconder errores, vacíos y arbitrariedades.

  1. Los datos no son el “nuevo petróleo”

Ya la comparación no es muy afortunada en los tiempos del cambio climático. Pero aunque el “valor” es una de las uves asociadas a los big data (junto con volumen, velocidad, variedad, veracidad y otras palabras que empiezan con uve), los datos no son valiosos en sí mismos; hay que transformarlos en utilizables, analizables y accionables para poder extraer valor de ellos. “Limpiar datos” desestructurados y desconectados (es decir, no comparables ni relacionables) es posiblemente la tarea más ardua y desagradecida en la gestión de datos. En resumidas cuentas: los datos son la base de la información, pero no son información.

  1. No se necesitan big data para hacer buenos análisis de datos

Ahora estudiosos y estudiosas, como Jennifer  Gabrys, Helen  Pritchard y Benjamin Barratt, hablan de datos “suficientemente buenos” (good enough data). Se refieren, por ejemplo, a datos generados por personas no expertas (crowdsourced data). Estos datos pueden ser la base de potentes proyectos como algunas de las aplicaciones de la plataforma Ushahidi que han servido para organizar ayuda humanitaria y asistir a víctimas en casos de conflicto armado y desastre. En estos casos, los datos proporcionados por la gente sobre una crisis se amasan, verifican y visualizan en mapas interactivos que están revolucionando la asistencia humanitaria.

  1. Todo el mundo miente…

Los big data pueden servir para hacer estudios enormemente iluminadores. Seth Stephens-Davidowitz acaba de publicar Everybody Lies. Este libro –subtitulado algo así como: “lo que internet puede decirnos acerca de quiénes somos realmente”— es una muestra de que cómo la gente miente en las encuestas y posturea en las redes sociales, mientras que se “desnuda” cuando hace búsquedas en internet. Basado en el análisis masivo de las búsquedas en Google, otras bases de datos y sitios web, Stephens-Davidowitz descubre que la gente es mucho más racista, machista e innoble de lo que piensa o admite. Y es que los chistes racistas aumentan alrededor del 30% en el Día de Martin Luther King en los Estados Unidos, y hacer promesas “es una señal segura de que alguien no hará algo”.

  1. Y no todo el mundo tiene acceso a los big data

¿Quiénes amasan big data? Sobre todo los gobiernos (desde datos macroeconómicos o demográficos hasta datos procedentes de la interceptación de comunicaciones y la vigilancia) y las grandes corporaciones. Las revelaciones de Snowden en 2013 mostraron, por ejemplo, que los servicios de inteligencia del gobierno estadounidense, con la colaboración empresas privadas y otros gobiernos, habían establecido una tupida capa de vigilancia e interceptación datos sobre las comunicaciones de millones de personas en todo el mundo. Cathy O’Neil, en su libro Weapons of Math Destruction, muestra cómo los programas basados en big data aumentan la eficiencia de “la publicidad predatoria” y socavan la democracia. Otros estudiosos, como Sandra Braman, Zeynep Tufekciy y Seeta Peña Gangadharan, hablan de cómo los gobiernos, con la connivencia de algunas empresas, hacer perfiles, discriminan a grupos vulnerables y potencian la vigilancia indiscriminada, omnipresente y preventiva.

Por otro lado, el movimiento open data hace campaña para que los datos públicos sean abiertos, accesibles y usables. Y muchos gobiernos, grandes y pequeños como por ejemplo Irekia, se han apuntado a  abrir los cofres de sus datos, y cada vez hay más presión para que este movimiento se extienda.

  1. Los datos, big o small, no son para todo el mundo

En un alarde de entusiasmo, Simon Rogers comparó en 2012 el análisis de datos con el punk: “cualquiera puede hacerlo”. Bueno…, pues no es así exactamente. No solamente los big data no están disponibles para cualquier punk, sino que, como Daniel Innerarity señala, las herramientas para convertirlos en analizables y útiles no están al alcance de cualquiera tampoco.

  1. Sin embargo, los datos tampoco son inaccesibles

Pero las barreras para acceder tanto a datos como a las herramientas para usarlos han ido cayendo en los últimos años. Forensic Architecture, con Amnistía Internacional, ha creado un modelo interactivo de la prisión más notoria de Siria utilizando los recuerdos de los sonidos de la cárcel narrados por supervivientes que habían sido retenidos en la oscuridad. El proyecto, llamado Saydnaya: Dentro de una prisión de tortura siria, tiene como objetivo mostrar las condiciones dentro de la prisión. Cuando los datos no están disponibles, hay organizaciones que los generan. WeRobotics pone en circulación “drones comunitarios” para captar datos sobre las condiciones de los glaciares en Nepal, por ejemplo, con el objeto de analizarlos y lanzar alarmas. InfoAmazonia, entre otras cosas, ha publicado un calendario que superpone el tiempo contado por los pueblos indígenas del Río Tiquié y el tiempo medido en el calendario gregoriano, en un diálogo que nunca tuvieron antes.

Más cerca, en nuestro entorno, estudiantes del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto publicaron este año un informe sobre basuras marinas a nivel estatal, en colaboración con la Asociación Ambiente Europeo, que tuvo repercusión en medios y generó un debate sobre los plásticos en el mar. La empresa Bunt Planet utiliza infraestructuras de datos para trazar redes eficientes e inteligentes. Y el centro de investigación DeustoTech aplica robótica y big data para diseñar la movilidad del futuro.

Cuesta adquirir las habilidades, pero programas como el nuestro están al alcance de quien quiere echarle ganas, tiene curiosidad y está abierto/a aprender.

Miren Gutiérrez

Directora del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto

 

*Este post es la versión completa de un artículo publicado en Noticias de Gipuzkoa.

!Novedades! Ayudas económicas para participantes en el Programa “Análisis, investigación y comunicación de datos”

Como novedad este año, el Programa “Análisis, investigación y comunicación de datos” ofrece ayudas por valor de la mitad del coste del programa a dos participantes. Las ayudas se otorgarán en un proceso competitivo.

Apúntate aquí.

Cada vez más empresas, instituciones y organizaciones de diversos sectores están utilizando la infraestructura de datos –bases de datos, software, algoritmos, gestión, almacenamiento— para mejorar su eficiencia interna, su inteligencia, los servicios que ofrece, y sus programas y productos. Y cada vez más el mercado laboral exige conocimientos en la obtención, análisis y visualización de datos.

En un informe sobre el tema, CNBC dice que los/as expertos/as con habilidades para tratar datos acaparan los trabajos más “sexy” y que los/as profesionales que ofrecen estas habilidades son solo un 20% de lo que necesita el mercado. Y eso solo en el sector privado.

El Programa de postgrado universitario “Análisis, investigación y comunicación de datos” de la Universidad de Deusto prepara a profesionales de los sectores privado y público, tercer sector y medios para estar a la altura de este reto.

Lo que lo distingue al Programa “Análisis, investigación y comunicación de datos” es que trabaja en casos reales, con datos reales, que hace un seguimiento individualizado de los proyectos realizados por los/as participantes, y que pone a disposición de cada proyecto un elenco de docentes de primer nivel, que cuenta con expertos y expertas como Mar Cabra, Premio Pulitzer 2017, y Sergio Álvarez Leiva, fundador del gigante de la cartografía digital CARTO.

Este postgrado ofrece preparación en tres ámbitos: legal (en materia tanto de acceso a datos como de protección de datos); herramientas para la obtención y análisis de datos y redes; y comunicación y visualización de datos, así como aplicación del análisis y la visualización a casos prácticos. Es profesionalizante, práctico y basado en casos.

Los/as participantes de otras ediciones incluyen periodistas, ingenieros/as, especialistas en marketing, gestores/as en los sectores público y privado, investigadores/as y representantes de organizaciones del tercer sector. La última edición, por ejemplo, produjo un informe sobre datos de presencia de basuras marinas en playas y riberas de todo el estado, en colaboración con la Asociación Ambiente Europeo, que tuvo repercusión en medios y generó un debate sobre los plásticos en el mar.