Todas las entradas de: Miren Gutiérrez

Soy la directora del postgrado "Análisis, investigación y comunicación de datos" de Deusto. También investigo, utilizando análisis de datos, sobre el activismo de datos, los impactos de la pérdida de biodiversidad en el desarrollo y otros asuntos con Deusto, con el Overseas Development Institute (ODI), Londres, y con Datactive, Amsterdam. Soy doctora en Comunicación.

Velocidad, motores y big data: Evolución y retos en la Fórmula 1

17 junio, 2018 Miren Gutiérrez 8 comentarios

Myriam Abuin Lahidalga*

El Mundial de fútbol acaba de comenzar y con él la recopilación de grandes cantidades de datos sobre pases, faltas, estrategias y rendimiento de cada jugador. Desde 2015 las distintas selecciones han comenzado a utilizar la tecnología incorporando sensores en las camisetas de entrenamiento para recabar datos que, convenientemente interpretados, sirven para encontrar la alineación ganadora o la mejora táctica del equipo.

Pero el uso de los big data no es nuevo en el deporte. Diseñadores y escuderías de Fórmula 1 llevan aplicándola desde la década de los 80. Se trataba de los primeros pasos de la telemetría aplicada al deporte. Los sensores distribuidos a lo largo de todo el monoplaza permiten testar en tiempo real las condiciones del vehículo y pilotaje, y calcular en tiempo real cómo conseguir ventaja frente a los rivales sin detenerse en boxes. Una operación que requiere no sólo un piloto experto, sino una tecnología capaz de gestionar esa ingente cantidad de datos. Pero ¿cómo funciona?

Los circuitos son espacios abiertos, diseñados en parte para minimizar los riesgos cuando se conduce a 300 kilómetros por hora y en parte para liberar de obstáculos las transmisiones de microondas (de radio) necesarias para poner en contacto el equipo con la pista. Sin embargo, algunos de ellos poseen trazados urbanos, como Mónaco o Monza, con túneles, edificios y barreras urbanas que dificultan la propagación de datos. La solución fue dotar a las pistas de un sistema parecido al de la telefonía móvil, garantizando la cobertura con un mínimo retraso de un milisegundo en la recepción. De esta manera los ingenieros de carrera pueden detectar cualquier anomalía, informar al piloto y tomar una decisión inmediata.

Hoy en día, cada monoplaza cuenta con unos doscientos sensores que envían información precisa sobre cuántas veces se acelera o se pisa el freno, cómo está el nivel de combustible o cuál es el desgaste de los neumáticos. Son datos cruciales para planificar una parada técnica que reste los menos segundos posibles a la posición del piloto en la carrera. Todo ello se recoge en un receptor/emisor, aparato que realiza ambas funciones y que además encripta la información recibida, enviándola luego a dos pequeñas antenas situadas en la parte delantera y trasera del monoplaza. A su vez, éstas remiten a un servidor.

Cada circuito cuenta con una zona reservada para cada escudería. No se trata sólo de las salas a pie de pista donde trabajan los mecánicos del equipo, sino de un amplio aparcamiento de camiones en el que se alinean varios remolques con antenas exteriores. Allí está el corazón del sistema: la sala de telemetría. Un potente servidor desencripta los datos recibidos y los prepara para que los ingenieros de cada escudería puedan gestionarlos en forma de gráficos monitorizados en varias pantallas. De este modo pueden contactar con el muro de boxes, donde están los directores de carrera y los mecánicos, en un envío mutuo de información que mejore sus opciones en tiempo real.

Pero la interpretación de esos datos no sólo sirve para mejorar la conducción o variar la estrategia en función de las circunstancias de la carrera, sino también es útil a los ingenieros de diseño, probadores de coches y a los propios pilotos. Estos últimos tienen así una visión precisa de sus errores y posibilidades de mejorar su conducción. Pero ¿cómo convertir todos esos datos en un equipo ganador?

Cada temporada las escuderías pasan muchos meses diseñando los nuevos coches. Aerodinámica, modelos matemáticos, ensayos de los prototipos en el túnel de viento… Pero la teoría no ofrece una exacta simulación de la realidad. Se necesita que el coche ruede por una pista, y tener un circuito de pruebas no está al alcance de todos los equipos. Por ello, los datos recogidos en cada gran premio son estudiados, seleccionados cuidadosamente y volcados en un ordenador que simulará el comportamiento de las piezas y comprobará la validez del nuevo diseño. Es evidente que la información en sí misma no es suficiente, pero sí puede ayudar a corregir hábitos de conducción y observar desde fuera de la pista cómo se comportará el coche en determinadas circunstancias. Por tanto, aquel equipo que sepa interpretar mejor los datos de las simulaciones tendrá muchas más posibilidades de éxito.

Además, los pilotos no tienen por qué probar físicamente el nuevo monoplaza, sino que pueden hacerlo en un simulador parecido al usado en los videojuegos de conducción. Habitualmente consiste en un sillón y una pantalla de ordenador, pero Mercedes y Ferrari construyeron una esfera montada sobre soportes hidráulicos en la que se pueden testar todas las condiciones y todos los circuitos. Otras, como Red Bull, contratan a jugadores de videojuegos para ponerse a los mandos del simulador y dejar a sus pilotos sólo las instrucciones precisas para cada carrera.

Apoyar cada decisión sobre los datos para predecir el comportamiento de los rivales o las condiciones de la carrera no es suficiente, aunque innegablemente importante. Francisco Gago, director de tecnologías digitales de la plataforma de gestión de datos Minsait de Indra, cree que los datos no ofrecen soluciones irrefutables. Y durante los últimos años se ha comprobado que es como dice. En 2010, por ejemplo, durante el Campeonato de Abu Dabi, Ferrari se tomó demasiado en serio los datos recogidos y señaló a Webber como su principal rival, haciendo caso omiso de Vettel, pero fue Vettel quien finalmente ganó la carrera. Esto se debe a que las principales variables presentes en el análisis son escasas, dado que incluyen los neumáticos, el nivel de combustible y las paradas en boxes. En el Campeonato de China de 2016, un error en el pronóstico con respecto a la temperatura de la pista hizo que Ferrari seleccionara neumáticos blandos, lo que le costó la carrera cuando se enfrentaron a los neumáticos medio duros montados por Mercedes.

Una de las causas de estas fallas es, en primer lugar, aceptar los resultados de los algoritmos sin cuestionamiento, sin contrastarlos con las voces autorizadas en Fórmula 1. Otra razón es que cualquier imprecisión en el software de procesamiento de datos o en la cadena de transmisión, por pequeña que sea, puede tener un efecto negativo en la estrategia. La tercera y última razón es porque las variables no se contrastan y amplían con otra información. El análisis predictivo basado en big data funciona con información pasada y presente, algo que da un porcentaje de probabilidad, pero no de certeza. Dar a los algoritmos la misma fuerza que los abogados otorgan a las leyes impide que la propia experiencia y criterio del piloto (más las variables que no se tienen en cuenta) brille a la luz del pronóstico dado por los datos.

* Myriam Abuin Lahidalga es alumna del grado de Derecho y Relaciones Internacionales de Deusto. Este post está basado en su trabajo para Media in International Relations.

El perfil laboral ‘de moda’: el de analista de datos

7 mayo, 2018 Miren Gutiérrez 8 comentarios

Esta es la versión completa de una entrevista con Miren Gutiérrez, Directora del Programa de Comunciación de Datos, con David García-Maroto (@David4210) en El Independiente publicada hoy.

Estoy elaborando un reportaje sobre el perfil laboral ‘de moda’, el de analista de datos. Quería saber con detalle en qué consiste..

Es el o la especialista en los procesos de obtención, limpieza y análisis, y a veces visualización, de datos utilizando razonamiento y herramientas analíticas. Existe una variedad de métodos de análisis de datos específicos, algunos de los cuales incluyen obtención de datos, análisis estadístico, análisis de redes mediante teoría de grafos, análisis de texto y de sentimientos, inteligencia artificial y visualizaciones de datos. Cada punto en la cadena de valor del dato puede generar una especialización.

Cómo se forma un analista de datos

Depende para qué. Yo dirijo un postgrado en Deusto que se dedica a facilitar herramientas accesibles, no solo tecnológicas, sino también legales, estratégicas y sobre todo de comunicación para abordar cualquier proyecto de datos.

Pero depende. Si estamos hablando de grandes proyectos con big data, entonces una sola persona, por muy formada que esté, no es suficiente. Generalmente se trabaja en equipo, en los que buscas una mezcla de competencias y conocimientos de la industria que se esté estudiando.

Por ejemplo, un estudio un estudio de las principales plataformas big data dedicadas a observar la pesca, que acabo de publicar con el Overseas Development Institute, indica que, aunque ofrecen grandes oportunidades para la vigilancia de la pesca, aún hay mucho camino por delante. Desde la liberación del mercado de los datos satelitales hace más de una década, han ido surgiendo plataformas de datos privadas dedicadas al seguimiento de los barcos pesqueros de cierto tamaño, obligados por seguridad a emitir señales regularmente mientras están operativos. Pero el informe del ODI destaca graves fallas en estas plataformas privadas. Por ejemplo, un tercio de los 75,000 buques de pesca que figuran en la plataforma Global Fishing Watch respaldada por Google en el momento en el que investigábamos son duplicados o buques que no participan en la pesca.

Para ese tipo de proyectos se confía en profesionales que han hecho una carrera universitaria o tienen una gran experiencia escribiendo código y trabajando con inteligencia artificial. Pero también deben integrar equipos que sepan de la industria para no caer en errores como los que indicaba antes. Si te fías solo del algoritmo, éste puede identificar como barco pesquero a otro, por ejemplo uno que carga bananas, porque tiene algún comportamiento comçun con un pesquero, que es lo que le pasó a Global Fishing Watch. Hace falta saber mucho conocimiento de las industrias para hacer informes certeros y poder interpretar bien los análisis de grandes datos.

¿Qué aplicaciones tiene?

Los sectores que hasta ahora han maximizado el análisis de datos son algunas agencias gubernamentales, sobre todo en cuestiones de vigilancia masiva, y el sector privado, a veces trabajando juntos, como se vio en las revelaciones de Snowden en 2013, quien reveló que Verizon y otras telefónicas habían estado proporcionando datos de sus clientes, sin su conocimiento, a la agencia de seguridad nacional.

Como investigadora estoy más interesada en cómo se usa la infraestructura de datos, entendida como los procesos, el hardware y el software necesarios para analizar datos y extraer valor, en la sociedad civil y el periodismo.

Pero hay aplicaciones en todos los sectores. Por ejemplo, el estudio de archivos históricos, que están gradualmente digitalizándose. Un ejemplo es la edición en coreano del siglo XIII del canon budista, que incluye 52 millones de caracteres distribuidos en 166.000 páginas. Examinado con métodos tradicionales, se tenían que recurrir al análisis selectivo de fragmentos. Hoy en día la infraestructura de datos permite el estudio integral con enorme precisión de casi cualquier corpus documental digitalizado; e impulsa un cambio en la investigación, en la que ahora cobra mucha más importancia la validación de las fuentes, y las formas de comunicar conocimiento.

De las cosas más interesantes que he visto hacer con datos es el mapa de Forensic Architecture llamado Liquid Traces en el que visualiza la deriva de un barco con 72 emigrantes durante 14 días en las costas de Libia. Solo sobrevivieron 9. El mapa, basado en las mismas tecnologías de visualización de señales del Sistema de Identifiación Automática AIS, demuestra que diversos barcos de Frontex y NATO los vieron y no hicieron nada.

¿Qué empresas demandan estas competencias?

Todas. Aunque la pregunta sería qué empresas u organizaciones las necesitan y cuáles las demandan. Hay mucha necesidad en el tercer sector, pero no necesariamente se traduce en demanda. Por ejemplo, me cuenta la directora de DataKind UK, una organización que se dedica a colocar científicos y científicas de datos en ONG, que no le faltan voluntarios y voluntarias dispuestos a trabajar pro bono en una ONG, pero que no hay tantas ONG que tengan la capacidad de absorber esta capacidad y conocimiento.

Hace poco celebramos una conferencia en Madrid con representantes de organizaciones que financian proyectos sociales con datos, que los facilitan que generan plataformas y herramientas, y que hacen periodismo y activismo de datos, y una de las conclusiones que los datos pueden generar cambios sociales pero las organizaciones también deben transformarse.

Fake news: ¿Problema técnico o social?

4 abril, 2018 Miren Gutiérrez 22 comentarios

Resumen de la entrevista a Miren Gutiérrez, directora del Programa “Análisis, investigación y comunicación de datos de Deusto”, para el proyecto “Regulación de contenido en y por plataformas”*

¿Las fake news son principalmente un problema técnico o social?

Para alguien como yo, que ha estado sido periodista durante más de veinte años, las noticias falsas son simplemente mentiras. Puede haber mentiras parciales o mentiras completas; pueden incluir mensajes propagandísticos basados en hechos o contenido totalmente inventado destinado a generar el caos; pueden adoptar la forma de fraude, bots maliciosos, pseudociencia, clickbaits o teorías de la conspiración… Pero estamos hablando de algo similar con diferentes formas, objetivos e impactos. Las fake news siempre han existido. Piensa en el comienzo de los diarios: en la década de los 1830, la mayoría de los periódicos tenían patrocinadores políticos y eran todo menos imparcial. El problema ahora es que la multiplicación de plataformas aumenta exponencialmente su difusión y, por lo tanto, sus efectos. Las fake news no son un problema técnico sino social.

¿Cree que se puede poner en marcha regulación que las controle? ¿Qué tipo de regulación?

No estoy segura de cuál es la solución. Me gusta la regulación que protege los derechos de la ciudadanía; pero soy muy cauta en lo que respecta a la sobrerregulación.

Por un lado, ¿por qué deberíamos dejar este tema vital a empresas privadas cuyo principal objetivo es ganar dinero? Estas empresas no han sido elegidas en procesos democráticos; se representan solo a ellas mismas y han dicho explícitamente que no quieren convertirse en reguladoras. Si la web está atravesando un proceso de «plataformización» y «corporatización», esta pregunta es crucial, porque no estamos hablando de unas pocas plataformas privadas, sino de la libertad de expresión en internet, que ha resistido hasta ahora a la regulación: Internet es caótico, dinámico y hasta chocante, engloba espacios abiertos que Jodi Dean ha llamado «neodemocracias», que tienen como objetivo la confrontación y la pugna. Creo que debemos preservar y cultivar esta libertad, incluso si genera ruido desagradable.

Por otro lado, la autorregulación puede funcionar relativamente bien entre los medios de comunicación. Si las plataformas de redes sociales desearan convertirse en fuentes confiables de información y análisis, podrían actuar como organizaciones periodísticas, convirtiéndose en guardianes de contenido, empleando el método periodístico (es decir, la verificación) y siendo transparentes al respecto. De hecho, algunos están probando la curación algorítmica y otros métodos para identificar y eliminar noticias falsas. La gran diferencia aquí es que los medios de comunicación difunden noticias generadas en procesos periodísticos gobernados por principios periodísticos, mientras que las plataformas son vehículos (no necesariamente neutrales) de contenido de diversa naturaleza, creado por la ciudadanía y otros agentes, algo que es diferente. Es por eso que la actual presión para regular el contenido en las plataformas debería alarmarnos.

No debemos olvidar que el objetivo principal de las corporaciones es hacer felices a sus accionistas, lo que no se traduce necesariamente en hacer felices a los usuarios/as. Los bots y las interacciones tóxicas en las plataformas mejoran sus analíticas. También es por eso que la regulación es complicada.

Este es un tema complejo que incluye no solo la divulgación sino también la recolección de datos. Por ejemplo, a menudo los usuarios tienen que firmar primero un contrato con el servicio de la plataforma. Estos contratos son deliberadamente incomprensibles y excesivamente largos, y los/as usuarios/as con frecuencia terminan firmándolos sin leer con cuidado la letra pequeña. Las plataformas no son ni medios de comunicación ni canales desinteresados para contenidos ciudadanos.

¿Cuáles son los principales riesgos asociados con la regulación del contenido en las plataformas?

El principal riesgo es sobrerregular, censurar contenido, enjuiciar a las personas por crear contenidos y restringir la libertad de prensa y otros derechos, así como desencadenar la autocensura. Ya existe una larga lista de acciones que son legales offline e ilegales online.

Internet hace que la creación, difusión y exhibición de contenido sea difícil de controlar por parte de los gobiernos, por lo que se ha puesto énfasis en perseguir la «posesión» de contenido. Pero la penalización de la posesión de contenido se ha llevado a extremos, como el caso en el Reino Unido de Samina Malik, que fue sentenciada en 2009 a nueve meses de prisión por recopilar poemas y textos yihadistas, que, de todos modos, estaban disponibles online. Casos como este abundan y nos plantean preguntas complejas.

¿Cómo crees que la ciudadanía puede participar en el debate y contribuir a resolver el problema?

Debe participar, debe ser consultada y debe contribuir a resolver el problema. Por ejemplo, las experiencias ciudadanas de verificación de hechos se ha multiplicado últimamente. El número de factcheckers en todo el mundo se ha más que triplicado en los últimos cuatro años, de 44 a 149 desde 2014 (un aumento del 239%). La mayoría de los esfuerzos de verificación están en los EE. UU. (47 del total), donde las fake news se han desenfrenado.

Aunque muchas de estas experiencias están vinculadas a medios de información, otras están afiliadas a universidades, grupos de expertos/as e iniciativas dirigidas por ciudadanos/as, lo que indica que la ciudadanía ya está participando en la solución del problema. Además debería estar más involucrada en la toma de decisiones sobre este tema.

Dan Gillmor, con quien generalmente coincido, acaba de publicar un artículo en el que habla precisamente de esto. Dice que las plataformas no deberían ser “la policía de los contenidos” en internet. “¿Por qué hay tanta gente que pide que sean el equivalente a editores de internet? ¿Por qué la gente supone que la solución está en las políticas corporativas y en las decisiones de los/as programadores/as dentro de organizaciones excesivamente centralizadas? Si se desea que la censura sea la regla, no la excepción, esa es una forma de obtenerla”. Gillmor dice que a las plataformas se les debería exigir que 1) permitan que los/as usuarios/as eliminen todo lo que las empresas han recopilado sobre ellos/as; 2) hagan que todos los datos, incluidas las conversaciones, sean «portátiles» de manera que las plataformas competidoras puedan atraer a la gente hacia otros servicios (especialmente aquellos que hacen de la privacidad una característica); 3) limiten lo que pueden hacer con los datos que recopilan; 4) ofrezcan dashboards fáciles de usar que brinden a los/as usuarios/as un control granular de su privacidad y la configuración del uso compartido de datos; y 5) divulguen todo lo que hacen “en un lenguaje simple que incluso un presidente de EEUU pueda entender”.

¿Cuál es el papel del sector del periodismo en relación con la controversia sobre las noticias falsas?

Tomando prestado de The Elements of Journalism, de Bill Kovach y Tom Rosenstiel, el periodismo debe buscar la verdad implacablemente, esforzándose por poner el interés público por encima de otros intereses, empleando la disciplina de la verificación de manera independiente. Es más necesario que nunca. Cuando aborda las fake news, el periodismo también debe instigar e inspirar un debate sobre el papel de los periodistas, así como el de las plataformas, la ciudadanía, la regulación y la gobernanza de internet.

Además, debería participar activamente en la lucha contra las fake news. Muchas iniciativas de verificación de hechos han surgido en medios de comunicación… Politifact es un ejemplo. Fue creado por Tampa Bay Times, un periódico de Florida, en 2007 (y recientemente adquirido por el Instituto Poynter, una escuela para periodistas sin fines de lucro). El papel del periodismo en esta controversia nunca ha sido tan relevante.

¿Cómo complementa esta función el papel de otros actores (gobierno, plataformas, sociedad civil)?

Estos actores tienen sus propios espacios de responsabilidad y acción. Los gobiernos deberían regular a favor de la ciudadanía. El periodismo debería estar haciendo su trabajo. Las plataformas deberían ser transparentes sobre sus prácticas y modelos de negocio. Y la sociedad civil debería estar atenta y activa.

*SI quieres debatir sobre estos y otros asuntos relacionados con los datos y la transformación social, no te pierdas la conferencia el día 12 de abril en la sede de la DBS en Madrid. Detalles aquí.

“La ciencia de los datos puede llegar a ser más un arte que ciencia”

24 febrero, 2018 Miren Gutiérrez 16 comentarios

Miren Gutiérrez*

Me ha llamado la atención estos días un informe sobre el comportamiento de Donald Trump en Twitter titulado “Who’s Tweeting from the Oval Office?”, del polifacético Greg Rafferty (@raffg). Se trata de un estudio de los tweets de Trump para discernir, usando una variedad de métodos, cuáles escribe el presidente de Estados Unidos y cuáles sus asistentes. Una de sus conclusiones es que “la ciencia de los datos puede llegar a ser más un arte que ciencia”.

Rafferty estudia un repositorio de 33.000 tweets difundidos desde la cuenta de Trump entre mediados de 2009 hasta el final de 2017. Y luego se embarca en un exhausto análisis, con una variedad de métodos cualitativos y cuantitativos, de las “peculiaridades” del discurso de Trump, y su estilo, sentimientos, emociones, vocabulario y estructura gramatical. Con ello llega a una serie de conclusiones que le permiten identificar cualquier mensaje del presidente estadounidense como suyo o ajeno. Recomiendo leer el informe. Es un todo estudio sicológico del personaje.

Esta reflexión viene también a cuento de un artículo publicado en este blog de la alumna del Programa de Big Data y Business Intelligence de Deusto, Olatz Arrieta, quien habla de la herramienta de análisis R, que utiliza para analizar y comparar discursos de 2007 y 2017 pronunciados por los lehendakaris y reyes en esos años, con conclusiones muy interesantes.

También recurro a R para visualizar relaciones entre once atributos asignados a cuarenta iniciativas de datos en el ámbito del activismo y humanitarismo digital (i.e. data crodwsourcing y cartografía digital de Ushahidi) en mi libro Data activism and social change, que sale en mayo con Palgrave MacMillan. Los atributos (por ejemplo “tiende a trabajar en colaboración con otras organizaciones”) fueron generados a través de la observación empírica y entrevistas con creadores de herramientas y plataformas de datos, así como activistas y periodistas de datos. La idea es ver cuáles eran más frecuentes y si había correlaciones entre ellos. A cada organización se le asignan los atributos que la caracterizan y a cada atributo, una intensidad según cuán frecuente haya sido la actividad o intensa la cualidad atribuidas. Aunque hay un elemento de arbitrariedad en la selección de casos y en la asignación de intensidades, los resultados de esta mezcla de métodos mostraban coherencia y ofrecían una capa de análisis más.

La Profesora de Deusto Pilar Rodríguez y yo nos apoyamos en el análisis de sentimientos en un reciente artículo sobre una nueva corriente en publicidad que se conoce en inglés como femvertising y que pretende representar a las mujeres como realmente son. En nuestro artículo examinamos la reacción negativa en redes sociales y los sentimientos negativos hacia el anuncio publicitario “Tú decides” de la marca Desigual, que pretendía subirse a la ola del femvertising con mensajes que en realidad nada tenían que ver con la igualdad ni la paridad. La reacción negativa unánime en Tweeter, Facebook y Youtube –y los sentimientos negativos despertados por la publicidad— hizo que la empresa se retractara.

El análisis de sentimientos puede servir para analizar las opiniones y actitudes expresadas en diversos canales (desde los discursos públicos a los tweets) para examinar problemas de reputación y para aventurar resultados (i.e. resultados electorales, ingresos de taquilla o comportamiento del mercado de valores). Este implica el procesamiento del lenguaje natural, análisis de texto y lingüística computacional para rastrear el estado de ánimo e información subjetiva en cualquier contenido digital.

El caso es que, aunque el análisis de datos se suele asociar con una mezcla de habilidades, conocimientos y técnicas cuantitativas, esto no es así. Aunque en cada estudio hay que centrarse en aplicar el procedimiento más adecuado a la base de datos que se tenga entre manos, las preguntas de investigación y los resultados que se desean obtener, a veces los mejores análisis llegan de la combinación de métodos.

+Miren Gutiérrez es Directora del Programa «Análisis, investigación y comunicación de datos»

Los algoritmos solos no son la solución

23 enero, 2018 Miren Gutiérrez 3 comentarios

@gutierrezmiren*

Se puede tener una gran capacidad algorítmica, pero si no se tienen los datos adecuados o el conocimiento de la industria al que aplica, esta capacidad no ofrecerá buenos resultados.

Esta es la conclusión de un estudio comparativo publicado por el Overseas Development Institute sobre las plataformas big data que usan datos satelitales y de registros públicos para tratar de visualizar y combatir la pesca ilegal. Pero esta conclusión se podría aplicar a cualquier estudio.

La pesca es un campo que genera una gran cantidad de datos. Los buques pesqueros de un tamaño determinado están obligados a inscribirse en diversos registros y, mientras operan en el mar, deben emitir regularmente señales que transmiten sus movimientos. Estas señales son capturadas por otros barcos, estaciones terrenales y satélites.

A través de análisis de bases de datos, así como de encuestas y entrevistas con las cinco principales organizaciones dedicadas al big data sobre la pesca, el último informe del ODI de Londres, del que soy coautora, revela que el potencial que tiene la infraestructura de datos para el monitoreo y estudio de la pesca está siendo socavado por el limitado tamaño y la mala calidad de las bases de datos que se han diseñado hasta ahora para identificar comportamientos irregulares en alta mar.

Para empezar, nadie sabe cuántos barcos de pesca hay en el mundo; y menos qué es lo que están haciendo. Esto dificulta la lucha contra la pesca ilegal.

Pesca ilegal

La pesca ilegal, no declarada y no regulada (conocida por sus siglas en inglés IUU) representa hasta una quinta parte de la captura pesquera mundial, con un valor de entre $10.000 millones y $23.500 millones anuales. Además, cada vez hay más pruebas que relacionan la pesca ilegal con el tráfico de personas y drogas, la corrupción y el lavado de dinero.

También se sabe que tiene un impacto negativo en la seguridad alimentaria, la creación de empleo y el desarrollo de las comunidades costeras en general.

A pesar de las posibilidades que ofrecen los big data para el monitoreo de la actividad pesquera, el movimiento contra la pesca ilegal aún no ha adoptado la llamada revolución de datos.

Una gran cantidad de datos disponible

Según la Organización de las Naciones Unidas para la Agricultura y la Alimentación (FAO), hay aproximadamente 4.6 millones de buques pesqueros, pero la mayoría son pequeños y artesanales. Normalmente, a cada buque de cierto tamaño le pueden corresponder 120 tipos de información, y durante su vida útil puede acumular varios valores en cada campo cada vez que cambia de empresa propietaria, armadora, bandera o nombre. Además, se requiere que todos los barcos pesqueros de más de 15 metros emitan, cada pocos minutos, señales que contengan (entre otra información) la hora, su longitud y latitud.

En consecuencia, existe una gran cantidad de datos sobre embarcaciones pesqueras. Con la aparición de servicios satelitales hacia 2010, estos datos están ahora disponibles comercialmente.

Sin embargo, el informe de ODI destaca que los países desarrollados y las organizaciones multilaterales han tardado en explotar la oportunidad que esto presenta. En lugar de crear una única herramienta de información sobre la flota pesquera mundial, los datos están dispersos en una gran cantidad de registros diferentes. La falta de una única base de datos hace que la detección de la pesca ilegal sea difícil.

La necesidad del análisis de «grandes datos»

El análisis de datos puede compensar la falta de recursos disponibles para patrullar los océanos. Por ejemplo, el primer informe de transbordo de pescado basado en datos, publicado por ODI en 2016, mostró indicios claros de que algunos buques refrigerados que recogen pescado en alta mar para su transporte a los mercados importadores estaban involucrados en operaciones irregulares nunca detectadas previamente.

El ireciente nforme defiende alianzas más sólidas y colaborativas entre los responsables de los datos sobre la pesca . También existe la necesidad de una mejor gobernanza pesquera global. Esto incluye esfuerzos más importantes para combatir la corrupción y las prácticas ilegales, como el uso de pabellones de conveniencia y acuerdos secretos de pesca.

La efectividad de las iniciativas destinadas a lidiar con la pesca ilegal dependerá de la solidez de los datos, de la facilidad con la que se pueden obtener y de nuestra capacidad para interpretarlos en función del conocimiento de la industria. Sin una base de datos única y unificada de la información disponible, la lucha contra la pesca ilegal será una batalla cuesta arriba.

*gutierrezmiren es Directora del Programa de postgrado «Análisis, investigación y comunicación de datos» y profesora de Comunicación de Deusto. Es también investigadora del Overseas Development Institute de Londres y de Datactive de Amsterdam.

Datos para el siglo XXI: Experiencias desde el programa de datos de Deusto*

13 septiembre, 2017 Miren Gutiérrez 1 comentario

Cada vez más empresas, instituciones y organizaciones de diversos sectores están utilizando la infraestructura de datos –bases de datos, software, algoritmos, gestión, almacenamiento— para mejorar su eficiencia interna, su inteligencia, los servicios que ofrece, y sus programas y productos. Y cada vez más el mercado laboral exige conocimientos en la obtención, análisis y visualización de datos.

En un informe sobre el tema, CNBC dice que los/as expertos/as con habilidades para tratar datos acaparan los trabajos más “sexy” y que los/as profesionales que ofrecen estas habilidades son solo un 20% de lo que necesita el mercado. Y eso solo en el sector privado.

El Programa de postgrado universitario “Análisis, investigación y comunicación de datos” de la Universidad de Deusto trata de preparar a profesionales de los sectores privado y público, tercer sector y medios para estar a la altura de este reto.

¿Qué aporta el Programa? “En primer lugar, he sido consciente de la importancia de los datos para contar historias. En segundo lugar, se me ha mostrado un mundo de posibilidades donde encontrar temas estadísticos y, en tercer lugar, me he acercado a herramientas estadísticas que no conocía” dice Cristina Leciñana, periodista de la revista Consumer, quien ha sido participante en la edición pasada.

Para Ricardo León, Director General de la empresa Checkfarma y especialista en estrategias de mercado, el programa conduce a “conocer nuevas herramientas de análisis de datos (R, Carto, Tableau, etc.) y ver ejemplos reales de transformación del dato en algo con más valor para posteriormente poder publicarlo. Y enriquecerme con otros profesionales, profesores y compañeros de muy diferentes perfiles”.

“En mi vida laboral me ha servido para publicar un par de artículos de gestión este año en revistas especializadas en el mundo de la farmacia –agrega Ricardo—. Me ha ayudado a perder el miedo a publicar y hacer públicos ciertos hallazgos, y me gustaría seguir haciéndolo”.

Ricardo ha comenzado a publicar informes aplicando el análisis de datos a la gestión de los stock en farmacia, por ejemplo.

Lo que lo distingue al Programa “Análisis, investigación y comunicación de datos” es que trabaja en casos reales, con datos reales, que hace un seguimiento individualizado de los proyectos realizados por los/as participantes, y que pone a disposición de cada proyecto un elenco de docentes de primer nivel, que cuenta con expertos y expertas como Mar Cabra, Premio Pulitzer 2017, y Sergio Álvarez Leiva, fundador del gigante de la cartografía digital CARTO.

Este postgrado ofrece preparación en tres ámbitos: legal (en materia tanto de acceso a datos como de protección de datos); herramientas para la obtención y análisis de datos y redes; y comunicación y visualización de datos, así como aplicación del análisis y la visualización a casos prácticos. Es profesionalizante, práctico y basado en casos.

Ahora “intento aplicar una mirada más investigadora en los reportajes que planteo en la revista. Partir del dato para buscar y encontrar temas”, agrega Cristina.

Los/as participantes de otras ediciones incluyen periodistas, ingenieros/as, especialistas en marketing, gestores/as en los sectores público y privado, investigadores/as y representantes de organizaciones del tercer sector. La última edición, por ejemplo, produjo un informe sobre datos de presencia de basuras marinas en playas y riberas de todo el estado, en colaboración con la Asociación Ambiente Europeo, que tuvo repercusión en medios y generó un debate sobre los plásticos en el mar.

“Personalmente ha sido enriquecedor –dice Ricardo, que es también uno de los autores del informe—. He podido salirme de mi esfera del conocimiento y entrar en otros campos, como fue el poder participar en el proyecto de las basuras marinas. Fue muy satisfactorio encontrar información relevante con el ejemplo de las bolsas de plástico en las playas y su menor presencia tras el cambio en el consumo y que existiera cierta correlación”.

“Lo recomendaría sin lugar a dudas. A nivel empresarial, el dato es fundamental para tomar decisiones y se necesita hoy más que nunca que, por la ingente cantidad de datos que se generan, esas decisiones sean facilitadas por una mejor información, y ésa se consigue con el análisis de los datos y su tratamiento. El curso te ayuda en ese camino”, concluye.

En su tercera edición, el Programa se desarrollará entre el 13 de octubre al 17 de enero, en un régimen de viernes tarde y sábado mañana, de forma que los/as participantes pueden compaginarlo con sus trabajos o estudios. Todavía hay plazas para esta edición. Los plazos y más información sobre los requisitos los encuentras en la web datos.deusto.es.

*Este post amplía una nota publicada por EiTB.

Miren Gutierrez es Directora del Programa Experto “Análisis, investigación y comunicación de datos” de la Universidad de Deusto

Desmitificando los «big data»: Diez cosas que hay que saber*

13 septiembre, 2017 Miren Gutiérrez 7 comentarios

El término big data se escucha hasta en la sopa. Ahora resulta que todo es big data. Pero nada más lejos de la realidad; la mayor parte de las personas que manejan y analizan datos, emplean small data. Pero ¿qué los distingue? He aquí la lista de las diez que hay que saber sobre los big data.

No todo son big data

La mayor parte de los/as profesionales que usan datos se basan en small data: datos que aparecen en un volumen y formato que los hacen utilizables y analizables. Los big data, en cambio, son tan enormes y complejos que no se pueden gestionar o analizar con métodos de procesamiento de datos tradicionales. El análisis y procesamiento de los big data, sin embargo, puede producir small data. A la vez, los small data pueden hacerse más big cuando se funden, escalan e interrelacionan para crear bases de datos mayores.

!Los big data son big!

Algunos definen los big data simplemente por su volumen: son tan grandes que solo se pueden extraer, gestionar, almacenar, analizar y visualizar usando infraestructuras y métodos especiales. Vivimos en la era de los big data, que se miden, no en terabytes, sino en petabytes y exabytes (donde peta- denota un factor de 10¹⁵y exa- de 10¹⁸).

Una definición de big data habla de…

una profusión de objetos digitales y contenido online generado por usuarios/as durante sus actividades digitales, interceptación masiva de interacciones y metadatos (es decir, los datos sobre los datos), así como producto de la dataficación de la actividad humana y no humana, que es tan grande, puede ser procesada con tal velocidad, es tan variada, tiene tanto potencial económico, y muestra tal nivel de exactitud y complejidad que puede ser considerada realmente grande, y por tanto solo puede ser analizada por nuevas infraestructuras y métodos.

No existe el “dato crudo” u objetivo

Como ya dijo en 2013 Lisa Gitelman en su muy citado libro “Raw Data” Is an Oxymoron: afirmar que un dato está “crudo”, es decir, desprovisto de intención, parcialidad o prejuicios, es simplemente erróneo. Los datos no surgen de la nada. La recopilación de datos y metadatos es constante, subrepticia y abarcadora: cada clic y cada «me gusta” son almacenados y analizados en alguna parte. Estos datos son de todo menos «crudos»; no debemos pensar en ellos como un recurso natural, sino como un recurso cultural que necesita ser generado, protegido e interpretado. Los datos son «cocinados» en los procesos de recolección y uso (procesos que, a la vez, son “cocinados”); y no todo puede ser, ni es, «reducido» a los datos o “dataficado”. Por tanto, los conjuntos de datos, por muy big que sean, pueden esconder errores, vacíos y arbitrariedades.

Los datos no son el “nuevo petróleo”

Ya la comparación no es muy afortunada en los tiempos del cambio climático. Pero aunque el “valor” es una de las uves asociadas a los big data (junto con volumen, velocidad, variedad, veracidad y otras palabras que empiezan con uve), los datos no son valiosos en sí mismos; hay que transformarlos en utilizables, analizables y accionables para poder extraer valor de ellos. “Limpiar datos” desestructurados y desconectados (es decir, no comparables ni relacionables) es posiblemente la tarea más ardua y desagradecida en la gestión de datos. En resumidas cuentas: los datos son la base de la información, pero no son información.

No se necesitan big data para hacer buenos análisis de datos

Ahora estudiosos y estudiosas, como Jennifer Gabrys, Helen Pritchard y Benjamin Barratt, hablan de datos “suficientemente buenos” (good enough data). Se refieren, por ejemplo, a datos generados por personas no expertas (crowdsourced data). Estos datos pueden ser la base de potentes proyectos como algunas de las aplicaciones de la plataforma Ushahidi que han servido para organizar ayuda humanitaria y asistir a víctimas en casos de conflicto armado y desastre. En estos casos, los datos proporcionados por la gente sobre una crisis se amasan, verifican y visualizan en mapas interactivos que están revolucionando la asistencia humanitaria.

Todo el mundo miente…

Los big data pueden servir para hacer estudios enormemente iluminadores. Seth Stephens-Davidowitz acaba de publicar Everybody Lies. Este libro –subtitulado algo así como: “lo que internet puede decirnos acerca de quiénes somos realmente”— es una muestra de que cómo la gente miente en las encuestas y posturea en las redes sociales, mientras que se “desnuda” cuando hace búsquedas en internet. Basado en el análisis masivo de las búsquedas en Google, otras bases de datos y sitios web, Stephens-Davidowitz descubre que la gente es mucho más racista, machista e innoble de lo que piensa o admite. Y es que los chistes racistas aumentan alrededor del 30% en el Día de Martin Luther King en los Estados Unidos, y hacer promesas «es una señal segura de que alguien no hará algo».

Y no todo el mundo tiene acceso a los big data

¿Quiénes amasan big data? Sobre todo los gobiernos (desde datos macroeconómicos o demográficos hasta datos procedentes de la interceptación de comunicaciones y la vigilancia) y las grandes corporaciones. Las revelaciones de Snowden en 2013 mostraron, por ejemplo, que los servicios de inteligencia del gobierno estadounidense, con la colaboración empresas privadas y otros gobiernos, habían establecido una tupida capa de vigilancia e interceptación datos sobre las comunicaciones de millones de personas en todo el mundo. Cathy O’Neil, en su libro Weapons of Math Destruction, muestra cómo los programas basados en big data aumentan la eficiencia de “la publicidad predatoria” y socavan la democracia. Otros estudiosos, como Sandra Braman, Zeynep Tufekciy y Seeta Peña Gangadharan, hablan de cómo los gobiernos, con la connivencia de algunas empresas, hacer perfiles, discriminan a grupos vulnerables y potencian la vigilancia indiscriminada, omnipresente y preventiva.

Por otro lado, el movimiento open data hace campaña para que los datos públicos sean abiertos, accesibles y usables. Y muchos gobiernos, grandes y pequeños como por ejemplo Irekia, se han apuntado a abrir los cofres de sus datos, y cada vez hay más presión para que este movimiento se extienda.

Los datos, big o small, no son para todo el mundo

En un alarde de entusiasmo, Simon Rogers comparó en 2012 el análisis de datos con el punk: “cualquiera puede hacerlo”. Bueno…, pues no es así exactamente. No solamente los big data no están disponibles para cualquier punk, sino que, como Daniel Innerarity señala, las herramientas para convertirlos en analizables y útiles no están al alcance de cualquiera tampoco.

Sin embargo, los datos tampoco son inaccesibles

Pero las barreras para acceder tanto a datos como a las herramientas para usarlos han ido cayendo en los últimos años. Forensic Architecture, con Amnistía Internacional, ha creado un modelo interactivo de la prisión más notoria de Siria utilizando los recuerdos de los sonidos de la cárcel narrados por supervivientes que habían sido retenidos en la oscuridad. El proyecto, llamado Saydnaya: Dentro de una prisión de tortura siria, tiene como objetivo mostrar las condiciones dentro de la prisión. Cuando los datos no están disponibles, hay organizaciones que los generan. WeRobotics pone en circulación “drones comunitarios” para captar datos sobre las condiciones de los glaciares en Nepal, por ejemplo, con el objeto de analizarlos y lanzar alarmas. InfoAmazonia, entre otras cosas, ha publicado un calendario que superpone el tiempo contado por los pueblos indígenas del Río Tiquié y el tiempo medido en el calendario gregoriano, en un diálogo que nunca tuvieron antes.

Más cerca, en nuestro entorno, estudiantes del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto publicaron este año un informe sobre basuras marinas a nivel estatal, en colaboración con la Asociación Ambiente Europeo, que tuvo repercusión en medios y generó un debate sobre los plásticos en el mar. La empresa Bunt Planet utiliza infraestructuras de datos para trazar redes eficientes e inteligentes. Y el centro de investigación DeustoTech aplica robótica y big data para diseñar la movilidad del futuro.

Cuesta adquirir las habilidades, pero programas como el nuestro están al alcance de quien quiere echarle ganas, tiene curiosidad y está abierto/a aprender.

Miren Gutiérrez

Directora del Programa universitario de postgrado “Análisis, investigación y comunicación de datos” de la Universidad de Deusto

*Este post es la versión completa de un artículo publicado en Noticias de Gipuzkoa.

!Novedades! Ayudas económicas para participantes en el Programa “Análisis, investigación y comunicación de datos”

7 septiembre, 2017 Miren Gutiérrez 10 comentarios

Como novedad este año, el Programa “Análisis, investigación y comunicación de datos” ofrece ayudas por valor de la mitad del coste del programa a dos participantes. Las ayudas se otorgarán en un proceso competitivo.

Apúntate aquí.

El Programa de postgrado universitario “Análisis, investigación y comunicación de datos” de la Universidad de Deusto prepara a profesionales de los sectores privado y público, tercer sector y medios para estar a la altura de este reto.

Aplicación de herramientas de análisis de datos a la gestión de stock farmacéutico

9 mayo, 2017 Miren Gutiérrez 1 comentario

Ricardo León, exalumno del postgrado “Análisis, investigación y comunicación de datos”, acaba de publicar un interesante artículo sobre la gestión del stock en las farmacias, que se puede encontrar aquí. Una de las lecciones más importantes es que, para interpretar datos, es fundamental conocer la industria, área o sector que se analiza. A continuación, Ricardo nos comenta por qué y cómo ha hecho esta investigación.

La inquietud de este artículo surge de querer reflejar ciertas realidades de la gestión del stock en las oficinas de farmacia a los propios farmacéuticos.

En Checkfarma nos dedicamos a la Optimización del Stock en las farmacias apurando la inversión necesaria y mejorando el nivel de servicio. Pero el/a farmacéutico/a aún está alejado de tener una necesidad acuciante de gestión y de eficiencia.

La realidad es que se puede gestionar una farmacia de muy diversas formas y con muy diversos resultados, como cualquier otro negocio. La actual evolución de contención del gasto farmacéutico empuja a que las farmacias deban controlar y mejorar sus criterios de eficiencia en la gestión del stock, porque ven reducido su margen, por lo que he querido publicar un artículo que ayude a destacar una relación muy interesante entre el “tamaño del surtido” y la “facturación de cada farmacia” en un gráfico de dispersión.

La dificultad no ha sido grande porque partía con una gran ventaja: nuestra propia base de datos. Estoy muy familiarizado con el significado de cada variable y conozco muy bien la casuística de la farmacia y su stock, ya que me dedico a ello desde hace más de siete años desde Checkfarma. Es decir, la clave ha sido el conocimiento previo del sector y contar con una muy buena base de datos (estructurada, trabajada, orientada a explotar esa información). La idea era desvelar el tipo de relación que podía existir entre el “tamaño del surtido” y la “facturación”, y averiguar qué coeficiente de correlación lineal o intensidad de relación podía haber ellas (ha sido alto, superior a 0,7).

Tras conocer estos datos quise profundizar en por qué esa relación no es aún mayor. Creo que la clave está en esa interpretación no sólo de la relación lineal, sino en fijarnos en esa dispersión de los datos para cada tramo de facturación de cada farmacia. Es decir, si una farmacia factura €0,5 millones con 2.000 referencias y otra lo hace con 6.000 referencias, evidentemente las implicaciones de gestión no son las mismas para una que para otra, con sus costes asociados, rentabilidades, formación necesaria para gestionar esa mayor amplitud de surtido.

Y ésa quizás ha sido la mayor dificultad: crear ese valor añadido generado por la información para entender estas relaciones y las posibilidades de ganar en eficiencia por parte de nuestras farmacias.

La lectura en todo este proceso es que trabajando los datos, al final, consigues un valor enorme, porque identificas posibles factores, relaciones, realidades escondidas entre tanto dato. Pero además consigues un valor que se puede traducir en acciones, en este caso, para la farmacia.

La finalidad de este artículo es que espero que muchos farmacéuticos valoren que un surtido bien gestionado y eficiente le hará tener un negocio más saludable.

Análisis de datos sobre basuras marinas: Bajan las bolsas de plástico, suben los plásticos relacionados con la agricultura

25 abril, 2017 Miren Gutiérrez 5 comentarios

Nuevo informe del Programa “Análisis, investigación y comunicación de datos” de Deusto sobre basuras marinas

Las basuras marinas –constituidas por plásticos sobre todo — son tal problema que este año el Programa de la ONU para el Medio Ambiente (PNUMA) ha lanzado una campaña global para eliminar en 2022 las fuentes de basura en los océanos. La mayor parte de las basuras encontradas en playas y riberas terminan en el mar. Por eso es vital conocer qué tipo de basura y en qué cantidades se encuentran en nuestras playas y ríos, y qué factores influyen su disminución o aumento.

El informe del Programa “Análisis, investigación y comunicación de datos” de Deusto contribuye a responder a algunas de estas en un reciente informe sobre basuras marinas que concluye que:

La caída del consumo de bolsas de plástico experimentada en los últimos años en el estado ha tenido un impacto directo en una reducción de un 80% de este tipo de bolsas en las zonas playeras y ribereñas en las que hubo limpiezas entre 2010 y 2015, incluidos. Vimos una relación estadística entre los datos de las limpiezas y de consumo de bolsas.
El Parque Regional Puntas de Calnegre-Cabo Cope, en Murcia, es el punto donde más basuras se encontraron por metro lineal de playa de los lugares estudiados (21,77 residuos de todo tipo por metro lineal). En comparación en Euskadi se encontraron 0.53 unidades de residuos por metro lineal.
El número de residuos relacionados con la agricultura intensiva y tuberías PVC está en aumento. 2015 multiplica por más de ocho la cantidad de residuos de este tipo encontrados el año anterior.

El informe está basado en el análisis de los datos obtenidos sobre cerca de 50.000 kilogramos de basuras recogidas entre 2010 y 2015 por miles de voluntarios/as de la Asociación Ambiente Europeo (AAE) en cerca de 250 limpiezas en todo el estado, como parte del proyecto International Coastal Cleanup de Ocean Conservancy.

En esos años se realizaron las siguientes limpiezas, en orden de más a menos: Andalucía, 58; Murcia, 54; Valencia, 53; Canarias, 28; Islas Baleares, 23; Castilla y La Mancha, 9; País Vasco, 7; Galicia, 4; Cataluña, 3; Madrid, 3; Asturias, 2.

De los casi 50.000 kilogramos de basuras recogidas, solo 680 kilogramos corresponden a playas y riberas vascas. En total significa 0,12 kilos por metro lineal limpiado. Las más sucias entre las que se hicieron limpiezas son, por año, Pasaia, Gipuzkoa (1.099 residuos en 2011), Punta Galea (565, en 2015) y Muskiz (424, en 2012), en BizKaia. Las basuras más comunes en las playas y riberas vascas fueron en orden de mayor a menor envoltorios de comida, bolsas de plástico, cuerdas, botellas de plástico, tapas de botellas y latas, lo que, con excepción de la presencia de cuerdas y ausencia de, replica más o menos lo que se encuentra en otras playas. Los plásticos relacionados con la agricultura son frecuentes en las playas andaluzas, murcianas y canarias.

Hoy el PNUMA calcula que son más de 8 millones de toneladas de plásticos los que terminan en el mar cada año; es decir, lo equivalente a tirar un camión entero de plásticos cada minuto. En la próxima década nuestros océanos tendrán alrededor de un kilo de plástico por cada tres kilogramos de pescado. Especialmente preocupantes son los llamados microplásticos, pequeñas partículas de plástico de hasta 5 mm de diámetro, que pueden ingerir peces y así entran en nuestra cadena alimenticia.

El informe está firmado por Ricardo León y Janire Zubizarreta, participantes en el Programa “Análisis, investigación y comunicación de datos” de Deusto, y su directora, Miren Gutiérrez. Se enfrentaron al reto de estandarizar y limpiar una base de datos que no estaba estructurada adecuadamente para su análisis, así como geolocalizar los datos, buscar correlaciones entre datos externos y datos obtenidos de las limpiezas de playas y riberas, y responder a preguntas de investigación de enorme relevancia.

Deusto Data