Archivo de la etiqueta: Análisis investigación y comunicación de datos

El perfil laboral ‘de moda’: el de analista de datos

Esta es la versión completa de una entrevista con Miren Gutiérrez, Directora del Programa de Comunciación de Datos, con David  García-Maroto (@David4210) en El Independiente publicada hoy.

Estoy elaborando un reportaje sobre el perfil laboral ‘de moda’, el de analista de datos.  Quería saber con detalle en qué consiste..

Es el o la especialista en los procesos de obtención, limpieza y análisis, y a veces visualización, de datos utilizando razonamiento y herramientas analíticas. Existe una variedad de métodos de análisis de datos específicos, algunos de los cuales incluyen obtención de datos, análisis estadístico, análisis de redes mediante teoría de grafos, análisis de texto y de sentimientos, inteligencia artificial y visualizaciones de datos. Cada punto en la cadena de valor del dato puede generar una especialización.

Cómo se forma un analista de datos

Depende para qué. Yo dirijo un postgrado en Deusto que se dedica a facilitar herramientas accesibles, no solo tecnológicas, sino también legales, estratégicas y sobre todo de comunicación para abordar cualquier proyecto de datos.

DSC_5456 (2)

Pero depende. Si estamos hablando de grandes proyectos con big data, entonces una sola persona, por muy formada que esté, no es suficiente. Generalmente se trabaja en equipo, en los que buscas una mezcla de competencias y conocimientos de la industria que se esté estudiando.

Por ejemplo, un estudio un estudio de las principales plataformas big data dedicadas a observar la pesca,  que acabo de publicar con el Overseas Development Institute, indica que, aunque ofrecen grandes oportunidades para la vigilancia de la pesca, aún hay mucho camino por delante.  Desde la liberación del mercado de los datos satelitales hace más de una década, han ido surgiendo plataformas de datos privadas dedicadas al seguimiento de los barcos pesqueros de cierto tamaño, obligados por seguridad a emitir señales regularmente mientras están operativos.  Pero el informe del ODI destaca graves fallas en estas plataformas privadas. Por ejemplo, un tercio de los 75,000 buques de pesca que figuran en la plataforma Global Fishing Watch respaldada por Google en el momento en el que investigábamos son duplicados o buques que no participan en la pesca.

Sin título

Para ese tipo de proyectos se confía en profesionales que han hecho una carrera universitaria o tienen una gran experiencia escribiendo código y trabajando con inteligencia artificial. Pero también deben integrar equipos que sepan de la industria para no caer en errores como los que indicaba antes. Si te fías solo del algoritmo, éste puede identificar como barco pesquero a otro, por ejemplo uno que carga bananas, porque tiene algún comportamiento comçun con un pesquero, que es lo que le pasó a Global Fishing Watch. Hace falta saber mucho conocimiento de las industrias para hacer informes certeros y poder interpretar bien los análisis de grandes datos.

¿Qué aplicaciones tiene?

Los sectores que hasta ahora han maximizado el análisis de datos son algunas agencias gubernamentales, sobre todo en cuestiones de vigilancia masiva, y el sector privado, a veces trabajando juntos, como se vio en las revelaciones de Snowden en 2013, quien reveló que Verizon y otras telefónicas habían estado proporcionando datos de sus clientes, sin su conocimiento, a la agencia de seguridad nacional.

Como investigadora estoy más interesada en cómo se usa la infraestructura de datos, entendida como los procesos, el hardware y el software necesarios para analizar datos y extraer valor, en la sociedad civil y el periodismo.

Pero hay aplicaciones en todos los sectores. Por ejemplo, el estudio de archivos históricos, que están gradualmente digitalizándose. Un ejemplo es la edición en coreano del siglo XIII del canon budista, que incluye 52 millones de caracteres distribuidos en 166.000 páginas. Examinado con métodos tradicionales, se tenían que recurrir al análisis selectivo de fragmentos. Hoy en día la infraestructura de datos permite el estudio integral con enorme precisión de casi cualquier corpus documental digitalizado; e impulsa un cambio en la investigación, en la que ahora cobra mucha más importancia la validación de las fuentes, y las formas de comunicar conocimiento.

De las cosas más interesantes que he visto hacer con datos es el mapa de Forensic Architecture llamado Liquid Traces en el que visualiza la deriva de un barco con 72 emigrantes durante 14 días en las costas de Libia. Solo sobrevivieron 9. El mapa, basado en las mismas tecnologías de visualización de señales del Sistema de Identifiación Automática AIS, demuestra que diversos barcos de Frontex y NATO los vieron y no hicieron nada.

Map Left to Die

 

¿Qué empresas demandan estas competencias?

Todas. Aunque la pregunta sería qué empresas u organizaciones las necesitan y cuáles las demandan. Hay mucha necesidad en el tercer sector, pero no necesariamente se traduce en demanda. Por ejemplo, me cuenta la directora de DataKind UK, una organización que se dedica a colocar científicos y científicas de datos en ONG, que no le faltan voluntarios y voluntarias dispuestos a trabajar pro bono en una ONG, pero que no hay tantas ONG que tengan la capacidad de absorber esta capacidad y conocimiento.

Hace poco celebramos una conferencia en Madrid con representantes de organizaciones que financian proyectos sociales con datos, que los facilitan que generan plataformas y herramientas, y que hacen periodismo y activismo de datos, y una de las conclusiones que los datos pueden generar cambios sociales pero las organizaciones también deben transformarse.

Sin título

 

 

 

Fake news: ¿Problema técnico o social?

Resumen de la entrevista a Miren Gutiérrez, directora del Programa “Análisis, investigación y comunicación de datos de Deusto”,  para el proyecto “Regulación de contenido en y por plataformas”*

  1. ¿Las fake news son principalmente un problema técnico o social?

Para alguien como yo, que ha estado sido periodista durante más de veinte años, las noticias falsas son simplemente mentiras. Puede haber mentiras parciales o mentiras completas; pueden incluir mensajes propagandísticos basados ​​en hechos o contenido totalmente inventado destinado a generar el caos; pueden adoptar la forma de fraude, bots maliciosos, pseudociencia, clickbaits o teorías de la conspiración… Pero estamos hablando de algo similar con diferentes formas, objetivos e impactos. Las fake news siempre han existido. Piensa en el comienzo de los diarios: en la década de los 1830, la mayoría de los periódicos tenían patrocinadores políticos y eran todo menos imparcial. El problema ahora es que la multiplicación de plataformas aumenta exponencialmente su difusión y, por lo tanto, sus efectos. Las fake news no son un problema técnico sino social.

descarga

  1. ¿Cree que se puede poner en marcha regulación que las controle? ¿Qué tipo de regulación?

No estoy segura de cuál es la solución. Me gusta la regulación que protege los derechos de la ciudadanía; pero soy muy cauta en lo que respecta a la sobrerregulación.

Por un lado, ¿por qué deberíamos dejar este tema vital a empresas privadas cuyo principal objetivo es ganar dinero? Estas empresas no han sido elegidas en procesos democráticos; se representan solo a ellas mismas y han dicho explícitamente que no quieren convertirse en reguladoras.  Si la web está atravesando un proceso de “plataformización” y “corporatización”, esta pregunta es crucial, porque no estamos hablando de unas pocas plataformas privadas, sino de la libertad de expresión en internet, que ha resistido hasta ahora a la regulación: Internet es caótico, dinámico y hasta chocante, engloba espacios abiertos que Jodi Dean ha llamado “neodemocracias”, que tienen como objetivo la confrontación y la pugna. Creo que debemos preservar y cultivar esta libertad, incluso si genera ruido desagradable.

Por otro lado, la autorregulación puede funcionar relativamente bien entre los medios de comunicación. Si las plataformas de redes sociales desearan convertirse en fuentes confiables de información y análisis, podrían actuar como organizaciones periodísticas, convirtiéndose en guardianes de contenido, empleando el método periodístico (es decir, la verificación) y siendo transparentes al respecto. De hecho, algunos están probando la curación algorítmica y otros métodos para identificar y eliminar noticias falsas. La gran diferencia aquí es que los medios de comunicación difunden noticias generadas en procesos periodísticos gobernados por principios periodísticos, mientras que las plataformas son vehículos (no necesariamente neutrales) de contenido de diversa naturaleza, creado por la ciudadanía y otros agentes, algo que es diferente. Es por eso que la actual presión para regular el contenido en las plataformas debería alarmarnos.

No debemos olvidar que el objetivo principal de las corporaciones es hacer felices a sus accionistas, lo que no se traduce necesariamente en hacer felices a los usuarios/as. Los bots y las interacciones tóxicas en las plataformas mejoran sus analíticas. También es por eso que la regulación es complicada.

Este es un tema complejo que incluye no solo la divulgación sino también la recolección de datos. Por ejemplo, a menudo los usuarios tienen que firmar primero un contrato con el servicio de la plataforma. Estos contratos son deliberadamente incomprensibles y excesivamente largos, y los/as usuarios/as con frecuencia terminan firmándolos sin leer con cuidado la letra pequeña. Las plataformas no son ni medios de comunicación ni canales desinteresados ​​para contenidos ciudadanos.

  1. ¿Cuáles son los principales riesgos asociados con la regulación del contenido en las plataformas?

El principal riesgo es sobrerregular, censurar contenido, enjuiciar a las personas por crear contenidos y restringir la libertad de prensa y otros derechos, así como desencadenar la autocensura. Ya existe una larga lista de acciones que son legales offline e ilegales online.

Internet hace que la creación, difusión y exhibición de contenido sea difícil de controlar por parte de los gobiernos, por lo que se ha puesto énfasis en perseguir la “posesión” de contenido. Pero la penalización de la posesión de contenido se ha llevado a extremos, como el caso en el Reino Unido de Samina Malik, que fue sentenciada en 2009 a nueve meses de prisión por recopilar poemas y textos yihadistas, que, de todos modos, estaban disponibles online. Casos como este abundan y nos plantean preguntas complejas.

  1. ¿Cómo crees que la ciudadanía puede participar en el debate y contribuir a resolver el problema?

Debe participar, debe ser consultada y debe contribuir a resolver el problema. Por ejemplo, las experiencias ciudadanas de verificación de hechos se ha multiplicado últimamente. El número de factcheckers en todo el mundo se ha más que triplicado en los últimos cuatro años, de 44 a 149 desde 2014 (un aumento del 239%). La mayoría de los esfuerzos de verificación están en los EE. UU. (47 del total), donde las fake news se han desenfrenado.

Aunque muchas de estas experiencias están vinculadas a medios de información, otras están afiliadas a universidades, grupos de expertos/as e iniciativas dirigidas por ciudadanos/as, lo que indica que la ciudadanía ya está participando en la solución del problema. Además debería estar más involucrada en la toma de decisiones sobre este tema.

Dan Gillmor, con quien generalmente coincido, acaba de publicar un artículo en el que habla precisamente de esto. Dice que las plataformas no deberían ser “la policía de los contenidos” en internet. “¿Por qué hay tanta gente que pide que sean el equivalente a editores de internet? ¿Por qué la gente supone que la solución está en las políticas corporativas y en las decisiones de los/as programadores/as dentro de organizaciones excesivamente centralizadas? Si se desea que la censura sea la regla, no la excepción, esa es una forma de obtenerla”. Gillmor dice que a las plataformas se les debería exigir que 1) permitan que los/as usuarios/as eliminen todo lo que las empresas han recopilado sobre ellos/as; 2) hagan que todos los datos, incluidas las conversaciones, sean “portátiles” de manera que las plataformas competidoras puedan atraer a la gente hacia otros servicios (especialmente aquellos que hacen de la privacidad una característica); 3) limiten lo que pueden hacer con los datos que recopilan; 4) ofrezcan dashboards fáciles de usar que brinden a los/as usuarios/as un control granular de su privacidad y la configuración del uso compartido de datos; y 5) divulguen todo lo que hacen “en un lenguaje simple que incluso un presidente de EEUU pueda entender”.

  1. ¿Cuál es el papel del sector del periodismo en relación con la controversia sobre las noticias falsas?

Tomando prestado de The Elements of Journalism, de Bill Kovach y Tom Rosenstiel, el periodismo debe buscar la verdad implacablemente, esforzándose por poner el interés público por encima de otros intereses, empleando la disciplina de la verificación de manera independiente. Es más necesario que nunca. Cuando aborda las fake news, el periodismo también debe instigar e inspirar un debate sobre el papel de los periodistas, así como el de las plataformas, la ciudadanía, la regulación y la gobernanza de internet.

Además, debería participar activamente en la lucha contra las fake news. Muchas iniciativas de verificación de hechos han surgido en medios de comunicación… Politifact es un ejemplo. Fue creado por Tampa Bay Times, un periódico de Florida, en 2007 (y recientemente adquirido por el Instituto Poynter, una escuela para periodistas sin fines de lucro). El papel del periodismo en esta controversia nunca ha sido tan relevante.

  1. ¿Cómo complementa esta función el papel de otros actores (gobierno, plataformas, sociedad civil)?

Estos actores tienen sus propios espacios de responsabilidad y acción. Los gobiernos deberían regular a favor de la ciudadanía. El periodismo debería estar haciendo su trabajo. Las plataformas deberían ser transparentes sobre sus prácticas y modelos de negocio. Y la sociedad civil debería estar atenta y activa.

Sin título

*SI quieres debatir sobre estos y otros asuntos relacionados con los datos y la transformación social, no te pierdas la conferencia el día 12 de abril en la sede de la DBS en Madrid. Detalles aquí.

Análisis de datos sobre basuras marinas: Bajan las bolsas de plástico, suben los plásticos relacionados con la agricultura

Nuevo informe del Programa “Análisis, investigación y comunicación de datos” de Deusto sobre basuras marinas

Las basuras marinas –constituidas por plásticos sobre todo — son tal problema que este año el Programa de la ONU para el Medio Ambiente (PNUMA) ha lanzado una campaña global para eliminar en 2022 las fuentes de basura en los océanos. La mayor parte de las basuras encontradas en playas y riberas terminan en el mar. Por eso es vital conocer qué tipo de basura y en qué cantidades se encuentran en nuestras playas y ríos, y qué factores influyen su disminución o aumento.

El informe del Programa “Análisis, investigación y comunicación de datos” de Deusto contribuye a responder a algunas de estas en un reciente informe sobre basuras marinas que concluye que:

  • La caída del consumo de bolsas de plástico experimentada en los últimos años en el estado ha tenido un impacto directo en una reducción de un 80% de este tipo de bolsas en las zonas playeras y ribereñas en las que hubo limpiezas entre 2010 y 2015, incluidos. Vimos una relación estadística entre los datos de las limpiezas y de consumo de bolsas.
  • El Parque Regional Puntas de Calnegre-Cabo Cope, en Murcia, es el punto donde más basuras se encontraron por metro lineal de playa de los lugares estudiados (21,77 residuos de todo tipo por metro lineal). En comparación en Euskadi se encontraron 0.53 unidades de residuos por metro lineal.
  • El número de residuos relacionados con la agricultura intensiva y tuberías PVC está en aumento. 2015 multiplica por más de ocho la cantidad de residuos de este tipo encontrados el año anterior.

Gráfico correlación

El informe está basado en el análisis de los datos obtenidos sobre cerca de 50.000 kilogramos de basuras recogidas entre 2010 y 2015 por miles de voluntarios/as de la Asociación Ambiente Europeo (AAE) en cerca de 250  limpiezas en todo el estado, como parte del proyecto International Coastal Cleanup de Ocean Conservancy.

En esos años se realizaron las siguientes limpiezas, en orden de más a menos: Andalucía, 58; Murcia, 54; Valen­cia, 53; Canarias, 28; Islas Baleares, 23; Castilla y La Mancha, 9; País Vasco, 7; Galicia, 4; Cataluña, 3; Ma­drid, 3; Asturias, 2.

basura barras

De los casi 50.000 kilogramos de basuras recogidas, solo 680 kilogramos corresponden a playas y riberas vascas. En total significa 0,12 kilos por metro lineal limpiado. Las más sucias entre las que se hicieron limpiezas son, por año, Pasaia, Gipuzkoa (1.099 residuos  en 2011), Punta Galea (565, en 2015) y Muskiz (424, en 2012), en BizKaia. Las basuras más comunes en las playas y riberas vascas fueron en orden de mayor a menor envoltorios de comida, bolsas de plástico, cuerdas, botellas de plástico, tapas de botellas y latas, lo que, con excepción de la presencia de cuerdas y ausencia de, replica más o menos lo que se encuentra en otras playas. Los plásticos relacionados con la agricultura son frecuentes en las playas andaluzas, murcianas y canarias.

Portada

Hoy el PNUMA calcula que son más de 8 millones de toneladas de plásticos los que ter­minan en el mar cada año; es decir, lo equivalente a tirar un camión entero de plásticos cada minuto. En la próxima década nuestros océanos tendrán alrededor de un kilo de plástico por cada tres kilogramos de pescado. Especialmente preocupantes son los llamados microplásticos, pequeñas partículas de plástico de hasta 5 mm de diámetro, que pueden ingerir peces y así entran en nuestra cadena alimenticia.

El informe está firmado por Ricardo León y Janire Zubizarreta, participantes en el Programa “Análisis, investigación y comunicación de datos” de Deusto, y su directora, Miren Gutiérrez. Se enfrentaron al reto de estandarizar y limpiar una base de datos que no estaba estructurada adecuadamente para su análisis, así como geolocalizar los datos, buscar correlaciones entre datos externos y datos obtenidos de las limpiezas de playas y riberas, y responder a preguntas de investigación de enorme relevancia.