Todas las entradas de: Álex Rayón

El Big Data en los Papeles de Panamá (con Mar Cabra)

Nada más hacerse público el caso de los Papeles de Panamá, escribimos un artículo en este blog para describir cómo el paradigma del Big Data (con sus método de trabajo del dato, sus tecnologías, su aproximación al dato, etc.) había jugado un papel fundamental para ser clave y posibilitar el procesamiento de la mayor filtración de la historia del periodismo (2.6 terabytes, y 11,5 millones de documentos -Wikileaks, para que se hagan a la idea, fueron 1,7 GB “solo”-).

Dado que hemos empezado ya nuestra actividad para el próximo lanzamiento en Otoño de nuestro Programa de Big Data y Business Intelligence en nuestra sede de Donostia – San Sebastián, quisimos organizar una jornada en la que pudiéramos contar con una de las principales protagonistas de dicha investigación. Mar Cabra, que ha desarrollado su carrera alrededor del periodismo de datos y la transparencia, y que ha formado parte del International Consortium of Investigative Journalists que ha estado detrás de la investigación sobre este escándalo social y moral.

Os dejo, lo primero, su presentación, que resumo a continuación:

La verdad es que Mar señaló muchos de los puntos críticos que trabajamos en nuestros Programas de Big Data y Business Intelligence:

  • Tuvieron muchos problemas con la calidad de los datos. Estaban muy «sucios», y dedicaron gran cantidad del tiempo a ponerlos limpios y eficientes para su procesamiento.
  • Nos introdujo las tecnologías que han estado detrás de la investigación y cómo han jugado un papel totalmente determinante para que fuera un éxito el proyecto. En esta entrada ya detallamos todas las tecnologías, pero por resumir las más determinantes, Mar nos habló de Talend como ETL, NEO4J para almacenamiento y Linkurious para la representación visual. Su expresividad y las facilidades para el descubrimiento de conocimiento, fueron aspectos críticos.
  • Entre los 11,5 millones de documentos de la filtración, prácticamente 5 millones eran emails, 3 millones formatos de bases de datos, 2.1 millones PDFs, 1.1 millones eran imágenes y el resto, otro tipo de documentos. Como vemos, el grado de no-estructuración de la información y los datos era tan alto, que la importancia de las tecnologías que facilitan el procesamiento de datos no estructurados, ha sido de vital importancia.
  • Nos habló mucho sobre cómo la visualización resulta crítica para que la gente luego entienda el conocimiento hallado de una manera bastante resumida y ágil. En la visualización que han realizado en colaboración con The Guardian, destacó The Power Players, que podéis consultar aquí.
  • No solo se trata de la mayor filtración de la historia del periodismo, sino también de la mayor colaboración de la historia del periodismo. La importancia que ha tenido el haber compartido datos dentro del marco de un consorcio, trabajando con una tecnología de red social abierta, ha sido crítica. Se han evitado los silos de datos, clave para que se pudieran compartir los documentos del despacho Mossack Fonseca.
  • Las tecnologías de bases de datos de grafos les han permitido una navegación por la información tan eficiente, que han sido capaces de procesar en meses lo que de otra manera les hubiera llevado años. De esto ya hablamos en una entrada anterior. Ella lo llamó «magia» destacando lo siguiente (literal):
    • Hago clicks en “puntos” y encuentro historias!
    • Descubro nuevos nombres con las búsquedas fuzzy
    • Encuentra el camino más corto (shortest path)
  • Si a alguien le interesa, y quiere adentrarse en la base de datos de grafos generada y estructurada para modelizar los Papeles de Panamá, puede acceder aquí. Un ejercicio de transparencia y colaboración al que Mar no paraba de invitarnos.

Para terminar, os dejo los vídeos de su intervención completa, así como la entrevista que la hicimos (que resume los puntos comentados anteriormente). Un caso, como ven, el de los Papeles de Panamá, en el que el Big Data ha aportado a la sociedad mucho.


Big Data para estudiar «Big Fish»

(Artículo escrito por Miren Gutiérrez, director del Programa Experto en Análisis, Investigación y Comunicación de Datos de la Universidad de Deusto)

Nunca antes se había utilizado las tecnologías Big Data para estudiar la pesca ilegal. Un nuevo informe del Overseas Development Insitute (ODI), el mayor centro de investigación de temas relacionados con el desarrollo de Reino Unido, y porCausa, una organización española especializada en periodismo de investigación, las utiliza precisamente para analizar y hacer emerger prácticas dudosas en alta mar.

El informe proporciona pruebas de estas prácticas, que comprometen la eficacia del sistema de gobernanza multilateral diseñado para acabar con la pesca ilegal.

Uno de los hallazgos de la investigación surge de la visualización de las señales que emitieron los 35 reefers -enormes buques de carga congeladores- que operaron en la región durante 2013. Por ejemplo, se ve claramente que algunos de ellos pudieron haber contribuido a la pesca ilegal en las zonas económicas exclusivas de Senegal y Costa de Marfil, donde el trasbordo de pescado está prohibido.

Los datos sobre los que  se cimenta el informe provienen de la mayor base de datos dedicada a barcos pesqueros -con datos históricos de más de 740.000 barexcos y miles de millones de posiciones geográficas registradas desde 2009- que está en manos de la empresa FishSpektrum. Para comunicar y visualizar los resultados de dicha investigación, se utiliza tecnología de la empresa CartoDB, que ha colaborado en el proyecto.

Tras interrogar la base de datos para determinar qué reefers operaron en África Occidental en 2013 y sus detalles (propiedad, operador, dueño, bandera, capacidad de carga, etc.), se adquirieron sus señales AIS, que están obligados a emitir regularmente buques de cierto tamaño y que son capturadas por satélites y antenas terrestres.

Cada señal se emite con una frecuencia variable en función del tipo de barco -pesqueros cada 10 minutos, reefers cada media hora aproximadamente- y contiene una marca temporal estándar o timestamp y la posición geográfica de cada barco. Estas señales se han cruzado con otras fuentes de datos geográficos sobre el litoral, sus puertos y las zonas de exclusión económica de la costa africana usando tecnología GIS para producir el set de datos que alimenta la visualización en CartoDB.

La visualización consiste en una aplicación web estática que usa la API de CartoDB para mostrar las rutas de cada reefer sobre un mapa junto con una animación de su posición durante el año 2013. Esta herramienta hace accesible el gran volumen de información que se posee actualmente de cada reefer para realizar análisis de su comportamiento.

Así quedan en evidencia comportamientos sospechosos que muestran un patrón movimientos errático o en zigzag, típico de los reefers que están a la búsqueda de barcos pesqueros con las bodegas llenas que deseen deshacerse de su pescado para seguir faenando.

La práctica del transbordo de pescado en las zonas exclusivas es muy común, pero hay mucha presión política y de grupos de campaña para que se prohíba cuando no puede ser supervisada por observadores a bordo de los reefers por ser un verdadero “coladero” de pesca ilegal. La Unión Europea, por ejemplo, veda la entrada de pescado transbordado por barcos con bandera de cualquier país de la Unión.

Como ven, el Big Data, ayudando también en causas sociales que permitan mejorar nuestra sociedad.

Mallorca Wifi: una agencia de medios sobre una infraestructura WiFi, gracias al Big Data

El pasado viernes 17 de Junio, invitaron a @deusto #bigdata a participar en una jornada organizada por la Universidad de Islas Baleares en torno al Big Data y sus aplicaciones. Obviamente, en Baleares, donde el turismo supone aproximadamente la mitad del PIB de la región, mucha de la conversación se centró en cómo operadores, plataformas, etc. utilizan el análisis masivo de datos para el desarrollo turístico.

Entre las ponencias, una de las que más me llamó la atención fue la del CEO y fundador de Mallorca Wifi, Maurici Socias. Una persona con la que luego tuve rato para conversar y entender bien lo que para mí ha sido un auténtico descubrimiento y muy grata sorpresa. Un emprendedor nato que llevo más de 20 años en el sector de las telecomunicaciones, en constante “reinvención” por la propia evolución del sector. He de decirles que es una auténtica gozada escucharle hablar de sus proyectos desde los tiempos de Terra, pasando por los inicios de Google y el Marketing Digital en España, hasta llegar a la competición atroz actual en la que el Big Data y el Marketing Intelligence pueden aportar tanto a la eficiencia de las acciones de una compañía. Quería, por ello, compartir con todos vosotros el modelo de Mallorca Wifi y cuál es su relación con el mundo del Big Data.

Fuente: Mallorca Wifi
Fuente: Mallorca Wifi

Una de las cosas que llama la atención cuando le escuchas describir qué es Mallorca Wifi es su propuesta de valor como “agencia de medios”. Sí, Mallorca Wifi es una agencia de medios. Una agencia, eso sí, que creo, no tiene mucha competencia. ¿Por qué? Por su capacidad de segmentar, personalizar la oferta, hilar bien fino y sobre todo, hacer un marketing centrado en el consumidor.

Os he hablado en anteriores ocasiones de lo que puede aportar el Big Data al mundo del marketing actual. Seguimos, aún hoy en día, y a pesar de las grandes bondades tecnológicas existentes, en un marketing masivo, en el que impactamos a muchas personas a la vez, con la esperanza matemática que solo por estadística, “alguno caerá”. El problema de este modelo, no solo es que su concepción se hizo en una época en la que las capacidades tecnológicas eran bastante limitadas y tenía bastante sentido, sino que es que además, los consumidores estamos muy cansados de los modelos publicitarios actuales. Son totalmente invasivos, nos generan una mala experiencia de usuario y consumidor, por lo que resultan poco eficientes para las marcas.

Sin embargo, las empresas siguen todavía apostando por esos modelos. Quizás es que los puestos de dirección de marketing necesiten también ese espíritu emprendedor por soportes que tengan un nuevo modelo. Nuevos formatos en los que el consumidor sea consecuencia y no causa; es decir, no vayamos a donde haya consumidores, sino traigamos a los consumidores a un nuevo esquema de relación. Un esquema en el que los impactos publicitarios tengan valor y no les resulte incómodo.

Pues bien, aunque pueda sorprender, un nuevo soporte de valor y centrado en el consumidor es Mallorca Wifi. Sí, un operador de infraestructura Wifi, es, bajo mi punto de vista, uno de los soportes más eficienes que puede haber. Y, hasta donde sé, un modelo sin precedentes en España. ¿Qué hace Maurici con Mallorca Wifi? Básicamente ofrecer a un visitante de Palma (extendiendo ahora su ámbito de actuación por toda la isla) wifi gratis sin solicitarle datos a cambio. Sin que tengamos que introducir datos de registro tan molestos como anticuados para las capacidades tecnológicas actuales. Y totalmente gratis, insisto. Y sin financiación pública.

Aquí es cuando le pregunté a Maurici una cosa tan básica como: “Entonces, ¿cómo ganáis dinero?”. Pues básicamente introduciendo la posibilidad para las marcas de “patrocinar” la conexión al Wifi en puntos estratégicos de Palma de Mallorca. Piensen en ustedes mismos, cuando no quieren consumir ese recurso tan escaso como son los datos, y prefieren conectarse a una wifi gratuita que encima no le pide datos personales. La relación que estableceré con esa empresa, esa marca, que le da Wifi gratis, será bastante afectiva, y estará usted muy agradecido por ello. En definitiva, convertir una infraestructura Wifi en un nuevo soporte publicitario. Bajo mi punto de vista, un modelo totalmente innovador y de valor. Que tardarán todavía muchas empresas en entender, pero que aquellas que lo hagan, le sacarán importantes beneficios, por el engagement que genera con el usuario.

Fuente: Mallorca Wifi
Fuente: Mallorca Wifi

¿Y qué tiene que ver todo esto con el Big Data? Pues bastante. De hecho, Maurici está ahora explorando la posibilidad de abrir una nueva línea de trabajo en torno a ello. Piensen ustedes que todos aquellos dispositivos móviles que lleven la Wifi encendido (que son prácticamente todos), tratan de conectarse a los puntos de acceso que tiene Mallorca Wifi. En ese momento, se obtienen muchos datos sobre el dispositivo, pudiendo llegar a caracterizar a ese usuario por el idioma del móvil (de dónde viene), cómo se desplaza (por tener intercalados los puntos de acceso), a qué velocidad lo hace, si acude a esos puntos con bastante regularidad, si lo hace siempre acompañado de otro dispositivo móvil, a qué hora lo hace, etc.

Si esos datos son anonimizados, y agregados en su conjunto, la capacidad de Mallorca Wifi de diseñar y lanzar una línea de negocio basado en datos de marketing contextual es bastante potente. Y, bajo mi punto de vista, otro caso más de lo que considero un movimiento brillante: dotarse de una infraestructura (wifi en este caso) que sea capaz de generar datos, que luego resulten de valor para diferentes propuestas de valor. Lo mismo que ocurre con una tarjeta de fidelización, un CRM o las líneas de telecomunicación tradicionales que tanto han trabajo con el Big Data.

El marketing contextual inteligente, se hace así posible, gracias a los datos que genera una red inteligente como esta. Todo ello, respetando al usuario, su privacidad y la ley. Brillante, y realmente inteligente. Mi más sincera enhorabuena y ánimo a personas emprendedoras que apuestan por la innovación y el dato como futuras palancas de desarrollo. Mallorca Wifi, una agencia de medios sobre una red Wifi gracias al Big Data.

Bases de Datos NoSQL de grafos: mejor rendimiento para grandes volúmenes de datos

Como saben, la semana pasada, organizamos un evento titulado «Las tecnologías Big Data al servicio de la sociedad«.  Un evento en el que a través del famoso caso de los Papeles de Panamá, tratábamos de divulgar la utilidad que tiene este nuevo paradigma del Big Data -sus métodos y tecnologías- también para beneficio de toda la sociedad.

Iremos, a lo largo de los próximos días difundiendo los contenidos y materiales generados para esa sesión. Empezamos la serie hablando de la intervención de Mario Iñiguez, Co-founder de Adamantas Analytics, que nos explicó cómo poner en valor las tecnologías de Big Data con las Bases de Datos NoSQL de grafos.

Las Bases de Datos NoSQL aparecen a la par de la explosión de la web 2.0. En ese momento, se produce un crecimiento espectacular del volumen de datos. Además, generado por el propio usuario, con información volátil, variada, no estructurada y extensa. Las relaciones se multiplican, no existe una estructuración previa. En este contexto, el paradigma de Bases de Datos Relacional que venimos usando desde los años 70, nos limitaba mucho. Un modelo de datos estático y con dificultad de adaptación a cambios, que dispone de relaciones explícitas entre tablas, es un paradigma que no casa bien con esta explosión de datos no estructurados.

Ahí es cuando empezamos a hablar de la necesidad de disponer de un nuevo paradigma. Lo bautizamos como NoSQL, manifestando claramente su desvinculación de este paradigma relacional que había venido siendo imperante hasta entonces.  Y, aparecen, cuatro nuevos tipos de bases de datos:

  • Clave valor: el más popular, además de ser la más sencilla en cuanto a funcionalidad. Cassandra, BigTable o HBase son ejemplos de este tipo. Son bastante eficientes tanto en lectura como en escritura. En nuestro programa vemos Cassandra.
  • Columnares: las bases de datos, en lugar de estar estructuradas por filas, están estructuradas por columnas. Al tratarse de una sola dimensión, hace más eficiente la recuperación de la información. En nuestro programa, trabajamos con Vertica.
  • Documentos: almacena la información como un documento, permitiendo realizar consultas bastante avanzadas sobre el mismo. Por ello, suele considerarse como el más versátil. MongoDB o CouchDB son ejemplos de ello. Nosotros en nuestro Programa de Big Data hacemos alguna sesión práctica con MongoDB.
  • Grafos: los datos son representados como nodos y aristas que modelizan la relación entre esos nodos. De esta manera, podemos emplear la teoría de grafos -de lo que ya hemos hablado en el pasado– para recorrer y navegar por su contenido. Su principal ventaja es que permite una navegación más eficiente entre relaciones que en un modelo relacional. Neo4J -la empleada en el caso de los Papeles de Panamá- o Virtuoso son ejemplos de ello, siendo Neo4J la que vemos en nuestro programa y sobre la que sacaremos un programa específico el próximo Otoño (dada la relevancia que va adquiriendo, por lo que ya informaremos de ellol).

Este último tipo, el de grafos, fue el que nos introdujo Mario y sobre el que nos contó sus bondades. Uno de los elementos que destacó Mario es cómo esta forma de representar la información se aproxima bastante al pensamiento humano (cómo representamos la información en nuestro cerebro). A través de varios ejemplos (éste de Open Corporates de Goldman Sachs o éste de la complejidad económica del MIT), vimos las principales ventajas de representar la información en grafos. Que, básicamente, se resumen en un tiempo de ejecución bastante menor que una base de datos relacional (en la transparencia 7 de la siguiente presentación podéis ver la comparativa empírica que hizo Mario).

Para concluir, Mario nos resumió las principales utilidades de este nuevo tipo de bases de datos NOSQL de grafos:

  • Disponer de más información con agilidad y eficiencia (lugares más visitados, análisis de sentimiento, rutas y medios, quejas y reclamaciones, círculos de influencia, etc.)
  • Y, desencadenar acciones (mejora de infraestructuras, mejora de servicios, mejora de la oferta turística, oportunidades de negocio, promoción comercio local)

Además, os dejamos un vídeo donde le preguntaba por los principales puntos que trató durante su intervención y que provocó varias preguntas de la audiencia. Como concluíamos, el modelo relacional podría tener sus días contados si las tecnologías de BBDD NoSQL siguen mejorando el rendimiento y resultados de procesar grandes cantidades de datos. Será interesante ver la evolución.

Las ciudades en el Siglo XXI: conectividad y datos

En este humilde blog, ya hemos hablado con anterioridad de las ciudades inteligentes. Lo hicimos para referirnos al cruce entre las ciudades y el Big Data y cómo se puede contribuir mutuamente (en este artículo), y también, para hablar del caso particular de Bilbao, que ha apostado mucho -y sigue haciéndolo- por las soluciones inteligentes basadas en el análisis de datos (en este otro artículo).

Pero no está todo escrito. Es más, es un campo, donde se sigue recibiendo mucha inversión, y donde sigue habiendo mucho interés por muchos agentes en ver las posibilidades que abre. De hecho, en el pasado foro Smart City World Expo de Barcelona, se mostraron muchas soluciones que se están llevando a cabo por el mundo para hacer de las ciudades un mejor lugar para vivir. Hay que considerar que la tecnología tiene siempre mucho que aportar allí donde hay retos humanos y sociales. La tecnología extiende el esfuerzo humano, lo complementa, y lo ayuda. Y un ente que va a tener muchos retos va a ser la ciudad, cuando se espera que en 2050 hasta un 75% de la población mundial viva en zonas urbanas. Ahora mismo, también ya estamos en una era de las megaciudades.

La era de las megaciudades (Fuente: http://www.un.org/en/development/desa/population/images/events/other/aWorldOfCities.jpg)
La era de las megaciudades (Fuente: http://www.un.org/en/development/desa/population/images/events/other/aWorldOfCities.jpg)

Carlo Ratti, un investigador del MIT en el Departamento de Estudios Urbanos y Planificación, suele referirse a estos retos y a estas soluciones que las ciudades necesitan apoyándose en un símil con la Fórmula 1. Quizás hayan visto recientemente la película Rush. En ella, se puede disfrutar del espectacular duelo que tuvieron Niki Lauda y James Hunt. Una Fórmula 1, donde todavía no había sensores en todas las esquinas, la telematría no jugaba el papel que desempeña hoy, y en el que el coche y el piloto lo era todo. Pero, hoy en día, las ventajas competitivas, además del coche y el piloto, lo de la infraestructura de procesamiento y la recogida de datos (información en tiempo real del estado de la pista, el viento, condiciones del vehículo, etc.).

Siguiendo con el símil, nos vamos de las pistas de la Fórmula 1 a las ciudades. Estamos hablando de zonas urbanas que si las dotamos de sensores -recogida de datos- y de elementos de conectividad -adquieren capacidad de comunicar el estado de las cuestiones: clima, equipamiento, etc.-se podrán gestionar de manera más eficiente los servicios. Éste, debe ser el fin de disponer de una ciudad completamente sensorizada y conectada. Poner en valor los datos transformando los modelos de prestación de servicios a los ciudadanos hacia un mundo en el que el dato se convierte en palanca de ventaja competitiva para su bienestar.

¿Y qué se está haciendo en el mundo en relación a esto? Muchas cosas. Los datos y la conectividad son los protagonistas ya en muchos sitios. Desde cruces inteligentes que reducirían no solo los tiempos de espera en semáforos o rondas,  microbuses sin conductor en Países Bajos, Singapur o California, drones con aplicaciones para colaborar en situaciones de emergencia médicas, etc. Son solo algunos de los ejemplos donde los datos fluyen, hasta situarse en el centro de la gestión de una ciudad.

Una ciudad inteligente con datos y conectividad (Fuente: http://www.bigdatacompanies.com/wp-content/uploads/sites/8/2013/05/Smarter-Cities.jpg)
Una ciudad inteligente con datos y conectividad (Fuente: http://www.bigdatacompanies.com/wp-content/uploads/sites/8/2013/05/Smarter-Cities.jpg)

Como decíamos al comienzo, es cierto que las TIC ayudan al humano. Pero todavía falta mucho por realizar. Las ciudades todavía están en pleno proceso de digitalización. Y con ello me refiero básicamente a la instalación de sensores capaces de recoger datos de cualquier lugar de una ciudad. Es lo que tiene este nuevo paradigma del Big Data: recojamos datos, que luego ya nos encargamos de encontrar lógica alguna o inteligencia sobre los mismos. La eventual saturación del tráfico, volúmenes de ruido o contaminación excesivos, etc. son consecuencia de disponer de esta infraestructura.

Pero, ojo, no olvidemos que llenar una ciudad de sensores no la convertirá automáticamente en inteligente. Disponer de buenos datos ya comentamos era clave. Disponer de una buena infraestructura de datos, también. Pero una vez que disponemos de las herramientas, necesitamos otros elementos para que el proyecto sea realmente útil y provechoso:

  • Liderazgo: necesitamos de políticos y representantes que se crean el valor que aportan los datos, y lo pongan en el corazón de sus políticas. No solo necesitamos que lo cuenten en los discursos, sino también que haya políticas transformadoras sobre el análisis de datos que hayan hecho.
  • Habilidades analíticas y estratégicas: y claro, para que esos líderes tomen esas decisiones, las habilidades analíticas que deban incorporar en sus equipos se tornan fundamentales. Y convertir así, esos análisis de datos en toma de decisiones estratégicas.
  • Toma de decisiones: decidir. Hay veces que incluso es bueno decidir, para poner en marcha el «prueba y error» de toda la vida.

Las ciudades, se beneficiarán de esta era de los datos. Pero necesitamos líderes, habilidades analíticas y decisiones. Estos otros elementos menos divulgados harán que esto de las ciudades inteligentes sea una realidad.

Jornada «Las tecnologías Big Data al servicio de la sociedad», 9 de Junio, en Donostia – San Sebastián

Los “Papeles de Panamá”, la mayor filtración periodística de toda la historia, además de haber puesto encima de la mesa mucho debate en torno a la ética de muchos ciudadanos, se han relacionado mucho con el mundo del Big Data. Una vez obtenidos los documentos (2.6 terabytes, y 11,5 millones de documentos), hubo que analizarlos para extraer inteligencia de los mismos. En el proceso ha habido desde tecnologías para extraer e integrar datos, a nuevos sistemas procesar y visualizar el conocimiento extraído.

Pero no solo el periodismo de investigación se beneficia de estas nuevas tecnologías de Big Data. Las empresas están empezando a entender también la utilidad de trabajar con los datos. Y eso, teniendo en cuenta que actualmente sólo se usa el 5% de todo el caudal de datos. Ante la multidimensionalidad de esta transformación económica y tecnológica, se están creando nuevos perfiles y puestos de trabajo desconocidos en nuestra sociedad y que tienen que ver con los datos. Se necesita un perfil que conozca del ámbito técnico, del económico, del legal, del humano, etc., y de competencias genéricas como la inquietud, el trabajo en equipo, la creatividad, orientación a la calidad y el cliente, etc. Queda claro así, que esto no es un campo sólo técnico; es mucho más amplio y diverso.

Por ello, queremos en este evento contar la presencia de protagonistas de este cambio. Organizaciones y empresas, que sí tienen esta visión del dato como elemento transformador de su propuesta de valor y su modelo de negocio. Abriremos la jornada con una conferencia de Mar Cabra, la periodista jefe de la unidad Data & Research del Consorcio Internacional de Periodistas de Investigación que ha coordinado la investigación sobre los papeles de Panamá. Posteriormente, hemos organizado una mesa redonda en la que participarán Mario Iñiguez, de Adamantas Analytics (empresa que provee soluciones de tecnologías de bases de datos de grafos), Roberto Tamayo, Gerente Riesgos Tecnologicos y Seguridad de Deloitte y, Miren Gutiérrez, Directora del Programa Experto «Análisis, investigación y comunicación de datos» e Investigadora Asociada del Overseas Development Institute (Londres)

El evento se celebrará el próximo 9 de Junio en el Aula Digital del Campus de San Sebastián, de nuestra Universidad de Deusto. Lo haremos en nuestro Campus de San Sebastián, aprovechando que lanzaremos nuestro Programa de Big Data y Business Intelligence allí el próximo Octubre. El evento tendrá la programación que se indica a continuación, y podéis apuntaros al mismo a través de este formulario.  Tendremos un aforo limitado a 80 personas, por lo que rogamos te inscribas en el evento para que no te quedes sin tu plaza.¡No te lo pierdas!

  • 09:45 – 10:00. Recepción de asistentes y entrega documentación.
  • 10:00 – 10:10. Inauguración del evento
  • 10:10 – 10:50. Charla central: “El Big Data en los Papeles de Panamá
    • Dña. Mar Cabra, head of the Data & Research Unit International Consortium of Investigative Journalists
  • 10:50 – 12:00. Mesa redonda
    • Dña. Mar Cabra, Data & Research Unit ICIJ
    • D. Mario Iñiguez, Adamantas Analytics («Casos de puesta en valor de de la tecnología de Big Data con NoSQL orientada a la sociedad«)
    • D. Iñigo García Merino, Enterprise Risk Services Manager – Deloitte («La seguridad en la era del Big Data«)
    • Dña. Miren Gutiérrez, ​Programa experto «Análisis, investigación y comunicación de datos» («Visualización de datos como herramienta de comunicación«)
Aula Digital en el Campus de San Sebastián de la Universidad de Deusto
Aula Digital en el Campus de San Sebastián de la Universidad de Deusto

Cuando los algoritmos se convierten en cajas negras

Les voy a recomendar un libro que me ha parecido realmente espectacular: «The Black Box Society: The Secret Algorithms That Control Money and Information«.

Fuente: Amazon
Fuente: Amazon

Empecemos por lo básico, definiendo qué son los algoritmos y por qué hablamos ahora de «cajas negras». Los algoritmos básicamente es lo que hacemos los informáticos cuando nos ponemos a crear una serie de reglas abstractas para transformar datos. Es decir, cogemos una fuente de información o datos, y dado que no está expresado ni representan aquello que queremos obtener, diseñaños y desarrollamos una serie de reglas que permiten encontrar, expresar y representar aquello que estábamos buscando.

Además, desde que hemos introducido el paradigma Big Data, los algoritmos también buscan, patrones, relaciones, etc. Dado que cada vez codificamos y automatizamos un mayor número de nuestras conductas, deseos, emociones, etc. en entornos digitales, producimos una mayor cantidad de datos. Y más interesante resulta para muchas industrias desarrollar algoritmos para encontrar inteligencia que transformar en negocio.

Por ello, hoy en día, tenemos muchos, muchísimos algoritmos. Además, cada vez más sofisticados. Junto con el hardware y las redes, constituyen los ejes clave sobre los que pivota esta transformación digital de muchas industrias. Estamos ya ante las máquinas más sofisticadas del planeta. Lo cual está muy bien: más seguridad, optimización de las rutas para evitar perder tiempo, frenos automáticos, etc. 100 millones de líneas de código incorporan los nuevos vehículos (frente a las 60 millones de líneas que tiene Facebook y las 5 millones de líneas que tiene el colisionador de hadrones, para que se hagan a la idea de la complejidad de la que habalmos). Estamos ante las primeras máquinas que están alcanzando los límites biológicos de la complejidad.

El problema, además de su complejidad, es que fueron concebidos por una serie de personas, que seguían algún objetivo, no siempre claro. La intencionalidad del ser humano es inherente a lo que hacemos. Actuamos en base a incentivos y deseos. Por lo tanto, la pregunta que nos solemos hacer cuando pensamos en las cajas negras de los algoritmos pasan por su reingeniería. Es decir, saber cuáles son las reglas que los gobiernan.

Algoritmos de caja negra (Fuente: https://es.wikipedia.org/wiki/Caja_negra_(sistemas)#/media/File:Blackbox3D.png)

Cuando no sabemos qué reglas son éstas, hablamos de algoritmos de «caja negra». No sabemos cómo funcionan, cuál es el criterio con el que lo hacen, con qué objetivos fueron concebidos, etc. Por ello, el libro que os recomendaba al comienzo, sugiere que comencemos a discutir también sobre el «accountability» o «escrutinio» de los algoritmos. En una era en la que las apuestas contras las divisas de los países, los coches o servicios públicos son autónomos, o personas o sistemas de Big Data que toman decisiones de sanidad son codificadas en algoritmos, no podemos esquivar esta conversación.

En este sentido, el libro de Pasquale, introduce la «Ética de la tecnología» bajo tres perspectivas que debieran ser consideras cuando construimos algoritmos:

  • Crítica deontológica: es decir, que los resultados a obtener deban satisfacer una serie de reglas, políticas, principios, etc.
  • Crítica teleológica: valorar las consecuencias de los resultados que obtienen esos algoritmos.
  • Crítica de valores: diseño que considera de manera explítica e implítica los valores compartidos en una sociedad global, además de a los propios stakeholders que perciben y usan el sistema como se pensaba en un comienzo.

Con estas tres miradas a incorporar cada vez que enfrentamos el diseño y desarrollo de un algoritmos, son varios los elementos a considerar para ser responsable en su concepción y sus posibles consecuencias. Especialmente, para el campo del Big Data:

  • Disponibilidad: que sea fácil de disponer, no solo  ya el propio código, sino también su funcionamiento.
  • Facilidad de mantenimiento: que no resulte difícil de mantener para una persona ajena al que diseñó y desarrolló el algoritmo.
  • Inteligibilidad: entendible para más personas que los que formaron el equipo de su creación.
  • Integridad del algoritmo: que se mantenga íntegro y no solo funcione para un conjunto de datos determinados.
  • Selección del modelo y atributos: que el modelo sea representativo de la realidad que quiere reflejar. Los atributos a seleccionar para su caracterización, también resultan críticos.
  • Integridad de los datos: lo que decíamos a nivel de algoritmo, también a nivel de datos. Que se mantengan íntegros y no sean susceptibles de modificaciones fáciles o ser demasiado volátiles.
  • Propiedad colectiva de los datos: que los datos no sean propiedad del que desarrolló el algoritmo; desacoplando esa propiedad, podríamos hablar de un compromiso social y global.
  • Sesgo de selección: ¿qué preguntas nos estamos haciendo a la hora de construir el algoritmo? No caer en la trampa de seleccionar solo las partes que más nos interesan o favorecen.

En el congreso Governing Algorithms, se trataron muchos de estos temas. Pero, además hablaron también de otra forma de diseñar y desarrollar algoritmos, con ejemplos como:

  • Sunlight Foundation: una organización que trabaja en la explotación de datos en el campo de la innovación social, el análisis de las facturas de gobiernos para encontrar relaciones o patrones, etc.
  • Enroll America: búsqueda de ciudadanos no asegurados de manera activa e inteligente para mejorar su bienestar.
  • Data Science for Social Good: una iniciativa de la Universidad de Chigado para formar «data scientist» en la construcción de algoritmos para la mejora del bienestar global.

Como toda herramienta, en su uso, dependerá su evaluación. Una evaluación, que como han visto, tampoco es sencilla. ¿Es ético un algoritmo? Depende de todos los factores arriba listado. Lo que sí parece claro es que cuando cogen una forma de «caja negra», suponen un riesgo global importante. Está en nuestras manos que el «accountability» sea efectivo, y no construyamos reglas que no satisfagan esas perspectivas de análisis citadas.

Bayes y la inteligencia colectiva para predecir sucesos (fútbol, catástrofes aéreas, política, etc.)

Kenneth Arrow, premio Nobel de Economía en 1972, y experto en predicciones económicas dijo aquello de:

“El buen pronóstico no es el que te dice que lloverá, sino el que te da las probabilidades”.

Esto es algo que suelo comentar a la hora de hablar de predicciones. No tienen más que abrir muchos titulares de periódicos para darse cuenta que la ausencia de la estimación de probabilidades es palpable. Y eso a pesar que nada es seguro hasta que ocurre y que la probabilidad cero no existe. La certeza y la magia debieran quedar excluidas de nuestra  manera de ver el mundo.

Por todo ello, quiero hablar hoy de cómo poder manejarnos en este mundo de la incertidumbre, asignando probabilidades a las diferentes alternativas que puede tomar un determinado suceso. De esta manera, podremos ayudar a las empresas, organizaciones e individuos a asignar eficientemente recursos en múltiples situaciones. Y, como solemos decir en el mundo del Big Data, tomar mejores decisiones.

Predecir consta de tres partes:

  1. Modelos dinámicos
  2. Análisis de datos
  3. Juicio humano

En el mundo de las predicciones, las empresas han solido llevar la delantera. Básicamente, porque trabajan en mercados. Los economistas suelen decir que los mercados proporcionan 1) incentivos para buscar información; 2) incentivos a revelar la información; y 3) un mecanismo para agregar información dispersa. Por eso solemos tener todos un amigo empresario al que solemos preguntarle por el desenlace de  muchas cuestiones que nos pueden afectar.

Primero, hablemos de probabilidades. Supongamos que estamos con un amigo intentando predecir la cara que saldrá al tirar la moneda al aire. Intuitivamente, todos nosotros podemos pensar que la probabilidad de que salga cara es de 0,5. Y que incluso esto es un concepto «absoluto», en el sentido que todos deberíamos pensar lo mismo. Esto es lo que se denomina una interpretación frecuentista de la probabilidad, y es la que ha sido predominante a lo largo del Siglo XX, con Ronald A. Fisher a la cabeza.

Sin embargo, hay otro enfoque, algo más antiguo. Y es una en la que ese 0,5 se le da un carácter subjetivo, dado que un jugador puede esperar una mayor o menor probabilidad. Este enfoque fue mayoritario en el Siglo XIX, con Pierre-Simon Laplace al frente. Y esta subjetividad en la interpretación de la probabilidad se la debemos al Teorema de Bayes. Dado que en muchas ocasiones, para predecir, tenemos un conocimiento limitado, la probabilidad es la expresión matemática de ese conocimiento. Es decir, que yo «no puedo predecir con un 50% de probabilidades que saldrá cara«, sino que diría «basándome en el conocimiento que tengo, hay un 50% de  certeza que saldrá cara«.

El auge de los métodos Bayesianos, especialmente, por la irrupción del Big Data (que trae nuevo conocimiento), está provocando que mucha gente cambie la forma de afrontar estos problemas, dado que Bayes no solo es una fórmula, sino también una manera de afrontar predicciones y situaciones. Consiste en que a nueva información (recibida), nueva probabilidad (estimada). Según vaya obteniendo nueva información, mejoro las probabilidades iniciales que tengo. A más información, más probabilidad puedo estimar. De ahí la relación con el Big Data, claro.

Ha habido casos muy «populares» de la aplicación del teorema de Bayes en los últimos tiempos: la búsqueda del avión perdido de Malaysia Airlines y las probabilidades de su ubicación, la localización del vuelo de Air France que cayó en el Atlántico tras dos años gracias a Bayes (explicado en este paper), o cómo iba a quedar el España – Italia durante el propio partido de la Eurocopa (como dijimos, el fútbol usa mucho esta información).

Probabilidades de encontrar los restos del vuelo de Air France (Fuente: https://www.technologyreview.com/i/images/AF447.png?sw=590)
Probabilidades de encontrar los restos del vuelo de Air France (Fuente: https://www.technologyreview.com/i/images/AF447.png?sw=590)

Uno de los campos donde más interés puede tener ahora mismo Bayes es en de la aplicación de la inteligencia colectiva para predecir sucesos. Cuando la predicción de un resultado/suceso se vuelve compleja, el enfoque de la «inteligencia colectiva» sugiere agregar información dispersa y heterogénea. En ese proceso de agregación, quitamos el «ruido», dado que todo paquete de información se compone de una parte veraz (señal) y de ruido (aleatorio) -la Teoría de la Información de Shannon de 1948-.

Así, de esta agregación de predicciones subjetivas de una realidad, nace un nuevo «mercado de predicciones». Algunos autores prefieren llamarlos “mercados de información”, dado que reflejan una mejora de la información disponible gracias a la «sabiduría de las masas». Otros los llaman “mercados de futuros de ideas” o “mercados de decisiones”, reseñando así el valor que tiene.

Estos mercados se basan en la teoría de la “sabiduría de las masas”. Esta, fue descubierta en 1906 por el estadístico Francis Galton (que también bautizó conceptos como la correlación o la regresión a la media). Su tesis fue aparentemente sencilla: la predicción de un grupo de personas expresada como un todo, mejora la precisión de cualquiera de sus partes por separado. En el libro «The Wisdom of Crowds» de James Suroweicki, en 2004, esta teoría fue impulsada de nuevo, gracias a sus postulados sobre cuándo esta puede funcionar y cuándo no. James, expone que existen tres tipos de problemas que pueden ser resueltos por la inteligencia colectiva:

  1. Problemas cognitivos (siempre tienen una solución, o, en su defecto, hay unas respuestas mejores que otras);
  2. Problemas de coordinación (los miembros de un grupo se ven en la necesidad de armonizar su comportamiento con el del resto de la gente);
  3. Problemas de cooperación (personas que buscan satisfacer el propio interés se ven en la necesidad de lidiar con los demás para obtener una solución que sea buena para todos).

A nivel estadístico, lo que ocurre es que si se agregan apropiadamente la visión de muchas personas, el ruido queda compensado con el ruido, y nos quedamos con la señal. Es una teoría realmente útil y eficiente, pero que requiere de la heterogeneidad de las fuentes, la toma de decisiones independientes y un buen proceso de agregación de información. De ahí que este enfoque científico sea utilizado por las empresas con mucho rigor cuando se juegan millones de dólares con sus apuestas. En el el mercado de predicciones, estos requisitos se garantizan habilitando un mercado bursátil a la hora de incentivar a los participantes a aportar solamente la mejor información disponible, puesto que los beneficios o pérdidas irán a parar directamente a ellos.

En España, como mercado de predicciones que funciona y marca tendencias, está FuturaMarkets.com como uno de los más conocidos. El precio indica la probabilidad de que un determinado evento ocurra. Los participantes, compran o venden acciones si creen que la probabilidad real es distinta. Y esto es lo que hace fluctuar el mercado, y estas «predicciones de las masas que tienen los incentivos adecuados para acertar» (dado que ganarán dinero) es lo que hace que sean mercados con mucha capacidad informativa. No me deja de sorprender que no se use  más, por ejemplo, en telediarios o en medios de comunicación. Ahora mismo podemos ver qué se opina sucesos tan diversos como la presidencia de Brasil, la salida del Reino Unido de la UE, el paro en España o el regreso de Telepizza a España:

Mercado de predicciones en Futura Markets (Fuente: http://www.futuramarkets.com/)
Mercado de predicciones en Futura Markets (Fuente: http://www.futuramarkets.com/)

Como vemos, Bayes está de vuelta. Y la utilización de su enfoque para un «mercado de predicciones» abre un mundo muy interesante y de utilidad para los próximos años. Y en todo ello, el Big Data, con sus técnicas de agregación de datos heterogéneos, juega un papel clave.

Bayes y la inteligencia colectiva al servicio de la predicción en la era del Big Data. ¿A qué esperamos para seguir sacando provecho de ella?

El fútbol y Big Data (Parte II)

(continuación de la entrada anterior)

En el artículo anterior, veíamos varias aplicaciones del cruce entre el fútbol y Big Data. Describíamos cómo podría aportar ventajas competitivas importantes, una vez que algunas limitaciones que ahora mismo existen pudieran desaparecer. El fútbol y Big Data se convertían así en un dúo que parece veremos con frecuencia en los próximos años.

Con todos estos datos, el entrenador puede tomar muchas decisiones, claro. Un análisis de las ventajas y debilidades actuales, analizar las amenazas de un rival (es un juego donde la interacción entre dos jugadores produce diferentes contextos), mayor aprovechamiento de oportunidades, diseño de estrategias de entrenamiento y competición personalizadas para cada jugador (y así evitar lesiones, puntos de fatiga y mejoras de rendimiento). En definitiva, poner la tecnología a funcionar y los datos a trabajar para tomar decisiones más acertadas.

Pero hay todavía más campos donde el fútbol y Big Data se están encontrando. Las compañías de apuestas, que tan fuerte han entrado en España desde la cultura británica (de ahí sus nombres), usan sofisticados modelos para optimizar las utilidades a obtener. Por ejemplo, William Hill usa datos de Opta Sports (uno de los mayoristas de datos que más os aconsejo), SkyBet emplea estos modelos y datos para las comunicaciones con sus clientes, etc. Por otro lado, los operadores «Daily Fantasy Sports«, también tan populares en otras latitudes, y que en España tienen su fiel reflejo en el famoso Comunio, hacen lo propio. De hecho, los mejores jugadores de este tipo de «juegos de fantasía», son verdaderos magos del uso de Big Data para sus decisiones y estrategias. Siempre me pregunto por qué no podrían dar el salto a un equipo profesional…. ¿quizás es que ningún club los esté «monitorizando»? 🙂

Por otro lado, y para ir terminando, uno podría preguntarse por el origen de los datos. Y esta, es una pregunta muy interesante, porque también se está produciendo mucho desarrollo en este área. Un ejercicio éste del fútbol y Big Data, en el que ven, hay mucha monitorización. Uno podría pensar que con datos estructurados y cuantitativos, el proyecto de análisis de datos se vuelve fácil. Bueno, en realidad no lo es tanto, dado que exige unos requisitos computacionales muy importantes, y, en segundo lugar, porque estos datos se enriquecen con otras fuentes normalmente (como encuestas sobre cómo han dormido, cómo se sienten, etc., así como datos climatológicos y contextuales del lugar, hora y espacio del encuentro, por ejemplo). Por lo tanto, estamos hablando de Big Data como paradigma y reto.

Todos estos dispositivos que ayudan a obtener datos de la actividad de los jugadores están dentro de la categoría de «Electronic Performance Tracking System» (EPTS). De hecho, la FIFA ya está trabajando en un estándar de los datos que estos dispositivos generan, dada la implosión de datos que se está produciendo. Hay productos como Adidas’ miCoach elite team systemCatapult Sports -focalizado en sistemas Global Navigation Satellite System (GNSS), que usan equipos como el Chelsea o el Real Madrid-, la Italiana MatricsChyronHego conocida por su tecnología de monitorización de futbolistas TRACABTechedge España -que ha diseñado una plataforma Big Data denominada Sportedge (patrones de juego, inteligencia, sinergias del equipo y reciprocidad en el juego)-, etc. Como ven, la tecnología de monitorización deportiva está en un buen momento.

Monitorización jugadores selección Argentina (Fuente: fifa.com)
Monitorización jugadores selección Argentina (Fuente: fifa.com)

Por cierto, para los que les guste mucho el fútbol o el deporte en general y el Big Data -como a mí, sí, no lo oculto-, les recomiendo encarecidamente la MIT Sloan Sports Analytics Conference, un evento anual en el que salen todo tipo de estrategias de análisis de datos y su aplicación a grandes y pequeños equipos. Este año ha sido su décima edición, y como siempre, he tenido mucho interés en seguir los «Research papers» que se han presentado. Ahí podrán ver cómo el Big Data impactará no solo en el fútbol, sino en el deporte en general, en los próximos años. Por ejemplo, el paper que ganó en 2012 el premio número 1, hoy en día es la empresa y servicio Second Spectrum, líder en análisis de datos de jugadores de la NBA.

Como ven, el fútbol y Big Data, un dúo con mucho desarrollo últimamente. Un campo, donde todavía hay mucho por hacer. Esperemos, eso sí, que tanto «determinismo» de las máquinas no termino con el humanismo que rodea al fútbol y las visiones y opiniones que tenemos todos nosotros de nuestro equipo de cabecera. La magia de lo imprevisible, algo intrínseco al juego, esperemos que siga ahí.

El fútbol y Big Data (Parte I)

Una de las áreas donde el Big Data está sonando cada vez con más fuerza es el fútbol. Dada la afición que existe por el deporte rey, es fácil que sea una pregunta recurrente. Más aún, si consideramos el fútbol como un juego en el que al intervenir tantas variables, las estrategias y decisiones a tomar, y el análisis de datos para que éstas sean lo más fundadas posible, se vuelve crítico.

Son muchas variables las que pueden intervenir: el estado de forma de los jugadores, los estilos de juego, la interacción entre las propias estrategias frente a las del rival, la combinación de los jugadores con sus propios estilos entre sí, su adecuación al estilo del entrenador, etc. Éstas hacen que la combinación estadística de todas ellas produzca muchos escenarios dignos de buen análisis. Tantos datos y tantas decisiones que poder tomar, en consecuencia, que voy a dividir esta entrada en dos partes, para no generar pereza en la lectura de una única larga entrada.

Empecemos con algo de contexto en esto del fútbol y Big Data. Recuerdo varias frases cuando Pep Guardiola llegó al Bayern de Munich, pero una en especial:

The match analysis department is the most important department for me.

Efectivamente, ahí tenéis a uno de los mejores entrenadores según Transfermarkt, confiando en disponer de un departamento de Analytics bien pegado a él que le ayude a analizar los muchos datos que genera su equipo y su juego. No solo él. El Arsenal de Arsene Wenger, utiliza también modelos estadísticos para ayudar en la gestión de la detección del talento. Incluso pagó 2 millones de libras para comprar una empresa -StatDNA-que se dedicaba a ello.

Por lo tanto, parece que el Big Data en el campo del fútbol tiene un amplio abanico de aplicaciones. Y eso que todavía no es posible lo que se conoce como «On in-game analytics-driven coaching«. Es decir, en fútbol, un entrenador no puede tomar decisiones sobre la estrategia del juego y cómo jugar/variar su estrategia, hasta el descanso, o antes o después del partido. A diferencia de una empresa, todavía no es posible las decisiones «en tiempo real». Y eso a pesar que los sistemas de monitorización de partidos actuales, son capaces de compilar entre 1.500 y 1.600 eventos por partido.

Fuente: http://news.sap.com/two-global-champions-join-forces/

A sabiendas que en los partidos hay mucho dispositivo prohibido (más allá de cámaras y sensores en estadios), pero que en los entrenamientos los jugadores llevan cada vez más tecnología (un sujetador deportivo -o cualquier otro wearables deportivos- en cada entrenamiento que consta de un monitor de pulsaciones, un acelerómetro y un sistema de geolocalización), podemos obtener explotaciones de datos como:

  • Análisis de patrones y tendencias en parámetros básicos: desempeño atlético (velocidad, aceleración), la posición de los jugadores y sus movimientos, la tenencia del balón, etc. Y, de esta manera, detectar los parámetros críticos de mejora en base a referencias de juego.
  • Modelos predictivos de juego, remate y gol: la empresa Oulala Games tiene un modelo matemático que, empleando datos de la empresa Opta (hablaremos de ella más adelante), permite a un club disponer de un sistema predictivo de los factores que llevan a obtener el mejor resultado de un jugador. Juegan con un total de 70 variables para obtener 275 posibles acciones a realizar con las que ganar o perder puntos.
  • Modelo de propensión a la lesión o fatiga: si un equipo es capaz de detectar los factores que mejor predicen una lesión, podrá evitarlos a futuro con un modelo que lo detecte con carácter preventivo. A más de un equipo, que a estas alturas ha rotado poco, le podría venir muy bien.
  • Análisis individual vs. global del equipo: no olvidemos que como juego de equipo que es, lo importante es el análisis global del equipo, en la estrategia global. Es lo que se ha bautizado como el «eventing», secuencias que miden los pases buenos, las pérdidas de balón, remates, goles, faltas, tarjetas, tenencia y similares, que permiten ver la contribución de cada jugador al equipo y viceversa. Esto, con grafos, ya se ha hecho en varias ocasiones para las selecciones y enfrentamientos clave (como la final del Mundia entre España y Holanda). De esta manera, la adecuación de jugadores a equipos y viceversa -como le encanta al Cholo Simeone-, resulta más fácil.
  • Simulación de jugadas y enfrentamientos: cruzando todo este conjunto de variables y datos de los que estamos reiteradamente hablando, un equipo puede disponer de un simulador de posibles jugadas y enfrentamientos, con los que afrontar de la mejor manera posible cada partido. La personalización del juego y el equipo en función del rival.
  • Valoración de jugadores en mercado: más allá de ejercicios «amateurs» como los que he podido hacer yo en el caso de Aymeric Laporte, aquí hay modelos realmente sofisticados. Como decíamos antes, el Arsenal dispone de una herramienta propia para ello. Y hay bastantes rumores que el acierto de Monchi en el Sevilla, se debe a lo mismo.
  • Factores Críticos de Éxito: una de mis historias preferidas en cuanto al análisis de factores de triunfo de un equipo es el de la selección Alemania de fútbol durante el Mundial. La actual campeona del mundo, implantó un sistema global de Big Data que le permitió tomar decisiones sobre qué factores eran los que la hacían producir mejores resultados. Se dieron cuenta que, por ejemplo, reducir el tiempo de posesión a poco más de un segundo (de los 3,5 segundos en los que estaba).
  • Detección de talento: en 2011, la película Moneyball narró la historia de Billy Beane, director técnico de un modesto equipo de beisbol que en 2001 empezó a utilizar la estadística para detectar jugadores poco valorados en mercado, pero con grandes probabilidades de hacer grandes cosas. Desde entonces, el fútbol se ha llenado de herramientas y bases de datos estadísticas como Opta Sports -que ya trabajar con el Sevilla, Valencia o FC Barcelona, entre otros- o Transfermarkt, que ponen a disposición de los clubes datos para hacer eso mismo. Supongo que ya lo estarán empleando, pero dada su sensibilidad y la ventaja competitiva que ganan, entiendo no lo divulgarán mucho.

(continuará)