Archivo de la etiqueta: big data

Las ciudades en el Siglo XXI: conectividad y datos

En este humilde blog, ya hemos hablado con anterioridad de las ciudades inteligentes. Lo hicimos para referirnos al cruce entre las ciudades y el Big Data y cómo se puede contribuir mutuamente (en este artículo), y también, para hablar del caso particular de Bilbao, que ha apostado mucho -y sigue haciéndolo- por las soluciones inteligentes basadas en el análisis de datos (en este otro artículo).

Pero no está todo escrito. Es más, es un campo, donde se sigue recibiendo mucha inversión, y donde sigue habiendo mucho interés por muchos agentes en ver las posibilidades que abre. De hecho, en el pasado foro Smart City World Expo de Barcelona, se mostraron muchas soluciones que se están llevando a cabo por el mundo para hacer de las ciudades un mejor lugar para vivir. Hay que considerar que la tecnología tiene siempre mucho que aportar allí donde hay retos humanos y sociales. La tecnología extiende el esfuerzo humano, lo complementa, y lo ayuda. Y un ente que va a tener muchos retos va a ser la ciudad, cuando se espera que en 2050 hasta un 75% de la población mundial viva en zonas urbanas. Ahora mismo, también ya estamos en una era de las megaciudades.

La era de las megaciudades (Fuente: http://www.un.org/en/development/desa/population/images/events/other/aWorldOfCities.jpg)
La era de las megaciudades (Fuente: http://www.un.org/en/development/desa/population/images/events/other/aWorldOfCities.jpg)

Carlo Ratti, un investigador del MIT en el Departamento de Estudios Urbanos y Planificación, suele referirse a estos retos y a estas soluciones que las ciudades necesitan apoyándose en un símil con la Fórmula 1. Quizás hayan visto recientemente la película Rush. En ella, se puede disfrutar del espectacular duelo que tuvieron Niki Lauda y James Hunt. Una Fórmula 1, donde todavía no había sensores en todas las esquinas, la telematría no jugaba el papel que desempeña hoy, y en el que el coche y el piloto lo era todo. Pero, hoy en día, las ventajas competitivas, además del coche y el piloto, lo de la infraestructura de procesamiento y la recogida de datos (información en tiempo real del estado de la pista, el viento, condiciones del vehículo, etc.).

Siguiendo con el símil, nos vamos de las pistas de la Fórmula 1 a las ciudades. Estamos hablando de zonas urbanas que si las dotamos de sensores -recogida de datos- y de elementos de conectividad -adquieren capacidad de comunicar el estado de las cuestiones: clima, equipamiento, etc.-se podrán gestionar de manera más eficiente los servicios. Éste, debe ser el fin de disponer de una ciudad completamente sensorizada y conectada. Poner en valor los datos transformando los modelos de prestación de servicios a los ciudadanos hacia un mundo en el que el dato se convierte en palanca de ventaja competitiva para su bienestar.

¿Y qué se está haciendo en el mundo en relación a esto? Muchas cosas. Los datos y la conectividad son los protagonistas ya en muchos sitios. Desde cruces inteligentes que reducirían no solo los tiempos de espera en semáforos o rondas,  microbuses sin conductor en Países Bajos, Singapur o California, drones con aplicaciones para colaborar en situaciones de emergencia médicas, etc. Son solo algunos de los ejemplos donde los datos fluyen, hasta situarse en el centro de la gestión de una ciudad.

Una ciudad inteligente con datos y conectividad (Fuente: http://www.bigdatacompanies.com/wp-content/uploads/sites/8/2013/05/Smarter-Cities.jpg)
Una ciudad inteligente con datos y conectividad (Fuente: http://www.bigdatacompanies.com/wp-content/uploads/sites/8/2013/05/Smarter-Cities.jpg)

Como decíamos al comienzo, es cierto que las TIC ayudan al humano. Pero todavía falta mucho por realizar. Las ciudades todavía están en pleno proceso de digitalización. Y con ello me refiero básicamente a la instalación de sensores capaces de recoger datos de cualquier lugar de una ciudad. Es lo que tiene este nuevo paradigma del Big Data: recojamos datos, que luego ya nos encargamos de encontrar lógica alguna o inteligencia sobre los mismos. La eventual saturación del tráfico, volúmenes de ruido o contaminación excesivos, etc. son consecuencia de disponer de esta infraestructura.

Pero, ojo, no olvidemos que llenar una ciudad de sensores no la convertirá automáticamente en inteligente. Disponer de buenos datos ya comentamos era clave. Disponer de una buena infraestructura de datos, también. Pero una vez que disponemos de las herramientas, necesitamos otros elementos para que el proyecto sea realmente útil y provechoso:

  • Liderazgo: necesitamos de políticos y representantes que se crean el valor que aportan los datos, y lo pongan en el corazón de sus políticas. No solo necesitamos que lo cuenten en los discursos, sino también que haya políticas transformadoras sobre el análisis de datos que hayan hecho.
  • Habilidades analíticas y estratégicas: y claro, para que esos líderes tomen esas decisiones, las habilidades analíticas que deban incorporar en sus equipos se tornan fundamentales. Y convertir así, esos análisis de datos en toma de decisiones estratégicas.
  • Toma de decisiones: decidir. Hay veces que incluso es bueno decidir, para poner en marcha el «prueba y error» de toda la vida.

Las ciudades, se beneficiarán de esta era de los datos. Pero necesitamos líderes, habilidades analíticas y decisiones. Estos otros elementos menos divulgados harán que esto de las ciudades inteligentes sea una realidad.

Cuando los algoritmos se convierten en cajas negras

Les voy a recomendar un libro que me ha parecido realmente espectacular: «The Black Box Society: The Secret Algorithms That Control Money and Information«.

Fuente: Amazon
Fuente: Amazon

Empecemos por lo básico, definiendo qué son los algoritmos y por qué hablamos ahora de «cajas negras». Los algoritmos básicamente es lo que hacemos los informáticos cuando nos ponemos a crear una serie de reglas abstractas para transformar datos. Es decir, cogemos una fuente de información o datos, y dado que no está expresado ni representan aquello que queremos obtener, diseñaños y desarrollamos una serie de reglas que permiten encontrar, expresar y representar aquello que estábamos buscando.

Además, desde que hemos introducido el paradigma Big Data, los algoritmos también buscan, patrones, relaciones, etc. Dado que cada vez codificamos y automatizamos un mayor número de nuestras conductas, deseos, emociones, etc. en entornos digitales, producimos una mayor cantidad de datos. Y más interesante resulta para muchas industrias desarrollar algoritmos para encontrar inteligencia que transformar en negocio.

Por ello, hoy en día, tenemos muchos, muchísimos algoritmos. Además, cada vez más sofisticados. Junto con el hardware y las redes, constituyen los ejes clave sobre los que pivota esta transformación digital de muchas industrias. Estamos ya ante las máquinas más sofisticadas del planeta. Lo cual está muy bien: más seguridad, optimización de las rutas para evitar perder tiempo, frenos automáticos, etc. 100 millones de líneas de código incorporan los nuevos vehículos (frente a las 60 millones de líneas que tiene Facebook y las 5 millones de líneas que tiene el colisionador de hadrones, para que se hagan a la idea de la complejidad de la que habalmos). Estamos ante las primeras máquinas que están alcanzando los límites biológicos de la complejidad.

El problema, además de su complejidad, es que fueron concebidos por una serie de personas, que seguían algún objetivo, no siempre claro. La intencionalidad del ser humano es inherente a lo que hacemos. Actuamos en base a incentivos y deseos. Por lo tanto, la pregunta que nos solemos hacer cuando pensamos en las cajas negras de los algoritmos pasan por su reingeniería. Es decir, saber cuáles son las reglas que los gobiernan.

Algoritmos de caja negra (Fuente: https://es.wikipedia.org/wiki/Caja_negra_(sistemas)#/media/File:Blackbox3D.png)

Cuando no sabemos qué reglas son éstas, hablamos de algoritmos de «caja negra». No sabemos cómo funcionan, cuál es el criterio con el que lo hacen, con qué objetivos fueron concebidos, etc. Por ello, el libro que os recomendaba al comienzo, sugiere que comencemos a discutir también sobre el «accountability» o «escrutinio» de los algoritmos. En una era en la que las apuestas contras las divisas de los países, los coches o servicios públicos son autónomos, o personas o sistemas de Big Data que toman decisiones de sanidad son codificadas en algoritmos, no podemos esquivar esta conversación.

En este sentido, el libro de Pasquale, introduce la «Ética de la tecnología» bajo tres perspectivas que debieran ser consideras cuando construimos algoritmos:

  • Crítica deontológica: es decir, que los resultados a obtener deban satisfacer una serie de reglas, políticas, principios, etc.
  • Crítica teleológica: valorar las consecuencias de los resultados que obtienen esos algoritmos.
  • Crítica de valores: diseño que considera de manera explítica e implítica los valores compartidos en una sociedad global, además de a los propios stakeholders que perciben y usan el sistema como se pensaba en un comienzo.

Con estas tres miradas a incorporar cada vez que enfrentamos el diseño y desarrollo de un algoritmos, son varios los elementos a considerar para ser responsable en su concepción y sus posibles consecuencias. Especialmente, para el campo del Big Data:

  • Disponibilidad: que sea fácil de disponer, no solo  ya el propio código, sino también su funcionamiento.
  • Facilidad de mantenimiento: que no resulte difícil de mantener para una persona ajena al que diseñó y desarrolló el algoritmo.
  • Inteligibilidad: entendible para más personas que los que formaron el equipo de su creación.
  • Integridad del algoritmo: que se mantenga íntegro y no solo funcione para un conjunto de datos determinados.
  • Selección del modelo y atributos: que el modelo sea representativo de la realidad que quiere reflejar. Los atributos a seleccionar para su caracterización, también resultan críticos.
  • Integridad de los datos: lo que decíamos a nivel de algoritmo, también a nivel de datos. Que se mantengan íntegros y no sean susceptibles de modificaciones fáciles o ser demasiado volátiles.
  • Propiedad colectiva de los datos: que los datos no sean propiedad del que desarrolló el algoritmo; desacoplando esa propiedad, podríamos hablar de un compromiso social y global.
  • Sesgo de selección: ¿qué preguntas nos estamos haciendo a la hora de construir el algoritmo? No caer en la trampa de seleccionar solo las partes que más nos interesan o favorecen.

En el congreso Governing Algorithms, se trataron muchos de estos temas. Pero, además hablaron también de otra forma de diseñar y desarrollar algoritmos, con ejemplos como:

  • Sunlight Foundation: una organización que trabaja en la explotación de datos en el campo de la innovación social, el análisis de las facturas de gobiernos para encontrar relaciones o patrones, etc.
  • Enroll America: búsqueda de ciudadanos no asegurados de manera activa e inteligente para mejorar su bienestar.
  • Data Science for Social Good: una iniciativa de la Universidad de Chigado para formar «data scientist» en la construcción de algoritmos para la mejora del bienestar global.

Como toda herramienta, en su uso, dependerá su evaluación. Una evaluación, que como han visto, tampoco es sencilla. ¿Es ético un algoritmo? Depende de todos los factores arriba listado. Lo que sí parece claro es que cuando cogen una forma de «caja negra», suponen un riesgo global importante. Está en nuestras manos que el «accountability» sea efectivo, y no construyamos reglas que no satisfagan esas perspectivas de análisis citadas.

El fútbol y Big Data (Parte II)

(continuación de la entrada anterior)

En el artículo anterior, veíamos varias aplicaciones del cruce entre el fútbol y Big Data. Describíamos cómo podría aportar ventajas competitivas importantes, una vez que algunas limitaciones que ahora mismo existen pudieran desaparecer. El fútbol y Big Data se convertían así en un dúo que parece veremos con frecuencia en los próximos años.

Con todos estos datos, el entrenador puede tomar muchas decisiones, claro. Un análisis de las ventajas y debilidades actuales, analizar las amenazas de un rival (es un juego donde la interacción entre dos jugadores produce diferentes contextos), mayor aprovechamiento de oportunidades, diseño de estrategias de entrenamiento y competición personalizadas para cada jugador (y así evitar lesiones, puntos de fatiga y mejoras de rendimiento). En definitiva, poner la tecnología a funcionar y los datos a trabajar para tomar decisiones más acertadas.

Pero hay todavía más campos donde el fútbol y Big Data se están encontrando. Las compañías de apuestas, que tan fuerte han entrado en España desde la cultura británica (de ahí sus nombres), usan sofisticados modelos para optimizar las utilidades a obtener. Por ejemplo, William Hill usa datos de Opta Sports (uno de los mayoristas de datos que más os aconsejo), SkyBet emplea estos modelos y datos para las comunicaciones con sus clientes, etc. Por otro lado, los operadores «Daily Fantasy Sports«, también tan populares en otras latitudes, y que en España tienen su fiel reflejo en el famoso Comunio, hacen lo propio. De hecho, los mejores jugadores de este tipo de «juegos de fantasía», son verdaderos magos del uso de Big Data para sus decisiones y estrategias. Siempre me pregunto por qué no podrían dar el salto a un equipo profesional…. ¿quizás es que ningún club los esté «monitorizando»? 🙂

Por otro lado, y para ir terminando, uno podría preguntarse por el origen de los datos. Y esta, es una pregunta muy interesante, porque también se está produciendo mucho desarrollo en este área. Un ejercicio éste del fútbol y Big Data, en el que ven, hay mucha monitorización. Uno podría pensar que con datos estructurados y cuantitativos, el proyecto de análisis de datos se vuelve fácil. Bueno, en realidad no lo es tanto, dado que exige unos requisitos computacionales muy importantes, y, en segundo lugar, porque estos datos se enriquecen con otras fuentes normalmente (como encuestas sobre cómo han dormido, cómo se sienten, etc., así como datos climatológicos y contextuales del lugar, hora y espacio del encuentro, por ejemplo). Por lo tanto, estamos hablando de Big Data como paradigma y reto.

Todos estos dispositivos que ayudan a obtener datos de la actividad de los jugadores están dentro de la categoría de «Electronic Performance Tracking System» (EPTS). De hecho, la FIFA ya está trabajando en un estándar de los datos que estos dispositivos generan, dada la implosión de datos que se está produciendo. Hay productos como Adidas’ miCoach elite team systemCatapult Sports -focalizado en sistemas Global Navigation Satellite System (GNSS), que usan equipos como el Chelsea o el Real Madrid-, la Italiana MatricsChyronHego conocida por su tecnología de monitorización de futbolistas TRACABTechedge España -que ha diseñado una plataforma Big Data denominada Sportedge (patrones de juego, inteligencia, sinergias del equipo y reciprocidad en el juego)-, etc. Como ven, la tecnología de monitorización deportiva está en un buen momento.

Monitorización jugadores selección Argentina (Fuente: fifa.com)
Monitorización jugadores selección Argentina (Fuente: fifa.com)

Por cierto, para los que les guste mucho el fútbol o el deporte en general y el Big Data -como a mí, sí, no lo oculto-, les recomiendo encarecidamente la MIT Sloan Sports Analytics Conference, un evento anual en el que salen todo tipo de estrategias de análisis de datos y su aplicación a grandes y pequeños equipos. Este año ha sido su décima edición, y como siempre, he tenido mucho interés en seguir los «Research papers» que se han presentado. Ahí podrán ver cómo el Big Data impactará no solo en el fútbol, sino en el deporte en general, en los próximos años. Por ejemplo, el paper que ganó en 2012 el premio número 1, hoy en día es la empresa y servicio Second Spectrum, líder en análisis de datos de jugadores de la NBA.

Como ven, el fútbol y Big Data, un dúo con mucho desarrollo últimamente. Un campo, donde todavía hay mucho por hacer. Esperemos, eso sí, que tanto «determinismo» de las máquinas no termino con el humanismo que rodea al fútbol y las visiones y opiniones que tenemos todos nosotros de nuestro equipo de cabecera. La magia de lo imprevisible, algo intrínseco al juego, esperemos que siga ahí.

El fútbol y Big Data (Parte I)

Una de las áreas donde el Big Data está sonando cada vez con más fuerza es el fútbol. Dada la afición que existe por el deporte rey, es fácil que sea una pregunta recurrente. Más aún, si consideramos el fútbol como un juego en el que al intervenir tantas variables, las estrategias y decisiones a tomar, y el análisis de datos para que éstas sean lo más fundadas posible, se vuelve crítico.

Son muchas variables las que pueden intervenir: el estado de forma de los jugadores, los estilos de juego, la interacción entre las propias estrategias frente a las del rival, la combinación de los jugadores con sus propios estilos entre sí, su adecuación al estilo del entrenador, etc. Éstas hacen que la combinación estadística de todas ellas produzca muchos escenarios dignos de buen análisis. Tantos datos y tantas decisiones que poder tomar, en consecuencia, que voy a dividir esta entrada en dos partes, para no generar pereza en la lectura de una única larga entrada.

Empecemos con algo de contexto en esto del fútbol y Big Data. Recuerdo varias frases cuando Pep Guardiola llegó al Bayern de Munich, pero una en especial:

The match analysis department is the most important department for me.

Efectivamente, ahí tenéis a uno de los mejores entrenadores según Transfermarkt, confiando en disponer de un departamento de Analytics bien pegado a él que le ayude a analizar los muchos datos que genera su equipo y su juego. No solo él. El Arsenal de Arsene Wenger, utiliza también modelos estadísticos para ayudar en la gestión de la detección del talento. Incluso pagó 2 millones de libras para comprar una empresa -StatDNA-que se dedicaba a ello.

Por lo tanto, parece que el Big Data en el campo del fútbol tiene un amplio abanico de aplicaciones. Y eso que todavía no es posible lo que se conoce como «On in-game analytics-driven coaching«. Es decir, en fútbol, un entrenador no puede tomar decisiones sobre la estrategia del juego y cómo jugar/variar su estrategia, hasta el descanso, o antes o después del partido. A diferencia de una empresa, todavía no es posible las decisiones «en tiempo real». Y eso a pesar que los sistemas de monitorización de partidos actuales, son capaces de compilar entre 1.500 y 1.600 eventos por partido.

Fuente: http://news.sap.com/two-global-champions-join-forces/

A sabiendas que en los partidos hay mucho dispositivo prohibido (más allá de cámaras y sensores en estadios), pero que en los entrenamientos los jugadores llevan cada vez más tecnología (un sujetador deportivo -o cualquier otro wearables deportivos- en cada entrenamiento que consta de un monitor de pulsaciones, un acelerómetro y un sistema de geolocalización), podemos obtener explotaciones de datos como:

  • Análisis de patrones y tendencias en parámetros básicos: desempeño atlético (velocidad, aceleración), la posición de los jugadores y sus movimientos, la tenencia del balón, etc. Y, de esta manera, detectar los parámetros críticos de mejora en base a referencias de juego.
  • Modelos predictivos de juego, remate y gol: la empresa Oulala Games tiene un modelo matemático que, empleando datos de la empresa Opta (hablaremos de ella más adelante), permite a un club disponer de un sistema predictivo de los factores que llevan a obtener el mejor resultado de un jugador. Juegan con un total de 70 variables para obtener 275 posibles acciones a realizar con las que ganar o perder puntos.
  • Modelo de propensión a la lesión o fatiga: si un equipo es capaz de detectar los factores que mejor predicen una lesión, podrá evitarlos a futuro con un modelo que lo detecte con carácter preventivo. A más de un equipo, que a estas alturas ha rotado poco, le podría venir muy bien.
  • Análisis individual vs. global del equipo: no olvidemos que como juego de equipo que es, lo importante es el análisis global del equipo, en la estrategia global. Es lo que se ha bautizado como el «eventing», secuencias que miden los pases buenos, las pérdidas de balón, remates, goles, faltas, tarjetas, tenencia y similares, que permiten ver la contribución de cada jugador al equipo y viceversa. Esto, con grafos, ya se ha hecho en varias ocasiones para las selecciones y enfrentamientos clave (como la final del Mundia entre España y Holanda). De esta manera, la adecuación de jugadores a equipos y viceversa -como le encanta al Cholo Simeone-, resulta más fácil.
  • Simulación de jugadas y enfrentamientos: cruzando todo este conjunto de variables y datos de los que estamos reiteradamente hablando, un equipo puede disponer de un simulador de posibles jugadas y enfrentamientos, con los que afrontar de la mejor manera posible cada partido. La personalización del juego y el equipo en función del rival.
  • Valoración de jugadores en mercado: más allá de ejercicios «amateurs» como los que he podido hacer yo en el caso de Aymeric Laporte, aquí hay modelos realmente sofisticados. Como decíamos antes, el Arsenal dispone de una herramienta propia para ello. Y hay bastantes rumores que el acierto de Monchi en el Sevilla, se debe a lo mismo.
  • Factores Críticos de Éxito: una de mis historias preferidas en cuanto al análisis de factores de triunfo de un equipo es el de la selección Alemania de fútbol durante el Mundial. La actual campeona del mundo, implantó un sistema global de Big Data que le permitió tomar decisiones sobre qué factores eran los que la hacían producir mejores resultados. Se dieron cuenta que, por ejemplo, reducir el tiempo de posesión a poco más de un segundo (de los 3,5 segundos en los que estaba).
  • Detección de talento: en 2011, la película Moneyball narró la historia de Billy Beane, director técnico de un modesto equipo de beisbol que en 2001 empezó a utilizar la estadística para detectar jugadores poco valorados en mercado, pero con grandes probabilidades de hacer grandes cosas. Desde entonces, el fútbol se ha llenado de herramientas y bases de datos estadísticas como Opta Sports -que ya trabajar con el Sevilla, Valencia o FC Barcelona, entre otros- o Transfermarkt, que ponen a disposición de los clubes datos para hacer eso mismo. Supongo que ya lo estarán empleando, pero dada su sensibilidad y la ventaja competitiva que ganan, entiendo no lo divulgarán mucho.

(continuará)

El uso del Machine Learning en las entidades financieras

(Artículo de nuestro profesor Pedro Gómez Tejerina)

Las entidades financieras han sido las pioneras tradicionalmente en utilizar el Data Mining y Machine Learning (ML). Y lo han aplicado principalmente en el núcleo de su negocio, la financiación. Cuando un cliente quiere solicitar un préstamo, el banco le solicita una determinada información (edad, estado civil, nivel de ingresos, domicilio, etc). En realidad el banco lo que ha hecho internamente ha sido analizar los datos históricos de los préstamos que tiene concedidos e intentar determinar la probabidad de que un cliente con determinadas características pueda impagar ese préstamo (a través de modelos de Machine Learning). Es lo que se denomina un scoring, y es el primer requisito que requiere una entidad financiera para conceder un préstamo a un cliente, que pase ese modelo de scoring (es decir, que no tenga una gran probabilidad de impago según ese modelo estimado).

Pero hay otras muchas otras áreas dentro de un banco donde se utiliza el ML. Ya comentamos en otro artículo cómo los departamentos de Marketing hacen un proceso similar para intentar predecir qué clientes podrían contratar en un futuro cercano un nuevo producto. Son los denominados modelos de propensión y la lógica es parecida al caso anterior. Analizar los datos históricos de contrataciones de productos para buscar clientes “similares” a los que anteriormente ya contrataron esos productos. Los clientes más parecidos a los que en el pasado contrataron un producto son a priori los que más probabilidad tienen de contratarlos en el futuro. A esos serán a los siguientes a los que les ofrecerán las ofertas comerciales.

Pero esto del ML tiene muchas más aplicaciones en una entidad financiera. Por ejemplo intentar detectar automáticamente operaciones (bien sean de tarjetas de crédito o transferencias) fraudulentas para evitar disgustos a sus clientes. O intentar predecir el uso en fin de semana de los cajeros automáticos de las oficinas para asegurarse de que no se quedan sin efectivo cuando los clientes vayan a retirarlo. O incluso a nivel organizativo re-estructurar la localización de sus oficinas físicas para atender mejor a sus clientes a través del análisis de los datos de las visitas de los mismos a las oficinas. Y todo esto por no hablar de los motores de recomendación de inversión, que analizan rentabilidades históricas de los activos financieros para ofrecer recomendaciones de inversión personalizadas a los clientes según el apetito de riesgo que estos tengan.

Todos estos ejemplos son tan sólo una muestra de las aplicaciones que el mundo del Data Mining y Machine Learning tienen en una entidad financiera, pero como os podéis imaginar, hay muchos más. La tendencia actual es enriquecer estos modelos con otro tipo de datos (redes sociales, Open Data, datos no estructurados…) para mejorar su capacidad predictiva. Aquí es donde entra en juego el Big Data.

Fuente: https://www.coursera.org/course/compfinance
Fuente: https://www.coursera.org/course/compfinance

El Big Data en los Papeles de Panamá

No creo que a estas alturas, a usted, estimado lector de cualquier parte del mundo del que lea esto, le tenga que contar nada sobre los «Papeles de Panamá». Unos documentos filtrados, en el que se dice la mayor filtración periodística de toda la historia. En el contenido de los mismos se puede encontrar a personas de todo el mundo aprovechando los paraísos fiscales para ocultar su dinero en el pago de impuestos. Nada que la ética no pueda explicar por si sola les voy a contar.

Pero de lo que se ha hablado menos es de cómo se produce. Como quizás también sepan, todo se produce a partir de la extracción de unos documentos de dos sitios web de la empresa Mossack Fonseca: la web que sirve como descripción de sus servicios -un WordPress- y un portal interno de clientes donde se podía compartir información sensible de todos ellos -un Drupal-. Uno, lo primero que podría pensar s que entonces la «culpa» es de la falta de seguridad tecnológica. Y efectivamente, al parecer, la falta de actualización del portal interno y un plugin de WordPress habrían expuesto toda esa documentación.

Pero, una vez obtenidos los documentos, hay que analizarlos para extraer inteligencia de los mismos. Vamos, un proyecto de Big Data, en definitiva, porque la cantidad documental de la que estamos hablando es realmente grande (2.6 terabytes, y 11,5 millones de documentos -Wikileaks, para que se hagan a la idea, fueron 1,7 GB «solo»-). El Big Data en los Papeles de Panamá ha jugado un papel nuclear.

La escala de los
La escala de los «Papeles de Panamá» (Fuente: http://www.alternet.org/files/screen_shot_2016-04-04_at_12.01.06_pm.png)

Lo interesante del caso para la temática de este blog es la parte que viene después de la obtención de la «puerta de entrada a los datos». Un proyecto de Big Data, literal:

  • Fuentes de datos: la heterogeneidad -una de las famosas 5 Vs- de las fuentes de datos es muy importante: cinco millones de emails, tres millones de ficheros de bases de datos, dos millones de PDFs, un millón de imágenes, más de 320.000 documentos de texto y 2.242 archivos de otro tipo no clasificados. Un reto de extracción de las fuentes de datos importante.
  • Integración de datos: para poder procesar esta heterogeneidad de las fuentes de datos, es preciso integrar todos estos datos en un mismo modelo de datos. Y claro, mientras hay documentos medianamente sencillos para ello (las bases de datos o los documentos de texto e emails por ejemplo -gracias a tecnologías de procesamiento de lenguaje natural-), tenemos también grandes retos como los PDF y las imágenes: deben primero pasarse a un formato de caracteres para luego poder disponerse para su explotación. Ya hablamos en este blog de la aportacióin de las herramientas ETL en ello.
  • Gestión de la calidad de los datos: hay que tener en cuenta que como «filtración» que es, los datos, obviamente, no están preparados para su explotación. Entre el mar de datos, muchos son totalmente irrelevantes y no hacen más que aportar una mala calidad a los datos de entrada. Esto, ya dijimos, era crítico de solucionar ex-ante.
  • Procesamiento de los datos para la extracción de inteligencia: una vez que los datos están preparados, se deben procesar, en este caso, buscando relaciones entre entidades y acciones. Para ello, estructurar anteriormente la información de una manera que permita navegar entre la información de manera ágil y eficiente, resulta clave. Y por ello, se procesó la información estructurada en grafas, que además de tener un buen rendimiento, permite extraer mucha inteligencia. Ya hablamos de ello.
  • Visualización de datos, obtención de inteligencia: la visualización analítica, eficiente e inteligente de datos es la que permite sacar conclusiones y tomar decisiones de manera ágil.  También lo comentamos. Para ello, es preciso visualizar los datos de una manera apropiada para obtener inteligencia de los mismos.
  • Y por debajo de todas estas etapas, una infraestructura tecnológica realmente potente: para poder hacerlo a una velocidad medianamente razonable se emplearon hasta 30 servidores en paralelo. Y, sobre estos servidores, mucho software de «Big Data», tal y como detalló Mar Cabra -responsable del área de Investigación y Datos del consorcio de periodistas ICIJ, que estaba a la cabeza de esta investigación. Incluye una lista de Software Libre y también propietario, que cedieron licencias por la causa, que ha sido adaptado por el propio consorcio para sus labores de Investigación.
    • Neo4j, tecnología que vemos en nuestro Programa de Big Data y Business Intelligence, fue la base datos de nueva generación (ya hablé de ella en otro artículo), donde se almacenaron las relaciones y coincidencias entre los documentos. Esta tecología, como ya expliqué, permite modelar la información a partir de conexiones entre entidades,  lo cual facilita mucho poder luego estudiar estos flujos de datos para detectar e inferir conocimiento. Aquí lo describe la propia empresa.
    • Nuix, un software de gestión documental, que permite indexar y categorizar información rápida y ágilmente. Aquí la noticia de ellos mismos hablando sobre el caso.
    • Con Apache Solr y Apache Tika, se puso a disposición de la búsqueda y recuperación la información contenida en los documentos de manera centralizada. Es la parte más relacionada con la integración de datos. Aquí explicado.
    • Linkurious,  la herramienta para trazar y visualizar los vínculos de la documentación obtenida por temas y sujetos de investigación. Aquí lo describen ellos mismos.

Obviamente, como solemos decir, la tecnología, por muy buena que sea, no descubre por sí sola. Por un lado, alguien debe hacerle las preguntas más acertadas, y en segundo lugar, alguien tiene que entender los resultados que nos devuelve. Ahí está la formidable labor realizada por los periodistas. Sin conocer el contexto bien, es difícil hacer un proyecto de Big Data de este calibre. Por ello, el futuro del periodismo con un importante soporte en datos y tecnologías que le permita acelerar su proceso de investigación se me antoja cada vez más cercano.

El «Big Data», como paradigma habilitante que es, permite cambiar las reglas de juego de diferentes sectores de actividad. En este caso, hemos visto cómo ayudó al caso de los «Papeles de Panamá». Y es que este método de trabajo que hemos visto (extracción, integración, depuración, procesamiento y visualización), con el apoyo de las mejores tecnologías para ello, ha venido para quedarse. El Big Data en los papeles de Panamá ha sido un paradigma muy habilitante.

La privacidad en la era del Big Data

La nueva economía digital se enmarca en una era en la que mucha gente piensa que lo que hacemos en Internet, lo que usamos, en muchas ocasiones, es gratis. Los economistas suelen decir eso de que «nada es gratis«. Obviamente, algo o alguien tiene que pagar los servicios y productos que consumimos. Y esos, son los datos.

Hace unos años, comprábamos un GPS que nos costaba entre 200 y 300 € (mínimo). Hoy en día tenemos Google Maps y Waze. No nos cuesta nada poder usarlo, salvo la conexión a Internet… y los datos personales de por dónde nos desplazamos que es lo que les cedemos a cambio. No sé si alguna vez han probado a introducir en su navegador maps.google.com/locationhistory. A mí me sale esto (fijaros que incluso infiere donde trabajo y donde resido, que es el área que he difuminado):

Historial de localizaciones en Google Maps (Fuente: elaboración propia a partir de Google Maps)
Historial de localizaciones en Google Maps (Fuente: elaboración propia a partir de Google Maps)

Esto no es exclusivo de Google. Prueben en su dispositivo móvil. Por ejemplo, los que tienen un iPhone. Vayan en Ajustes, a Privacidad, luego a Servicios de Localización, y abajo del todo, les aparecerá un menú titulado «Servicios del sistema«. Miren cuántas cosas salen ahí… incluso el menú «Localizaciones frecuentes«.

Estos datos se los cedemos a cambio de un servicio, que, no me negarán, es bastante útil, nos ofrece una funcionalidad mejorada. Pero, también, en muchas ocasiones, se lo venden a terceros. Y puede entenderse; al final, de una manera más o menos clara, ya sabemos que Google lo hará, y además, deberá monetizar la gigantesca inversión que hacen para que podamos usar Google Maps apropiadamente.

¿Es esto bueno o malo? Responder esta pregunta siempre es complicado. Por eso a mí me gusta más responder en clave de costes y beneficios. Nada es gratis, como decía antes. Para obtener un determinado beneficio, tenemos que asumir un coste. Si el beneficio no compensa el coste que nos genera ceder los datos históricos de localización, entonces es un servicio que no debiéramos tener activado. Siempre se puede desactivar o comprar servicios de «anonimización» como www.anonymizer.com, que por menos de 100 dólares al año, nos permite anonimizar nuestro uso de servicios.

El caso del FBI vs. Apple ha abierto una nueva discusión en torno a la protección de la privacidad. Un dilema ético difícil de dirimir. ¿Tiene una empresa privada -Apple- que dar los datos de un usuario porque el interés público general -FBI- así lo requiere para la seguridad de los ciudadanos? Apple, de hecho, antepone la seguridad de sus usuarios, como si fuera un país más defendiendo sus intereses (con el tamaño que tiene, literalmente, como «si fuera un país»).

Este tipo de situaciones nos ha solido llevar a la creencia que el «Gran Hermano» de los gobiernos era un problema que no podíamos dejar crecer. Sin embargo, no sé si estoy muy de acuerdo con esta visión de que el «Gran Hermano» son los gobiernos. Me parece que incluso en muchos casos son proyectos «Small Data«. En la mayoría de los casos, los gobiernos, los ministerios del interio, no se fijan más que en metadatos en muchos casos de unos usuarios concretos, los que guardan una mayor probabilidad de cometer algún delito, por ejemplo. Como suelo contar cuando me preguntan por ello: «No creo que Obama tenga tiempo de leer mis documentos en Google Drive«.

El «Big Data» y donde realmente sí tienen muchos datos nuestros, es en el mundo de la empresa. En esta era digital donde dejamos traza de todo lo que hacemos (búsquedas, compras, conducciones, lecturas, etc.), alguien guarda y emplea esos datos. Y suelen ser empresas privadas. Y esto sí que debe ser de preocupación por todos nosotros. Y sí que debe ser algo que desde los gobiernos debiera «controlarse». O por lo menos, certificar su buen tratamiento. 

Sin embargo, tengo la sensación la gente ignora que esto es así. En un paper de 2013 de los economistas Savage y Waldman titulado «The Value of Online Privacy«, sugerían que los humanos estamos dispuestos a pagar porque nuestros datos no sean recopilados por las apps. Es decir, lo decimos, pero luego no nos preocupamos por ello. ¿Pereza? ¿Dificultad? ¿Ignorancia? Por otro lado, nos contradecimos. En el paper «The value of privacy in Web search«, solo el 16% de los que participaron en la encuestas estarían dispuestos a pagar porque su navegación en la web fuera totalmente privada. En un reciente paper de dos investigadores de la Universidad de Chicago titulado «Is Privacy Policy Language Irrelevant to Consumers?«,  aparece como solo una pequeña fracción de usuarios está dispuesta a pagar 15 dólares para detener la invasión de privacidad.

Todo esto, como ven, está generando muchas interrogantes y dilemas no siempre fáciles de responder. Esta nueva economía digital en la que pagamos con datos personales el uso de productos y servicios, ha hecho que los gobiernos -quizás tarde- comiencen a regular algunas cuestiones. La FCC -Federal Communications Commission o Comisión Federal de Comunicaciones-, ha estado trabajando hasta estos días en nuevas reglas que pone pequeños obstáculos a este uso de datos. Si bien solo aplica a las compañías de telecomunicaciones, no a las de Internet.

Entiendo que veremos muchos casos de demandas una vez que la gente comience a darse cuenta de muchas de estas cuestiones. Es solo cuestión de que como en los papers que antes comentábamos, la gente se vaya dando cuenta de ello, y lo considere un derecho fundamental. Ahí, y sin pagos por medio, entiendo que las personas sí que se mostrarían más conservadoras y garantes de su privacidad a la hora de ceder sus datos. Ya estamos viendo casos. Uno en el que se demandaba a Google por la lectura de emails que hace con Gmail (hubiera expuesto a Google a una multa de 9 billones de dólares), el software de reconocimiento facial que emplea Facebook y otros, que al parecer atentan contra las leyes estatales de Illinois. A sabiendas que la ley castiga con 5.000 dólares por violación de la privacidad, podría Facebook que tener que hacer frente a 30.000 millones de dólares de multa.

En esta economía digital, nuestra privacidad, los datos que generamos en el día a día son la nueva divisa. ¿Somos conscientes de ello? ¿Pagaríamos porque dejara de ser así? ¿El beneficio compensa el coste? Cuestiones interesantes que en los próximos años generarán casos y sentencias. La privacidad, otro elemento más que en la era del Big Data se ve alterado.

R vs. Python para el análisis de datos en proyectos de Big Data

Cuando abrimos este blog, dedicamos una entrada a comparar diferentes herramientas analíticas. En su día, hablamos de SAS, R y Python, mostrando la experiencia que tenía en el manejo de las tres de nuestro profesor Pedro Gómez. Desde entonces, han aparecido varias noticias y reflexiones comparando especialmente dos de ellas: R y Python. DataCamp publicó hace unos meses la infografía que ponemos al final de este artículo comparando ambas.

El análisis de datos, obviamente, es una parte nuclear de cualquier proyecto de Big Data. El análisis de los diferentes flujos de datos y su combinación para obtener nuevos patrones, tendencias, estructuras, etc. se puede realizar con diferentes herramientas y lenguajes de programación. La elección de estas últimas es una cuestión en muchas ocasiones de gustos, de preferencias, pero también en otras ocasiones, objeto de detallados análisis.

La infografía que hoy nos acompaña agrega múltiples fuentes que comparan R y Python. Por eso mismo, nos ha resultado interesante para compartir con vosotros. Compara ambos lenguajes desde una perspectiva de la Ciencia de Datos, o Data Science, disciplina que ya describimos en una entrada anterior.  Las debilidades y fortalezas que se muestran, así como sus ventajas y desventajas, puede ayudaros a la hora de seleccionar el mejor lenguaje de programación para vuestro problema dado. Y es que, como solemos decir, cada proyecto, cada problema, cada contexto de empresa, es diferente, por lo que dar sugerencias absolutas suele resultar complicado.

Dado que suele ser un factor bastante determinante, de entre las múltiples características para la toma de decisión, cabe destacar que ambos lenguajes gozan de una amplia comunidad de desarrollo. En este sentido, ninguna diferencia. Quizás lo que mejor caracteriza a cada uno de los lenguajes, es la frase que destacan los que elaboraran la infografía:

Python is often praised for being a general-purpose language with an easy-to-understand syntax and R’s functionality is developed with statisticians in mind, thereby giving it field-specific advantages such as great features for data visualization”

Os dejamos con la infografía para que podáis por vuestra seguir conociendo mejor cada uno de los dos: R vs. Python o Python vs. R. Seguiremos de cerca la evolución de ambos.

El Machine Learning en la era del Big Data

El Machine Learning o «Aprendizaje automático» es un área que lleva con nosotros ya unos cuantos años. Básicamente, el objetivo de este campo de la Inteligence Artificial, es que los algoritmos, las reglas de codificación de nuestros objetivos de resolución de un problema, aprendan por si solos. De ahí lo de «aprendizaje automático». Es decir, que los propios algoritmos generalicen conocimiento y lo induzcan a partir de los comportamientos que van observando.

Para que su aprendizaje sea bueno, preciso y efectivo, necesitan datos. Cuantos más, mejor. De ahí que cuando irrumpe el Big Data (este nuevo paradigma de grandes cantidades de datos) el Machine Learning se empezase a frotar las manos en cuanto al futuro que le esperaba. Los patrones, tendencias e interrelaciones entre las variables que el algoritmo de Machine Learning observa, se pueden ahora obtener con una mayor precisión gracias a la disponibilidad de datos.

¿Y qué permiten hacer estos algoritmos de Machine Learning? Muchas cosas. A mí me gusta mucho esta «chuleta» que elaboraron los compañeros del blog Peekaboo. Esta chuleta nos ayuda, a través de un workflow, a seleccionar el mejor método de resolución del problema que tengamos: clasificar, relacionar variables, agrupar nuestros registros por comportamientos, reducir la dimensionalidad, etc. Ya veis, como comentábamos en la entrada anterior, que la estadística está omnipresente.

«Chuleta» de algoritmos de Machine Learning (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Estas técnicas llevan con nosotros varias décadas ya. Siempre han resultado muy útiles para obtener conocimiento, ayudar a tomar decisiones en el mundo de los negocios, etc. Su uso siempre ha estado más focalizado en industrias con grandes disponibilidades de datos. Por ejemplo, el sector BFSI (Banking, Financial services and Insurance) siempre han considerado los datos como un activo crítico de la empresa (como se generalizó posteriormente en 2011 a partir del Foro de Davos). Y siempre ha sido un sector donde el Machine Learning ha tenido mucho peso.

Pero, con el auge de la Internet Social y las grandes empresas tecnológicas que generan datos a un gran volumen, velocidad y variedad (Google, Amazon, etc.), esto se generaliza a otros sectores. El uso del Big Data se empieza a generalizar, y el Machine Learning sufre una especie de «renacimiento».

Ahora, se convierten en pieza clave del día a día de muchas compañías, que ven cómo el gran volumen de datos además, les ayuda a obtener más valor de la forma de trabajar que tienen. En la siguiente ilustración que nos genera Google Trends sobre el volumen de búsqueda de ambos términos se puede observar cómo el «Machine Learning» se ve iluminado de nuevo cuando el Big Data entra en el «mainstream»(a partir de 2011 especialmente).

Búsquedas de Big Data y Machine Learning (Fuente: Google Trends)
Búsquedas de Big Data y Machine Learning (Fuente: Google Trends)

¿Y por qué le ha venido tan bien al Machine Learning el Big Data? Básicamente porque como la palabra «aprendizaje» viene a ilustrar, los algoritmos necesitan de datos, primero para aprender, y segundo para obtener resultados. Cuando los datos eran limitadas, corríamos el peligro de sufrir problemas de «underfitting«. Es decir, de entrenar poco al modelo, y que éste perdiera precisión. Y, si utilizábamos todos los datos para entrenar al modelo, nos podría pasar lo contrario, problemas de «overfitting«, que entonces nos generaría modelos demasiado ajustados a la muestra, y quizás, poco generalizables a otros casos.

El entrenamiento del modelo con datos y los problemas de
El entrenamiento del modelo con datos y los problemas de «underfitting» y «overfitting» (Fuente: http://i.stack.imgur.com/0NbOY.png)

Este problema con el Big Data desaparece. Tenemos tantos datos, que no nos debe preocupar el equilibrio entre «datos de entrenamiento» y «datos para testar y probar el modelo y su eficiencia/precisión«. La optimización del rendimiento del modelo (el «Just Right» de la gráfica anterior) ahora se puede elegir con mayor flexibilidad, dado que podemos disponer de datos para llegar a ese punto de equilibrio.

Con este panorama de eficientes algoritmos (Machine Learning) y mucha materia prima para que éstos funcionen bien (Big Data), entenderán por qué no solo hay muchos sectores de actividad donde las oportunidades son ahora muy prometedoras (la sección «Rethinking industries» de la siguiente gráfica), sino también para el desarrollo tecnológico y empresarial, es una era, esta del Big Data, muy interesante y de valor.

El panorama de la inteligencia de las máquinas (Fuente: http://blogs-images.forbes.com/anthonykosner/files/2014/12/shivon-zilis-Machine_Intelligence_Landscape_12-10-2014.jpg)
El panorama de la inteligencia de las máquinas (Fuente: http://blogs-images.forbes.com/anthonykosner/files/2014/12/shivon-zilis-Machine_Intelligence_Landscape_12-10-2014.jpg)

En los últimos años hemos visto mucho desarrollo en lo que a tecnología de Bases de Datos se refiere. Las compañías disponen de muchos datos internos, que se complementan muy bien con los externos de la «Internet Social». Así, el Machine Learning, nos acompañará durante los próximos años para sacarle valor a los mismos.

¿Qué hace un «Científico de datos» y por qué es una profesión tan sexy?

Mucho se ha escrito la que aparentemente va a ser la profesión más sexy del Siglo XXI. Más allá de titulares tan rimbonbantes (digo yo, que quedan muchas cosas todavía que inventar y hacer en este siglo :-), lo que viene a expresar esa idea es la importancia que va a tener un científico de datos en una era de datos ubicuos, coste de almacenamiento, procesamiento y transporte prácticamente cero y de constante digitalización. La práctica moderna del análisis de datos, lo que popularmente y muchas veces erróneamente se conoce como «Big Data», se asienta sobre lo que es la «Ciencia del Dato» o «Data Science».

En 2012, Davenport y Patil escribían un influyente artículo en la Harvard Business Review en la que exponían que el científico de datos era la profesión más sexy del Siglo XXI. Un profesional que combinando conocimientos de matemáticas, estadística y programación, se encarga de analizar los grandes volúmenes de datos. A diferencia de la estadística tradicional que utilizaba muestras, el científico de datos aplica sus conocimientos estadísticos para resolver problemas de negocio aplicando las nuevas tecnologías, que permiten realizar cálculos que hasta ahora no se podían realizar.

Y va ganando en popularidad en los últimos años debido sobre todo al desarrollo de la parte más tecnológica. Las tecnologías de Big Data empiezan a posibilitar que las empresas las adopten y empiecen a poner en valor el análisis de datos en su día a día. Pero, ahí, es cuando se dan cuenta que necesitan algo más que tecnología. La estadística para la construcción de modelos analíticos, las matemáticas para la formulación de los problemas y su expresión codificada para las máquinas, y, el conocimiento de dominio (saber del área funcional de la empresa que lo quiere adoptar, el sector de actividad económica, etc. etc.), se tornan igualmente fundamentales.

Pero, si esto es tan sexy ¿qué hace el científico de datos? Y sobre todo, ¿qué tiene que ver esto con el Big Data y el Business Intelligence? Para responder a ello, me gusta siempre referenciar en los cursos y conferencias la representación en formato de diagrama de Venn que hizo Drew Conway en 2010:

Diagrama de Venn del
Diagrama de Venn del «Científico de datos» (Fuente: Drew Conway)

Como se puede apreciar, se trata de una agregación de tres disciplinas que se deben entender bien en este nuevo paradigma que ha traído el Big Data:

  • «Hacking skills» o «competencias digitales con pensamiento computacional«: sé que al traducirlo al Español, pierdo mucho del significado de lo que expresa las «Hacking Skills». Pero creo que se entiende bien también lo que quieren decir las «competencias digitales». Estamos en una época en la que constante «algoritmización» de lo que nos rodea, el pensamiento computacional que ya hay países que han metido desde preescolar, haga que las competencias digitales no pasen solo por «saber de Ofimática» o de «sistemas de información». Esto va más de tener ese mirada hacia lo que los ordenadores hacen, cómo procesan datos y cómo los utilizan para obtener conclusiones. Yo a esto lo llamo «Pensamiento computacional», como una (mala) traducción de «Computation thinking», que junto con las competencias digitales (entender lo que hacen las herramientas digitales y ponerlo en práctica), me parecen fundamentales.
  • Estadística y matemáticas: en primer lugar, la estadística, que es una herramienta crítica para la resolución de problemas. Nos dota de unos instrumentos de trabajo de enorme valor para los que trabajamos con problemas de la empresa. Y las matemáticas, ay, qué decir de la ciencia formal por antonomasía, la que siguiendo razonamientos lógicos, nos permite estudiar propiedades y relaciones entre las variables que formarán parte de nuestro problema. Si bien las matemáticas se la ha venido a conocer como la ciencia exacta, en la estadística, nos gusta más jugar con intervalos de confianza  y la incertidumbre. Pero, por sus propias particularidades, se nutren mutuamente, y hace que para construir modelos analíticos que permitan resolver los problemas que las empresas y organizaciones nos planteen, necesitemos ambas dos.
  • Conocimiento del dominio: para poder diseñar y desarrollar la aplicación del análisis masivo de datos a diferentes casos de uso y aplicación, es necesario conocer el contexto. Los problemas se deben plantear acorde a estas características. Como siempre digo, esto del Big Data es más una cuestión de plantar bien los problemas que otra cosa, por lo que saber hacer las preguntas correctas con las personas que bien conocen el dominio de aplicación es fundamental. Por esto me suelo a referir a «que hay tantos proyectos de Big Data como empresas».  Cada proyecto es un mundo, por lo que cuando alguien te cuente su proyecto, luego relativízalo a tus necesidades 😉

Estas tres cuestiones (informática y computación, métodos estadísticos y áreas de aplicación/dominio), también fueron citadas por William S. Cleveland en 2001 en su artículo «Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics«. Por lo tanto, no es una concepción nueva.

Este Diagrama de Venn ha ido evolucionando mucho. Uno de los que más me gustan es éste, que integra las ciencias sociales. Nuestro Programa Experto en Análisis, Investigación y Comunicación de Datos precisamente busca ese enfoque.

La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)
La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)