El MIT creará una facultad de Inteligencia Artificial

Dos noticias de estos últimos días han llamado mi atención. Por un lado, hemos sabido que en el Instituto de Tecnología de California (Caltech) la asignatura con mayor número de estudiantes, a pesar de ser optativa, vuelve a ser Machine Learning. Los estudiantes provienen de 23 diferentes especializaciones (fiel a la tradición americana de elección de asignaturas a lo largo de la carrera de especialización).  Aquí el tweet que lo cuenta:

Por otro lado, y de bastante más envergadura, el MIT anuncia que va a crear una nueva facultad para trabajar la Inteligencia Artificial (IA). Un total de 1.000 millones de dólares serán invertidos. Tiene sentido que sea el MIT nuevamente, que ya tuvo mucho que ver en el nacimiento de esta disciplina que trata de desarrollar métodos que aprendan del comportamiento de los datos para luego poder generalizar. Es ya la mayor inversión realizada hasta la fecha por una institución académica en el campo de la IA.

MIT has just announced a 1 billion plan to create a new college for AI MIT Technology Review
MIT has just announced a 1 billion plan to create a new college for AI (Fuente: MIT Technology Review)

Como se puede leer en la noticia, el MIT está diseñando la facultad mezclando inteligencia artificial, machine learning (métodos de aprendizaje sobre datos) y la propia ciencia de datos. Pero, no se quedará ahí, dado que pretende mezclarlo con otras áreas de conocimiento. Me han resultado especialmente reveladoras las palabras pronunciadas por el Rector del MIT, Rafael Reif, al hacer el anuncio:

“Computing is no longer the domain of the experts alone,”

“It’s everywhere, and it needs to be understood and mastered by almost everyone.”

De nuevo, la misma idea expresada anteriormente: los datos están transformando el mundo y sus diferentes contextos, por lo que se vuelve necesario conocer las principales técnicas para poder hacer uso de la capacidad organizativa, transformadora y de soporte que traen los métodos de gestión basados en modelos analíticos. Como dice el Rector, no es un campo propio solo de la ingeniería o la informática, sino que empieza llegar a nuevos terrenos. La inteligencia artificial, con la llegada de los grandes volúmenes de datos, ha vuelto a escena para transformar el mundo.

Otro de los aspectos reseñables de este anuncio es que introducirán la ética en sus programas de estudio. Entender el potencial impacto que tienen estos modelos inteligentes sobre los diferentes planos de la sociedad es importante. Especialmente, para los que adquirirán esas capacidades de transformación. No solo en política, sino en salud, educación, servicios sociales, etc., puede tener un impacto donde la ética no quede bien parada si no queda explícitamente reflejada. Los humanos creamos la tecnología, por lo que debemos enseñar que a la hora de hacerlo, nuestros sesgos y prejuicios debemos dejarlos de lado y hacer tecnología neutra o bien compensada.

Esto último ha vuelto a salir a escena estos días con la noticia en la que conocíamos que el algoritmo que Amazon usaba para seleccionar a sus trabajadores y trabajadoras discriminaba a las mujeres. Tarde, pero Amazon ya ha prescindido de él. Este lamentable hecho), no pensemos que existe sólo contra las mujeres y en el contexto laboral. Se pueden dar en cualquier espacio que tenga esos sesgos en el mundo real, como bien explicaba este artículo de Bloomberg.

Hace unos meses escribí un artículo sobre los movimientos que se estaban dando en diferentes países para el diseño y la creación de Ministerios de Inteligencia Artificial.  Vemos como otro de los agentes sociales más relevantes para entender las consecuencias de las máquinas inteligentes, las universidades, también se están moviendo. Es interesante seguir esta tendencia para saber hasta dónde podremos llegar. ¿Veremos estas tendencias pronto por Europa?

Como dije en ese artículo:

La intencionalidad del ser humano es inherente a lo que hacemos. Actuamos en base a incentivos y deseos. Disponer de tecnologías que permiten hacer de manera automatizada un razonamiento como sujetos morales (simulando a un humano), sin que esto esté de alguna manera regulado, al menos, genera dudas. Máxime, cuando las reglas que gobiernan esos razonamientos, no las conocemos.

Velocidad, motores y big data: Evolución y retos en la Fórmula 1

Myriam Abuin Lahidalga*

El Mundial de fútbol acaba de comenzar y con él la recopilación de grandes cantidades de datos sobre pases, faltas, estrategias y rendimiento de cada jugador. Desde 2015 las distintas selecciones han comenzado a utilizar la tecnología incorporando sensores en las camisetas de entrenamiento para recabar datos que, convenientemente interpretados, sirven para encontrar la alineación ganadora o la mejora táctica del equipo.

Pero el uso de los big data no es nuevo en el deporte. Diseñadores y escuderías de Fórmula 1 llevan aplicándola desde la década de los 80. Se trataba de los primeros pasos de la telemetría aplicada al deporte. Los sensores distribuidos a lo largo de todo el monoplaza permiten testar en tiempo real las condiciones del vehículo y pilotaje, y calcular en tiempo real cómo conseguir ventaja frente a los rivales sin detenerse en boxes. Una operación que requiere no sólo un piloto experto, sino una tecnología capaz de gestionar esa ingente cantidad de datos. Pero ¿cómo funciona?

KIONetworks_F1_BigData

Los circuitos son espacios abiertos, diseñados en parte para minimizar los riesgos cuando se conduce a 300 kilómetros por hora y en parte para liberar de obstáculos las transmisiones de microondas (de radio) necesarias para poner en contacto el equipo con la pista. Sin embargo, algunos de ellos poseen trazados urbanos, como Mónaco o Monza, con túneles, edificios y barreras urbanas que dificultan la propagación de datos. La solución fue dotar a las pistas de un sistema parecido al de la telefonía móvil, garantizando la cobertura con un mínimo retraso de un milisegundo en la recepción. De esta manera los ingenieros de carrera pueden detectar cualquier anomalía, informar al piloto y tomar una decisión inmediata.

Hoy en día, cada monoplaza cuenta con unos doscientos sensores que envían información precisa sobre cuántas veces se acelera o se pisa el freno, cómo está el nivel de combustible o cuál es el desgaste de los neumáticos. Son datos cruciales para planificar una parada técnica que reste los menos segundos posibles a la posición del piloto en la carrera. Todo ello se recoge en un receptor/emisor, aparato que realiza ambas funciones y que además encripta la información recibida, enviándola luego a dos pequeñas antenas situadas en la parte delantera y trasera del monoplaza. A su vez, éstas remiten a un servidor.

sport-f1-wheel-16x9.jpg.rendition.intel.web.1280.720

Cada circuito cuenta con una zona reservada para cada escudería. No se trata sólo de las salas a pie de pista donde trabajan los mecánicos del equipo, sino de un amplio aparcamiento de camiones en el que se alinean varios remolques con antenas exteriores. Allí está el corazón del sistema: la sala de telemetría. Un potente servidor desencripta los datos recibidos y los prepara para que los ingenieros de cada escudería puedan gestionarlos en forma de gráficos monitorizados en varias pantallas. De este modo pueden contactar con el muro de boxes, donde están los directores de carrera y los mecánicos, en un envío mutuo de información que mejore sus opciones en tiempo real.

Pero la interpretación de esos datos no sólo sirve para mejorar la conducción o variar la estrategia en función de las circunstancias de la carrera, sino también es útil a los ingenieros de diseño, probadores de coches y a los propios pilotos. Estos últimos tienen así una visión precisa de sus errores y posibilidades de mejorar su conducción. Pero ¿cómo convertir todos esos datos en un equipo ganador?

Picture1

Cada temporada las escuderías pasan muchos meses diseñando los nuevos coches. Aerodinámica, modelos matemáticos, ensayos  de los prototipos en el túnel de viento… Pero la teoría no ofrece una exacta simulación de la realidad. Se necesita que el coche ruede por una pista, y tener un circuito de pruebas no está al alcance de todos los equipos. Por ello, los datos recogidos en cada gran premio son estudiados, seleccionados cuidadosamente y volcados en un ordenador que simulará el comportamiento de las piezas y comprobará la validez del nuevo diseño. Es evidente que la información en sí misma no es suficiente, pero sí puede ayudar a corregir hábitos de conducción y observar desde fuera de la pista cómo se comportará el coche en determinadas circunstancias. Por tanto, aquel equipo que sepa interpretar mejor los datos de las simulaciones tendrá muchas más posibilidades de éxito.

Además, los pilotos no tienen por qué probar físicamente el nuevo monoplaza, sino que pueden hacerlo en un simulador parecido al usado en los videojuegos de conducción. Habitualmente consiste en un sillón y una pantalla de ordenador, pero Mercedes y Ferrari construyeron una esfera montada sobre soportes hidráulicos en la que se pueden testar todas las condiciones y todos los circuitos. Otras, como Red Bull, contratan a jugadores de videojuegos para ponerse a los mandos del simulador y dejar a sus pilotos sólo las instrucciones precisas para cada carrera.

Apoyar cada decisión sobre los datos para predecir el comportamiento de los rivales o las condiciones de la carrera no es suficiente, aunque innegablemente importante. Francisco Gago, director de tecnologías digitales de la plataforma de gestión de datos Minsait de Indra, cree que los datos no ofrecen soluciones irrefutables. Y durante los últimos años se ha comprobado que es como dice. En 2010, por ejemplo, durante el Campeonato de Abu Dabi, Ferrari se tomó demasiado en serio los datos recogidos y señaló a Webber como su principal rival, haciendo caso omiso de Vettel, pero fue Vettel quien finalmente ganó la carrera. Esto se debe a que las principales variables presentes en el análisis son escasas, dado que incluyen los neumáticos, el nivel de combustible y las paradas en boxes. En el Campeonato de China de 2016, un error en el pronóstico con respecto a la temperatura de la pista hizo que Ferrari seleccionara neumáticos blandos, lo que le costó la carrera cuando se enfrentaron a los neumáticos medio duros montados por Mercedes.

Sin título

Una de las causas de estas fallas es, en primer lugar, aceptar los resultados de los algoritmos sin cuestionamiento, sin contrastarlos con las voces autorizadas en Fórmula 1. Otra razón es que cualquier imprecisión en el software de procesamiento de datos o en la cadena de transmisión, por pequeña que sea, puede tener un efecto negativo en la estrategia. La tercera y última razón es porque las variables no se contrastan y amplían con otra información. El análisis predictivo basado en big data funciona con información pasada y presente, algo que da un porcentaje de probabilidad, pero no de certeza. Dar a los algoritmos la misma fuerza que los abogados otorgan a las leyes impide que la propia experiencia y criterio del piloto (más las variables que no se tienen en cuenta) brille a la luz del pronóstico dado por los datos.

* Myriam Abuin Lahidalga es alumna del grado de Derecho y Relaciones Internacionales de Deusto. Este post está basado en su trabajo para  Media in International Relations.

El perfil laboral ‘de moda’: el de analista de datos

Esta es la versión completa de una entrevista con Miren Gutiérrez, Directora del Programa de Comunciación de Datos, con David  García-Maroto (@David4210) en El Independiente publicada hoy.

Estoy elaborando un reportaje sobre el perfil laboral ‘de moda’, el de analista de datos.  Quería saber con detalle en qué consiste..

Es el o la especialista en los procesos de obtención, limpieza y análisis, y a veces visualización, de datos utilizando razonamiento y herramientas analíticas. Existe una variedad de métodos de análisis de datos específicos, algunos de los cuales incluyen obtención de datos, análisis estadístico, análisis de redes mediante teoría de grafos, análisis de texto y de sentimientos, inteligencia artificial y visualizaciones de datos. Cada punto en la cadena de valor del dato puede generar una especialización.

Cómo se forma un analista de datos

Depende para qué. Yo dirijo un postgrado en Deusto que se dedica a facilitar herramientas accesibles, no solo tecnológicas, sino también legales, estratégicas y sobre todo de comunicación para abordar cualquier proyecto de datos.

DSC_5456 (2)

Pero depende. Si estamos hablando de grandes proyectos con big data, entonces una sola persona, por muy formada que esté, no es suficiente. Generalmente se trabaja en equipo, en los que buscas una mezcla de competencias y conocimientos de la industria que se esté estudiando.

Por ejemplo, un estudio un estudio de las principales plataformas big data dedicadas a observar la pesca,  que acabo de publicar con el Overseas Development Institute, indica que, aunque ofrecen grandes oportunidades para la vigilancia de la pesca, aún hay mucho camino por delante.  Desde la liberación del mercado de los datos satelitales hace más de una década, han ido surgiendo plataformas de datos privadas dedicadas al seguimiento de los barcos pesqueros de cierto tamaño, obligados por seguridad a emitir señales regularmente mientras están operativos.  Pero el informe del ODI destaca graves fallas en estas plataformas privadas. Por ejemplo, un tercio de los 75,000 buques de pesca que figuran en la plataforma Global Fishing Watch respaldada por Google en el momento en el que investigábamos son duplicados o buques que no participan en la pesca.

Sin título

Para ese tipo de proyectos se confía en profesionales que han hecho una carrera universitaria o tienen una gran experiencia escribiendo código y trabajando con inteligencia artificial. Pero también deben integrar equipos que sepan de la industria para no caer en errores como los que indicaba antes. Si te fías solo del algoritmo, éste puede identificar como barco pesquero a otro, por ejemplo uno que carga bananas, porque tiene algún comportamiento comçun con un pesquero, que es lo que le pasó a Global Fishing Watch. Hace falta saber mucho conocimiento de las industrias para hacer informes certeros y poder interpretar bien los análisis de grandes datos.

¿Qué aplicaciones tiene?

Los sectores que hasta ahora han maximizado el análisis de datos son algunas agencias gubernamentales, sobre todo en cuestiones de vigilancia masiva, y el sector privado, a veces trabajando juntos, como se vio en las revelaciones de Snowden en 2013, quien reveló que Verizon y otras telefónicas habían estado proporcionando datos de sus clientes, sin su conocimiento, a la agencia de seguridad nacional.

Como investigadora estoy más interesada en cómo se usa la infraestructura de datos, entendida como los procesos, el hardware y el software necesarios para analizar datos y extraer valor, en la sociedad civil y el periodismo.

Pero hay aplicaciones en todos los sectores. Por ejemplo, el estudio de archivos históricos, que están gradualmente digitalizándose. Un ejemplo es la edición en coreano del siglo XIII del canon budista, que incluye 52 millones de caracteres distribuidos en 166.000 páginas. Examinado con métodos tradicionales, se tenían que recurrir al análisis selectivo de fragmentos. Hoy en día la infraestructura de datos permite el estudio integral con enorme precisión de casi cualquier corpus documental digitalizado; e impulsa un cambio en la investigación, en la que ahora cobra mucha más importancia la validación de las fuentes, y las formas de comunicar conocimiento.

De las cosas más interesantes que he visto hacer con datos es el mapa de Forensic Architecture llamado Liquid Traces en el que visualiza la deriva de un barco con 72 emigrantes durante 14 días en las costas de Libia. Solo sobrevivieron 9. El mapa, basado en las mismas tecnologías de visualización de señales del Sistema de Identifiación Automática AIS, demuestra que diversos barcos de Frontex y NATO los vieron y no hicieron nada.

Map Left to Die

 

¿Qué empresas demandan estas competencias?

Todas. Aunque la pregunta sería qué empresas u organizaciones las necesitan y cuáles las demandan. Hay mucha necesidad en el tercer sector, pero no necesariamente se traduce en demanda. Por ejemplo, me cuenta la directora de DataKind UK, una organización que se dedica a colocar científicos y científicas de datos en ONG, que no le faltan voluntarios y voluntarias dispuestos a trabajar pro bono en una ONG, pero que no hay tantas ONG que tengan la capacidad de absorber esta capacidad y conocimiento.

Hace poco celebramos una conferencia en Madrid con representantes de organizaciones que financian proyectos sociales con datos, que los facilitan que generan plataformas y herramientas, y que hacen periodismo y activismo de datos, y una de las conclusiones que los datos pueden generar cambios sociales pero las organizaciones también deben transformarse.

Sin título

 

 

 

Fake news: ¿Problema técnico o social?

Resumen de la entrevista a Miren Gutiérrez, directora del Programa “Análisis, investigación y comunicación de datos de Deusto”,  para el proyecto “Regulación de contenido en y por plataformas”*

  1. ¿Las fake news son principalmente un problema técnico o social?

Para alguien como yo, que ha estado sido periodista durante más de veinte años, las noticias falsas son simplemente mentiras. Puede haber mentiras parciales o mentiras completas; pueden incluir mensajes propagandísticos basados ​​en hechos o contenido totalmente inventado destinado a generar el caos; pueden adoptar la forma de fraude, bots maliciosos, pseudociencia, clickbaits o teorías de la conspiración… Pero estamos hablando de algo similar con diferentes formas, objetivos e impactos. Las fake news siempre han existido. Piensa en el comienzo de los diarios: en la década de los 1830, la mayoría de los periódicos tenían patrocinadores políticos y eran todo menos imparcial. El problema ahora es que la multiplicación de plataformas aumenta exponencialmente su difusión y, por lo tanto, sus efectos. Las fake news no son un problema técnico sino social.

descarga

  1. ¿Cree que se puede poner en marcha regulación que las controle? ¿Qué tipo de regulación?

No estoy segura de cuál es la solución. Me gusta la regulación que protege los derechos de la ciudadanía; pero soy muy cauta en lo que respecta a la sobrerregulación.

Por un lado, ¿por qué deberíamos dejar este tema vital a empresas privadas cuyo principal objetivo es ganar dinero? Estas empresas no han sido elegidas en procesos democráticos; se representan solo a ellas mismas y han dicho explícitamente que no quieren convertirse en reguladoras.  Si la web está atravesando un proceso de “plataformización” y “corporatización”, esta pregunta es crucial, porque no estamos hablando de unas pocas plataformas privadas, sino de la libertad de expresión en internet, que ha resistido hasta ahora a la regulación: Internet es caótico, dinámico y hasta chocante, engloba espacios abiertos que Jodi Dean ha llamado “neodemocracias”, que tienen como objetivo la confrontación y la pugna. Creo que debemos preservar y cultivar esta libertad, incluso si genera ruido desagradable.

Por otro lado, la autorregulación puede funcionar relativamente bien entre los medios de comunicación. Si las plataformas de redes sociales desearan convertirse en fuentes confiables de información y análisis, podrían actuar como organizaciones periodísticas, convirtiéndose en guardianes de contenido, empleando el método periodístico (es decir, la verificación) y siendo transparentes al respecto. De hecho, algunos están probando la curación algorítmica y otros métodos para identificar y eliminar noticias falsas. La gran diferencia aquí es que los medios de comunicación difunden noticias generadas en procesos periodísticos gobernados por principios periodísticos, mientras que las plataformas son vehículos (no necesariamente neutrales) de contenido de diversa naturaleza, creado por la ciudadanía y otros agentes, algo que es diferente. Es por eso que la actual presión para regular el contenido en las plataformas debería alarmarnos.

No debemos olvidar que el objetivo principal de las corporaciones es hacer felices a sus accionistas, lo que no se traduce necesariamente en hacer felices a los usuarios/as. Los bots y las interacciones tóxicas en las plataformas mejoran sus analíticas. También es por eso que la regulación es complicada.

Este es un tema complejo que incluye no solo la divulgación sino también la recolección de datos. Por ejemplo, a menudo los usuarios tienen que firmar primero un contrato con el servicio de la plataforma. Estos contratos son deliberadamente incomprensibles y excesivamente largos, y los/as usuarios/as con frecuencia terminan firmándolos sin leer con cuidado la letra pequeña. Las plataformas no son ni medios de comunicación ni canales desinteresados ​​para contenidos ciudadanos.

  1. ¿Cuáles son los principales riesgos asociados con la regulación del contenido en las plataformas?

El principal riesgo es sobrerregular, censurar contenido, enjuiciar a las personas por crear contenidos y restringir la libertad de prensa y otros derechos, así como desencadenar la autocensura. Ya existe una larga lista de acciones que son legales offline e ilegales online.

Internet hace que la creación, difusión y exhibición de contenido sea difícil de controlar por parte de los gobiernos, por lo que se ha puesto énfasis en perseguir la “posesión” de contenido. Pero la penalización de la posesión de contenido se ha llevado a extremos, como el caso en el Reino Unido de Samina Malik, que fue sentenciada en 2009 a nueve meses de prisión por recopilar poemas y textos yihadistas, que, de todos modos, estaban disponibles online. Casos como este abundan y nos plantean preguntas complejas.

  1. ¿Cómo crees que la ciudadanía puede participar en el debate y contribuir a resolver el problema?

Debe participar, debe ser consultada y debe contribuir a resolver el problema. Por ejemplo, las experiencias ciudadanas de verificación de hechos se ha multiplicado últimamente. El número de factcheckers en todo el mundo se ha más que triplicado en los últimos cuatro años, de 44 a 149 desde 2014 (un aumento del 239%). La mayoría de los esfuerzos de verificación están en los EE. UU. (47 del total), donde las fake news se han desenfrenado.

Aunque muchas de estas experiencias están vinculadas a medios de información, otras están afiliadas a universidades, grupos de expertos/as e iniciativas dirigidas por ciudadanos/as, lo que indica que la ciudadanía ya está participando en la solución del problema. Además debería estar más involucrada en la toma de decisiones sobre este tema.

Dan Gillmor, con quien generalmente coincido, acaba de publicar un artículo en el que habla precisamente de esto. Dice que las plataformas no deberían ser “la policía de los contenidos” en internet. “¿Por qué hay tanta gente que pide que sean el equivalente a editores de internet? ¿Por qué la gente supone que la solución está en las políticas corporativas y en las decisiones de los/as programadores/as dentro de organizaciones excesivamente centralizadas? Si se desea que la censura sea la regla, no la excepción, esa es una forma de obtenerla”. Gillmor dice que a las plataformas se les debería exigir que 1) permitan que los/as usuarios/as eliminen todo lo que las empresas han recopilado sobre ellos/as; 2) hagan que todos los datos, incluidas las conversaciones, sean “portátiles” de manera que las plataformas competidoras puedan atraer a la gente hacia otros servicios (especialmente aquellos que hacen de la privacidad una característica); 3) limiten lo que pueden hacer con los datos que recopilan; 4) ofrezcan dashboards fáciles de usar que brinden a los/as usuarios/as un control granular de su privacidad y la configuración del uso compartido de datos; y 5) divulguen todo lo que hacen “en un lenguaje simple que incluso un presidente de EEUU pueda entender”.

  1. ¿Cuál es el papel del sector del periodismo en relación con la controversia sobre las noticias falsas?

Tomando prestado de The Elements of Journalism, de Bill Kovach y Tom Rosenstiel, el periodismo debe buscar la verdad implacablemente, esforzándose por poner el interés público por encima de otros intereses, empleando la disciplina de la verificación de manera independiente. Es más necesario que nunca. Cuando aborda las fake news, el periodismo también debe instigar e inspirar un debate sobre el papel de los periodistas, así como el de las plataformas, la ciudadanía, la regulación y la gobernanza de internet.

Además, debería participar activamente en la lucha contra las fake news. Muchas iniciativas de verificación de hechos han surgido en medios de comunicación… Politifact es un ejemplo. Fue creado por Tampa Bay Times, un periódico de Florida, en 2007 (y recientemente adquirido por el Instituto Poynter, una escuela para periodistas sin fines de lucro). El papel del periodismo en esta controversia nunca ha sido tan relevante.

  1. ¿Cómo complementa esta función el papel de otros actores (gobierno, plataformas, sociedad civil)?

Estos actores tienen sus propios espacios de responsabilidad y acción. Los gobiernos deberían regular a favor de la ciudadanía. El periodismo debería estar haciendo su trabajo. Las plataformas deberían ser transparentes sobre sus prácticas y modelos de negocio. Y la sociedad civil debería estar atenta y activa.

Sin título

*SI quieres debatir sobre estos y otros asuntos relacionados con los datos y la transformación social, no te pierdas la conferencia el día 12 de abril en la sede de la DBS en Madrid. Detalles aquí.

La ayuda humanitaria internacional descubre el poder del dato: la plataforma Dhalma en la crisis de Siria

(Artículo escrito por Elen Irazabal, alumni de Deusto Derecho y alumna de la II Edición del Programa en Tecnologías de Big Data en nuestra sede de Madrid)

La revista Scientific American el pasado octubre de 2017 hacía reflejo de la siguiente historia: la epidemióloga Jesse Berns había estado trabajando en conflictos humanitarios desde el año 2006. En el año 2013 y durante su estancia en Iraq, realizó un estudio sobre el estado de salud de los refugiados. Ella misma había creado un excel con los datos que había recabado desde su puño y letra, uniéndolos con otros datos y así generar un informe. Tal proceso le costó 5 meses, cuando el informe se realizó, los datos ya habían quedado obsoletos. Asimismo, en el año 2015 pudo experimentar cómo  durante la crisis del ébola en el África Occidental, gastaron mucho dinero intentando encontrar la manera de transmitir datos de pacientes moribundos sin acceso a conexión wifi.

Es ahí cuando, junto con un científico de datos, Michael Roytman, crearon la plataforma Dharma: una plataforma que opera offline, capaz de transmitir información mediante bluetooth y resistente a los bombardeos. Está pensado para que profesionales sin una base técnica puedan adaptar la plataforma a sus necesidades.

La revista también cuenta, entre otras experiencias, la última prueba de Dharma que se ha realizado en Siria: un médico que comenzó a meter historiales médicos de sus pacientes para observar los progresos a medida que comparte los datos con sus compañeros de Amman.

Son más de 5 millones de personas huidas de Siria a países vecinos, otros 6 millones de desplazados dentro de Siria, las organizaciones humanitarias utilizan Dharma en más de doce puntos clave a lo largo de la región para poder recabar información sanitaria y proporcionar ayuda médica. [1]

El éxito de Dharma refleja el poder de la información en tiempos de guerra, desastres naturales o cualquier crisis humanitaria que surge a lo largo y ancho del globo. El principal problema a los que se enfrentaban las organizaciones era la obtención del dato fidedigno y la obtención de una infraestructura tecnológica capaz de aprovechar los datos de manera eficiente.

Si tuviésemos que describir, un antes y un después en la cooperación internacional, sería el avance tecnológico que capacita a la información que proporcionamos los individuos en la en forma de valor de dato. Las organizaciones son capaces de dar un servicio individualizado en acontecimientos de carácter global. Este hecho no tiene precedentes en la historia, donde las organizaciones como la ONU operan como actores más allá de los estados para crear puentes y alianzas (muy discutibles en muchos casos) entre naciones. Eran la fuente de información y canal de cooperación. Sin embargo, la tecnología desde todos sus aspectos ha recortado las distancias entre naciones diversas. Desde las redes sociales al propio lenguaje de programación, no existen muros.

Y ahora, con el análisis de datos, las naciones podemos responder con una rapidez y precisión que escapa a las decisiones políticas.  Por eso, también la ONU ha descubierto el Big Data y ha incorporado a su Agenda de Desarrollo Sostenible, “Big Data para el Desarrollo Sostenible”. [2]

El futuro es del dato, no sólo como economía del dato, sino en todo lo que engloba las ciencias sociales con especial hincapié en las acontecimientos internacionales que tantos estudios han ocupado y tantas páginas de acuerdos internacionales han cubierto.

[1]https://www.scientificamerican.com/article/out-of-the-syrian-crisis-a-data-revolution-takes-shape/

[2]http://www.un.org/en/sections/issues-depth/big-data-sustainable-development/index.html

Fuente: https://www.nature.com/news/out-of-the-syrian-crisis-a-data-revolution-takes-shape-1.22886
Fuente: https://www.nature.com/news/out-of-the-syrian-crisis-a-data-revolution-takes-shape-1.22886

Big Data: la posición más difícil de cubrir en España

El pasado 7 de marzo, Cinco Días, publicaba esta noticia: “Big data, el perfil más difícil de cubrir en España“. Según el artículo y sus fuentes, las profesiones asociadas con las tecnologías de Big Data son las más difíciles de cubrir. Su fuente principal es el informe EPYCE 2017: Posiciones y Competencias más demandadas, elaborado por EAE Business School junto con la Asociación Española de Directores de Recursos Humanos (AEDRH), la CEOE, el Foro Inserta de la Fundación Once y Human Age Institute.

Posiciones más difíciles de cubrir en España (Fuente: Cinco Días)
Posiciones más difíciles de cubrir en España (Fuente: Cinco Días)

En un blog como éste, donde hablamos tanto del paradigma del Big Data y sus múltiples implicaciones en nuestras sociedades, naturalmente, no podíamos dejar sin sacar esta noticia. Llevamos años ya formando perfiles de Big Data en nuestros Programas de Big Data en Bilbao, Donostia y Madrid.

El informe original contiene aún más información. Aspecto que recomiendo revisar, para que se entienda bien no solo la metodología, sino los contenidos (datos) analizados. Miren por ejemplo esta gráfico que adjunto:

bigdatadeusto

Con un nivel de detalle mayor, lo que vemos es que no solo la parte tecnológica (que siempre está en el top de los ranking de bajo desempleo), sino también la ciencia de datos (que son nuestras dos patas fundamentales en nuestros programas), son las más demandadas. En general, hay numerosas profesiones técnicas demandadas en todo el ranking y el informe. Lo cual nos viene a confirmar que efectivamente estamos viviendo una transformación tecnológica y digital en múltiples planos.

Lo que parece que viene a confirmar este informe es que estamos viviendo cierta brecha entre los perfiles que demandan las empresas y lo que realmente se dispone luego en el mercado de trabajo. Parece real esa velocidad a la que se está efectuando esta transformación digital de la sociedad, que está provocando que muchos perfiles no puedan seguirla, y no les dé tiempo a actualizar sus competencias y habilidades. El Big Data, la revolución de los datos, parece que ha venido para quedarse.

No obstante, en relación a todo esto, creo que cabría introducir tres elementos de reflexión. A buen seguro, a cualquier lector o lectora de estas estadísticas, le interesará conocer qué hay más allá de estas gráficas. Básicamente, porque la gestión de expectativas laborales en los programas formativos, creo que debe caracterizarse por la honestidad, para que luego no produzca frustraciones. Estos tres puntos son: (1) Descripción de “supermanes” y “superwomanes” en los puestos de trabajo de las empresas; (2) el concepto “experiencia” en las organizaciones; (3) el talento cuesta dinero.

En relación al (1), darse una vuelta por Linkedin suele ser muy ilustrativo a estos efectos. Las empresas, cuando buscan perfiles “de Big Data” (así en genérico y abstracto), suelen hacerlo solicitando muchas habilidades y competencias que me parece difícil que lo cubra una misma persona: conocimientos de programación (R, Python, Java, etc.), conocimiento de los frameworks de procesamiento de grandes volúmenes de datos y sus componentes (Spark y Hadoop, y ya de paso Storm, Hive, Sqoop, etc.), que sepa administrar un clúster Hadoop, que sepa cómo diseñar una arquitectura de Big Data eficiente y óptima, etc. Una persona que en definitiva, dé soporte a todo el proceso de un proyecto de Big Data, desde el inicio hasta el final. Este enfoque es bastante complicado de cubrir: para una persona manejar todo eso es realmente complicado, dado que no solo los códigos de pensamiento, sino también las habilidades, no suelen estar relacionadas.

En cuanto al (2), que se pida para estos puestos experiencia, me parece un poco temeroso. Estamos hablando de un paradigma que irrumpe con fuerza en 2013. Por lo que estar pidiendo experiencias de más de 2-3-4 años, es literalmente imposible de cubrir. Y menos en España donde todavía no hay tantas realidades en proyectos de Big Data como se cree. ¿Quizás la falta de cobertura de vacantes tenga que ver precisamente con esta situación? Por ello sería bueno saber realmente qué es lo que no están encontrando: ¿el puesto necesario? ¿el puesto definido por las empresas? ¿las expectativas mal gestionadas? Quizás sería bueno, y los empleadores bien saben que siempre les digo, que la formación es un buen mecanismo para poder prescindir de este factor de experiencia. Ahora mismo estamos colaborando con importantes empresas y organizaciones que están formando a varios perfiles a la vez porque son conocedores del límite de la experiencia del que hablamos.

Por último, en cuanto al (3). Hay una expresión inglesa que me gusta rescatar cuando hablo de esto: “You get what you pay“. Una expresión muy común también últimamente en el sector tecnológico. No podemos pretender pagar salarios bajos y que luego tengamos esos supermanes y superwomanes que decía anteriormente. Tenemos que ser coherente con ello. Nuestro conocimiento tecnológico, el talento técnico que formamos en España, está muy bien valorado en muchos lugares de Europa (Dublin, Londres, Berlín, etc.) y el mundo (San Francisco, New York, Boston, etc.). Es normal que en muchas ocasiones este talento se quiera ir al extranjero. ¿Pudiera estar aquí también parte de la explicación de la dificultad para cubrir puestos?

 

“La ciencia de los datos puede llegar a ser más un arte que ciencia”

Miren Gutiérrez*

Me ha llamado la atención estos días un informe sobre el comportamiento de Donald Trump en Twitter titulado “Who’s Tweeting from the Oval Office?”, del polifacético Greg Rafferty (@raffg). Se trata de un estudio de los tweets de Trump para discernir, usando una variedad de métodos, cuáles escribe el presidente de Estados Unidos y cuáles sus asistentes. Una de sus conclusiones es que “la ciencia de los datos puede llegar a ser más un arte que ciencia”.

Sin título

Rafferty estudia un repositorio de 33.000 tweets difundidos desde la cuenta de Trump entre mediados de 2009 hasta el final de 2017. Y luego se embarca en un exhausto análisis, con una variedad de métodos cualitativos y cuantitativos, de las “peculiaridades” del discurso de Trump, y su estilo, sentimientos, emociones, vocabulario y estructura gramatical. Con ello llega a una serie de conclusiones que le permiten identificar cualquier mensaje del presidente estadounidense como suyo o ajeno. Recomiendo leer el informe. Es un todo estudio sicológico del personaje.

Esta reflexión viene también a cuento de un artículo publicado en este blog de la alumna del Programa de Big Data y Business Intelligence de Deusto, Olatz Arrieta, quien habla de la herramienta de análisis R, que utiliza para analizar y comparar discursos de 2007 y 2017 pronunciados por los lehendakaris y reyes en esos años, con conclusiones muy interesantes.

También recurro a R para visualizar relaciones entre once atributos asignados a cuarenta iniciativas de datos en el ámbito del activismo y humanitarismo digital (i.e. data crodwsourcing y cartografía digital de Ushahidi) en mi libro Data activism and social change, que sale en mayo con Palgrave MacMillan. Los atributos (por ejemplo “tiende a trabajar en colaboración con otras organizaciones”) fueron generados a través de la observación empírica y entrevistas con creadores de herramientas y plataformas de datos, así como activistas y periodistas de datos. La idea es ver cuáles eran más frecuentes y si había correlaciones entre ellos. A cada organización se le asignan los atributos que la caracterizan y a cada atributo, una intensidad según cuán frecuente haya sido la actividad o intensa la cualidad atribuidas. Aunque hay un elemento de arbitrariedad en la selección de casos y en la asignación de intensidades, los resultados de esta mezcla de métodos mostraban coherencia y ofrecían una capa de análisis más.

Freq

La Profesora de Deusto Pilar Rodríguez y yo nos apoyamos en el análisis de sentimientos en un reciente artículo sobre una nueva corriente en publicidad que se conoce en inglés como femvertising y que pretende representar a las mujeres como realmente son. En nuestro artículo examinamos la reacción negativa en redes sociales y los sentimientos negativos hacia el anuncio publicitario “Tú decides” de la marca Desigual, que pretendía subirse a la ola del femvertising con mensajes que en realidad nada tenían que ver con la igualdad ni la paridad. La reacción negativa unánime en Tweeter, Facebook y Youtube –y los sentimientos negativos despertados por la publicidad— hizo que la empresa se retractara.

Sin título

El análisis de sentimientos puede servir para analizar las opiniones y actitudes expresadas en diversos canales (desde los discursos públicos a los tweets) para examinar problemas de reputación y para aventurar resultados (i.e. resultados electorales, ingresos de taquilla o comportamiento del mercado de valores). Este implica el procesamiento del lenguaje natural, análisis de texto y lingüística computacional para rastrear el estado de ánimo e información subjetiva en cualquier contenido digital.

El caso es que, aunque el análisis de datos se suele asociar con una mezcla de habilidades, conocimientos y técnicas cuantitativas, esto no es así. Aunque en cada estudio hay que centrarse en aplicar el procedimiento más adecuado a la base de datos que se tenga entre manos, las preguntas de investigación y los resultados que se desean obtener, a veces los mejores análisis llegan de la combinación de métodos.

+Miren Gutiérrez es Directora del Programa “Análisis, investigación y comunicación de datos”

Las políticas de privacidad en internet: contra el paternalismo europeo

(Artículo escrito por Elen Irazabal, alumni de Deusto Derecho y alumna de la II Edición del Programa en Tecnologías de Big Data en nuestra sede de Madrid)

Anteriormente en este blog, habíamos resaltado la postura proteccionista de la Unión Europea en la RGPD y la desconexión entre la protección de datos y la privacidad.

El carácter de derecho fundamental de la protección de datos personales, pone en jaque la convivencia con otros derechos como  por ejemplo, la competencia económica  dentro del seno de la Unión Europea.

Este hecho se refleja en el posicionamiento de la Unión en cuanto a las condiciones que la ley establece en la formación del consentimiento del interesado: toda manifestación de voluntad libre, específica, informada e inequívoca por la que el interesado acepta, ya sea mediante una declaración o una clara acción afirmativa, el tratamiento de datos personales que le conciernen”. Digamos que la variedad principal es la eliminación del consentimiento tácito.

Sin embargo, y como veremos a continuación, esta novedad no parece que cumpla con el objetivo del Reglamento en devolver al ciudadano el control de sus datos.

En primer lugar, hasta el día de hoy, prácticamente nadie se lee las políticas de privacidad. Al fin y al cabo, las misma están redactadas en un lenguaje jurídico nada aterrizado al ciudadano y el coste de invertir tiempo en entenderlos sigue siendo con la RGPD, alto. Por otra parte, el entender un texto de privacidad no implica comprender el alcance de la vida de los datos personales en la red ni que el ciudadano, descubra el poder de su privacidad a través de un click.

En segundo lugar, la ley no resuelve el consentimiento en los casos de asimetrías de poder frente a los servicios de las gigantes tecnológicas como Google o Facebook, ni en aquéllos casos que se consiente la cesión de datos en aras de recibir un servicio que sin otro modo no se logra. Muy en contrario, el Reglamento restringe la competencia al eliminar la privacidad como motor entre ofertantes en el mercado, puede causar un incremento en el precio e incluso restringir el acceso a datos de consumidores en el mercado. Siendo las principales perdedoras las start ups que aún no disponen de los mismos.

En tercer lugar, tampoco tenemos alternativas a los Estados actuales proclives a utilizar la seguridad nacional y el interés público como justificación de utilización de datos para su propio beneficio. Incluso, en casos como en brechas de seguridad por parte de las empresas, el Estado obtiene acceso legalizado a los datos.

En definitiva, el Reglamento de manera contra-producente restringe la competencia y crea barreras de entrada a las start-ups que podrían desestabilizar a las gigantes bajo políticas de privacidad (o otros métodos) más atractivas. No será la ley en última instancia quién otorgue la solución, sino que será la tecnología a través de sus métodos innovadores quien se adapte.

Política de privacidad en el RGPD (Fuente: https://www.adaptacionlopdonline.com/blog/?politica-de-privacidad-en-el-rgpd--7-)
Política de privacidad en el RGPD (Fuente: https://www.adaptacionlopdonline.com/blog/?politica-de-privacidad-en-el-rgpd–7-)

Los algoritmos solos no son la solución

@gutierrezmiren*

Se puede tener una gran capacidad algorítmica, pero si no se tienen los datos adecuados o el conocimiento de la industria al que aplica, esta capacidad no ofrecerá buenos resultados.

Esta es la conclusión de un estudio comparativo publicado por el Overseas Development Institute sobre las plataformas big data que usan datos satelitales y de registros públicos para tratar de visualizar y combatir la pesca ilegal. Pero esta conclusión se podría aplicar a cualquier estudio.

Sin título

La pesca es un campo que genera una gran cantidad de datos. Los buques pesqueros de un tamaño determinado están obligados a inscribirse en diversos registros y, mientras operan en el mar, deben emitir regularmente señales que transmiten sus movimientos. Estas señales son capturadas por otros barcos, estaciones terrenales y satélites.

A través de análisis de bases de datos, así como de encuestas y entrevistas con las cinco principales organizaciones dedicadas al big data sobre la pesca, el último informe del ODI de Londres, del que soy coautora, revela que el potencial que tiene la infraestructura de datos para el monitoreo y estudio de la pesca está siendo socavado por el limitado tamaño y la mala calidad de las bases de datos que se han diseñado hasta ahora para identificar comportamientos irregulares en alta mar.

Para empezar, nadie sabe cuántos barcos de pesca hay en el mundo; y menos qué es lo que están haciendo. Esto dificulta la lucha contra la pesca ilegal.

Pesca ilegal

La pesca ilegal, no declarada y no regulada (conocida por sus siglas en inglés IUU) representa hasta una quinta parte de la captura pesquera mundial, con un valor de entre $10.000 millones y $23.500 millones anuales. Además, cada vez hay más pruebas que relacionan la pesca ilegal con el tráfico de personas y drogas, la corrupción y el lavado de dinero.

También se sabe que tiene un impacto negativo en la seguridad alimentaria, la creación de empleo y el desarrollo de las comunidades costeras en general.

A pesar de las posibilidades que ofrecen los big data para el monitoreo de la actividad pesquera, el movimiento contra la pesca ilegal aún no ha adoptado la llamada revolución de datos.

Una gran cantidad de datos disponible

Según la Organización de las Naciones Unidas para la Agricultura y la Alimentación (FAO), hay aproximadamente 4.6 millones de buques pesqueros, pero la mayoría son pequeños y artesanales. Normalmente, a cada buque de cierto tamaño le pueden corresponder 120 tipos de información, y durante su vida útil puede acumular varios valores en cada campo cada vez que cambia de empresa propietaria, armadora, bandera o nombre. Además, se requiere que todos los barcos pesqueros de más de 15 metros emitan, cada pocos minutos, señales que contengan (entre otra información) la hora, su longitud y latitud.

En consecuencia, existe una gran cantidad de datos sobre embarcaciones pesqueras. Con la aparición de servicios satelitales hacia 2010, estos datos están ahora disponibles comercialmente.

Sin embargo, el informe de ODI destaca que los países desarrollados y las organizaciones multilaterales han tardado en explotar la oportunidad que esto presenta. En lugar de crear una única herramienta de información sobre la flota pesquera mundial, los datos están dispersos en una gran cantidad de registros diferentes. La falta de una única base de datos hace que la detección de la pesca ilegal sea difícil.

La necesidad del análisis de “grandes datos”

El análisis de datos puede compensar la falta de recursos disponibles para patrullar los océanos. Por ejemplo, el primer informe de transbordo de pescado basado en datos, publicado por ODI en 2016, mostró indicios claros de que algunos buques refrigerados que recogen pescado en alta mar para su transporte a los mercados importadores estaban involucrados en operaciones irregulares nunca detectadas previamente.

El ireciente nforme defiende alianzas más sólidas y colaborativas entre los responsables de los datos sobre la pesca . También existe la necesidad de una mejor gobernanza pesquera global. Esto incluye esfuerzos más importantes para combatir la corrupción y las prácticas ilegales, como el uso de pabellones de conveniencia y acuerdos secretos de pesca.

La efectividad de las iniciativas destinadas a lidiar con la pesca ilegal dependerá de la solidez de los datos, de la facilidad con la que se pueden obtener y de nuestra capacidad para interpretarlos en función del conocimiento de la industria. Sin una base de datos única y unificada de la información disponible, la lucha contra la pesca ilegal será una batalla cuesta arriba.

*gutierrezmiren es Directora del Programa de postgrado “Análisis, investigación y comunicación de datos” y profesora de Comunicación de Deusto. Es también investigadora del Overseas Development Institute de Londres y de Datactive de Amsterdam.

Lenguaje R: herramienta potente y gratuita para la inteligencia de negocio – Ejemplo de análisis de texto

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Después de un año de duro trabajo, termino el Programa de Big Data y Business Intelligence impartido por la facultad de ingeniería de la Universidad de Deusto. A lo largo de este tiempo, hemos aprendido muchísimo de las múltiples facetas de este concepto tan amplio que es el “Big Data”, pero, sin duda, uno de los mejores y más prácticos decubrimientos ha sido el entornolenguaje “R”.

R es un lenguaje superversatil, gratuito y con un soporte “open” impresionante en internet (por supuesto en inglés), que te permite encontrar siempre solución, una paquete desarrollado y scripts de ejemplo, para cualquier necesidad que te encuentres en un proyecto. Yo, en este tiempo en el que me he podido empezar a asomar a este universo de posibilidades, lo he utilizado en prácticas de casos reales para distintos usos:

  • Hacer calidad y manipulación de datos, eliminando las limitaciones de volumen que tenemos con herramientas habituales como Excel, y utilizando funciones que, en un solo paso, realizan operaciones que de otra manera supondrían numerosas pasos y tablas intermedias.
  • Aplicar modelos de predicción (regresión, clasificación) y descripción (clustering, asociación, correlación,..) a importantes volúmenes de datos para extraer conclusiones relevantes y no inmediatas.
  • Pasar información de un soporte-formato a otro de manera sencilla para poder importar o exportar desde o hacia distintas fuentes.
  • Hacer tratamientos de texto: palabras key, nubes de palabras o análisis de sentimiento de cualquier texto, incluso de páginas web o RRSS (facebook, twitter,..)

Esta última aplicación de análisis de texto,  ha sido el objeto de mi último proyecto de trabajo en el máster, cuyo objetivo era practicar con algunas de las herramientas que R tiene para estos cometidos.

Decidí analizar los textos de los discursos de navidad del Lehendakari y del Rey de España en diciembre 2007 y diciembre 2017. Quéría observar qué diferencias y evolución ha habido entre los dos perfiles en estos 10 años. Tras la correspondiente limpieza y adecuación de los textos, por ejemplo sustituyendo ñ por gn, eliminando tildes, poniendo en minúsculas todo, igualando conceptos similares como democracia – democrático/a para poder observar mejor su peso, etc. muestro un ejemplo de algunos de los resultados obtenidos

Las palabras que no faltan en ninguno de los discursos, estando presentes en todos, más de 2 veces, son las siguientes:

Palabras discurso lehendakari y rey (Fuente: elaboración propia)
Palabras discurso lehendakari y rey (Fuente: elaboración propia)

Las 20 palabras más repetidas en cada discurso, y su frecuencia de aparición a lo largo del mismo, son las siguientes:

Las palabras más repetidas en cada discurso (Fuente: elaboración propia)
Las palabras más repetidas en cada discurso (Fuente: elaboración propia)
Las palabras más repetidas II (Fuente: elaboración propia)
Las palabras más repetidas II (Fuente: elaboración propia)

Sin ánimo de ser exhaustiva ni realizar valoraciones, destaco algunas observaciones sencillas que se pueden extraer como ejemplo:

  • El Lehendakari Ibarretxe en 2007 ha sido sin duda el más reiterativo en los conceptos clave de su discurso ya que presenta claramente una frecuencia más alta en mayor número de palabras que los demás.
  • En 2007 el Lehendakari repetía la palabra ETA mientras que el Rey usaba “terrorismo” y la temática “terrorismo” ha perdido peso en 2017
  • En 2017 ambos dirigentes presentan en sus primeros puestos de reiteración, sus ámbitos territoriales (Euskadi, España) y aspectos ligados a la convivencia, sociedad o personas.
  • En 2017 “Cataluña” no es mencionada de manera relevante por el Lehendakari y sí por el Rey que destaca también otras palabras ligadas a este asunto.
  • La palabra “constitución”, principal argumento del discurso del Rey en 2007, desaparece de los discursos en 2017, siendo sustituida por conceptos más “soft”como democracia, derecho, principios,…
  • La “política” es claramente una preocupación de los 2 Lehendakaris, mientras que no es destacada por los Reyes de España.
  • La palabra “paz” la repiten ambos Lehendakaris y no los reyes, y la palabra “vida” a la inversa, está muy presente en los discursos de los reyes pero no de los Lehendakaris.

Esté hincapié en determinados conceptos se muestra más graficamente si elaboramos las NUBES DE PALABRAS, resultantes de seleccionar los términos que cada gobernante ha utilizado en más de 6 ocasiones a lo largo de sus discursos. Los tamaños y colores de letra representan pesos de frecuencias relativas dentro de cada discurso:

Nubes de Palabras Rey y Lehendakari (Fuente: elaboración propia)
Nubes de Palabras Rey y Lehendakari (Fuente: elaboración propia)

Se observa un distinto estilo de comunicación entre los dirigentes españoles y vascos. Los lehendakaris presentan un estilo en el que abundan los términos muy reiterados, mientras que en el caso de los reyes, éstos concentran la insistencia en menos términos.

Por último, he querido hacer una pequeña prueba del funcionamiento de las herramientas de análisis de sentimiento. R dispone de diversos paquetes para ello, yo he usado Tidyverse y Tidytext, que presentan 3 lexicons que realizan una valoración “emocional” de los sentimientos que teóricamente generan las palabras utilizadas. Los lexicones son en inglés, por lo que he traducido directamente con google (R dispone también de paquetes específicos de traducción que utilizar APIs por ejemplo de microsoft, pero no he tenido tiempo de probarlos)  los discursos del 2017 y, sin realizar ninguna revisión de la calidad de la traducción (seguramente habría que refinar muchas expresiones y términos), le he pasado los diccionarios lexicon de BING y NRC a cada discurso, para observar qué tipo de emociones provoca cada uno.

He aquí el resultado resumido del peso de cada sentimiento en los discursos de 2017:

Análisis del sentimiento discursos Rey y Lehendakari (Fuente: elaboración propia)
Análisis del sentimiento discursos Rey y Lehendakari (Fuente: elaboración propia)

Por último, utilizando el lexicon de AFINN que valora numéricamente las palabras entre -5 y +5 según la negatividad o positividad de sentimientos generados, el resultado final es el siguiente, expresado en los correspondientes histogramas de frecuencia de presencia de cada tipo de valor emocional:

Nota: el número de palabras totales/únicas que se ha podido valorar (que después de ser traducido el discurso, estaban presentes en el lexicon) en cada caso ha sido de 85/53 para el Lehendakari y de 106/87.
Nota: el número de palabras totales/únicas que se ha podido valorar (que después de ser traducido el discurso, estaban presentes en el lexicon) en cada caso ha sido de 85/53 para el Lehendakari y de 106/87.

Se observa que el discurso del lehendakari se encuentra sesgado hacia la positividad mientras que el del Rey de España presenta más valores extremos, lo que resulta en un valor “emocional” medio de +1,06 sobre 5 en el caso del lehendakari y de un 0,49 sobre 5 en el caso de el Rey, resultados que corroboran el obtenido en la clasificación de términos anterior.

En resumen, que R es una herramienta que, una vez realizado el esfuerzo inicial imprescindible para adquirir la competencia mínima, presenta un enorme potencial de aplicación a casi cualquier necesidad o problema de análisis de datos que a una empresa se le pueda presentar, siendo un aliado muy interesante y recomendable para el desarrollo del business intelligence.

Los datos de tu organización en valor