Lenguaje R: herramienta potente y gratuita para la inteligencia de negocio – Ejemplo de análisis de texto

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Después de un año de duro trabajo, termino el Programa de Big Data y Business Intelligence impartido por la facultad de ingeniería de la Universidad de Deusto. A lo largo de este tiempo, hemos aprendido muchísimo de las múltiples facetas de este concepto tan amplio que es el “Big Data”, pero, sin duda, uno de los mejores y más prácticos decubrimientos ha sido el entornolenguaje “R”.

R es un lenguaje superversatil, gratuito y con un soporte “open” impresionante en internet (por supuesto en inglés), que te permite encontrar siempre solución, una paquete desarrollado y scripts de ejemplo, para cualquier necesidad que te encuentres en un proyecto. Yo, en este tiempo en el que me he podido empezar a asomar a este universo de posibilidades, lo he utilizado en prácticas de casos reales para distintos usos:

  • Hacer calidad y manipulación de datos, eliminando las limitaciones de volumen que tenemos con herramientas habituales como Excel, y utilizando funciones que, en un solo paso, realizan operaciones que de otra manera supondrían numerosas pasos y tablas intermedias.
  • Aplicar modelos de predicción (regresión, clasificación) y descripción (clustering, asociación, correlación,..) a importantes volúmenes de datos para extraer conclusiones relevantes y no inmediatas.
  • Pasar información de un soporte-formato a otro de manera sencilla para poder importar o exportar desde o hacia distintas fuentes.
  • Hacer tratamientos de texto: palabras key, nubes de palabras o análisis de sentimiento de cualquier texto, incluso de páginas web o RRSS (facebook, twitter,..)

Esta última aplicación de análisis de texto,  ha sido el objeto de mi último proyecto de trabajo en el máster, cuyo objetivo era practicar con algunas de las herramientas que R tiene para estos cometidos.

Decidí analizar los textos de los discursos de navidad del Lehendakari y del Rey de España en diciembre 2007 y diciembre 2017. Quéría observar qué diferencias y evolución ha habido entre los dos perfiles en estos 10 años. Tras la correspondiente limpieza y adecuación de los textos, por ejemplo sustituyendo ñ por gn, eliminando tildes, poniendo en minúsculas todo, igualando conceptos similares como democracia – democrático/a para poder observar mejor su peso, etc. muestro un ejemplo de algunos de los resultados obtenidos

Las palabras que no faltan en ninguno de los discursos, estando presentes en todos, más de 2 veces, son las siguientes:

Palabras discurso lehendakari y rey (Fuente: elaboración propia)
Palabras discurso lehendakari y rey (Fuente: elaboración propia)

Las 20 palabras más repetidas en cada discurso, y su frecuencia de aparición a lo largo del mismo, son las siguientes:

Las palabras más repetidas en cada discurso (Fuente: elaboración propia)
Las palabras más repetidas en cada discurso (Fuente: elaboración propia)
Las palabras más repetidas II (Fuente: elaboración propia)
Las palabras más repetidas II (Fuente: elaboración propia)

Sin ánimo de ser exhaustiva ni realizar valoraciones, destaco algunas observaciones sencillas que se pueden extraer como ejemplo:

  • El Lehendakari Ibarretxe en 2007 ha sido sin duda el más reiterativo en los conceptos clave de su discurso ya que presenta claramente una frecuencia más alta en mayor número de palabras que los demás.
  • En 2007 el Lehendakari repetía la palabra ETA mientras que el Rey usaba “terrorismo” y la temática “terrorismo” ha perdido peso en 2017
  • En 2017 ambos dirigentes presentan en sus primeros puestos de reiteración, sus ámbitos territoriales (Euskadi, España) y aspectos ligados a la convivencia, sociedad o personas.
  • En 2017 “Cataluña” no es mencionada de manera relevante por el Lehendakari y sí por el Rey que destaca también otras palabras ligadas a este asunto.
  • La palabra “constitución”, principal argumento del discurso del Rey en 2007, desaparece de los discursos en 2017, siendo sustituida por conceptos más “soft”como democracia, derecho, principios,…
  • La “política” es claramente una preocupación de los 2 Lehendakaris, mientras que no es destacada por los Reyes de España.
  • La palabra “paz” la repiten ambos Lehendakaris y no los reyes, y la palabra “vida” a la inversa, está muy presente en los discursos de los reyes pero no de los Lehendakaris.

Esté hincapié en determinados conceptos se muestra más graficamente si elaboramos las NUBES DE PALABRAS, resultantes de seleccionar los términos que cada gobernante ha utilizado en más de 6 ocasiones a lo largo de sus discursos. Los tamaños y colores de letra representan pesos de frecuencias relativas dentro de cada discurso:

Nubes de Palabras Rey y Lehendakari (Fuente: elaboración propia)
Nubes de Palabras Rey y Lehendakari (Fuente: elaboración propia)

Se observa un distinto estilo de comunicación entre los dirigentes españoles y vascos. Los lehendakaris presentan un estilo en el que abundan los términos muy reiterados, mientras que en el caso de los reyes, éstos concentran la insistencia en menos términos.

Por último, he querido hacer una pequeña prueba del funcionamiento de las herramientas de análisis de sentimiento. R dispone de diversos paquetes para ello, yo he usado Tidyverse y Tidytext, que presentan 3 lexicons que realizan una valoración “emocional” de los sentimientos que teóricamente generan las palabras utilizadas. Los lexicones son en inglés, por lo que he traducido directamente con google (R dispone también de paquetes específicos de traducción que utilizar APIs por ejemplo de microsoft, pero no he tenido tiempo de probarlos)  los discursos del 2017 y, sin realizar ninguna revisión de la calidad de la traducción (seguramente habría que refinar muchas expresiones y términos), le he pasado los diccionarios lexicon de BING y NRC a cada discurso, para observar qué tipo de emociones provoca cada uno.

He aquí el resultado resumido del peso de cada sentimiento en los discursos de 2017:

Análisis del sentimiento discursos Rey y Lehendakari (Fuente: elaboración propia)
Análisis del sentimiento discursos Rey y Lehendakari (Fuente: elaboración propia)

Por último, utilizando el lexicon de AFINN que valora numéricamente las palabras entre -5 y +5 según la negatividad o positividad de sentimientos generados, el resultado final es el siguiente, expresado en los correspondientes histogramas de frecuencia de presencia de cada tipo de valor emocional:

Nota: el número de palabras totales/únicas que se ha podido valorar (que después de ser traducido el discurso, estaban presentes en el lexicon) en cada caso ha sido de 85/53 para el Lehendakari y de 106/87.
Nota: el número de palabras totales/únicas que se ha podido valorar (que después de ser traducido el discurso, estaban presentes en el lexicon) en cada caso ha sido de 85/53 para el Lehendakari y de 106/87.

Se observa que el discurso del lehendakari se encuentra sesgado hacia la positividad mientras que el del Rey de España presenta más valores extremos, lo que resulta en un valor “emocional” medio de +1,06 sobre 5 en el caso del lehendakari y de un 0,49 sobre 5 en el caso de el Rey, resultados que corroboran el obtenido en la clasificación de términos anterior.

En resumen, que R es una herramienta que, una vez realizado el esfuerzo inicial imprescindible para adquirir la competencia mínima, presenta un enorme potencial de aplicación a casi cualquier necesidad o problema de análisis de datos que a una empresa se le pueda presentar, siendo un aliado muy interesante y recomendable para el desarrollo del business intelligence.

Las fronteras regulatorias del Big Data: crece el poder de la Unión Europea

(Artículo escrito por Elen Irazabal, alumni de Deusto Derecho y alumna de la II Edición del Programa en Tecnologías de Big Data en nuestra sede de Madrid)

La principal novedad que introduce la Unión Europea en lo concerniente al mundo del Big Data es la singular instauración del derecho fundamental de la protección de datos, separada del derecho fundamental a la privacidad, junto con el mandato legislativo que la Unión Europea se autoproclama en la materia:

El artículo 16 del Tratado del Funcionamiento de la Unión Europea establece que “El Parlamento Europeo y el Consejo establecerán, con arreglo al procedimiento legislativo ordinario, las normas sobre protección de las personas físicas respecto del tratamiento de datos de carácter personal por las instituciones, órganos y organismos de la Unión, así como por los Estados miembros en el ejercicio de las actividades comprendidas en el ámbito de aplicación del Derecho de la Unión y sobre la libre circulación de estos datos. El respeto de dichas normas estará sometido al control de autoridades independientes”.[1] Es decir, la Unión Europea se otorga la potestad de dictar normas que regulen la protección de datos de carácter personal sobre la libre circulación de estos datos y establece mecanismos de control de cumplimiento normativo.

Asimismo, la protección de datos de carácter personal viene declarada derecho fundamental en la Carta de Derechos Fundamentales, donde se faculta a sus titulares del “derecho a acceder a los datos recogidos que le conciernan y a su rectificación”.[2]

Así pues, las novedades que introduce el nuevo Reglamento General de Protección de Datos (RGPD) se centran en el mandato legislativo que regula  una mayor protección a las personas físicas sobre sus datos, sobre la libre circulación de datos en el mercado único de la Unión.

Básicamente, la Unión Europea despliega su poder político sobre estas tres vertientes: se posiciona como garante de la protección de derechos de las personas físicas respecto a sus datos de carácter personal. Establece condiciones de funcionamiento del mercado interior de la unión. Y por último, se postula como voz única en las relaciones exteriores.

Veamos a continuación las novedades que introduce el Reglamento con respecto a la Directiva 95/46 que le precede en la materia y que nos proporcionan una visión de la estrategia política de las instituciones europeas desde las tres facetas antes mencionadas:

En primer lugar, una de las novedades principales del Reglamento con respecto a la Directiva 95/46 es la unificación y armonización de los criterios legislativos de la Unión, en aras de facilitar la libre circulación y que otorga a la Unión Europea el monopolio legislativo en la materia. La relevancia del Reglamento, reviste en efecto, en su carácter de aplicación directa y obligatoria sobre los actores involucrados en todos los Estados Miembros.

El monopolio legislativo se puede deducir de la facultad que declara la Carta de Derechos Fundamentales antes mencionada. De esta manera, el Reglamento otorga mayores derechos a los usuarios: derecho a la limitación del tratamiento, derecho a la portabilidad, un aumento de la transparencia y del ejercicio del derecho a la información, mayor derecho de indemnización y de interposición de denuncias y el famoso derecho al olvido. Derecho que, la Sentencia del Tribunal de Justicia de la UE del 13 de mayo de 2014 reconoció por primera vez.

Al establecer una batería de derechos al usuario, la legislación correlativamente impone renovadas obligaciones a las empresas. Tanto la adopción de medidas que aseguren el cumplimiento normativo (responsabilidad proactiva) como la adopción de modelos que acrediten la prevención de riesgos (protección de datos por defecto y desde el diseño). Las obligaciones de las empresas pueden consistir, y según los casos, desde el nombramiento de un delegado de protección de datos como en la notificación de brechas de seguridad a la autoridad de control, entre otros.

En segundo lugar, la aplicación se amplía en su aplicación territorial: No sólo se aplica a responsables de tratamiento de datos establecidos en la UE, sino que se expande a responsables y encargados no establecidos en la UE siempre que realicen tratamientos derivados de una oferta de bienes o servicios destinados a ciudadanos de la Unión o cuando las actividades de tratamiento estén relacionadas con el control de su tratamiento dentro de la UE.

Por el contrario, y a aunque la RGPD  incluye modificaciones en el régimen de transferencias internacionales, perdura el poder de la Comisión Europea: sólo podrán realizarse transferencias de datos personales a terceros países que la Comisión considere que garantizar un nivel adecuado de protección (a falta de decisión sólo se podrán transmitir datos personales mediante garantías adecuadas o situaciones específicas). Por lo tanto, el criterio de la protección también se aplica en la toma de decisión de la Comisión Europea para decidir la adecuación del país receptor.

La Regulación no sólo regula el funcionamiento de los agentes económicos en el mercado único, sino que interviene estableciendo las fronteras regulatorias empresariales con terceros países que a su vez, colisionan con la jurisdicción y legislación de esos países. En consecuencia, el mundo del dato va a empujar la competencia legislativa de distintos países, que muy probablemente derivará en la cooperación de la Unión Europea, de la mano de la Comisión, a acuerdos internacionales que armonicen prácticas. Ejemplo de ello es el escudo de privacidad o la privacy shield entre EU y EEUU.

Concluyamos…

Siete de las diez empresas con mayor valor bursátil del mundo se fundamentan en datos[3], nuestro director Alex Rayón, dejaba este titular en su reciente entrevista a Masmovilidadi .El flujo global de los datos masivos y el procesamiento de los mismos, empujan a la globalización digital basada en el dato. La Unión, no ajena a este fenómeno global del Big Data, otorgó el carácter de derecho fundamental de la protección de datos de carácter personal. Con el objetivo de otorgar mayor control de los datos a las personas, la Unión Europea se posiciona como protector de las mismas, distanciándose de los principios y derechos que limitan la intervención en la vida de las personas por el poder político. El Derecho Fundamental no sólo no limita la injerencia política, sino que la expande al regular la conducta del mercado interior y constriñe el poder de decisión empresarial a costa del aumento del poder político. Por otro lado, la Unión establece por los usuarios el tipo de derechos a ejercer por ellos y guía centralizadamente su comportamiento en el mercado digital. Así, qué duda cabe, la Unión Europea refuerza su posición en la esfera comercial internacional.

Claves para afrontar el nuevo Reglamento de Protección de Datos de la UE (Fuente: https://dirigentesdigital.com/articulo/tecnologia/44391/claves-reglamento-proteccion-datos-ue.html)
Claves para afrontar el nuevo Reglamento de Protección de Datos de la UE (Fuente: https://dirigentesdigital.com/articulo/tecnologia/44391/claves-reglamento-proteccion-datos-ue.html)

[1] Art.16 https://www.boe.es/doue/2010/083/Z00047-00199.pdf

[2] Art.8 http://www.europarl.europa.eu/charter/pdf/text_es.pdf

[3] http://masmovilidad.com/2017/11/14/alex-rayon-entrevista-bigdata/