“La ciencia de los datos puede llegar a ser más un arte que ciencia”

Miren Gutiérrez*

Me ha llamado la atención estos días un informe sobre el comportamiento de Donald Trump en Twitter titulado “Who’s Tweeting from the Oval Office?”, del polifacético Greg Rafferty (@raffg). Se trata de un estudio de los tweets de Trump para discernir, usando una variedad de métodos, cuáles escribe el presidente de Estados Unidos y cuáles sus asistentes. Una de sus conclusiones es que “la ciencia de los datos puede llegar a ser más un arte que ciencia”.

Sin título

Rafferty estudia un repositorio de 33.000 tweets difundidos desde la cuenta de Trump entre mediados de 2009 hasta el final de 2017. Y luego se embarca en un exhausto análisis, con una variedad de métodos cualitativos y cuantitativos, de las “peculiaridades” del discurso de Trump, y su estilo, sentimientos, emociones, vocabulario y estructura gramatical. Con ello llega a una serie de conclusiones que le permiten identificar cualquier mensaje del presidente estadounidense como suyo o ajeno. Recomiendo leer el informe. Es un todo estudio sicológico del personaje.

Esta reflexión viene también a cuento de un artículo publicado en este blog de la alumna del Programa de Big Data y Business Intelligence de Deusto, Olatz Arrieta, quien habla de la herramienta de análisis R, que utiliza para analizar y comparar discursos de 2007 y 2017 pronunciados por los lehendakaris y reyes en esos años, con conclusiones muy interesantes.

También recurro a R para visualizar relaciones entre once atributos asignados a cuarenta iniciativas de datos en el ámbito del activismo y humanitarismo digital (i.e. data crodwsourcing y cartografía digital de Ushahidi) en mi libro Data activism and social change, que sale en mayo con Palgrave MacMillan. Los atributos (por ejemplo “tiende a trabajar en colaboración con otras organizaciones”) fueron generados a través de la observación empírica y entrevistas con creadores de herramientas y plataformas de datos, así como activistas y periodistas de datos. La idea es ver cuáles eran más frecuentes y si había correlaciones entre ellos. A cada organización se le asignan los atributos que la caracterizan y a cada atributo, una intensidad según cuán frecuente haya sido la actividad o intensa la cualidad atribuidas. Aunque hay un elemento de arbitrariedad en la selección de casos y en la asignación de intensidades, los resultados de esta mezcla de métodos mostraban coherencia y ofrecían una capa de análisis más.

Freq

La Profesora de Deusto Pilar Rodríguez y yo nos apoyamos en el análisis de sentimientos en un reciente artículo sobre una nueva corriente en publicidad que se conoce en inglés como femvertising y que pretende representar a las mujeres como realmente son. En nuestro artículo examinamos la reacción negativa en redes sociales y los sentimientos negativos hacia el anuncio publicitario “Tú decides” de la marca Desigual, que pretendía subirse a la ola del femvertising con mensajes que en realidad nada tenían que ver con la igualdad ni la paridad. La reacción negativa unánime en Tweeter, Facebook y Youtube –y los sentimientos negativos despertados por la publicidad— hizo que la empresa se retractara.

Sin título

El análisis de sentimientos puede servir para analizar las opiniones y actitudes expresadas en diversos canales (desde los discursos públicos a los tweets) para examinar problemas de reputación y para aventurar resultados (i.e. resultados electorales, ingresos de taquilla o comportamiento del mercado de valores). Este implica el procesamiento del lenguaje natural, análisis de texto y lingüística computacional para rastrear el estado de ánimo e información subjetiva en cualquier contenido digital.

El caso es que, aunque el análisis de datos se suele asociar con una mezcla de habilidades, conocimientos y técnicas cuantitativas, esto no es así. Aunque en cada estudio hay que centrarse en aplicar el procedimiento más adecuado a la base de datos que se tenga entre manos, las preguntas de investigación y los resultados que se desean obtener, a veces los mejores análisis llegan de la combinación de métodos.

+Miren Gutiérrez es Directora del Programa «Análisis, investigación y comunicación de datos»