Archivo de la etiqueta: conocimiento

Los algoritmos solos no son la solución

@gutierrezmiren*

Se puede tener una gran capacidad algorítmica, pero si no se tienen los datos adecuados o el conocimiento de la industria al que aplica, esta capacidad no ofrecerá buenos resultados.

Esta es la conclusión de un estudio comparativo publicado por el Overseas Development Institute sobre las plataformas big data que usan datos satelitales y de registros públicos para tratar de visualizar y combatir la pesca ilegal. Pero esta conclusión se podría aplicar a cualquier estudio.

Sin título

La pesca es un campo que genera una gran cantidad de datos. Los buques pesqueros de un tamaño determinado están obligados a inscribirse en diversos registros y, mientras operan en el mar, deben emitir regularmente señales que transmiten sus movimientos. Estas señales son capturadas por otros barcos, estaciones terrenales y satélites.

A través de análisis de bases de datos, así como de encuestas y entrevistas con las cinco principales organizaciones dedicadas al big data sobre la pesca, el último informe del ODI de Londres, del que soy coautora, revela que el potencial que tiene la infraestructura de datos para el monitoreo y estudio de la pesca está siendo socavado por el limitado tamaño y la mala calidad de las bases de datos que se han diseñado hasta ahora para identificar comportamientos irregulares en alta mar.

Para empezar, nadie sabe cuántos barcos de pesca hay en el mundo; y menos qué es lo que están haciendo. Esto dificulta la lucha contra la pesca ilegal.

Pesca ilegal

La pesca ilegal, no declarada y no regulada (conocida por sus siglas en inglés IUU) representa hasta una quinta parte de la captura pesquera mundial, con un valor de entre $10.000 millones y $23.500 millones anuales. Además, cada vez hay más pruebas que relacionan la pesca ilegal con el tráfico de personas y drogas, la corrupción y el lavado de dinero.

También se sabe que tiene un impacto negativo en la seguridad alimentaria, la creación de empleo y el desarrollo de las comunidades costeras en general.

A pesar de las posibilidades que ofrecen los big data para el monitoreo de la actividad pesquera, el movimiento contra la pesca ilegal aún no ha adoptado la llamada revolución de datos.

Una gran cantidad de datos disponible

Según la Organización de las Naciones Unidas para la Agricultura y la Alimentación (FAO), hay aproximadamente 4.6 millones de buques pesqueros, pero la mayoría son pequeños y artesanales. Normalmente, a cada buque de cierto tamaño le pueden corresponder 120 tipos de información, y durante su vida útil puede acumular varios valores en cada campo cada vez que cambia de empresa propietaria, armadora, bandera o nombre. Además, se requiere que todos los barcos pesqueros de más de 15 metros emitan, cada pocos minutos, señales que contengan (entre otra información) la hora, su longitud y latitud.

En consecuencia, existe una gran cantidad de datos sobre embarcaciones pesqueras. Con la aparición de servicios satelitales hacia 2010, estos datos están ahora disponibles comercialmente.

Sin embargo, el informe de ODI destaca que los países desarrollados y las organizaciones multilaterales han tardado en explotar la oportunidad que esto presenta. En lugar de crear una única herramienta de información sobre la flota pesquera mundial, los datos están dispersos en una gran cantidad de registros diferentes. La falta de una única base de datos hace que la detección de la pesca ilegal sea difícil.

La necesidad del análisis de «grandes datos»

El análisis de datos puede compensar la falta de recursos disponibles para patrullar los océanos. Por ejemplo, el primer informe de transbordo de pescado basado en datos, publicado por ODI en 2016, mostró indicios claros de que algunos buques refrigerados que recogen pescado en alta mar para su transporte a los mercados importadores estaban involucrados en operaciones irregulares nunca detectadas previamente.

El ireciente nforme defiende alianzas más sólidas y colaborativas entre los responsables de los datos sobre la pesca . También existe la necesidad de una mejor gobernanza pesquera global. Esto incluye esfuerzos más importantes para combatir la corrupción y las prácticas ilegales, como el uso de pabellones de conveniencia y acuerdos secretos de pesca.

La efectividad de las iniciativas destinadas a lidiar con la pesca ilegal dependerá de la solidez de los datos, de la facilidad con la que se pueden obtener y de nuestra capacidad para interpretarlos en función del conocimiento de la industria. Sin una base de datos única y unificada de la información disponible, la lucha contra la pesca ilegal será una batalla cuesta arriba.

*gutierrezmiren es Directora del Programa de postgrado «Análisis, investigación y comunicación de datos» y profesora de Comunicación de Deusto. Es también investigadora del Overseas Development Institute de Londres y de Datactive de Amsterdam.

Análisis de datos sobre basuras marinas: Bajan las bolsas de plástico, suben los plásticos relacionados con la agricultura

Nuevo informe del Programa “Análisis, investigación y comunicación de datos” de Deusto sobre basuras marinas

Las basuras marinas –constituidas por plásticos sobre todo — son tal problema que este año el Programa de la ONU para el Medio Ambiente (PNUMA) ha lanzado una campaña global para eliminar en 2022 las fuentes de basura en los océanos. La mayor parte de las basuras encontradas en playas y riberas terminan en el mar. Por eso es vital conocer qué tipo de basura y en qué cantidades se encuentran en nuestras playas y ríos, y qué factores influyen su disminución o aumento.

El informe del Programa “Análisis, investigación y comunicación de datos” de Deusto contribuye a responder a algunas de estas en un reciente informe sobre basuras marinas que concluye que:

  • La caída del consumo de bolsas de plástico experimentada en los últimos años en el estado ha tenido un impacto directo en una reducción de un 80% de este tipo de bolsas en las zonas playeras y ribereñas en las que hubo limpiezas entre 2010 y 2015, incluidos. Vimos una relación estadística entre los datos de las limpiezas y de consumo de bolsas.
  • El Parque Regional Puntas de Calnegre-Cabo Cope, en Murcia, es el punto donde más basuras se encontraron por metro lineal de playa de los lugares estudiados (21,77 residuos de todo tipo por metro lineal). En comparación en Euskadi se encontraron 0.53 unidades de residuos por metro lineal.
  • El número de residuos relacionados con la agricultura intensiva y tuberías PVC está en aumento. 2015 multiplica por más de ocho la cantidad de residuos de este tipo encontrados el año anterior.

Gráfico correlación

El informe está basado en el análisis de los datos obtenidos sobre cerca de 50.000 kilogramos de basuras recogidas entre 2010 y 2015 por miles de voluntarios/as de la Asociación Ambiente Europeo (AAE) en cerca de 250  limpiezas en todo el estado, como parte del proyecto International Coastal Cleanup de Ocean Conservancy.

En esos años se realizaron las siguientes limpiezas, en orden de más a menos: Andalucía, 58; Murcia, 54; Valen­cia, 53; Canarias, 28; Islas Baleares, 23; Castilla y La Mancha, 9; País Vasco, 7; Galicia, 4; Cataluña, 3; Ma­drid, 3; Asturias, 2.

basura barras

De los casi 50.000 kilogramos de basuras recogidas, solo 680 kilogramos corresponden a playas y riberas vascas. En total significa 0,12 kilos por metro lineal limpiado. Las más sucias entre las que se hicieron limpiezas son, por año, Pasaia, Gipuzkoa (1.099 residuos  en 2011), Punta Galea (565, en 2015) y Muskiz (424, en 2012), en BizKaia. Las basuras más comunes en las playas y riberas vascas fueron en orden de mayor a menor envoltorios de comida, bolsas de plástico, cuerdas, botellas de plástico, tapas de botellas y latas, lo que, con excepción de la presencia de cuerdas y ausencia de, replica más o menos lo que se encuentra en otras playas. Los plásticos relacionados con la agricultura son frecuentes en las playas andaluzas, murcianas y canarias.

Portada

Hoy el PNUMA calcula que son más de 8 millones de toneladas de plásticos los que ter­minan en el mar cada año; es decir, lo equivalente a tirar un camión entero de plásticos cada minuto. En la próxima década nuestros océanos tendrán alrededor de un kilo de plástico por cada tres kilogramos de pescado. Especialmente preocupantes son los llamados microplásticos, pequeñas partículas de plástico de hasta 5 mm de diámetro, que pueden ingerir peces y así entran en nuestra cadena alimenticia.

El informe está firmado por Ricardo León y Janire Zubizarreta, participantes en el Programa “Análisis, investigación y comunicación de datos” de Deusto, y su directora, Miren Gutiérrez. Se enfrentaron al reto de estandarizar y limpiar una base de datos que no estaba estructurada adecuadamente para su análisis, así como geolocalizar los datos, buscar correlaciones entre datos externos y datos obtenidos de las limpiezas de playas y riberas, y responder a preguntas de investigación de enorme relevancia.

La medicina personalizada como ejemplo del Big Data para la «economía de la personalización»

Hace unos meses (el Enero pasado), hablábamos de la medicina 5P.  El cruce entre la sanidad y el Big Data, donde aparecían conceptos y ventajas como la Personalización, Predicción, Prevención, Participación y Población. En términos de la personalización, decía lo siguiente:

Personalizada: el eterno sueño de la medicina. Poder dar un tratamiento singular al diagnóstico y necesidades concretas de cada uno de los pacientes. Con el Big Data, la cantidad ingente de datos, y el contexto que describe a cada uno de los pacientes, esto es posible. Solo es cuestión de “codificar” en datos lo que hasta ahora no hemos hecho, en cuestión de aspectos clínicos como estado de ánimo, emociones, expresión del dolor, etc.

La personalización de la prestación de un servicio es algo que ha venido inexorablemente ligado a esta era del Big Data. Si lo pensamos por un momento, tiene todo el sentido del mundo. Una reciente encuesta de Infosys, decía como el 78% de los consumidores estaría dispuesto a repetir la compra con una marca si se le personalizaba la propuesta de valor. Otro informe de RightNow Customer Impact, ilustraba la idea de la personalización desde la óptica de más ventas para una marca: un 86% de los consumidores estaría dispuesto a pagar más si la personalización se refería a sus necesidades.

Por lo tanto, hay margen y posibilidad de ganancia en la era de la personalización. Sin embargo, no es un proyecto fácil, por mucho que veamos muchos textos hablando de ello. Y es que hasta la fecha, nos costaba mucho personalizar los servicios por varias cuestiones:

  • No era rentable
  • El consumidor tampoco lo demandaba
  • No teníamos información para hacerlo

Pero ahora, estos tres elementos se desvanecen. Han cambiado. Las posibilidades ahora se multiplican, gracias a que con la ingente generación de datos, el reto está más relacionado con saber sacar valor de los datos que de no tener información para ello. Sin embargo, todavía queda mucho por hacer. Solo el 20% de las acciones de marketing llevan ligadas características de personalización. Esto es solo un ejemplo de un «área», donde la personalización tiene mucho que aportar.

Y más en el campo sanitario, donde las ineficiencias, o donde la no-personalización de la aplicación de algún fármaco, puede traer importantes consecuencias. Miremos la siguiente figura: 

Ineficiencia de algunos fármacos para determinadas poblaciones de pacientes (Fuente: http://www.knowledgedriven.com/media/55013/percent_of_patient_pop_for_which_a_drug_is_ineffective_500x425.jpg)
Ineficiencia de algunos fármacos para determinadas poblaciones de pacientes (Fuente: http://www.knowledgedriven.com/media/55013/percent_of_patient_pop_for_which_a_drug_is_ineffective_500x425.jpg)

En la entrada de la Wikipedia en Español, la definición de «Medicina Personalizada«, hace referencia a varias cuestiones que me parecen bastante ilustrativas de lo que hoy queremos hablar:

  • Administración de un fármaco o conjunto de fármacos más idóneos
  • En las dosis adecuadas para cada paciente concreto
  • A la vista de su individualidad química y genética
  • Se apoya tanto en el conocimiento de la naturaleza molecular de las enfermedades como en la individualidad química que posee cada paciente

Sin embargo, la entrada de la Wikipedia en Inglés ofrece otra serie de elementos que describen de una manera más global y multidimensional el concepto de «personalización», en este caso, para la medicina:

  • Modelo médico
  • Toma de decisiones y prácticas basadas en la personalización y las características individuales de cada paciente
  • Uso sistemático de información genética del paciente

Es decir, habla más de muchos de los elementos que hemos venido citando necesarios para los proyectos de Big Data: una buena materia prima, una transformación de los modelos (de negocio u organizativos), una toma de decisiones basada en la evidencia, etc. Y son cuestiones que vemos en nuestros Programas de Big Data, no solo para la medicina, sino también en otras cuestiones (ofertas publicitarias, planes de carrera personalizados, recomendaciones de productos en tiendas online, etc.). Por eso he señalado en negrita los aspectos más relacionados con esto de la «era de la personalización«.

El estado de adopción de la Medicina Personalizada (Fuente: http://www.photonics.com/images/Web/Articles/2010/9/1/thumbnail_44349.jpg)
El estado de adopción de la Medicina Personalizada (Fuente: http://www.photonics.com/images/Web/Articles/2010/9/1/thumbnail_44349.jpg)

Y todo esto, tiene aplicación en toda la cadena de valor del sector de la salud, no solo en la prestación médica. Y tiene aplicación en otros sectores. Porque el sector sanitario en cierto modo me recuerda a cuando el sector de las telecomunicaciones o las utilities pasó de un modelo de abonado a un modelo de cliente. Una transición que se hizo realmente mal (más allá de la privatización + poca liberalización de España). Los clientes, por el trato recibido, mostraron su poca satisfacción cambiando constantemente de operador (es un sector con un CHURN muy elevado), y ve estos servicios como commodities. Y por eso, también en nuestros programas de Big Data diseñamos y desarrollamos modelos predictivos de propensión a la fuga (CHURN).

En el sector sanitario, el concepto «Consumer Driven Healthcare» hace un poco referencia a todo ello. Los ciudadanos toman un rol activo en la gestión de su salud y están dispuestos a pagar por ello. Se le da: decisión, información y control. Y, de nuevo, hablamos de poner al cliente -el paciente en este caso- en el centro del proceso.

En todo esto, y como solemos concluir muchos artículos, nunca debemos abandonar la ética. Y menos en un campo tan sensible como es el sanitario.

Deusto Ingeniería y su línea Big Data en el Congreso HORECA de AECOC 2016

Nuestra línea de trabajo Big Data de la Facultad de Ingeniería de la Universidad de Deusto estará presente en el próximo Congreso HORECA de AECOC que se celebrará los próximos 1 y 2 de Marzo en Madrid. Me han invitado para divulgar los principales beneficios que aporta el Big Data a la HOstelería, REstauración y CAfeterías (HORECA), desde una perspectiva de negocio. Una oportunidad inigualable para presentar todos nuestros trabajos, dado que es un congreso que reúne anualmente a más de 500 directivos y empresarios de las empresas de toda la cadena de valor de la hostelería.

Venimos colaborando con AECOC en diferentes actividades. Una asociación que recoge a los fabricantes y distribuidores del gran consumo, tal y como su acrónimo indica (la Asociación Española de Codificación Comercial, los que ponen «los códigos de barras«). El curso pasado nos premiaron con el máximo máximo reconocimiento de la categoría de Tecnología Aplicada y el Accésit de la de Supply Chain por una herramienta para la mejora de la cadena de suministro (proyecto donde participó mi compañero Alberto de la Calle) y a nuestra «Deusto Moto Team«, por el diseño y creación de una moto ecológica para el transporte urbano de mercancías (proyecto de mi compañero Jon García Barruetabeña y sus estudiantes).

Y ahora, se interesan por las oportunidades que todos nuestros trabajos en Big Data brindan al sector del consumo en general, y al canal HORECA en particular. Y de ello quería hablar hoy, aprovechando que tengo que preparar las ideas para la conferencia.

Como suelo decir, el Big Data, sirve para tres cuestiones principales:

  1. Ganar más dinero
  2. Evitar perderlo por la fuga de clientes (la importancia de la fidelización)
  3. Ahorro de costes mediante la optimización de procesos

Dada la enorme competencia existente ya hoy en día, la diferenciación debe venir por otras vías. La gran cantidad de canales que disponen los consumidores, el bombardeo de impactos publicitarios, la gigantesca campaña de descuentos y tarjetas de fidelización, etc., está provocando que las marcas tengan que dar un paso más allá. Y, al canal HORECA todo ello le viene genial. Y es que el Big Data, permite:

  • Geolocalizar el target de clientes
  • Estimar el mercado potencial de clientes
  • Hacer una previsión de ventas por zonas y puntos de venta
  • Que permite, a su vez, optimizar el proceso de abastacimiento y logística
  • Optimizar las campañas de marketing y distribución
  • etc.

La clave para las marcas de consumo recae en ser capaces de, primero, generar y estructura bien los datos, y, en segundo lugar, ser capaces de sacar valor de los mismos transformándolos en conocimiento. Hablaré de estos dos elementos a continuación, como forma de agrupar los principales retos y oportunidades que dispone una marca de consumo hoy en día.

En primer lugar, la imperancia de disponer de «datos de calidad«. En nuestro Programa de Big Data y Business Intelligence, lo primero que hacemos es ver esta parte. Tener datos y más datos no tiene sentido por si solo. Hablamos de la importancia de disponer de:

  • Un buen modelo de datos como instrumento de representación y recuperación de los datos, que permita que todos los sistemas que alimentan y explotan los mismos se entiendan.
  • Una buena calidad de los datos que se consigue resolviendo problemas de calidad que pueden aparecer en cinco dimensiones (Relevancia, Unicidad, Completitud, Exactitud y Consistencia).

Esta parte, quizás la «menos sexy del mundo del Big Data«, resulta al final de todo quizás la que más condiciona el éxito de un proyecto. Las empresas deben tener conciencia sobre ello. Y es que en un mundo en el que las fuentes de datos pueden ser internas o externas, estructuradas o desestructuras, etc., ordenar y limpiar los datos es más importante que nunca. Para un canal HORECA, que tendrá datos de redes sociales, información en los CRM, información de los TPVs (transacciones comerciales pagadas vía tarjeta de crédito), datos georeferenciados por dispositivos móviles, etc., resulta fundamental.

En segundo lugar, ser capaces de transformar estos «datos bien preparados» en conocimiento. Es decir, poner los datos a trabajar para ayudar a tomar decisiones. Se trata de introducir la modelización estadística (previsión) y la matemática (optimización), que es lo que vemos en nuestro módulos M2.2. del Programa de Big Data y Business Intelligence.

Y para ello, creo que se deben ejecutar las transformaciones de datos en conocimiento en tres etapas:

  1. Diagnóstico y modelado de perfiles de clientes: resulta crítico conocer mejor al cliente, para que así podamos focalizar mejor el target, definir las estructuras comerciales, promociones, políticas de distribución, etc. Una lectura hacia lo que ha ocurrido en el pasado. En cada punto del canal HORECA, resultaría interesante disponer:
    • Cómo es la gente que ahí compra
    • Su nivel de ingresos
    • Tipología del hogar dominante
    • Tasa de desemploe
    • Precio medio del m2 de la vivienda
    • Dónde está la competencia
    • Dónde se sitúan los puntos de venta
    • etc.
  2. Del modelado del pasado, a la predicción del futuro: una vez que sabemos algo sobre los patrones de consumo, tendencias, etc., es hora de tratar de adelantarnos a la ocurrencia de los hechos. Aquí es cuando hablamos de un enfoque de futuro (el Business Analytics). De tal manera que podamos estimar el mercado potencial para una zona dada, preveer las ventas en cada área o en un canal de venta determinado. Aquí se trata de darle a una empresa:
    • Modelos de propensión a la compra por zonas y puntos
    • Modelos de propensión a la fuga de clientes por previsiones de abandono
    • Localizar el potencial de cada target de mercado (densidad de cada zona)
    • Estimar el lugar óptimo para la apertura de un nuevo emplazamiento sobre la base de la rentabilidad (considerando target, competencia y canibalizar otros puntos de venta propios)
    • Entender lo que gasta y en qué gasta cada perfil de cliente
    • Diseñar estrategias para el cross y up-selling
    • Ajustar la distribución de productos
    • Patrones de consumo georeferenciados (¿se consume más cerca del trabajo o del hogar? Las ofertas y mensajes publicitarios no debieran ser iguales)
    • % de probabilidad de compra de un determinado producto por parte de un determinado perfil de cliente
    • etc.
  3. De la predicción a la prescripción: esto es lo que buscan las empresas. Fijaros la cantidad de pasos previos que he descrito para llegar al punto por el cual las empresas van a pagar un proyecto de Big Data. Van a pagar por saber qué tienen que hacer para ganar más dinero, evitar perderlo u optimizar procesos. Es decir, van a pagar por que les prescribamos que deben hacer. Si nos ajustamos más al target de mercado, y tener una previsión de ventas por puntos y zonas, podremos ajustar mejor los mensajes y las estructuras comerciales, logrando así una mayor eficiencia en el uso de recursos, y por lo tanto, un mayor retorno sobre la inversión. Con las predicciones anteriores, podríamos prescribir a una empresa en relación a todas sus áreas funcionales, haciendo así un 360º a la empresa y su inteligencia:
    • Distribución
    • Abastecimiento
    • Comercial
    • Marketing
    • Ventas
    • Publicidad
    • etc.

Como hemos venido señalando, el poder del Big Data es realmente enorme. En nuestras manos está sacar todo su potencial. Y es que al final, para una empresa del canal HORECA, un mayor conocimiento geográfico del cliente, concentrar esfuerzos donde hay potencial, incrementar la rentabilidad comercial resulta clave para su eficiencia económica y financiera.

Congreso HORECA de AECOC (Fuente: http://www.shoppingleeks.com/wp-content/uploads/sites/8/2015/05/IMG_0535.jpg)
Congreso HORECA de AECOC (Fuente: http://www.shoppingleeks.com/wp-content/uploads/sites/8/2015/05/IMG_0535.jpg)

Del Open Data al Linked Open Data: sacando valor de los datos enlazados

El Big Data, como nuevo paradigma de generación, procesamiento y extracción de conocimiento de los datos, facilita muchas oportunidades. Podemos medirlo prácticamente todo. Esto está dando lugar a diferentes movimientos, como el «Quantify Self«, que nos permite a cada uno de nosotros medir todo lo que hacemos (deporte, ingesta alimentos, horas de sueño, etc.).

Pero, el asunto central no es tanto ya medir, sino entender. Por eso, suelo decir que me gusta más hablar del «Understand Self«. Buscando en Google, veo que todavía no es un término que nadie haya acuñado ni capitalizado. Quizás porque no tiene mucho branding para la industria. Pero quizás podamos extrapolarlo a «Understand Things«. Es decir, que tenemos que cambiar el pensamiento desde la obsesión por el medir y el guardar, a una nueva obsesión: entender, procesar y sacar valor a los datos.

Pero esto no es sencillo. Especialmente, porque los datos brutos son poco expresivos. Necesitamos dar contexto a los datos. ¿Para qué sirve los diez kilómetros o las 1.000 calorias que has ingerido hoy? ¿Para que sirve que una empresa capte 1.000 nuevos leads o tenga más de 200 Likes? Medir está bien, pero hay que dar un paso más allá.

Por todo ello, es importante no confundir datos con información y conocimiento. Si nadie es capaz de analizar la cantidad de datos que generamos, es mejor considerarlo como basura digital. Según un estudio de EMC, en 2013 sólo el 22% de los datos del universo digital fueron útiles, y sólo el 5% de los ellos fueron analizados. A esto me refería al inicio de este artículo.

Supongo que ya habrán visto en innumerables ocasiones la representación estructural entre los Datos, la Información, el Conocimiento, y cada vez más, la Sabiduría. Me refiero a esta representación:

Pirámide Datos - Información - Conocimiento - Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/)
Pirámide Datos – Información – Conocimiento – Sabiduría (Fuente: http://legoviews.com/2013/04/06/put-knowledge-into-action-and-enhance-organisational-wisdom-lsp-and-dikw/)

Representa las relaciones estructurales entre Datos, Información, Conocimiento y Sabiduría. La información son datos con cierto sentido significado, el Conocimiento, es Información y contexto, y la Sabiduría, es Conocimiento aplicado. Hasta aquí, entiendo que no aportamos mucha novedad a lo ya conocido.

Pero, lo que sí creemos que aporta es hacer una reflexión sobre esta pirámide cuando hablemos en entornos del sector público y agentes privados con cada vez mayor conversación e implicación con sus agentes (el fenómeno de la transparencia y la participación).

Son numerosas las iniciativas de Open Data que existen en la actualidad. En España, especialmente impulsadas por la Ley de Transparencia y todas las referencias que dicha normativa hace respecto a la apertura de conocimiento. El problema suele radicar en que nos hemos centrado mucho en hacer un ejercicio de aperturaOpen«), dejando de lado el objetivo último de la utilidad del dato en contextos y aplicaciones (es decir, pasar del dato bruto a conocimiento aplicado). Los beneficios vinculados a este movimiento (transparencia y rendición de cuentas, mejora en la toma de decisiones y promoción de una ciudadanía activa, eficiencia operativa, valor económico, etc.), son claros. Pero, ¿alguien conoce alguna medición objetiva y crítica sobre si realmente estamos alcanzado alguno de esos objetivos?

En todo ello, vemos dos asuntos que debieran pensarse más: 1) Las dificultades para hacer progresos en términos de usabilidad y utilidad de ese bien público que es el dato; y 2) El riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades.

En cuanto al punto 1), cabe destacar aquí el fenómeno que en otros países se está viviendo respecto a la migración del «mero» Open Data, al «Open Linked Data». Los datos, cuanto más enlazados y conectados, más valor y utilidad adquieren.  Existen varias disciplinas habilitadoras como la computación y codificación del conocimiento, las redes, la computación ubicua, el almacenamiento de datos, etc.. Todas ellas, creciendo a un ritmo vertiginoso. El origen y el despliegue de datos es muy considerable, y son generados por sistemas de vigilancia y control (smart metering, control de tráfico), por dispositivos digitales (desde smartphones a cámaras), sensores activos y pasivos, escáner y las diferentes versiones de los datos voluntarios (a través de transacciones, interacciones en redes sociales, sousveillance, sistemas de crowdsourcing y ciencia ciudadana), etc.

¿Cómo juntamos todo eso y le damos una utilidad y una usabilidad a la ciudadanía? A través del enlazamiento. Una capa semántica que dé significado a todos esos datos, y que haga que los datos se entiendan entre sí, y que por consiguiente, las máquinas entiendan a los datos. Esto acelera las capacidades y multiplica las posibilidades a los que quieran sacar usabilidad de todos ellos. Big Data no puede no ser Semantic Big Data. Se trata de hacer que las máquinas entiendan nuestro lenguaje para así procesarlo mejor y ofrecer soluciones más afinadas a nuestros problemas. Crear un hub del conocimiento donde todo esté conectado y bien estructurado. Es decir, pasar al Linked Open Data.

Open Linked Data (Fuente: https://en.wikipedia.org/wiki/Linked_open_data)
Open Linked Data (Fuente: https://en.wikipedia.org/wiki/Linked_open_data)

Y la representación sobre estas líneas trabaja en favor de todo ello. Vemos como ya son muchas las organizaciones que publican datos y los enlazan a una gran red de datasets conectados. Tim Berners-Lee, el inventor de la Web e iniciador de los Datos Enlazados (Linked Data), sugirió un esquema de desarrollo de 5 estrellas para Datos Abiertos.

Esquema de cinco estrellas para datos abiertos (Fuente: http://5stardata.info/es/)
Esquema de cinco estrellas para datos abiertos (Fuente: http://5stardata.info/es/)

★ publica tus datos en la Web (con cualquier formato) y bajo una licencia abierta (un PDF colgado en una web, algo muy habitual en nuestro entorno)
★★ publícalos como datos estructurados (un Excel en vez de una imagen de una tabla escaneada, también bastante habitual)
★★★ usa formatos no propietarios (CSV en lugar de Excel, que ya cuesta ver en el entornos)
★★★★ usa URIs para denotar cosas, así la gente puede apuntar a estas
★★★★★ enlaza tus datos a otros datos para proveer contexto

Creo y espero, que en los próximos años, avancemos más hacia esa web de datos enlazados y abiertos.

Respecto a 2), el riesgo de dar más poder a los que ya lo tienen y acrecentar las desigualdades. En relación a todo ello, me he terminado recientemente de leer el libro «The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences» de Rob Kitchin.  Desde el primer capítulo, este formidable autor se centra en el significado epistemológico de la pirámide DIKW (Data-Information-Knowledge-Wisdom), para afrontar con una mirada crítica, los datos en términos económicos, técnicos, éticos, políticos o filosóficos, con un posicionamiento claro desde el inicio:

“[…] how data are ontologically defined and delimited is not a neutral, technical process, but a normative, political, and ethical one that is often contested and has consequences for subsequent analysis, interpretation and action”.

Esta idea deque el Big Data lo tenemos que sacar de un debate puramente técnico, y llevarlo a otras disciplinas, está cada vez más extendido. Se trata de darle sentido multidimensional a un nuevo paradigma que tiene ideología, normativa, valor económico, etc. Por lo tanto, es susceptible de generar desigualdad, por lo que requiere de intervención pública para mantener nuestros estados sociales de derecho. Es algo que Kitchin no para de destacar a lo largo de todo el libro. Y es algo que tiene mucho que ver con el Linked Open Data; una filosofía marcadamente comunitaria y de generación de riqueza conjunta que puede ayudar en todo ello. Nuestro compañero Diego López-de-Ipiña lleva hablando de esto desde hace ya mucho tiempo (pueden ver sus presentaciónes en su canal de SlideShare).

Esto, que en el mundo del análisis del dato en empresas privadas es importante, más  lo es aún cuando la reflexión se extiende al ámbito público, cuyos socios-dueños-accionistas, somos todos, y no siempre ejercemos como tal con una postura crítica y responsable. El Linked Open Data nos permitirá pasar, de manera efectiva y social, del dato en bruto, al conocimiento colectivo.