Archivo de la etiqueta: datos

Fake news: ¿Problema técnico o social?

Resumen de la entrevista a Miren Gutiérrez, directora del Programa “Análisis, investigación y comunicación de datos de Deusto”,  para el proyecto “Regulación de contenido en y por plataformas”*

  1. ¿Las fake news son principalmente un problema técnico o social?

Para alguien como yo, que ha estado sido periodista durante más de veinte años, las noticias falsas son simplemente mentiras. Puede haber mentiras parciales o mentiras completas; pueden incluir mensajes propagandísticos basados ​​en hechos o contenido totalmente inventado destinado a generar el caos; pueden adoptar la forma de fraude, bots maliciosos, pseudociencia, clickbaits o teorías de la conspiración… Pero estamos hablando de algo similar con diferentes formas, objetivos e impactos. Las fake news siempre han existido. Piensa en el comienzo de los diarios: en la década de los 1830, la mayoría de los periódicos tenían patrocinadores políticos y eran todo menos imparcial. El problema ahora es que la multiplicación de plataformas aumenta exponencialmente su difusión y, por lo tanto, sus efectos. Las fake news no son un problema técnico sino social.

descarga

  1. ¿Cree que se puede poner en marcha regulación que las controle? ¿Qué tipo de regulación?

No estoy segura de cuál es la solución. Me gusta la regulación que protege los derechos de la ciudadanía; pero soy muy cauta en lo que respecta a la sobrerregulación.

Por un lado, ¿por qué deberíamos dejar este tema vital a empresas privadas cuyo principal objetivo es ganar dinero? Estas empresas no han sido elegidas en procesos democráticos; se representan solo a ellas mismas y han dicho explícitamente que no quieren convertirse en reguladoras.  Si la web está atravesando un proceso de «plataformización» y «corporatización», esta pregunta es crucial, porque no estamos hablando de unas pocas plataformas privadas, sino de la libertad de expresión en internet, que ha resistido hasta ahora a la regulación: Internet es caótico, dinámico y hasta chocante, engloba espacios abiertos que Jodi Dean ha llamado «neodemocracias», que tienen como objetivo la confrontación y la pugna. Creo que debemos preservar y cultivar esta libertad, incluso si genera ruido desagradable.

Por otro lado, la autorregulación puede funcionar relativamente bien entre los medios de comunicación. Si las plataformas de redes sociales desearan convertirse en fuentes confiables de información y análisis, podrían actuar como organizaciones periodísticas, convirtiéndose en guardianes de contenido, empleando el método periodístico (es decir, la verificación) y siendo transparentes al respecto. De hecho, algunos están probando la curación algorítmica y otros métodos para identificar y eliminar noticias falsas. La gran diferencia aquí es que los medios de comunicación difunden noticias generadas en procesos periodísticos gobernados por principios periodísticos, mientras que las plataformas son vehículos (no necesariamente neutrales) de contenido de diversa naturaleza, creado por la ciudadanía y otros agentes, algo que es diferente. Es por eso que la actual presión para regular el contenido en las plataformas debería alarmarnos.

No debemos olvidar que el objetivo principal de las corporaciones es hacer felices a sus accionistas, lo que no se traduce necesariamente en hacer felices a los usuarios/as. Los bots y las interacciones tóxicas en las plataformas mejoran sus analíticas. También es por eso que la regulación es complicada.

Este es un tema complejo que incluye no solo la divulgación sino también la recolección de datos. Por ejemplo, a menudo los usuarios tienen que firmar primero un contrato con el servicio de la plataforma. Estos contratos son deliberadamente incomprensibles y excesivamente largos, y los/as usuarios/as con frecuencia terminan firmándolos sin leer con cuidado la letra pequeña. Las plataformas no son ni medios de comunicación ni canales desinteresados ​​para contenidos ciudadanos.

  1. ¿Cuáles son los principales riesgos asociados con la regulación del contenido en las plataformas?

El principal riesgo es sobrerregular, censurar contenido, enjuiciar a las personas por crear contenidos y restringir la libertad de prensa y otros derechos, así como desencadenar la autocensura. Ya existe una larga lista de acciones que son legales offline e ilegales online.

Internet hace que la creación, difusión y exhibición de contenido sea difícil de controlar por parte de los gobiernos, por lo que se ha puesto énfasis en perseguir la «posesión» de contenido. Pero la penalización de la posesión de contenido se ha llevado a extremos, como el caso en el Reino Unido de Samina Malik, que fue sentenciada en 2009 a nueve meses de prisión por recopilar poemas y textos yihadistas, que, de todos modos, estaban disponibles online. Casos como este abundan y nos plantean preguntas complejas.

  1. ¿Cómo crees que la ciudadanía puede participar en el debate y contribuir a resolver el problema?

Debe participar, debe ser consultada y debe contribuir a resolver el problema. Por ejemplo, las experiencias ciudadanas de verificación de hechos se ha multiplicado últimamente. El número de factcheckers en todo el mundo se ha más que triplicado en los últimos cuatro años, de 44 a 149 desde 2014 (un aumento del 239%). La mayoría de los esfuerzos de verificación están en los EE. UU. (47 del total), donde las fake news se han desenfrenado.

Aunque muchas de estas experiencias están vinculadas a medios de información, otras están afiliadas a universidades, grupos de expertos/as e iniciativas dirigidas por ciudadanos/as, lo que indica que la ciudadanía ya está participando en la solución del problema. Además debería estar más involucrada en la toma de decisiones sobre este tema.

Dan Gillmor, con quien generalmente coincido, acaba de publicar un artículo en el que habla precisamente de esto. Dice que las plataformas no deberían ser “la policía de los contenidos” en internet. “¿Por qué hay tanta gente que pide que sean el equivalente a editores de internet? ¿Por qué la gente supone que la solución está en las políticas corporativas y en las decisiones de los/as programadores/as dentro de organizaciones excesivamente centralizadas? Si se desea que la censura sea la regla, no la excepción, esa es una forma de obtenerla”. Gillmor dice que a las plataformas se les debería exigir que 1) permitan que los/as usuarios/as eliminen todo lo que las empresas han recopilado sobre ellos/as; 2) hagan que todos los datos, incluidas las conversaciones, sean «portátiles» de manera que las plataformas competidoras puedan atraer a la gente hacia otros servicios (especialmente aquellos que hacen de la privacidad una característica); 3) limiten lo que pueden hacer con los datos que recopilan; 4) ofrezcan dashboards fáciles de usar que brinden a los/as usuarios/as un control granular de su privacidad y la configuración del uso compartido de datos; y 5) divulguen todo lo que hacen “en un lenguaje simple que incluso un presidente de EEUU pueda entender”.

  1. ¿Cuál es el papel del sector del periodismo en relación con la controversia sobre las noticias falsas?

Tomando prestado de The Elements of Journalism, de Bill Kovach y Tom Rosenstiel, el periodismo debe buscar la verdad implacablemente, esforzándose por poner el interés público por encima de otros intereses, empleando la disciplina de la verificación de manera independiente. Es más necesario que nunca. Cuando aborda las fake news, el periodismo también debe instigar e inspirar un debate sobre el papel de los periodistas, así como el de las plataformas, la ciudadanía, la regulación y la gobernanza de internet.

Además, debería participar activamente en la lucha contra las fake news. Muchas iniciativas de verificación de hechos han surgido en medios de comunicación… Politifact es un ejemplo. Fue creado por Tampa Bay Times, un periódico de Florida, en 2007 (y recientemente adquirido por el Instituto Poynter, una escuela para periodistas sin fines de lucro). El papel del periodismo en esta controversia nunca ha sido tan relevante.

  1. ¿Cómo complementa esta función el papel de otros actores (gobierno, plataformas, sociedad civil)?

Estos actores tienen sus propios espacios de responsabilidad y acción. Los gobiernos deberían regular a favor de la ciudadanía. El periodismo debería estar haciendo su trabajo. Las plataformas deberían ser transparentes sobre sus prácticas y modelos de negocio. Y la sociedad civil debería estar atenta y activa.

Sin título

*SI quieres debatir sobre estos y otros asuntos relacionados con los datos y la transformación social, no te pierdas la conferencia el día 12 de abril en la sede de la DBS en Madrid. Detalles aquí.

Business Intelligence vs. Torturadores de datos

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Retomamos la actividad tras el verano iniciando mi tercer (y penúltimo) módulo del curso anual “Programa de Big Data y Business Intelligence” de la Universidad de Deusto. En esta primera sesión, de un breve repaso de conceptos clave de estadística quiero destacar una frase, que “cojo prestada” de la presentación de nuestro profesor Enrique Onieva, que me ha encantado porque es absolutamente cierta:

“Unos datos convenientemente torturados te dirán todo aquello que desees oír”

El arte de “torturar” datos lo manejan con maestría muchas profesiones como por ejemplo los periodistas, que encuentran soporte a los titulares que convenga publicar, o también por ejemplo (debo de reconocerlo), nosotros los consultores, en algunos informes de diagnóstico o selección. Porque es cierto que siempre encuentras en un conjunto de datos un punto de vista de análisis que refuerza tus argumentos, y a la contra lo mismo.

Por eso, en este mundo del Business Intelligence es tan crucial:

  • Tener claras las preguntas a responder, los objetivos perseguidos en el análisis de los datos, que a menudo requiere de una secuencia de preguntas que van de lo más general a lo más particular y que habitualmente te van obligando a enriquecer tu información con más datos de los inicialmente disponibles.

Así por ejemplo, no es lo mismo preguntarse:

“Qué producto/servicio se vende más” <-> “Con qué producto/servicio ganamos más”

“Qué máquina tiene más incidencias/averías” <-> “Qué máquina tiene más incidencias/averías por unidad de producción”

“Qué clientes hemos perdido” <-> “Qué clientes hemos perdido por nº de reclamaciones/incidencias registradas”

  • Conocer muy bien los datos a analizar: sus circunstancias de obtención, fiabilidad del dato, significado y relevancia de cada campo/atributo disponible, etc.

Resumiendo:

CALIDAD DEL ANÁLISIS=
CALIDAD DEL DATO
+
CALIDAD DEL GESTOR

data wrangling

Fuente: https://alumni.berkeley.edu/sites/default/files/styles/960×400/public/wranglingbigdata.jpg?itok=k0fK1fJQ

¿Quién va a llevarse el beneficio que reportan nuestros datos?

(Artículo escrito por Olatz Arrieta, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

La era del Big Data

A estas alturas creo que todas las personas que estamos en el mundo profesional moderno hemos oído hablar de Big Data, Internet de las cosas, Industria 4.0, Inteligencia Artificial, Machine learning, etc.

Mi reflexión nace de ahí, del hecho innegable de que en estos últimos…¿cuánto? ¿5, 10, 15, 20 años? la presencia de internet y lo digital en nuestras vidas ha crecido de manera exponencial, como un tsunami que de manera silenciosa ha barrido lo anterior y ha hecho que sin darnos cuenta, hoy no podamos imaginar la vida sin móvil, sin GPS, sin whatsapp, sin ordenador, sin internet, sin correo electrónico, sin google, sin wikipedia, sin youtube, sin Redes Sociales,…Basta mirar a nuestro alrededor para ver un escenario inimaginable hace pocos años.

Hasta aquí nada nuevo, reflexiones muy habituales. Pero yo quería centrarme en un aspecto muy concreto de esta revolución en la que estamos inmersos, yo quería poner encima de la pantalla ( 😉 ) el valor económico de los datos y los nuevos modelos de negocio que esto está trayendo y va a traer consigo, con nuevos servicios, agentes y roles, actualmente inexistentes, que deberán de ser claramente regulados, tanto a través de las leyes, como sobre todo, en las compraventas y contratos entre privados. Y para ello, es importante que vayamos pensando en ello.

La gran pregunta

¿De quién es la propiedad de un dato? ¿Quién tiene la capacidad de explotar y sacar rentabilidad de los datos, tanto directamente como vendiéndolos a terceros?

Es una pregunta compleja con implicaciones legales que cómo he dicho habrá que desarrollar, pero la realidad es que, hoy por hoy, el dato lo explota quien sabe cómo hacerlo y quién tiene la capacidad tecnológica y económica para hacerlo: léase los gigantes de internet, los grandes fabricantes tecnológicos, las operadoras de telecomunicaciones, la banca y aseguradoras,  grandes distribuidores, fabricantes de automóviles, etc., entre otros. Aparte está el sector público que se supone que va a actuar en este proceso, de manera neutral, velando por la privacidad de los datos y compartiendo todo lo publicable a través del open-data  para la libre explotación por parte del sector privado.

Volvamos al valor del dato. Hace unos meses veía en youtube una entrevista a un Socio de Accenture que contaba, hablando sobre el bigdata, que en una comida que había tenido días antes con un Consejero de una Aseguradora, este Socio le había transmitido su sorpresa por la reciente compra de un hospital por parte de la aseguradora, ya que solo veía pérdidas y activos obsoletos…..…..a lo que el Consejero le contestó: “Ya lo sabemos, pero su valor es un intangible…estamos pagando por la información de sus pacientes”. Dichos datos iban a poder tener  un doble (al menos) valor para la aseguradora, el primero, la explotación directa de los datos a través de algoritmos de machine learning que le permitirían el ajuste de los perfiles de riesgo de sus clientes y otro para comercializarlos y vendérselos, por ejemplo, a una farmacéutica.

Esto es un pequeño ejemplo de lo que ya está pasando, y no sólo en EEUU donde parece que estos temas van muy por delante, sino en nuestro entorno más cercano, donde las grandes empresas del tipo que he comentado, están comprando y vendiendo datos de clientes y usuarios.

Podríamos hablar también del caso clarísimo de las operadoras de móvil o de la banca que disponen del detalle de toda la vida de sus clientes, dónde van, con quién hablan, en qué y dónde gastan,..

Esto no es una crítica ni una denuncia porque realmente no están haciendo nada ilegal ni falto de ética, sino simplemente invertir mucho y ganar todo el dinero que pueden. Seguro que están respetando los datos personales, que sí están regulados por la LOPD, pero sí es verdad que todo esto está ocurriendo gracias a la falta de cultura digital y de conciencia del valor del dato de los usuarios-ciudadanos, que no dudamos en aceptar/firmar, sin mirar, los acuerdos de uso que nos ponen delante, con tal de poder utilizar esos servicios digitales que se han convertido en “imprescindibles” para nosotros.

Yendo al caso concreto del sector del automóvil. Hace poco leía la biografía de Elon Musk, fundador de TESLA, entre otras empresas, que es uno de los fabricantes de coches eléctricos más innovadores y digitalizados. En el libro contaba como dotan a sus coches de un complejo sistema de sensorización conectado a su central, con el que monitorizan el desempeño de cada elemento del coche así como el uso del mismo, ofreciendo a sus clientes un servicio de anticipación de necesidades y prevención de incidencias, totalmente transparente para los clientes, que pueden llegar a encontrarse, por ejemplo, como se les presenta a las 9 de la mañana en casa un técnico de TESLA para entregarles un coche de sustitución porque van arreglar el sistema de aire acondicionado que estaba empezando a desajustarse, cuando el usuario no había siquiera notado nada, o que al arrancar el coche por la mañana se les muestra en la pantalla del coche, ofertas de un supermercado al que suelen ir o de una hamburguesería  que está camino al trabajo….todo esto está ocurriendo ya.

se les presenta a las 9 de la mañana en casa un técnico de TESLA para entregarles un coche de sustitución porque van arreglar el sistema de aire acondicionado que estaba empezando a desajustarse, cuando el usuario no había siquiera notado nada

Hablando de industria 4.0…., ¿podría un fabricante de maquinaria industrial ofrecer a sus clientes su producto ya sensorizado, de manera que pueda monitorizar y explotar centralizadamente los datos de funcionamiento de todas las máquinas instaladas en distintos clientes con el consiguiente incremento de la información sobre su uso que eso supone, y ofrecer directamente, o a través de una tercera empresa a la que venda esa información, servicios de mantenimiento preventivo personalizado u optimización de consumos energéticos a sus clientes? ….Todo esto y mucho más se puede hacer y se hará (si no se está haciendo ya..).

Y vuelvo al asunto que planteaba, ¿de quién es la información registrada sobre los hábitos de vida/fabricación de esos clientes?¿del fabricante que ha instalado los sensores y elementos de comunicación en el coche/máquina que permiten el registro, digitalización, transporte y explotación de los datos, o…. del cliente que es quién genera realmente el contenido?¿Podría un cliente negarse a facilitar esos datos, parece que sí, pero mejor aún, ¿podría un cliente quedarse con una parte de los beneficios que, por ejemplo, TESLA pueda estar obteniendo de la venta de sus datos a los comercios de la zona para que hagan sus ofertas o el fabricante de maquinaria pueda estar obteniendo de la venta de datos a terceros para que ofrezcan servicios de mantenimiento u optimización?

¿Podrán existir intermediarios de datos que nos gestionen y rentabilicen la información que generamos, de manera similar a como hacen los gestores de banca con nuestro dinero?

Se avecina un terreno de juego nuevo, con nuevas reglas por construir y con un enorme potencial de negocio para quienes sean capaces de entender antes sus posibilidades y desarrollar nuevos modelos de explotación y servicio, y tanto las personas como las empresas debemos, al menos, empezar a ser conscientes de nuestro valor y papel en todo esto.

Valor económico de los datos (Fuente: http://www.centrodeinnovacionbbva.com/sites/default/files/cibbva-el-valor-de-los-datos-para-el-consumidor.jpg)
Valor económico de los datos (Fuente: http://www.centrodeinnovacionbbva.com/sites/default/files/cibbva-el-valor-de-los-datos-para-el-consumidor.jpg)

Análisis de datos sobre basuras marinas: Bajan las bolsas de plástico, suben los plásticos relacionados con la agricultura

Nuevo informe del Programa “Análisis, investigación y comunicación de datos” de Deusto sobre basuras marinas

Las basuras marinas –constituidas por plásticos sobre todo — son tal problema que este año el Programa de la ONU para el Medio Ambiente (PNUMA) ha lanzado una campaña global para eliminar en 2022 las fuentes de basura en los océanos. La mayor parte de las basuras encontradas en playas y riberas terminan en el mar. Por eso es vital conocer qué tipo de basura y en qué cantidades se encuentran en nuestras playas y ríos, y qué factores influyen su disminución o aumento.

El informe del Programa “Análisis, investigación y comunicación de datos” de Deusto contribuye a responder a algunas de estas en un reciente informe sobre basuras marinas que concluye que:

  • La caída del consumo de bolsas de plástico experimentada en los últimos años en el estado ha tenido un impacto directo en una reducción de un 80% de este tipo de bolsas en las zonas playeras y ribereñas en las que hubo limpiezas entre 2010 y 2015, incluidos. Vimos una relación estadística entre los datos de las limpiezas y de consumo de bolsas.
  • El Parque Regional Puntas de Calnegre-Cabo Cope, en Murcia, es el punto donde más basuras se encontraron por metro lineal de playa de los lugares estudiados (21,77 residuos de todo tipo por metro lineal). En comparación en Euskadi se encontraron 0.53 unidades de residuos por metro lineal.
  • El número de residuos relacionados con la agricultura intensiva y tuberías PVC está en aumento. 2015 multiplica por más de ocho la cantidad de residuos de este tipo encontrados el año anterior.

Gráfico correlación

El informe está basado en el análisis de los datos obtenidos sobre cerca de 50.000 kilogramos de basuras recogidas entre 2010 y 2015 por miles de voluntarios/as de la Asociación Ambiente Europeo (AAE) en cerca de 250  limpiezas en todo el estado, como parte del proyecto International Coastal Cleanup de Ocean Conservancy.

En esos años se realizaron las siguientes limpiezas, en orden de más a menos: Andalucía, 58; Murcia, 54; Valen­cia, 53; Canarias, 28; Islas Baleares, 23; Castilla y La Mancha, 9; País Vasco, 7; Galicia, 4; Cataluña, 3; Ma­drid, 3; Asturias, 2.

basura barras

De los casi 50.000 kilogramos de basuras recogidas, solo 680 kilogramos corresponden a playas y riberas vascas. En total significa 0,12 kilos por metro lineal limpiado. Las más sucias entre las que se hicieron limpiezas son, por año, Pasaia, Gipuzkoa (1.099 residuos  en 2011), Punta Galea (565, en 2015) y Muskiz (424, en 2012), en BizKaia. Las basuras más comunes en las playas y riberas vascas fueron en orden de mayor a menor envoltorios de comida, bolsas de plástico, cuerdas, botellas de plástico, tapas de botellas y latas, lo que, con excepción de la presencia de cuerdas y ausencia de, replica más o menos lo que se encuentra en otras playas. Los plásticos relacionados con la agricultura son frecuentes en las playas andaluzas, murcianas y canarias.

Portada

Hoy el PNUMA calcula que son más de 8 millones de toneladas de plásticos los que ter­minan en el mar cada año; es decir, lo equivalente a tirar un camión entero de plásticos cada minuto. En la próxima década nuestros océanos tendrán alrededor de un kilo de plástico por cada tres kilogramos de pescado. Especialmente preocupantes son los llamados microplásticos, pequeñas partículas de plástico de hasta 5 mm de diámetro, que pueden ingerir peces y así entran en nuestra cadena alimenticia.

El informe está firmado por Ricardo León y Janire Zubizarreta, participantes en el Programa “Análisis, investigación y comunicación de datos” de Deusto, y su directora, Miren Gutiérrez. Se enfrentaron al reto de estandarizar y limpiar una base de datos que no estaba estructurada adecuadamente para su análisis, así como geolocalizar los datos, buscar correlaciones entre datos externos y datos obtenidos de las limpiezas de playas y riberas, y responder a preguntas de investigación de enorme relevancia.

Entrevistamos a Nagore de los Ríos, profesora de nuestro Programa de Big Data y Experto en Comunicación y Datos

La comunicación corporativa ya tiene claro que la mejor manera de llegar a sus receptores es con la caracterización y eso sólo se consigue a través del Big Data” (Nagore de los Ríos)

NagoreDeLosRios

Nagore de los Ríos participará en nuestro Programa en Big Data y Business Intelligence  y Programa Experto en Análisis, Investigación y Comunicación de Datos que impulsa la Universidad de Deusto. Fundadora de Irekia, portal de Gobierno Abierto del Gobierno Vasco, y consultora Senior del Banco Mundial en iniciativas de Comunicación y Open Data, acercará su experiencia en el ámbito del Big Data y otras cuestiones vinculadas con la comunicación y el Business Inteligence. Para Nagore de los Ríos, la complejidad del ámbito comunicativo en la actualidad, cuando se incorpora el Big Data, hace necesario el uso de metodologías, como Outreach Tool, para diseñar estrategias y planes de comunicación. Participará en el módulo M3.1 de nuestro Programa de Big Data, en colaboración con Mª Luz Guenaga y Alex Rayón, en las sesiones de Open Data y visualización de datos.

Periodista de formación, consultora en Comunicación, experta en Open Data, ¿cuál es tu aportación al Programa en Big Data y Business Intelligence?

Tanto el Open Data como la comunicación están muy ligados a los Datos. El Open Data porque en sí mismos son fuentes de datos que cualquiera puede extraer y con ello enriquecer su propio Big Data, cruzando sus datos con los Open Data, lo que supone aplicar el Business Intelligence de una forma mucho más enriquecida y además de manera gratuita. Es la materia prima más barata y accesible que alcanza gran valor cuando se cruza con otros datos bajo las preguntas adecuadas. 

Y cuando hablamos de comunicación, en primer lugar, los datos son la primera y mejor fuente de información, la más fiable, la que nos aporta el mejor conocimiento, por lo que es clave realizar buenas preguntas a los datos para que nos ofrezcan las respuestas que deseamos conocer. En segundo lugar porque para comunicar es muy importante asegurarnos de que no generamos ruido, de que el destinatario está receptivo a nuestro mensaje y es el destinatario acertado. De este modo, el Big Data se utiliza en dos momentos claves de la comunicación, el primero de ellos a la hora de hipersegmentar a los destinatarios, saber lo que desean o necesitan escuchar y en segundo lugar a la hora de vincular los mensajes y segmentarlos de la misma manera. Muchas veces queremos comunicar demasiadas cosas a todas las personas y eso no es eficaz. Si a la Comunicación le aplicamos las técnicas de Business Intelligence y utilizamos bien el Big Data podemos obtener la respuesta exacta de quien es el que necesita recibir un determinado mensaje, y qué mensaje es el más adecuado.

Y por último el Big Data está muy ligado al Marketing y a la Comunicación sobre todo a la hora de conocer los resultados, establecer los indicadores, extraer información valiosa de las redes sociales y de lo que las personas y marcas están hablando así como observar los impactos que al emitir los mensajes somos capaces de producir o no en nuestros públicos objetivos.

Cuando hablamos de comunicar, contamos con dos ámbitos, el del periodismo tradicional y la comunicación corporativa o institucional. ¿Qué beneficios obtiene cada uno de ellos?

Ambos mundos están despertando y entendiendo que los datos son la mejor fuente de información posible. En el ámbito del periodismo se están dando cuenta de que los datos no mienten y no tienen intenciones o están condicionados, los periodistas empiezan a ver una ventaja no solo en la objetividad de sus informaciones sino también en el acceso a las fuentes y en la rapidez para encontrar las respuestas y poder con ello contar las historias que los datos guardan. 

En el ámbito de la comunicación corporativa también se están dando cuenta de que para llegar a sus receptores o clientes de forma más directa la hipersegmentación es básica y sólo se consigue a través del Big Data. Gracias al Big Data además pueden localizar a nuevos receptores que son público objetivo de las marcas o empresas, más allá de los habituales medios de investigación sobre audiencias, que se centraban en los últimos años en receptores que desde las redes sociales estaban dispuestos a escuchar los mensajes de la marca o los seguidores o fans que se conseguían por otras vías del marketing. 

¿De qué modo puede ayudar el Big Data a la comunicación de empresas e instituciones?

Con la aparición de las redes sociales, las organizaciones encontraron una forma más directa de llegar a su audiencia sin pasar por intermediarios, pero se encontraron con el problema de captar tráfico y atraerlas hasta sus perfiles o webs para poder hacer llegar sus mensajes. Gracias a la publicidad en internet que facilita la segmentación pudieron acotar a ese público pero seguían esperando a que fuesen los consumidores quienes, buscando productos similares o a través de palabras claves, acabasen en sus publicaciones o anuncios. Ahora con el Big Data hemos alcanzado ya el tercer nivel, y son las marcas las que por distintas vías recopilan información de los consumidores, y utilizan el mejor canal para llegar a ellos.

Otra ventaja que encuentran ahora todas las organizaciones públicas o privadas es que pueden cocrear mejor sus servicios con los destinatarios y usuarios finales. Ya no se basan en intuiciones o en evidencias o en encuestas o preguntas de satisfacción donde los usuarios decían que es lo que ellos mismos creían que necesitaban o querían (y digo creían porque muchas veces pensamos que nos vamos a comportar de una cierta manera o vamos a tener unas necesidades concretas y luego la realidad es totalmente diferente). Los servicios y productos se pueden cocrear ahora de forma más fehaciente, prediciendo el futuro y ofreciendo soluciones a lo que verdaderamente se va a consumir o necesitar

Pero para ello hace falta actuar con cierto método, por el volumen de información que se maneja.

Si hablamos de comunicación en concreto, y queremos aplicar una estrategia y un plan de comunicación toda esa información que el Big Data y el Business Inteligence nos ha aportado lo debemos canalizar y nos sirve de base para realizar una estrategia. Contar con una estrategia definida permite señalar objetivos y llegar a alcanzarlos, no perder la perspectiva, ser eficaz en el desarrollo de la ocupación correspondiente, no malgastar tiempo ni recursos, sobre todo en un mundo tan complejo como el presente. Y una vez determinada la estrategia es necesario un plan de acciones, porque el plan permite conocer de antemano qué se pretende conseguir y cómo se piensa lograrlo.

Y para diseñar esa estrategia y el plan con el que se va a ejecutar, es necesaria una metodología. En este sentido, os recomiendo una metodología abierta y gratuita que se llama Outreachtool.com, que está empezando a dar sus primeros pasos ahora.

¿Nos puedes explicar qué es Outreach Tool, y que supone para la Comunicación corporativa e institucional en el ámbito del Big Data?

Se trata de una herramienta para generar estrategias y planes de comunicación efectivos de manera abierta, sencilla, intuitiva y ágil. Está publicada bajo la licencia Creative Commons y se conforma por una metodología y una tabla dinámica, que se pueden descargar gratuitamente. Se desarrolla en tres fases y se resuelve en un calendario de acciones para desarrollar la estrategia que se genera con la metodología.

A grandes rasgos (porque la metodología es más completa) La primera fase gira en torno a la empresa, institución, marca personal para la que se prepara la estrategia. La segunda fase analiza el conjunto de receptores a los que se dirige el plan, con una profunda hipersegmentación de destinatarios. Porque no les interesa lo mismo a unos destinatarios que a otros, ni se quiere conseguir lo mismo de todos ellos. Esto marcará también lo que se va a comunicar, que se analiza en la tercera fase, cuando se concreta el qué, el cómo, el con qué y el cuándo comunicar.

Nuestro empeño con Outreach Tool ha sido obtener un mecanismo fácil de comprender y aplicar que, no obstante, no se desvirtúe al simplificar en demasía el complejo entramado de claves que afectan a la comunicación. Buscamos que no se escape ningún detalle, que no caiga en la improvisación ninguna parte esencial de una buena estrategia de comunicación, pero que, al tiempo, no te resulte un trabajo farragoso ni tedioso.

¿Y cómo interviene el Big Data en Outreach Tool?

Para realizar cualquier estrategia es imprescindible poseer información que nos indique que caminos tomar. Se puede trabajar con intuiciones, como hasta ahora se desarrollaban los planes de comunicación. También con la recogida “manual” de información con entrevistas, estudios, análisis, encuestas… Pero si esa información es obtenida a través del Big Data tendrá un grado de acierto mayor. Y, por supuesto, con la combinación de las tres vías, el resultado será todavía mejor.

Oh my Goat!

(Artículo escrito por Miren Gutiérrez, directora del Programa Experto en Análisis, Investigación y Comunicación de Datos de la Universidad de Deusto)

El nuevo indicador de pobreza se visualiza con “mitras” y “coronas”: cuanto más elevada la mitra, más pobre el país (ver LIC o low income countries), cuanto más agudos los picos de la corona, más rico (ver HIC o high income countries).

hic lic

¿Es un nuevo indicador de Naciones Unidas? No, es un trabajo de un alumno del Programa Experto Análisis, investigación y comunicación de datos” de Deusto.  Resulta que la presencia de cabras en un país está directamente relacionada con la pobreza.

Con esta premisa, Santiago López se  propuso “descubrir la verdad sobre la idea generalizada de que la cabra es un producto de regiones sin recursos o en desarrollo, o es una imagen transmitida por los films en los que se muestran regiones pobres con un niño pastoreando cabras. Ya que alternativamente las modernas tendencias culinarias y gastronómicas han añadido al conocido asado de cabrito, los exquisitos beneficios de la leche de cabra y de su delicioso queso de cabra”.

Resultó, además, que en la historia, conforme los países van desarrollándose, desde 1961 hasta 2013, el ganado caprino va desapareciendo (ver siguiente gráfico).

¿Cómo se ha hecho este estudio? Primero, los datos se obtienen de diversas fuentes oficiales y no oficiales, con métodos tan dispares como descarga de archivos xls y csv de fuentes de datos Open Data y con formación de datos mediante técnicas y herramientas de scraping de archivos pdf y páginas web. Y homogenizando datos de Excel con Google Refine, verificando la información, cantidades, superficies, etc., seleccionando años y realizando comparaciones de la hipótesis en series anuales para verificar su coherencia y evolución a través de los años.

Pero lo más interesante es la idea y la forma en que se ha comunicado.

Si te apetece aprender estas técnicas, pero sobre todo cómo encontrar historias en los datos y comunicarlas, apúntate al Programa Experto “Análisis, investigación y comunicación de datos” de Deusto.

Summerlab 2016: Datactive, proyecto acerca de las políticas de Big Data

  • SUMMERLAB 2016, Tabakalera
  • Fecha: Sábado, 16 de Julio, 2016, 16:00
  • Lugar: Hirikalabs. Digital Culture & Technology Laboratory.

Este sábado 16 de Julio la experta en tecnologías de los movimientos sociales y comunidades de hackers Stefania Milan estará en Tabakalera el sábado, 16 de julio, a las 16:00, en Hirikilabs, hablando de activismo de datos. La profesora de nuestra universidad Miren Gutiérrez moderará el debate. Te puedes registrar en este enlace.

Stefania_Milan

Stefania es profesora asistente de New Media y Cultura Digital de la Universidad de Amsterdam, directora del laboratorio de datos J Lab, dedicado a análisis del fenómeno Big Data, y la investigadora principal de DATACTIVE, un proyecto acerca de políticas de Big Data, financiado por el Consejo Europeo de Investigación.

Es una apasionada de la interacción entre las tecnologías y la sociedad, y en particular, investiga las posibilidades de auto-organización y emancipación que ofrece la tecnología digital. Experta en ciencias políticas por formación, se siente en casa en la investigación interdisciplinaria que abarca los estudios críticos de internet y los Big Data, de los movimientos sociales, y de la tecnología.

La presentación se centra en la epistemología de los datos y la noción de activismo datos. Vivimos en una época de abundancia de datos, uno en el que los datos son mucho más que una mercancía o una herramienta para la vigilancia, sino más bien una metáfora del poder. El boom actual de los «datos» como motor de las sociedades contemporáneas ha afectado no sólo a los gobiernos y las empresas, sino también a la sociedad civil organizada. Los datos son una metáfora de la transparencia y una herramienta para la movilización también, y han inspirado una serie de prácticas en ciudadanía, incluyendo las iniciativas de los hackers cívicos, y las campañas que se aprovechan de la «libertad de información» la legislación. El proyecto, todavía en su infancia, explora cómo los movimientos y la ciudadanía utilizan los datos y las técnicas de periodismo de datos (como el arte de conseguir historias a partir de números) para provocar el cambio social.

Stefania tiene un doctorado en Ciencias Políticas y Sociales del Instituto Universitario Europeo (IUE) (2009). Antes de unirse a la EUI, estudió Ciencias de la Comunicación en la Universidad de Padua, Italia.

Es co-presidenta del Grupo de Trabajo de Política de Comunicación IAMCR. Actualmente es parte del Comité Ejecutivo de la circunscripción de uso no comercial de la ICANN. También miembro varias asociaciones académicas, entre ellas la Asociación Internacional de Comunicación, Giganet, la Asociación de Estudios Internacionales, la Asociación Europea de Sociología. Como consultora, ha trabajado para la Comisión Europea, el Ministerio de Educación italiano, y muchas ONG internacionales.

big data deusto

Las ciudades en el Siglo XXI: conectividad y datos

En este humilde blog, ya hemos hablado con anterioridad de las ciudades inteligentes. Lo hicimos para referirnos al cruce entre las ciudades y el Big Data y cómo se puede contribuir mutuamente (en este artículo), y también, para hablar del caso particular de Bilbao, que ha apostado mucho -y sigue haciéndolo- por las soluciones inteligentes basadas en el análisis de datos (en este otro artículo).

Pero no está todo escrito. Es más, es un campo, donde se sigue recibiendo mucha inversión, y donde sigue habiendo mucho interés por muchos agentes en ver las posibilidades que abre. De hecho, en el pasado foro Smart City World Expo de Barcelona, se mostraron muchas soluciones que se están llevando a cabo por el mundo para hacer de las ciudades un mejor lugar para vivir. Hay que considerar que la tecnología tiene siempre mucho que aportar allí donde hay retos humanos y sociales. La tecnología extiende el esfuerzo humano, lo complementa, y lo ayuda. Y un ente que va a tener muchos retos va a ser la ciudad, cuando se espera que en 2050 hasta un 75% de la población mundial viva en zonas urbanas. Ahora mismo, también ya estamos en una era de las megaciudades.

La era de las megaciudades (Fuente: http://www.un.org/en/development/desa/population/images/events/other/aWorldOfCities.jpg)
La era de las megaciudades (Fuente: http://www.un.org/en/development/desa/population/images/events/other/aWorldOfCities.jpg)

Carlo Ratti, un investigador del MIT en el Departamento de Estudios Urbanos y Planificación, suele referirse a estos retos y a estas soluciones que las ciudades necesitan apoyándose en un símil con la Fórmula 1. Quizás hayan visto recientemente la película Rush. En ella, se puede disfrutar del espectacular duelo que tuvieron Niki Lauda y James Hunt. Una Fórmula 1, donde todavía no había sensores en todas las esquinas, la telematría no jugaba el papel que desempeña hoy, y en el que el coche y el piloto lo era todo. Pero, hoy en día, las ventajas competitivas, además del coche y el piloto, lo de la infraestructura de procesamiento y la recogida de datos (información en tiempo real del estado de la pista, el viento, condiciones del vehículo, etc.).

Siguiendo con el símil, nos vamos de las pistas de la Fórmula 1 a las ciudades. Estamos hablando de zonas urbanas que si las dotamos de sensores -recogida de datos- y de elementos de conectividad -adquieren capacidad de comunicar el estado de las cuestiones: clima, equipamiento, etc.-se podrán gestionar de manera más eficiente los servicios. Éste, debe ser el fin de disponer de una ciudad completamente sensorizada y conectada. Poner en valor los datos transformando los modelos de prestación de servicios a los ciudadanos hacia un mundo en el que el dato se convierte en palanca de ventaja competitiva para su bienestar.

¿Y qué se está haciendo en el mundo en relación a esto? Muchas cosas. Los datos y la conectividad son los protagonistas ya en muchos sitios. Desde cruces inteligentes que reducirían no solo los tiempos de espera en semáforos o rondas,  microbuses sin conductor en Países Bajos, Singapur o California, drones con aplicaciones para colaborar en situaciones de emergencia médicas, etc. Son solo algunos de los ejemplos donde los datos fluyen, hasta situarse en el centro de la gestión de una ciudad.

Una ciudad inteligente con datos y conectividad (Fuente: http://www.bigdatacompanies.com/wp-content/uploads/sites/8/2013/05/Smarter-Cities.jpg)
Una ciudad inteligente con datos y conectividad (Fuente: http://www.bigdatacompanies.com/wp-content/uploads/sites/8/2013/05/Smarter-Cities.jpg)

Como decíamos al comienzo, es cierto que las TIC ayudan al humano. Pero todavía falta mucho por realizar. Las ciudades todavía están en pleno proceso de digitalización. Y con ello me refiero básicamente a la instalación de sensores capaces de recoger datos de cualquier lugar de una ciudad. Es lo que tiene este nuevo paradigma del Big Data: recojamos datos, que luego ya nos encargamos de encontrar lógica alguna o inteligencia sobre los mismos. La eventual saturación del tráfico, volúmenes de ruido o contaminación excesivos, etc. son consecuencia de disponer de esta infraestructura.

Pero, ojo, no olvidemos que llenar una ciudad de sensores no la convertirá automáticamente en inteligente. Disponer de buenos datos ya comentamos era clave. Disponer de una buena infraestructura de datos, también. Pero una vez que disponemos de las herramientas, necesitamos otros elementos para que el proyecto sea realmente útil y provechoso:

  • Liderazgo: necesitamos de políticos y representantes que se crean el valor que aportan los datos, y lo pongan en el corazón de sus políticas. No solo necesitamos que lo cuenten en los discursos, sino también que haya políticas transformadoras sobre el análisis de datos que hayan hecho.
  • Habilidades analíticas y estratégicas: y claro, para que esos líderes tomen esas decisiones, las habilidades analíticas que deban incorporar en sus equipos se tornan fundamentales. Y convertir así, esos análisis de datos en toma de decisiones estratégicas.
  • Toma de decisiones: decidir. Hay veces que incluso es bueno decidir, para poner en marcha el «prueba y error» de toda la vida.

Las ciudades, se beneficiarán de esta era de los datos. Pero necesitamos líderes, habilidades analíticas y decisiones. Estos otros elementos menos divulgados harán que esto de las ciudades inteligentes sea una realidad.

Cuando los algoritmos se convierten en cajas negras

Les voy a recomendar un libro que me ha parecido realmente espectacular: «The Black Box Society: The Secret Algorithms That Control Money and Information«.

Fuente: Amazon
Fuente: Amazon

Empecemos por lo básico, definiendo qué son los algoritmos y por qué hablamos ahora de «cajas negras». Los algoritmos básicamente es lo que hacemos los informáticos cuando nos ponemos a crear una serie de reglas abstractas para transformar datos. Es decir, cogemos una fuente de información o datos, y dado que no está expresado ni representan aquello que queremos obtener, diseñaños y desarrollamos una serie de reglas que permiten encontrar, expresar y representar aquello que estábamos buscando.

Además, desde que hemos introducido el paradigma Big Data, los algoritmos también buscan, patrones, relaciones, etc. Dado que cada vez codificamos y automatizamos un mayor número de nuestras conductas, deseos, emociones, etc. en entornos digitales, producimos una mayor cantidad de datos. Y más interesante resulta para muchas industrias desarrollar algoritmos para encontrar inteligencia que transformar en negocio.

Por ello, hoy en día, tenemos muchos, muchísimos algoritmos. Además, cada vez más sofisticados. Junto con el hardware y las redes, constituyen los ejes clave sobre los que pivota esta transformación digital de muchas industrias. Estamos ya ante las máquinas más sofisticadas del planeta. Lo cual está muy bien: más seguridad, optimización de las rutas para evitar perder tiempo, frenos automáticos, etc. 100 millones de líneas de código incorporan los nuevos vehículos (frente a las 60 millones de líneas que tiene Facebook y las 5 millones de líneas que tiene el colisionador de hadrones, para que se hagan a la idea de la complejidad de la que habalmos). Estamos ante las primeras máquinas que están alcanzando los límites biológicos de la complejidad.

El problema, además de su complejidad, es que fueron concebidos por una serie de personas, que seguían algún objetivo, no siempre claro. La intencionalidad del ser humano es inherente a lo que hacemos. Actuamos en base a incentivos y deseos. Por lo tanto, la pregunta que nos solemos hacer cuando pensamos en las cajas negras de los algoritmos pasan por su reingeniería. Es decir, saber cuáles son las reglas que los gobiernan.

Algoritmos de caja negra (Fuente: https://es.wikipedia.org/wiki/Caja_negra_(sistemas)#/media/File:Blackbox3D.png)

Cuando no sabemos qué reglas son éstas, hablamos de algoritmos de «caja negra». No sabemos cómo funcionan, cuál es el criterio con el que lo hacen, con qué objetivos fueron concebidos, etc. Por ello, el libro que os recomendaba al comienzo, sugiere que comencemos a discutir también sobre el «accountability» o «escrutinio» de los algoritmos. En una era en la que las apuestas contras las divisas de los países, los coches o servicios públicos son autónomos, o personas o sistemas de Big Data que toman decisiones de sanidad son codificadas en algoritmos, no podemos esquivar esta conversación.

En este sentido, el libro de Pasquale, introduce la «Ética de la tecnología» bajo tres perspectivas que debieran ser consideras cuando construimos algoritmos:

  • Crítica deontológica: es decir, que los resultados a obtener deban satisfacer una serie de reglas, políticas, principios, etc.
  • Crítica teleológica: valorar las consecuencias de los resultados que obtienen esos algoritmos.
  • Crítica de valores: diseño que considera de manera explítica e implítica los valores compartidos en una sociedad global, además de a los propios stakeholders que perciben y usan el sistema como se pensaba en un comienzo.

Con estas tres miradas a incorporar cada vez que enfrentamos el diseño y desarrollo de un algoritmos, son varios los elementos a considerar para ser responsable en su concepción y sus posibles consecuencias. Especialmente, para el campo del Big Data:

  • Disponibilidad: que sea fácil de disponer, no solo  ya el propio código, sino también su funcionamiento.
  • Facilidad de mantenimiento: que no resulte difícil de mantener para una persona ajena al que diseñó y desarrolló el algoritmo.
  • Inteligibilidad: entendible para más personas que los que formaron el equipo de su creación.
  • Integridad del algoritmo: que se mantenga íntegro y no solo funcione para un conjunto de datos determinados.
  • Selección del modelo y atributos: que el modelo sea representativo de la realidad que quiere reflejar. Los atributos a seleccionar para su caracterización, también resultan críticos.
  • Integridad de los datos: lo que decíamos a nivel de algoritmo, también a nivel de datos. Que se mantengan íntegros y no sean susceptibles de modificaciones fáciles o ser demasiado volátiles.
  • Propiedad colectiva de los datos: que los datos no sean propiedad del que desarrolló el algoritmo; desacoplando esa propiedad, podríamos hablar de un compromiso social y global.
  • Sesgo de selección: ¿qué preguntas nos estamos haciendo a la hora de construir el algoritmo? No caer en la trampa de seleccionar solo las partes que más nos interesan o favorecen.

En el congreso Governing Algorithms, se trataron muchos de estos temas. Pero, además hablaron también de otra forma de diseñar y desarrollar algoritmos, con ejemplos como:

  • Sunlight Foundation: una organización que trabaja en la explotación de datos en el campo de la innovación social, el análisis de las facturas de gobiernos para encontrar relaciones o patrones, etc.
  • Enroll America: búsqueda de ciudadanos no asegurados de manera activa e inteligente para mejorar su bienestar.
  • Data Science for Social Good: una iniciativa de la Universidad de Chigado para formar «data scientist» en la construcción de algoritmos para la mejora del bienestar global.

Como toda herramienta, en su uso, dependerá su evaluación. Una evaluación, que como han visto, tampoco es sencilla. ¿Es ético un algoritmo? Depende de todos los factores arriba listado. Lo que sí parece claro es que cuando cogen una forma de «caja negra», suponen un riesgo global importante. Está en nuestras manos que el «accountability» sea efectivo, y no construyamos reglas que no satisfagan esas perspectivas de análisis citadas.

El Machine Learning en la era del Big Data

El Machine Learning o «Aprendizaje automático» es un área que lleva con nosotros ya unos cuantos años. Básicamente, el objetivo de este campo de la Inteligence Artificial, es que los algoritmos, las reglas de codificación de nuestros objetivos de resolución de un problema, aprendan por si solos. De ahí lo de «aprendizaje automático». Es decir, que los propios algoritmos generalicen conocimiento y lo induzcan a partir de los comportamientos que van observando.

Para que su aprendizaje sea bueno, preciso y efectivo, necesitan datos. Cuantos más, mejor. De ahí que cuando irrumpe el Big Data (este nuevo paradigma de grandes cantidades de datos) el Machine Learning se empezase a frotar las manos en cuanto al futuro que le esperaba. Los patrones, tendencias e interrelaciones entre las variables que el algoritmo de Machine Learning observa, se pueden ahora obtener con una mayor precisión gracias a la disponibilidad de datos.

¿Y qué permiten hacer estos algoritmos de Machine Learning? Muchas cosas. A mí me gusta mucho esta «chuleta» que elaboraron los compañeros del blog Peekaboo. Esta chuleta nos ayuda, a través de un workflow, a seleccionar el mejor método de resolución del problema que tengamos: clasificar, relacionar variables, agrupar nuestros registros por comportamientos, reducir la dimensionalidad, etc. Ya veis, como comentábamos en la entrada anterior, que la estadística está omnipresente.

«Chuleta» de algoritmos de Machine Learning (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Estas técnicas llevan con nosotros varias décadas ya. Siempre han resultado muy útiles para obtener conocimiento, ayudar a tomar decisiones en el mundo de los negocios, etc. Su uso siempre ha estado más focalizado en industrias con grandes disponibilidades de datos. Por ejemplo, el sector BFSI (Banking, Financial services and Insurance) siempre han considerado los datos como un activo crítico de la empresa (como se generalizó posteriormente en 2011 a partir del Foro de Davos). Y siempre ha sido un sector donde el Machine Learning ha tenido mucho peso.

Pero, con el auge de la Internet Social y las grandes empresas tecnológicas que generan datos a un gran volumen, velocidad y variedad (Google, Amazon, etc.), esto se generaliza a otros sectores. El uso del Big Data se empieza a generalizar, y el Machine Learning sufre una especie de «renacimiento».

Ahora, se convierten en pieza clave del día a día de muchas compañías, que ven cómo el gran volumen de datos además, les ayuda a obtener más valor de la forma de trabajar que tienen. En la siguiente ilustración que nos genera Google Trends sobre el volumen de búsqueda de ambos términos se puede observar cómo el «Machine Learning» se ve iluminado de nuevo cuando el Big Data entra en el «mainstream»(a partir de 2011 especialmente).

Búsquedas de Big Data y Machine Learning (Fuente: Google Trends)
Búsquedas de Big Data y Machine Learning (Fuente: Google Trends)

¿Y por qué le ha venido tan bien al Machine Learning el Big Data? Básicamente porque como la palabra «aprendizaje» viene a ilustrar, los algoritmos necesitan de datos, primero para aprender, y segundo para obtener resultados. Cuando los datos eran limitadas, corríamos el peligro de sufrir problemas de «underfitting«. Es decir, de entrenar poco al modelo, y que éste perdiera precisión. Y, si utilizábamos todos los datos para entrenar al modelo, nos podría pasar lo contrario, problemas de «overfitting«, que entonces nos generaría modelos demasiado ajustados a la muestra, y quizás, poco generalizables a otros casos.

El entrenamiento del modelo con datos y los problemas de
El entrenamiento del modelo con datos y los problemas de «underfitting» y «overfitting» (Fuente: http://i.stack.imgur.com/0NbOY.png)

Este problema con el Big Data desaparece. Tenemos tantos datos, que no nos debe preocupar el equilibrio entre «datos de entrenamiento» y «datos para testar y probar el modelo y su eficiencia/precisión«. La optimización del rendimiento del modelo (el «Just Right» de la gráfica anterior) ahora se puede elegir con mayor flexibilidad, dado que podemos disponer de datos para llegar a ese punto de equilibrio.

Con este panorama de eficientes algoritmos (Machine Learning) y mucha materia prima para que éstos funcionen bien (Big Data), entenderán por qué no solo hay muchos sectores de actividad donde las oportunidades son ahora muy prometedoras (la sección «Rethinking industries» de la siguiente gráfica), sino también para el desarrollo tecnológico y empresarial, es una era, esta del Big Data, muy interesante y de valor.

El panorama de la inteligencia de las máquinas (Fuente: http://blogs-images.forbes.com/anthonykosner/files/2014/12/shivon-zilis-Machine_Intelligence_Landscape_12-10-2014.jpg)
El panorama de la inteligencia de las máquinas (Fuente: http://blogs-images.forbes.com/anthonykosner/files/2014/12/shivon-zilis-Machine_Intelligence_Landscape_12-10-2014.jpg)

En los últimos años hemos visto mucho desarrollo en lo que a tecnología de Bases de Datos se refiere. Las compañías disponen de muchos datos internos, que se complementan muy bien con los externos de la «Internet Social». Así, el Machine Learning, nos acompañará durante los próximos años para sacarle valor a los mismos.