Archivo de la etiqueta: facebook

La carrera hacia la ventaja competitiva en la era del dato: plataformas de Inteligencia Artificial y la derrota de la intuición humana

Ya va a hacer un año de lo que muchos bautizaron como uno de los principales hitos de la historia de la Inteligencia Artificial. Un algoritmo de inteligencia artificial de Google, derrotaba a Lee Sedol, hasta entonces el campeón mundial y mayor experto del juego «Go». Un juego creado en China hace entre 2.000 y 3.000 años, y que goza de gran popularidad en el mundo oriental.

AlphaGo, el
AlphaGo, el «jugador inteligente» de Google derrotando a Lee Sedol, experto ganador del juego «Go» (Fuente: https://qz.com/639952/googles-ai-won-the-game-go-by-defying-millennia-of-basic-human-instinct/)

No era la primera vez que las principales empresas tecnológicas empleaban estos «juegos populares» para mostrar su fortaleza tecnológica y progreso. Todavía recuerdo en mi juventud, allá por 1997, ver en directo cómo Deep Blue de IBM derrotaba a mi ídolo Garry Kasparov. O como Watson, un sistema inteligente desarrollado también por IBM, se hizo popular cuando se presentó al concurso Jeopardy y ganó a los dos mejores concursantes de la historia del programa.

La metáfora de la «batalla» muchos la concebimos como la «batalla» del humano frente a la inteligencia artificial. La conclusión de la victoria de los robots parece clara: la inteligencia artificial podía ya con el instinto humano. Nuestra principal ventaja competitiva (esos procesos difícilmente modelizables y parametrizables como la creatividad, el instinto, la resolución de problemas con heurísticas improvisadas y subjetivas, etc.), se ponía en duda frente a las máquinas.

No solo desde entonces, sino ya tiempo atrás, las principales empresas tecnológicas, están corriendo en un entorno de competitividad donde disponer de plataformas de explotación de datos basadas en software de inteligencia artificial es lo que da competitividad a las empresas. Amazon, Google, IBM, Microsoft, etc., son solo algunas de las que están en esta carrera. Disponer de herramientas que permiten replicar ese funcionamiento del cerebro y comportamiento humano, ya hemos dicho en varias ocasiones, abre nuevos horizontes de creación de valor añadido.

¿Qué es una plataforma de inteligencia artificial? Básicamente un software que una empresa provee a terceras, que hace que éstas, dependan de la misma para su día a día. El sistema operativo que creó Microsoft (Windows) o el buscador que Alphabet creó en su día (Google), son dos ejemplos de plataformas. Imaginaros vuestro día a día sin sistema operativo o google (¿os lo imagináis?). ¿Será la inteligencia artificial la próxima frontera?

No somos pocos los que pensamos que así será. IBM ya dispone de Watson, que está tratando de divulgar y meter por todas las esquinas. Una estrategia bajo mi punto de vista bastante inteligente: cuanta más gente lo vea y use, más valor añadido podrá construir sobre la misma. Es importante llegar el primero.

Según IDC, para 2020, el despliegue masivo de soluciones de inteligencia artificial hará que los ingresos generados por estas plataformas pase de los 8.000 millones de dólares actuales a los más de 47.000 millones de dólares en 2020. Es decir, un crecimiento anual compuesto (CAGR), de más de un 55%. Estamos hablando de unas cifras que permiten vislumbrar la creación de una industria en sí mismo.

CAGR de los sistemas de inteligencia artificial y cognitivos (Fuente: http://www.idc.com/getdoc.jsp?containerId=prUS41878616)
CAGR de los sistemas de inteligencia artificial y cognitivos (Fuente: http://www.idc.com/getdoc.jsp?containerId=prUS41878616)

¿Y qué están haciendo las grandes tecnológicas? IBM, que como decíamos antes lleva ya tiempo en esto, creó en 2014, una división entera para explotar Watson. En 2015, Microsoft y Amazon han añadido capacidades de machine learning a sus plataformas Cloud respectivas. A sus clientes, que explotan esos servicios en la nube, les ayudan prediciendo hechos y comportamientos, lo que las aporta eficiencia en procesos. Un movimiento, bastante inteligente de valor añadido (siempre que se toque costes e ingresos que se perciben de manera directa, el despliegue y adopción de una tecnología será más sencillo). Google ha sacado en abierto (un movimiento de los suyos), TensorFlow, una librería de inteligencia artificial que pone a disposición de desarrolladores. Facebook, de momento usa todas las capacidades de análisis de grandes volúmenes de datos para sí mismo. Pero no será raro pensar que pronto hará algo para el exterior, a sabiendas que atesora uno de los mayores tesoros de datos (que esto no va solo de software, sino también de materias primas).

Según IDC, solo un 1% de las aplicaciones software del mundo disponen de características de inteligencia artificial. Por lo tanto, es bastante evidente pensar que su incorporación tiene mucho recorrido. En el informe que anteriormente decíamos, también vaticina que para ese 2020 el % de empresas que habrán incorporado soluciones de inteligencia artificial rondará el 50%.

Por todo ello, es razonable pensar que necesitaremos profesionales que sean capaces no solo de explotar datos gracias a los algoritmos de inteligencia artificial, sino también de crear valor sobre estos grandes conjuntos de datos. Nosotros, con nuestros Programas de Big Data, esperamos tener para rato. Esta carrera acaba de comenzar, y nosotros llevamos ya corriéndola un tiempo para estar bien entrenados. La intuición humana, no obstante, esperamos siga siendo difícilmente modelizable. Al menos, que podamos decirles a los algoritmos, qué deben hacer, sin perder su gobierno.

Expectativas y realidades con el Big Data

Big Data y Dilbert (Fuente: http://www.bigdata-madesimple.com/wp-content/uploads/sites/8/2015/01/bigdata-knows-everything.jpg)
Big Data y Dilbert (Fuente: http://www.bigdata-madesimple.com/wp-content/uploads/sites/8/2015/01/bigdata-knows-everything.jpg)

NINO y GIGO (Nothing in, Nothing Out, Gargabe in, Garbage Out). Estos dos paradigmas son mucho más ilustrativos de lo que parecen. Aquí es donde yo suelo hablar del concepto «dato relevante«. El primero de ellos, básicamente refleja una realidad en la que por mucho que tengamos un gran modelo o herramienta, si los datos de entrada, no son buenos, no podremos hacer nada. Y lo mismo, si los datos de entrada no son de buena calidad.

Es por ello que creo en ocasiones es bueno hablar de las expectativas que el Big Data ha venido a generar, y lo que luego efectivamente se ha convertido en realidad. Se han generado estos año muchas expectativas con Google y Facebook y lo que supuestamente saben de nosotros. Saben más que el resto, sin duda. Pero, suavicemos el discurso. No saben todo.

¿Por qué? Pues porque el concepto de «dato relevante» no siempre es alcanzado. Fijense en la siguiente representación gráfica:

Datos relevantes para proyectos de Big Data (Fuente: https://media.licdn.com/mpr/mpr/shrinknp_800_800/AAEAAQAAAAAAAAIEAAAAJGRhNWYzODhmLTdhZjItNDYxMS04MTY2LWZmMjFmNjgyYjg5ZQ.png)
Datos relevantes para proyectos de Big Data (Fuente: https://media.licdn.com/mpr/mpr/shrinknp_800_800/AAEAAQAAAAAAAAIEAAAAJGRhNWYzODhmLTdhZjItNDYxMS04MTY2LWZmMjFmNjgyYjg5ZQ.png)

Como se puede apreciar los datos más relevantes están alejados de lo que hoy todavía las empresas disponen. Incluso en las grandes empresas tecnológicas de Internet. La horquilla tradicional de datos relevantes/datos totales se mueve entre el 10% y el 15%. Las empresas disponen de muchos datos demográficos (si se fijan, sobre los que pivotan la gran mayoría de noticias), pero apenas saben nada sobre nuestras actitudes o necesidades, por ejemplo. Se aproximan con modelos sencillos. De ahí, que muchas de las expectativas que se han venido generando con el «Big Data», luego las tratas de aterrizar, y se vuelven complicadas.

No es lo mismo los datos demográficos, que los sociológicos, de comportamiento, de actitud o de necesidades. El valor incrementa con el orden en la frase anterior. Pero normalmente construimos discursos alrededor de datos demográficos. Que tienen valor, vaya, pero  no el que tienen los de actitud o necesidades.

En este punto hay que hablar de lo que se denomina «First-Party Data» y «Third-Party Data». Las fuentes «First-Party» son aquellas que son propias de las empresas. Entre ellas, destacan:

Fuente: http://www.business2community.com/marketing/personalize-retail-experience-data-01491335
Fuente: http://www.business2community.com/marketing/personalize-retail-experience-data-01491335

Ahora mismo la explotación de estos datos está siendo limitada por la sencilla razón de no disponer de un único punto central que integra y permite la explotación de datos centralizada. Aquí es donde cobra sentido el concepto de «data lake«, por cierto.

Por otro lado, los «Third-Party Data», son aquellos datos que compramos a «mayoristas» o «proveedores» de datos. Datos relacionados con el consumo, estilo de vida, demografía, comportamiento en tiempo real, etc. Permiten completar la «foto» a una empresa. Ya hablamos en cierto modo de los problemas que entrañaba para la privacidad de un sujeto estas transacciones de datos.  En este caso, las limitaciones de las empresas parecen venir desde la óptica de la calidad de datos: frescura, precisión, etc., problemas ligados a la calidad de datos de lo que ya hemos hablado en el pasado.

Las empresas, ante la limitación que suelen tener de explotar sus «First-Party Data«, deberían comenzar a mirar hacia los «Third-Party Data» si quieren enriquecer muchos sus modelos y hacer más más precisos sus modelos. La capacidad de generar valor a partir del análisis de datos necesita de integrar nuevas fuentes de datos. Porque los datos que son más importantes no quedan recogidos en las operaciones diarias de una empresa.

Y es que el paradigma del «Big Data» es un medio, no un fin. Es un instrumento del que podemos valernos para obtener conclusiones. Pero el valor de los mismos, dependerá en gran medida de la materia prima con la que trabajemos. Y por ello, muchos de los fines están todavía por inventar. De ahí que suela decir que no hay dos proyectos de Big Data iguales; depende mucho de cómo las empresas vayan avanzando desde sus datos demográficos a los datos de actitud. De sus datos propios («First-Party Data«) a integrar también datos de terceros («Third-Party Data«).

Creo que muchas de las expectativas no alcanzadas aún hoy se deben a que seguimos viendo este campo del análisis de datos como el «Data Mining original«. Aquel en el que el objetivo era explotar grandes conjuntos de datos. Que no digo que esto no siga siendo válido; pero si queremos alcanzar las grandes expectativas generadas, debemos mirar «más allá». Y entender el valor que tienen los datos que nos pueden aportar los datos de terceros o los «Open Data«, me resulta bastante crítico. Y así, poder alcanzar mejor las expectativas para hacerlas reales.

Cuándo empieza esta era del Big Data: MapReduce

Comentábamos en un artículo anterior, que fue allá por 2012 cuando se empieza a popularizar el término Big Data en el acervo popular. Pero eso no quiere decir, que sea entonces cuando podamos decir que comienza esta era del Big Data. De hecho, los orígenes son bastante anteriores.

Dos ingenieros de Google, Jeffrey Dean y Sanjay Ghemawat, allá por 2004, publican un artículo titulado «MapReduce: Simplified Data Processing on Large Clusters«.

Dean Ghemawat

Hablan de un nuevo modelo de programación que permite simplificar el procesamiento de grandes volúmenes de datos. Lo bautizan como MapReduce. Básicamente es la evolución natural y necesaria que tenían dentro de Google para procesar los grandes volúmenes de datos que ya por aquel entonces manejaban (documentos, referencias web, páginas, etc.). Lo necesitaban, porque a partir de toda esa información, sacaban una serie de métricas que luego les ayudó a popularizar industrias como el SEO y SEM. Vamos, de lo que hoy en día vive Google (Alphabet) y lo que le ha permitido ser la empresa de mayor valor bursátil del mundo.

La idea que subyace a este nuevo modelo de programación es el siguiente: ante la necesidad de procesar grandes volúmenes de datos, se puede montra un esquema en paralelo de computación que permita así distribuir el trabajo (el procesamiento de datos) entre diferentes máquinas (nodos dentro de una red) para que se pueda reducir el tiempo total de procesamiento. Es decir, una versión moderna del «divide y vencerás«, que hace que ese trabajo menor en paralelo, reduzca sustantivamente lo que de otra manera sería un único, pero GRAN trabajo.

Distribución de trabajo a través del modelo MapReduce (Fuente: http://www.admin-magazine.com/HPC/Articles/MapReduce-and-Hadoop)
Distribución de trabajo a través del modelo MapReduce (Fuente: http://www.admin-magazine.com/HPC/Articles/MapReduce-and-Hadoop)

En aquel entonces, estos grandes «visionarios del Big Data» (luego volvemos a ello), se dieron cuenta que este problema que tenía Google en esos momentos, lo iban a tener otras cuantas aplicaciones. Así que decidieron desarrollar un modelo de programación que se desacoplara de las necesidades concretas de Google, y se pudiera generalizar a un conjunto de aplicaciones que pudieran luego reutilizarlo. Pensaron en un inicio a todos los problemas que pudiera tener el propio buscador. Pero se dan cuenta que quizás todavía hay un universo más amplio de problemas, por lo que se abtsrae y generaliza aún más.

De hecho, lo simplificaron tanto que dejaron la preocupación del programador en dos funciones:

  • Map: transforma un conjunto de datos de partida en pares (clave, valor) a otro conjunto de datos intermedios también en pares (clave, valor). Un formato, que hará más eficiente su procesamiento y sobre todo, más fácil su «reconstruccón» futura.
  • Reduce: recibe los valores intermedios procesados en formato de pares (clave, valor) para agruparlos y producir el resultado final.

Este paradigma lo adoptó Google allá por 2004. Y dado el rendimiento que tenía, se comenzó a emplear en otras aplicaciones (como decíamos ahora). Se comienzan luego a desarrollar versiones de código abierto en frameworks. Esto hace muy fácil su rápida adopción, y quizás deja una lección para la historia sobre cómo desarrollar rápidamente un paradigma.

Uno de los frameworks que comienza a ganar en popularidad es Apache Hadoop. Y, para muchos, aquí nace esta era del «Big Data». El creador del framework Hadoop se llama «Doug» Cutting, una persona con una visión espectacular. En cuanto leyó la publicación de Dean y Ghemawat se dio cuenta que si crease una herramienta bajo el paradigma MapReduce, ayudaría a muchos a procesar grandes cantidades de datos. Cutting acabó luego trabajando en Yahoo!, que es donde realmente empujó el proyecto Hadoop (qué vueltas da la vida…).

El ecosistema Hadoop consta de una serie de módulos como los que se pueden encontrar en la imagen debajo de estas líneas. Pero en su día, fueron dos sus principales componentes, y los que dan otro nuevo empuje a esta era del Big Data:

  • HDFS: una implementación open-source de un sistema distribuido de ficheros (que ya había descrito Google en realidad).
  • MapReduce: utilizando HDFS como soporte, la implementación del modelo de programación que hemos descrito al comienzo.
Ecosistema Apache Hadoop (Fuente: https://opensource.com/sites/default/files/resize/styles/image-full-size/public/images/life-uploads/hadoop-EcoSys_yarn-640x418.PNG)
Ecosistema Apache Hadoop (Fuente: https://opensource.com/sites/default/files/resize/styles/image-full-size/public/images/life-uploads/hadoop-EcoSys_yarn-640×418.PNG)

La historia sobre el origen y verdadero impulso a esta era del «Big Data», puede cerrarse con la salida de Yahoo! de Cutting en 2009. Se incorpora a Cloudera, empresa que comienza a dar servicio, soporte y formación de Hadoop a otras empresas. Para esa fecha, Hadoop ya era un ecosistema de módulos y aplicaciones, que merecen cada una un hilo aparte para entender las grandes aportaciones que hicieron las personas que hemos comentado en este artículo. Por cierto, mucha de esta historia la cuenta el propio Cutting en este hilo de Quora.

En definitiva, primero MapReduce, y luego el framework Hadoop, pueden ser considerados como el origen de esta era Big Data de la que tanto hablamos hoy en día. Y, las empresas de Internet (Google, Yahoo, hablaremos luego de Twitter, Facebook, Linkedin, etc.), las que propician la aparición de tecnologías de Big Data que luego son llevadas a otros sectores.

La privacidad en la era del Big Data

La nueva economía digital se enmarca en una era en la que mucha gente piensa que lo que hacemos en Internet, lo que usamos, en muchas ocasiones, es gratis. Los economistas suelen decir eso de que «nada es gratis«. Obviamente, algo o alguien tiene que pagar los servicios y productos que consumimos. Y esos, son los datos.

Hace unos años, comprábamos un GPS que nos costaba entre 200 y 300 € (mínimo). Hoy en día tenemos Google Maps y Waze. No nos cuesta nada poder usarlo, salvo la conexión a Internet… y los datos personales de por dónde nos desplazamos que es lo que les cedemos a cambio. No sé si alguna vez han probado a introducir en su navegador maps.google.com/locationhistory. A mí me sale esto (fijaros que incluso infiere donde trabajo y donde resido, que es el área que he difuminado):

Historial de localizaciones en Google Maps (Fuente: elaboración propia a partir de Google Maps)
Historial de localizaciones en Google Maps (Fuente: elaboración propia a partir de Google Maps)

Esto no es exclusivo de Google. Prueben en su dispositivo móvil. Por ejemplo, los que tienen un iPhone. Vayan en Ajustes, a Privacidad, luego a Servicios de Localización, y abajo del todo, les aparecerá un menú titulado «Servicios del sistema«. Miren cuántas cosas salen ahí… incluso el menú «Localizaciones frecuentes«.

Estos datos se los cedemos a cambio de un servicio, que, no me negarán, es bastante útil, nos ofrece una funcionalidad mejorada. Pero, también, en muchas ocasiones, se lo venden a terceros. Y puede entenderse; al final, de una manera más o menos clara, ya sabemos que Google lo hará, y además, deberá monetizar la gigantesca inversión que hacen para que podamos usar Google Maps apropiadamente.

¿Es esto bueno o malo? Responder esta pregunta siempre es complicado. Por eso a mí me gusta más responder en clave de costes y beneficios. Nada es gratis, como decía antes. Para obtener un determinado beneficio, tenemos que asumir un coste. Si el beneficio no compensa el coste que nos genera ceder los datos históricos de localización, entonces es un servicio que no debiéramos tener activado. Siempre se puede desactivar o comprar servicios de «anonimización» como www.anonymizer.com, que por menos de 100 dólares al año, nos permite anonimizar nuestro uso de servicios.

El caso del FBI vs. Apple ha abierto una nueva discusión en torno a la protección de la privacidad. Un dilema ético difícil de dirimir. ¿Tiene una empresa privada -Apple- que dar los datos de un usuario porque el interés público general -FBI- así lo requiere para la seguridad de los ciudadanos? Apple, de hecho, antepone la seguridad de sus usuarios, como si fuera un país más defendiendo sus intereses (con el tamaño que tiene, literalmente, como «si fuera un país»).

Este tipo de situaciones nos ha solido llevar a la creencia que el «Gran Hermano» de los gobiernos era un problema que no podíamos dejar crecer. Sin embargo, no sé si estoy muy de acuerdo con esta visión de que el «Gran Hermano» son los gobiernos. Me parece que incluso en muchos casos son proyectos «Small Data«. En la mayoría de los casos, los gobiernos, los ministerios del interio, no se fijan más que en metadatos en muchos casos de unos usuarios concretos, los que guardan una mayor probabilidad de cometer algún delito, por ejemplo. Como suelo contar cuando me preguntan por ello: «No creo que Obama tenga tiempo de leer mis documentos en Google Drive«.

El «Big Data» y donde realmente sí tienen muchos datos nuestros, es en el mundo de la empresa. En esta era digital donde dejamos traza de todo lo que hacemos (búsquedas, compras, conducciones, lecturas, etc.), alguien guarda y emplea esos datos. Y suelen ser empresas privadas. Y esto sí que debe ser de preocupación por todos nosotros. Y sí que debe ser algo que desde los gobiernos debiera «controlarse». O por lo menos, certificar su buen tratamiento. 

Sin embargo, tengo la sensación la gente ignora que esto es así. En un paper de 2013 de los economistas Savage y Waldman titulado «The Value of Online Privacy«, sugerían que los humanos estamos dispuestos a pagar porque nuestros datos no sean recopilados por las apps. Es decir, lo decimos, pero luego no nos preocupamos por ello. ¿Pereza? ¿Dificultad? ¿Ignorancia? Por otro lado, nos contradecimos. En el paper «The value of privacy in Web search«, solo el 16% de los que participaron en la encuestas estarían dispuestos a pagar porque su navegación en la web fuera totalmente privada. En un reciente paper de dos investigadores de la Universidad de Chicago titulado «Is Privacy Policy Language Irrelevant to Consumers?«,  aparece como solo una pequeña fracción de usuarios está dispuesta a pagar 15 dólares para detener la invasión de privacidad.

Todo esto, como ven, está generando muchas interrogantes y dilemas no siempre fáciles de responder. Esta nueva economía digital en la que pagamos con datos personales el uso de productos y servicios, ha hecho que los gobiernos -quizás tarde- comiencen a regular algunas cuestiones. La FCC -Federal Communications Commission o Comisión Federal de Comunicaciones-, ha estado trabajando hasta estos días en nuevas reglas que pone pequeños obstáculos a este uso de datos. Si bien solo aplica a las compañías de telecomunicaciones, no a las de Internet.

Entiendo que veremos muchos casos de demandas una vez que la gente comience a darse cuenta de muchas de estas cuestiones. Es solo cuestión de que como en los papers que antes comentábamos, la gente se vaya dando cuenta de ello, y lo considere un derecho fundamental. Ahí, y sin pagos por medio, entiendo que las personas sí que se mostrarían más conservadoras y garantes de su privacidad a la hora de ceder sus datos. Ya estamos viendo casos. Uno en el que se demandaba a Google por la lectura de emails que hace con Gmail (hubiera expuesto a Google a una multa de 9 billones de dólares), el software de reconocimiento facial que emplea Facebook y otros, que al parecer atentan contra las leyes estatales de Illinois. A sabiendas que la ley castiga con 5.000 dólares por violación de la privacidad, podría Facebook que tener que hacer frente a 30.000 millones de dólares de multa.

En esta economía digital, nuestra privacidad, los datos que generamos en el día a día son la nueva divisa. ¿Somos conscientes de ello? ¿Pagaríamos porque dejara de ser así? ¿El beneficio compensa el coste? Cuestiones interesantes que en los próximos años generarán casos y sentencias. La privacidad, otro elemento más que en la era del Big Data se ve alterado.