Archivo de la etiqueta: programa big data

El uso del Machine Learning en las entidades financieras

(Artículo de nuestro profesor Pedro Gómez Tejerina)

Las entidades financieras han sido las pioneras tradicionalmente en utilizar el Data Mining y Machine Learning (ML). Y lo han aplicado principalmente en el núcleo de su negocio, la financiación. Cuando un cliente quiere solicitar un préstamo, el banco le solicita una determinada información (edad, estado civil, nivel de ingresos, domicilio, etc). En realidad el banco lo que ha hecho internamente ha sido analizar los datos históricos de los préstamos que tiene concedidos e intentar determinar la probabidad de que un cliente con determinadas características pueda impagar ese préstamo (a través de modelos de Machine Learning). Es lo que se denomina un scoring, y es el primer requisito que requiere una entidad financiera para conceder un préstamo a un cliente, que pase ese modelo de scoring (es decir, que no tenga una gran probabilidad de impago según ese modelo estimado).

Pero hay otras muchas otras áreas dentro de un banco donde se utiliza el ML. Ya comentamos en otro artículo cómo los departamentos de Marketing hacen un proceso similar para intentar predecir qué clientes podrían contratar en un futuro cercano un nuevo producto. Son los denominados modelos de propensión y la lógica es parecida al caso anterior. Analizar los datos históricos de contrataciones de productos para buscar clientes “similares” a los que anteriormente ya contrataron esos productos. Los clientes más parecidos a los que en el pasado contrataron un producto son a priori los que más probabilidad tienen de contratarlos en el futuro. A esos serán a los siguientes a los que les ofrecerán las ofertas comerciales.

Pero esto del ML tiene muchas más aplicaciones en una entidad financiera. Por ejemplo intentar detectar automáticamente operaciones (bien sean de tarjetas de crédito o transferencias) fraudulentas para evitar disgustos a sus clientes. O intentar predecir el uso en fin de semana de los cajeros automáticos de las oficinas para asegurarse de que no se quedan sin efectivo cuando los clientes vayan a retirarlo. O incluso a nivel organizativo re-estructurar la localización de sus oficinas físicas para atender mejor a sus clientes a través del análisis de los datos de las visitas de los mismos a las oficinas. Y todo esto por no hablar de los motores de recomendación de inversión, que analizan rentabilidades históricas de los activos financieros para ofrecer recomendaciones de inversión personalizadas a los clientes según el apetito de riesgo que estos tengan.

Todos estos ejemplos son tan sólo una muestra de las aplicaciones que el mundo del Data Mining y Machine Learning tienen en una entidad financiera, pero como os podéis imaginar, hay muchos más. La tendencia actual es enriquecer estos modelos con otro tipo de datos (redes sociales, Open Data, datos no estructurados…) para mejorar su capacidad predictiva. Aquí es donde entra en juego el Big Data.

Fuente: https://www.coursera.org/course/compfinance
Fuente: https://www.coursera.org/course/compfinance

El Big Data en los Papeles de Panamá

No creo que a estas alturas, a usted, estimado lector de cualquier parte del mundo del que lea esto, le tenga que contar nada sobre los «Papeles de Panamá». Unos documentos filtrados, en el que se dice la mayor filtración periodística de toda la historia. En el contenido de los mismos se puede encontrar a personas de todo el mundo aprovechando los paraísos fiscales para ocultar su dinero en el pago de impuestos. Nada que la ética no pueda explicar por si sola les voy a contar.

Pero de lo que se ha hablado menos es de cómo se produce. Como quizás también sepan, todo se produce a partir de la extracción de unos documentos de dos sitios web de la empresa Mossack Fonseca: la web que sirve como descripción de sus servicios -un WordPress- y un portal interno de clientes donde se podía compartir información sensible de todos ellos -un Drupal-. Uno, lo primero que podría pensar s que entonces la «culpa» es de la falta de seguridad tecnológica. Y efectivamente, al parecer, la falta de actualización del portal interno y un plugin de WordPress habrían expuesto toda esa documentación.

Pero, una vez obtenidos los documentos, hay que analizarlos para extraer inteligencia de los mismos. Vamos, un proyecto de Big Data, en definitiva, porque la cantidad documental de la que estamos hablando es realmente grande (2.6 terabytes, y 11,5 millones de documentos -Wikileaks, para que se hagan a la idea, fueron 1,7 GB «solo»-). El Big Data en los Papeles de Panamá ha jugado un papel nuclear.

La escala de los
La escala de los «Papeles de Panamá» (Fuente: http://www.alternet.org/files/screen_shot_2016-04-04_at_12.01.06_pm.png)

Lo interesante del caso para la temática de este blog es la parte que viene después de la obtención de la «puerta de entrada a los datos». Un proyecto de Big Data, literal:

  • Fuentes de datos: la heterogeneidad -una de las famosas 5 Vs- de las fuentes de datos es muy importante: cinco millones de emails, tres millones de ficheros de bases de datos, dos millones de PDFs, un millón de imágenes, más de 320.000 documentos de texto y 2.242 archivos de otro tipo no clasificados. Un reto de extracción de las fuentes de datos importante.
  • Integración de datos: para poder procesar esta heterogeneidad de las fuentes de datos, es preciso integrar todos estos datos en un mismo modelo de datos. Y claro, mientras hay documentos medianamente sencillos para ello (las bases de datos o los documentos de texto e emails por ejemplo -gracias a tecnologías de procesamiento de lenguaje natural-), tenemos también grandes retos como los PDF y las imágenes: deben primero pasarse a un formato de caracteres para luego poder disponerse para su explotación. Ya hablamos en este blog de la aportacióin de las herramientas ETL en ello.
  • Gestión de la calidad de los datos: hay que tener en cuenta que como «filtración» que es, los datos, obviamente, no están preparados para su explotación. Entre el mar de datos, muchos son totalmente irrelevantes y no hacen más que aportar una mala calidad a los datos de entrada. Esto, ya dijimos, era crítico de solucionar ex-ante.
  • Procesamiento de los datos para la extracción de inteligencia: una vez que los datos están preparados, se deben procesar, en este caso, buscando relaciones entre entidades y acciones. Para ello, estructurar anteriormente la información de una manera que permita navegar entre la información de manera ágil y eficiente, resulta clave. Y por ello, se procesó la información estructurada en grafas, que además de tener un buen rendimiento, permite extraer mucha inteligencia. Ya hablamos de ello.
  • Visualización de datos, obtención de inteligencia: la visualización analítica, eficiente e inteligente de datos es la que permite sacar conclusiones y tomar decisiones de manera ágil.  También lo comentamos. Para ello, es preciso visualizar los datos de una manera apropiada para obtener inteligencia de los mismos.
  • Y por debajo de todas estas etapas, una infraestructura tecnológica realmente potente: para poder hacerlo a una velocidad medianamente razonable se emplearon hasta 30 servidores en paralelo. Y, sobre estos servidores, mucho software de «Big Data», tal y como detalló Mar Cabra -responsable del área de Investigación y Datos del consorcio de periodistas ICIJ, que estaba a la cabeza de esta investigación. Incluye una lista de Software Libre y también propietario, que cedieron licencias por la causa, que ha sido adaptado por el propio consorcio para sus labores de Investigación.
    • Neo4j, tecnología que vemos en nuestro Programa de Big Data y Business Intelligence, fue la base datos de nueva generación (ya hablé de ella en otro artículo), donde se almacenaron las relaciones y coincidencias entre los documentos. Esta tecología, como ya expliqué, permite modelar la información a partir de conexiones entre entidades,  lo cual facilita mucho poder luego estudiar estos flujos de datos para detectar e inferir conocimiento. Aquí lo describe la propia empresa.
    • Nuix, un software de gestión documental, que permite indexar y categorizar información rápida y ágilmente. Aquí la noticia de ellos mismos hablando sobre el caso.
    • Con Apache Solr y Apache Tika, se puso a disposición de la búsqueda y recuperación la información contenida en los documentos de manera centralizada. Es la parte más relacionada con la integración de datos. Aquí explicado.
    • Linkurious,  la herramienta para trazar y visualizar los vínculos de la documentación obtenida por temas y sujetos de investigación. Aquí lo describen ellos mismos.

Obviamente, como solemos decir, la tecnología, por muy buena que sea, no descubre por sí sola. Por un lado, alguien debe hacerle las preguntas más acertadas, y en segundo lugar, alguien tiene que entender los resultados que nos devuelve. Ahí está la formidable labor realizada por los periodistas. Sin conocer el contexto bien, es difícil hacer un proyecto de Big Data de este calibre. Por ello, el futuro del periodismo con un importante soporte en datos y tecnologías que le permita acelerar su proceso de investigación se me antoja cada vez más cercano.

El «Big Data», como paradigma habilitante que es, permite cambiar las reglas de juego de diferentes sectores de actividad. En este caso, hemos visto cómo ayudó al caso de los «Papeles de Panamá». Y es que este método de trabajo que hemos visto (extracción, integración, depuración, procesamiento y visualización), con el apoyo de las mejores tecnologías para ello, ha venido para quedarse. El Big Data en los papeles de Panamá ha sido un paradigma muy habilitante.

La privacidad en la era del Big Data

La nueva economía digital se enmarca en una era en la que mucha gente piensa que lo que hacemos en Internet, lo que usamos, en muchas ocasiones, es gratis. Los economistas suelen decir eso de que «nada es gratis«. Obviamente, algo o alguien tiene que pagar los servicios y productos que consumimos. Y esos, son los datos.

Hace unos años, comprábamos un GPS que nos costaba entre 200 y 300 € (mínimo). Hoy en día tenemos Google Maps y Waze. No nos cuesta nada poder usarlo, salvo la conexión a Internet… y los datos personales de por dónde nos desplazamos que es lo que les cedemos a cambio. No sé si alguna vez han probado a introducir en su navegador maps.google.com/locationhistory. A mí me sale esto (fijaros que incluso infiere donde trabajo y donde resido, que es el área que he difuminado):

Historial de localizaciones en Google Maps (Fuente: elaboración propia a partir de Google Maps)
Historial de localizaciones en Google Maps (Fuente: elaboración propia a partir de Google Maps)

Esto no es exclusivo de Google. Prueben en su dispositivo móvil. Por ejemplo, los que tienen un iPhone. Vayan en Ajustes, a Privacidad, luego a Servicios de Localización, y abajo del todo, les aparecerá un menú titulado «Servicios del sistema«. Miren cuántas cosas salen ahí… incluso el menú «Localizaciones frecuentes«.

Estos datos se los cedemos a cambio de un servicio, que, no me negarán, es bastante útil, nos ofrece una funcionalidad mejorada. Pero, también, en muchas ocasiones, se lo venden a terceros. Y puede entenderse; al final, de una manera más o menos clara, ya sabemos que Google lo hará, y además, deberá monetizar la gigantesca inversión que hacen para que podamos usar Google Maps apropiadamente.

¿Es esto bueno o malo? Responder esta pregunta siempre es complicado. Por eso a mí me gusta más responder en clave de costes y beneficios. Nada es gratis, como decía antes. Para obtener un determinado beneficio, tenemos que asumir un coste. Si el beneficio no compensa el coste que nos genera ceder los datos históricos de localización, entonces es un servicio que no debiéramos tener activado. Siempre se puede desactivar o comprar servicios de «anonimización» como www.anonymizer.com, que por menos de 100 dólares al año, nos permite anonimizar nuestro uso de servicios.

El caso del FBI vs. Apple ha abierto una nueva discusión en torno a la protección de la privacidad. Un dilema ético difícil de dirimir. ¿Tiene una empresa privada -Apple- que dar los datos de un usuario porque el interés público general -FBI- así lo requiere para la seguridad de los ciudadanos? Apple, de hecho, antepone la seguridad de sus usuarios, como si fuera un país más defendiendo sus intereses (con el tamaño que tiene, literalmente, como «si fuera un país»).

Este tipo de situaciones nos ha solido llevar a la creencia que el «Gran Hermano» de los gobiernos era un problema que no podíamos dejar crecer. Sin embargo, no sé si estoy muy de acuerdo con esta visión de que el «Gran Hermano» son los gobiernos. Me parece que incluso en muchos casos son proyectos «Small Data«. En la mayoría de los casos, los gobiernos, los ministerios del interio, no se fijan más que en metadatos en muchos casos de unos usuarios concretos, los que guardan una mayor probabilidad de cometer algún delito, por ejemplo. Como suelo contar cuando me preguntan por ello: «No creo que Obama tenga tiempo de leer mis documentos en Google Drive«.

El «Big Data» y donde realmente sí tienen muchos datos nuestros, es en el mundo de la empresa. En esta era digital donde dejamos traza de todo lo que hacemos (búsquedas, compras, conducciones, lecturas, etc.), alguien guarda y emplea esos datos. Y suelen ser empresas privadas. Y esto sí que debe ser de preocupación por todos nosotros. Y sí que debe ser algo que desde los gobiernos debiera «controlarse». O por lo menos, certificar su buen tratamiento. 

Sin embargo, tengo la sensación la gente ignora que esto es así. En un paper de 2013 de los economistas Savage y Waldman titulado «The Value of Online Privacy«, sugerían que los humanos estamos dispuestos a pagar porque nuestros datos no sean recopilados por las apps. Es decir, lo decimos, pero luego no nos preocupamos por ello. ¿Pereza? ¿Dificultad? ¿Ignorancia? Por otro lado, nos contradecimos. En el paper «The value of privacy in Web search«, solo el 16% de los que participaron en la encuestas estarían dispuestos a pagar porque su navegación en la web fuera totalmente privada. En un reciente paper de dos investigadores de la Universidad de Chicago titulado «Is Privacy Policy Language Irrelevant to Consumers?«,  aparece como solo una pequeña fracción de usuarios está dispuesta a pagar 15 dólares para detener la invasión de privacidad.

Todo esto, como ven, está generando muchas interrogantes y dilemas no siempre fáciles de responder. Esta nueva economía digital en la que pagamos con datos personales el uso de productos y servicios, ha hecho que los gobiernos -quizás tarde- comiencen a regular algunas cuestiones. La FCC -Federal Communications Commission o Comisión Federal de Comunicaciones-, ha estado trabajando hasta estos días en nuevas reglas que pone pequeños obstáculos a este uso de datos. Si bien solo aplica a las compañías de telecomunicaciones, no a las de Internet.

Entiendo que veremos muchos casos de demandas una vez que la gente comience a darse cuenta de muchas de estas cuestiones. Es solo cuestión de que como en los papers que antes comentábamos, la gente se vaya dando cuenta de ello, y lo considere un derecho fundamental. Ahí, y sin pagos por medio, entiendo que las personas sí que se mostrarían más conservadoras y garantes de su privacidad a la hora de ceder sus datos. Ya estamos viendo casos. Uno en el que se demandaba a Google por la lectura de emails que hace con Gmail (hubiera expuesto a Google a una multa de 9 billones de dólares), el software de reconocimiento facial que emplea Facebook y otros, que al parecer atentan contra las leyes estatales de Illinois. A sabiendas que la ley castiga con 5.000 dólares por violación de la privacidad, podría Facebook que tener que hacer frente a 30.000 millones de dólares de multa.

En esta economía digital, nuestra privacidad, los datos que generamos en el día a día son la nueva divisa. ¿Somos conscientes de ello? ¿Pagaríamos porque dejara de ser así? ¿El beneficio compensa el coste? Cuestiones interesantes que en los próximos años generarán casos y sentencias. La privacidad, otro elemento más que en la era del Big Data se ve alterado.

R vs. Python para el análisis de datos en proyectos de Big Data

Cuando abrimos este blog, dedicamos una entrada a comparar diferentes herramientas analíticas. En su día, hablamos de SAS, R y Python, mostrando la experiencia que tenía en el manejo de las tres de nuestro profesor Pedro Gómez. Desde entonces, han aparecido varias noticias y reflexiones comparando especialmente dos de ellas: R y Python. DataCamp publicó hace unos meses la infografía que ponemos al final de este artículo comparando ambas.

El análisis de datos, obviamente, es una parte nuclear de cualquier proyecto de Big Data. El análisis de los diferentes flujos de datos y su combinación para obtener nuevos patrones, tendencias, estructuras, etc. se puede realizar con diferentes herramientas y lenguajes de programación. La elección de estas últimas es una cuestión en muchas ocasiones de gustos, de preferencias, pero también en otras ocasiones, objeto de detallados análisis.

La infografía que hoy nos acompaña agrega múltiples fuentes que comparan R y Python. Por eso mismo, nos ha resultado interesante para compartir con vosotros. Compara ambos lenguajes desde una perspectiva de la Ciencia de Datos, o Data Science, disciplina que ya describimos en una entrada anterior.  Las debilidades y fortalezas que se muestran, así como sus ventajas y desventajas, puede ayudaros a la hora de seleccionar el mejor lenguaje de programación para vuestro problema dado. Y es que, como solemos decir, cada proyecto, cada problema, cada contexto de empresa, es diferente, por lo que dar sugerencias absolutas suele resultar complicado.

Dado que suele ser un factor bastante determinante, de entre las múltiples características para la toma de decisión, cabe destacar que ambos lenguajes gozan de una amplia comunidad de desarrollo. En este sentido, ninguna diferencia. Quizás lo que mejor caracteriza a cada uno de los lenguajes, es la frase que destacan los que elaboraran la infografía:

Python is often praised for being a general-purpose language with an easy-to-understand syntax and R’s functionality is developed with statisticians in mind, thereby giving it field-specific advantages such as great features for data visualization”

Os dejamos con la infografía para que podáis por vuestra seguir conociendo mejor cada uno de los dos: R vs. Python o Python vs. R. Seguiremos de cerca la evolución de ambos.

El Machine Learning en la era del Big Data

El Machine Learning o «Aprendizaje automático» es un área que lleva con nosotros ya unos cuantos años. Básicamente, el objetivo de este campo de la Inteligence Artificial, es que los algoritmos, las reglas de codificación de nuestros objetivos de resolución de un problema, aprendan por si solos. De ahí lo de «aprendizaje automático». Es decir, que los propios algoritmos generalicen conocimiento y lo induzcan a partir de los comportamientos que van observando.

Para que su aprendizaje sea bueno, preciso y efectivo, necesitan datos. Cuantos más, mejor. De ahí que cuando irrumpe el Big Data (este nuevo paradigma de grandes cantidades de datos) el Machine Learning se empezase a frotar las manos en cuanto al futuro que le esperaba. Los patrones, tendencias e interrelaciones entre las variables que el algoritmo de Machine Learning observa, se pueden ahora obtener con una mayor precisión gracias a la disponibilidad de datos.

¿Y qué permiten hacer estos algoritmos de Machine Learning? Muchas cosas. A mí me gusta mucho esta «chuleta» que elaboraron los compañeros del blog Peekaboo. Esta chuleta nos ayuda, a través de un workflow, a seleccionar el mejor método de resolución del problema que tengamos: clasificar, relacionar variables, agrupar nuestros registros por comportamientos, reducir la dimensionalidad, etc. Ya veis, como comentábamos en la entrada anterior, que la estadística está omnipresente.

«Chuleta» de algoritmos de Machine Learning (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Estas técnicas llevan con nosotros varias décadas ya. Siempre han resultado muy útiles para obtener conocimiento, ayudar a tomar decisiones en el mundo de los negocios, etc. Su uso siempre ha estado más focalizado en industrias con grandes disponibilidades de datos. Por ejemplo, el sector BFSI (Banking, Financial services and Insurance) siempre han considerado los datos como un activo crítico de la empresa (como se generalizó posteriormente en 2011 a partir del Foro de Davos). Y siempre ha sido un sector donde el Machine Learning ha tenido mucho peso.

Pero, con el auge de la Internet Social y las grandes empresas tecnológicas que generan datos a un gran volumen, velocidad y variedad (Google, Amazon, etc.), esto se generaliza a otros sectores. El uso del Big Data se empieza a generalizar, y el Machine Learning sufre una especie de «renacimiento».

Ahora, se convierten en pieza clave del día a día de muchas compañías, que ven cómo el gran volumen de datos además, les ayuda a obtener más valor de la forma de trabajar que tienen. En la siguiente ilustración que nos genera Google Trends sobre el volumen de búsqueda de ambos términos se puede observar cómo el «Machine Learning» se ve iluminado de nuevo cuando el Big Data entra en el «mainstream»(a partir de 2011 especialmente).

Búsquedas de Big Data y Machine Learning (Fuente: Google Trends)
Búsquedas de Big Data y Machine Learning (Fuente: Google Trends)

¿Y por qué le ha venido tan bien al Machine Learning el Big Data? Básicamente porque como la palabra «aprendizaje» viene a ilustrar, los algoritmos necesitan de datos, primero para aprender, y segundo para obtener resultados. Cuando los datos eran limitadas, corríamos el peligro de sufrir problemas de «underfitting«. Es decir, de entrenar poco al modelo, y que éste perdiera precisión. Y, si utilizábamos todos los datos para entrenar al modelo, nos podría pasar lo contrario, problemas de «overfitting«, que entonces nos generaría modelos demasiado ajustados a la muestra, y quizás, poco generalizables a otros casos.

El entrenamiento del modelo con datos y los problemas de
El entrenamiento del modelo con datos y los problemas de «underfitting» y «overfitting» (Fuente: http://i.stack.imgur.com/0NbOY.png)

Este problema con el Big Data desaparece. Tenemos tantos datos, que no nos debe preocupar el equilibrio entre «datos de entrenamiento» y «datos para testar y probar el modelo y su eficiencia/precisión«. La optimización del rendimiento del modelo (el «Just Right» de la gráfica anterior) ahora se puede elegir con mayor flexibilidad, dado que podemos disponer de datos para llegar a ese punto de equilibrio.

Con este panorama de eficientes algoritmos (Machine Learning) y mucha materia prima para que éstos funcionen bien (Big Data), entenderán por qué no solo hay muchos sectores de actividad donde las oportunidades son ahora muy prometedoras (la sección «Rethinking industries» de la siguiente gráfica), sino también para el desarrollo tecnológico y empresarial, es una era, esta del Big Data, muy interesante y de valor.

El panorama de la inteligencia de las máquinas (Fuente: http://blogs-images.forbes.com/anthonykosner/files/2014/12/shivon-zilis-Machine_Intelligence_Landscape_12-10-2014.jpg)
El panorama de la inteligencia de las máquinas (Fuente: http://blogs-images.forbes.com/anthonykosner/files/2014/12/shivon-zilis-Machine_Intelligence_Landscape_12-10-2014.jpg)

En los últimos años hemos visto mucho desarrollo en lo que a tecnología de Bases de Datos se refiere. Las compañías disponen de muchos datos internos, que se complementan muy bien con los externos de la «Internet Social». Así, el Machine Learning, nos acompañará durante los próximos años para sacarle valor a los mismos.

¿Qué hace un «Científico de datos» y por qué es una profesión tan sexy?

Mucho se ha escrito la que aparentemente va a ser la profesión más sexy del Siglo XXI. Más allá de titulares tan rimbonbantes (digo yo, que quedan muchas cosas todavía que inventar y hacer en este siglo :-), lo que viene a expresar esa idea es la importancia que va a tener un científico de datos en una era de datos ubicuos, coste de almacenamiento, procesamiento y transporte prácticamente cero y de constante digitalización. La práctica moderna del análisis de datos, lo que popularmente y muchas veces erróneamente se conoce como «Big Data», se asienta sobre lo que es la «Ciencia del Dato» o «Data Science».

En 2012, Davenport y Patil escribían un influyente artículo en la Harvard Business Review en la que exponían que el científico de datos era la profesión más sexy del Siglo XXI. Un profesional que combinando conocimientos de matemáticas, estadística y programación, se encarga de analizar los grandes volúmenes de datos. A diferencia de la estadística tradicional que utilizaba muestras, el científico de datos aplica sus conocimientos estadísticos para resolver problemas de negocio aplicando las nuevas tecnologías, que permiten realizar cálculos que hasta ahora no se podían realizar.

Y va ganando en popularidad en los últimos años debido sobre todo al desarrollo de la parte más tecnológica. Las tecnologías de Big Data empiezan a posibilitar que las empresas las adopten y empiecen a poner en valor el análisis de datos en su día a día. Pero, ahí, es cuando se dan cuenta que necesitan algo más que tecnología. La estadística para la construcción de modelos analíticos, las matemáticas para la formulación de los problemas y su expresión codificada para las máquinas, y, el conocimiento de dominio (saber del área funcional de la empresa que lo quiere adoptar, el sector de actividad económica, etc. etc.), se tornan igualmente fundamentales.

Pero, si esto es tan sexy ¿qué hace el científico de datos? Y sobre todo, ¿qué tiene que ver esto con el Big Data y el Business Intelligence? Para responder a ello, me gusta siempre referenciar en los cursos y conferencias la representación en formato de diagrama de Venn que hizo Drew Conway en 2010:

Diagrama de Venn del
Diagrama de Venn del «Científico de datos» (Fuente: Drew Conway)

Como se puede apreciar, se trata de una agregación de tres disciplinas que se deben entender bien en este nuevo paradigma que ha traído el Big Data:

  • «Hacking skills» o «competencias digitales con pensamiento computacional«: sé que al traducirlo al Español, pierdo mucho del significado de lo que expresa las «Hacking Skills». Pero creo que se entiende bien también lo que quieren decir las «competencias digitales». Estamos en una época en la que constante «algoritmización» de lo que nos rodea, el pensamiento computacional que ya hay países que han metido desde preescolar, haga que las competencias digitales no pasen solo por «saber de Ofimática» o de «sistemas de información». Esto va más de tener ese mirada hacia lo que los ordenadores hacen, cómo procesan datos y cómo los utilizan para obtener conclusiones. Yo a esto lo llamo «Pensamiento computacional», como una (mala) traducción de «Computation thinking», que junto con las competencias digitales (entender lo que hacen las herramientas digitales y ponerlo en práctica), me parecen fundamentales.
  • Estadística y matemáticas: en primer lugar, la estadística, que es una herramienta crítica para la resolución de problemas. Nos dota de unos instrumentos de trabajo de enorme valor para los que trabajamos con problemas de la empresa. Y las matemáticas, ay, qué decir de la ciencia formal por antonomasía, la que siguiendo razonamientos lógicos, nos permite estudiar propiedades y relaciones entre las variables que formarán parte de nuestro problema. Si bien las matemáticas se la ha venido a conocer como la ciencia exacta, en la estadística, nos gusta más jugar con intervalos de confianza  y la incertidumbre. Pero, por sus propias particularidades, se nutren mutuamente, y hace que para construir modelos analíticos que permitan resolver los problemas que las empresas y organizaciones nos planteen, necesitemos ambas dos.
  • Conocimiento del dominio: para poder diseñar y desarrollar la aplicación del análisis masivo de datos a diferentes casos de uso y aplicación, es necesario conocer el contexto. Los problemas se deben plantear acorde a estas características. Como siempre digo, esto del Big Data es más una cuestión de plantar bien los problemas que otra cosa, por lo que saber hacer las preguntas correctas con las personas que bien conocen el dominio de aplicación es fundamental. Por esto me suelo a referir a «que hay tantos proyectos de Big Data como empresas».  Cada proyecto es un mundo, por lo que cuando alguien te cuente su proyecto, luego relativízalo a tus necesidades 😉

Estas tres cuestiones (informática y computación, métodos estadísticos y áreas de aplicación/dominio), también fueron citadas por William S. Cleveland en 2001 en su artículo «Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics«. Por lo tanto, no es una concepción nueva.

Este Diagrama de Venn ha ido evolucionando mucho. Uno de los que más me gustan es éste, que integra las ciencias sociales. Nuestro Programa Experto en Análisis, Investigación y Comunicación de Datos precisamente busca ese enfoque.

La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)
La cuarta Burbuja de la Ciencia de Datos: Ciencias Sociales (Fuente: http://datascienceassn.org/content/fourth-bubble-data-science-venn-diagram-social-sciences)

El nivel de madurez de una organización para entrar en el mundo de Analytics / Big Data

El nivel de madurez de una organización para afrontar proyectos de Big Data / Analytics es un elemento que siempre debemos tener presente. Un proyecto, con la mejor tecnología, no tiene por qué ser exitoso si no sumamos otros elementos que también contribuyen al resultado global del proyecto.

En estos años, hay organizaciones que se han dedicado a obtener frameworks para medir ese nivel de madurez de una organización. Uno de los que más nos gusta es éste que veis a continuación, el Analytics Maturity Quotient (AMQ™):

Analytics Maturity Quotient (AMQ)
Analytics Maturity Quotient (AMQ)

Como se puede apreciar, son cinco factores los que suman y contribuyen a ese nivel de madurez para afrontar estos proyectos en una organización:

  • Calidad de los datos: todo empieza con la calidad de los datos. Nosotros estamos tan de acuerdo en ello, que nuestro primer módulo trata precisamente sobre la importancia de disponer de una buena calidad de datos. Si una organización tiene un buen sistema para el almacenamiento de datos, una buena infraesturctura de datos, ha empezado bien el proyecto. Aquí también suele citarse el paradigma «GIGO»: si metemos malos datos, por mucho que tengamos buenos modelos analíticos, no podremos obtener buenos resultados de nuestro proyecto de Big Data.
    Este factor, el de calidad de datos, afecta a su vez a otros cuatro. Pero, como se puede entrever en su representación formal, es el más importante y representativo del conjunto de ellos. Debemos disponer de buenos datos.
  • Liderazgo «data-driven»: el 40% del éxito restante (una vez que disponemos de «buenos datos«), depende de un liderazgo institucional y organizativo que se crea de verdad que los datos y su análisis son una palanca excelente para la mejora de la toma de decisiones dentro de la compañía. En el artículo que abrió la boca a todos con esto del Big Data («Big Data: the management revolution«) de la Harvard Business Review, se ilustraba esta idea de cambiar el paradigma de toma de decisiones de la «persona que más ganaba» (el HIPPO, highest paid person’s opinion, a la fundamentación en datos). Necesitamos así líderes, CEO, gerentes, responsables de líneas, que «compren» este discurso y valor de los datos como palanca de apoyo a la toma de decisiones.
  • Personas con habilidades analíticas: un 30% del éxito dependerá de disponer de un buen equipo. Éste, es ahora mismo el gran handicap en España, sin ir más lejos. Faltan «profesionales Big Data«, en todos los roles que esto puede exigir: Data Science para interrogar apropiadamente los datos, tecnólogos de Big Data con capacidades de despliegue de infraestructura, estadísticos y matemáticos, «visualizadores» de datos, etc. A esto, debemos sumarle la importancia de tener cierta orientación a procesos de negocio o mercado en general, dado que los datos son objetivos per se; de dónde se extrae valor es de su interpretación, interrogación y aplicación a diferentes necesidades de empresa. Ahora mismo, este handicap las empresas lo están resolviendo con la formación de las personas de su organización.
  • Proceso de toma de decisiones «data-driven»: con el Big Data, obtendremos «insights». Ideas clave que nos permitirán mejorar nuestro proceso de toma de decisiones. Una orientación hacia el análisis de datos como la palanca sobre la que se tomarán las decisiones dentro de la compañía. Y las decisiones se toman, una vez que la orientación al dato se ha metido en los procesos. ¿Cómo tomaremos la decisión de invertir en marketing? ¿En base a la eficiencia de las inversiones y la capacidad de convertir a ventas? ¿O en base a un incremento respecto al presupuesto del ejercicio pasado? Los datos están para tomar decisiones, no para ser «un proyecto más«. Un 20% es éste factor crítico de éxito.
  • Infraestructura tecnológica: por último, obviamente, es difícil emprender un proyecto de este calibre sin infraestructura tecnológica. Por tecnología Big Data no va a ser. Nosotros también le dedicamos un buen número de horas de otro módulo a ello. El panorama tecnológico es cada vez más amplio. Pero, ya ven los elementos anteriores que debemos tener en consideración antes de llegar a este punto.

En cierto modo, estos elementos (Calidad de los datos, Liderazgo, Personas, Decisiones con datos e Infraestructura), con diferentes pasos y orden de importancia, es lo mismo que viene a recomendar un libro que encuentro siempre muy interesante para comenzar con el Big Data: «Big Data: Using Smart Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance«. De él, extraigo la siguiente imagen, que creo ilustra muy bien la idea:

SMART model includes Start with strategy, Measure metrics and Data, Analyse your data, Report your results and Transform your business and decision making (Fuente: http://www.amazon.es/dp/1118965833/ref=asc_df_111896583332101237/?tag=googshopes-21&creative=24538&creativeASIN=1118965833&linkCode=df0&hvdev=c&hvnetw=g&hvqmt=)
SMART model includes Start with strategy, Measure metrics and Data, Analyse your data, Report your results and Transform your business and decision making (Fuente: http://www.amazon.es/dp/1118965833/ref=asc_df_111896583332101237/?tag=googshopes-21&creative=24538&creativeASIN=1118965833&linkCode=df0&hvdev=c&hvnetw=g&hvqmt=)

Ya veis que esto del Big Data y Analytics no va solo de tecnología. Hay muchos otros factores. Que, todos ellos, afectan al nivel de madurez de una organización para sacar provecho de un proyecto de análisis de datos.  Así que, para el próximo proyecto de Big Data que vayas a comenzar, ¿cómo tienes estos elementos de «maduros»?

Sesiones «Smart Data» en Forotech 2016

Esta semana que entra, celebramos Forotech 2016, que resulta siempre muy especial para los que conformamos la comunidad Deusto Ingeniería. Un encuentro entre la universidad, empresas, estudiantes y el público en general para despertar el interés por la ingeniería y la tecnología.

Entre las numerosas actividades que podréis encontrar, el próximo jueves 10 de marzo, celebramos, por la tarde, varias actividades relacionadas con el «Big Data». Buscamos otra mirada a este mundo de los datos. Una mirada hacia la inteligencia, hacia la calidad de los datos, hacia el volumen de datos justo y necesario para extraer conocimiento y fuentes de valor de los mismos, y su importancia en la toma de decisiones estratégicas y de negocio. De ahí que hayamos utilizado el término «Smart» en lugar del término «Big».

El concepto «Smart Data» hace referencia a información inteligente que puede ser clave para la toma de decisiones. En lugar de enfocar los problemas los problemas desde una óptica de «mucha cantidad para sacar algo de valor«, lo enfocamos desde una lógica de «datos justos que ya permitan sacar conclusiones significativas«.

De 15:30 a 17:00, organizamos una de nuestros habituales sesiones interactivas que hemos venido a bautizar como «Datos Inteligentes-Smart Data«. Para ello, tenemos la fortuna de contar con la moderación de Iñaki Ortega, director de Deusto Business School – Madrid. Una persona muy reconocida en este mundo de cruce entre la era digital y los negocios, que nos guiará a lo largo de una sesión en la que participarán cuatro personas:

  • José Luis García Díaz. Director de Soluciones de Gobierno y Sanidad. en Microsoft. Título ponencia: “Dato = Moneda/Sociedad Digital
  • Javier Goikoetxea González. CEO Grupo NEXT. Título ponencia: “Caso práctico de uso de la información; el caso del Grupo NEXT
  • Ana Cruz Orti. Account Executive para cuentas Enterprise en Linkedin. Título ponencia: “TBD
  • Alex Rayón. Director Programa de Big Data y Business Intelligence. Título ponencia: «El poder del Big Data en nuestras sociedades inteligentes, pero con una dimensión ética«.

Los cuatro ponentes, expondrán su caso y visión particular sobre contextos donde el dato ha dotado de una inteligencia a la toma de decisiones. Y lo harán, exponiéndolo durante unos breves 15 minutos, y con un «formato TED«, píldoras de vídeo que serán grabadas y que luego colgaré aquí en el blog. Una vez concluídas sus intervenciones, se realizará un «debate a cuatro sin atril» sobre diferentes cuestiones en las que Iñaki Ortega nos guiará. Un debate que busca una conversación natural sobre los temas, en los que poder obtener conclusiones alrededor de ese enfoque hacia «la inteligencia de los datos«.

Una vez finalizado este evento, entregaremos los títulos a los graduados de la primera promoción de nuestro Programa de Big Data y Business Intelligence. Un total de 21 estudiantes, que ocupan ahora su día a día en la aplicación de los datos en diferentes contextos de su día a día (sanidad, medios de comunicación, comercio electrónico, consultoría tecnológica, finanzas, etc.).

Para finalizar la jornada, contaremos con otro invitado de verdadero lujo, Miguel Zugaza, director del Museo del Prado. Junto con Ricardo Maturana, CEO de GNOSS, la empresa proveedora de la tecnología que ha permitido este proyecto, nos hablará sobre el proyecto de transformación digital que ha emprendido en el Prado. Un proyecto, apoyado, entre otras cuestiones, en datos abiertos y enlazados, como ya expliqué aquí.

Navegando por el Museo del Prado en la web
Navegando por el Museo del Prado en la web

El proyecto de datos abiertos con el que el Museo del Prado ofrece a sus visitantes la posibilidad de disfrutar de una experiencia de visita digital, se fundamenta en la apertura de sus obras y los atributos que la describen. Unos datos enlazados, que permiten sugerir visitas, recomendar obras y autores, etc. En definitiva, el diseño y desarrollo de experiencias web enriquecidas gracias a otro enfoque de «Smart Data«.

En definitiva, una apasionante jornada de tarde de jueves, en la que los datos nos acompañarán desde las 15:30 hasta la noche. Estáis todos invitados e invitadas para entender este enfoque «Smart data». La inscripción a cualquiera de los eventos que he descrito la puedes realizar en este formulario. Te esperamos 🙂

El empleo y Big Data: oportunidades de futuro

Este pasado viernes 29 de Enero arrancamos la segunda edición de nuestro Programa en Big Data y Business Intelligence.  El grupo lleno (27 plazas), y con varias personas en lista de espera que no hemos podido incluir en el grupo final. Ya estamos trabajando en la apertura de un segundo grupo, ante el número de peticiones que siguen llegándonos.

Estamos realmente contentos por muchos motivos. Pero quizás, el que más nos satisface, es poder seguir formando personas en un área que cada vez es más objetivo decir está trayendo un empleo de calidad y futuro. Revisemos cifras e informes para avalar esta afirmación. Una simple búsqueda en uno de los portales de referencia ya arroja bastante luz alrededor de todo ello:

Búsqueda rápida en Infojobs por puestos de trabajo en Big Data
Búsqueda rápida en Infojobs por puestos de trabajo en Big Data

¿Por qué las empresas empiezan a demandar con fuerza el Big Data? Pues básicamente por lo que aportan al día a día de una compañía. Dado que ayuda a tomar decisiones de negocio directamente relacionadas con el resultado económico, las empresas rápidamente reaccionan. Básicamente, en las tres principales utilidades que ofrece el Big Data: Ganar más dinero, Ahorrar costes, Evitar fraude y fuga de clientes. Todas, explotaciones relacionadas con el resultado económico de una empresa, como decía.

Las capacidades analíticas, que son precisamente las habilidades que trabajamos en nuestro Programa, ayudan mucho al profesional Big Data a aportar valor allí donde se desempeñe profesionalmente. Como dice la siguiente noticia: «Las empresas se rifan (literalmente) a los profesionales del Big Data«.

Las empresas se rifan (literalmente) a los profesionales del Big Data (Fuente: http://www.marketingdirecto.com/actualidad/marketing/las-empresas-se-rifan-literalmente-a-los-profesionales-del-big-data/)
Las empresas se rifan (literalmente) a los profesionales del Big Data (Fuente: http://www.marketingdirecto.com/actualidad/marketing/las-empresas-se-rifan-literalmente-a-los-profesionales-del-big-data/)

Mucho ha llovido desde que en 2012 la revista Harvard Business Review calificó como «la profesión más sexy del siglo XXI». Cuando creamos el programa hace año y medio, pusimos esto:

Según Gartner, en 2015 van a ser necesarios 4,4 millones de personas formadas en el campo del análisis de datos y su explotación. En este sentido, McKinsey sitúan en torno al 50% la brecha entre la demanda y la oferta de puestos de trabajo relacionados con el análisis de datos en 2018.

1,2 millones de puestos de trabajo serían para Europa Occidental. Pero creo que estamos ya a unas alturas que datos más concretos y actuales pueden ser expuestos. El Bureau of Labor Statistics (BLS) de Estados Unidos prevé que entre 2010 y 2020 los empleos relacionados con la tecnología crezcan un 22%. Dado que en el sector de la tecnología, uno de los paradigmas reinantes, es el del Big Data, no creo que esté equivocado al afirmar que muchos de esos puestos de trabajo irán a parar a «perfiles de datos«. La sensorización del mundo, la introducción de tecnologías avanzadas en la industria, está haciendo que cada vez existan más datos, y por lo tanto, más demanda para poner ese dato en valor. Ahí es donde necesitamos esos perfiles.

El recorrido es aún amplio porque en España, solo un 4,8% de las empresas ha integrado la tecnología de Big Data en sus estrategias de negocio. Aunque seguramente esta cifra sea mayor hoy en día, la idea sigue vigente: cada vez más empresas se preguntan por la utilidad que pudiera tener el Big Data en su día a día. Hace cosa de un mes, Expansión me entrevistó precisamente hablando de todo esto, cómo el Big Data iba a cambiar nuestra forma de trabajar.

Más allá de las cifras en términos absolutos, es bueno ver la tendencia relativa. Quizás las cifras más claras las ofrece el «Observatorio del Empleo en perfiles Big data«.  Las ofertas de empleo en España para el sector Big Data, según el portal ticjob.es (portal de empleo especializado en el ámbito TIC) se han triplicado en los últimos 12 meses pasando de 646 a 1.797 trabajos ofertados. Pero es que además, el número de candidatos por vacantes ha descendido de 9 a 5. Es decir, crece la demanda, pero baja la oferta.

Fuente: ticjob.es
Fuente: ticjob.es
Fuente: ticjob.es
Fuente: ticjob.es

Como veis, la demanda por perfiles Big Data tiene un crecimiento importante. Pero, también los salarios, como se puede apreciar en la siguiente gráfica:

Fuente: ticjob.es
Fuente: ticjob.es

Los puestos de trabajo Big Data tuvieron un salario promedio en 2014 de 37.705 euros. Solo el perfil de arquitecto de información (que en cierto modo también guarda relación con el área de Big Data), tenía un salario más alto. Y eso que, según el mismo informe, el descenso del salario se debe básicamente a la amplia incorporación de perfiles que tienen menos de 3 años de experiencia, y que por lo tanto, hacen bajar la media. Pero, aún así, un salto cualitativo importante en términos de calidad del trabajo, independientemente de la edad del candidato.

Por lo tanto, como decíamos al comienzo, parece que el Big Data nos va a dar trabajo durante un tiempo determinado. El empleo y Big Data gozan de buena salud, y así lo trabajaremos con la formación de calidad que daremos a nuestros participantes de esta segunda edición del Programa. Bienvenidos a todos y todas 🙂

Marketing Intelligence: cómo optimizar mi estrategia de marketing a través del Big Data

Que el Big Data puede aportar mucho al mundo del marketing es algo que ya hemos señalado con anterioridad. En la era de Internet, la era digital, y dentro del mundo del marketing, el usuario tiene el poder: busca, recomienda, sugiere, se queja, etc. Es fundamental que todos estos que afectarán, en última instancia, a la oferta de una compañía, así como al propio mercado, las marcas lo tengan controlado.

Los beneficios que una organización puede obtener del análisis de estos datos a nivel de marketing son claros: conocimiento de sus clientes, mercados, productos, etc, redundando esto en nuevos mercados, nuevos segmentos, alineamiento de la empresa a los clientes. En definitiva nuevos ingresos y ahorros.

Oportunidades que se enmarcan en una era en la que personalización y especialización que demanda un cliente exigente e informado. El consumidor considera ahora Internet en todo el proceso de compra, emplea el móvil de manera omnipresente (por lo que se multiplican los puntos de contacto) y quiere una experiencia coherente entre canales para que se fidelice a nuestra marca. Es lo que se ha venido a denominar el customer journey o buyer journey, donde el dato juega un papel fundamental. Los puntos de contacto, tanto físicos como digitales, se han multiplicado, y en cada uno de ellos, tenemos una fuente de aprendizaje de lo que quiere, recomienda, busca, etc. nuestro cliente muy importante.

El Customer Journey y el marketing intelligence: un viaje a través de los puntos de contacto físicos y digitales (Fuente: http://www.chuimedia.co.ke/wp-content/uploads/sites/8/2014/11/perfect-consumers-journey.png)
El Customer Journey: un viaje a través de los puntos de contacto físicos y digitales (Fuente: http://www.chuimedia.co.ke/wp-content/uploads/sites/8/2014/11/perfect-consumers-journey.png)

Así, tenemos que ofrecer a nuestros clientes experiencias de compra únicas e integrales a través de estrategias omnicanal. Hasta un 65% de los clientes visita canales online antes de comprar en las tiendas físicas. El cliente decide el canal por el que quiere comprar, y no nosotros como empresas. Y en todo esto, el dato es el activo con el que poder habilitar todas estas opciones.

El Business Intelligence y Analytics aporta la inteligencia al dato para convertirlo en conocimiento y disponer de ese valor estratégico. Hablamos de aumentar el valor que ofrecemos al cliente, y para nosotros, como empresa, aumentar la rentabilidad que obtenemos del mismo. En la siguiente representación podemos ver cómo a lo largo del tiempo, la ganancia, el valor, que sacamos a un cliente es cada vez mayor. Y para ello, tenemos diferentes técnicas de tratamiento de datos que nos pueden ayudar en esta tarea. Y en ello, centraremos lo que resta del artículo.

Cómo aumentar el valor obtenido de los clientes (Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)
Cómo aumentar el valor obtenido de los clientes
(Fuente: http://www.sas.com/offices/latinamerica/argentina/resources/asset/CI_Banca2012.pdf)

La idea es analizar la parte más transaccional (de compra-venta) con las acciones de marketing. Con este dúo, sacamos acciones de marketing con objetivos, personalizado e hipersegmentado. Se trata de analizar los datos contextuales de una compra (momento, lugar, composición de la cesta de la compra), lo enmarcamos en perspectiva (frecuencia, tiempo entre última compra, etc.) analizamos el cliente (si lo hace con tarjeta de fidelización, edad y perfil sociodemográfico, si viene incentivado por un descuento, etc.) y el canal por el que entra (online -tienda online, landing page, redes sociales, etc- u offline), y preguntarnos cosas. Ya hemos dicho en alguna otra ocasión que esta era se caracteriza por la curiosidad, por saber hacernos las preguntas correctas para sacarles valor a los datos.

Por lo tanto, corresponde hablar de modelos de análisis de datos más avanzados. Y, dentro del área de marketing, los cuatro más relevantes son:

  1. Modelos de propensión a la compra (cross y upselling): modelos que calculan la probabilidad de aceptación que tiene un cliente de adquirir productos complementarios (cross) o productos de más alta gama (up) para hacer una venta más rentable. Ambas técnicas las fomentamos presentando productos de una manera amigable, de tal modo que incite a comprar complementos que se sugieren de manera personalizada. Y para ello, se puede emplear la técnica de las reglas de asociación, también conocida como Market Basket Analysis o análisis de afinidad.
  2. Modelos de propensión a la fuga: Uno de los fundamentos básicos de la experiencia humana es que el futuro próximo es parecido al pasado reciente. Esto lo podemos considerar para alcanzar objetivos de retener a los mejores/más rentables clientes, e identificar los factores clave que influyen en el attrition (fuga de clientes). Se utilizan scores para priorizar los clientes objetivo de acciones de retención. Estos clientes son identificados cuando alcanzan ciertos valores en variables con mucha capacidad predictiva (quejas interpuestas, menor frecuencia de compra, etc.) Cada empresa dispone de su modelo, y luego podrá aplicar acciones como descuentos a los más propensos a irse, promociones adhoc a un conjunto de clientes que si bien no son los más propensos a irse ya no tienen la mejor experiencia de cliente, etc. etc.
  3. Optimización de las campañas y acciones dentro de una estrategia omnicanal: con la aparición de Internet, las organizaciones se vieron en la necesidad de crear presencia en múltiples canales. Las estrategias omnicanal, tienen dos objetivos principales: 1) Ofrecer al consumidor una experiencia de compra coherente y sin disrupción entre los diferentes canales; 2) Usar los canales digitales como un vector de generación de tráfico hacia la tienda. Los principales retos no son tanto tecnológicos, sino organizacionales (estructura, incentivos alineados) y operacionales (procesos, políticas y workflows consistentes). La integración con el CRM se vuelve crítica. Así, podremos responder a preguntas como: ¿en qué canal centrarnos? ¿Cuál funciona? ¿Cómo comunicar los datos de un canal con otro? Para un tamaño de cesta dado (y en definitiva, de margen absoluto determinado), ¿qué acción online u offline de marketing reforzar? Conocer cuáles son las que más leads convierten, y por segmentos de población, para así poder personalizar las acciones.
    Disponemos de herramientas como Chaordic o Hubspot que permiten hacer la traza de navegación desde que un futuro cliente es un lead, para así poder conocer cuál ha sido la acción y el canal que le ha llevado a su conversión a cliente final. Una vez que teníamos identificados los objetivos (evitar fugas, aumentar la rentabilidad de un cliente determinado, etc.), es cuando podíamos a través de campañas y acciones de marketing hacer un plan de acción.
    En definitiva, se trata de programar y automatizar la ejecución de campañas, interactuar con los canales, y capturar las respuestas y medir la efectividad de las mismas. A nivel matemático, lo que hacemos es un análisis de sensibilidad.
  4. Inversión que puedo asumir para adquirir nuevos clientes a tenor del valor que les puedo sacar en el tiempo: la adquisición de clientes y cómo poder rentabilizar esa inversión en el tiempo. A sabiendas que en Internet yo pago por adquirir clientes (una lógica de marketing nueva y que la era digital aporta), rentabilizar el Coste de Adquisición (CAC) con el Valor del Cliente a lo largo del tiempo (CLV) es la idea fundamental. Muchos negocios plantean proyectos de marketing que requieren de este enfoque. Es decir, dependen de presentarles un plan de negocio donde se les argumente la pertinencia y necesidades de hacer inversiones en marketing (Coste de Adquisición) por la rentabilidad que se le puede sacar a cada cliente en el tiempo si conseguimos fidelizar al mismo. El problema es que los cálculos que se suelen hacer para calcular el coste máximo de una campaña de captación de clientes se basa en una venta única típicamente. Lo que no se tiene en cuenta es que ese mismo cliente podría repetir su compra, que es lo que suele ocurrir en los enfoques de fidelización que tan útiles resultan. Por lo tanto, hacer el cálculo matemático del CAC y el CLV resultan de enorme interés para poder poner en marcha acciones estratégicas de marketing que permitan maximizar el negocio.

En definitiva, en el campo del Marketing Intelligence, vamos a poner la estadística al servicio del negocio. Os dejamos abajo una presentación de una sesión del programa en la que vemos muchas de estas cuestiones para que podáis profundizar.