Archivo de la etiqueta: deusto

R vs. Python para el análisis de datos en proyectos de Big Data

27 marzo, 2016 Álex Rayón 7 comentarios

Cuando abrimos este blog, dedicamos una entrada a comparar diferentes herramientas analíticas. En su día, hablamos de SAS, R y Python, mostrando la experiencia que tenía en el manejo de las tres de nuestro profesor Pedro Gómez. Desde entonces, han aparecido varias noticias y reflexiones comparando especialmente dos de ellas: R y Python. DataCamp publicó hace unos meses la infografía que ponemos al final de este artículo comparando ambas.

El análisis de datos, obviamente, es una parte nuclear de cualquier proyecto de Big Data. El análisis de los diferentes flujos de datos y su combinación para obtener nuevos patrones, tendencias, estructuras, etc. se puede realizar con diferentes herramientas y lenguajes de programación. La elección de estas últimas es una cuestión en muchas ocasiones de gustos, de preferencias, pero también en otras ocasiones, objeto de detallados análisis.

La infografía que hoy nos acompaña agrega múltiples fuentes que comparan R y Python. Por eso mismo, nos ha resultado interesante para compartir con vosotros. Compara ambos lenguajes desde una perspectiva de la Ciencia de Datos, o Data Science, disciplina que ya describimos en una entrada anterior. Las debilidades y fortalezas que se muestran, así como sus ventajas y desventajas, puede ayudaros a la hora de seleccionar el mejor lenguaje de programación para vuestro problema dado. Y es que, como solemos decir, cada proyecto, cada problema, cada contexto de empresa, es diferente, por lo que dar sugerencias absolutas suele resultar complicado.

Dado que suele ser un factor bastante determinante, de entre las múltiples características para la toma de decisión, cabe destacar que ambos lenguajes gozan de una amplia comunidad de desarrollo. En este sentido, ninguna diferencia. Quizás lo que mejor caracteriza a cada uno de los lenguajes, es la frase que destacan los que elaboraran la infografía:

“Python is often praised for being a general-purpose language with an easy-to-understand syntax and R’s functionality is developed with statisticians in mind, thereby giving it field-specific advantages such as great features for data visualization”

Os dejamos con la infografía para que podáis por vuestra seguir conociendo mejor cada uno de los dos: R vs. Python o Python vs. R. Seguiremos de cerca la evolución de ambos.

El Machine Learning en la era del Big Data

20 marzo, 2016 Álex Rayón 4 comentarios

El Machine Learning o «Aprendizaje automático» es un área que lleva con nosotros ya unos cuantos años. Básicamente, el objetivo de este campo de la Inteligence Artificial, es que los algoritmos, las reglas de codificación de nuestros objetivos de resolución de un problema, aprendan por si solos. De ahí lo de «aprendizaje automático». Es decir, que los propios algoritmos generalicen conocimiento y lo induzcan a partir de los comportamientos que van observando.

Para que su aprendizaje sea bueno, preciso y efectivo, necesitan datos. Cuantos más, mejor. De ahí que cuando irrumpe el Big Data (este nuevo paradigma de grandes cantidades de datos) el Machine Learning se empezase a frotar las manos en cuanto al futuro que le esperaba. Los patrones, tendencias e interrelaciones entre las variables que el algoritmo de Machine Learning observa, se pueden ahora obtener con una mayor precisión gracias a la disponibilidad de datos.

¿Y qué permiten hacer estos algoritmos de Machine Learning? Muchas cosas. A mí me gusta mucho esta «chuleta» que elaboraron los compañeros del blog Peekaboo. Esta chuleta nos ayuda, a través de un workflow, a seleccionar el mejor método de resolución del problema que tengamos: clasificar, relacionar variables, agrupar nuestros registros por comportamientos, reducir la dimensionalidad, etc. Ya veis, como comentábamos en la entrada anterior, que la estadística está omnipresente.

«Chuleta» de algoritmos de Machine Learning (Fuente: http://1.bp.blogspot.com/-ME24ePzpzIM/UQLWTwurfXI/AAAAAAAAANw/W3EETIroA80/s1600/drop_shadows_background.png)

Estas técnicas llevan con nosotros varias décadas ya. Siempre han resultado muy útiles para obtener conocimiento, ayudar a tomar decisiones en el mundo de los negocios, etc. Su uso siempre ha estado más focalizado en industrias con grandes disponibilidades de datos. Por ejemplo, el sector BFSI (Banking, Financial services and Insurance) siempre han considerado los datos como un activo crítico de la empresa (como se generalizó posteriormente en 2011 a partir del Foro de Davos). Y siempre ha sido un sector donde el Machine Learning ha tenido mucho peso.

Pero, con el auge de la Internet Social y las grandes empresas tecnológicas que generan datos a un gran volumen, velocidad y variedad (Google, Amazon, etc.), esto se generaliza a otros sectores. El uso del Big Data se empieza a generalizar, y el Machine Learning sufre una especie de «renacimiento».

Ahora, se convierten en pieza clave del día a día de muchas compañías, que ven cómo el gran volumen de datos además, les ayuda a obtener más valor de la forma de trabajar que tienen. En la siguiente ilustración que nos genera Google Trends sobre el volumen de búsqueda de ambos términos se puede observar cómo el «Machine Learning» se ve iluminado de nuevo cuando el Big Data entra en el «mainstream»(a partir de 2011 especialmente).

Búsquedas de Big Data y Machine Learning (Fuente: Google Trends)

¿Y por qué le ha venido tan bien al Machine Learning el Big Data? Básicamente porque como la palabra «aprendizaje» viene a ilustrar, los algoritmos necesitan de datos, primero para aprender, y segundo para obtener resultados. Cuando los datos eran limitadas, corríamos el peligro de sufrir problemas de «underfitting«. Es decir, de entrenar poco al modelo, y que éste perdiera precisión. Y, si utilizábamos todos los datos para entrenar al modelo, nos podría pasar lo contrario, problemas de «overfitting«, que entonces nos generaría modelos demasiado ajustados a la muestra, y quizás, poco generalizables a otros casos.

El entrenamiento del modelo con datos y los problemas de «underfitting» y «overfitting» (Fuente: http://i.stack.imgur.com/0NbOY.png)

Este problema con el Big Data desaparece. Tenemos tantos datos, que no nos debe preocupar el equilibrio entre «datos de entrenamiento» y «datos para testar y probar el modelo y su eficiencia/precisión«. La optimización del rendimiento del modelo (el «Just Right» de la gráfica anterior) ahora se puede elegir con mayor flexibilidad, dado que podemos disponer de datos para llegar a ese punto de equilibrio.

Con este panorama de eficientes algoritmos (Machine Learning) y mucha materia prima para que éstos funcionen bien (Big Data), entenderán por qué no solo hay muchos sectores de actividad donde las oportunidades son ahora muy prometedoras (la sección «Rethinking industries» de la siguiente gráfica), sino también para el desarrollo tecnológico y empresarial, es una era, esta del Big Data, muy interesante y de valor.

El panorama de la inteligencia de las máquinas (Fuente: http://blogs-images.forbes.com/anthonykosner/files/2014/12/shivon-zilis-Machine_Intelligence_Landscape_12-10-2014.jpg)

En los últimos años hemos visto mucho desarrollo en lo que a tecnología de Bases de Datos se refiere. Las compañías disponen de muchos datos internos, que se complementan muy bien con los externos de la «Internet Social». Así, el Machine Learning, nos acompañará durante los próximos años para sacarle valor a los mismos.

El nivel de madurez de una organización para entrar en el mundo de Analytics / Big Data

9 marzo, 2016 Álex Rayón 8 comentarios

El nivel de madurez de una organización para afrontar proyectos de Big Data / Analytics es un elemento que siempre debemos tener presente. Un proyecto, con la mejor tecnología, no tiene por qué ser exitoso si no sumamos otros elementos que también contribuyen al resultado global del proyecto.

En estos años, hay organizaciones que se han dedicado a obtener frameworks para medir ese nivel de madurez de una organización. Uno de los que más nos gusta es éste que veis a continuación, el Analytics Maturity Quotient (AMQ™):

Como se puede apreciar, son cinco factores los que suman y contribuyen a ese nivel de madurez para afrontar estos proyectos en una organización:

Calidad de los datos: todo empieza con la calidad de los datos. Nosotros estamos tan de acuerdo en ello, que nuestro primer módulo trata precisamente sobre la importancia de disponer de una buena calidad de datos. Si una organización tiene un buen sistema para el almacenamiento de datos, una buena infraesturctura de datos, ha empezado bien el proyecto. Aquí también suele citarse el paradigma «GIGO»: si metemos malos datos, por mucho que tengamos buenos modelos analíticos, no podremos obtener buenos resultados de nuestro proyecto de Big Data.
Este factor, el de calidad de datos, afecta a su vez a otros cuatro. Pero, como se puede entrever en su representación formal, es el más importante y representativo del conjunto de ellos. Debemos disponer de buenos datos.
Liderazgo «data-driven»: el 40% del éxito restante (una vez que disponemos de «buenos datos«), depende de un liderazgo institucional y organizativo que se crea de verdad que los datos y su análisis son una palanca excelente para la mejora de la toma de decisiones dentro de la compañía. En el artículo que abrió la boca a todos con esto del Big Data («Big Data: the management revolution«) de la Harvard Business Review, se ilustraba esta idea de cambiar el paradigma de toma de decisiones de la «persona que más ganaba» (el HIPPO, highest paid person’s opinion, a la fundamentación en datos). Necesitamos así líderes, CEO, gerentes, responsables de líneas, que «compren» este discurso y valor de los datos como palanca de apoyo a la toma de decisiones.
Personas con habilidades analíticas: un 30% del éxito dependerá de disponer de un buen equipo. Éste, es ahora mismo el gran handicap en España, sin ir más lejos. Faltan «profesionales Big Data«, en todos los roles que esto puede exigir: Data Science para interrogar apropiadamente los datos, tecnólogos de Big Data con capacidades de despliegue de infraestructura, estadísticos y matemáticos, «visualizadores» de datos, etc. A esto, debemos sumarle la importancia de tener cierta orientación a procesos de negocio o mercado en general, dado que los datos son objetivos per se; de dónde se extrae valor es de su interpretación, interrogación y aplicación a diferentes necesidades de empresa. Ahora mismo, este handicap las empresas lo están resolviendo con la formación de las personas de su organización.
Proceso de toma de decisiones «data-driven»: con el Big Data, obtendremos «insights». Ideas clave que nos permitirán mejorar nuestro proceso de toma de decisiones. Una orientación hacia el análisis de datos como la palanca sobre la que se tomarán las decisiones dentro de la compañía. Y las decisiones se toman, una vez que la orientación al dato se ha metido en los procesos. ¿Cómo tomaremos la decisión de invertir en marketing? ¿En base a la eficiencia de las inversiones y la capacidad de convertir a ventas? ¿O en base a un incremento respecto al presupuesto del ejercicio pasado? Los datos están para tomar decisiones, no para ser «un proyecto más«. Un 20% es éste factor crítico de éxito.
Infraestructura tecnológica: por último, obviamente, es difícil emprender un proyecto de este calibre sin infraestructura tecnológica. Por tecnología Big Data no va a ser. Nosotros también le dedicamos un buen número de horas de otro módulo a ello. El panorama tecnológico es cada vez más amplio. Pero, ya ven los elementos anteriores que debemos tener en consideración antes de llegar a este punto.

En cierto modo, estos elementos (Calidad de los datos, Liderazgo, Personas, Decisiones con datos e Infraestructura), con diferentes pasos y orden de importancia, es lo mismo que viene a recomendar un libro que encuentro siempre muy interesante para comenzar con el Big Data: «Big Data: Using Smart Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance«. De él, extraigo la siguiente imagen, que creo ilustra muy bien la idea:

SMART model includes Start with strategy, Measure metrics and Data, Analyse your data, Report your results and Transform your business and decision making (Fuente: http://www.amazon.es/dp/1118965833/ref=asc_df_111896583332101237/?tag=googshopes-21&creative=24538&creativeASIN=1118965833&linkCode=df0&hvdev=c&hvnetw=g&hvqmt=)

Ya veis que esto del Big Data y Analytics no va solo de tecnología. Hay muchos otros factores. Que, todos ellos, afectan al nivel de madurez de una organización para sacar provecho de un proyecto de análisis de datos. Así que, para el próximo proyecto de Big Data que vayas a comenzar, ¿cómo tienes estos elementos de «maduros»?

Sesiones «Smart Data» en Forotech 2016

9 marzo, 2016 Álex Rayón Deja un comentario

Esta semana que entra, celebramos Forotech 2016, que resulta siempre muy especial para los que conformamos la comunidad Deusto Ingeniería. Un encuentro entre la universidad, empresas, estudiantes y el público en general para despertar el interés por la ingeniería y la tecnología.

Entre las numerosas actividades que podréis encontrar, el próximo jueves 10 de marzo, celebramos, por la tarde, varias actividades relacionadas con el «Big Data». Buscamos otra mirada a este mundo de los datos. Una mirada hacia la inteligencia, hacia la calidad de los datos, hacia el volumen de datos justo y necesario para extraer conocimiento y fuentes de valor de los mismos, y su importancia en la toma de decisiones estratégicas y de negocio. De ahí que hayamos utilizado el término «Smart» en lugar del término «Big».

El concepto «Smart Data» hace referencia a información inteligente que puede ser clave para la toma de decisiones. En lugar de enfocar los problemas los problemas desde una óptica de «mucha cantidad para sacar algo de valor«, lo enfocamos desde una lógica de «datos justos que ya permitan sacar conclusiones significativas«.

De 15:30 a 17:00, organizamos una de nuestros habituales sesiones interactivas que hemos venido a bautizar como «Datos Inteligentes-Smart Data«. Para ello, tenemos la fortuna de contar con la moderación de Iñaki Ortega, director de Deusto Business School – Madrid. Una persona muy reconocida en este mundo de cruce entre la era digital y los negocios, que nos guiará a lo largo de una sesión en la que participarán cuatro personas:

José Luis García Díaz. Director de Soluciones de Gobierno y Sanidad. en Microsoft. Título ponencia: “Dato = Moneda/Sociedad Digital”
Javier Goikoetxea González. CEO Grupo NEXT. Título ponencia: “Caso práctico de uso de la información; el caso del Grupo NEXT”
Ana Cruz Orti. Account Executive para cuentas Enterprise en Linkedin. Título ponencia: “TBD”
Alex Rayón. Director Programa de Big Data y Business Intelligence. Título ponencia: «El poder del Big Data en nuestras sociedades inteligentes, pero con una dimensión ética«.

Los cuatro ponentes, expondrán su caso y visión particular sobre contextos donde el dato ha dotado de una inteligencia a la toma de decisiones. Y lo harán, exponiéndolo durante unos breves 15 minutos, y con un «formato TED«, píldoras de vídeo que serán grabadas y que luego colgaré aquí en el blog. Una vez concluídas sus intervenciones, se realizará un «debate a cuatro sin atril» sobre diferentes cuestiones en las que Iñaki Ortega nos guiará. Un debate que busca una conversación natural sobre los temas, en los que poder obtener conclusiones alrededor de ese enfoque hacia «la inteligencia de los datos«.

Una vez finalizado este evento, entregaremos los títulos a los graduados de la primera promoción de nuestro Programa de Big Data y Business Intelligence. Un total de 21 estudiantes, que ocupan ahora su día a día en la aplicación de los datos en diferentes contextos de su día a día (sanidad, medios de comunicación, comercio electrónico, consultoría tecnológica, finanzas, etc.).

Para finalizar la jornada, contaremos con otro invitado de verdadero lujo, Miguel Zugaza, director del Museo del Prado. Junto con Ricardo Maturana, CEO de GNOSS, la empresa proveedora de la tecnología que ha permitido este proyecto, nos hablará sobre el proyecto de transformación digital que ha emprendido en el Prado. Un proyecto, apoyado, entre otras cuestiones, en datos abiertos y enlazados, como ya expliqué aquí.

Navegando por el Museo del Prado en la web

El proyecto de datos abiertos con el que el Museo del Prado ofrece a sus visitantes la posibilidad de disfrutar de una experiencia de visita digital, se fundamenta en la apertura de sus obras y los atributos que la describen. Unos datos enlazados, que permiten sugerir visitas, recomendar obras y autores, etc. En definitiva, el diseño y desarrollo de experiencias web enriquecidas gracias a otro enfoque de «Smart Data«.

En definitiva, una apasionante jornada de tarde de jueves, en la que los datos nos acompañarán desde las 15:30 hasta la noche. Estáis todos invitados e invitadas para entender este enfoque «Smart data». La inscripción a cualquiera de los eventos que he descrito la puedes realizar en este formulario. Te esperamos 🙂

El empleo y Big Data: oportunidades de futuro

4 febrero, 2016 Álex Rayón 4 comentarios

Este pasado viernes 29 de Enero arrancamos la segunda edición de nuestro Programa en Big Data y Business Intelligence. El grupo lleno (27 plazas), y con varias personas en lista de espera que no hemos podido incluir en el grupo final. Ya estamos trabajando en la apertura de un segundo grupo, ante el número de peticiones que siguen llegándonos.

Estamos realmente contentos por muchos motivos. Pero quizás, el que más nos satisface, es poder seguir formando personas en un área que cada vez es más objetivo decir está trayendo un empleo de calidad y futuro. Revisemos cifras e informes para avalar esta afirmación. Una simple búsqueda en uno de los portales de referencia ya arroja bastante luz alrededor de todo ello:

Búsqueda rápida en Infojobs por puestos de trabajo en Big Data

¿Por qué las empresas empiezan a demandar con fuerza el Big Data? Pues básicamente por lo que aportan al día a día de una compañía. Dado que ayuda a tomar decisiones de negocio directamente relacionadas con el resultado económico, las empresas rápidamente reaccionan. Básicamente, en las tres principales utilidades que ofrece el Big Data: Ganar más dinero, Ahorrar costes, Evitar fraude y fuga de clientes. Todas, explotaciones relacionadas con el resultado económico de una empresa, como decía.

Las capacidades analíticas, que son precisamente las habilidades que trabajamos en nuestro Programa, ayudan mucho al profesional Big Data a aportar valor allí donde se desempeñe profesionalmente. Como dice la siguiente noticia: «Las empresas se rifan (literalmente) a los profesionales del Big Data«.

Las empresas se rifan (literalmente) a los profesionales del Big Data (Fuente: http://www.marketingdirecto.com/actualidad/marketing/las-empresas-se-rifan-literalmente-a-los-profesionales-del-big-data/)

Mucho ha llovido desde que en 2012 la revista Harvard Business Review calificó como «la profesión más sexy del siglo XXI». Cuando creamos el programa hace año y medio, pusimos esto:

Según Gartner, en 2015 van a ser necesarios 4,4 millones de personas formadas en el campo del análisis de datos y su explotación. En este sentido, McKinsey sitúan en torno al 50% la brecha entre la demanda y la oferta de puestos de trabajo relacionados con el análisis de datos en 2018.

1,2 millones de puestos de trabajo serían para Europa Occidental. Pero creo que estamos ya a unas alturas que datos más concretos y actuales pueden ser expuestos. El Bureau of Labor Statistics (BLS) de Estados Unidos prevé que entre 2010 y 2020 los empleos relacionados con la tecnología crezcan un 22%. Dado que en el sector de la tecnología, uno de los paradigmas reinantes, es el del Big Data, no creo que esté equivocado al afirmar que muchos de esos puestos de trabajo irán a parar a «perfiles de datos«. La sensorización del mundo, la introducción de tecnologías avanzadas en la industria, está haciendo que cada vez existan más datos, y por lo tanto, más demanda para poner ese dato en valor. Ahí es donde necesitamos esos perfiles.

El recorrido es aún amplio porque en España, solo un 4,8% de las empresas ha integrado la tecnología de Big Data en sus estrategias de negocio. Aunque seguramente esta cifra sea mayor hoy en día, la idea sigue vigente: cada vez más empresas se preguntan por la utilidad que pudiera tener el Big Data en su día a día. Hace cosa de un mes, Expansión me entrevistó precisamente hablando de todo esto, cómo el Big Data iba a cambiar nuestra forma de trabajar.

Más allá de las cifras en términos absolutos, es bueno ver la tendencia relativa. Quizás las cifras más claras las ofrece el «Observatorio del Empleo en perfiles Big data«. Las ofertas de empleo en España para el sector Big Data, según el portal ticjob.es (portal de empleo especializado en el ámbito TIC) se han triplicado en los últimos 12 meses pasando de 646 a 1.797 trabajos ofertados. Pero es que además, el número de candidatos por vacantes ha descendido de 9 a 5. Es decir, crece la demanda, pero baja la oferta.

Como veis, la demanda por perfiles Big Data tiene un crecimiento importante. Pero, también los salarios, como se puede apreciar en la siguiente gráfica:

Los puestos de trabajo Big Data tuvieron un salario promedio en 2014 de 37.705 euros. Solo el perfil de arquitecto de información (que en cierto modo también guarda relación con el área de Big Data), tenía un salario más alto. Y eso que, según el mismo informe, el descenso del salario se debe básicamente a la amplia incorporación de perfiles que tienen menos de 3 años de experiencia, y que por lo tanto, hacen bajar la media. Pero, aún así, un salto cualitativo importante en términos de calidad del trabajo, independientemente de la edad del candidato.

Por lo tanto, como decíamos al comienzo, parece que el Big Data nos va a dar trabajo durante un tiempo determinado. El empleo y Big Data gozan de buena salud, y así lo trabajaremos con la formación de calidad que daremos a nuestros participantes de esta segunda edición del Programa. Bienvenidos a todos y todas 🙂

«Usage-based insurance»: transformación del sector asegurador con el Big Data

10 enero, 2016 Álex Rayón 9 comentarios

Una de las cuestiones que más hemos tratado en nuestros últimos eventos tiene que ver con la transformación de diferentes modelos de negocio, industrias y organizaciones sobre la base de la introducción de la «economía del dato» o «tecnologías Big Data».

Estas realidades de transformación, es un aspecto que veremos en cada vez más industrias y sectores. El informe de Accenture «El Internet de las Cosas en la estrategia de los ejecutivos Españoles«, se recoge como el 60% de la alta dirección ve mucho potencial en el Internet of Things. Esto abre una enorme oportunidad para los datos, porque la sensorización de «nuestra vida, y los objetos que nos rodean«, obviamente tiene una capacidad de generación de datos descomunal. Pero en este mismo informe se recoge como se estima que se emplea menos del 1% de la información y los datos que se generan gracias al IoT.

Uno de los sectores con mayor potencial en dicho informe es el de los vehículos personales, con la inclusión de sistemas de diagnóstico a bordo que monitorizan los patrones de conducción para poder ofrecer pólizas a medida. La «personalización de la economía» llegando a otro sector más. De hecho, según el Informe Global de Automoción, El 82% de los conductores espera beneficios de los datos que genere su vehículo.

Dentro de la industria de los seguros, hablamos de las pólizas de vehículos, dada la transformación que está viviendo en los últimos años. Comencemos por EEUU, donde las cosas suelen ir más rápido que por otras latitudes y longitudes. Compañías como Allstate con su programa «Drivewise», State Farm con «Drive Safe and Save» y Progressive con «Snapshot», ofrecen ahora a sus clientes un esquema de relación basada en: yo monitorizo cómo conduces, y si te comportas bien acorde a unos parámetros conocidos, pagarás menos. Es lo que se ha venido a llamar «Usage-based insurance«. Como ya pagamos por el consumo que hacemos de electricidad (bueno, más o menos) o por la gasolina, pues eso mismo, pero en el sector asegurador. Una tendencia que cada vez veremos en más sectores.

El Big Data lo que introduce es la reducción de costes que habitualmente se generan por la asimetría de información. Como yo no sé si te vas a portar bien, por si las moscas, te cobro una póliza mayor. Para ello, las compañías aseguradoras te instalan un GPS que monitorizan patrones de conducción. Estos datos, que tú consientes ceder a la compañía, son, con una granularidad/frecuencia de muestro de entre 1 y 5 segundos:

Ubicación: latitud y longitud por donde te vas desplazando.
Grado de aceleración/desaceleración: km/h ganados o perdidos, y su comparación en términos de segundos para saber la brusquedad
Vector de giro: fuerzas G, que mide en cierto modo la fuerza del giro y su grado de cambio para detectar brusquedad, agresividad, etc.
Hora y día: sello de tiempo, para saber sobre qué horas y días te desplazads

Con estos datos (que seguramente tengan más), podemos saber, para un conductor dado:

Cómo de brusco conduce: aceleración/desaceleración (el acelerómetro que incorpora lo permite)
Cómo gira: fuerzas G de giro para saber su agresividad en las mismas
Lugares por los que ha pasado: ¿lugares seguros? ¿carreteras principales o secundarias? etc.
Carreteras que más frecuentemente emplea (ya sabemos que las secundarias tienen una tasa de siniestralidad superior)
Horas y días de más frecuencia de conducción, para saber si conduce en «rush hours» u «horas pico» (por ejemplo, ya sabemos que a las noches, y en carreteras secundarias, el índice de mortalidad y riesgo es también mayor)
Velocidad y estadísticos básicos: media, moda, mediana, máxima, mínima (y poder sacar así patrones)
Respeto a las señales de circulación: dado que sabemos por dónde se ha movido, y tenemos datos cartográficos con las limitaciones de velocidad integradas, podemos sacar un «score de buena conducta«, incluso con «grados de cumplimiento» para saber si respeta las normas de circulación.
etc.

Según he podido entender, basan su modelo analítico de scoring en estos datos, de manera que obtienen un «score de conductor«. Un poco en la línea de lo que es disponer de un «score crediticio» (como ya hablamos aquí). Este score permite que con una fórmula de ahorro, podamos decirle a cada conductor cuánto le vamos a cobrar dado su riesgo de conducción. Este modelo de «Pay How You Drive» (PHYD) abre muchas nuevas puertas y seguro vemos recorrido en todo ello próximamente.

Score de conducción (Fuente: https://i.ytimg.com/vi/gj-RO5FE5q4/maxresdefault.jpg)

Obviamente en todo esto, no podemos dejar de lado el trade-off entre «Ahorro» vs. «Privacidad». ¿Qué riesgos pueden existir? Que se sepa dónde estemos en todo momento (y el consiguiendo y manido «Gran Hermano»), la «Third-party doctrine» (si cedo los datos a un tecero, no puedo luego reclamarlos de vuelta) y que esto de la información despersonalizada es un mito. Ahora bien, veo «ahorros» no solo individuales, sino globales:

Cuando una persona se autodiagnostica, gana en conciencia, por lo que es más probable que cambie de comportamiento. En este punto, y con el objetivo de hacer algún contraste, sería interesante ir perdiendo endogamía en la muestra (actualmente todos los conductores que en EEUU están contratando estos seguros son precisamente los que ya mejor conducían…). Aunque también es cierto que si se acaban metiendo todos «los buenos», los que se quedarían fuera, ¿entiendo reaccionarían? Muy interesante esta línea desde el punto de vista sociológico.
Si el «score de conducción» fuese elevado a «Dato público de interés general», podríamos mejorar mucho el sector. Si las compañías aseguradores debieran pasarse ese dato a través de un «Registro Central del Estado«, mucho mejoraría. Como ya funciona para evitar el fraude, por ejemplo. De hecho, entiendo, el primer interesado en esto sería el Ministerio del Interior.
Hacer coches y carreteras más seguras, dado que sabríamos cómo se comportan, en agregado los conductores que pasen por determinados puntos. Esto, seguro que a la Dirección General de Tráfico le puede interesar.
Se podría llegar a acuerdos con comercios habitualmente relacionados con el vehículo (estaciones de repostaje, compra de productos en tiendas, grandes centros comerciales a los que habitualmente nos desplazamos en vehículos, estaciones de radio, etc.) para ofrecer descuentos a comercios asociados o los que quieran asociar su branding a determinados patrones de conducción.
etc.

Hay factores de riesgo al volante que dejamos de lado (micrófonos para el ruido, cámaras para la mirada, copiloto -según un estudio de la Fundación Línea Directa la mujer al volante y el hombre como acompañante es la fórmula de menor riesgo-, etc.), pero quizás veamos pronto todo esto integrado también. Haciendo un rápido Googling para España, he dado con Next Seguros, compañía aseguradora que basa su modelo de negocio en mucho de lo que aquí hemos explicado. En Rastreator salen también algunas otras genéricas que también ofrecen estas posibilidades.

Por último, nunca olvidar del plano legal y la importancia del «Compliance Officer» y garantizarnos que todo esto es posible (a sabiendas que EEUU no es España/Europa, y que la nueva Directiva de Protección de Datos está a la vuelta de la esquina).

Ya ven que esto del «Usage-based insurance» abre muchas cuestiones a reflexionar y transforma muchos elementos de un sector (modelo de negocio, tarificación, plano legal, etc.). Una más, entre las industrias, que el Big Data está dotando de nuevas capacidades.

Calidad de datos: mucho más que una acción puntual

30 diciembre, 2015 Álex Rayón Deja un comentario

(Artículo escrito por David Guerrero, profesional del sector financiero y profesor del Programa de Big Data y Business Intelligence de la Universidad de Deusto)

En la sociedad de la información actual las empresas manejan cantidades ingentes de datos, tanto propios como ajenos. Cada vez es más habitual ver reportes obtenidos a partir de diversas técnicas analíticas, y cuadros de mando generados por medio de sistemas de reporting para alta dirección.

A partir de estos informes se toman decisiones que en muchas ocasiones pueden ser cruciales para el devenir de la empresa. Entonces, es de suponer, que estos informes están hechos tomando como base una información de altísima calidad. Pero, ¿realmente lo están?

La calidad de la información o Data Quality en inglés, está cobrando mayor relevancia en los procesos de las organizaciones. Buena parte de culpa la tienen los reguladores, que están empezando a exigir políticas y procedimientos que aseguren unos niveles óptimos de calidad de los datos: Master Data Management (MDM).

No disponer de una política de calidad de datos implica que todos los equipos que vayan a trabajar la información tengan que invertir tiempo en limpiar los datos antes de poder explotarlos para otros propósitos. Además, se corre el riesgo de que en ese proceso de limpieza se generen discrepancias de información si no se adoptan los mismos criterios a la hora de realizar las adaptaciones oportunas.

Las cifras hablan por sí solas, y los expertos coinciden en que 2016 será un año de gran crecimiento en la industria del Data Quality.

78% de las empresas tienen problemas en los envíos de email
83% de las empresas están luchando contra silos de datos
81% de los retailers no pueden apalancarse en los programas de fidelidad debido a información inexacta
87% de las instituciones financieras tienen dificultades para obtener inteligencia confiable
63% de las compañías todavía no tienen un enfoque coherente de la Calidad de Datos

En definitiva, para que las organizaciones puedan obtener valor de sus datos, deben primero poner orden en la gestión, tratamiento y conservación de la información. Los datos son y deben ser la materia prima que guíe la toma de decisiones de nuestra empresa, y para ello deben presentar en el formato esperado, en el momento preciso, para las personas que lo necesitan y con la máxima calidad.

Fuente: http://www.datasciencecentral.com/profiles/blogs/will-2016-be-the-year-you-clean-up-your-dirty-data

Análisis de redes sociales: el poder de la teoría de grafos

13 diciembre, 2015 Álex Rayón 12 comentarios

Cuando hablamos de procesamiento de datos, automáticamente a muchos de nosotros nos vienen muchos números a la cabeza, muchas técnicas estadísticas, conclusiones cuantitativas, etc. Esto es así, pero es que hay mundo más allá de los números. Dos de las explotaciones de datos que más popularidad están ganando en los últimos tiempos, especialmente derivado de que se estima (más arriba, más abajo) que aproximadamente el 80% de los datos son desestructurados, son el análisis de textos y el análisis de redes sociales.

El análisis de textos o Text Mining hace referencia al análisis de textos o contenidos escritos sin ningún tipo de estructura. Se calcula que el 80% de la información de una empresa está almacenada en forma de documentos. Sin duda, este campo de estudio es muy amplio, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto).

El segundo campo en el que veremos gran recorrido (ya lo estamos viendo) es el análisis de redes sociales o estructuras de grafos. Ya hablamos de ello en un artículo anterior. No es solo análisis de las redes sociales entendidas como análisis de contenido de Social Media. Es un estudio numérico, algebraico, de una representación de conocimiento en formato de grafo. Un campo que mezcla la sociología y las matemáticas (el álgebra de grafos) en el que hay actores o entidades que interactúan, pudiendo representar estas acciones a partir de un grafo.

Un grafo o representación de la interacción entre entidades o actores a través del álgebra de grafos (Fuente: http://www.adictosaltrabajo.com/tutoriales/web-htmlcomo-grafo/)

El interés por estudiar los patrones y estructura que esconden esta representación de nodos y aristas ha crecido en los últimos años a medida que ha aumentado la relación entre agentes. Es decir, a medida que han crecido las redes sociales (¿cómo se relacionan mis clientes en facebook?), ha crecido la influencia de una persona en otra para comprar (los millenials confían más en la reputación de sus amigos que en la publicidad de las marcas), las redes de proveedores y clientes han aumentado sustancialmente (por la globalización de la economía y la interconexión internacional), etc., crece el interés por estudiar qué patrones pueden descubrirse para incrementar la inteligencia del negocio.

¿Y por qué esto de interés ahora? En la medida en que un problema dado (acordaros, primer paso de un proyecto Big Data), puede ser modelado mediante un grafo y resuelto mediante algoritmos específicos de la teoría de grafos, la información que podemos obtener es muy relevante. Esto es algo que los topógrafos (cómo enlazar las estaciones del metro de Nueva York de la manera más eficiente para todas las variables a optimizar -distancia, coste, satisfacción usuario, etc.-) o los antropólogos (cómo se han relacionado las especies y los efectos producidos unos en otros) llevan muchos años ya explotando. Ahora, da el salto al mundo del consumo, la sanidad, la educación, etc.

¿Qué nos puede aportar un grafo, una red social, y su análisis a nuestros interes? Las redes sociales pueden definirse como un conjunto bien delimitado de actores como pueden ser individuos, grupos, organizaciones, comunidades, sociedades globales, entre otros. Están vinculados unos a otros a través de una relación o un conjunto de relaciones sociales. El análisis de estos vínculos puede ser empleado para interpretar comportamientos sociales de los implicados. Esto es lo que ha venido a denominarse el Análisis de Redes Sociales o ARS (Social Network Analysis, o SNA).

Dentro del ARS, uno de los conceptos clave es la Sociometría. Su fundador, Jacob Levy Moreno, la describió como:

“La sociometría tiene por objeto el estudio matemático de las propiedades psicológicas de las poblaciones; con este fin utiliza una técnica experimental fundada sobre los métodos cuantitativos y expone los resultados obtenidos por la aplicación de estos métodos. Persigue así una encuesta metódica sobre la evolución y la organización de los grupos y sobre la posición de los individuos en los grupos”.

Usando una herramienta interactiva como Gephi, se puede visualizar, explorar y analizar toda clase de redes y sistemas complejos, grafos jerárquicos y dinámicos. Es decir, hacer sociometría. Una herramienta de este tipo nos permitirá obtener diferentes métricas, que podemos clasificar en tres niveles:

Nivel global de un grafo
- Coeficiente de agrupamiento: nivel de agrupamiento de los nodos, para saber cómo de cohesionados o integrados están los agentes/actores.
- Camino característico: mide el grado de separación de los nodos, para determinar lo contrario al punto anterior: cómo de separados o alejados están, y poder buscar así medidas para juntar más la relación entre agentes/actores.
- Densidad: un grafo puede ser denso (cuando tiene muchas aristas) o disperso (muy pocas aristas). En este sentido, se puede interpretar como que hay mucha o poca conexión.
- Diámetro: es el máximo de las distancias entre cualesquiera par de nodos. De esta manera, sabemos cómo de «alejados» o «próximos» están en agregado a la hora de comparar varios grafos.
- Grado medio: número de vecinos (conexiones a otros nodos) medio que tiene un grado. Indicará cuál es la media de conexiones que tiene un nodo, de manera que se puede saber su popularidad..
- Centralidad: permite realizar un análisis para indicar aquellos nodos que poseen una mayor cantidad de relaciones y por ende, los influyentes dentro del grupo. De esta manera, sabemos su «popularidad», lo que nos puede dar mucha información para saber la importancia de un nodo dentro del total.
Nivel comunidad (grupos de nodos dentro de un grafo)
- Comunidades: instrumento para conocerse a sí mismo, para conocer a los otros, al grupo concreto que vive su momento, y en general a los grupos que viven procesos similares. De esta manera, podemos agrupar a los nodos por patrones de similtud.
- Puentes entre comunidades: ¿cómo se conectan estas comunidades? ¿cómo de comunicables son esas comunidades? Para trazar planes de actuación o de marketing.
- Centros locales vs. periferia: para saber, dentro de las comunidades, los nodos que son más centrales o críticos, frente a los que no lo son.
Nivel nodo (propiedades de un influenciador dado)
- Centralidad: es una métrica de poder. El valor 0.522 para la centralidad de un nodo indica que si para cada par de influenciadores buscamos el camino más corto en el grafo, el 52.2% de estos caminos pasa por ese influenciador. Mide su popularidad, y el algoritmo de Google, por ejemplo, funcionó durante mucho tiempo así, siendo cada nodo, una página web o recurso en Internet.
  Métricas de un nodo en una red (Fuente: http://historiapolitica.com/redhistoria/imagenes/ndos/larrosa4.jpg)
- Modularidad: la modularidad es una medida de la estructura de las redes o grafos. Fue diseñado para medir la fuerza de la división de una red en módulos (también llamados grupos, agrupamientos o comunidades). Las redes con alta modularidad tienen conexiones sólidas entre los nodos dentro de los módulos, pero escasas conexiones entre nodos en diferentes módulos.
- Intermediación: se puede enfocar como la capacidad que inviste el nodo en ocupar una posición intermediaria en las comunicaciones entre el resto de los influenciadores. Aquellos, con mayor intermediación tienen un gran liderazgo, debido a que controlan los flujos de comunicación. Y esto, de nuevo, da mucha inteligencia a un negocio.
- Pagerank: algoritmo que permite dar un valor numérico ( ranking ) a cada nodo de un grafo que mide de alguna forma su conectividad. Es el famoso pagerank que utilizó Google (de hecho, el algoritmo fue diseñado por los creadores de Google, que es de donde viene su pasado matemático).
- Closeness: cuán fácil es llegar a los otros vértices. Indicará, por lo tanto, cómo de cerca queda ese influenciador para llegar a contactar con otros. Esto, permite saber cuán importante es ese nodo dentro de la red de influencia para eventuales comunicaciones o relaciones con otros nodos.

Todo esto ya se está empleando en campos tan diversos como el marketing digital (para la detección de influenciadores entre los seguidores, de especial importancia en la economía colaborativa, donde la reputación online es clave de consumo), el fútbol (para la detección que Xavi y Xabi Alonso fueron la clave en el campeonato de Sudáfrica para que España ganase, en lugar de Iniesta, autor del gol), optimización de rutas de distribución (por ejemplo, la de un taxi, en tiempo real, para evitar congestiones en ciudades como Pekín o New York), conocer los tipos de conversaciones que se mantienen con tu audiencia/comunidad (muy usado en televisión y Twitter), saber cuáles son los drivers de compra que más afectan a las decisiones de consumo de tus clientes, etc.

Y tú, ¿a qué esperas para que el análisis de grafos puedan aportarte inteligencia a tu representación en forma de red social? De nuevo, las matemáticas, además de la sociología, a disposición de la inteligencia de un negocio. Bienvenidos al análisis de redes sociales.

Podcast del webinar «Aplicación del Big Data a Finanzas, Marketing y Sanidad»

26 noviembre, 2015 Álex Rayón Deja un comentario

El 3 de noviembre de 2015, el Director del Programa de Big Data y Business Intelligence, Alex Rayón, entrevistó a través de un webinar a tres expertos profesionales en cada uno de los tres sectores citados: Pedro Gómez (profesional del ámbito financiero), Joseba Díaz (profesional con experiencia en proyectos sanitarios y profesional Big Data en HP) y Jon Goikoetxea (Director de Comunicación y Marketing del Grupo Noticias y el diario Deia y alumno de la primera edición del Programa Big Data y Business Intelligence).

En la sesión pudimos conocer la aplicación del Big Data a los tres sectores (finanzas, sanidad y comunicación&marketing), conociendo experiencias reales y enfoques prácticos de la puesta en valor del dato. Os dejamos el enlace donde podéis escuchar el podcast de la sesión.

Ciclo «El empleo hoy: oportunidades de mañana. Big Data y Business Intelligence», 2 de Diciembre, 2015

25 noviembre, 2015 Álex Rayón Deja un comentario

Son muchas las estadísticas que hacen referencia a la oportunidad de empleo que existe alrededor del Big Data. Según Gartner, en 2015 van a ser necesarios 4,4 millones de personas formadas en el campo del análisis de datos y su explotación. En este sentido, McKinsey sitúa en torno al 50% la brecha entre la demanda y la oferta de puestos de trabajo relacionados con el análisis de datos en 2018. Es decir, existe un enorme déficit de científicos y analistas de datos.

Por otro lado, el Big Data está empezando a entrar en los procesos de negocio de las organizaciones de manera transversal. Anteriormente, era empleado para necesidades concretas (evitar la fuga de clientes, mejora de las acciones del marketing, etc.), siendo impulsado mayoritariamente por los equipos técnicos y tecnológicos de las compañías. Se están creando nuevas herramientas analíticas diseñadas para las necesidades de las unidades de negocio, con sencillas, útiles e intuitivas interfaces gráficas. De este modo, el usuario de negocio impulsa la adopción de soluciones Big Data como soporte a la toma de decisiones de negocio.

La llegada de Big Data al usuario de negocio representa una oportunidad de ampliar el número de usuarios y extender el ámbito de actuación. Se prevé así que cada vez entren más proveedores, tanto de soluciones tecnológicas como de agregadores de datos. Y es que el Big Data comienza a ser el elemento principal para la transformación de las organizaciones (en constante búsqueda de la eficiencia y la mejora de sus procesos) e inclusos de sus modelos de negocio (nuevas oportunidades de monetización). En este sentido, son muchas las organizaciones que han pasado de productos a servicios, y necesitan reinventarse sobre el análisis de los datos.

Con todo ello, y ante la multidimensionalidad de esta transformación económica y tecnológica, se están creando nuevos perfiles y puestos de trabajo desconocidos en nuestra sociedad y que tienen que ver con los datos. Big Data implica un cambio en la dirección y organización de las empresas. El que no esté preparado para hacer las preguntas adecuadas, sabiendo que se lo puede preguntar a los sistemas, estará desperdiciando el potencial de su organización. Y en ello necesitará un perfil que conozca del ámbito técnico, del económico, del legal, del humano, etc., y de competencias genéricas como la inquietud, el trabajo en equipo, la creatividad, orientación a la calidad y el cliente, etc. Queda claro así, que esto no es un campo sólo técnico; es mucho más amplio y diverso.

Las empresas están empezando a entender la necesidad de trabajar con los datos, y eso teniendo en cuenta que actualmente sólo se usa el 5% del todo el caudal de datos. Pero es manifiesta la falta de talento.

Por todo ello, organizamos un ciclo de eventos que hemos denominado «El empleo hoy: oportunidades de mañana. Big Data y Business Intelligence«. El primero de ellos, será el próximo 2 de Diciembre. Contaremos con la presencia de protagonistas de este cambio. Empresas, que sí tienen esta visión del dato como elemento transformador de su organización y su modelo de negocio. Empresas, que demandan este talento que todavía es muy escaso. Puedes registrarte en este formulario, con una inscripción totalmente gratuita. El evento lo celebraremos entre las 9:15 y 13:30, en la Sala Ellacuría de la Biblioteca-CRAI de la Universidad de Deusto.

Todos los detalles del programa los podéis encontrar en la parte inferior de este artículo. Contaremos con la presencia de un reputado conferencista internacional, Patricio Moreno, CEO de la empresa Datalytics. Con mucha presencia en varios países de Latinoamérica y Europa, nos ofrecerá una visión global de las oportunidades de transformación que trae el Big Data a las organizaciones y a las personas para su desempeño laboral futuro. Además, Natalia Maeso, gerente en Deloitte, nos contará cómo desde el mundo de la consultoría (Deloitte es la primera firma en consultoría a nivel mundial), las oportunidades laborales que trae el Big Data. Los niveles de contratación del mundo de la consultoría en este sector son realmente altos.

Por último, cerraremos la jornada con una mesa redonda, en la que además de Patricio y Natalia, contaremos con Antonio Torrado de HP, Marita Alba de CIMUBISA y David Ruiz de Smartup, para debatir y conversar sobre las competencias, conocimientos y técnicas necesarias para los profesionales que hacen que las organizaciones evolucionen hacia la ventaja competitiva que ofrece la explotación de los datos.

Os esperamos a todos el 2 de Diciembre. Os dejamos el formulario de inscripción aquí.

Programa

9:15- 9:30: Recepción de asistentes y entrega de documentación.
- 9:30- 9:40: Inauguración. Alex Rayón, Director Programa Big Data y Business Intelligence.
- 9:40-10:00: La visión de las instituciones.
- 10:00- 11:15: Conferencia Central. Patricio Moreno, CEO Datalytics (Argentina).
- 11:15 – 11:45: Pausa café.
- 11:45- 12:15: Caso práctico: Las oportunidades laborales que trae el Big Data. Natalia Maeso, gerente en Deloitte.
12:15- 13:30: Mesa redonda: Competencias, conocimientos y técnicas necesarias para los proyectos Big Data en diferentes sectores estratégicos de la economía.
- Antonio Torrado, Iberia A&DM Practice Manager at HP.
- María Teresa Alba, Directora CIMUBISA.
- David Ruiz, CEO Smartup.
- Patricio Moreno, CEO Datalytics.
- Natalia Maeso, gerente en Deloitte.

Empleo y Big Data (Fuente: http://noticias.infocif.es/sites/default/files/styles/n1000x540/public/i/a/big_0.jpg?itok=wivBVYS0)

Deusto Data