Cuando abrimos este blog, dedicamos una entrada a comparar diferentes herramientas analíticas. En su día, hablamos de SAS, R y Python, mostrando la experiencia que tenía en el manejo de las tres de nuestro profesor Pedro Gómez. Desde entonces, han aparecido varias noticias y reflexiones comparando especialmente dos de ellas: R y Python. DataCamp publicó hace unos meses la infografía que ponemos al final de este artículo comparando ambas.
El análisis de datos, obviamente, es una parte nuclear de cualquier proyecto de Big Data. El análisis de los diferentes flujos de datos y su combinación para obtener nuevos patrones, tendencias, estructuras, etc. se puede realizar con diferentes herramientas y lenguajes de programación. La elección de estas últimas es una cuestión en muchas ocasiones de gustos, de preferencias, pero también en otras ocasiones, objeto de detallados análisis.
La infografía que hoy nos acompaña agrega múltiples fuentes que comparan R y Python. Por eso mismo, nos ha resultado interesante para compartir con vosotros. Compara ambos lenguajes desde una perspectiva de la Ciencia de Datos, o Data Science, disciplina que ya describimos en una entrada anterior. Las debilidades y fortalezas que se muestran, así como sus ventajas y desventajas, puede ayudaros a la hora de seleccionar el mejor lenguaje de programación para vuestro problema dado. Y es que, como solemos decir, cada proyecto, cada problema, cada contexto de empresa, es diferente, por lo que dar sugerencias absolutas suele resultar complicado.
Dado que suele ser un factor bastante determinante, de entre las múltiples características para la toma de decisión, cabe destacar que ambos lenguajes gozan de una amplia comunidad de desarrollo. En este sentido, ninguna diferencia. Quizás lo que mejor caracteriza a cada uno de los lenguajes, es la frase que destacan los que elaboraran la infografía:
“Python is often praised for being a general-purpose language with an easy-to-understand syntax and R’s functionality is developed with statisticians in mind, thereby giving it field-specific advantages such as great features for data visualization”
Os dejamos con la infografía para que podáis por vuestra seguir conociendo mejor cada uno de los dos: R vs. Python o Python vs. R. Seguiremos de cerca la evolución de ambos.
El Machine Learning o «Aprendizaje automático» es un área que lleva con nosotros ya unos cuantos años. Básicamente, el objetivo de este campo de la Inteligence Artificial, es que los algoritmos, las reglas de codificación de nuestros objetivos de resolución de un problema, aprendan por si solos. De ahí lo de «aprendizaje automático». Es decir, que los propios algoritmos generalicen conocimiento y lo induzcan a partir de los comportamientos que van observando.
Para que su aprendizaje sea bueno, preciso y efectivo, necesitan datos. Cuantos más, mejor. De ahí que cuando irrumpe el Big Data (este nuevo paradigma de grandes cantidades de datos) el Machine Learning se empezase a frotar las manos en cuanto al futuro que le esperaba. Los patrones, tendencias e interrelaciones entre las variables que el algoritmo de Machine Learning observa, se pueden ahora obtener con una mayor precisión gracias a la disponibilidad de datos.
¿Y qué permiten hacer estos algoritmos de Machine Learning? Muchas cosas. A mí me gusta mucho esta «chuleta» que elaboraron los compañeros del blog Peekaboo. Esta chuleta nos ayuda, a través de un workflow, a seleccionar el mejor método de resolución del problema que tengamos: clasificar, relacionar variables, agrupar nuestros registros por comportamientos, reducir la dimensionalidad, etc. Ya veis, como comentábamos en la entrada anterior, que la estadística está omnipresente.
Estas técnicas llevan con nosotros varias décadas ya. Siempre han resultado muy útiles para obtener conocimiento, ayudar a tomar decisiones en el mundo de los negocios, etc. Su uso siempre ha estado más focalizado en industrias con grandes disponibilidades de datos. Por ejemplo, el sector BFSI (Banking, Financial services and Insurance) siempre han considerado los datos como un activo crítico de la empresa (como se generalizó posteriormente en 2011 a partir del Foro de Davos). Y siempre ha sido un sector donde el Machine Learning ha tenido mucho peso.
Pero, con el auge de la Internet Social y las grandes empresas tecnológicas que generan datos a un gran volumen, velocidad y variedad (Google, Amazon, etc.), esto se generaliza a otros sectores. El uso del Big Data se empieza a generalizar, y el Machine Learning sufre una especie de «renacimiento».
Ahora, se convierten en pieza clave del día a día de muchas compañías, que ven cómo el gran volumen de datos además, les ayuda a obtener más valor de la forma de trabajar que tienen. En la siguiente ilustración que nos genera Google Trends sobre el volumen de búsqueda de ambos términos se puede observar cómo el «Machine Learning» se ve iluminado de nuevo cuando el Big Data entra en el «mainstream»(a partir de 2011 especialmente).
¿Y por qué le ha venido tan bien al Machine Learning el Big Data? Básicamente porque como la palabra «aprendizaje» viene a ilustrar, los algoritmos necesitan de datos, primero para aprender, y segundo para obtener resultados. Cuando los datos eran limitadas, corríamos el peligro de sufrir problemas de «underfitting«. Es decir, de entrenar poco al modelo, y que éste perdiera precisión. Y, si utilizábamos todos los datos para entrenar al modelo, nos podría pasar lo contrario, problemas de «overfitting«, que entonces nos generaría modelos demasiado ajustados a la muestra, y quizás, poco generalizables a otros casos.
Este problema con el Big Data desaparece. Tenemos tantos datos, que no nos debe preocupar el equilibrio entre «datos de entrenamiento» y «datos para testar y probar el modelo y su eficiencia/precisión«. La optimización del rendimiento del modelo (el «Just Right» de la gráfica anterior) ahora se puede elegir con mayor flexibilidad, dado que podemos disponer de datos para llegar a ese punto de equilibrio.
Con este panorama de eficientes algoritmos (Machine Learning) y mucha materia prima para que éstos funcionen bien (Big Data), entenderán por qué no solo hay muchos sectores de actividad donde las oportunidades son ahora muy prometedoras (la sección «Rethinking industries» de la siguiente gráfica), sino también para el desarrollo tecnológico y empresarial, es una era, esta del Big Data, muy interesante y de valor.
En los últimos años hemos visto mucho desarrollo en lo que a tecnología de Bases de Datos se refiere. Las compañías disponen de muchos datos internos, que se complementan muy bien con los externos de la «Internet Social». Así, el Machine Learning, nos acompañará durante los próximos años para sacarle valor a los mismos.
[:es]Este año el programa cuenta con una novedad. Además del módulo central enfocado al fenómeno conocido como big data, la transparencia y el gobierno abierto, se han diseñado dos itinerarios.
El primer itinerario, guiado por el experto en comunicación Dr. Xabier Barandiaran, está centrado en la comunicación institucional y corporativa. Este itinerario está dirigido a profesionales tanto de administraciones públicas de todos los niveles (local, autonómico o estatal) como de empresas privadas y de publicidad, que quieran profundizar o especializarse en la comunicación institucional o corporativa, y a estudiantes de postgrado.
El segundo itinerario está centrado en el análisis y la comunicación de datos, y lo quía Miren Gutiérrez, experta en comunicación y datos. Este itinerario se dirige a personas de administraciones públicas, empresas, medios de comunicación y ONGs que deseen aprovechar el boom de los datos para mejorar la comunicación con sus audiencias y clientes, hacer análisis de sus datos y aumentar su eficacia interna.
Ambos itinerarios tienen un carácter profesionalizante y práctico, y buscan abrir puertas a nuevas profesiones y oportunidades.
Cada itinerario implica la realización de 21 ETCS. Una vez superados, se obtiene el título de Experto/a en Análisis, Investigación y Comunicación de Datos.
El programa se desarrolla entre el octubre y diciembre de 2016. Las clases presenciales se desarrollarán en el campus de Donostia de la Universidad de Deusto, los viernes por la tarde (16:00-20:00) y sábados por la mañana (10:00-14:00).
El programa será evaluado con la realización de un proyecto, que en el primer itinerario será un plan estratégico y en el segundo un proyecto de análisis y/o visualización de datos. La realización del proyecto estará acompañada y apoyada por el equipo docente en tiempo real y con ayuda de asistencia virtual. Los/as participantes podrán traer proyectos de sus empresas u organizaciones, si lo desean.
Para cualquier pregunta sobre el itinerario “Comunicación estratégica institucional y corporativa”, puedes dirigirte a Xabier Bariandiaran, email:xabier.barandiaran@deusto.es.
Para preguntas sobre el itinerario “Análisis, investigación y comunicación de datos”, a Miren Gutierrez, email: m.gutierrez@deusto.es.
Para cualquier otra información, puedes consultar la páginawww.data.deusto.es
En nuestro bloghttps://blogs.deusto.es/data/espuedes acceder a entrevistas e información de nuestros/as invitados/as, participantes y proyectos, además de información interesante relativa al mundo de la comunicación y los datos.
!Animate a solicitar YA una plaza en cualquiera de ellos![:]
Mucho se ha escrito la que aparentemente va a ser la profesión más sexy del Siglo XXI. Más allá de titulares tan rimbonbantes (digo yo, que quedan muchas cosas todavía que inventar y hacer en este siglo :-), lo que viene a expresar esa idea es la importancia que va a tener un científico de datos en una era de datos ubicuos, coste de almacenamiento, procesamiento y transporte prácticamente cero y de constante digitalización. La práctica moderna del análisis de datos, lo que popularmente y muchas veces erróneamente se conoce como «Big Data», se asienta sobre lo que es la «Ciencia del Dato» o «Data Science».
En 2012, Davenport y Patil escribían un influyente artículo en la Harvard Business Review en la que exponían que el científico de datos era la profesión más sexy del Siglo XXI. Un profesional que combinando conocimientos de matemáticas, estadística y programación, se encarga de analizar los grandes volúmenes de datos. A diferencia de la estadística tradicional que utilizaba muestras, el científico de datos aplica sus conocimientos estadísticos para resolver problemas de negocio aplicando las nuevas tecnologías, que permiten realizar cálculos que hasta ahora no se podían realizar.
Y va ganando en popularidad en los últimos años debido sobre todo al desarrollo de la parte más tecnológica. Las tecnologías de Big Data empiezan a posibilitar que las empresas las adopten y empiecen a poner en valor el análisis de datos en su día a día. Pero, ahí, es cuando se dan cuenta que necesitan algo más que tecnología. La estadística para la construcción de modelos analíticos, las matemáticas para la formulación de los problemas y su expresión codificada para las máquinas, y, el conocimiento de dominio (saber del área funcional de la empresa que lo quiere adoptar, el sector de actividad económica, etc. etc.), se tornan igualmente fundamentales.
Pero, si esto es tan sexy ¿qué hace el científico de datos? Y sobre todo, ¿qué tiene que ver esto con el Big Data y el Business Intelligence? Para responder a ello, me gusta siempre referenciar en los cursos y conferencias la representación en formato de diagrama de Venn que hizo Drew Conway en 2010:
Como se puede apreciar, se trata de una agregación de tres disciplinas que se deben entender bien en este nuevo paradigma que ha traído el Big Data:
«Hacking skills» o «competencias digitales con pensamiento computacional«: sé que al traducirlo al Español, pierdo mucho del significado de lo que expresa las «Hacking Skills». Pero creo que se entiende bien también lo que quieren decir las «competencias digitales». Estamos en una época en la que constante «algoritmización» de lo que nos rodea, el pensamiento computacional que ya hay países que han metido desde preescolar, haga que las competencias digitales no pasen solo por «saber de Ofimática» o de «sistemas de información». Esto va más de tener ese mirada hacia lo que los ordenadores hacen, cómo procesan datos y cómo los utilizan para obtener conclusiones. Yo a esto lo llamo «Pensamiento computacional», como una (mala) traducción de «Computation thinking», que junto con las competencias digitales (entender lo que hacen las herramientas digitales y ponerlo en práctica), me parecen fundamentales.
Estadística y matemáticas: en primer lugar, la estadística, que es una herramienta crítica para la resolución de problemas. Nos dota de unos instrumentos de trabajo de enorme valor para los que trabajamos con problemas de la empresa. Y las matemáticas, ay, qué decir de la ciencia formal por antonomasía, la que siguiendo razonamientos lógicos, nos permite estudiar propiedades y relaciones entre las variables que formarán parte de nuestro problema. Si bien las matemáticas se la ha venido a conocer como la ciencia exacta, en la estadística, nos gusta más jugar con intervalos de confianza y la incertidumbre. Pero, por sus propias particularidades, se nutren mutuamente, y hace que para construir modelos analíticos que permitan resolver los problemas que las empresas y organizaciones nos planteen, necesitemos ambas dos.
Conocimiento del dominio: para poder diseñar y desarrollar la aplicación del análisis masivo de datos a diferentes casos de uso y aplicación, es necesario conocer el contexto. Los problemas se deben plantear acorde a estas características. Como siempre digo, esto del Big Data es más una cuestión de plantar bien los problemas que otra cosa, por lo que saber hacer las preguntas correctas con las personas que bien conocen el dominio de aplicación es fundamental. Por esto me suelo a referir a «que hay tantos proyectos de Big Data como empresas». Cada proyecto es un mundo, por lo que cuando alguien te cuente su proyecto, luego relativízalo a tus necesidades 😉
El nivel de madurez de una organización para afrontar proyectos de Big Data / Analytics es un elemento que siempre debemos tener presente. Un proyecto, con la mejor tecnología, no tiene por qué ser exitoso si no sumamos otros elementos que también contribuyen al resultado global del proyecto.
En estos años, hay organizaciones que se han dedicado a obtener frameworks para medir ese nivel de madurez de una organización. Uno de los que más nos gusta es éste que veis a continuación, el Analytics Maturity Quotient (AMQ™):
Como se puede apreciar, son cinco factores los que suman y contribuyen a ese nivel de madurez para afrontar estos proyectos en una organización:
Calidad de los datos: todo empieza con la calidad de los datos. Nosotros estamos tan de acuerdo en ello, que nuestro primer módulo trata precisamente sobre la importancia de disponer de una buena calidad de datos. Si una organización tiene un buen sistema para el almacenamiento de datos, una buena infraesturctura de datos, ha empezado bien el proyecto. Aquí también suele citarse el paradigma «GIGO»: si metemos malos datos, por mucho que tengamos buenos modelos analíticos, no podremos obtener buenos resultados de nuestro proyecto de Big Data.
Este factor, el de calidad de datos, afecta a su vez a otros cuatro. Pero, como se puede entrever en su representación formal, es el más importante y representativo del conjunto de ellos. Debemos disponer de buenos datos.
Liderazgo «data-driven»: el 40% del éxito restante (una vez que disponemos de «buenos datos«), depende de un liderazgo institucional y organizativo que se crea de verdad que los datos y su análisis son una palanca excelente para la mejora de la toma de decisiones dentro de la compañía. En el artículo que abrió la boca a todos con esto del Big Data («Big Data: the management revolution«) de la Harvard Business Review, se ilustraba esta idea de cambiar el paradigma de toma de decisiones de la «persona que más ganaba» (el HIPPO, highest paid person’s opinion, a la fundamentación en datos). Necesitamos así líderes, CEO, gerentes, responsables de líneas, que «compren» este discurso y valor de los datos como palanca de apoyo a la toma de decisiones.
Personas con habilidades analíticas: un 30% del éxito dependerá de disponer de un buen equipo. Éste, es ahora mismo el gran handicap en España, sin ir más lejos. Faltan «profesionales Big Data«, en todos los roles que esto puede exigir: Data Science para interrogar apropiadamente los datos, tecnólogos de Big Data con capacidades de despliegue de infraestructura, estadísticos y matemáticos, «visualizadores» de datos, etc. A esto, debemos sumarle la importancia de tener cierta orientación a procesos de negocio o mercado en general, dado que los datos son objetivos per se; de dónde se extrae valor es de su interpretación, interrogación y aplicación a diferentes necesidades de empresa. Ahora mismo, este handicap las empresas lo están resolviendo con la formación de las personas de su organización.
Proceso de toma de decisiones «data-driven»: con el Big Data, obtendremos «insights». Ideas clave que nos permitirán mejorar nuestro proceso de toma de decisiones. Una orientación hacia el análisis de datos como la palanca sobre la que se tomarán las decisiones dentro de la compañía. Y las decisiones se toman, una vez que la orientación al dato se ha metido en los procesos. ¿Cómo tomaremos la decisión de invertir en marketing? ¿En base a la eficiencia de las inversiones y la capacidad de convertir a ventas? ¿O en base a un incremento respecto al presupuesto del ejercicio pasado? Los datos están para tomar decisiones, no para ser «un proyecto más«. Un 20% es éste factor crítico de éxito.
Infraestructura tecnológica: por último, obviamente, es difícil emprender un proyecto de este calibre sin infraestructura tecnológica. Por tecnología Big Data no va a ser. Nosotros también le dedicamos un buen número de horas de otro módulo a ello. El panorama tecnológico es cada vez más amplio. Pero, ya ven los elementos anteriores que debemos tener en consideración antes de llegar a este punto.
En cierto modo, estos elementos (Calidad de los datos, Liderazgo, Personas, Decisiones con datos e Infraestructura), con diferentes pasos y orden de importancia, es lo mismo que viene a recomendar un libro que encuentro siempre muy interesante para comenzar con el Big Data: «Big Data: Using Smart Big Data, Analytics and Metrics to Make Better Decisions and Improve Performance«. De él, extraigo la siguiente imagen, que creo ilustra muy bien la idea:
Ya veis que esto del Big Data y Analytics no va solo de tecnología. Hay muchos otros factores. Que, todos ellos, afectan al nivel de madurez de una organización para sacar provecho de un proyecto de análisis de datos. Así que, para el próximo proyecto de Big Data que vayas a comenzar, ¿cómo tienes estos elementos de «maduros»?
Esta semana que entra, celebramos Forotech 2016, que resulta siempre muy especial para los que conformamos la comunidad Deusto Ingeniería. Un encuentro entre la universidad, empresas, estudiantes y el público en general para despertar el interés por la ingeniería y la tecnología.
Entre las numerosas actividades que podréis encontrar, el próximo jueves 10 de marzo, celebramos, por la tarde, varias actividades relacionadas con el «Big Data». Buscamos otra mirada a este mundo de los datos. Una mirada hacia la inteligencia, hacia la calidad de los datos, hacia el volumen de datos justo y necesario para extraer conocimiento y fuentes de valor de los mismos, y su importancia en la toma de decisiones estratégicas y de negocio. De ahí que hayamos utilizado el término «Smart» en lugar del término «Big».
El concepto «Smart Data» hace referencia a información inteligente que puede ser clave para la toma de decisiones. En lugar de enfocar los problemas los problemas desde una óptica de «mucha cantidad para sacar algo de valor«, lo enfocamos desde una lógica de «datos justos que ya permitan sacar conclusiones significativas«.
De 15:30 a 17:00, organizamos una de nuestros habituales sesiones interactivas que hemos venido a bautizar como «Datos Inteligentes-Smart Data«. Para ello, tenemos la fortuna de contar con la moderación de Iñaki Ortega, director de Deusto Business School – Madrid. Una persona muy reconocida en este mundo de cruce entre la era digital y los negocios, que nos guiará a lo largo de una sesión en la que participarán cuatro personas:
José Luis García Díaz. Director de Soluciones de Gobierno y Sanidad. en Microsoft. Título ponencia: “Dato = Moneda/Sociedad Digital”
Javier Goikoetxea González. CEO Grupo NEXT. Título ponencia: “Caso práctico de uso de la información; el caso del Grupo NEXT”
Ana Cruz Orti. Account Executive para cuentas Enterprise en Linkedin. Título ponencia: “TBD”
Alex Rayón. Director Programa de Big Data y Business Intelligence. Título ponencia: «El poder del Big Data en nuestras sociedades inteligentes, pero con una dimensión ética«.
Los cuatro ponentes, expondrán su caso y visión particular sobre contextos donde el dato ha dotado de una inteligencia a la toma de decisiones. Y lo harán, exponiéndolo durante unos breves 15 minutos, y con un «formato TED«, píldoras de vídeo que serán grabadas y que luego colgaré aquí en el blog. Una vez concluídas sus intervenciones, se realizará un «debate a cuatro sin atril» sobre diferentes cuestiones en las que Iñaki Ortega nos guiará. Un debate que busca una conversación natural sobre los temas, en los que poder obtener conclusiones alrededor de ese enfoque hacia «la inteligencia de los datos«.
Una vez finalizado este evento, entregaremos los títulos a los graduados de la primera promoción de nuestro Programa de Big Data y Business Intelligence. Un total de 21 estudiantes, que ocupan ahora su día a día en la aplicación de los datos en diferentes contextos de su día a día (sanidad, medios de comunicación, comercio electrónico, consultoría tecnológica, finanzas, etc.).
Para finalizar la jornada, contaremos con otro invitado de verdadero lujo, Miguel Zugaza, director del Museo del Prado. Junto con Ricardo Maturana, CEO de GNOSS, la empresa proveedora de la tecnología que ha permitido este proyecto, nos hablará sobre el proyecto de transformación digital que ha emprendido en el Prado. Un proyecto, apoyado, entre otras cuestiones, en datos abiertos y enlazados, como ya expliqué aquí.
El proyecto de datos abiertos con el que el Museo del Prado ofrece a sus visitantes la posibilidad de disfrutar de una experiencia de visita digital, se fundamenta en la apertura de sus obras y los atributos que la describen. Unos datos enlazados, que permiten sugerir visitas, recomendar obras y autores, etc. En definitiva, el diseño y desarrollo de experiencias web enriquecidas gracias a otro enfoque de «Smart Data«.
En definitiva, una apasionante jornada de tarde de jueves, en la que los datos nos acompañarán desde las 15:30 hasta la noche. Estáis todos invitados e invitadas para entender este enfoque «Smart data». La inscripción a cualquiera de los eventos que he descrito la puedes realizar en este formulario. Te esperamos 🙂