Eligiendo una herramienta de Analítica: SAS, R o Python

(Artículo escrito por Pedro Gómez Tejerina, profesional del sector financiero, y profesor de nuestro Programa de Big Data y Business Intelligence)

Probablemente si estás leyendo este blog tengas un problema analítico que quieras resolver con datos. Es posible también que tengas unos conocimientos de estadística que quieras poner en práctica, así que es hora de elegir una herramienta analítica. Así que vamos a intentar orientaros en la elección, aunque las tres herramientas de analítica nos van a permitir hacer en general los mismos análisis:

  1. Conocimientos previos de programación. Si sabes programar y vienes de un entorno web, probablemente Python sea el más fácil de aprender. Es un lenguaje más generalista que los otros dos y solamente tendrás que aprender el uso de las librerías para hacer análisis de datos (Pandas, Numpy, Scipy, etc.). Si no es el caso y lo tuyo no es programar, SAS es más fácil de aprender que R, que es el lenguaje más diferente de los tres, dado su origen académico-estadístico.
  2. Herramientas User Friendly y GUI: Tanto SAS (SAS Enterprise Guide, SAS Enterprise Miner, SAS Visual Analytics) como R (Rattle, RStudio, Rcommander) tienen buenas interfaces visuales que pueden resolver problemas analíticos sin tener la necesidad de programar. Python dispone de menos (Orange), aunque dispone de una buena herramienta de enseñanza: los notebooks.
  3. Coste de las herramientas. SAS es un software comercial y bastante caro. Además el uso de cada una de sus capacidades se vende por paquetes, así que el coste total como herramienta analítica es muy caro. La parte buena es que tienes un soporte. Por el contrario, tanto R como Python son gratuitos, si bien es cierto que empresas como Revolution Analytics ofrecen soporte, formación y su propia distribución de R con un coste bastante inferior a SAS. Normalmente sólo las grandes empresas (bancos, compañías telefónicas, cadenas de alimentación, INE, etc.) disponen de SAS debido a su coste.
  4. Estabilidad de la herramienta. Al ser un software comercial, en SAS no hay problemas de compatibilidad de versiones. R al tener un origen académico ofrece distintas librerías para hacer un mismo trabajo y no todas funcionan en versiones anteriores de R. Para evitar estos problemas en una gran empresa recomendaría utilizar alguna distribución comercial de Revolution Analytics por ejemplo.
  5. Volumen de datos. Las única diferencia es que SAS almacena los datos en tu ordenador en vez de en memoria (R), si bien es cierto que las 3 tienen conexiones con Hadoop y las herramientas de Big Data.
  6. Capacidad de innovación. Si necesitas utilizar las últimas técnicas estadísticas o de Machine Learning SAS no es tu amigo. Es un software comercial que para garantizar la estabilidad de uso entre versiones retrasa la incorporación de nuevas técnicas. Aquí el líder es R seguido de Python.

Conclusión: no es fácil quedarse con una herramienta de analítica y las personas que trabajamos en grandes compañías estamos habituados a trabajar con varias. SAS ofrece soluciones integradoras a un coste elevado. R tiene muchas capacidades de innovación debido a su origen y Python tiene la ventaja de ser un lenguaje de programación generalista que además puede servir para hacer Data Mining o Machine Learning. La elección dependerá de lo que estés dispuesto a pagar y tus necesidades específicas. Yo tengo la suerte o desgracia de trabajar en una gran empresa, así que dispongo de las 3.

Tendencias en lo que a demanda de perfiles con conocimiento de R, SAS y Python se refiere (Fuente: http://www.statsblogs.com/2013/12/06/sas-is-abandoned-by-the-market-for-advanced-analytics/)
Tendencias en lo que a demanda de perfiles con conocimiento de R, SAS y Python se refiere (Fuente: http://www.statsblogs.com/2013/12/06/sas-is-abandoned-by-the-market-for-advanced-analytics/)

Más información en:

  • http://www.analyticsvidhya.com/blog/2014/03/sas-vs-vs-python-tool-learn/
  • http://blog.datacamp.com/r-or-python-for-data-analysis/

Del Data Mining al Big Data en el mundo del Marketing

(Artículo escrito por Pedro Gómez Tejerina, profesional del sector financiero, y profesor de nuestro Programa de Big Data y Business Intelligence)

¿Alguna vez te has preguntado cómo eligen las grandes compañías los clientes a los que lanzan sus campañas? ¿Por qué por ejemplo puede un banco enviarme un mail o una carta para ofrecerme el último plan de pensiones que han diseñado y no a mi vecino si los dos somos clientes del mismo banco y vivimos en el mismo edificio?

La selección de a qué clientes lanzar campañas de marketing forma parte de lo que se denomina Data Mining o Minería de Datos. Tradicionalmente las grandes compañías han analizado los datos históricos que almacenan sobre sus clientes para buscar aquellos clientes que no tienen contratado un producto actualmente con ellas, pero que de alguna forma sí se parecen a otros clientes que sí tienen dicho producto. La idea es sencilla: ¿no tendría sentido sólo enviar comunicaciones sobre campañas de Marketing de un producto a los clientes que aunque no lo tengan contratado actualmente sí tengan probabilidad de hacerlo en un futuro? La base sobre la que se basan para calcular esas probabilidades es la estadística y los algoritmos de Machine Learning y las comparaciones se hacen en base a los datos históricos almacenados sobre los clientes.

Haciendo esas comparaciones basadas en los datos que tienen sobre los clientes las empresas consiguen aumentar sus tasas de éxito de contratación de productos de manera significativa y ofrecen productos que de cierta forma son mucho más personalizados, ya que tienen en cuenta mis datos como persona individual antes de ofrecérmelos. Además se ahorran mucho dinero en publicidad, ya que en cierta forma están centrando el tiro seleccionando únicamente los clientes con alta probabilidad (propensión) de compra.

Pero actualmente estamos en una nueva era caracterizada por la abundancia de información (Big Data). ¿Por qué no utilizar además de la información interna de los clientes datos que podamos obtener de fuentes externas? ¿No tendría sentido en el ejemplo del banco anterior tener en cuenta que yo en alguna ocasión he navegado por internet buscando información sobre planes de pensiones? ¿No he mostrado de alguna forma ya mi interés por el producto al haberlo buscado por internet? ¿No sería más probable que yo contratara el plan de pensiones que mi vecino que nunca se ha preocupado por su jubilación?

Como empresa podría utilizar los datos de navegación de mi web para mejorar el proceso anterior. ¿Y si además a pesar de que el banco no tiene información sobre el valor de la casa en la que vivo, obtiene información sobre el valor de la misma en el catastro u otras fuentes de información externas? El cruce de información interna sobre los clientes con información externa es lo que actualmente se denomina Big Data y permite a las grandes empresas obtener más información sobre los clientes y tal y como hemos visto con mi ejemplo, mejorar su precisión a la hora de elegir futuros clientes para sus productos.

Moraleja: si antes las grandes compañías lo sabían todo sobre nosotros, hoy todavía más. Como consuelo, al menos es más probable que sólo reciba comunicaciones sobre productos en los que es más probable que esté realmente interesado no tengan que eliminar demasiados emails comerciales porque no me interesan.

Workshop «Aplicación del Big Data en sectores económicos estratégicos»

El Big Data está empezando a entrar en los procesos de negocio de las organizaciones de manera transversal. Su uso se está «democratizando», de manera que cada vez más entra en un discurso de «usuario» en lugar de ser un tema que se trate únicamente en ámbitos más técnicos y tecnológicos.

Hasta la fecha, el uso del Big Data se limitaba a necesidades concretas: evitar la fuga de clientes, mejorar la eficiencia de las acciones del marketing, promover el mantenimiento preventivo en lugar del correctivo, etc. Estas aplicaciones, eran impulsadas mayoritariamente por los equipos técnicos y tecnológicos de las compañías.

Sin embargo, en los últimos tiempos, se están creando nuevas herramientas analíticas diseñadas para las necesidades de las unidades de negocio, con sencillas, útiles e intuitivas interfaces gráficas. De este modo, el usuario de negocio impulsa la adopción de soluciones Big Data como soporte a la toma de decisiones de negocio. Prueba de ello son aplicaciones como Gephi, Tableau, CartoDB o RStudio, que han simplificado mucho el trabajo, haciendo que las habilidades técnicas no sean un limitante para adentrarse en el mundo del Big Data.

Mapa de calor en CartoDB (Fuente: camo.githubusercontent.com)
Mapa de calor en CartoDB (Fuente: camo.githubusercontent.com)

La llegada de Big Data al usuario de negocio representa una oportunidad de ampliar el número de usuarios y extender el ámbito de actuación. Se prevé así que cada vez entren más proveedores, tanto de soluciones tecnológicas como de agregadores de datos. Todo esto, sin olvidar la importancia del cumplimiento de las políticas de gobierno de TI, la protección de la información y de los datos, así como los riesgos de seguridad.

Por todo ello, hemos organizado el próximo 27 de Octubre de 2015, de 15:30 a 18:00, en nuestra Sala Garate de la Universidad de Deusto, un workshop titulado «Aplicación del Big Data en sectores económicos estratégicos«. En este evento podrá conocer varias soluciones de diferentes sectores en los que este movimiento de aplicación del Big Data para usuarios de negocio está ocurriendo. La concesión de préstamos en el sector financiero, la puesta en valor de piezas culturales, sistemas para evitar el fraude, el aumento de la seguridad ciudadana o la mejora del sistema de ventas en aeropuertos representan ejemplos donde poder observar lo descrito anteriormente. Con esto, veremos cuál es el ritmo de adopción de Big Data en las organizaciones, y cuáles son los mecanismos de implantación de las soluciones con carácter transversal en las organizaciones.

Contaremos con empresas de reconocido prestigio en la materia como nuestros patrocinadores SAS, HP y Entelgy, así como nuestros colaboradores de Management Solutions, CIMUBISA, RIAM-GNOSS y NEO4J.

Puedes inscribirte a través de este formulario. Te esperamos para aprender cómo el Big Data está entrando en los sectores económicos estratégicos.

WorkshopBigData27.10

Sigue nuestras novedades en el análisis y puesta en valor del dato en: Blog Deusto BigDataWeb Programa Big Data.

¡Hola mundo Deusto BigData!

A través de este artículo queremos daros la bienvenida a nuestro blog Deusto BigData. Un espacio dedicado a temas relacionados el Big Data. Un concepto que hace referencia al gran volumen de datos que se generan en la actualidad y su impacto en diferentes contextos: las organizaciones en general (y las empresas en particular), la sociedad, las personas, etc.

Nuestra Universidad lleva ya tiempo trabajando en la materia, tanto desde un punto de vista docente, como desde la investigación y la transferencia. Con este blog, queremos divulgar los principales conceptos asociados a este mundo del Big Data: la importancia de gestionar la calidad de los datos, las implicaciones de las 5 V’s del Big Data, los modelos analíticos, los Cuadros de Mando Integrales, algoritmos, estadística multivariante, dashboard de visualización de métricas, etc.

Además de artículos de divulgación, iremos informando de los eventos y jornadas que periódicamente organizamos alrededor del Big Data y los programas formativos que tenemos en la universidad (el Programa de Big Data y Business Intelligence y el Programa de Big Data y Business Intelligence formato executive).

Queremos contribuir a que conozcas de una manera sencilla el fascinante mundo de los datos. Puedes suscribirte a nuestro blog en el panel lateral derecho. Esperamos que disfrutes de Deusto BigData 🙂

Big Data (Imagen: By Camelia.boban (Own work), CC BY-SA 3.0)
Big Data (Imagen: By Camelia.boban (Own work), CC BY-SA 3.0)

Los datos de tu organización en valor

Escudo Universidad de deusto