El datascientist

Los temas propuestos para la reflexión en este tercer post son muy heterogéneos. Por ello, una de las pocas cosas que he podido sacar en común aparte de la disrupción digital es que todos producen una cantidad ingente de datos.

Pienso, a su vez, que actualmente vivimos en la época de la (des)información ya que es cierto que existe una cantidad ingente de datos generada cada día, pero, ¿cuántos de estos datos son aprovechables? ¿De verdad diferenciamos el valor de entre el ruido?

Por ello he decidido dedicar este post a explicar un poco cuáles deberían ser las funciones de uno de los perfiles profesionales más buscados en la actualidad, el data scientist o científico de datos. Además, tiene bastante que ver con el trabajo que estuve desarrollando durante mi proyecto fin de grado. Por tanto, trataré de definir a este profesional y al entorno al que se enfrenta desde mi experiencia en el ámbito.

Lo primero, por tanto, es definir el perfil en sí.  Un Data Scientist es un profesional que traduce grandes volúmenes de información proveniente de distintas fuentes y las convierte en respuestas. Es decir, el que sabe discernir los datos que tienen valor y son aprovechables de los que no. Y, además, es capaz de sacarles partido a posteriori.

Teniendo esto en cuenta, aún nos faltaría abordar una de las partes de esta definición, los grandes volúmenes de datos conocidos comunmente como Big Data. Este termino hace referencia a las tareas relacionadas con ingentes cantidades de datos e información provenientes de distintas fuentes. Las principales características del Big Data son comúnmente conocidas como las 5V’s:

  • Volumen: hace referencia al enorme volumen de datos e información que se maneja.
  • Variedad: Hace referencia a la gran cantidad de fuentes de datos e información utilizadas, debido a ello surgen problemas con la estructura y formato de los datos.
  • Velocidad: hace referencia a que se necesita tratar y procesar todos estos datos en el menor tiempo posible para que las respuestas o conocimientos sigan siendo válidos y no hayan quedado desfasados.
  • Veracidad: hace referencia a la necesidad de que todos los datos e información utilizada sean veraces y se deben desechar los incorrectos.
  • Valor: esta es la característica más importante ya que hace referencia al valor que tiene el conocimiento extraído de los datos para las personas encargadas de tomar las decisiones.

Este es el enfoque tradicional de las características del Big Data, pero actualmente se habla de 7, que son estas 5 añadiéndoles otras 2. Estas 2 son:

  • Viabilidad: el Big Data es una herramienta fundamental para determinar la viabilidad de la empresa.
  • Visualización de los datos: hace referencia a la presentación de los datos para ser fácilmente entendibles por las personas a quienes están dirigidos.

Big-Data-5V

Una vez descrito en que consiste el Big Data, que es el ámbito en el que se desenvuelve el Data Scientist, podemos especificar las tareas necesarias para procesarlo y que son realizadas por este profesional.

  • Extracción de los datos: la primera tarea a realizar será tanto la búsqueda de fuentes de datos e información, como la extracción de los datos desde estas fuentes.
  • Limpieza o curación de datos: en esta tarea se deben de revisar los datos para evitar problemas con la estructura de estos, desechar datos incorrectos o sin relevancia y solucionar problemas que puedan causar los datos nulos.
  • Procesamiento de datos: se utilizan métodos o algoritmos estadísticos para extraer información e incluso conocimiento de los datos que ya han sido curados.
  • Rediseñar estructura: si fuese necesario, se volvería a editar o rediseñar la estructura de los datos, por ejemplo, se podrían añadir nuevos campos para dotarlos de mayor valor.

Estas tareas también pueden entenderse como un proceso de ETL que consiste en la extracción de datos, transformación de datos y su posterior carga. Además, al realizar el procesamiento, se llevaría a cabo la fase que se suele aplicar después del proceso ETL, que es el análisis.

diagram4---x----750-328x---

El análisis descriptivo busca entender el perfil general del grupo de datos observado, una de las formas de llevarlo a cabo es mediante visualizaciones fácilmente comprensibles de conjuntos de datos complejos. Por ejemplo, mapas enriquecidos.

El análisis por inferencia busca obtener conclusiones para un grupo mayor a partir de una pequeña muestra analizada.

La principal diferencia de estos dos métodos es que el análisis descriptivo no busca hacer generalizaciones mientras que el análisis por inferencia sí.

Una vez definido el perfil y sus funciones o tareas, según el proyecto que yo estuve desarrollando, me gustaría hablar un poco sobre la profesión en sí. Me parece que este perfil tiene unas oportunidades en el mercado actual y futuro inigualables por ningún otro perfil. Gracias a esto, estos perfiles tendrán la capacidad y libertad de elegir el lugar de trabajo que más les guste y no solo por la retribución.

Muchas empresas actualmente se lanzan a proyectos de analítica de datos o de tratamiento de datos por el mero hecho de usar estas tecnologías. Este enfoque tieneunas altísimas probabilidades de estar abocado al fracaso. Uno de los puntos más importantes a la hora de abordar un proyecto de estas características es tener muy claro el objetivo que se persigue y luego tratar de alcanzarlo. Por ello, se hace tan necesario este perfil profesional.

Por otra parte, me gustaría recalcar que este no es un perfil sencillo de encontrar, tiene que tener grandes conocimientos acerca de estadística y programación entre otras. Por esta dificultad debido a los grandes requisitos exigidos, lo más extendido es no tener a una única persona para cubrirlo, sino a distintas personas que tengan una base común pero estén especializadas en cada uno de los requisitos de este perfil ejerciéndolo como un equipo.

Dentro de poco se podrá ir viendo en el mercado laboral como se cubren estos perfiles y que skills son las que las empresas realmente demandan.




La revolución digital y su impacto en el directivo

Bilbao 03-03-2016 Mª Ángeles Delgado, Consejera Delegada de Fujitsu en España, ha participado en los Desayunos de ADYPE impartiendo la conferencia "La revolución digital y su impacto en el directivo". Juan José Muguruza, Presidente de la Asociación de Directivos y Profesionales de Euskadi, ADYPE, ha realizado su presentación ©Fotógrafo: MITXI

Los aspectos que llamaron mi atención fueron la forma en la que los directivos deben ir adaptándose e incorporando en sus empresas tecnologías como el big data y el cloud, todo esto siempre de la mano con temas de seguridad. Por lo que, perfiles profesionales de seguridad y científicos de datos, serán cada vez más necesarios para poder generar un beneficio organizacional a través de la transformación digital.

Al estar en un mundo globalizado, y debido a los avances tecnológicos, las personas que dirigen las organizaciones deben prestar especial atención en liderar (no dejarse llevar) la transformación digital con la finalidad de conducir a la compañía hacia el logro de sus objetivos. Para esto, debe considerarse algunos puntos muy importantes:

  • Aceptar la transformación: Esto ya está pasando, por lo que en lugar de quedarnos estancados en el pasado, debemos impulsarnos en la tecnología, tomándola como un elemento estratégico dentro de las organizaciones.
  • Preparar a la organización para el cambio: El capital humano es uno de los recursos fundamentales en las organizaciones, por lo que si se quiere aplicar cambios, debemos conocer el contexto cultural en el que nos encontramos: “La estrategia debe estar inspirada en los clientes y plasmada por los empleados”.
  • Las decisiones que se tomen deben estar alineadas a los objetivos estratégicos de la organización, y si no lo están, uno de los motivos puede ser la falta de liderazgo.
  • El mundo empresarial cada vez es más competitivo, por lo que se debe buscar innovar, no sólo a nivel de productos o servicios, sino también en modelos de negocio, procesos, etc. Esta innovación es considerada como incremental cuando la realizan negocios tradicionales, y radical o disruptiva si los cambios que se realizan son mayores (aquí se habla de la gestión de la ignorancia).

*Una forma diferente de gestionar la innovación (indagar más en el “por qué”) es el “Design Thinking”.

  • Si no se cuenta con personal adecuado para realizar estas actividades, se debe capacitar al actual o incluir a talento nuevo, buscando la combinación de tres perfiles: los artistas (personas creativas), emprendedores y gestores.

En conclusión, (i) la estrategia facilita la toma de decisiones, y si está basada en TI, mucho mejor; (ii) las personas juegan un papel fundamental en la innovación; y (iii) no debemos buscar ser el que más sepa, sino el que más rápido aprenda.

Finalmente, gracias a eventos como este, cada vez veo con más claridad hacia dónde debo dirigir mi futuro profesional.

Daniel Pérez Aguilar.

 

La revolución digital y su impacto en el directivo.
Da. Ángeles Delgado.
ADYPE, Asociación de Directivos y Profesionales de Euskadi.
Hotel Dómine, 3 de marzo de 2016.