Archivo de la etiqueta: científico de datos

Deusto participará en la Cajamar UniversityHack 2018

Cajamar UniversityHack, la competición de analítica de datos más grande de España, celebra su edición de 2018 con Deusto entre los 20 centros seleccionados para participar! Deusto BigData sigue creciendo!

Deusto BigData en el Datathon Cajamar UniversityHack 2018
Deusto BigData en el Datathon Cajamar UniversityHack 2018

¿Qué es? Cajamar UniversityHack 2018 es un evento dirigido específicamente a los alumnos de los mejores centros formativos en Data Science de España. Para poder participar, deberás haber sido estudiante de alguno de nuestros Programas de Big Data (www.bigdata.deusto.es) en el curso 2016/17 y en la 2017/18.

Las inscripciones se abrirán a mediados de enero. La competición tendrá lugar del 31 de enero al 12 de abril de 2018. Máximo podrán participar 3 personas por cada equipo de Deusto (y resto de centros, claro). Como sospecho os querréis apuntar unos cuantos equipos, he preparado este formulario para que podamos luego entre todos determinar cuántos sois, y qué criterio justo aplicar en caso de que seais más de 10. En primer lugar, vamos a abrir el proceso de registro, y luego vemos si es necesario aplicar algún criterio justo. Os anticipamos, y pedimos, que en la medida de lo posible, os presentéis en parejas o tríos, para facilitar el mayor número de participantes. El formulario, como digo, lo podéis encontrar aquí. Tenéis hasta el 20 de enero para apuntaros, para que tengamos luego desde el 20 al 29 para poder registraros a todos y todas.

Tenéis tiempo aún, por lo que dedicar un rato a formar los equipos, hablar con posibles tutores, definir el enfoque del proyecto, etc.

Para participar, se podrán afrontar dos retos:

  • Wefferent Card Analytics: crear una aplicación y/o visualización autoconsumible usando datos anonimizados de transacciones con tarjeta en la ciudad de Murcia, con una selección de datos reales agregados del Grupo Cajamar entre los años 2015 y 2017. Puedes realizar un cuadro de mando, un ejercicio analítico exploratorio, una infografía, una web, un análisis gráfico avanzado, etc.
  • Salesforce Predictive Modelling: el poder adquisitivo de un cliente es uno de los ejes principales en el consumo de productos financieros siendo una variable crítica y de difícil cálculo. Uno de los retos a los que se enfrentan las empresas es predecir esta variable de cara a establecer segmentaciones estratégicas más eficientes que les ayuden en la toma de decisiones a la hora de ofrecer el producto más adecuado en cada momento a cada persona, según las necesidades de cada cliente. En este desafío dispondrás de 90 características anónimas que te permitirán estimar y predecir la renta de cada cliente.

¿Cuáles son los premios? Más allá del desarrollo de habilidades científicas y participar en un reto a nivel de todo el país, ya buenos premios. Además, el equipo ganador tendrá la oportunidad de presentar su trabajo en el Machine Learning Spain. Todos los detalles, los podéis encontrar aquí.

Premios para los dos retos
Premios para los dos retos

Además, solo por participar, tendrás estos beneficios:

  • Cada participante recibirá el exclusivo welcome pack de nuestros patrocinadores.
  • Un mes de suscripción con acceso ilimitado a todos los cursos especializados (Python, R, SQL, Git, Shell y mucho más) de la plataforma de formación online DataCamp.
  • Un libro electrónico a elegir sobre una selección de publicaciones de la prestigiosa O’Reilly Media.

El calendario de fases e hitos, lo podéis consultar aquí. Hitos que se pueden resumir en los siguientes:

  • Periodo de inscripción: del 15 al 29 de enero de 2018
  • Confirmación de equipos participantes: 30 de enero 2018
  • Fase 1 (en Deusto)
    • Primera Fase del Concurso: del 31 de enero al 21 de febrero de 2018
    • Fallo del jurado local: 1 de marzo de 2018
  • Fase 2 (para todo España)
    • Segunda Fase del Concurso: del 1 de marzo al 14 de marzo de 2018
    • Selección de mejores trabajos: 27 de marzo de 2018
    • Presentación de mejores trabajos y fallo del jurado nacional: 12 de abril de 2018

Anímate, y que Deusto BigData sea ganador de estos premios del Cajamar UniversityHack 2018! Os agradecería si pudieráis compartirlo con todos nuestros estudiantes de los cursos 2016/17 y 2017/18 para que nadie se quede fuera de esta magnífica oportunidad.

Lanzamiento de proyecto H2020 EDI: European Data Incubator en Deusto

Nuestra actividad alrededor del mundo del Big Data sigue creciendo. La Universidad de Deusto, a través de DeustoTech (el equipo MORElab (envisioning future internet)), coordinará el proyecto europeo European Data Incubator (EDI) por valor de 7,7 millones de euros para potenciar la creación de 140 nuevas empresas que exploten las tecnologías de Big Data y dar así solución a los retos de grandes proveedores de datos en Europa.

European Data Incubator
European Data Incubator

Este proyecto ha recibido financiación del programa de investigación e innovación Horizonte 2020 de la Unión Europea en virtud del acuerdo de subvención n° 779790.

Esta iniciativa busca, como decíamos anteriormente, atender a la creciente necesidad de contar con emprendedores de datos que saquen valor de los  mismos a través de la ciencia de datos. No se trata solo de dominar un conjunto de tecnologías y herramientas, como hemos señalado en este blog con anterioridad, sino de aprender cómo poder aplicarlos para resolver problemas de negocio. Es difícil hoy en día encontrar ese perfil que no solo tenga una visión técnica, sino que también tenga esa visión de negocio para aplicarlo a diferentes realidades de empresa.

Por todo ello, el equipo de DeustoTech Morelab, cuenta con el apoyo de nuestro Deusto Entrepreneurship Center, que tratará de impulsar y trasladar a los participantes las skills necesarias para explotar el gran volumen de datos que han aparecido en nuestra sociedad derivado de su digitalización. Es decir, que podamos contar con más perfiles de científicas y científicos de datos, esos perfiles de los que tanto se habla, y no sabemos muchas veces cómo de claro está que se entienda lo que es.

El perfil del científico o científica de datos (Fuente: https://upxacademy.com/wp-content/uploads/sites/8/2016/11/Data-Scientist.png)
El perfil del científico o científica de datos (Fuente: https://upxacademy.com/wp-content/uploads/sites/8/2016/11/Data-Scientist.png)

Si os interesa conocer qué oportunidades os ofrecemos con esta iniciativa de desarrollo de perfiles de Big Data para el emprendimiento y la puesta en valor de los datos, os invitamos a participar el próximo 10 de enero en el evento donde daremos a conocer todos los detalles. El catalizador europeo de la innovación y promoción de start-ups en Big Data llega a Deusto! Apúntate aquí a nuestro European Data Incubator.

European Data Incubator (http://mailchi.mp/60944d96e91a/edi-839529?e=a8568517ec)
European Data Incubator (http://mailchi.mp/60944d96e91a/edi-839529?e=a8568517ec)

Comunicando los resultados de Big Data eficientemente

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

¡Hacer predicciones no es suficiente! Los científicos de datos eficaces saben explicar e interpretar sus resultados y comunicar los hallazgos con precisión a las partes interesadas para tomar decisiones empresariales. La visualización es el campo de investigación que estudia la comunicación efectiva de resultados cuantitativos vinculando percepción, cognición y algoritmos.  Es necesario aprender a reconocer, diseñar y utilizar visualizaciones efectivas.

Como Data Scientist debemos explorar las consideraciones éticas sobre el Big Data y cómo estas consideraciones están comenzando a influir en la política y en la sociedad. Tenemos limitaciones en el uso de la tecnología para proteger la privacidad y los códigos de conducta que emergen para guiar el comportamiento de los científicos de los datos.

Las inferencias estadísticas del Big Data, heterogéneos y ruidosos son inútiles si no puede comunicarlos a sus colegas, a sus clientes, a su administración y a todas las partes interesadas, parece ir paradójicamente empeorando. Pero la reproducibilidad no es sólo para los académicos: los científicos de datos que no pueden compartir, explicar y defender sus métodos para que otros puedan construir son difíciles de entender. La importancia de la investigación reproducible y cómo el cloud computing está ofreciendo nuevos mecanismos para compartir código, datos, entornos e incluso costos que son críticos para la reproducibilidad práctica.

comunicación Big Data

Últimamente, he trabajado en una serie de proyectos que requieren la recapitulación del Big Data para desarrollar materiales de comunicación que transmiten mensajes clave con claridad y precisión.

Si bien el tipo y la cantidad de datos, las áreas temáticas y el público objetivo de cada pieza de comunicaciones varían, cada proyecto implica el uso de los siguientes pasos para producir piezas de comunicaciones efectivas en el Big Data:

  1. Evaluar la exactitud de tus datos. Ya sea porque esté explorado en Internet, interpretando un informe técnico de 100 páginas, analizando los datos de demostración reportados por el usuario o resumiendo los resultados de un trabajo, es importante hacer preguntas sobre tus datos. ¿Tus fuentes proporcionan información conflictiva que es contraria a lo que esperabas? Si es así, haz un poco de investigación adicional para resolver estos problemas y excluir cualquier fuente no confiable.
  2. Analizar lo que dice la información – Ahora que sabes que tus datos son más precisos, es el momento de organizarlo en categorías lógicas. ¿Cuáles son los principales bloques de información con los que se trata? ¿Tienes información cualitativa y cuantitativa? Una vez que tengas una mejor comprensión de la profundidad y amplitud de tus datos, puedes resumir con mayor facilidad los puntos clave de cada agrupación de datos.
  3. Determinar lo que es más importante para tu audiencia – Es fácil resumir todos los datos con los que estás trabajando, pero algunos datos son más importantes para tu audiencia que otros. ¿Alguno de tus puntos clave fue sorprendente o nuevo? Trate de encontrar tus puntos clave, preguntarse qué es significativo y por qué cada punto importa. Si tú no puedes llegar a una respuesta, es probable que el punto clave no debe ser incluido.
  4. Identificar el formato más significativo para la presentación de tus datos – Para aumentar la eficacia de tu análisis, este paso debe estar realmente en tu mente durante todo el proceso del análisis de datos. Es importante determinar qué formato de comunicaciones será más útil para tu audiencia, para que tu proyecto inspire acción en lugar de simplemente una exposición de información masiva. ¿Es probable que tu público realice físicamente un resumen ejecutivo o una hoja informativa? ¿Es probable que eliminen las páginas o el capítulo de un informe que más se relaciona con tu investigación? El propósito de la información debe determinar el formato de tu informe. Y por supuesto, no olvides que vivimos en una edad muy visual. Debemos de usar señales visuales para comunicar temas complejos.

Un análisis de datos eficaz requiere hacer el trabajo desde abajo para que nadie más en la organización se atasque con el Big Data. Tu audiencia no tendrá tiempo para luchar para determinar qué información es más importante. Es tu trabajo interpretar los datos para ellos.