Data Scientist, ha sido elegida como mejor profesión en los EE.UU en el 2016 por el portal de empleo Glassdoor.
Aunque son las empresas tecnológicas como Microsoft, Facebook e IBM las que emplean a la mayoría de los científicos de datos, según un informe de RJ Metrics, estos profesionales también son demandados en otros sectores.
No es de extrañar que la mayoría de las personas que eligen esta profesión empiecen estudiando empresariales, economía, ciencia, tecnología, ingeniería y matemáticas, etc. La contribución positiva del Big Data a la economía y competitividad en el mercado global de alta tecnología es innegable.
Es por eso que tantos estudiantes se están matriculando en universidades que ofrecen disciplinas en Big Data y Business Intelligence. Esta especialización está vinculada a las empresas de más rápido crecimiento y al éxito de las carreras profesionales de sus trabajadores.
Muchas carreras del futuro dependerán en gran medida de los expertos en Big Data, que analizarán e informarán sobre los datos que se utilizan en última instancia como factores clave en la toma de decisiones para empresas y organizaciones en diversos sectores. Según el Computer Business Review, se prevé que el mercado de Big Data crecerá a 46.340 millones de dólares para el 2018 a medida que más y más empresas adopten nuevas tecnologías y una mentalidad digital.
Según la encuesta de Peer Research de Big Data Analytics de Intel, las organizaciones y los ejecutivos concluyeron que el Big Data es una de las principales prioridades para las empresas. El Big Data está presente en casi todos los aspectos de la vida cotidiana y una razón principal por la cual muchas empresas contratarán graduados con una especialización en análisis de datos.
En España, uno de los mayores retos en este terreno es contar con los profesionales adecuados para procesar, filtrar y extraer valor de todos estos datos. No en vano, las ofertas de empleo en el sector del Big Data aumentaron un 92% en 2015. Según el Observatorio de Empleo de Big Data y, en los seis primeros meses de este año, la demanda de científicos de datos creció un 45% en Europa, según la consultora Procorre. En países como Portugal, este porcentaje aumentó un espectacular 79% en esta primera mitad de 2016.
De acuerdo con las estimaciones realizadas por IDC, el mercado español de big data y analyticsha crecido un 6,3% con relación al mismo periodo del año pasado, alcanzando los 191 millones de Euros. Esto corresponde a un aumento de más de 11 millones de euros, lo que revela el enfoque en el dato como una preocupación creciente de las empresas de este país.
España es el octavo país del mundo con más científicos de datos (2,02% del total, frente al 2,20% de Alemania o el 7,12% de Reino Unido) pero la demanda supera con creces la cantidad de profesionales cualificados existente. Por ello, tanto universidades como empresas privadas han comenzado a ofertar programas especializados en ‘data science’ que permitan cubrir este ‘gap’ formativo que existe en la actualidad.
En 2016 se ha producido un incremento generalizado del nivel salarial, destacando el fuerte auge para los perfiles Business Intelligence y Big Data donde el rango salarial ha aumentado a los 39.700 euros brutos anuales este año.
Por lo tanto, como dice Stephane Levesque, CEO de ticjob.es. “Es un buen momento para formarse y desarrollar la carrera profesional en Big Data debido a la escasez de perfiles, las buenas oportunidades profesionales y el nivel salarial ofrecido”.
A pesar de su vida relativamente breve, el Big data está listo para optimizar la Industria 4.0. Algunas empresas están utilizando conjuntos de datos para mejorar y observar la producción, minimizar los errores de producción, gestionar los riesgos y optimizar la velocidad de montaje en la planta de producción. No sólo el Big Data puede ayudar a lograr una mayor eficiencia, sino que también puede conducir a un ahorro de costos en la línea de producción.
Mejoras en la cadena de suministros
A menudo se usa el Big Data para identificar, corregir y reducir los riesgos involucrados en la cadena de suministro. Procesos que incluyen la adquisición de materias primas, así como el almacenamiento y distribución de productos terminados presentan desafíos únicos que se pueden abordar a través del Big Data. Las cadenas de suministro más grandes y complejas serán más susceptibles que las estructuras más pequeñas, pero casi todas pueden beneficiarse de la gran recopilación y procesamiento de datos.
La cantidad de datos no es el único obstáculo a superar. Los fabricantes están ahora lidiando con más fuentes de datos y materiales que nunca. Los registros del centro de llamadas, el tráfico en línea, las reclamaciones de los clientes e incluso los mensajes en los medios sociales se utilizan para recopilar valiosos datos de los consumidores.
Aunque gran parte de esta información va actualmente a la cuneta, puede archivarse y utilizarse en el futuro para tomar decisiones de negocios, establecer objetivos organizacionales y mejorar el servicio al cliente.
Mejora en la comunicación
También se puede utilizar el Big Data para reforzar las comunicaciones entre los compañeros de trabajo, los consumidores e incluso sus máquinas de producción. Industrial Internet of Things (IIoT) ha generado una amplia red de dispositivos y equipos interconectados.
Tanto las materias primas como las piezas acabadas pueden ser etiquetadas con chips inteligentes RFID, que informan sobre su ubicación exacta y su estado físico en cualquier momento durante el proceso de producción o envío. Las máquinas de autodiagnóstico pueden evitar problemas adicionales y evitar lesiones personales mediante el apagado automático para mantenimiento o reparación. Todas estas características tienen el potencial de eficiencia y ahorro de costos que los primeros pioneros de la industria no habrían podido imaginar en sus mejores sueños.
Aumento de oportunidades de capacitación
Una de las aplicaciones más obvias y beneficiosas de la gestión del Big Data, se puede ver en la formación de su personal. Una gran cantidad de nuevos roles son necesarios para acomodar los proyectos Big Data.
Aparte de proporcionar más oportunidades para los empleados motivados, Big Data también se puede aprovechar para fortalecer y la eficacia de sus programas de formación actuales. Al recolectar y monitorizar los datos relacionados con el desempeño individual de los trabajadores, la productividad general, o la revisión del currículum cuando sea necesario. Esto le permite enfrentar mejor las debilidades y las refuerza con formación y entrenamiento. Los resultados pueden ser comparados y contrastados entre diferentes departamentos, competidores y la industria en general.
Los fabricantes que trabajan con Big Data, cosechan las mayores recompensas, mejoras en su cadena de suministro, comunicaciones más sólidas entre compañeros de trabajo y socios y obtienen más oportunidades de capacitación.
Esto es sólo el comienzo de lo que puede ofrecer el Big Data a la Industria 4.0.
Si desea averiguar cómo el Big Data está ayudando a conseguir un mundo mejor, no hay mejor ejemplo que los usos que se encuentran en la atención sanitaria.
La última década ha sido testigo de enormes avances en la cantidad de datos que habitualmente generamos y recopilamos, así como nuestra capacidad de utilizar la tecnología para analizarla y entenderla. La intersección de estas tendencias es lo que llamamos «Big Data» y está ayudando a las empresas de todas las industrias a ser más eficientes y productivas.
La asistencia sanitaria no es diferente. Además da mejorar los beneficios y reducir los gastos generales, Big Data en la atención sanitaria se utiliza para predecir epidemias, curar enfermedades, mejorar la calidad de vida y evitar muertes evitables. Con la población mundial en aumento y con la población cada día más longeva, los modelos de tratamiento están cambiando rápidamente, y muchas de las decisiones están siendo impulsadas por los datos. Actualmente, la necesidad es saber cada día más sobre los pacientes, desde que nacen – recogiendo señales de advertencia de una enfermedad grave en una etapa suficientemente temprana para que el tratamiento sea más eficiente que si no hemos precedido los antecedentes del individuo.
Así que para crear un proyecto Big Data en la atención sanitaria, vamos a empezar por el principio – antes de que se detecte la enfermedad.
Es mejor prevenir que curar
Los teléfonos inteligentes fueron sólo el comienzo. Con las aplicaciones que les permiten ser utilizados como podómetros para medir cuánto caminas en un día, a los contadores de calorías para ayudarte a planificar tu dieta, millones de nosotros estamos utilizando la tecnología móvil para conseguir un estilo de vida saludable. Más recientemente, ha surgido un flujo constante de dispositivos portátiles dedicados como Fitbit, Jawbone y Samsung Gear Fit que permiten realizar un seguimiento de su progreso y cargar sus datos para ser recolectados junto con los demás datos.
En un futuro muy cercano, podremos utilizar estos datos con su médico quien lo utilizará como parte de su caja de herramientas de diagnóstico. Incluso aunque no esté enfermo, el acceso a las bases de datos de Big data, conseguir la información sobre el estado de la salud los pacientes de Osakidetza permitirá que los problemas sean afrontados antes de que ocurran, y se tomen decisiones terapéuticas o educativas, permitiendo que Osakidetza consiga información privilegiada.
Estos proyectos de Big Data, a menudo son creados por asociaciones entre profesionales médicos y de Big Data, con la prioridad de mirar hacia el futuro e identificar problemas antes de que sucedan. Un ejemplo recientemente creado es el proyecto Pittsburgh Health Data Alliance, que pretende tomar datos de diversas fuentes (tales como registros médicos y datos genéticos e incluso uso de medios sociales) para dibujar un cuadro completo del paciente. Con el fin de ofrecer un paquete de atención médica adaptada.
Los datos de los pacientes no serán tratados aisladamente. Se comparará y analizará junto a otros, destacando amenazas y problemas específicos a través de patrones que surgen durante el análisis. Esto permite que con este sofisticado modelo predictivo que se crea, un médico será capaz de evaluar el resultado probable de cualquier tratamiento que él o ella está considerando, respaldado por los datos de otros pacientes con las mismas condiciones, factores genéticos y estilo de vida.
Programas como este son el intento de la industria para hacer frente a uno de los mayores obstáculos en la búsqueda de la salud basada en Big Data: la industria médica recolecta una gran cantidad de datos, pero a menudo se encuentra en archivos y controlados por diferentes direcciones médicas, hospitales, clínicas, y los departamentos administrativos.
Otra asociación es entre Apple y IBM. Las dos compañías están colaborando en una gran plataforma de salud de datos que permitirá a los usuarios de iPhone y Apple Watch compartir datos con el Servicio de Salud Watson Health de IBM. El objetivo es descubrir nuevos conocimientos médicos a partir de cruzar en tiempo real la actividad y los datos biométricos de millones de pacientes potenciales.
En conclusión, existe un gran potencial para desarrollar una atención sanitaria más selectiva, de amplio alcance y eficiencia mediante la explotación del Big Data. Sin embargo, también se ha demostrado que el campo de la salud tiene algunas características muy específicas y desafíos que requieren de un esfuerzo dirigido y de la investigación para alcanzar todo su potencial.
The question lies at the heart of our campaign, which argues that government’s role should be to collect and administer high-quality raw data, but make it freely available to everyone to create innovative services». “Free our Data campaign”. Reino Unido. Junio de 2006.
¿La Seguridad Social será solvente para nuestros nietos? ¿Cuál es el impacto de las nuevas inversiones en salud, educación y carreteras? ¿Cuál será la proyección de las políticas en la Industria 4.0 de la C.A. de Euskadi? Estas son, algunas de las preguntas que se pueden resolver con Big Data.
El Big Data es una combinación de la información masiva de datos y los recursos tecnológicos. Al igual que las empresas, las administraciones públicas (AAPP) pueden conocer mucho más a los ciudadanos, lo que leen, lo que perciben, etc.
La combinación e implantación de políticas de Gobierno Abierto, “Big Data” y “Open Data” pueden brindar importantes y sustanciosos beneficios a los ciudadanos. Estudios como demosEuropa (2014) concluyen que los países que apuestan por la transparencia de sus administraciones públicas mediante normas de buen gobierno cuentan con instituciones más fuertes, que favorecen la cohesión social.
Según un estudio realizado en la Unión Europea la implementación de las políticas de Gobierno Abierto “Big Data” y “Open Data” tendrán un efecto considerable. El impacto dependerá, lógicamente, del grado de extensión y desarrollo de nuevas tecnologías en cada economía y sector productivo, así como del grado de dependencia y utilidad de dicha información en cada uno de ellos. De hecho, aunque se prevé un impacto positivo en todos los sectores económicos, las ramas de actividad sobre las que se espera un mayor impacto serán la industria manufacturera y el comercio, seguidas de las actividades inmobiliarias, el sistema sanitario y la administración pública (ver siguiente mapa).
En cuanto al impacto geográfico, conviene llamar la atención sobre el caso particular de España, ya que será uno de los países en los que menos repercusión económica tenga el “Big Data” y “Open Data”. Ello se debe al todavía limitado desarrollo de este tipo de tecnologías que permitan aflorar adecuadamente los beneficios que pueden llegar a reportar a la economía, así como de una mayor representatividad de las PYMES en el tejido empresarial español. Ahora bien, el hecho de que el impacto estimado del “Big Data” y “Open Data” sea mayor en los países del norte europeo, donde se han desarrollado mucho más estas tecnologías, pone de manifiesto que éstas ofrecen rendimientos crecientes que conviene aprovechar, independientemente del posicionamiento de cada uno de los países.
Aunque podemos percibir que la C.A. de Euskadi puede tener un comportamiento similar a las regiones del norte y centro de Europa visualizando el siguiente gráfico, dónde se refleja el interés de los ciudadanos por el Big Data.
Un elevado número de países han planteado iniciativas de “Open Data”, con el objetivo de incentivar la actividad económica, favorecer la innovación y promover la rendición de cuentas por parte de las AA.PP. Estas iniciativas en absoluto se limitan a los países más avanzados, sino que se están aplicando en múltiples territorios como herramienta de desarrollo económico, como es el caso de India. No obstante, la formulación de buenas prácticas requiere una selección de los principales referentes a escala internacional. Para ello, es posible analizar estudios recientes como, por ejemplo, el Barómetro elaborado por la World Wide Web Foundation.
Reino Unido es el país más avanzado en materia de “Open Government Data” (OGD), tanto en lo que se refiere a la adaptación de sus instituciones, ciudadanos y tejido empresarial, como en la implementación de iniciativas públicas y en el impacto conseguido por las mismas.
El Reino Unido es reconocido ejemplo como uno de los principales referentes a escala internacional en materia de Gobierno Abierto. Sus actividades en torno a la liberación de datos comenzaron en 2006, a instancias de diversas campañas impulsadas por la sociedad civil y los medios de comunicación (como “Free our Data”), y ha logrado mantener un claro apoyo a estas estrategias tanto por parte de los últimos Primeros Ministros como de los principales partidos políticos británicos.
Entre los objetivos de la estrategia de apertura de datos de Reino Unido destaca la importancia atribuida a la innovación y a la dinamización económica que estas iniciativas pueden favorecer. En este sentido, se ha creado un organismo no gubernamental, el Open Data Institute (de financiación público-privada), cuya misión específica es apoyar la creación de valor económico a partir de los datos puestos a disposición de ciudadanos y empresas. Asimismo, las distintas áreas de la Administración han recibido el mandato de diseñar estrategias propias de apertura de datos, incluyendo acciones específicas que incentiven el uso de sus datos y la realización de informes públicos periódicos sobre sus avances en este ámbito.
Por otra parte, el Reino Unido ha puesto en marcha soluciones que tratan de contribuir a resolver los problemas que surgen al publicar grandes volúmenes de datos correspondientes a áreas de actividad o responsabilidad muy diversa. En este sentido, cabe subrayar:
La creación de los Sector Transparency Boards en diversos departamentos de la Administración. Estos grupos de trabajo cuentan con la participación de representantes de la sociedad civil y de las empresas, y tienen como objetivo canalizar las solicitudes de datos y orientar al Gobierno sobre las prioridades a seguir para liberar nuevos conjuntos de datos.
El desarrollo de programas de formación, competiciones y eventos diseñados para incentivar el uso de datos públicos por parte de la sociedad civil.
La asignación de financiación pública a programas dirigidos a incrementar el aprovechamiento de los datos liberados por parte del tejido empresarial.
Asimismo, se observan esfuerzos dirigidos a incrementar la calidad, estandarización y facilidad de explotación de los datos distribuidos (como los derivados del servicio cartográfico, el registro catastral, el registro mercantil).
Ricardo León, exalumno del postgrado “Análisis, investigación y comunicación de datos”, acaba de publicar un interesante artículo sobre la gestión del stock en las farmacias, que se puede encontrar aquí. Una de las lecciones más importantes es que, para interpretar datos, es fundamental conocer la industria, área o sector que se analiza. A continuación, Ricardo nos comenta por qué y cómo ha hecho esta investigación.
La inquietud de este artículo surge de querer reflejar ciertas realidades de la gestión del stock en las oficinas de farmacia a los propios farmacéuticos.
En Checkfarma nos dedicamos a la Optimización del Stock en las farmacias apurando la inversión necesaria y mejorando el nivel de servicio. Pero el/a farmacéutico/a aún está alejado de tener una necesidad acuciante de gestión y de eficiencia.
La realidad es que se puede gestionar una farmacia de muy diversas formas y con muy diversos resultados, como cualquier otro negocio. La actual evolución de contención del gasto farmacéutico empuja a que las farmacias deban controlar y mejorar sus criterios de eficiencia en la gestión del stock, porque ven reducido su margen, por lo que he querido publicar un artículo que ayude a destacar una relación muy interesante entre el “tamaño del surtido” y la “facturación de cada farmacia” en un gráfico de dispersión.
La dificultad no ha sido grande porque partía con una gran ventaja: nuestra propia base de datos. Estoy muy familiarizado con el significado de cada variable y conozco muy bien la casuística de la farmacia y su stock, ya que me dedico a ello desde hace más de siete años desde Checkfarma. Es decir, la clave ha sido el conocimiento previo del sector y contar con una muy buena base de datos (estructurada, trabajada, orientada a explotar esa información). La idea era desvelar el tipo de relación que podía existir entre el “tamaño del surtido” y la “facturación”, y averiguar qué coeficiente de correlación lineal o intensidad de relación podía haber ellas (ha sido alto, superior a 0,7).
Tras conocer estos datos quise profundizar en por qué esa relación no es aún mayor. Creo que la clave está en esa interpretación no sólo de la relación lineal, sino en fijarnos en esa dispersión de los datos para cada tramo de facturación de cada farmacia. Es decir, si una farmacia factura €0,5 millones con 2.000 referencias y otra lo hace con 6.000 referencias, evidentemente las implicaciones de gestión no son las mismas para una que para otra, con sus costes asociados, rentabilidades, formación necesaria para gestionar esa mayor amplitud de surtido.
Y ésa quizás ha sido la mayor dificultad: crear ese valor añadido generado por la información para entender estas relaciones y las posibilidades de ganar en eficiencia por parte de nuestras farmacias.
La lectura en todo este proceso es que trabajando los datos, al final, consigues un valor enorme, porque identificas posibles factores, relaciones, realidades escondidas entre tanto dato. Pero además consigues un valor que se puede traducir en acciones, en este caso, para la farmacia.
La finalidad de este artículo es que espero que muchos farmacéuticos valoren que un surtido bien gestionado y eficiente le hará tener un negocio más saludable.
A estas alturas creo que todas las personas que estamos en el mundo profesional moderno hemos oído hablar de Big Data, Internet de las cosas, Industria 4.0, Inteligencia Artificial, Machine learning, etc.
Mi reflexión nace de ahí, del hecho innegable de que en estos últimos…¿cuánto? ¿5, 10, 15, 20 años? la presencia de internet y lo digital en nuestras vidas ha crecido de manera exponencial, como un tsunami que de manera silenciosa ha barrido lo anterior y ha hecho que sin darnos cuenta, hoy no podamos imaginar la vida sin móvil, sin GPS, sin whatsapp, sin ordenador, sin internet, sin correo electrónico, sin google, sin wikipedia, sin youtube, sin Redes Sociales,…Basta mirar a nuestro alrededor para ver un escenario inimaginable hace pocos años.
Hasta aquí nada nuevo, reflexiones muy habituales. Pero yo quería centrarme en un aspecto muy concreto de esta revolución en la que estamos inmersos, yo quería poner encima de la pantalla ( 😉 ) el valor económico de los datos y los nuevos modelos de negocio que esto está trayendo y va a traer consigo, con nuevos servicios, agentes y roles, actualmente inexistentes, que deberán de ser claramente regulados, tanto a través de las leyes, como sobre todo, en las compraventas y contratos entre privados. Y para ello, es importante que vayamos pensando en ello.
La gran pregunta
¿De quién es la propiedad de un dato? ¿Quién tiene la capacidad de explotar y sacar rentabilidad de los datos, tanto directamente como vendiéndolos a terceros?
Es una pregunta compleja con implicaciones legales que cómo he dicho habrá que desarrollar, pero la realidad es que, hoy por hoy, el dato lo explota quien sabe cómo hacerlo y quién tiene la capacidad tecnológica y económica para hacerlo: léase los gigantes de internet, los grandes fabricantes tecnológicos, las operadoras de telecomunicaciones, la banca y aseguradoras, grandes distribuidores, fabricantes de automóviles, etc., entre otros. Aparte está el sector público que se supone que va a actuar en este proceso, de manera neutral, velando por la privacidad de los datos y compartiendo todo lo publicable a través del open-data para la libre explotación por parte del sector privado.
Volvamos al valor del dato. Hace unos meses veía en youtube una entrevista a un Socio de Accenture que contaba, hablando sobre el bigdata, que en una comida que había tenido días antes con un Consejero de una Aseguradora, este Socio le había transmitido su sorpresa por la reciente compra de un hospital por parte de la aseguradora, ya que solo veía pérdidas y activos obsoletos…..…..a lo que el Consejero le contestó: “Ya lo sabemos, pero su valor es un intangible…estamos pagando por la información de sus pacientes”. Dichos datos iban a poder tener un doble (al menos) valor para la aseguradora, el primero, la explotación directa de los datos a través de algoritmos de machine learning que le permitirían el ajuste de los perfiles de riesgo de sus clientes y otro para comercializarlos y vendérselos, por ejemplo, a una farmacéutica.
Esto es un pequeño ejemplo de lo que ya está pasando, y no sólo en EEUU donde parece que estos temas van muy por delante, sino en nuestro entorno más cercano, donde las grandes empresas del tipo que he comentado, están comprando y vendiendo datos de clientes y usuarios.
Podríamos hablar también del caso clarísimo de las operadoras de móvil o de la banca que disponen del detalle de toda la vida de sus clientes, dónde van, con quién hablan, en qué y dónde gastan,..
Esto no es una crítica ni una denuncia porque realmente no están haciendo nada ilegal ni falto de ética, sino simplemente invertir mucho y ganar todo el dinero que pueden. Seguro que están respetando los datos personales, que sí están regulados por la LOPD, pero sí es verdad que todo esto está ocurriendo gracias a la falta de cultura digital y de conciencia del valor del dato de los usuarios-ciudadanos, que no dudamos en aceptar/firmar, sin mirar, los acuerdos de uso que nos ponen delante, con tal de poder utilizar esos servicios digitales que se han convertido en “imprescindibles” para nosotros.
Yendo al caso concreto del sector del automóvil. Hace poco leía la biografía de Elon Musk, fundador de TESLA, entre otras empresas, que es uno de los fabricantes de coches eléctricos más innovadores y digitalizados. En el libro contaba como dotan a sus coches de un complejo sistema de sensorización conectado a su central, con el que monitorizan el desempeño de cada elemento del coche así como el uso del mismo, ofreciendo a sus clientes un servicio de anticipación de necesidades y prevención de incidencias, totalmente transparente para los clientes, que pueden llegar a encontrarse, por ejemplo, como se les presenta a las 9 de la mañana en casa un técnico de TESLA para entregarles un coche de sustitución porque van arreglar el sistema de aire acondicionado que estaba empezando a desajustarse, cuando el usuario no había siquiera notado nada, o que al arrancar el coche por la mañana se les muestra en la pantalla del coche, ofertas de un supermercado al que suelen ir o de una hamburguesería que está camino al trabajo….todo esto está ocurriendo ya.
se les presenta a las 9 de la mañana en casa un técnico de TESLA para entregarles un coche de sustitución porque van arreglar el sistema de aire acondicionado que estaba empezando a desajustarse, cuando el usuario no había siquiera notado nada
Hablando de industria 4.0…., ¿podría un fabricante de maquinaria industrial ofrecer a sus clientes su producto ya sensorizado, de manera que pueda monitorizar y explotar centralizadamente los datos de funcionamiento de todas las máquinas instaladas en distintos clientes con el consiguiente incremento de la información sobre su uso que eso supone, y ofrecer directamente, o a través de una tercera empresa a la que venda esa información, servicios de mantenimiento preventivo personalizado u optimización de consumos energéticos a sus clientes? ….Todo esto y mucho más se puede hacer y se hará (si no se está haciendo ya..).
Y vuelvo al asunto que planteaba, ¿de quién es la información registrada sobre los hábitos de vida/fabricación de esos clientes?¿del fabricante que ha instalado los sensores y elementos de comunicación en el coche/máquina que permiten el registro, digitalización, transporte y explotación de los datos, o…. del cliente que es quién genera realmente el contenido?¿Podría un cliente negarse a facilitar esos datos, parece que sí, pero mejor aún, ¿podría un cliente quedarse con una parte de los beneficios que, por ejemplo, TESLA pueda estar obteniendo de la venta de sus datos a los comercios de la zona para que hagan sus ofertas o el fabricante de maquinaria pueda estar obteniendo de la venta de datos a terceros para que ofrezcan servicios de mantenimiento u optimización?
¿Podrán existir intermediarios de datos que nos gestionen y rentabilicen la información que generamos, de manera similar a como hacen los gestores de banca con nuestro dinero?
Se avecina un terreno de juego nuevo, con nuevas reglas por construir y con un enorme potencial de negocio para quienes sean capaces de entender antes sus posibilidades y desarrollar nuevos modelos de explotación y servicio, y tanto las personas como las empresas debemos, al menos, empezar a ser conscientes de nuestro valor y papel en todo esto.
Nuevo informe del Programa “Análisis, investigación y comunicación de datos” de Deusto sobre basuras marinas
Las basuras marinas –constituidas por plásticos sobre todo — son tal problema que este año el Programa de la ONU para el Medio Ambiente (PNUMA) ha lanzado una campaña global para eliminar en 2022 las fuentes de basura en los océanos. La mayor parte de las basuras encontradas en playas y riberas terminan en el mar. Por eso es vital conocer qué tipo de basura y en qué cantidades se encuentran en nuestras playas y ríos, y qué factores influyen su disminución o aumento.
El informe del Programa “Análisis, investigación y comunicación de datos” de Deusto contribuye a responder a algunas de estas en un reciente informe sobre basuras marinas que concluye que:
La caída del consumo de bolsas de plástico experimentada en los últimos años en el estado ha tenido un impacto directo en una reducción de un 80% de este tipo de bolsas en las zonas playeras y ribereñas en las que hubo limpiezas entre 2010 y 2015, incluidos. Vimos una relación estadística entre los datos de las limpiezas y de consumo de bolsas.
El Parque Regional Puntas de Calnegre-Cabo Cope, en Murcia, es el punto donde más basuras se encontraron por metro lineal de playa de los lugares estudiados (21,77 residuos de todo tipo por metro lineal). En comparación en Euskadi se encontraron 0.53 unidades de residuos por metro lineal.
El número de residuos relacionados con la agricultura intensiva y tuberías PVC está en aumento. 2015 multiplica por más de ocho la cantidad de residuos de este tipo encontrados el año anterior.
El informe está basado en el análisis de los datos obtenidos sobre cerca de 50.000 kilogramos de basuras recogidas entre 2010 y 2015 por miles de voluntarios/as de la Asociación Ambiente Europeo (AAE) en cerca de 250 limpiezas en todo el estado, como parte del proyecto International Coastal Cleanup de Ocean Conservancy.
En esos años se realizaron las siguientes limpiezas, en orden de más a menos: Andalucía, 58; Murcia, 54; Valencia, 53; Canarias, 28; Islas Baleares, 23; Castilla y La Mancha, 9; País Vasco, 7; Galicia, 4; Cataluña, 3; Madrid, 3; Asturias, 2.
De los casi 50.000 kilogramos de basuras recogidas, solo 680 kilogramos corresponden a playas y riberas vascas. En total significa 0,12 kilos por metro lineal limpiado. Las más sucias entre las que se hicieron limpiezas son, por año, Pasaia, Gipuzkoa (1.099 residuos en 2011), Punta Galea (565, en 2015) y Muskiz (424, en 2012), en BizKaia. Las basuras más comunes en las playas y riberas vascas fueron en orden de mayor a menor envoltorios de comida, bolsas de plástico, cuerdas, botellas de plástico, tapas de botellas y latas, lo que, con excepción de la presencia de cuerdas y ausencia de, replica más o menos lo que se encuentra en otras playas. Los plásticos relacionados con la agricultura son frecuentes en las playas andaluzas, murcianas y canarias.
Hoy el PNUMA calcula que son más de 8 millones de toneladas de plásticos los que terminan en el mar cada año; es decir, lo equivalente a tirar un camión entero de plásticos cada minuto. En la próxima década nuestros océanos tendrán alrededor de un kilo de plástico por cada tres kilogramos de pescado. Especialmente preocupantes son los llamados microplásticos, pequeñas partículas de plástico de hasta 5 mm de diámetro, que pueden ingerir peces y así entran en nuestra cadena alimenticia.
El informe está firmado por Ricardo León y Janire Zubizarreta, participantes en el Programa “Análisis, investigación y comunicación de datos” de Deusto, y su directora, Miren Gutiérrez. Se enfrentaron al reto de estandarizar y limpiar una base de datos que no estaba estructurada adecuadamente para su análisis, así como geolocalizar los datos, buscar correlaciones entre datos externos y datos obtenidos de las limpiezas de playas y riberas, y responder a preguntas de investigación de enorme relevancia.
El interés por el concepto de «machine learning» no para de crecer. Como siempre, una buena manera de saberlo, es utilizando herramientas de agregación de intereses como son Google Trends (las tendencias de búsquedas en Google) y Google N Gram Viewer (que indexa libros que tiene Google escaneados y sus términos gramaticales). Las siguientes dos imágenes hablan por sí solas:
Sin embargo, no se trata de un término nuevo que hayamos introducido en esta era del Big Data. Lo que sí ha ocurrido es el «boom de los datos» (derivado de la digitalización de gran parte de las cosas que hacemos y nos rodean) y el abaratamiento de su almacenamiento y procesamiento (básicamente, los ordenadores y sus procesadores cuestan mucho menos que antes). Vamos, dos de los vectores que describen esta era que hemos bautizado como «Big Data».
Los algoritmos de machine learning están viviendo un renacimiento gracias a esta mayor disponibilidad de datos y cómputo. Estos dos elementos permiten que estos algoritmos aprendan conceptos por sí solos, sin tener que ser programados. Es decir, se trata de ese conjunto de reglas abstractas que por sí solas son construidas, lo que ha traído y permitido que se «autonconfiguren».
La utilidad que tienen estos algoritmos es bastante importante para las organizaciones, dado que son especialmente buenos para adelantarnos a lo que pueda ocurrir. Es decir, que son bastante buenos para predecir, que es como sabéis, una de las grandes «inquietudes» del momento. Se pueden utilizar estos algoritmos de ML para otras cuestiones, pero su interés máximo radica en la parte predictiva.
Este tipo de problemas, los podemos clasificar en dos grandes categorías:
Problemas de regresión: la variable que queremos predecir es numérica (las ventas de una empresa a partir de los precios a fijar)
Problemas de clasificación: cuando la variable a predecir es un conjunto de estados discretos o categóricos. Pueden ser:
Binaria: {Sí, No}, {Azul, Rojo}, {Fuga, No Fuga}, etc.
Múltiple: Comprará {Producto1, Producto2…}, etc.
Ordenada: Riesgo {Bajo, Medio, Alto}, ec.
Estas dos categorías nos permiten caracterizar el tipo de problema a afrontar. Y en cuanto a soluciones, los algoritmos de machine learning, se pueden agrupar en tres grupos:
Modelos lineales: trata de encontrar una línea que se «ajuste» bien a la nube de puntos que se disponen. Aquí destacan desde modelos muy conocidos y usados como la regresión lineal (también conocida como la regresión de mínimos cuadrados), la logística (adaptación de la lineal a problemas de clasificación -cuando son variables discretas o categóricas-). Estos dos modelos tienen tienen el problema del «overfit»: esto es, que se ajustan «demasiado» a los datos disponibles, con el riesgo que esto tiene para nuevos datos que pudieran llegar. Al ser modelos relativamente simples, no ofrecen resultados muy buenos para comportamientos más complicados.
Modelos de árbol: modelos precisos, estables y más sencillos de interpretar básicamente porque construyes unas reglas de decisión que se pueden representar como un árbol. A diferencia de los modelos lineales, pueden representar relaciones no lineales para resolver problemas. En estos modelos, destacan los árboles de decisión y los random forest (una media de árboles de decisión). Al ser más precisos y elaborados, obviamente ganamos en capacidad predictiva, pero perdemos en rendimiento. Nada es gratis.
Redes neuronales: las redes artificiales de neuronas tratan, en cierto modo, de replicar el comportamiento del cerebro, donde tenemos millones de neuronas que se interconectan en red para enviarse mensajes unas a otras. Esta réplica del funcionamiento del cerebro humano es uno de los «modelos de moda» por las habilidades cognitivas de razonamiento que adquieren. El reconocimiento de imágenes o vídeos, por ejemplo, es un mecanismo compleja que nada mejor que una red neuronal para hacer. El problema, como el cerebro humano, es que son/somos lentos de entrenar, y necesitan mucha capacidad de cómputo. Quizás sea de los modelos que más ha ganado con la «revolución de los datos»; tanto los datos como materia prima, como procesadores de entrenamiento, le vienen como anillo al dedo para las necesidades que tienen.
En el gran blog Dataconomy, han elaborado una chuleta que es realmente expresiva y sencilla para que podamos comenzar «desde cero» con algoritmos de machine learning. La tendremos bien a mano en nuestros Programas de Big Data en Deusto.
El pasado miércoles 5 de Abril, tuvimos la ceremonia de entrega de diplomas de la promoción de 2016 de nuestro Programa de Big Data y Business Intelligence en la sede de Bilbao. Un total de 58 alumnos, a los que queremos extender nuestra felicitación desde aquí también.
Pero quizás, una de las mejores noticias que pudimos recibir ese día es que uno de esos 58, Iker Ezkerra, Alumni de dicha promoción, nos comunicó que había quedado 10º clasificado en una competición de Big Data que había organizado Microsoft. Concretamente en esta:
Una competición en la que el objetivo era desarrollar un modelo predictivo de eventuales impagos de clientes que solicitaban un préstamos hipotecario. Todo ello, utilizando tecnologías de Microsoft. Un reto interesante dado que la validación del modelo que cada participante desarrollaba, se realizaba con con 2 datasets que cada participante no conocía a priori. Se va escalando posiciones en el ranking en función del scoring que va obteniendo el modelo. ¿El resultado? El citado décimos puesto para Iker, además de obtener la certificación «Microsoft Professional Program Certificate in Data Science«.
Dentro de este proyecto, Iker tuvo que aprender un poco sobre la mecánica de concesión de créditos. Cuando solicitamos un préstamos hipotecario al banco, estas entidades financieras utilizan modelos estadísticos para determinar si el cliente va a ser capaz de hacer frente a los pagos o no. Las variables que influyen en esa capacidad de devolver el capital e intereses son muchos y complejos; ahí radica parte de la dificultad de esta competición, y donde Iker tuvo que trabajar mucho con los datos de origen para tratar de entender y acorralar bien a las variables que mejor podrían predecir el eventual «default» de un cliente.
Un total de 110.000 registros, para entrenar un modelo de Machine Learning. Por si alguien se anima en ver todo lo que pudo trabajar Iker, aquí os dejamos un enlace donde podréis encontrar el dataset. Y aquí los criterios de evaluación seguidos, que creo pueden ser interesantes para entender cómo funcionan este tipo de modelos predictivos.
Le pedí a Iker un breve párrafo describiendo su experiencia, dado que al final, nadie mejor que él para describirla. Y, muy amablemente, me envío esto, que para nosotros, desde Deusto Ingeniería, es un placer poder leer:
En los últimos meses del Programa en Big Data buscando documentación, formación y sobre todo datos que pudiese utilizar en un proyecto con el que poder poner en práctica los conocimientos que estaba adquiriendo me encontré con una Web esponsorizada por Microsoft en la que se ofrecen varios retos en los que poder poner en práctica tus conocimientos en análisis de datos. Estos retos ofrecen una visión bastante completa de lo que sería el ciclo de vida de un proyecto de análisis de datos como la limpieza del dataset, detección de outliers, normalización de datos, etc. Además algo que para mi ha sido muy interesante es que detrás de cada modelo que vas entrenando hay una «validación» de lo «bueno» que es tu modelo con lo que te sirve para darte cuenta de si tienes problemas de overfitting, limpieza de datos correcta, etc. Ya que por detrás de todo esto hay un equipo de gente que valida tu modelo con otros 2 datasets obteniendo un «score» que te permite ir escalando posiciones en una lista de competidores a nivel internacional.
Con todo esto y tras muchas horas de trabajo conseguí obtener la décima posición que para alguien que hace 1 año no sabía ni lo que era la KPI creo que no está nada mal :). Así que animo a todo el mundo con inquietudes en el mundo del dato a participar en este tipo de «competiciones» que te permiten poner a prueba los conocimientos que has adquirido y también a quitarte complejos en esta área de la informática que para algunos nos es nueva.
Felicidades, Zorionak, Congratulations, una vez más, Iker. Un placer poder disfrutar de vuestros éxitos en el mundo del Big Data.
La semana pasada, nos enteramos de una noticia que, para nosotros, los del «Big Data», debe ser bastante relevante: se ha confirmado que Google ha adquirido una de nuestras comunidades preferidas, Kaggle. Quizás alguno se pregunte por qué esta noticia es tan relevante. La propia web de Kaggle te lo dice nada más entrar:
Your Home for Data Science
La casa para hacer «ciencia de datos» o sacar valor a los datos a través de modelos analíticos. En nuestros Programas de Big Data, es frecuente que salga Kaggle durante las clases. No ya solo por invitar a nuestros estudiantes a sus competiciones, lo importante, como suele pasarnos en muchos de estos espacios web, es la comunidad en sí: más de 500.000 personas que se juntan en esa plataforma para discutir alrededor del dato y la ciencia del dato (Data Science). Y que encima, publican datasets con los que «jugar».
Es la home o punto de inicio de muchas personas que se dedican al dato. El primer sitio al que acudían a buscar respuesta a algún tema que se nos complicaba. Un lugar donde estaban los mejores de todo el mundo. Donde muchos profesores hemos diseñado clases o hemos construido nuestra forma de afrontar los problemas alrededor de los datos.
Y Kaggle, ahora ha sido adquirida por Google. Esta, llevaba ya un tiempo detrás del tema, al parecer. Acababan de organizar conjuntamente una competición de 100.000 dólares para clasificar vídeos de Youtube. Una competición que permitía la integración nativa con la plataforma de machine learning de Google, la que se ha venido a conocer como Google Cloud Platform. En nuestro Programa en Tecnologías de Big Data en Madrid, ya hemos tenido un par de sesiones con nuestro profesor (y Alumni) Alex Urcola, de Google, alrededor de estas tecnologías y servicios web que ofrece Google.
Y tampoco podemos olvidar que Google seguro ha valorado la cantidad de puestos de trabajo que ya comenzaba a gestionar Kaggle: algo así como un «LinkedIn vertical» para el mundo del Big Data.
Como ven, lo que parece claro, es que la apuesta de Google por el mundo de la inteligencia artificial y el Big Data está claro. Y esto es lo que me parece noticia. Ya hablábamos en un artículo reciente sobre cómo las grandes tecnológicas querían correr en esta carrera por la inteligencia artificial. Es probable que Google ahora busque aglutinar todas sus soluciones de manejo de datos en un mismo ecosistema. Después de liberar TensorFlow (que nació dentro de las necesidades existentes en el equipo Google Brain), ha visto como su uso se dispara. En la carrera que Google mantiene con Amazon por los servicios en la nube, quizás, va siendo momento de verticalizarse en un área donde es fácil que todos veamos a Google como un actor válido y de referencia.
¿Y qué mas tiene Kaggle? Pues obviamente, como comunidad que es, talento. De hecho, de nuevo, basado en cuestiones medianamente intuitivas y lógicas, es fácil pensar que Google quiere tener en su órbita a los mayores expertos en el mundo en el manejo de datos y la algoritmia. Y eso, hoy en día, está en Kaggle. Y es que reclutar talento en esta era digital y de datos, es sin duda alguno, el gran reto que afrontan las comunidades. Que Kaggle haya sido capaz de construir ese ecosistema alrededor, hace que todos entendamos que estar cerca del talento, sea absolutamente necesario.