Todas las entradas de: Álex Rayón

RGPD: El mundo del dato desafía a la ley (por Elen Irazabal)

(Artículo escrito por Elen Irazabal, alumni de Deusto Derecho y alumna de la II Edición del Programa en Tecnologías de Big Data en nuestra sede de Madrid)

Resulta sorprendente que uno de los puntos más confusos del nuevo Reglamento General de Protección de Datos (RGPD), sea la propia contextualización social en la que se sustenta: la imprecisa conexión entre la privacidad y los datos de carácter personal.

Reglamento Europeo de Protección de Datos o RGPD (Fuente: https://tulopd.es/wp-content/uploads/sites/8/2016/09/RGPD.png)
Reglamento Europeo de Protección de Datos o RGPD (Fuente: https://tulopd.es/wp-content/uploads/sites/8/2016/09/RGPD.png)

Veamos ahora porqué este criterio puede hacer del reglamento una ley inefectiva:

El concepto de privacidad ha sido objeto de evolución y re-definición a lo largo de los tiempos a medida que la sociedad avanzaba y se adaptaba a los retos del momento. No debemos entender el concepto de privacidad como absoluto, pues la privacidad es un conjunto de atributos personales que competen a la persona y la cesión que realiza en el día a día de cada atributo que la compone, la valora el propio sujeto en base a lo que recibe a cambio.

Desde que internet se materializó como parte de nuestra actividad diaria, el mundo del dato ha impulsado la re-valorización de la privacidad. De hecho, el propio concepto de privacidad ha sido transformado por todos nosotros durante la última década al interactuar en el espacio digital a cambio de beneficios económicos y sociales. Sin embargo, la cesión de privacidad de los individuos ha traído una ola de incertidumbre presente y de futuro.

Por ello, uno de los puntos clave del Reglamento es el control  del usuario de sus datos durante toda la vida del dato con especial hincapié en el procesamiento de los mismos. Por tanto, el legislador europeo faculta al usuario del derecho a controlar sus datos personales y la capacidad para disponer y decidir sobre los mismos [1]. De manera que, este derecho dota al individuo de un campo mayor de ejercicio, donde el Reglamento también es aplicable en aquéllos casos que no se vulnera o genera un riesgo real a la privacidad de las personas.

Esto tiene varias acepciones desde el punto de vista del dato y del usuario:

  • Que el reglamento intervenga en la vida del dato cuando no comporta ningún riesgo y que por tanto, se establezcan prohibiciones que vulneren el valor del dato. En última instancia, repercutirán en los servicios que proporcionan a los propios usuarios.
  • Que el ciudadano, al no poder realizar un cálculo de impacto en su esfera privada desconozca las implicaciones de sus decisiones en todo el proceso de la vida de sus datos. Y que por tanto, el ciudadano no sea capaz de tener un control efectivo sobre ellos.

En definitiva, puede generar un desequilibrio entre el mundo físico del usuario y el universo digital del dato que podría optimizarse si la legislación en lugar de ser resultado de la planificación de los gobiernos, facilitara la fusión de los dos mundos.

[1] Agencia Española de Protección de Datos:  http://www.agpd.es/portalwebAGPD/CanalDelCiudadano/derechos/index-ides-idphp.php

Big data en la seguridad alimentaria

(Artículo escrito por Izaskun Larrea, antigua alumna de la promoción de 2016/17 en el Programa en Big Data y Business Intelligence en Bilbao)

En los últimos años, se ha escrito mucho sobre Big Data  y su potencial para revolucionar la forma en que operan las empresas y los servicios públicos. La visión se está convirtiendo rápidamente en realidad, podemos tener redes de sensores conectados que recopilan datos de fábricas, vehículos, hospitales, hogares, tiendas y cadenas de suministro en todo el mundo. Se dice que es la tecnología que permitirá todo, desde las ciudades inteligentes que pueden, por ejemplo, optimizar el flujo de tráfico, el uso de energía y la señalización,  hasta predecir un terremoto.

En este artículo exploramos cuál será el impacto continuo del Big Data  en la seguridad alimentaria. En particular, examinamos el conocimiento aceptado de que el Big Data, con su capacidad de monitorear y controlar los sistemas de forma remota, nos ayudará a avanzar para garantizar la seguridad alimentaria.

Algo tan complejo como las cadenas mundiales de suministro de alimentos, va a requerir una visión coordinada y colaborativa que no deje piedra sin remover, con cada componente haciendo su parte.

Seguridad Alimentaria y Big Data
Seguridad Alimentaria y Big Data

Trazabilidad de la cadena alimentaria

Actualmente, el Big Data se usa con mayor frecuencia en la industria alimentaria para  rastrear el estado de los productos a través de la producción, el procesamiento y la cadena de suministro. En el nivel más básico, las empresas han estado utilizando códigos de barras y etiquetas RFID durante más de 20 años para rastrear productos alimenticios desde sus puntos de origen hasta plantas de procesamiento, transporte, almacenamiento, puntos de distribución y minoristas de alimentos .

En años más recientes, también hemos visto el desarrollo de sensores más sofisticados que pueden monitorear los factores de seguridad hasta un nivel de detalle fino durante el procesamiento de alimentos y la logística. Ahora es relativamente común que las empresas instalen redes de sensores que midan las partículas de polvo de los alimentos, la temperatura o la humedad en plantas de fabricación de alimentos y contenedores de transporte.

Estamos viendo esfuerzos más avanzados, como el proyecto MUSE-Tech financiado recientemente por la UE (espectroscopía fotoacústica, espectroscopía de UV-Vis Cuasi Imaging y detección de temperatura distribuida) para mejorar la manera en que los fabricantes manejan los materiales en bruto y en el proceso.

El proyecto desarrolló un dispositivo multisensor que puede reaccionar en tiempo real  las variaciones en las materias primas y las condiciones de procesamiento para optimizar la calidad y la seguridad de los alimentos procesados. Una línea del proyecto se ha centrado en reducir el riesgo de desarrollar acrilamida, un compuesto tóxico en alimentos con almidón, como las papas fritas durante la cocción, al especificar nuevas pautas para el tiempo y la temperatura de fritura.

Combinados, los beneficios de estos enfoques son muchos. Por un lado, ayudan a las empresas alimentarias a cumplir la legislación alimentaria. Esto específicamente establece disposiciones para mejorar las prácticas de seguridad alimentaria y una mayor responsabilidad a través de la rastreabilidad.

La  monitorización integral de los de los alimentos, permite que varias partes involucradas en las redes de suministro, las empresas de logística y los minoristas identifiquen rápidamente los puntos de origen y distribución. Anteriormente, estas investigaciones podrían haber llevado semanas o meses.

Sin embargo, aunque toda esta capacidad es buena para una seguridad alimentaria eficiente e identifica los  problemas más rápidamente, solo nos lleva tan lejos hacia las verdaderas posibilidades que se ofrecen. Para eso, necesitamos agregar Big Data a la mezcla.

Avances en el análisis de Big Data

A medida que Internet of Things se desarrolla en sofistificación y escala, se están produciendo grandes cantidades de datos que antes no estaban disponibles. ¿Cómo podemos utilizar toda esta información para mejorar la forma en que trabajamos?

Este es el trabajo de Big Data Analytics, el campo del Big Data  que progresa rápidamente y que puede usarse para extraer conjuntos de datos excepcionalmente grandes y descubrir patrones ocultos, correlaciones desconocidas, puntos de falla, tendencias del mercado, preferencias del cliente y todo tipo de información comercial útil.

En la industria alimentaria, los conjuntos de datos se están incrementando por la gran cantidad de datos generados por las redes de sensores de monitoreo que ya hemos descrito.

Sin embargo, esto es solo el comienzo. Lo que es realmente interesante es el potencial de encontrar nuevas correlaciones mediante el análisis de los datos de seguridad alimentaria junto con los datos de sensores de otras fuentes científicas y ambientales. Esto creará la posibilidad de ofrecer avances aún más profundos.

Un ejemplo de cómo esto puede funcionar es una colaboración actual entre Mars e IBM, que se centra en la secuenciación del ADN y el ARN de las bacterias que se producen dentro de los alimentos en las cadenas de suministro mundiales. El objetivo del proyecto es crear un índice genético de las bacterias normales que se producen en los alimentos.

Esto ayudará a determinar más fácilmente las anomalías en las muestras de alimentos que muestran la presencia de bacterias dañinas. Proporcionará una mejor comprensión de las causas de la contaminación y la propagación de enfermedades transmitidas por los alimentos.

¿Cómo obtener mayor rentabilidad utilizando Business Intelligence?

(Artículo escrito por Izaskun Larrea, antigua alumna de la promoción de 2016/17 en el Programa en Big Data y Business Intelligence en Bilbao)

Cada negocio, grande o pequeño, necesita una ventaja competitiva para distinguirse de la competencia. En el mundo empresarial actual, cada ventaja cuenta para establecer tu negocio en la cima de la industria. Obtener una ventaja competitiva requiere una planificación estratégica, una investigación exhaustiva y una inversión en marketing.

bi-deusto.
Fuente: http://www.herisonsurbakti.com/2015/03/integrating-knowledge-management-and.html

1. Conozca lo que significa «ventaja competitiva».

Una ventaja competitiva es simplemente un factor que distingue a una empresa de las demás y hace que los clientes sean más propensos a elegir su producto sobre la competencia. Sin una ventaja competitiva, una empresa no tiene un método único para atraer clientes.

Una ventaja competitiva es una forma en que puede crear valor para los clientes que los competidores no pueden. Esto puede ser un costo más bajo, un servicio más rápido, un mejor servicio al cliente, una ubicación más conveniente, una mejor calidad u otros factores.

Por ejemplo, un restaurante que ofrezca la mejor comida de la ciudad (el mejor cocinero, el mejor cualificado, el chef más conocido o cualquier otra medida de calidad) tendría una ventaja frente a sus competidores al ofrecer un producto de mayor calidad.

Alternativamente, una empresa podría concentrarse en reducir los gastos generales y de producción para ofrecer un producto de calidad de mercado a un precio inferior al del mercado. Ser capaces de ofrecer este producto al precio que lo hacen sería su ventaja competitiva.

Crear una ventaja competitiva implica analizar las fortalezas de su negocio y las de sus competidores, y luego aprender cómo aprovechar estos factores.

  1. Trabaja para entender a tus clientes.

Identifique las cualidades demográficas de tu base de clientes. Si presta servicios a empresas, ¿a qué tipo de empresas vende habitualmente? Si atiende a individuos, ¿son generalmente jóvenes o viejos, hombres o mujeres, casados ​​o solteros? ¿Viven dentro de un radio de 0,5 km de tu negocio o 50 km? ¿Cuál es tu ingreso típico? ¿Son diferentes de los clientes de los competidores? Si no comprendes a tus clientes, no puede determinar por qué patrocinan tu negocio.

Avanza un paso más tratando de comprender a tus clientes a nivel personal. ¿Cuáles son sus pasatiempos? ¿Qué es lo que les importa? ¿Qué aspectos de su negocio o producto resuenan con ellos?

La información demográfica se puede descubrir a través de la interacción del cliente, encuestas o análisis de información del cliente.

  1. Examina las fortalezas únicas de tu negocio.

El examen de las fortalezas de tu empresa te permite saber en qué áreas puedes desarrollar para crear una ventaja competitiva. Pregúntate: «¿Por qué los clientes me compran a mí?» La respuesta a esta pregunta te ayudará a comprender qué valor les ofrece.

Por ejemplo, si posee un restaurante de comida china, la calidad de la comida, la ubicación o, quizás, la velocidad del servicio de entrega pueden contribuir a que un cliente te elija  sobre tu competencia.

No temas preguntarle a tus clientes directamente. Puedes hacer una encuesta para que la llene, o simplemente acércate a ellos, pero tu objetivo clave es descubrir por qué te eligen.

Si muchos clientes enumeran la ubicación, por ejemplo, puedes trabajar en otros aspectos de tu negocio para crear una ventaja aún mayor.

bi2 bi3

  1. Mira a tus competidores.

Una ventaja competitiva significa que debes ofrecer algunas cosas que tus competidores no tienen. Por lo tanto, necesitas saber qué es lo que hacen bien tus competidores y no lo hacen bien. Piensa en los productos, servicios, precios, ubicación y comercialización de tus competidores. Luego, compila una lista de todas las razones por las que sientes que un cliente elegiría el negocio de tus competidores.

Compara esto con tu lista de ventajas. ¿Qué puntos fuertes tienes que tu competencia no tiene? ¿Qué puntos fuertes tiene tu competencia que no tienes? Las áreas de fortaleza que tienes son las áreas en las que debes concentrarte para expandirte.

Recuerda que no debes ser un competidor «yo también» tanto como sea posible. Por ejemplo, si tu competencia tiene una receta por la que muchos clientes acuden a ese restaurante, simplemente imitar su receta no aumentará tu ventaja competitiva. En lugar de intentar copiar las ventajas de tu competidor, fortalece el tuyo para crear un conjunto único de fortalezas que no se puedan replicar.
Recuerda que tus competidores pueden incluir más que empresas similares. Por ejemplo, un restaurante chino compite con otros restaurantes chinos, pero también con otras opciones gastronómicas.

  1. Contratar a una empresa especializada en Big Data.

Cuanta más información tengas, más fácil será tomar decisiones sobre lo que funciona y lo que no.

El conocimiento detallado del cliente es tan importante como el conocimiento de la competencia. Obtener información detallada sobre tu cartera de clientes te permitirá maximizar el potencial de ingresos, aumentar la retención de clientes y estimular a los clientes potenciales.

Puedes usar el Big Data, una combinación de muchas herramientas y métodos para medir la percepción del consumidor y tu posición en el mercado y las posiciones de tus competidores. Junto con los recursos de información tradicionales de la compañía, considera las herramientas de análisis de redes sociales que permiten la exploración del consumidor a gran escala.

bi3

Esto es todo lo que nos aporta el campo del Business Intelligence como ventaja competitiva para nuestras organizaciones.

6 maneras en los que el sistema sanitario puede utilizar el Big Data

(Artículo escrito por Izaskun Larrea, antigua alumna de la promoción de 2016/17 en el Programa en Big Data y Business Intelligence en Bilbao)

El Big Data se ha instalado en una amplia gama de sectores. La asistencia sanitaria está preparada para grandes iniciativas de datos -como una de los servicios más grandes y complejos de la Unión Europea- hay un número increíble de aplicaciones potenciales para el análisis predictivo.

Mientras que algunas organizaciones de salud han comenzado a ver el valor en el uso de Big Data, la sanidad en su conjunto ha sido muy lenta en adoptar grandes iniciativas de datos por una serie de razones. Aquí hay sólo 6 de las muchas formas en que la atención sanitaria podría utilizar Big Data y por qué no están aprovechando su potencial máximo.

Sanidad y Big Data (Fuente: https://www.datanami.com/2015/08/26/medical-insight-set-to-flow-from-semantic-data-lakes/)
Sanidad y Big Data (Fuente: https://www.datanami.com/2015/08/26/medical-insight-set-to-flow-from-semantic-data-lakes/)

(1) Prevención de errores de medicación

Los errores de medicación son un problema serio en las organizaciones sanitarias. Debido a que los seres humanos cometen errores ocasionales (incluso algo tan simple como elegir el medicamento equivocado en un menú desplegable), los pacientes a veces terminan con el medicamento equivocado, lo que podría causar daño o incluso la muerte.

El Big Data puede ayudar a reducir estas tasas de error de forma espectacular mediante el análisis de los registros del paciente con todos los medicamentos recetados, y marcar cualquier cosa que parece fuera de lugar. MedAware, una Start Up israelí ya ha desarrollado este tipo de software, con resultados alentadores. Los registros de 747.985 pacientes fueron analizados en un estudio clínico, y de ellos, 15.693 fueron sospechosos de error. De una muestra de 300, aproximadamente el 75% de estas alertas fueron validadas, mostrando que el software podría ser una herramienta importante para los médicos, potencialmente ahorrando a la industria hasta 18 mil millones de euros por año.

Desafortunadamente, al igual que ocurre con muchas grandes iniciativas de datos en salud, hay algunos obstáculos para la adopción generalizada. Debido a la antigüedad de muchos sistemas de TI de atención médica, la implementación de estos dispositivos puede tardar en adaptarse. Además, los datos sanitarios son muy sensibles y las organizaciones tienen que ser muy cuidadosas con la seguridad y el cumplimiento de las regulaciones comunitarias.

(2)Identificación de pacientes de alto riesgo

Muchos sistemas de atención sanitaria tienen que lidiar con altas tasas de pacientes que recurren repetidamente al servicio de urgencias, lo que aumenta los costos de atención médica y no conduce a una mejor atención o resultados para estos pacientes.

Usando el análisis predictivo, algunos hospitales han sido capaces de reducir el número de visitas a urgencias identificando a pacientes de alto riesgo y ofreciendo atención personalizada centrada en el paciente.

Actualmente, uno de los principales obstáculos a superar en la identificación de pacientes de alto riesgo es la falta de datos. En general, hay simplemente muy pocos datos o están muy dispersos, lo que hace casi imposible obtener una imagen precisa de los riesgos reales.

(3) Reducción de los costos hospitalarios y de los tiempos de lista de espera

Existe un enorme potencial para reducir costos con Big Data en salud. También hay una oportunidad para reducir los tiempos de lista de espera, algo que cuesta dinero a todos. Un hospital en París está utilizando la analítica predictiva para ayudar con la dotación de personal. Al predecir las tasas de admisión en las próximas dos semanas, el hospital puede asignar personal sanitario basado en estos números.

Hay muchas maneras en que los hospitales podrían recortar costos usando analítica predictiva, pero pocas organizaciones lo han hecho todavía.

Los presupuestos de los hospitales son complejos y, aunque el potencial de retorno de la inversión (ROI) es alto, algunas organizaciones simplemente no están dispuestas a invertir en Big Data puesto que los resultados no siempre se ven a corto plazo.

(4) Prevención de incumplimientos de seguridad y fraude

Según un estudio, el sistema sanitario es 200% más propenso a experimentar una violación de datos que otras industrias, simplemente porque los datos personales son muy valiosos. Con esto en mente, algunas organizaciones han utilizado el Big Data para ayudar a prevenir el fraude y las amenazas de seguridad. Por ejemplo, los Centros de Servicios de Medicare y Medicaid (EEUU) fueron capaces de evitar un fraude de 210.7 millones de dólares en sólo un año usando análisis de Big Data.

Desafortunadamente, además de los beneficios preventivos del Big Data, también hay algunos grandes riesgos de seguridad. Muchas organizaciones se cuidan de hacerse más vulnerables de lo que ya son, lo que es comprensible teniendo en cuenta las regulaciones comunitarias de información del paciente.

(5) Mejorar el compromiso y los resultados de los pacientes

El interés del consumidor en dispositivos que monitorizan las medidas tomadas, las horas de sueño, la frecuencia cardíaca y otros datos muestran que la introducción de estos dispositivos como una ayuda médica podría ayudar a mejorar la participación y los resultados del paciente. Los nuevos portátiles pueden seguir tendencias de salud específicas y retransmitirlos de nuevo a la nube donde pueden ser monitorizados por los médicos. Esto puede ser útil para todo, desde el asma hasta la tensión arterial, y ayudar a los pacientes a mantenerse independientes y reducir las visitas innecesarias a los médicos.

Estos portátiles están desafortunadamente todavía comenzando, y las complicaciones con la seguridad, la compatibilidad del software, y otros obstáculos están limitando actualmente su utilidad.

(6)Uso generalizado de registros de Historia Clínica Electrónica

En general, la industria podría ahorrar hasta 400.000 millones de dólares al aprovechar adecuadamente el Big Data, pero la adopción es muy lenta.

La buena noticia es que la mayoría de los hospitales finalmente han cambiado a usar la historia clínica electrónica, lo que está haciendo más fácil para los profesionales de la salud un acceso más fácil a los datos. Este es un gran primer paso para facilitar la implementación de grandes plataformas de datos, ya que hay muchos más datos para trabajar. Sin embargo, con el enfoque cauteloso que muchos hospitales toman para cambiar, y un abrumador número de posibles aplicaciones, muchos administradores se sienten abrumados e inseguros de dónde empezar. Sin embargo, a medida que más organizaciones de salud trabajen con Big Data, esta práctica se convertirá en la norma en lugar de la excepción.

Business Intelligence vs. Torturadores de datos

(Artículo escrito por nuestra alumna Olatz Arrieta, de la 3ª promoción del Programa de Big Data y Business Intelligence en Bilbao)

Retomamos la actividad tras el verano iniciando mi tercer (y penúltimo) módulo del curso anual “Programa de Big Data y Business Intelligence” de la Universidad de Deusto. En esta primera sesión, de un breve repaso de conceptos clave de estadística quiero destacar una frase, que “cojo prestada” de la presentación de nuestro profesor Enrique Onieva, que me ha encantado porque es absolutamente cierta:

“Unos datos convenientemente torturados te dirán todo aquello que desees oír”

El arte de “torturar” datos lo manejan con maestría muchas profesiones como por ejemplo los periodistas, que encuentran soporte a los titulares que convenga publicar, o también por ejemplo (debo de reconocerlo), nosotros los consultores, en algunos informes de diagnóstico o selección. Porque es cierto que siempre encuentras en un conjunto de datos un punto de vista de análisis que refuerza tus argumentos, y a la contra lo mismo.

Por eso, en este mundo del Business Intelligence es tan crucial:

  • Tener claras las preguntas a responder, los objetivos perseguidos en el análisis de los datos, que a menudo requiere de una secuencia de preguntas que van de lo más general a lo más particular y que habitualmente te van obligando a enriquecer tu información con más datos de los inicialmente disponibles.

Así por ejemplo, no es lo mismo preguntarse:

“Qué producto/servicio se vende más” <-> “Con qué producto/servicio ganamos más”

“Qué máquina tiene más incidencias/averías” <-> “Qué máquina tiene más incidencias/averías por unidad de producción”

“Qué clientes hemos perdido” <-> “Qué clientes hemos perdido por nº de reclamaciones/incidencias registradas”

  • Conocer muy bien los datos a analizar: sus circunstancias de obtención, fiabilidad del dato, significado y relevancia de cada campo/atributo disponible, etc.

Resumiendo:

CALIDAD DEL ANÁLISIS=
CALIDAD DEL DATO
+
CALIDAD DEL GESTOR

data wrangling

Fuente: https://alumni.berkeley.edu/sites/default/files/styles/960×400/public/wranglingbigdata.jpg?itok=k0fK1fJQ

Un pequeño experimento con Deep Learning

(Artículo escrito por nuestro profesor Pedro Gómez)

Como muchos ya sabréis, Deep Learning no es sino un conjunto de algoritmos de Machine Learning que se caracterizan por emplear modelos de redes neuronales con muchas capas para lograr el aprendizaje deseado.
Para que funcionen de manera correcta, requieren de muchos ejemplos o datos a partir de los cuales los algoritmos puedan llegar a aprender de manera automática. También requieren de una gran capacidad de computación, por lo que en los últimos años han ido ganando importancia gracias entre otras cosas a la potencia de las GPUs.
La diferencia principal con el resto de técnicas de Machine Learning es que mientras las técnicas tradicionales requieren procesar primero los datos generando características de los mismos antes de aprender, las técnicas de Deep Learning consiguen realizar el aprendizaje deseado sin ese paso previo.
Algunas aplicaciones comunes del Deep Learning son:
  • Reconocimiento de imágenes
  • Detección de objetos
  • Sistemas de recomendación
  • Traducción de lenguaje
  • etc.
Mientras que otras menos conocidas pueden ser:
Por el lado del software, existen varios frameworks que nos permiten utilizar las técnicas de Deep Learning. Básicamente, cada proveedor de servicios en la nube ha creado su propio framework, como parte de su estrategia para competir por dichos servicios. Uno de los más conocidos es Tensorflow de Google: https://www.tensorflow.org/
Una de las ventajas de Tensorflow, es que tiene conexión con lenguajes de programación populares en el mundo del Machine Learning, como R y Python. En el caso del ejemplo que os voy a comentar, éste ha sido el framework que he utilizado.
Imaginemos que nos quisiéramos inventar nombres de personas nuevos en euskera. Para poder entrenar un modelo que pueda aprender un modelo de lenguaje, necesitamos ejemplos de nombres en euskera ya existentes. En este caso, he descargado la lista de nombres disponibles en Euskera separada por sexos:
Nombres de personas en euskera (Fuente: http://www.euskaltzaindia.eus/index.php?option=com_content&view=article&id=4161&Itemid=699&lang=es)
Nombres de personas en euskera (Fuente: http://www.euskaltzaindia.eus/index.php?option=com_content&view=article&id=4161&Itemid=699&lang=es)
Disponemos en este caso de 1529 nombres de hombres y 1669 de mujeres. La verdad es que son pocos, y para hacer un experimento más serio sería conveniente disponer de más datos. Quizás alguien disponga de un listado más completo.
Podemos intentar generar un modelo de Deep Learning que modelice la probabilidad de observar un nombre en euskera como la probabilidad conjunta condicional de cada una de las letras anteriores que aparecen en dicho nombre. Para entrenar este modelo en este caso he optado por una arquitectura de red denominada RNN, Recurrent Neural Network.
¿Será el modelo capaz de inventar nombres nuevos en Euskera a partir de los ya existentes? Os adjunto un listado de algunos de los nombres nuevos que he obtenido, ¿os suenan a nombres en euskera? Os aseguro que no figuran en la lista oficial de Euskaltzaindia:
Hombres Mujeres
Oñat Buga
Elaitz Abenle
Aldeka Hezua
Molen Auntzun
Xapebo Saiane
Odrin Durosi
Olaxo Guna
Etein Lenine
Lari Urparana
Agotz Manke
Enix Gatzide
Ereki Kalunia
Isteru Izia
Ortzo Emalene
Hiraso Niresku
Jariti Ozoitza
Nankin Irnen
Leniz Jenitz
Ultaz Erzui
Benitx Azkiloga
A mí al menos sí me parecen bastante euskaldunes!

Comunicando los resultados de Big Data eficientemente

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

¡Hacer predicciones no es suficiente! Los científicos de datos eficaces saben explicar e interpretar sus resultados y comunicar los hallazgos con precisión a las partes interesadas para tomar decisiones empresariales. La visualización es el campo de investigación que estudia la comunicación efectiva de resultados cuantitativos vinculando percepción, cognición y algoritmos.  Es necesario aprender a reconocer, diseñar y utilizar visualizaciones efectivas.

Como Data Scientist debemos explorar las consideraciones éticas sobre el Big Data y cómo estas consideraciones están comenzando a influir en la política y en la sociedad. Tenemos limitaciones en el uso de la tecnología para proteger la privacidad y los códigos de conducta que emergen para guiar el comportamiento de los científicos de los datos.

Las inferencias estadísticas del Big Data, heterogéneos y ruidosos son inútiles si no puede comunicarlos a sus colegas, a sus clientes, a su administración y a todas las partes interesadas, parece ir paradójicamente empeorando. Pero la reproducibilidad no es sólo para los académicos: los científicos de datos que no pueden compartir, explicar y defender sus métodos para que otros puedan construir son difíciles de entender. La importancia de la investigación reproducible y cómo el cloud computing está ofreciendo nuevos mecanismos para compartir código, datos, entornos e incluso costos que son críticos para la reproducibilidad práctica.

comunicación Big Data

Últimamente, he trabajado en una serie de proyectos que requieren la recapitulación del Big Data para desarrollar materiales de comunicación que transmiten mensajes clave con claridad y precisión.

Si bien el tipo y la cantidad de datos, las áreas temáticas y el público objetivo de cada pieza de comunicaciones varían, cada proyecto implica el uso de los siguientes pasos para producir piezas de comunicaciones efectivas en el Big Data:

  1. Evaluar la exactitud de tus datos. Ya sea porque esté explorado en Internet, interpretando un informe técnico de 100 páginas, analizando los datos de demostración reportados por el usuario o resumiendo los resultados de un trabajo, es importante hacer preguntas sobre tus datos. ¿Tus fuentes proporcionan información conflictiva que es contraria a lo que esperabas? Si es así, haz un poco de investigación adicional para resolver estos problemas y excluir cualquier fuente no confiable.
  2. Analizar lo que dice la información – Ahora que sabes que tus datos son más precisos, es el momento de organizarlo en categorías lógicas. ¿Cuáles son los principales bloques de información con los que se trata? ¿Tienes información cualitativa y cuantitativa? Una vez que tengas una mejor comprensión de la profundidad y amplitud de tus datos, puedes resumir con mayor facilidad los puntos clave de cada agrupación de datos.
  3. Determinar lo que es más importante para tu audiencia – Es fácil resumir todos los datos con los que estás trabajando, pero algunos datos son más importantes para tu audiencia que otros. ¿Alguno de tus puntos clave fue sorprendente o nuevo? Trate de encontrar tus puntos clave, preguntarse qué es significativo y por qué cada punto importa. Si tú no puedes llegar a una respuesta, es probable que el punto clave no debe ser incluido.
  4. Identificar el formato más significativo para la presentación de tus datos – Para aumentar la eficacia de tu análisis, este paso debe estar realmente en tu mente durante todo el proceso del análisis de datos. Es importante determinar qué formato de comunicaciones será más útil para tu audiencia, para que tu proyecto inspire acción en lugar de simplemente una exposición de información masiva. ¿Es probable que tu público realice físicamente un resumen ejecutivo o una hoja informativa? ¿Es probable que eliminen las páginas o el capítulo de un informe que más se relaciona con tu investigación? El propósito de la información debe determinar el formato de tu informe. Y por supuesto, no olvides que vivimos en una edad muy visual. Debemos de usar señales visuales para comunicar temas complejos.

Un análisis de datos eficaz requiere hacer el trabajo desde abajo para que nadie más en la organización se atasque con el Big Data. Tu audiencia no tendrá tiempo para luchar para determinar qué información es más importante. Es tu trabajo interpretar los datos para ellos.

Demanda laboral para expertos en Big Data

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

Data Scientist, ha sido elegida como mejor profesión en los EE.UU en el 2016 por el portal de empleo Glassdoor.

Aunque son las empresas tecnológicas como Microsoft, Facebook e IBM las que emplean a la mayoría de los científicos de datos, según un informe de RJ Metrics, estos profesionales también son demandados en otros sectores.

No es de extrañar que la mayoría de las personas que eligen esta profesión empiecen estudiando empresariales, economía, ciencia, tecnología, ingeniería y matemáticas, etc.  La contribución positiva del Big Data a la economía y competitividad en el mercado global de alta tecnología es innegable.

Es por eso que tantos estudiantes se están matriculando en universidades que ofrecen disciplinas en Big Data y Business Intelligence.  Esta especialización está vinculada a las empresas de más rápido crecimiento y al éxito de las carreras profesionales de sus trabajadores.

Muchas carreras del futuro dependerán en gran medida de los expertos en Big Data, que analizarán e informarán sobre los datos que se utilizan en última instancia como factores clave en la toma de decisiones para empresas y organizaciones en diversos sectores. Según el Computer Business Review, se prevé que el mercado de Big Data crecerá a 46.340 millones de dólares para el 2018 a medida que más y más empresas adopten nuevas tecnologías y una mentalidad digital.

Según la encuesta de Peer Research de Big Data Analytics de Intel, las organizaciones y los ejecutivos concluyeron que el Big Data es una de las principales prioridades para las empresas. El Big Data está presente en casi todos los aspectos de la vida cotidiana y una razón principal por la cual muchas empresas contratarán graduados con una especialización en análisis de datos.

En España, uno de los mayores retos en este terreno es contar con los profesionales adecuados para procesar, filtrar y extraer valor de todos estos datos. No en vano, las ofertas de empleo en el sector del Big Data aumentaron un 92% en 2015. Según el Observatorio de Empleo de Big Data y, en los seis primeros meses de este año, la demanda de científicos de datos creció un 45% en Europa, según la consultora Procorre. En países como Portugal, este porcentaje aumentó un espectacular 79% en esta primera mitad de 2016.

De acuerdo con las estimaciones realizadas por IDC, el mercado español de big data y analytics ha crecido un 6,3% con relación al mismo periodo del año pasado, alcanzando los 191 millones de Euros.  Esto corresponde a un aumento de más de 11 millones de euros, lo que revela el enfoque en el dato como una preocupación creciente de las empresas de este país.

Empleo y Big Data
Empleo y Big Data

España es el octavo país del mundo con más científicos de datos (2,02% del total, frente al 2,20% de Alemania o el 7,12% de Reino Unido) pero la demanda supera con creces la cantidad de profesionales cualificados existente. Por ello, tanto universidades como empresas privadas han comenzado a ofertar programas especializados en ‘data science’ que permitan cubrir este ‘gap’ formativo que existe en la actualidad.

En 2016 se ha producido un incremento generalizado del nivel salarial, destacando el fuerte auge para los perfiles Business Intelligence y Big Data donde el rango salarial ha aumentado a los 39.700 euros brutos anuales este año.

Por lo tanto, como dice Stephane Levesque, CEO de ticjob.es. “Es un buen momento para formarse y desarrollar la carrera profesional en Big Data debido a la escasez de perfiles, las buenas oportunidades profesionales y el nivel salarial ofrecido”.

Industria 4.0 y Big Data

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao

A pesar de su vida relativamente breve, el Big data está listo para optimizar la Industria 4.0. Algunas empresas están utilizando conjuntos de datos para mejorar y observar la producción, minimizar los errores de producción, gestionar los riesgos y optimizar la velocidad de montaje en la planta de producción. No sólo el Big Data puede ayudar a lograr una mayor eficiencia, sino que también puede conducir a un ahorro de costos en la línea de producción.

Mejoras en la cadena de suministros

A menudo se usa el Big Data para identificar, corregir y reducir los riesgos involucrados en la cadena de suministro. Procesos que incluyen la adquisición de materias primas, así como el almacenamiento y distribución de productos terminados presentan desafíos únicos que se pueden abordar a través del Big Data. Las cadenas de suministro más grandes y complejas serán más susceptibles que las estructuras más pequeñas, pero casi todas pueden beneficiarse de la gran recopilación y procesamiento de datos.

La cantidad de datos no es el único obstáculo a superar. Los fabricantes están ahora lidiando con más fuentes de datos y materiales que nunca. Los registros del centro de llamadas, el tráfico en línea, las reclamaciones de los clientes e incluso los mensajes en los medios sociales se utilizan para recopilar valiosos datos de los consumidores.

Aunque gran parte de esta información va actualmente a la cuneta, puede archivarse y utilizarse en el futuro para tomar decisiones de negocios, establecer objetivos organizacionales y mejorar el servicio al cliente.

Mejora en la comunicación

También se puede utilizar el Big Data para reforzar las comunicaciones entre los compañeros de trabajo, los consumidores e incluso sus máquinas de producción. Industrial Internet of Things (IIoT) ha generado una amplia red de dispositivos y equipos interconectados.

Tanto las materias primas como las piezas acabadas pueden ser etiquetadas con chips inteligentes RFID, que informan sobre su ubicación exacta y su estado físico en cualquier momento durante el proceso de producción o envío. Las máquinas de autodiagnóstico pueden evitar problemas adicionales y evitar lesiones personales mediante el apagado automático para mantenimiento o reparación. Todas estas características tienen el potencial de eficiencia y ahorro de costos que los primeros pioneros de la industria no habrían podido imaginar en sus mejores sueños.

Aumento de oportunidades de capacitación

Una de las aplicaciones más obvias y beneficiosas de la gestión del Big Data, se puede ver en la formación de su personal. Una gran cantidad de nuevos roles son necesarios para acomodar los proyectos Big Data.

Aparte de proporcionar más oportunidades para los empleados motivados, Big Data también se puede aprovechar para fortalecer y la eficacia de sus programas de formación actuales. Al recolectar y monitorizar los datos relacionados con el desempeño individual de los trabajadores, la productividad general, o la revisión del currículum cuando sea necesario. Esto le permite enfrentar mejor las debilidades y las refuerza con formación y entrenamiento. Los resultados pueden ser comparados y contrastados entre diferentes departamentos, competidores y la industria en general.

Los fabricantes que trabajan con Big Data, cosechan las mayores recompensas, mejoras en su cadena de suministro, comunicaciones más sólidas entre compañeros de trabajo y socios y obtienen más oportunidades de capacitación.

Esto es sólo el comienzo de lo que puede ofrecer el Big Data a la Industria 4.0.

Evolución de la industria hacia la 4.0: ¿qué aporta el Big Data?
Evolución de la industria hacia la 4.0: ¿qué aporta el Big Data?

¿Cómo el Big Data puede cambiar la atención sanitaria en el Servicio Vasco de Salud?

(Artículo escrito por Izaskun Larrea, alumna de la promoción de 2017 en el Programa en Big Data y Business Intelligence en Bilbao)

Si desea averiguar cómo el Big Data está ayudando a conseguir un mundo mejor, no hay mejor ejemplo que los usos que se encuentran en la atención sanitaria.

La última década ha sido testigo de enormes avances en la cantidad de datos que habitualmente generamos y recopilamos, así como nuestra capacidad de utilizar la tecnología para analizarla y entenderla. La intersección de estas tendencias es lo que llamamos «Big Data» y está ayudando a las empresas de todas las industrias a ser más eficientes y productivas.

La asistencia sanitaria no es diferente. Además da mejorar los beneficios y reducir los gastos generales, Big Data en la atención sanitaria se utiliza para predecir epidemias, curar enfermedades, mejorar la calidad de vida y evitar muertes evitables. Con la población mundial en aumento y con la población cada día más longeva, los modelos de tratamiento están cambiando rápidamente, y muchas de las decisiones están siendo impulsadas por los datos. Actualmente, la necesidad es saber cada día más sobre los pacientes, desde que nacen –  recogiendo señales de advertencia de una enfermedad grave en una etapa suficientemente temprana para que el tratamiento sea más eficiente que si no hemos precedido los antecedentes del individuo.

Así que para crear un proyecto Big Data en la atención sanitaria, vamos a empezar por el principio – antes de que se detecte la enfermedad.

Pacientes que reciben el alta en hospitales
Pacientes que reciben el alta en hospitales

Es mejor prevenir que curar

Los teléfonos inteligentes fueron sólo el comienzo. Con las aplicaciones que les permiten ser utilizados como podómetros para medir cuánto caminas en un día, a los contadores de calorías para ayudarte a planificar tu dieta, millones de nosotros estamos utilizando la tecnología móvil para conseguir un estilo de vida saludable. Más recientemente, ha surgido un flujo constante de dispositivos portátiles dedicados como Fitbit, Jawbone y Samsung Gear Fit que permiten realizar un seguimiento de su progreso y cargar sus datos para ser recolectados junto con los demás datos.

En un futuro muy cercano, podremos utilizar estos datos con su médico quien lo utilizará como parte de su caja de herramientas de diagnóstico. Incluso aunque no esté enfermo, el acceso a las bases de datos de Big data, conseguir la información sobre el estado de la salud los pacientes de Osakidetza permitirá que los problemas sean afrontados antes de que ocurran, y se tomen decisiones terapéuticas o educativas, permitiendo que Osakidetza consiga información privilegiada.

Estos proyectos de Big Data, a menudo son creados por asociaciones entre profesionales médicos y de Big Data, con la prioridad de mirar hacia el futuro e identificar problemas antes de que sucedan. Un ejemplo recientemente creado es el proyecto Pittsburgh Health Data Alliance, que pretende tomar datos de diversas fuentes (tales como registros médicos y datos genéticos e incluso uso de medios sociales) para dibujar un cuadro completo del paciente.  Con el fin de ofrecer un paquete de atención médica adaptada.

Los datos de los pacientes no serán tratados aisladamente. Se comparará y analizará junto a  otros, destacando amenazas y problemas específicos a través de patrones que surgen durante el análisis. Esto permite que con este sofisticado modelo predictivo que se crea, un médico será capaz de evaluar el resultado probable de cualquier tratamiento que él o ella está considerando, respaldado por los datos de otros pacientes con las mismas condiciones, factores genéticos y estilo de vida.

Programas como este son el intento de la industria para hacer frente a uno de los mayores obstáculos en la búsqueda de la salud basada en Big Data: la industria médica recolecta una gran cantidad de datos, pero a menudo se encuentra en archivos y controlados por diferentes direcciones médicas, hospitales, clínicas, y los departamentos administrativos.

Otra asociación es entre Apple y IBM. Las dos compañías están colaborando en una gran plataforma de salud de datos que permitirá a los usuarios de iPhone y Apple Watch compartir datos con el Servicio de Salud Watson Health de IBM. El objetivo es descubrir nuevos conocimientos médicos a partir de cruzar en tiempo real la actividad y los datos biométricos de millones de pacientes potenciales.

En conclusión, existe un gran potencial para desarrollar una atención sanitaria más selectiva, de amplio alcance y eficiencia mediante la explotación del Big Data. Sin embargo, también se ha demostrado que el campo de la salud tiene algunas características muy específicas y desafíos que requieren de un esfuerzo dirigido y de la investigación para alcanzar todo su potencial.