Archivo de la etiqueta: bayes

Cuándo y por qué puede fallar un modelo predictivo

Las pasadas elecciones americanas, han vuelto a poner encima de la mesa un debate que parece ya clásico: los (supuestos) fallos de las encuestas. El debate también salió con la infravaloración que se hizo a la victoria del Partido Popular el pasado 26-J, el “sorpasso” que las encuestas vaticinaron o en el Brexit.

Las encuestas, como modelos que son, son una aproximación a la realidad. Lo que suele fallar en esos modelos de aproximación no son tanto los métodos predictivos empleados, sino cómo se pondera la idea de la incertidumbre. Y es que estos ejercicios de adelantarnos a lo que puede ocurrir en un futuro (predecir), nunca borran ni eliminan la incertidumbre. El mundo es así, no es lineal.

Lo que ocurre es que nuestra mente no funciona bien bajo incertidumbre, por lo que la encanta utilizar las predicciones como una idea cerrada y segura. Así manejamos la información con más facilidad, reducimos nuestra fatiga cognitiva,  y podemos conversar sobre los temas con más facilidad con la gente.

Pero los modelos predictivos, como decía, no son tan sencillos. Ni los modelos estadísticos para tratar de hacer una previsión de los resultados electorales, ni los que tratan de predecir qué ocurrirá en la economía o con la meteorología. Siempre habrá incertidumbre.

Miremos el caso de las elecciones americanas para ilustrar la idea de cuándo y por qué puede fallar un modelo predictivo. Cuando hablamos del Teorema de Bayes, ya dijimos que predecir consta de tres partes constituyentes:

  1. Modelos
  2. Calidad de datos
  3. Juicio humano

Vayamos por partes. Los modelos. Ningún modelo es perfecto, el famoso aforismo de la estadística (“All models are wrong“) de George Box que citó en este artículo de 1976. A sabiendas que la ciencia política llevada décadas estudiando el campo, que hay gente realmente buena detrás construyendo modelos predictivos (FiveThirtyEight, Predictwise, etc.), no tengo la sensación de que fuera un problema metodológico de captura de mecanismos -atributos, variables predictoras- de elección de presidente (comportamiento de los diferentes estados, variables económicas y sociales, momentum, ruido social, etc.).

No obstante, como señala este reportaje de New York Times, es posible y probable que los modelos no recogieran bien cómo Trump desplazó el debate a la derecha y ganó en zonas rurales el gran soporte urbano que tenía Clinton. Aquí juegan otros elementos (el mecanismo de asignación de electores), pero entiendo eso sí estaba recogido. Como veis, más incertidumbres que certezas. Pero esto es lo que tiene hacer modelos; a posteriori te das cuenta, pero a priori es difícil estimar las mejores variables a incorporar.

Modelo predictivo de fivethirtyeight.com
Modelo predictivo de fivethirtyeight.com

En segundo lugar, los datos en sí. De su calidad y su vital importancia, también hemos hablado mucho por aquí. Evidentemente, en un proceso electoral en el que cada vez los medios digitales tienen mayor protagonismo, es un candidato este eje a ser considerado. La falta de veracidad de las respuestas de las encuestas (no sea que alguien se entere que voy a votar a Trump, incluso un fallo de memoria, por las prisas con las que se suele responder), el sesgo de respuesta (te respondo a lo que tú me preguntas, no más), sesgos muestrales (¿cómo preguntar a todos a sabiendas de la ausencia de uso de medios digitales o telefónicos en muchos casos?, aquí es donde entraría el margen de error), etc. Es por todos estos problemas de los datos por los que cada vez hay más “cocina” o corrección de las respuestas por quién lo ha podido preguntar/hacer la encuesta. Por otro lado, no olvidemos la cada vez mayor importancia de las redes sociales, donde los efectos de red son difíciles de recoger todavía a nivel metodológico. Por todo esto, es probable que los datos que lleguen a los modelos, no sean los mejores en estos momentos. Y que haya mucho que mejorar aún en toda esta parte.

En tercer y último lugar, esta la interpretación de los resultados que ofrece un modelo. Es decir, el juicio humano. Como decíamos al comienzo, es difícil en ocasiones, en un modelo predictivo, explicar a la gente que todo lo que aquí se “modeliza” es una aproximación a una realidad mucho más complicada que lo que un modelo representa. Esa diferencia, ese gap, es lo que ponderamos con la incertidumbre. Como no sabemos lo que va a ocurrir con 100% de certeza, lo expresamos. Un intervalo de confianza del 95%, no garantiza, obviamente, nada. Este valor quiere decir que de cada 20 muestras sobre esa misma población (el electorado americano), 19 veces, el valor a predecir (el resultado electoral), estará contenido en el modelo. Solo se “fallará” (que tampoco es un término del todo correcto en este  contexto), en 1 de cada 20 ocasiones. ¿Puede ser este el caso de la victoria de Donald Trump o el resto de situaciones explicadas al comienzo? Es posible y probable.

Como ven, hacer un modelo predictivo no es un tarea sencilla. Por ello, es bueno manejar esta terminología básica de elementos críticos a considerar para saber muy bien lo que se está haciendo. En nuestros Programas de Big Data, por eso empezamos siempre hablando de modelado y calidad de datos, para luego empezar con la estadística y los modelos de aprendizaje supervisado y no supervisado (Machine Learning). No todo es software, claro.

Bayes y la inteligencia colectiva para predecir sucesos (fútbol, catástrofes aéreas, política, etc.)

Kenneth Arrow, premio Nobel de Economía en 1972, y experto en predicciones económicas dijo aquello de:

“El buen pronóstico no es el que te dice que lloverá, sino el que te da las probabilidades”.

Esto es algo que suelo comentar a la hora de hablar de predicciones. No tienen más que abrir muchos titulares de periódicos para darse cuenta que la ausencia de la estimación de probabilidades es palpable. Y eso a pesar que nada es seguro hasta que ocurre y que la probabilidad cero no existe. La certeza y la magia debieran quedar excluidas de nuestra  manera de ver el mundo.

Por todo ello, quiero hablar hoy de cómo poder manejarnos en este mundo de la incertidumbre, asignando probabilidades a las diferentes alternativas que puede tomar un determinado suceso. De esta manera, podremos ayudar a las empresas, organizaciones e individuos a asignar eficientemente recursos en múltiples situaciones. Y, como solemos decir en el mundo del Big Data, tomar mejores decisiones.

Predecir consta de tres partes:

  1. Modelos dinámicos
  2. Análisis de datos
  3. Juicio humano

En el mundo de las predicciones, las empresas han solido llevar la delantera. Básicamente, porque trabajan en mercados. Los economistas suelen decir que los mercados proporcionan 1) incentivos para buscar información; 2) incentivos a revelar la información; y 3) un mecanismo para agregar información dispersa. Por eso solemos tener todos un amigo empresario al que solemos preguntarle por el desenlace de  muchas cuestiones que nos pueden afectar.

Primero, hablemos de probabilidades. Supongamos que estamos con un amigo intentando predecir la cara que saldrá al tirar la moneda al aire. Intuitivamente, todos nosotros podemos pensar que la probabilidad de que salga cara es de 0,5. Y que incluso esto es un concepto “absoluto”, en el sentido que todos deberíamos pensar lo mismo. Esto es lo que se denomina una interpretación frecuentista de la probabilidad, y es la que ha sido predominante a lo largo del Siglo XX, con Ronald A. Fisher a la cabeza.

Sin embargo, hay otro enfoque, algo más antiguo. Y es una en la que ese 0,5 se le da un carácter subjetivo, dado que un jugador puede esperar una mayor o menor probabilidad. Este enfoque fue mayoritario en el Siglo XIX, con Pierre-Simon Laplace al frente. Y esta subjetividad en la interpretación de la probabilidad se la debemos al Teorema de Bayes. Dado que en muchas ocasiones, para predecir, tenemos un conocimiento limitado, la probabilidad es la expresión matemática de ese conocimiento. Es decir, que yo “no puedo predecir con un 50% de probabilidades que saldrá cara“, sino que diría “basándome en el conocimiento que tengo, hay un 50% de  certeza que saldrá cara“.

El auge de los métodos Bayesianos, especialmente, por la irrupción del Big Data (que trae nuevo conocimiento), está provocando que mucha gente cambie la forma de afrontar estos problemas, dado que Bayes no solo es una fórmula, sino también una manera de afrontar predicciones y situaciones. Consiste en que a nueva información (recibida), nueva probabilidad (estimada). Según vaya obteniendo nueva información, mejoro las probabilidades iniciales que tengo. A más información, más probabilidad puedo estimar. De ahí la relación con el Big Data, claro.

Ha habido casos muy “populares” de la aplicación del teorema de Bayes en los últimos tiempos: la búsqueda del avión perdido de Malaysia Airlines y las probabilidades de su ubicación, la localización del vuelo de Air France que cayó en el Atlántico tras dos años gracias a Bayes (explicado en este paper), o cómo iba a quedar el España – Italia durante el propio partido de la Eurocopa (como dijimos, el fútbol usa mucho esta información).

Probabilidades de encontrar los restos del vuelo de Air France (Fuente: https://www.technologyreview.com/i/images/AF447.png?sw=590)
Probabilidades de encontrar los restos del vuelo de Air France (Fuente: https://www.technologyreview.com/i/images/AF447.png?sw=590)

Uno de los campos donde más interés puede tener ahora mismo Bayes es en de la aplicación de la inteligencia colectiva para predecir sucesos. Cuando la predicción de un resultado/suceso se vuelve compleja, el enfoque de la “inteligencia colectiva” sugiere agregar información dispersa y heterogénea. En ese proceso de agregación, quitamos el “ruido”, dado que todo paquete de información se compone de una parte veraz (señal) y de ruido (aleatorio) -la Teoría de la Información de Shannon de 1948-.

Así, de esta agregación de predicciones subjetivas de una realidad, nace un nuevo “mercado de predicciones”. Algunos autores prefieren llamarlos “mercados de información”, dado que reflejan una mejora de la información disponible gracias a la “sabiduría de las masas”. Otros los llaman “mercados de futuros de ideas” o “mercados de decisiones”, reseñando así el valor que tiene.

Estos mercados se basan en la teoría de la “sabiduría de las masas”. Esta, fue descubierta en 1906 por el estadístico Francis Galton (que también bautizó conceptos como la correlación o la regresión a la media). Su tesis fue aparentemente sencilla: la predicción de un grupo de personas expresada como un todo, mejora la precisión de cualquiera de sus partes por separado. En el libro “The Wisdom of Crowds” de James Suroweicki, en 2004, esta teoría fue impulsada de nuevo, gracias a sus postulados sobre cuándo esta puede funcionar y cuándo no. James, expone que existen tres tipos de problemas que pueden ser resueltos por la inteligencia colectiva:

  1. Problemas cognitivos (siempre tienen una solución, o, en su defecto, hay unas respuestas mejores que otras);
  2. Problemas de coordinación (los miembros de un grupo se ven en la necesidad de armonizar su comportamiento con el del resto de la gente);
  3. Problemas de cooperación (personas que buscan satisfacer el propio interés se ven en la necesidad de lidiar con los demás para obtener una solución que sea buena para todos).

A nivel estadístico, lo que ocurre es que si se agregan apropiadamente la visión de muchas personas, el ruido queda compensado con el ruido, y nos quedamos con la señal. Es una teoría realmente útil y eficiente, pero que requiere de la heterogeneidad de las fuentes, la toma de decisiones independientes y un buen proceso de agregación de información. De ahí que este enfoque científico sea utilizado por las empresas con mucho rigor cuando se juegan millones de dólares con sus apuestas. En el el mercado de predicciones, estos requisitos se garantizan habilitando un mercado bursátil a la hora de incentivar a los participantes a aportar solamente la mejor información disponible, puesto que los beneficios o pérdidas irán a parar directamente a ellos.

En España, como mercado de predicciones que funciona y marca tendencias, está FuturaMarkets.com como uno de los más conocidos. El precio indica la probabilidad de que un determinado evento ocurra. Los participantes, compran o venden acciones si creen que la probabilidad real es distinta. Y esto es lo que hace fluctuar el mercado, y estas “predicciones de las masas que tienen los incentivos adecuados para acertar” (dado que ganarán dinero) es lo que hace que sean mercados con mucha capacidad informativa. No me deja de sorprender que no se use  más, por ejemplo, en telediarios o en medios de comunicación. Ahora mismo podemos ver qué se opina sucesos tan diversos como la presidencia de Brasil, la salida del Reino Unido de la UE, el paro en España o el regreso de Telepizza a España:

Mercado de predicciones en Futura Markets (Fuente: http://www.futuramarkets.com/)
Mercado de predicciones en Futura Markets (Fuente: http://www.futuramarkets.com/)

Como vemos, Bayes está de vuelta. Y la utilización de su enfoque para un “mercado de predicciones” abre un mundo muy interesante y de utilidad para los próximos años. Y en todo ello, el Big Data, con sus técnicas de agregación de datos heterogéneos, juega un papel clave.

Bayes y la inteligencia colectiva al servicio de la predicción en la era del Big Data. ¿A qué esperamos para seguir sacando provecho de ella?