Predicción Colectiva vs Big Data: ¿existen los super-pronosticadores?

Share Button

Tejiendo el pronosticoDesde hace un tiempo leo artículos de Emile Servan-Schreiber, co-fundador de Lumenogic e Hypermind, y un reputado experto mundial en Mercados de Predicción. Tuve la oportunidad de decírselo y compartir con él un rato esta semana en la 2015 Collective Intelligence Conference. Me gustaban sus artículos porque eran tan directos y elocuentes como he visto que es en persona. Lumenogic es una empresa que promete resolver problemas complejos usando mecanismos de inteligencia colectiva como: mercados de predicción, concursos de ideas, crowdsourcing y técnicas de visualización de datos, entre otros. Hypermind, por su parte, es un proyecto nacido de Lumenogic que se dedica a la predicción de tendencias, acontecimientos o eventos basándose en la inteligencia colectiva de una multitud o “Crowd” formada por super-pronosticadores que la empresa selecciona siguiendo unos determinados criterios.

Lo más interesante de la charla de Servan-Schreiber es su tesis, ya avanzada en sus artículos, de que el Big Data está sobrevalorado en muchas situaciones. Para ilustrarlo utiliza una conocida broma acerca de una persona que ha perdido las llaves del coche y se pone a buscarla en los sitios del suelo donde refleja la luz de la calle. Después de un rato de no encontrarla, un policía le pregunta por qué no amplía su búsqueda a otros lugares, y él responde: “Porque es ahí donde da la luz“. Pues bien, la obsesión actual con el Big Data recuerda en parte este efecto de la luz de la calle, o sea, la tendencia a buscar respuestas donde es más fácil buscarlas, que es algo que no mejora la probabilidad de encontrarlas.  Por eso, según el autor, la Inteligencia Colectiva puede proporcionar las “gafas de visión nocturna” que se necesitan para ampliar el espacio de búsqueda.

La eficacia del Big Data depende del tipo de datos que se procesen, y para eso Servan-Schreiber usa un esquema que ayuda bastante a entender las distintas opciones que existen. La figura aparece a continuación:

Esquema dos ejes sobre Big Data

Como se ve, se pueden dar cuatro situaciones distintas, según el cuadrante en que encajen:

  1. Si hay pocos datos y son “no-estructurados” (o sea, analógicos, ruidosos, implícitos o tácitos, desordenados), lo mejor es que los interprete una persona, o un grupo muy pequeño de analistas.
  2. Si hay relativamente pocos datos y son “estructurados” (digitales, explícitos, ordenados, agregables), entonces conviene procesarlos con un programa de ordenador.
  3. Si hay muchos datos y son “no-estructurados”, la solución óptima es que se procesen por un colectivo grande de personas, es decir, por “inteligencia colectiva”.
  4. Sólo si hay muchísimos datos y son “estructurados”, tiene sentido apelar a soluciones de Big Data.

Por otra parte, cuando el objetivo es mirar hacia el futuro, los enfoques de Big Data suelen ser especialmente frágiles porque los datos disponibles están asociados al pasado y solo funcionan si se está tratando de predecir algo que es similar a lo que ocurrió antes. Por ejemplo, una línea de productos maduros en un mercado estable. Pero puede fallar estrepitosamente si el análisis toca hacerlo para nuevos productos en mercados disruptivos.

Si no hay un comportamiento que responda a determinados patrones (o sea, modelizable a través de algún algoritmo), parece ser que la “predicción colectiva” que puede hacer un grupo grande de personas preparadas funciona mucho mejor que la solución tecnológica que prometen las supercomputadoras con el Big Data.  Por ejemplo, en predicciones políticas, la sabiduría de las multitudes es capaz de agregar una gran cantidad de información – datos no estructurados – proveniente de un conjunto muy diverso de opinantes, cada uno de los cuales hace una elección única, algo que está fuera del alcance del algoritmo estadístico más sofisticado. Servan-Schreiber presentó en la Conferencia una comparativa que demostraba que las predicciones realizadas para elecciones estatales y al senado en EEUU por Hypermind fueron mejores que las de los siete principales modelos estadísticos basados en Big Data que se citan con más frecuencia en ese país, incluidos los del Washington Post, New York Times, PredictWise y otros.

Pero, ¿Cómo funciona Hypermind? Sus decisiones de predicción se toman por un extenso panel de pronosticadores de alto nivel meticulosamente seleccionados entre los mejores de su categoría. Aquí voy a compartir varias reflexiones interesantes sobre este modelo:

  1. Trabajan con paneles formados por unos mil pronosticadores, así que podemos hablar aquí de “Wisdom of Crowds”, porque 1000 personas son, sin duda, una “multitud”.
  2. Se incentiva a los participantes para que se informen y tomen sus decisiones en base a un análisis riguroso de las opciones posibles.
  3. No es una “multitud” cualquiera, sino una formada por personas competentes, convenientemente elegidas. Jugando con la contradicción (que no tiene por qué serlo), podemos decir que es una “multitud-de-expertos”.
  4. Son “expertos” pero no del tipo que uno cree, especializados en el tema que van a predecir, sino “super-pronosticadores”, o sea, expertos en (el arte y la ciencia) de predecir.

Me voy a detener en este último punto porque creo que es lo más sorprendente del enfoque de Hypermind, aunque coincide con las lecciones extraídas de un proyecto icónico en su tipo que lanzó el gobierno de Estados Unidos: “Good Judgment Project”.

Pero, a ver, ¿se puede ser “experto pronosticador” de cualquier cosa? Según los estudios realizados, y siempre en el contexto en el que estamos hablando, la respuesta es SÍ. Parece ser que el grado de precisión en las predicciones no se explica tanto por lo que la gente sabe sino por la forma en que la gente piensa [“how you think => what you know”]. Importan más las habilidades para resolver problemas, los conocimientos generales, y la capacidad de cuestionarse las creencias, que la especialización y experiencia que tenga el pronosticador acerca del campo objeto del pronóstico. Eso explica, según Servan-Schreiber, que las predicciones geopolíticas consolidadas de varios cientos de aficionados, armados únicamente con herramientas de búsqueda en Google, pueden rivalizar o superar a las previsiones de una comunidad formada por analistas profesionales con acceso a información clasificada.

El máximo de pronosticadores en Hypermind se limita a 2000 y la selección es competitiva, basada en rendimiento probado. El peor 15% (según las predicciones que hicieron) deja su lugar para que entren nuevos panelistas de la lista de espera. Los participantes son recompensados ​​en proporción a la calidad de sus predicciones. A más precisa es, más proporción de los premios obtienen. Según entendí, las recompensas en efectivo se cobran por los participantes en forma de certificados de regalos de Amazon. Hypermind empaqueta las predicciones colectivas de su panel-élite y las vende a los clientes (agencias gubernamentales y empresas) que necesitan pronósticos precisos y oportunos.

Nota: La imagen del post pertenece al album de Kim Piper Werker en Flickr

 

Share Button

5 Comments

  1. En el gráfico de los cuadrantes parece que Big Data está cada vez ganando más terreno en gran cantidad de datos y desestructuración grande. A fin de cuentas lo que promete es pasar de desestructurado a estructurado vía aislamiento de variables sobre las que luego el humano decide si le son relevantes, ¿no? Digo porque así parece entenderse hoy en día.

    • Amalio Rey says:

      Julen, no se si he entendido bien tu comentario. Desde mi ignorancia, no creo que se pueda pasar de “datos no estructurados” a “estructurados” aislando variables, como tú dices. Los datos tienen una naturaleza propia, son estructurados o no lo son.
      Lo que yo pongo en duda (y el experto de Hypermind) es que prometen usar el Big Data para cualquier cosa, incluyendo datos “no estructurados”, donde se ha visto que pierde bastante eficacia.
      Te agradezco que me des más detalles, porque suena interesante

  2. Yo no e si la Inteligencia colectiva gana eficacia analizando datos estructurados o no estructurados. Realmente lo que me cuesta es diferenciar los datos que son estructurados, de lo que no.
    Lo que si tiendo a pensar es que la Inteligencia colectiva siempre gana cuando lo datos a analizar resulten demasiado complejos para el Big Data. Es decir, interpretaciones o predicciones sobre datos, hechos y elementos que no se puedes entrar a juzgar si no es con el conocimiento humano tacito(Michael Polanyi) e inseparable del ser.
    Por eso las predicciones sociales, políticas, religiosas y de otras disciplinas tan intimamente vinculadas a creencias, moral, experiencia, principios, tendencias: son mas propias del objeto de la inteligencia colectiva ya que el BIG Data en ellas fracasaría porque solo utiliza y analiza el conocimiento explicito.
    Esta por ver si la Inteligencia Colectiva es mas eficaz tambien en la predicción de patrones económicos, ya que estos tambien están intimamente ligados al factor humano cuando el Big Data lo ignora. No todo es matematico o científico y ahí es donde el Big Data deja de ser eficaz en sus predicciones.

    • Amalio Rey says:

      Hola, Juan:
      Cuando hablamos de datos “no estructurados” nos referimos precisamente a datos asociados más a conocimiento tácito. En cambio, los datos “estructurados” consisten en información taxonomizada, taggeada, estandarizada, comparable y combinable, que ha pasado antes por un proceso de depuración estadística que permite agregarla porque son códigos explícitos. Efectivamente, como bien explicas, las creencias o la experiencia, son mera “prosa” para el big data. OJO, también es cierto que con los avances en la web semántica (Ver Pierre Levy y su metalenguaje IEML: http://www.amaliorey.com/2015/04/14/pinceladas-con-pierre-levy-y-su-metalenguaje-ieml-post-452/) es posible que podamos reducir esta dificultad, pero yo no lo veo nada claro. El Big Data falla como una escopeta de feria cuando se termina “lo matemático”, asi que situaciones donde los argumentos de “economía conductual” explican bien los fenomenos, es mejor no confiar mucho en las maquinas. Gracias por aportar tu punto de vista

  3. Hola Amalio Rey:
    Me gustó mucho este post, me ha ayudado a entender mejor estos conceptos y me ha motivado a seguir estudiando.
    Gracias por compartirlo y sigue así paisano que has logrado muchos ‘exitos con tu blog y con tus conocimientos. Ojalá algún día yo pueda estar a tu altura, para eso estoy trabajando y aprendiendo.
    Saludos

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*