popper | mvadillo.com

Conforme a la teoría de la gravedad de Newton, los planetas deberían recorrer una órbita elíptica alrededor del sol. Curiosamente, Urano no se mueve así. Su órbita es aproximadamente elíptica, sí, pero aquí y allí se desvía de forma caprichosa del que debería ser su curso normal. Cuando los astrónomos del siglo XIX lo descubrieron, supongo que alguno se llevaría las manos a la cabeza. Si hubieran estudiado el falsacionismo de Karl Popper, sin duda habrían llegado a la conclusión de que la teoría de Newton debía ser incorrecta. Pero ninguno de ellos dio este paso. En lugar de ello, asumieron que si Urano se comportaba de forma extraña y si la teoría de Newton era cierta, entonces debía haber cerca algún cuerpo desconocido de gran tamaño cuya masa influyera en la órbita de Urano. Así se descubrió Neptuno.

Esta historia tiene interesantísimas repercusiones para entender cómo evoluciona (y cómo debería evolucionar) la ciencia. Primero, nos enseña que hay que tener cuidado a la hora de interpretar los datos porque lo que parece consistente o inconsistente con una teoría a menudo admite otras interpretaciones. A veces creemos que unos datos nos dicen algo sobre una teoría (en este caso, la teoría de la gravitación universal de Newton), pero en realidad nos están diciendo algo sobre otra teoría (en este caso, la teoría obsoleta de que sólo había siete planetas en el sistema solar). Segundo, nos enseña que aunque haya que mantener la mente abierta ante los nuevos datos, a menudo también merece la pena persistir en el intento de mantener explicaciones sencillas incluso para los hechos que inicialmente parecen desafiarlas.

Pensando en aquellos astrónomos que no renunciaron a la teoría de Newton ante la primera adversidad, es sencillo entender por qué los psicólogos actuales también miran con escepticismo las recientes “demostraciones” de percepción extrasensorial que el pasado 2011 publicó Bem en un artículo que ha sembrado la polémica. El diseño de los experimentos es ciertamente audaz y confieso de antemano que despierta todas mis simpatías. En realidad, se trata nada menos que de nueve experimentos que utilizan técnicas completamente diferentes, pero cuyos resultados convergen en la conclusión de que en determinadas condiciones las personas pueden ser sensibles a eventos que aún no han sucedido.

Uno de mis experimentos favoritos se basa en una inversión temporal de un experimento típico de priming afectivo. En los experimentos normales de priming afectivo se observa que el tiempo que se tarda en juzgar si una palabra (como, por ejemplo, “flor”) es positiva es menor si justo antes se presenta muy brevemente otra palabra que también es positiva (como, por ejemplo, “vacaciones”). Nada sorprendente hasta aquí. Lo interesante de los experimentos de Bem es que obtiene efectos similares incluso cuando se invierte el orden en el que se presentan los estímulos. Es decir, que nos cuesta menos decir, por ejemplo, que la palabra “flor” es positiva, si después de nuestra respuesta se presenta muy brevemente la palabra “vacaciones”. Estos resultados son tan asombrosos que cuesta describirlos asépticamente sin utilizar signos de admiración. El resto de experimentos de Bem son muy diferentes, pero la característica común de todos ellos es que el comportamiento de los participantes se ve influido por estímulos que aún no ha visto en ese momento. De ahí el nombre del polémico artículo: Feeling the future. Impresionante, ¿verdad?

Amparándose en estos resultados muchos dirán que a la psicología científica no le queda más remedio que rendirse ante la evidencia de estas pruebas a favor de la percepción extrasensorial. Pero nada más lejos de la realidad. Los psicólogos siguen en sus trece y su escepticismo no se ha rebajado ni un ápice. Y creo que actúan con la misma sabiduría que los astrónomos que antes de abandonar la teoría de Newton hicieron todo lo posible por “estirarla” para explicar la anomalía en la órbita de Urano.

Tal vez la más sencilla interpretación de los datos de Bem es que, salvo que los intentos de replicación y los meta-análisis posteriores indiquen lo contrario, es extremadamente probable que se trate de falsos positivos. La estadística inferencial que utilizamos habitualmente en las ciencias del comportamiento se basa en la idea de que aceptamos una hipótesis cuando la probabilidad de que las pruebas a su favor se deban al azar es inferior al 5%. Esto quiere decir que aunque diseñemos nuestros experimentos muy bien, en un 5% de las ocasiones (es decir, una de cada veinte veces) aceptaremos como válida una hipótesis falsa que parece verdadera por puro azar. Parece que este riesgo es pequeño, pero significa que si hacemos muchos experimentos a favor de nuestra hipótesis, aunque sea falsa, uno de cada veinte experimentos parecerá darnos la razón. Nosotros sabemos que nueve de los experimentos de Bem dan apoyo a la idea de que existe la percepción extrasensorial. Pero no sabemos si se trata de los únicos nueve experimentos que Bem ha realizado o si se trata de nueve experimentos elegidos de un conjunto más amplio (en el cual no todos los experimentos apoyaban esa hipótesis).

Incluso para el investigador más honesto (y no dudo de que Bem lo sea) es fácil caer en estos errores sin darse cuenta. Diseñamos un estudio piloto para explorar un nuevo fenómeno y si los primeros cinco datos que obtenemos parecen ambiguos, en lugar de terminar el experimento, hacemos un pequeño cambio en el experimento y vemos que pasa. Si los resultados no son más favorables ahora, tomamos esta segunda prueba como buena y la primea como mala. Por el contrario, si el segundo experimento también parece arrojar resultados ambiguos o abiertamente contrarios, es posible que no obstante realicemos un tercer experimento con pequeñas modificaciones para ver qué pasa. Y así sucesivamente. Al final, tendremos unos cuantos experimentos “piloto” fallidos o ambiguos y unos pocos experimentos que tienen resultados más favorables a nuestra hipótesis y que, como “padres de la criatura”, no podemos evitar tomar por buenos. Y, por supuesto, la publicación selectiva de resultados es sólo una de las malas (pero habituales) prácticas que puede llevarnos a caer en falsos positivos. (Véanse mis entradas previas sobre el tema aquí y aquí.)

Para evitar caer en falsos positivos, es fundamental que antes de darse por universalmente aceptado, un fenómeno sea replicado varias veces y, si es posible, por investigadores diferentes. Si el efecto existe realmente, deberían poder replicarse los resultados sin dificultad. Si ha sido un falso positivo, empezarán a observarse resultados negativos. El problema es que realizar estas réplicas consume mucho tiempo. Tiempo que los investigadores profesionales a menudo no tienen, porque sus carreras académicas dependen más de descubrir cosas nuevas que de comprobar si se replican resultados que han obtenido otros. (Hay que recordar que las principales revistas de psicología casi nunca aceptan la publicación de un trabajo que se limite a replicar a otro.)

Si en el caso de la órbita de Urano, la contradicción entre la teoría y los datos se solventó al descubrir Neptuno, ¿cómo se resolverá la contradicción entre los datos de Bem y las convicciones de los científicos de que el futuro no influye en el presente? Por lo pronto, los experimentos que han realizado otros psicólogos no han replicado los resultados de Bem (Ritchie, Wiseman, & French, 2012); así que parece poco probable que tengamos que reescribir los fundamentos de nuestra ciencia. Sin embargo, el caso de los experimentos de Bem es una ocasión excelente para replantearnos la forma en que realizamos investigación en psicología y en las ciencias de la salud en general. Son varios los artículos teóricos que han aprovechado esta ocasión para hacer esta misma lectura. De entre ellos recomiendo al menos dos. El de Wagenmakers, Wetzels, Borsboom y van der Maas (2011), publicado en el mismo volumen que el artículo original de Bem, es un alegato contra la utilización de análisis estadísticos laxos para poner a prueba hipótesis controvertidas. El otro, publicado por LeBel y Peters (2011) en el Review of General Psychology, nos invita entre otras cosas a hacer réplicas exactas de los experimentos más importantes en lugar de las habituales réplicas conceptuales (en las que se “repite” un experimento, pero variando detalles del procedimiento para ver si los resultados se mantienen a pesar de los cambios). Proporciona también un excelente análisis de por qué con frecuencia no prestamos toda la atención que se merecen a los intentos fallidos de réplicas. Lamentablemente no tengo espacio aquí para explicar con detalle ambos artículos, pero son dos excelentes muestras de cómo la verdadera ciencia aprovecha cualquier duda y debate para salir fortalecida.

__________

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407-425. doi: 10.1037/a0021524

LeBel, E. P., & Peters, K. R. (2011). Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice. Review of General Psychology, 15, 371-379. doi: 10.1037/a0025172

Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the future: Three unsuccessful attempts to replicate Bem’s ‘retroactive facilitation of recall’ effect. PLoS ONE, 7, e33423. doi:10.1371/journal.pone.0033423

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011). Journal of Personality and Social Psychology, 100, 426-432. doi: 10.1037/a0022790