Poderes… estadísticos

La ciencia no es perfecta, pero tiene la perfección como ideal. Una de sus grandezas es precisamente su carácter auto-crítico, que la permite salir fortalecida de cualquier problema o adversidad, incluso de aquellas que la acechan desde dentro. El último año ha sido testigo de profundas polémicas en el seno de la psicología experimental que ilustran a la perfección cómo funciona nuestro “departamento de asuntos internos”. Cuando apenas habíamos empezado a asimilar el caso de fraude de Marc Hauser, hemos tenido que hacer frente al igualmente grave caso de Diederik Stapel. El mismo año se han publicado los experimentos de percepción extrasensorial de Daryl Bem, que para muchos constituyen un signo más de que es necesaria una revisión de nuestros métodos de investigación y de las políticas de publicación que siguen nuestras revistas más prestigiosas. También nos han sorprendido las dificultades para replicar algunos experimentos que se consideraban clásicos; entre ellos, el polémico estudio de Bargh.

Son numerosos los artículos que se han publicado durante este año haciendo una revisión crítica del modo en que funciona el sistema de publicación en ciencia y proponiendo métodos para detectar posibles casos de publicación de resultados poco robustos. A esta corriente pertenece un estudio de Gregory Francis recientemente publicado en Psychonomic Bulletin & Review que propone una sencillísima técnica para medir el grado de publicación selectiva en un área de investigación. Apenas es necesario explicar lo grave que puede ser la publicación selectiva de resultados positivos en cualquier disciplina científica. Imagine que hacemos 1000 estudios para comprobar si existe, por ejemplo, la hipersensibilidad electromagnética. Incluso aunque la hipersensibilidad electromagnética no exista (tal y como parece indicar toda la evidencia científica), habrá pequeñas fluctuaciones en los resultados de estos experimentos debidas al simple azar. Esto hará que un pequeño puñado de estudios arrojen resultados positivos: Es decir incluso si la hipersensibilidad electromagnética no existe, unos pocos estudios parecerán indicar que sí existe. Pongamos que de los 1000 estudios 950 concluyen que el efecto no existe y que los otros 50 concluyen que sí existe. A partir de estos resultados parece bastante sencillo intuir cuál es la realidad del fenómeno. Ahora bien, imagine que aunque hemos realizado 1000 estudios, las revistas científicas se niegan a publicar todos los que tienen resultados negativos y consecuentemente se publican sólo esos 50 estudios “positivos”. ¿Cuál es la impresión que se transmite a quien revisa esa literatura?

Por desgracia esto sucede con relativa frecuencia. En parte porque las revistas prefieren publicar estudios donde se demuestra que existe algo. (Demostrar que algo no existe no vende; es como aquello de “perro muerde a hombre”.) Pero a este problema de las revistas se suma que cuando un investigador quiere demostrar un fenómeno y tiene muchos estudios sobre el mismo, es probable que considere más “representativos” los estudios en los que se observa ese efecto que los estudios en los que no se observa. Aunque sería el ideal, ningún investigador es un testigo neutral de los resultados de sus experimentos.

Afortunadamente, disponemos de diversas técnicas que nos permiten saber cuándo existe un problema de publicación selectiva. El artículo de Francis propone un método sencillo que se basa en la idea de poder estadístico. Técnicamente, el poder estadístico de un estudio se define como la probabilidad de que los resultados de un estudio rechacen una hipótesis nula que es falsa. Simplificando esta definición: El poder estadístico es la probabilidad de que un estudio detecte un efecto que realmente existe. Uno de los parámetros de los que más depende ese poder estadístico es el número de observaciones que se hacen en un estudio.

Aunque parezca un concepto muy abstracto, es muy fácil de entender mediante un ejemplo. Imagina que tenemos una moneda trucada que da caras el 70% de las veces. Nosotros en realidad no sabemos aún si la moneda está trucada o no. Nuestro trabajo es precisamente averiguarlo. Así que tiramos esa moneda al aire unas cuantas veces para ver lo que pasa. Imagine que la tiramos 10 veces y salen 7 caras. ¿Es esto prueba de que la moneda está trucada? Pues la verdad es que no. Porque aunque se tratara de una moneda normal, es muy fácil que el azar haga que nos salgan 7 caras y 3 cruces. Ahora bien, imagine que hemos tirado la moneda 1000 veces y nos han salido 700 caras y 300 cruces. ¿Podemos concluir ahora que la moneda está trucada? Efectivamente, podemos hacerlo casi con total seguridad. La razón es que cuando tiramos la moneda sólo 10 veces, es muy probable que el azar tenga un efecto muy importante en el número de caras y cruces que nos salen. Pero a medida que incrementamos el número de observaciones es cada vez menos y menos probable que el patrón de resultados se vea muy influido por el azar. En otras palabras, sería  muy raro que el azar conspirara contra nosotros en 1000 ocasiones. Pues bien, eso que cambia entre tener 10 observaciones y 1000 observaciones es precisamente el poder estadístico. Cuantas más observaciones hagamos, tanto más probable es que cualquier efecto que veamos en los datos sea un efecto real y no un artificio del azar.

El lado oscuro del poder estadístico es que si un estudio tiene poco poder estadístico (es decir, si se basa en pocas observaciones), entonces a veces no conseguirá establecer a ciencia cierta si existe un efecto o no. Y es precisamente aquí donde el concepto de poder estadístico puede ser útil para ver si hay un problema de publicación selectiva en un área. Si los estudios de un área tienen poco poder estadístico, entonces esperaremos encontrar algunos resultados negativos, aunque el efecto que se esté estudiando exista realmente. Volviendo a los experimentos de Bem, esto implica, por ejemplo, que si la percepción extrasensorial existe y los estudios sobre ella tienen un poder estadístico del 80% entonces deberíamos esperar que la percepción extrasensorial se detectara en un 80% de los datos.

Pues bien, el artículo de Francis observa que en el caso de la percepción extrasensorial, el número de “éxitos” que se observan en los experimentos de Bem es mayor que el que sería esperable dado el poder estadístico de esos experimentos. Es decir, dado ese poder estadístico y asumiendo que la percepción extrasensorial existe, sería extremadamente poco probable tener tantos resultados positivos. Luego, “something is rotten in the state of Denmark”.

__________

Francis, G. (2012). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151-156. doi: 10.3758/s13423-012-0227-9

Presintiendo el futuro… de la psicología

Conforme a la teoría de la gravedad de Newton, los planetas deberían recorrer una órbita elíptica alrededor del sol. Curiosamente, Urano no se mueve así. Su órbita es aproximadamente elíptica, sí, pero aquí y allí se desvía de forma caprichosa del que debería ser su curso normal. Cuando los astrónomos del siglo XIX lo descubrieron, supongo que alguno se llevaría las manos a la cabeza. Si hubieran estudiado el falsacionismo de Karl Popper, sin duda habrían llegado a la conclusión de que la teoría de Newton debía ser incorrecta. Pero ninguno de ellos dio este paso. En lugar de ello, asumieron que si Urano se comportaba de forma extraña y si la teoría de Newton era cierta, entonces debía haber cerca algún cuerpo desconocido de gran tamaño cuya masa influyera en la órbita de Urano. Así se descubrió Neptuno.

Esta historia tiene interesantísimas repercusiones para entender cómo evoluciona (y cómo debería evolucionar) la ciencia. Primero, nos enseña que hay que tener cuidado a la hora de interpretar los datos porque lo que parece consistente o inconsistente con una teoría a menudo admite otras interpretaciones. A veces creemos que unos datos nos dicen algo sobre una teoría (en este caso, la teoría de la gravitación universal de Newton), pero en realidad nos están diciendo algo sobre otra teoría (en este caso, la teoría obsoleta de que sólo había siete planetas en el sistema solar). Segundo, nos enseña que aunque haya que mantener la mente abierta ante los nuevos datos, a menudo también merece la pena persistir en el intento de mantener explicaciones sencillas incluso para los hechos que inicialmente parecen desafiarlas.

Pensando en aquellos astrónomos que no renunciaron a la teoría de Newton ante la primera adversidad, es sencillo entender por qué los psicólogos actuales también miran con escepticismo las recientes “demostraciones” de percepción extrasensorial que el pasado 2011 publicó Bem en un artículo que ha sembrado la polémica. El diseño de los experimentos es ciertamente audaz y confieso de antemano que despierta todas mis simpatías. En realidad, se trata nada menos que de nueve experimentos que utilizan técnicas completamente diferentes, pero cuyos resultados convergen en la conclusión de que en determinadas condiciones las personas pueden ser sensibles a eventos que aún no han sucedido.

Uno de mis experimentos favoritos se basa en una inversión temporal de un experimento típico de priming afectivo. En los experimentos normales de priming afectivo se observa que el tiempo que se tarda en juzgar si una palabra (como, por ejemplo, “flor”) es positiva es menor si justo antes se presenta muy brevemente otra palabra que también es positiva (como, por ejemplo, “vacaciones”). Nada sorprendente hasta aquí. Lo interesante de los experimentos de Bem es que obtiene efectos similares incluso cuando se invierte el orden en el que se presentan los estímulos. Es decir, que nos cuesta menos decir, por ejemplo, que la palabra “flor” es positiva, si después de nuestra respuesta se presenta muy brevemente la palabra “vacaciones”. Estos resultados son tan asombrosos que cuesta describirlos asépticamente sin utilizar signos de admiración. El resto de experimentos de Bem son muy diferentes, pero la característica común de todos ellos es que el comportamiento de los participantes se ve influido por estímulos que aún no ha visto en ese momento. De ahí el nombre del polémico artículo: Feeling the future. Impresionante, ¿verdad?

Amparándose en estos resultados muchos dirán que a la psicología científica no le queda más remedio que rendirse ante la evidencia de estas pruebas a favor de la percepción extrasensorial. Pero nada más lejos de la realidad. Los psicólogos siguen en sus trece y su escepticismo no se ha rebajado ni un ápice. Y creo que actúan con la misma sabiduría que los astrónomos que antes de abandonar la teoría de Newton hicieron todo lo posible por “estirarla” para explicar la anomalía en la órbita de Urano.

Tal vez la más sencilla interpretación de los datos de Bem es que, salvo que los intentos de replicación y los meta-análisis posteriores indiquen lo contrario, es extremadamente probable que se trate de falsos positivos. La estadística inferencial que utilizamos habitualmente en las ciencias del comportamiento se basa en la idea de que aceptamos una hipótesis cuando la probabilidad de que las pruebas a su favor se deban al azar es inferior al 5%. Esto quiere decir que aunque diseñemos nuestros experimentos muy bien, en un 5% de las ocasiones (es decir, una de cada veinte veces) aceptaremos como válida una hipótesis falsa que parece verdadera por puro azar. Parece que este riesgo es pequeño, pero significa que si hacemos muchos experimentos a favor de nuestra hipótesis, aunque sea falsa, uno de cada veinte experimentos parecerá darnos la razón. Nosotros sabemos que nueve de los experimentos de Bem dan apoyo a la idea de que existe la percepción extrasensorial. Pero no sabemos si se trata de los únicos nueve experimentos que Bem ha realizado o si se trata de nueve experimentos elegidos de un conjunto más amplio (en el cual no todos los experimentos apoyaban esa hipótesis).

Incluso para el investigador más honesto (y no dudo de que Bem lo sea) es fácil caer en estos errores sin darse cuenta. Diseñamos un estudio piloto para explorar un nuevo fenómeno y si los primeros cinco datos que obtenemos parecen ambiguos, en lugar de terminar el experimento, hacemos un pequeño cambio en el experimento y vemos que pasa. Si los resultados no son más favorables ahora, tomamos esta segunda prueba como buena y la primea como mala. Por el contrario, si el segundo experimento también parece arrojar resultados ambiguos o abiertamente contrarios, es posible que no obstante realicemos un tercer experimento con pequeñas modificaciones para ver qué pasa. Y así sucesivamente. Al final, tendremos unos cuantos experimentos “piloto” fallidos o ambiguos y unos pocos experimentos que tienen resultados más favorables a nuestra hipótesis y que, como “padres de la criatura”, no podemos evitar tomar por buenos. Y, por supuesto, la publicación selectiva de resultados es sólo una de las malas (pero habituales) prácticas que puede llevarnos a caer en falsos positivos. (Véanse mis entradas previas sobre el tema aquí y aquí.)

Para evitar caer en falsos positivos, es fundamental que antes de darse por universalmente aceptado, un fenómeno sea replicado varias veces y, si es posible, por investigadores diferentes. Si el efecto existe realmente, deberían poder replicarse los resultados sin dificultad. Si ha sido un falso positivo, empezarán a observarse resultados negativos. El problema es que realizar estas réplicas consume mucho tiempo. Tiempo que los investigadores profesionales a menudo no tienen, porque sus carreras académicas dependen más de descubrir cosas nuevas que de comprobar si se replican resultados que han obtenido otros. (Hay que recordar que las principales revistas de psicología casi nunca aceptan la publicación de un trabajo que se limite a replicar a otro.)

Si en el caso de la órbita de Urano, la contradicción entre la teoría y los datos se solventó al descubrir Neptuno, ¿cómo se resolverá la contradicción entre los datos de Bem y las convicciones de los científicos de que el futuro no influye en el presente? Por lo pronto, los experimentos que han realizado otros psicólogos no han replicado los resultados de Bem (Ritchie, Wiseman, & French, 2012); así que parece poco probable que tengamos que reescribir los fundamentos de nuestra ciencia. Sin embargo, el caso de los experimentos de Bem es una ocasión excelente para replantearnos la forma en que realizamos investigación en psicología y en las ciencias de la salud en general. Son varios los artículos teóricos que han aprovechado esta ocasión para hacer esta misma lectura. De entre ellos recomiendo al menos dos. El de Wagenmakers, Wetzels, Borsboom y van der Maas (2011), publicado en el mismo volumen que el artículo original de Bem, es un alegato contra la utilización de análisis estadísticos laxos para poner a prueba hipótesis controvertidas. El otro, publicado por LeBel y Peters (2011) en el Review of General Psychology, nos invita entre otras cosas a hacer réplicas exactas de los experimentos más importantes en lugar de las habituales réplicas conceptuales (en las que se “repite” un experimento, pero variando detalles del procedimiento para ver si los resultados se mantienen a pesar de los cambios). Proporciona también un excelente análisis de por qué con frecuencia no prestamos toda la atención que se merecen a los intentos fallidos de réplicas. Lamentablemente no tengo espacio aquí para explicar con detalle ambos artículos, pero son dos excelentes muestras de cómo la verdadera ciencia aprovecha cualquier duda y debate para salir fortalecida.

__________

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407-425. doi: 10.1037/a0021524

LeBel, E. P., & Peters, K. R. (2011). Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice. Review of General Psychology, 15, 371-379. doi: 10.1037/a0025172

Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the future: Three unsuccessful attempts to replicate Bem’s ‘retroactive facilitation of recall’ effect. PLoS ONE, 7, e33423. doi:10.1371/journal.pone.0033423

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011). Journal of Personality and Social Psychology, 100, 426-432. doi: 10.1037/a0022790