Poniendo en contexto la replicabilidad de la psicología

Desde que se publicaron los resultados del Reproducibility Project: Psychology (RPP) las actitudes de la comunidad científica se han dividido entre quienes creen que es necesario cambiar radicalmente la forma en la que se hace investigación en nuestra disciplina y quienes consideran que la situación no es tan mala y que los métodos que se han venido utilizando hasta ahora han funcionado razonablemente bien. A falta de términos mejores –y ya que estamos en plena campaña electoral– llamaré a los primeros reformistas y a los segundos conservadores.

Uno de los argumentos más frecuentemente esgrimidos por los conservadores es que el fracaso a la hora de replicar un fenómeno no quiere decir necesariamente que ese fenómeno no exista. Si acaso, una réplica fallida revela que ese fenómeno sólo aparece en circunstancias muy concretas y que, tan pronto como se cambia algo en un estudio, el efecto desaparece. Por ejemplo, si hacemos un estudio sobre las actitudes de los blancos hacia las personas de otras razas, es muy probable que los resultados sean muy diferentes en países como EE.UU. que en Holanda o Australia. Si alguien no consigue replicar en Holanda un resultado que se observó inicialmente en EE.UU. esto no quiere decir que el hallazgo original fuera falso sino, simplemente, que sólo puede detectarse en circunstancias muy concretas.

Un trabajo recién publicado en la prestigiosa PNAS sugiere que los resultados negativos del RPP podrían deberse en buena parte a las dificultades para recrear el contexto de los experimentos originales. Los autores de este estudio pidieron a tres investigadores que leyeran los abstracts de los 100 estudios que se habían intentado replicar en el RPP y que, en base únicamente a esos textos, juzgaran hasta qué punto los fenómenos estudiados podrían depender del contexto en el que tenía lugar el estudio. Por ejemplo, se les pedía que estimaran si los resultados podrían depender de que el estudio se realizara en un momento concreto (por ejemplo, tiempos de recesión), en una comunidad étnica, racial o cultural concreta (por ejemplo, mezcla de diferentes razas, culturas individualistas), o en un entorno rural o urbano, entre otros aspectos.

Captura de pantalla 2016-05-30 11.45.36Los autores del estudio tomaron estas estimaciones de la importancia del contexto y analizaron hasta qué punto ayudaban a predecir si un experimento se replicaría o no. Los resultados más importantes se muestran en la figura adjunta. Lo que aquí se muestra es que, después de controlar estadísticamente algunas de las variables más importantes (por ejemplo, la potencia estadística de la réplica, la “sorpresividad” del efecto en cuestión), la sensibilidad al contexto seguía explicando una parte importante de la varianza. Estos datos vienen a confirmar que manteniendo constantes todos los demás factores, algunos fenómenos son más sensibles al contexto que otros y esa mayor sensibilidad determina que puedan ser fácilmente replicados o no.

rpp_density_plotNo es ningún secreto que mis simpatías se decantan hacia el lado de los reformistas. Aunque valoro este tipo de trabajos y puedo apreciar su contribución, inevitablemente me despiertan sospechas. Ya he contestado aquí a quienes argumentan que los intentos fallidos de replicar un experimento se deben atribuir a moderadores y variables contextuales. Mi argumentación es idéntica en este caso. Puedo entender que unos fenómenos sean más delicados que otros y que requieran un mayor esfuerzo por parte del investigador para recrear las condiciones ideales; pero este argumento deja sin explicar la clara evidencia de sesgos de publicación y de p-hacking en los estudios originales del RPP. Uno de las gráficas que mejor lo demuestra es esta distribución de valores z elaborada por Richard Kunert. Un experimento tiene resultados significativos cuando su z es mayor de 1.96. Como puede verse en este gráfico, las puntuaciones z de los estudios originales del RPP es extremadamente irregular, con un pico muy pronunciado justo alrededor de 2. Esta distribución sugiere que ha habido sesgos de publicación (los estudios con z < 1.96 se han borrado del mapa) o malas prácticas (los estudios con z < 1.96 se han reanalizado una y otra vez hasta que por arte de magia se ha obtenido una z > 1.96). Nada de esto quiere decir que los autores del estudio en PNAS se equivoquen. Pero sospecho que representa sólo una parte de la historia. Una parte que puede resultar reconfortante, pero que tal vez nos ayude poco a mejorar la ciencia que hacemos.

__________

Van Bavel, J. J., Mende-Siedlecki, P., Brady, W. J., & Reinero, D. A. (2016). Contextual sensitivity in scientific reproducibility. Proceedings of the National Academy of Sciences of the United States of America, 113, 6454-6459.

La psicología al desnudo

Ayer por la noche, la prestigiosa revista Science publicaba bajo el título “Estimating the reproducibility of psychological science” los resultados del que sin duda será el estudio del año o de la década. Doscientos setenta investigadores de todo el mundo se pusieron de acuerdo para intentar replicar cien experimentos de psicología publicados originalmente en 2008 en tres de las más importantes revistas de psicología: Journal of Experimental Psychology: Learning, Memory and Cognition; Journal of Personality and Social Psychology; y Psychological Science. Tal y como reconocen los propios autores, no hay una única forma de estimar si un estudio ha replicado exitosamente los resultados de otro. Pero si tomamos como medida del éxito el simple hecho de si la réplica ha arrojado resultados estadísticamente significativos o no, entonces tan sólo el 36% de los estudios originales se ha replicado. El artículo y su abundante material suplementario están llenos de matices e información valiosa que habrá que desmenuzar y analizar con calma durante los próximos días. Pero aquí quiero quedarme únicamente con esa cifra aparentemente penosa: 36%.

Apenas publicado el artículo, los titulares de medio mundo se llenaban con la triste noticia de que sólo el 36% de los experimentos de psicología eran replicables. Pero, ¿es poco un 36%? Si te paras a pensarlo, esta pregunta es más difícil de responder de lo que parece. Sin duda, un 36% es mucho menos de lo que esperábamos y de lo que creemos deseable para cualquier ciencia sana. Pero si la pregunta se enfoca bajo otro ángulo y nos preguntamos si un 36% es una cifra normal o no para una disciplina científica, enseguida caeremos en la cuenta de que no tenemos absolutamente ninguna evidencia para responder a esta pregunta. Son varios los estudios de carácter estadístico que han sugerido que los datos publicados en las revistas son demasiado bonitos para ser cierto y que seguramente en torno al 50% o más de los resultados científicos son falsos positivos. Pero en su mayor parte estas estimaciones son sólo elucubraciones teóricas basadas en la estadística. Más allá de la especulación lo cierto es que, salvo por unos pocos estudios pequeños y poco sistemáticos, apenas tenemos datos empíricos sobre cómo de replicables son los resultados que se publican en las revistas científicas. De cualquier disciplina.

Durante una temporada, los blogs, periódicos y revistas se harán eco del titular fácil de que sólo uno de cada tres experimentos de psicología puede replicarse. Sin embargo, creo que no pasará mucho tiempo hasta que se le reconozca a la psicología el mérito de haber sido la primera disciplina en mostrar sus vergüenzas y reconocer que el rey va ligero de ropa. El artículo recién publicado en Science es el primer intento serio de explorar a gran escala la replicabilidad de los resultados científicos. Espero que le sigan muchos, dentro de la propia psicología y también en otras disciplinas, como el ya iniciado Cancer Biology Reproducibility Project. Preveo que pasado el tiempo, el artículo de estos 270 investigadores no será motivo de vergüenza para los psicólogos experimentales, sino que permanecerá como recordatorio de que un día esta pequeña disciplina se puso al frente de un movimiento llamado a revolucionar la ciencia que practicamos.

__________

Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349, aac4716.