Poniendo en contexto la replicabilidad de la psicología

Desde que se publicaron los resultados del Reproducibility Project: Psychology (RPP) las actitudes de la comunidad científica se han dividido entre quienes creen que es necesario cambiar radicalmente la forma en la que se hace investigación en nuestra disciplina y quienes consideran que la situación no es tan mala y que los métodos que se han venido utilizando hasta ahora han funcionado razonablemente bien. A falta de términos mejores –y ya que estamos en plena campaña electoral– llamaré a los primeros reformistas y a los segundos conservadores.

Uno de los argumentos más frecuentemente esgrimidos por los conservadores es que el fracaso a la hora de replicar un fenómeno no quiere decir necesariamente que ese fenómeno no exista. Si acaso, una réplica fallida revela que ese fenómeno sólo aparece en circunstancias muy concretas y que, tan pronto como se cambia algo en un estudio, el efecto desaparece. Por ejemplo, si hacemos un estudio sobre las actitudes de los blancos hacia las personas de otras razas, es muy probable que los resultados sean muy diferentes en países como EE.UU. que en Holanda o Australia. Si alguien no consigue replicar en Holanda un resultado que se observó inicialmente en EE.UU. esto no quiere decir que el hallazgo original fuera falso sino, simplemente, que sólo puede detectarse en circunstancias muy concretas.

Un trabajo recién publicado en la prestigiosa PNAS sugiere que los resultados negativos del RPP podrían deberse en buena parte a las dificultades para recrear el contexto de los experimentos originales. Los autores de este estudio pidieron a tres investigadores que leyeran los abstracts de los 100 estudios que se habían intentado replicar en el RPP y que, en base únicamente a esos textos, juzgaran hasta qué punto los fenómenos estudiados podrían depender del contexto en el que tenía lugar el estudio. Por ejemplo, se les pedía que estimaran si los resultados podrían depender de que el estudio se realizara en un momento concreto (por ejemplo, tiempos de recesión), en una comunidad étnica, racial o cultural concreta (por ejemplo, mezcla de diferentes razas, culturas individualistas), o en un entorno rural o urbano, entre otros aspectos.

Captura de pantalla 2016-05-30 11.45.36Los autores del estudio tomaron estas estimaciones de la importancia del contexto y analizaron hasta qué punto ayudaban a predecir si un experimento se replicaría o no. Los resultados más importantes se muestran en la figura adjunta. Lo que aquí se muestra es que, después de controlar estadísticamente algunas de las variables más importantes (por ejemplo, la potencia estadística de la réplica, la “sorpresividad” del efecto en cuestión), la sensibilidad al contexto seguía explicando una parte importante de la varianza. Estos datos vienen a confirmar que manteniendo constantes todos los demás factores, algunos fenómenos son más sensibles al contexto que otros y esa mayor sensibilidad determina que puedan ser fácilmente replicados o no.

rpp_density_plotNo es ningún secreto que mis simpatías se decantan hacia el lado de los reformistas. Aunque valoro este tipo de trabajos y puedo apreciar su contribución, inevitablemente me despiertan sospechas. Ya he contestado aquí a quienes argumentan que los intentos fallidos de replicar un experimento se deben atribuir a moderadores y variables contextuales. Mi argumentación es idéntica en este caso. Puedo entender que unos fenómenos sean más delicados que otros y que requieran un mayor esfuerzo por parte del investigador para recrear las condiciones ideales; pero este argumento deja sin explicar la clara evidencia de sesgos de publicación y de p-hacking en los estudios originales del RPP. Uno de las gráficas que mejor lo demuestra es esta distribución de valores z elaborada por Richard Kunert. Un experimento tiene resultados significativos cuando su z es mayor de 1.96. Como puede verse en este gráfico, las puntuaciones z de los estudios originales del RPP es extremadamente irregular, con un pico muy pronunciado justo alrededor de 2. Esta distribución sugiere que ha habido sesgos de publicación (los estudios con z < 1.96 se han borrado del mapa) o malas prácticas (los estudios con z < 1.96 se han reanalizado una y otra vez hasta que por arte de magia se ha obtenido una z > 1.96). Nada de esto quiere decir que los autores del estudio en PNAS se equivoquen. Pero sospecho que representa sólo una parte de la historia. Una parte que puede resultar reconfortante, pero que tal vez nos ayude poco a mejorar la ciencia que hacemos.

__________

Van Bavel, J. J., Mende-Siedlecki, P., Brady, W. J., & Reinero, D. A. (2016). Contextual sensitivity in scientific reproducibility. Proceedings of the National Academy of Sciences of the United States of America, 113, 6454-6459.

5 thoughts on “Poniendo en contexto la replicabilidad de la psicología

  1. Cabría preguntarse a qué se debe que la distribución de los valores z de los estudios originales esté sesgada. Una posibilidad es que haya habido experimentos con resultados p > .05, pero que no hayan sido publicados. Yo tengo algunos de esos. Estaría encantado de publicarlos, en buenas revistas, si es posible. Y me da la sensación de que no soy el único. ¿Hay que llenar las revistas de resultados nulos o ambiguos (evidencia que no apunta ni a la hipótesis nula ni a la alternativa? No lo se…en principio diría que no; yo al menos no se si sacaría tiempo para leerlos, y habría que buscar reviewers etc. En fin, complicado el tema.

    • Totalmente de acuerdo en que no hay respuesta fácil para esto. Me recuerda a un paper interesante que sacó el grupo de Simonsohn: “Let’s publish fewer papers” http://opim.wharton.upenn.edu/~uws/papers/fewer.pdf Supongo que una posible solución es no publicar las cosas dependiendo del p-value, pero al mismo tiempo no publicarlo absolutamente todo. Por ejemplo, dejando fuera estudios con muestras tan pequeñas que apenas son informativas. Me gusta la idea de los preregistered reports de Cortex, donde se hace el peer review antes de que se hayan recogido los datos. Esto asegura que se publican experimentos buenos (si un diseño, muestra… no es interesante no se acepta) pero al mismo tiempo hace que los autores no puedan hacer p-hacking.

    • Considero que la replicabilidad es fundamental para respaldar la fiabilidad y seguridad de dichos experimentos o descubrimientos, pues gracias a que el estudio tiene la necesidad de repetir la dicha investigación y de tal manera asegurar un resultado seguro en relación a los hallazgos y tener la posibilidad de generalizarlos a otras situaciones o participantes.

  2. Pingback: Ciencias nuevas y problemas viejos: replicar o morir - Psicomemorias

  3. Considero que la replicabilidad es fundamental para respaldar la fiabilidad y seguridad de dichos experimentos o descubrimientos, pues gracias a que el estudio tiene la necesidad de repetir la dicha investigación y de tal manera asegurar un resultado seguro en relación a los hallazgos y tener la posibilidad de generalizarlos a otras situaciones o participantes.

Escribe un comentario...