Poniendo en contexto la replicabilidad de la psicología

Desde que se publicaron los resultados del Reproducibility Project: Psychology (RPP) las actitudes de la comunidad científica se han dividido entre quienes creen que es necesario cambiar radicalmente la forma en la que se hace investigación en nuestra disciplina y quienes consideran que la situación no es tan mala y que los métodos que se han venido utilizando hasta ahora han funcionado razonablemente bien. A falta de términos mejores –y ya que estamos en plena campaña electoral– llamaré a los primeros reformistas y a los segundos conservadores.

Uno de los argumentos más frecuentemente esgrimidos por los conservadores es que el fracaso a la hora de replicar un fenómeno no quiere decir necesariamente que ese fenómeno no exista. Si acaso, una réplica fallida revela que ese fenómeno sólo aparece en circunstancias muy concretas y que, tan pronto como se cambia algo en un estudio, el efecto desaparece. Por ejemplo, si hacemos un estudio sobre las actitudes de los blancos hacia las personas de otras razas, es muy probable que los resultados sean muy diferentes en países como EE.UU. que en Holanda o Australia. Si alguien no consigue replicar en Holanda un resultado que se observó inicialmente en EE.UU. esto no quiere decir que el hallazgo original fuera falso sino, simplemente, que sólo puede detectarse en circunstancias muy concretas.

Un trabajo recién publicado en la prestigiosa PNAS sugiere que los resultados negativos del RPP podrían deberse en buena parte a las dificultades para recrear el contexto de los experimentos originales. Los autores de este estudio pidieron a tres investigadores que leyeran los abstracts de los 100 estudios que se habían intentado replicar en el RPP y que, en base únicamente a esos textos, juzgaran hasta qué punto los fenómenos estudiados podrían depender del contexto en el que tenía lugar el estudio. Por ejemplo, se les pedía que estimaran si los resultados podrían depender de que el estudio se realizara en un momento concreto (por ejemplo, tiempos de recesión), en una comunidad étnica, racial o cultural concreta (por ejemplo, mezcla de diferentes razas, culturas individualistas), o en un entorno rural o urbano, entre otros aspectos.

Captura de pantalla 2016-05-30 11.45.36Los autores del estudio tomaron estas estimaciones de la importancia del contexto y analizaron hasta qué punto ayudaban a predecir si un experimento se replicaría o no. Los resultados más importantes se muestran en la figura adjunta. Lo que aquí se muestra es que, después de controlar estadísticamente algunas de las variables más importantes (por ejemplo, la potencia estadística de la réplica, la “sorpresividad” del efecto en cuestión), la sensibilidad al contexto seguía explicando una parte importante de la varianza. Estos datos vienen a confirmar que manteniendo constantes todos los demás factores, algunos fenómenos son más sensibles al contexto que otros y esa mayor sensibilidad determina que puedan ser fácilmente replicados o no.

rpp_density_plotNo es ningún secreto que mis simpatías se decantan hacia el lado de los reformistas. Aunque valoro este tipo de trabajos y puedo apreciar su contribución, inevitablemente me despiertan sospechas. Ya he contestado aquí a quienes argumentan que los intentos fallidos de replicar un experimento se deben atribuir a moderadores y variables contextuales. Mi argumentación es idéntica en este caso. Puedo entender que unos fenómenos sean más delicados que otros y que requieran un mayor esfuerzo por parte del investigador para recrear las condiciones ideales; pero este argumento deja sin explicar la clara evidencia de sesgos de publicación y de p-hacking en los estudios originales del RPP. Uno de las gráficas que mejor lo demuestra es esta distribución de valores z elaborada por Richard Kunert. Un experimento tiene resultados significativos cuando su z es mayor de 1.96. Como puede verse en este gráfico, las puntuaciones z de los estudios originales del RPP es extremadamente irregular, con un pico muy pronunciado justo alrededor de 2. Esta distribución sugiere que ha habido sesgos de publicación (los estudios con z < 1.96 se han borrado del mapa) o malas prácticas (los estudios con z < 1.96 se han reanalizado una y otra vez hasta que por arte de magia se ha obtenido una z > 1.96). Nada de esto quiere decir que los autores del estudio en PNAS se equivoquen. Pero sospecho que representa sólo una parte de la historia. Una parte que puede resultar reconfortante, pero que tal vez nos ayude poco a mejorar la ciencia que hacemos.

__________

Van Bavel, J. J., Mende-Siedlecki, P., Brady, W. J., & Reinero, D. A. (2016). Contextual sensitivity in scientific reproducibility. Proceedings of the National Academy of Sciences of the United States of America, 113, 6454-6459.

Bilingüismo y sus ventajas: ¿Exageración científica?

Se me ocurren muchas razones por las que merece la pena estudiar un nuevo idioma. Pero a juzgar por las conclusiones del artículo recién publicado por de Bruin, Treccani, y Della Sala (2015) en Psychological Science, tal vez deba tachar alguna de ellas de mi lista o al menos moverla más abajo. Durante los últimos años se ha hecho fuerte la idea de que el bilingüismo es una suerte de gimnasia mental que mejora diversas capacidades cognitivas, especialmente aquellas a las que se alude genéricamente con el nombre de control ejecutivo. Apenas puede uno abrir un volumen de cualquier revista de psicología sin encontrarse un artículo sobre el tema. Como no podría ser de otra forma, la idea se ha abierto camino rápidamente en la cultura popular y muy especialmente en el mundo de la educación. Los medios de comunicación también se han hecho eco de esta idea, con, por ejemplo, “¿Por qué los bilingües son más inteligentes?” (La Vanguardia, 2012), “El bilingüísmo mejora la atención” (El País, 2007) o “El bilingüismo protege el cerebro” (El Mundo, 2014). Continúa leyendo en Rasgo Latente

Demasiado bonito para ser cierto

O al menos esa es la conclusión a la que llega Gregory Francis en su último y fulminante artículo sobre los sesgos de publicación en las revistas de psicología. El dedo acusador señala en esta ocasión a la prestigiosa Psychological Science. Aplicando un sencillo análisis estadístico a 44 artículos publicados entre 2009 y 2012, Francis ha encontrado que el número de resultados significativos es excesivamente alto en el 82% de ellos. La idea en la que se basa el análisis no puede ser más simple. Imagina que un artículo contiene cuatro experimentos y todos ellos obtienen resultados significativos. ¿Cuál es la probabilidad de que esto suceda? Es fácil calcularlo si uno conoce la potencia estadística de cada experimento. Si, por ejemplo, la potencia de los cuatro experimentos es de 0.75, 0.80, 0.90 y 0.85, entonces la probabilidad de que todos ellos arrojen resultados significativos es 0.75 x 0.80 x 0.90 x 0.85, es decir, 0.459. Se trata de un número razonable y plausible. Ahora bien, si la potencia de los experimentos hubiera sido, por ejemplo, 0.60, 0.70, 0.50 y 0.45, entonces la probabilidad de que todos ellos hubieran tenido resultados significativos habría sido 0.095. En general, cuando esta probabilidad es menor de 0.10 se considera que el número de resultados significativos es demasiado alto para lo que cabría esperar por azar y se entiende que debe haber tenido lugar un problema de publicación selectiva, p-hacking o simple fraude. O eso, o que la suerte está jugando una pasada muy mala. No es nada tranquilizador saber que la inmensa mayoría de los artículos publicados en Psychological Science sale mal parada en esta prueba. Menos aún si se tiene en cuenta que no es la primera vez que estudios como este ponen el prestigio de la revista en entredicho.

__________

Francis, G. (2014). The frequency of excess success for articles in Psychological Science. Psychonomic Bulletin & Review, 21, 1180-1187.

La publicación selectiva perjudica seriamente la salud

Imagina que quiero convencerte de que soy un as jugando a los dardos. Para demostrártelo te enseño una grabación de video en la que tiro a diana diez veces y acierto en todas ellas. Impresionante, ¿verdad? Sólo hay una cosa que no termina de convencerte. Entre una y otra tirada hay un corte en la grabación. De repente se te ocurre pensar que a lo mejor he tirado los dardos 1000 veces y sólo te estoy enseñando las diez ocasiones en las que he acertado. Mi proeza ya no te impresiona tanto.

Por desgracia esta estratagema se utiliza recurrentemente en casi cualquier área de investigación científica, muchas veces sin que las propias personas que la practican se den cuenta de sus nefastas consecuencias. Es muy habitual que los investigadores realicen varios experimentos para poner a prueba sus hipótesis o que analicen de diferentes maneras los datos de cada experimento y que después sólo mencionen en el artículo aquellos experimentos o análisis que arrojaron los mejores resultados. Muchas veces son las propias revistas científicas las que piden directamente a los investigadores que quiten del artículo experimentos con resultados “feos”, poco concluyentes o redundantes. La consecuencia de todo ello es que buena parte de los resultados científicos que podemos encontrar en la literatura científica podrían ser falsos positivos, fruto del puro azar y nada más, como las diez dianas que conseguí a costa de hacer 1000 tiradas.

bad_pharmaEste problema ha alcanzado dimensiones preocupantes en las últimas décadas, con secuelas mucho más graves en unos ámbitos que en otros. El libro de Ben Goldacre Bad Pharma, traducido al castellano con el poco agraciado nombre de Mala Farma, es la mejor introducción a las repercusiones de esta política de investigación en el ámbito de la medicina y la farmacología. Cuando las grandes compañías farmacéuticas ponen a prueba la eficacia de sus medicinas, es frecuente que realicen múltiples ensayos clínicos o que analicen los efectos de estas sustancias sobre diferentes indicadores de salud. Cada vez que se realiza un nuevo ensayo clínico se está tirando un dardo a la diana. Si en un estudio no sólo se mide cómo afecta la medicina al corazón, sino también cómo afecta a los pulmones y al páncreas, entonces en ese estudio se han tirado tres dardos. A base de tirar más y más dardos, en algún momento los investigadores “encontrarán” algo. A lo mejor resulta que en el quinto ensayo clínico se observó que la sustancia S producía una reducción significativa de las nauseas matutinas en las embarazadas mayores de 37 años. Lo más probable es que la farmacéutica publique sólo este estudio, sin mencionar que se hicieron otros cuatro ensayos clínicos antes con resultados nulos o que en la muestra había también otros grupos de edad para los que la mejoría no fue significativa. El resultado de estas prácticas es que la literatura científica proporciona una imagen distorsionada de la eficacia de muchos medicamentos.

Afortunadamente, el libro de Goldacre ha provocado tal revuelo que al menos en el Reino Unido se están empezando a tomar medidas para poner fin a esta situación. Si alguna vez te has preguntado si la divulgación científica sirve para algo, Bad Pharma es la prueba de que sí: a veces los divulgadores pueden cambiar el mundo para mejor. Una lectura imprescindible.

Poderes… estadísticos

La ciencia no es perfecta, pero tiene la perfección como ideal. Una de sus grandezas es precisamente su carácter auto-crítico, que la permite salir fortalecida de cualquier problema o adversidad, incluso de aquellas que la acechan desde dentro. El último año ha sido testigo de profundas polémicas en el seno de la psicología experimental que ilustran a la perfección cómo funciona nuestro “departamento de asuntos internos”. Cuando apenas habíamos empezado a asimilar el caso de fraude de Marc Hauser, hemos tenido que hacer frente al igualmente grave caso de Diederik Stapel. El mismo año se han publicado los experimentos de percepción extrasensorial de Daryl Bem, que para muchos constituyen un signo más de que es necesaria una revisión de nuestros métodos de investigación y de las políticas de publicación que siguen nuestras revistas más prestigiosas. También nos han sorprendido las dificultades para replicar algunos experimentos que se consideraban clásicos; entre ellos, el polémico estudio de Bargh.

Son numerosos los artículos que se han publicado durante este año haciendo una revisión crítica del modo en que funciona el sistema de publicación en ciencia y proponiendo métodos para detectar posibles casos de publicación de resultados poco robustos. A esta corriente pertenece un estudio de Gregory Francis recientemente publicado en Psychonomic Bulletin & Review que propone una sencillísima técnica para medir el grado de publicación selectiva en un área de investigación. Apenas es necesario explicar lo grave que puede ser la publicación selectiva de resultados positivos en cualquier disciplina científica. Imagine que hacemos 1000 estudios para comprobar si existe, por ejemplo, la hipersensibilidad electromagnética. Incluso aunque la hipersensibilidad electromagnética no exista (tal y como parece indicar toda la evidencia científica), habrá pequeñas fluctuaciones en los resultados de estos experimentos debidas al simple azar. Esto hará que un pequeño puñado de estudios arrojen resultados positivos: Es decir incluso si la hipersensibilidad electromagnética no existe, unos pocos estudios parecerán indicar que sí existe. Pongamos que de los 1000 estudios 950 concluyen que el efecto no existe y que los otros 50 concluyen que sí existe. A partir de estos resultados parece bastante sencillo intuir cuál es la realidad del fenómeno. Ahora bien, imagine que aunque hemos realizado 1000 estudios, las revistas científicas se niegan a publicar todos los que tienen resultados negativos y consecuentemente se publican sólo esos 50 estudios “positivos”. ¿Cuál es la impresión que se transmite a quien revisa esa literatura?

Por desgracia esto sucede con relativa frecuencia. En parte porque las revistas prefieren publicar estudios donde se demuestra que existe algo. (Demostrar que algo no existe no vende; es como aquello de “perro muerde a hombre”.) Pero a este problema de las revistas se suma que cuando un investigador quiere demostrar un fenómeno y tiene muchos estudios sobre el mismo, es probable que considere más “representativos” los estudios en los que se observa ese efecto que los estudios en los que no se observa. Aunque sería el ideal, ningún investigador es un testigo neutral de los resultados de sus experimentos.

Afortunadamente, disponemos de diversas técnicas que nos permiten saber cuándo existe un problema de publicación selectiva. El artículo de Francis propone un método sencillo que se basa en la idea de poder estadístico. Técnicamente, el poder estadístico de un estudio se define como la probabilidad de que los resultados de un estudio rechacen una hipótesis nula que es falsa. Simplificando esta definición: El poder estadístico es la probabilidad de que un estudio detecte un efecto que realmente existe. Uno de los parámetros de los que más depende ese poder estadístico es el número de observaciones que se hacen en un estudio.

Aunque parezca un concepto muy abstracto, es muy fácil de entender mediante un ejemplo. Imagina que tenemos una moneda trucada que da caras el 70% de las veces. Nosotros en realidad no sabemos aún si la moneda está trucada o no. Nuestro trabajo es precisamente averiguarlo. Así que tiramos esa moneda al aire unas cuantas veces para ver lo que pasa. Imagine que la tiramos 10 veces y salen 7 caras. ¿Es esto prueba de que la moneda está trucada? Pues la verdad es que no. Porque aunque se tratara de una moneda normal, es muy fácil que el azar haga que nos salgan 7 caras y 3 cruces. Ahora bien, imagine que hemos tirado la moneda 1000 veces y nos han salido 700 caras y 300 cruces. ¿Podemos concluir ahora que la moneda está trucada? Efectivamente, podemos hacerlo casi con total seguridad. La razón es que cuando tiramos la moneda sólo 10 veces, es muy probable que el azar tenga un efecto muy importante en el número de caras y cruces que nos salen. Pero a medida que incrementamos el número de observaciones es cada vez menos y menos probable que el patrón de resultados se vea muy influido por el azar. En otras palabras, sería  muy raro que el azar conspirara contra nosotros en 1000 ocasiones. Pues bien, eso que cambia entre tener 10 observaciones y 1000 observaciones es precisamente el poder estadístico. Cuantas más observaciones hagamos, tanto más probable es que cualquier efecto que veamos en los datos sea un efecto real y no un artificio del azar.

El lado oscuro del poder estadístico es que si un estudio tiene poco poder estadístico (es decir, si se basa en pocas observaciones), entonces a veces no conseguirá establecer a ciencia cierta si existe un efecto o no. Y es precisamente aquí donde el concepto de poder estadístico puede ser útil para ver si hay un problema de publicación selectiva en un área. Si los estudios de un área tienen poco poder estadístico, entonces esperaremos encontrar algunos resultados negativos, aunque el efecto que se esté estudiando exista realmente. Volviendo a los experimentos de Bem, esto implica, por ejemplo, que si la percepción extrasensorial existe y los estudios sobre ella tienen un poder estadístico del 80% entonces deberíamos esperar que la percepción extrasensorial se detectara en un 80% de los datos.

Pues bien, el artículo de Francis observa que en el caso de la percepción extrasensorial, el número de “éxitos” que se observan en los experimentos de Bem es mayor que el que sería esperable dado el poder estadístico de esos experimentos. Es decir, dado ese poder estadístico y asumiendo que la percepción extrasensorial existe, sería extremadamente poco probable tener tantos resultados positivos. Luego, “something is rotten in the state of Denmark”.

__________

Francis, G. (2012). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151-156. doi: 10.3758/s13423-012-0227-9

La ciencia de bocado engorda más

Una nueva moda ha invadido la ciencia durante los últimos cinco años: el brief report. A la costumbre tradicional de agrupar en cada artículo varios experimentos con evidencia convergente sobre un fenómeno le ha sucedido una tendencia cada vez más acusada a publicar artículos cortos en los que la introducción teórica se reduce al mínimo indispensable, el número de experimentos se limita a uno o dos y las discusiones teóricas van directamente al grano, sin florituras. Las ventajas de este tipo de publicaciones son muchas; sobre todo que los revisores pueden evaluar el artículo más rápidamente, los artículos aceptados ven la luz antes y la comunidad científica no necesita perder mucho tiempo para leer la versión definitiva. Algunos investigadores también han estimado que aunque el índice de impacto de las revistas que publican estos artículos breves tiende a ser más bajo, el índice de impacto por página es sin embargo mayor, lo que sugiere que en realidad estos artículos funcionan mejor a la hora de transmitir las ideas a la audiencia y estimular nueva investigación. Sin embargo, esta moda no está exenta de peligros. En un artículo (paradójicamente breve) que acaba de ver la luz en Perspectives on Psychological Science, Bertamini y Munafò reflexionan sobre el posible impacto negativo de los brief reports.

En primer lugar, muchas de las ventajas de estos artículos son cuestionables. Por ejemplo, el mayor índice de impacto por página que tienen estas revistas podría ser una consecuencia de que los autores dividan en varios artículos trabajos que en realidad deberían publicarse en un único artículo. Si esos diversos artículos se citan siempre juntos, eso puede producir la impresión de que ese trabajo tiene más impacto: una única idea genera varias citas. Pero sería una mera ilusión de impacto. Además, aunque los artículos breves conllevan menos trabajo para los editores y los revisores de las revistas científicas, a nivel global se multiplica el número de artículos que los investigadores envían a publicar, con lo cual en realidad se está aumentando el tiempo que se dedica colectivamente a estas tareas, aunque se esté reduciendo el trabajo por artículo individual.

En segundo lugar, este tipo de artículos breves tiene más probabilidades de arrojar falsos positivos. Por una parte, como se dan datos únicamente de uno o dos experimentos, no queda claro que los resultados que ahí aparezcan sean fácilmente replicables. Bertamini y Munafò observan que los brief reports no sólo incluyen menos experimentos, sino que además estos experimentos suelen tener muestras más pequeñas, lo que de nuevo favorece que aparezcan falsos positivos asociados a la falta de poder estadístico.

Las revistas pueden tener interés a corto plazo en favorecer estos informes breves de experimentos realizados con muestras pequeñas. Sus índices de impacto suben con el número de citas. Así que les interesa publicar artículos fáciles de leer y que generen polémica, independientemente de que se produzca porque otros autores repliquen los resultados o porque no consigan hacerlo. No en vano, los autores de este estudio observan que existe una correlación entre el índice de impacto de una revista y el grado en el que sus artículos exageran el tamaño real de los efectos que estudian. En otras palabras, las revistas pueden tener interés en vender “aire” porque aunque eso no haga progresar la ciencia, sí que genera citas y discusión.

La solución a estos problemas pasa por medir el impacto de las revistas no sólo por el número de citas que obtienen, sino también por otros criterios de calidad como la replicabilidad de sus resultados y los sesgos de publicación que puedan observarse entre sus artículos. También abogan por sustituir el actual énfasis en la cantidad de publicaciones por una mejor valoración de su calidad. En este sentido, destacan la política del Research Excellence Framwork del Reino Unido que desde hace unos años valora la producción científica de los departamentos y de los candidatos a diferentes puestos teniendo en cuenta únicamente las cuatro mejores publicaciones de los investigadores, de modo que se les incentiva para primar la calidad sobre la cantidad.

__________

Bertamini, M., & Munafò, M. R. (2012). Bite-size science and its undesired side effects. Perspectives on Psychological Science, 7, 67-71.