Demasiado bonito para ser cierto

O al menos esa es la conclusión a la que llega Gregory Francis en su último y fulminante artículo sobre los sesgos de publicación en las revistas de psicología. El dedo acusador señala en esta ocasión a la prestigiosa Psychological Science. Aplicando un sencillo análisis estadístico a 44 artículos publicados entre 2009 y 2012, Francis ha encontrado que el número de resultados significativos es excesivamente alto en el 82% de ellos. La idea en la que se basa el análisis no puede ser más simple. Imagina que un artículo contiene cuatro experimentos y todos ellos obtienen resultados significativos. ¿Cuál es la probabilidad de que esto suceda? Es fácil calcularlo si uno conoce la potencia estadística de cada experimento. Si, por ejemplo, la potencia de los cuatro experimentos es de 0.75, 0.80, 0.90 y 0.85, entonces la probabilidad de que todos ellos arrojen resultados significativos es 0.75 x 0.80 x 0.90 x 0.85, es decir, 0.459. Se trata de un número razonable y plausible. Ahora bien, si la potencia de los experimentos hubiera sido, por ejemplo, 0.60, 0.70, 0.50 y 0.45, entonces la probabilidad de que todos ellos hubieran tenido resultados significativos habría sido 0.095. En general, cuando esta probabilidad es menor de 0.10 se considera que el número de resultados significativos es demasiado alto para lo que cabría esperar por azar y se entiende que debe haber tenido lugar un problema de publicación selectiva, p-hacking o simple fraude. O eso, o que la suerte está jugando una pasada muy mala. No es nada tranquilizador saber que la inmensa mayoría de los artículos publicados en Psychological Science sale mal parada en esta prueba. Menos aún si se tiene en cuenta que no es la primera vez que estudios como este ponen el prestigio de la revista en entredicho.

__________

Francis, G. (2014). The frequency of excess success for articles in Psychological Science. Psychonomic Bulletin & Review, 21, 1180-1187.

Advertisements

Las neurociencias y el gatillazo estadístico

Los estudios de neurociencias son al clásico experimento de psicología lo que un crucero por las Bahamas a un viaje en interrail. Extremadamente caros. Pagar a los participantes por desplazarse hasta el laboratorio, pagar por el uso del fMRI, pasar cientos de horas analizando datos… Todo ello supone dinero, dinero y más dinero. En muchos laboratorios donde se hacen experimentos con ERPs hasta contratan un servicio de peluquería para adecentar al pobre participante, que termina el experimento con la cabeza llena de gel. Una consecuencia directa del elevado coste es que los investigadores, lógicamente, intentan ahorra dinero por todas partes. Si el experimento puede hacerse con diez personas, mejor que con treinta. ¿Verdad? Continúa leyendo en Psicoteca

Poderes… estadísticos

La ciencia no es perfecta, pero tiene la perfección como ideal. Una de sus grandezas es precisamente su carácter auto-crítico, que la permite salir fortalecida de cualquier problema o adversidad, incluso de aquellas que la acechan desde dentro. El último año ha sido testigo de profundas polémicas en el seno de la psicología experimental que ilustran a la perfección cómo funciona nuestro “departamento de asuntos internos”. Cuando apenas habíamos empezado a asimilar el caso de fraude de Marc Hauser, hemos tenido que hacer frente al igualmente grave caso de Diederik Stapel. El mismo año se han publicado los experimentos de percepción extrasensorial de Daryl Bem, que para muchos constituyen un signo más de que es necesaria una revisión de nuestros métodos de investigación y de las políticas de publicación que siguen nuestras revistas más prestigiosas. También nos han sorprendido las dificultades para replicar algunos experimentos que se consideraban clásicos; entre ellos, el polémico estudio de Bargh.

Son numerosos los artículos que se han publicado durante este año haciendo una revisión crítica del modo en que funciona el sistema de publicación en ciencia y proponiendo métodos para detectar posibles casos de publicación de resultados poco robustos. A esta corriente pertenece un estudio de Gregory Francis recientemente publicado en Psychonomic Bulletin & Review que propone una sencillísima técnica para medir el grado de publicación selectiva en un área de investigación. Apenas es necesario explicar lo grave que puede ser la publicación selectiva de resultados positivos en cualquier disciplina científica. Imagine que hacemos 1000 estudios para comprobar si existe, por ejemplo, la hipersensibilidad electromagnética. Incluso aunque la hipersensibilidad electromagnética no exista (tal y como parece indicar toda la evidencia científica), habrá pequeñas fluctuaciones en los resultados de estos experimentos debidas al simple azar. Esto hará que un pequeño puñado de estudios arrojen resultados positivos: Es decir incluso si la hipersensibilidad electromagnética no existe, unos pocos estudios parecerán indicar que sí existe. Pongamos que de los 1000 estudios 950 concluyen que el efecto no existe y que los otros 50 concluyen que sí existe. A partir de estos resultados parece bastante sencillo intuir cuál es la realidad del fenómeno. Ahora bien, imagine que aunque hemos realizado 1000 estudios, las revistas científicas se niegan a publicar todos los que tienen resultados negativos y consecuentemente se publican sólo esos 50 estudios “positivos”. ¿Cuál es la impresión que se transmite a quien revisa esa literatura?

Por desgracia esto sucede con relativa frecuencia. En parte porque las revistas prefieren publicar estudios donde se demuestra que existe algo. (Demostrar que algo no existe no vende; es como aquello de “perro muerde a hombre”.) Pero a este problema de las revistas se suma que cuando un investigador quiere demostrar un fenómeno y tiene muchos estudios sobre el mismo, es probable que considere más “representativos” los estudios en los que se observa ese efecto que los estudios en los que no se observa. Aunque sería el ideal, ningún investigador es un testigo neutral de los resultados de sus experimentos.

Afortunadamente, disponemos de diversas técnicas que nos permiten saber cuándo existe un problema de publicación selectiva. El artículo de Francis propone un método sencillo que se basa en la idea de poder estadístico. Técnicamente, el poder estadístico de un estudio se define como la probabilidad de que los resultados de un estudio rechacen una hipótesis nula que es falsa. Simplificando esta definición: El poder estadístico es la probabilidad de que un estudio detecte un efecto que realmente existe. Uno de los parámetros de los que más depende ese poder estadístico es el número de observaciones que se hacen en un estudio.

Aunque parezca un concepto muy abstracto, es muy fácil de entender mediante un ejemplo. Imagina que tenemos una moneda trucada que da caras el 70% de las veces. Nosotros en realidad no sabemos aún si la moneda está trucada o no. Nuestro trabajo es precisamente averiguarlo. Así que tiramos esa moneda al aire unas cuantas veces para ver lo que pasa. Imagine que la tiramos 10 veces y salen 7 caras. ¿Es esto prueba de que la moneda está trucada? Pues la verdad es que no. Porque aunque se tratara de una moneda normal, es muy fácil que el azar haga que nos salgan 7 caras y 3 cruces. Ahora bien, imagine que hemos tirado la moneda 1000 veces y nos han salido 700 caras y 300 cruces. ¿Podemos concluir ahora que la moneda está trucada? Efectivamente, podemos hacerlo casi con total seguridad. La razón es que cuando tiramos la moneda sólo 10 veces, es muy probable que el azar tenga un efecto muy importante en el número de caras y cruces que nos salen. Pero a medida que incrementamos el número de observaciones es cada vez menos y menos probable que el patrón de resultados se vea muy influido por el azar. En otras palabras, sería  muy raro que el azar conspirara contra nosotros en 1000 ocasiones. Pues bien, eso que cambia entre tener 10 observaciones y 1000 observaciones es precisamente el poder estadístico. Cuantas más observaciones hagamos, tanto más probable es que cualquier efecto que veamos en los datos sea un efecto real y no un artificio del azar.

El lado oscuro del poder estadístico es que si un estudio tiene poco poder estadístico (es decir, si se basa en pocas observaciones), entonces a veces no conseguirá establecer a ciencia cierta si existe un efecto o no. Y es precisamente aquí donde el concepto de poder estadístico puede ser útil para ver si hay un problema de publicación selectiva en un área. Si los estudios de un área tienen poco poder estadístico, entonces esperaremos encontrar algunos resultados negativos, aunque el efecto que se esté estudiando exista realmente. Volviendo a los experimentos de Bem, esto implica, por ejemplo, que si la percepción extrasensorial existe y los estudios sobre ella tienen un poder estadístico del 80% entonces deberíamos esperar que la percepción extrasensorial se detectara en un 80% de los datos.

Pues bien, el artículo de Francis observa que en el caso de la percepción extrasensorial, el número de “éxitos” que se observan en los experimentos de Bem es mayor que el que sería esperable dado el poder estadístico de esos experimentos. Es decir, dado ese poder estadístico y asumiendo que la percepción extrasensorial existe, sería extremadamente poco probable tener tantos resultados positivos. Luego, “something is rotten in the state of Denmark”.

__________

Francis, G. (2012). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151-156. doi: 10.3758/s13423-012-0227-9