Antidoping para la ciencia

Imagina que estás realizando tu tesis doctoral y que, tras dos meses de arduo trabajo, acabas de recoger todos los datos de un experimento en el que pones a prueba, qué sé yo, si administrar sustancia X afecta al estado emocional de un grupo de pacientes con estrés post-traumático. Metes todos tus datos en un programa informático, ejecutas los comandos necesarios para comparar los datos del grupo experimental con los del grupo de control y, tras un redoble de tambor que suena sólo en tu mente, descubres de la significación estadística de la diferencia es… p = 0.057.

Lo que iba a ser un día feliz se ha venido abajo. Según lo que te han enseñado en clase de estadística, no has descubierto nada de nada. No hay razones para pensar que la sustancia influye en el estado anímico, porque para poder sospechar que existe esa relación, el valor de esa p debería ser menor de 0.05. Estuviste cerca, pero fallaste. ¿O tal vez no? ¿Y si resulta que estás en lo cierto, que esa sustancia tiene el efecto que tú crees pero a tu experimento le falta lo que llamamos “poder estadístico”? ¿Y si simplemente necesitas recoger más datos para confirmar tus sospechas?

Los científicos nos enfrentamos muy habitualmente a situaciones como estas y casi siempre tomamos la misma decisión: Ampliar nuestra muestra para ver hacia dónde se mueve esa p. Parece algo inocente. Al fin y al cabo, ¿cómo puede conducirnos a engaño basar nuestras conclusiones en más datos? Sin embargo, actuar así tiene sus riesgos. En principio, siguiendo rigurosamente los cánones de la metodología científica, antes de hacer un experimento deberíamos decidir cuántas observaciones vamos a realizar y después deberíamos creernos lo que salga de esa muestra. Hacer lo contrario, analizar los datos cuando tenemos parte de la muestra y ampliarla más o menos según lo que nos vayan diciendo esos análisis, es peligroso porque puede arrojar falsos positivos: Supone incrementar el riesgo de que esa p sea menor que 0.05 se deba al simple azar y no a que hayamos descubierto una diferencia realmente significativa. Pero el proceso no está libre de ambigüedades porque, para empezar, ¿cómo sabemos a priori cuál es el tamaño ideal para nuestra muestra?

En un interesantísimo artículo que acaba de publicarse en Psychological Science, Joseph Simmons, Leif Nelson y Uri Simonsohn, nos muestran hasta qué punto pueden ser dañinas estas prácticas y otras similares, tales como omitir información sobre algunas variables dependientes en favor de otras, decidir si realizar un análisis teniendo o sin tener en cuenta una covariable, o informar sólo de los grupos que mejor se ajustan a los resultados deseados. Mediante una simulación informática muestran que si los investigadores se permiten recurrir libremente a estas estrategias, las posibilidades de que los datos lleguen a reflejar relaciones inexistentes crecen de una forma vertiginosa. De hecho, llegan a estimar que recurriendo a la vez a todas ellas, la probabilidad de que una diferencia significativa refleje un falso positivo (que normalmente debería ser del 5%; eso es lo que significa precisamente la p de más arriba) puede llegar al 60.7%.

Por si estas simulaciones no fueran suficiente, los autores recurren a un argumento mucho más didáctico. Realizan dos experimentos en los que violando estas reglas demuestran que la gente se hace más joven (no que se sienta más joven, ¡sino que es más joven literalmente!) tras escuchar “When I’m sixty-four” de los Beatles que tras escuchar “Kalimba” una canción instrumental incluida en el Windows 7. En otras palabras, aunque utilicemos controles experimentales rigurosos y análisis estadísticos robustos y adecuados, permitirnos la libertad de ampliar muestra a nuestro antojo, seleccionar los grupos o las variables dependientes más favorables o realizar los análisis que nos parezcan mejores a posteriori, puede permitirnos demostrar cualquier cosa y su contraria. Esta conclusión viene a coincidir con la que hace unos años expresaba Ioannidis en un popular artículo cuyo nombre lo decía todo: Why most published research findings are false.

El artículo de Simmons y colaboradores concluye con una serie de recomendaciones  a los investigadores y a los revisores de revistas científicas para reducir el peligro de obtener falsos positivos. Lo que sugieren, básicamente, se reduce a pedir a los autores que sean más transparentes con las medidas que realizan, con el número de grupos que utilizaron, con el criterio que siguieron a la hora de decidir el tamaño muestral y con los resultados que tienen cuando los análisis se realizan de diferentes maneras. Los revisores, lógicamente, tienen que asegurarse de que se cumpla con estos estándares. Pero también les lanza una recomendación importante: deberían ser más tolerantes con las imperfecciones de los resultados. Al fin y al cabo, si el experimento de más arriba se hubiera podido publicar con esa p = 0.057, la historia habría terminado ahí.

__________

Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2, e124.

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366.