Antidoping para la ciencia

Imagina que estás realizando tu tesis doctoral y que, tras dos meses de arduo trabajo, acabas de recoger todos los datos de un experimento en el que pones a prueba, qué sé yo, si administrar sustancia X afecta al estado emocional de un grupo de pacientes con estrés post-traumático. Metes todos tus datos en un programa informático, ejecutas los comandos necesarios para comparar los datos del grupo experimental con los del grupo de control y, tras un redoble de tambor que suena sólo en tu mente, descubres de la significación estadística de la diferencia es… p = 0.057.

Lo que iba a ser un día feliz se ha venido abajo. Según lo que te han enseñado en clase de estadística, no has descubierto nada de nada. No hay razones para pensar que la sustancia influye en el estado anímico, porque para poder sospechar que existe esa relación, el valor de esa p debería ser menor de 0.05. Estuviste cerca, pero fallaste. ¿O tal vez no? ¿Y si resulta que estás en lo cierto, que esa sustancia tiene el efecto que tú crees pero a tu experimento le falta lo que llamamos “poder estadístico”? ¿Y si simplemente necesitas recoger más datos para confirmar tus sospechas?

Los científicos nos enfrentamos muy habitualmente a situaciones como estas y casi siempre tomamos la misma decisión: Ampliar nuestra muestra para ver hacia dónde se mueve esa p. Parece algo inocente. Al fin y al cabo, ¿cómo puede conducirnos a engaño basar nuestras conclusiones en más datos? Sin embargo, actuar así tiene sus riesgos. En principio, siguiendo rigurosamente los cánones de la metodología científica, antes de hacer un experimento deberíamos decidir cuántas observaciones vamos a realizar y después deberíamos creernos lo que salga de esa muestra. Hacer lo contrario, analizar los datos cuando tenemos parte de la muestra y ampliarla más o menos según lo que nos vayan diciendo esos análisis, es peligroso porque puede arrojar falsos positivos: Supone incrementar el riesgo de que esa p sea menor que 0.05 se deba al simple azar y no a que hayamos descubierto una diferencia realmente significativa. Pero el proceso no está libre de ambigüedades porque, para empezar, ¿cómo sabemos a priori cuál es el tamaño ideal para nuestra muestra?

En un interesantísimo artículo que acaba de publicarse en Psychological Science, Joseph Simmons, Leif Nelson y Uri Simonsohn, nos muestran hasta qué punto pueden ser dañinas estas prácticas y otras similares, tales como omitir información sobre algunas variables dependientes en favor de otras, decidir si realizar un análisis teniendo o sin tener en cuenta una covariable, o informar sólo de los grupos que mejor se ajustan a los resultados deseados. Mediante una simulación informática muestran que si los investigadores se permiten recurrir libremente a estas estrategias, las posibilidades de que los datos lleguen a reflejar relaciones inexistentes crecen de una forma vertiginosa. De hecho, llegan a estimar que recurriendo a la vez a todas ellas, la probabilidad de que una diferencia significativa refleje un falso positivo (que normalmente debería ser del 5%; eso es lo que significa precisamente la p de más arriba) puede llegar al 60.7%.

Por si estas simulaciones no fueran suficiente, los autores recurren a un argumento mucho más didáctico. Realizan dos experimentos en los que violando estas reglas demuestran que la gente se hace más joven (no que se sienta más joven, ¡sino que es más joven literalmente!) tras escuchar “When I’m sixty-four” de los Beatles que tras escuchar “Kalimba” una canción instrumental incluida en el Windows 7. En otras palabras, aunque utilicemos controles experimentales rigurosos y análisis estadísticos robustos y adecuados, permitirnos la libertad de ampliar muestra a nuestro antojo, seleccionar los grupos o las variables dependientes más favorables o realizar los análisis que nos parezcan mejores a posteriori, puede permitirnos demostrar cualquier cosa y su contraria. Esta conclusión viene a coincidir con la que hace unos años expresaba Ioannidis en un popular artículo cuyo nombre lo decía todo: Why most published research findings are false.

El artículo de Simmons y colaboradores concluye con una serie de recomendaciones a los investigadores y a los revisores de revistas científicas para reducir el peligro de obtener falsos positivos. Lo que sugieren, básicamente, se reduce a pedir a los autores que sean más transparentes con las medidas que realizan, con el número de grupos que utilizaron, con el criterio que siguieron a la hora de decidir el tamaño muestral y con los resultados que tienen cuando los análisis se realizan de diferentes maneras. Los revisores, lógicamente, tienen que asegurarse de que se cumpla con estos estándares. Pero también les lanza una recomendación importante: deberían ser más tolerantes con las imperfecciones de los resultados. Al fin y al cabo, si el experimento de más arriba se hubiera podido publicar con esa p = 0.057, la historia habría terminado ahí.

__________

Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2, e124.

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366.

8 thoughts on “Antidoping para la ciencia”

David Herrero says:

22/12/2011 at 10:31 pm

Artículo muy instructivo y ameno, Miguel, como todos los que he leído en esta página desde que me suscribí!! Este tema me parece especialmente interesante. Hace no mucho puse en mi frase de Skype: “Pocas cosas determinan tanto el estado de ánimo de un investigador como una letra: la “p” “. Últimamente me fijo bastante en el tamaño del efecto, por ejemplo para decidir si en un estudio me merece la pena aumentar la “n” o si mejor le doy sepultura. Y luego, claro, el tema de la selección muestral. Quizás en básica no sea tan relevante, porque al fin y al cabo muchos procesos básicos, como el aprendizaje, funcionan parecido más o menos independientemente de la edad… Pero que se haga, por poner un ejemplo, adaptación de cuestionarios con estudiantes y se valide como “adaptación española sin especificar que se ha hecho la validación en esa población concreta, no deja de ser un artefacto.

En fin, enhorabuena y gracias por estos artículos que nos regalas!!
Feliz Navidad y buen año!

mvadillo says:

23/12/2011 at 9:43 am

La verdad es que estuve pensando en esa frase en tu skype todo el rato mientras escribía el post! Al final no es nada fácil decidir qué hacer. Mi opinión personal es que si la p se aproxima a 0.05, aunque los metodólogos digan lo contrario es mejor ampliar muestra. Es verdad que eso aumenta la probabilidad de error Tipo I, pero no menos peligroso es el error Tipo II. Si simplemente aceptas que tu hipótesis no es válida y te la guardas en el cajón sin darle una segunda oportunidad, estás impidiendo que otras personas puedan valorar tu idea y ponerla a prueba independientemente. En realidad, lo ideal sería que las revistas fueran más flexibles con el criterio de significación y que nos centráramos más en el tamaño del efecto y en intentar replicar efectos en varios estudios independientes. Este tema creo que merece un post propio. De todas formas, lo que comentas de validar cuestionarios con muestras de estudiantes y luego no concretar las características sí que es harina de otro costal… En fin. Disfruta de las Navidades, David! Nos vemos pronto!

Nerea Ortega says:

27/12/2011 at 5:36 pm

Muy buen artículo (como viene siendo habitual) y sobre todo señalar que conlleva una buena dosis de reflexión que en el campo de la investigación se hace cada vez más necesario.

Es injusto que la p nos modifique tanto el éxito académico y laboral, pero es vital que funcionemos bajo el mayor rigor científico. En mi caso a partir de ahora, n=50 y que sea lo que Tolkien quiera :)

mvadillo says:

27/12/2011 at 6:41 pm

Muchas gracias, Neretxo! Tolkien no permitirá que nos salgan más experimentos con p = .053 ;-)

Ulf says:

26/01/2012 at 12:27 pm

Nice summary of new articles about a well-known problem in some areas of Psychology. It highlights the importance of a solid methodological education and clean practices in laboratories.
So MAV, how is your practice regarding the rule “Authors must report all experimental conditions, including failed manipulations.”? ;-)

mvadillo says:

26/01/2012 at 8:26 pm

“Failed manipulations”? Ummm… never seen one… ;)
Thanks a lot for reading the blog, Ulf. I hope you like it!

Pingback: Presintiendo el futuro… de la psicología « de mente
Pingback: ¿El ocaso del priming social? | mvadillo.com