Antidoping para la ciencia

Imagina que estás realizando tu tesis doctoral y que, tras dos meses de arduo trabajo, acabas de recoger todos los datos de un experimento en el que pones a prueba, qué sé yo, si administrar sustancia X afecta al estado emocional de un grupo de pacientes con estrés post-traumático. Metes todos tus datos en un programa informático, ejecutas los comandos necesarios para comparar los datos del grupo experimental con los del grupo de control y, tras un redoble de tambor que suena sólo en tu mente, descubres de la significación estadística de la diferencia es… p = 0.057.

Lo que iba a ser un día feliz se ha venido abajo. Según lo que te han enseñado en clase de estadística, no has descubierto nada de nada. No hay razones para pensar que la sustancia influye en el estado anímico, porque para poder sospechar que existe esa relación, el valor de esa p debería ser menor de 0.05. Estuviste cerca, pero fallaste. ¿O tal vez no? ¿Y si resulta que estás en lo cierto, que esa sustancia tiene el efecto que tú crees pero a tu experimento le falta lo que llamamos “poder estadístico”? ¿Y si simplemente necesitas recoger más datos para confirmar tus sospechas?

Los científicos nos enfrentamos muy habitualmente a situaciones como estas y casi siempre tomamos la misma decisión: Ampliar nuestra muestra para ver hacia dónde se mueve esa p. Parece algo inocente. Al fin y al cabo, ¿cómo puede conducirnos a engaño basar nuestras conclusiones en más datos? Sin embargo, actuar así tiene sus riesgos. En principio, siguiendo rigurosamente los cánones de la metodología científica, antes de hacer un experimento deberíamos decidir cuántas observaciones vamos a realizar y después deberíamos creernos lo que salga de esa muestra. Hacer lo contrario, analizar los datos cuando tenemos parte de la muestra y ampliarla más o menos según lo que nos vayan diciendo esos análisis, es peligroso porque puede arrojar falsos positivos: Supone incrementar el riesgo de que esa p sea menor que 0.05 se deba al simple azar y no a que hayamos descubierto una diferencia realmente significativa. Pero el proceso no está libre de ambigüedades porque, para empezar, ¿cómo sabemos a priori cuál es el tamaño ideal para nuestra muestra?

En un interesantísimo artículo que acaba de publicarse en Psychological Science, Joseph Simmons, Leif Nelson y Uri Simonsohn, nos muestran hasta qué punto pueden ser dañinas estas prácticas y otras similares, tales como omitir información sobre algunas variables dependientes en favor de otras, decidir si realizar un análisis teniendo o sin tener en cuenta una covariable, o informar sólo de los grupos que mejor se ajustan a los resultados deseados. Mediante una simulación informática muestran que si los investigadores se permiten recurrir libremente a estas estrategias, las posibilidades de que los datos lleguen a reflejar relaciones inexistentes crecen de una forma vertiginosa. De hecho, llegan a estimar que recurriendo a la vez a todas ellas, la probabilidad de que una diferencia significativa refleje un falso positivo (que normalmente debería ser del 5%; eso es lo que significa precisamente la p de más arriba) puede llegar al 60.7%.

Por si estas simulaciones no fueran suficiente, los autores recurren a un argumento mucho más didáctico. Realizan dos experimentos en los que violando estas reglas demuestran que la gente se hace más joven (no que se sienta más joven, ¡sino que es más joven literalmente!) tras escuchar “When I’m sixty-four” de los Beatles que tras escuchar “Kalimba” una canción instrumental incluida en el Windows 7. En otras palabras, aunque utilicemos controles experimentales rigurosos y análisis estadísticos robustos y adecuados, permitirnos la libertad de ampliar muestra a nuestro antojo, seleccionar los grupos o las variables dependientes más favorables o realizar los análisis que nos parezcan mejores a posteriori, puede permitirnos demostrar cualquier cosa y su contraria. Esta conclusión viene a coincidir con la que hace unos años expresaba Ioannidis en un popular artículo cuyo nombre lo decía todo: Why most published research findings are false.

El artículo de Simmons y colaboradores concluye con una serie de recomendaciones  a los investigadores y a los revisores de revistas científicas para reducir el peligro de obtener falsos positivos. Lo que sugieren, básicamente, se reduce a pedir a los autores que sean más transparentes con las medidas que realizan, con el número de grupos que utilizaron, con el criterio que siguieron a la hora de decidir el tamaño muestral y con los resultados que tienen cuando los análisis se realizan de diferentes maneras. Los revisores, lógicamente, tienen que asegurarse de que se cumpla con estos estándares. Pero también les lanza una recomendación importante: deberían ser más tolerantes con las imperfecciones de los resultados. Al fin y al cabo, si el experimento de más arriba se hubiera podido publicar con esa p = 0.057, la historia habría terminado ahí.

__________

Ioannidis, J. P. A. (2005). Why most published research findings are false. PLoS Medicine, 2, e124.

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22, 1359-1366.

Cuando la evidencia científica es contradictoria

En todas las discusiones entre los defensores de una pseudociencia y sus adversarios resulta sorprendente comprobar cómo tanto uno como otro bando defienden tener la evidencia científica de su lado. Esto es particularmente frecuente en las discusiones sobre la eficacia de la homeopatía. Los defensores de esta “terapia” se defienden trayendo a colación los resultados de estudios científicos que observan un efecto beneficioso de la homeopatía, mientras que los escépticos invocan también a la propia ciencia para defender que la homeopatía es un fraude. Este tipo de situaciones invita a pensar que alguien miente. ¿O tal vez no?

Lo cierto es que en cualquier situación en la que el azar juegue un papel importante es perfectamente plausible que la evidencia científica arroje resultados tanto a favor como en contra de una determinada hipótesis. Lo interesante es ver qué sucede cuando se tiene en cuenta toda la evidencia disponible (en lugar de estudios aislados) e intentar encontrar qué variables pueden estar determinando que se observe uno u otro resultado.

Figura 1

En el caso de la homeopatía, disponemos de muchos y muy buenos meta-análisis que proporcionan esta información. Uno de mis favoritos es el publicado por Shang y colaboradores (2005) en The Lancet. Los resultados de ese estudio se pueden resumir con una gráfica como la que puede verse a la izquierda. (Confieso que son datos inventados; pero nadie me negará el parecido con la Figura 2 del artículo de Shang y colaboradores.)

Lo que este gráfico nos muestra es a) que efectivamente hay muchos estudios cuyo resultado sugiere que la homeopatía tiene un efecto terapéutico (puntos por encima de la línea 0), b) que efectivamente hay muchos estudios que muestran que la homeopatía no tuvo efectos (puntos cercanos a la línea 0), y c) que la principal diferencia entre unos y otros es la calidad metodológica del estudio (si se utilizó o no un control de doble ciego, cómo de grande era la muestra…). Si se trata de saber si la homeopatía es efectiva o no, con estos datos debería ser suficiente para obtener una respuesta: No. Los únicos estudios que muestran un efecto son los que tienen problemas metodológicos o muestras muy pequeñas. Cuando se consideran sólo los resultados de los mejores estudios, el efecto terapéutico no es significativamente diferente de 0.

Sin embargo, la gráfica anterior me interesa por un segundo motivo. Es de sentido común que los estudios que se basan en muestras más grandes arrojen datos más seguros. (Por eso ningún científico serio se cree del todo los resultados de ningún estudio con muestras pequeñas.) Cuando las muestras son pequeñas lo normal es que los resultados estén muy influidos por los caprichos del azar y sean por tanto muy variables. Sin embargo, esto no explica por qué en la gráfica anterior se observan resultados sistemáticamente positivos con muestras pequeñas. En otras palabras, ahí no vemos resultados variables, sino resultados consistentemente positivos. ¿A qué podría deberse esto? En realidad se puede deber a muy pocas cosas. Y lo más probable es que se deba a lo siguiente.

Imagina que en lugar de discutir sobre si la homeopatía funciona o no, estamos discutiendo sobre si una moneda está trucada o no. Tú dices que sí lo está, que salen más caras que cruces. Yo digo que no lo está. Así que para descubrir quién tiene razón probamos a tirar la moneda al aire unas cuantas veces. A veces, tiramos la moneda al aire 10 veces y vemos qué pasa. Otras veces tiramos la moneda al aire 15 veces y vemos qué pasa. Otras veces 20, otras 25, y así sucesivamente. Probablemente, si organizamos estos datos en una gráfica como la anterior, obtendremos unos resultados similares a los de la Figura 2.

Figura 2

Es decir, que cuando hacemos tiradas cortas, los resultados son muy variables. A veces obtenemos una proporción de caras muy por encima o muy por debajo de 0.50, aunque la media tiende a mantenerse en 0.50. Cuando hacemos tiradas más largas, los resultados son menos variables: La proporción de caras oscila poco en torno a ese mismo 0.50. ¿Qué sugieren estos datos? Pues que la moneda no está trucada.

Ahora bien, imaginemos que hacemos este experimento de una forma un poco diferente. En primer lugar, imagina que no tenemos una simple curiosidad desinteresada por saber si la moneda está trucada o no, sino que nos jugamos algo en ello. Por ejemplo, tú has apostado 200 euros a que salen más caras que cruces y yo me apuesto lo mismo a que no. Imaginemos además que el encargado de tirar la moneda y ver qué sale eres tú. Lo haces en tu casa y me vas contando por teléfono lo que te sale. Yo voy apuntando lo que me dices en una hoja de Excel y al final tengo una gráfica como la Figura 3.

Figura 3

Así, de buenas a primeras, parece que en la mayor parte de las tiradas hemos sacado más caras que cruces. Parece que tú ganas. Estoy casi tentado de acercarme al cajero para sacar tus 200 euros, cuando caigo en la cuenta de que la Figura 3 es exactamente igual a la 2 salvo que faltan algunos datos contrarios a tu hipótesis. ¿No parece más bien que has ido probando la moneda en casa y me has comentado sólo los resultados de las tiradas que te favorecían?

Efectivamente, cuando tenemos datos como los que aparecen en las Figuras 1 ó 3 podemos sospechar con toda legitimidad que se está omitiendo información. Es decir que los resultados de los ensayos homeopáticos como los que aparecen en la Figura 1 sugieren que no se están publicando todos los datos. Probablemente existen ensayos clínicos con muestras pequeñas que también han encontrado efectos nulos (¡o incluso negativos!) para la homeopatía, pero estos datos nunca han visto la luz.

Por el ejemplo que he utilizado, muchos estarán interpretando que acuso a los investigadores de la homeopatía de esconder a propósito datos que van contra la propia homeopatía. Seguro que algunos lo hacen. Pero no creo que toda la cuestión se pueda achacar a la falta de honestidad científica, ni creo que sea el motivo más importante de esta omisión de datos. Como cualquier investigador sabe, es muy difícil que una revista se anime a publicar estudios cuyo resultado es nulo, estudios donde no se demuestra que algo sea diferente de otra cosa. De la misma forma que “perro muerde a hombre” no es noticia, normalmente demostrar que “el tratamiento A no funciona” o que “el efecto X no se observa” raramente despierta el interés de la comunidad. Yo mismo tengo un archivador repleto de experimentos con resultados de experimentos nulos que nunca serán dados a conocer. Si tuviera la más mínima esperanza de que pudieran publicarse en una revista medianamente digna, ahora mismo estaría exhumándolos del archivo .RAR en el que están enterrados. Pero sé que no es así.

El resultado de esta política es lo que se suele denominar publicación selectiva, un importante problema de la investigación científica. Como se publican sobre todo los estudios que obtienen resultados muy significativos, la literatura científica suele exagerar el tamaño real que tienen algunos efectos. El problema es tan ubicuo que algún estudio ha llegado a sugerir que podría haber publicación selectiva de artículos sobre publicación selectiva (Dubben & Beck-Bornholdt, 2005). Afortunadamente disponemos de las técnicas de meta-análisis para saber cuándo puede estar pasando y para calcular el tamaño del sesgo. ¡Larga vida al meta-análisis!

__________

Dubben, H.-H., & Beck-Bornholdt, H.-P. (2005). Systematic review of publication bias in studies on publication bias. British Medical Journal, 331, 433–434.

Shang, A., Huwiler-Müntener, K., Nartey, L., Jüni, P., Dörig, S., Sterne, J. A. C., Pewsner, D., & Egger, M. (2005). Are the clinical effects of homeopathy placebo effects? Comparative study of placebo-controlled trials of homeopathy and allopathy. The Lancet, 366, 726-732.