p-curves, p-hacking, and p-sychology

replicationPruebe a hacer el siguiente experimento. Haga click sobre el cuadro de texto de Google y comience a escribir “replication crisis”. Con su habitual don de gentes, el buscador enseguida se ofrecerá a auto-completar el término de búsqueda. En ningún caso leerá “replication crisis in physics” o “replication crisis in biology”. No. Google es más listo que eso. Quienes han buscado esos términos en el pasado por lo general han terminado escribiendo “replication crisis in psychology”. Y así nos lo arroja a la cara el simpático rastreador de la web.

El mundo de la psicología se ha hecho un hueco en todas las portadas con sus recientes casos de fraude, sus misteriosas incursiones en el mundo de lo paranormal y, más recientemente, la imposibilidad de replicar uno o dos de sus más famosos y audaces experimentos. La otra parte de esta historia, menos sensacionalista pero más reveladora, es que la psicología también está en la primera línea de combate contra todo aquello que amenace a la integridad de la ciencia, dentro y fuera de sus fronteras. Algunas de las propuestas más ingeniosas para detectar y medir el impacto de las malas prácticas científicas se las debemos a la propia comunidad de investigadores de las ciencias del comportamiento. Una de mis favoritas tiene que ver con el estudio de la llamada curva de valores p.

En la estadística tradicional se procede de una forma un tanto retorcida. Para demostrar que un efecto existe lo que uno hace es asumir que no existe y luego ver cómo de rara sería la evidencia que hemos recogido si se parte de ese supuesto. El parámetro que mide cómo de extraño sería un dato bajo el supuesto de que un efecto no existe es lo que llamamos valor p. (En rigor, lo que mide el valor p es cómo de probable es encontrar un valor tan alejado o más de lo que cabría esperar bajo el supuesto de que la hipótesis nula es cierta.) Para lo que aquí nos interesa, basta con tener en cuenta que, por convención, se considera que uno ha observado un efecto significativo si el valor p de ese efecto es inferior a 0.05. Un valor tan pequeño quiere decir que es muy poco probable que el efecto se deba al puro azar. Que posiblemente hay un efecto real tras esos datos.

Imagine que queremos saber si una píldora reduce el dolor de cabeza. Para ello, hacemos el siguiente experimento. Le pedimos a un grupo de 50 personas que tome esa píldora todos los días y que apunte en una libreta cuándo le duele la cabeza. A otro grupo de personas le pedimos que haga exactamente lo mismo, pero sin que ellos lo sepan le damos un placebo. Después de un par de meses les pedimos que nos envíen las libretas y observamos que a los que han tomado la píldora les ha dolido la cabeza una media de 10 días. Sin embargo a los que han tomado el placebo les ha dolido la cabeza una media de 15 días. ¿Quiere esto decir que la píldora funciona? Bueno. Pues parece que sí. Pero la verdad es que este resultado podría deberse al puro azar. Para saber hasta qué punto se puede deber al azar o no, hacemos un análisis estadístico y nos dice que el valor p que obtenemos al comparar los grupos es, por ejemplo, 0.03. Como ese valor es inferior a 0.05, consideraríamos poco probable que la diferencia entre ambos grupos se deba al simple azar.

Aquí viene lo interesante. ¿Qué pasaría si la píldora realmente funciona y hacemos ese experimento muchas veces? Sin duda, aunque la píldora sea efectiva, el azar también influirá en los resultados. De modo que no siempre obtendremos los mismos datos. Y los análisis estadísticos no siempre arrojarán el mismo valor p. Unas veces será más alto y otras más bajo. Si el experimento se repitiera una y otra vez, la distribución de los valores p que obtendríamos debería parecerse a una curva exponencial en la que la mayor parte de los valores p serían muy pequeños y, sin embargo, habría relativamente menos experimentos que arrojaran valores p cercanos a 0.05. Esa gráfica, representando la distribución ideal de los valores p es lo que se denomina curva-p.

pcurves_psychSciEn condiciones normales, si uno coge los artículos que se publican en las revistas y registra sus valores p, deberían seguir una distribución similar a la que muestra esa curva. Pero, como ya puede imaginarse, no es eso lo que sucede. En el caso de algunas revistas la distribución real de valores p se aleja muy sustancialmente de la distribución ideal. En un estudio reciente, Masicampo y Lalande (2012) trazaron la curva de valores p de tres revistas extremadamente importantes en el ámbito de la psicología: Journal of Experimental Psychology: General, Journal of Personality and Social Psychology y Psychological Science. Los resultados indicaron que en los tres casos los valores p observados diferían significativamente de la distribución ideal. En concreto, en todas ellas había un número sospechosamente alto de valores inmediatamente inferiores a 0.05, que según la distribución ideal deberían ser los más infrecuentes. Como puede verse en la figura de la izquierda, en el caso de Psychological Science, la prevalencia de estos valores apenas significativos es realmente escalofriante.

¿A qué se debe esta distribución anómala de valores p? A que algo huele a podrido en Dinamarca, claro. Estas distribuciones son probablemente el producto de muchas prácticas malsanas en el mundo de la investigación. Una buena parte de la responsabilidad la tienen las propias revistas y sus equipos editoriales. Si un estudio tiene un valor p de 0.049 se publica, pero si tiene un valor p de 0.051 no se publica. No es significativo. ¿Se hace esto porque hay alguna barrera infranqueable entre lo que es mayor o menor de 0.05? En absoluto. El umbral del 0.05 es una pura convención social. La mayor parte de las veces la diferencia entre un estudio con una p = 0.045 y otro con p = 0.055 es el puro azar y nada más. Pero para el investigador hay una diferencia fundamental entre ambos: obtener un 0.045 significa que su trabajo cae dentro de lo convencionalmente aceptado y por tanto se publicará. Y publicarlo supone que el trabajo que ha hecho será conocido y reconocido por la comunidad científica. Y cuando quiera presentarse a una plaza de profesor o pedir un proyecto de investigación su contribución a la ciencia será tenida en cuenta. Obtener un 0.055 significa que el trabajo cae dentro de lo convencionalmente inaceptable. Costará horrores publicarlo o, más probablemente, no se publicará. La comunidad científica no lo conocerá y difícilmente se le valorará al investigador por haber dedicado meses o años de su trabajo a ese estudio.

Lógicamente el investigador que obtienen un valor p feo no se mete las manos en los bolsillos y se queda esperando a tener más suerte con su siguiente proyecto de investigación. Es muy probable que empiece a juguetear con los datos para ver si hay algo que pueda explicar por qué sus resultados no son significativos. Por ejemplo, es posible que descubra que uno de sus pacientes en el grupo que tomaba la píldora tenía un cáncer terminal y que por eso le dolía la cabeza mucho más que al resto. Al meter a ese participante en los análisis se está inflando el dolor de cabeza medio que sienten los miembros del grupo experimental que toma la píldora. ¡Normal que las diferencias no sean del todo significativas! Lo más probable es que el investigador elimine a este participante de la muestra dando por sentado que es un caso anómalo que está contaminando los resultados. Parece algo tan de sentido común que cuesta ver dónde está el problema en hacerlo. Pues bien, el problema es que si ese participante anómalo hubiera resultado estar en el grupo control, el que tomaba el placebo, posiblemente el investigador ni se habría dado cuenta de que existía. Los resultados habrían parecido bonitos desde el principio: habría encontrado las diferencias significativas que esperaba.

En otras palabras, los datos feos tienen más probabilidad de mantenerse en el estudio cuando favorecen la hipótesis del investigador que cuando van en contra. Y lo que esto supone es que si el azar resulta ir en contra del investigador se hacen más intentos por corregirlo que si la suerte conspira para “ayudarle”. Todas estas prácticas de análisis de los datos que permiten al investigador inclinar la balanza a su favor es lo que en la literatura se conoce como p-hacking. Todas ellas suponen una importante amenaza para la integridad de los resultados científicos porque incrementan la probabilidad de que un resultado aparentemente significativo refleje en realidad un falso positivo.

¿Cómo solucionar el problema? Lo cierto es que afortunadamente pueden ensayarse varias soluciones. Pero eso ya es una historia para otra entrada en este blog…

__________

Masicampo, E. J., & Lalande, D. R. (2012). A peculiar prevalance of p values just below .05. Quarterly Journal of Experimental Psychology, 65, 2271-2279.

11 thoughts on “p-curves, p-hacking, and p-sychology

  1. También es cierto que hay un sesgo al analizar los p-valores que aparecen en las revistas, ya que, por lo general los trabajos con p-valores mayores que 0.05 no se publican. Por tanto, entre lo publicado puede darse el doble efecto de que, por un lado el investigador “juguetee” con los datos hasta tner un p-valor inferior y por otro, que a los investigadores honrados no se les publique ese artículo. Es decir, el anómalo número de p-valores por debajo de 0.05 viene de ambas fuentes..

    • Muy cierto. Y de hecho en el resto de gráficas del artículo se observa no sólo que el número de efectos con p inmediatamente por debajo de 0.05 es superior a lo esperable, sino que también se intuye que el número de valores-p ligeramente superiores a 0.05 es menor de lo normal. Supongo que parte de ese efecto se debe a que los investigadores “inflan” valores que están ligeramente por encima y los desplazan así a la zona inferior, pero también a que hay un montón de efectos reales que se quedaron en 0.055 y que las revistas nunca publicaron. No cabe duda de que la política que siguen las revistas de respetar el umbral del 0.05 a rajatabla está siento terriblemente perniciosa.

  2. A veces pienso que la política de las revistas (y revisores) de no aceptar resultados ligeramente por encima del valor criterio, .05, se debe también a una confusión de conceptos un tanto extraña. Por ejemplo, cuando se ponen inflexibles con ese umbral… y *a la vez* te piden que indiques el p-valor exacto, o tamaños del efecto calculados a posteriori… (¿cómo interpretarlos?). Las recomendaciones de las revistas las hacen comités estadísticos, gente muy preparada, pero luego los editores y revisores son otro tema.

    Hace poco estuve leyendo sobre el tema y es interesante. Digamos que en esto del contraste de hipótesis basado en el rechazo de la hipótesis nula (que tú has descrito muy bien) hay dos tendencias históricas, dos filosofías si quieres llamarlo así.
    Por un lado está la línea de Nyeman-Pearson. Ellos enfocan el contraste de hipótesis como una toma de decisiones. Y es una decisión binaria: o rechazas la hipótesis nula, o no la rechazas. Punto. Desde este punto de vista, tiene sentido ponerse riguroso con los valores “umbral”, no aceptar un paper porque el p-valor es .051, etc. Es arbitrario, pero está acordado. Es un método de decisión. Algunos dirían que un “ritual” :-)

    Por otro lado está la postura de Fisher y otros. Que conste que Fisher fue quien propuso precisamente el valor de .05 como “estándar” (¡¡ya podía haber propuesto que fuera .06!!), pero fue cambiando sus ideas con los años. Él interpretaría un p-valor de la manera que tú has explicado, como la probabilidad de obtener por azar unos datos iguales o más extremos que los realmente obtenidos. …Pero también dado el conocimiento previo que tenemos sobre la cuestión. Bajo esta perspectiva, no tiene sentido fijar un valor umbral monolítico, rígido, y es mejor proporcionar el p-valor exacto para que el lector del paper (y los revisores) juzguen por sí mismos si es lo bastante pequeño dados sus conocimientos previos sobre el tema. Entonces el p-valor es sólo una información más a tener en cuenta, y es más bien un continuo. O quizá el valor “umbral” acaba siendo algo subjetivo y dependiente del tema estudiado. Imagina que alguien te envía un artículo donde dice que la Tierra es cuadrada, con p < .05. ¿Lo aceptarías? ¿En base a qué? En parte, de aquí vienen los problemas con aquel trabajo de Bem sobre predicción del futuro. Alguien utilizo después otro tipo de análisis (Bayesiano) para incorporar una creencia a priori muy baja en la hipótesis alternativa: las afirmaciones extraordinarias exigen pruebas extraordinarias.

    Creo que a veces las revistas mezclan un poco las dos posturas. Rechazan un efecto cuyo p-valor es .06 en vez de .50, pero luego quieren saber si otro efecto tiene una p=.40 ó .30. Pienso que la regla de decisión de N-P tiene una gran ventaja: la podemos usar sin pensar. Pero somos científicos: nuestro trabajo *es* pensar. Va siendo hora de que nos dejemos de rituales.

    Conste que esta exposición la hago sin mucho conocimiento del tema, no soy matemático ni estadístico, ni historiador de la ciencia. Si hay errores espero que alguien me corrija a tiempo. ¡Enhorabuena por el post!

    • Gracias, Fer! Así da gusto escribir estas cosas! Había oído hablar algo de la historia complicada del 0.05 y su uso “férreo” en el libro de Field. Pero nada tan claro como lo que tú nos cuentas aquí. Super-interesante! Creo que en todas las discusiones sobre lo que es estadísticamente más adecuado se tiende a ignorar la realidad social en la que tiene lugar la investigación. Es posible que haya argumentos matemáticamente muy importantes para defender el uso estricto del 0.05. Pero si esa opción invita a los investigadores (con recursos limitados de tiempo y dinero) a juguetear con los datos y si invita a las revistas a no publicar hayazgos que podrían ser relevantes, estos factores también deben “meterse en la ecuación”. Puede ser deseable una estadística menos rigurosa, pero que dado un contexto social de la investigación determinado asegura una mayor calidad de los datos. Tengo la sensación de que estas cosas no suelen tenerse en cuenta en los círculos estadísticos…

    • Ya avisé de que como no soy experto, ¡lo que digo hay que ponerlo en cuarentena! :-D

      De todas formas, no he dicho que el “uso estricto de .05” como umbral sea más riguroso. No, es una cuestión filosófica, así que “depende”. El p-valor significa exactamente lo que tú has dicho, lo que cambia es el método de decisión basado en ese p-valor. Ambas opciones tienen ventajas.

      A algunos no les parecería mal poder leer en los papers el valor exacto de p, aunque sea mayor de .05, y poder juzgar ellos mismos si, dado el asunto que se investiga, es “lo bastante pequeño”. Pero a otros puede atraerles la idea de tener un método “objetivo” basado en una regla de decisión (binaria: o sí o no) en la que se busca un equilibrio entre los dos posibles errores, tipo I y tipo II, y que no requiere grandes conocimientos para aplicarse. ¿Las desventajas? En el primer caso (Fisher), la necesidad de conocimiento en la materia para juzgar si un p-valor es lo bastante pequeño, la necesidad también de otras informaciones complementarias como los intervalos de confianza, etc. En el segundo caso (N-P), el peligro de promover conductas como el p-hacking, y la conversión de la estadística en un ritual que se hace sin pensar.

      La historia ha acabado escogiendo una opción (diría que N-P) que es la que nos cuentan en los manuales de estadística, pero luego la tendencia natural es a mezclar las dos: por ejemplo, solemos decir que un resultado es “más significativo” que otro, lo cual no tiene ni pies ni cabeza bajo la óptica de N-P, supongo.

      …Y recuerda que hay un movimiento fuerte hacia otras opciones que no siempre son complementarias con alguna de esas dos filosofías: decisión basada en intervalos de confianza, tamaños del efecto, inferencia Bayesiana… Los comités editoriales ya van por ahí, pero los revisores a veces no.

  3. Pingback: Weekly Magapsine – S19 | elDronte

  4. A modo de curiosidad, y con relación a las sugerencias del buscador de google, yo probé a escribir: “La psicología es…”, y mi buscador favorito me sugirió en primer lugar “La psicología es una ciencia”, seguido de “es una ciencia sistémica porque…” y de “es una ciencia que estudia…”. Pero no contento con ello, probé a buscar “La psicologia es…” (OJO, sin acento), y en principio no me sorprendió la primera sugerencia, que resultaba ser la misma que cuando hice la búsqueda con el acento (“La psicologia es una ciencia”). Pero, ¿qué ven mis ojos? Las siguientes sugerencias resultan ser: “La psicologia es una mentira”, y “La psicologia es una pseudociencia”.
    Dado que es de suponer que esas sugerencias se basan en lo que han escrito las personas en el pasado, seguramente podríamos establecer una correlación (que no causalidad, por lo menos en principio) entre las personas que han escrito la palabra psicología correctamente y los resultados de “es una ciencia”, “es una ciencia que estudia…”, y por consiguiente también entre las personas que han escrito mal la palabra psicología y los resultados de “es una mentira” y “es una pseudociencia”. Esto, por supuesto, a modo de curiosidad.
    Por cierto, me gusta mucho el blog.

    • Jajaja! Me encanta este “estudio correlacional”! Yo he probado a escribir “psicologia es…” y me ha salido “… una carrera difícil”. Pero si lo pongo con tilde me sale “…es una buena carrera”. Así que a lo que comentas puedo añadir que a la gente que escribe “psicologia” sin tilde la carrera le parece más difícil y peor que a quienes la escriben con tilde. Vamos, que he encontrado evidencia convergente en apoyo de tu hipótesis ;-)

  5. Pingback: Demasiado bonito para ser cierto | mvadillo.com

  6. Pingback: ¿Sirve de algo entrenar la memoria de trabajo? | mvadillo.com

Escribe un comentario...