Antes se pilla a un científico mentiroso que a un estadístico cojo

Dirk Smeesters y Lawrence Sanna protagonizaron dos de los casos más sonados de fraude científico del pasado 2012. En un breve artículo que acaba de publicarse en Psychological Science, Uri Simonsohn nos revela cómo descubrió que estos dos autores se habían inventado datos, todo ello sin recurrir más que a un poco de estadística elemental y a una gran dosis de ingenio. Se trata en ambos casos de experimentos sobre el llamado priming social, un misterioso efecto investigado por psicólogos sociales según el cual comportamientos tan complejos como la conducta altruista o incluso el rendimiento en un test de cultura general pueden verse influidos por estímulos sutiles de cuyo efecto apenas somos conscientes (sic).

SannaEn el caso de Lawrence Sanna, el artículo crítico demostraba, presuntamente, que las personas eran más generosas cuando estaban sobre el escenario de un teatro, lo que sería compatible con la idea de que el comportamiento moral se asocia al concepto más abstracto de elevación (sic). Al ver la tabla de resultados que reproduzco aquí al lado, Simonsohn reparó en que algunos datos eran asombrosamente “bonitos”, imposiblemente “bonitos”. En concreto, dentro de cada experimento las desviaciones típicas (resaltadas aquí con cuadrados de colores) eran sorprendentemente similares. Mediante una sencilla simulación, Simonsohn comprobó que incluso asumiendo que las desviaciones típicas de cada grupo provinieran realmente de una población donde las desviaciones típicas son idénticas, la probabilidad de obtener tres muestras con desviaciones típicas tan cercanas es minúscula. Cuando Simonsohn pidió a los autores los datos originales del estudio, repitió sus simulaciones pero esta vez partiendo de los propios datos, mediante una técnica conocida como bootstrapping. Incluso así, la mayor parte de las simulaciones arrojaban desviaciones típicas más diferentes que las que se publicaron en el estudio de Sanna y colaboradores. Más aún, Simonsohn hizo mediciones similares en otros artículos del área, observando en cada caso cómo de diferentes tendían a ser las desviaciones típicas en las diferentes condiciones de este tipo de experimentos. Comparadas con las diferencias habituales, las que aparecen en los estudio de Sanna son insignificantes.

El segundo caso es una investigación similar de los datos de varios experimentos de Smeesters. En el primero de ellos “descubrieron” que los participantes rendían más en una prueba de cultura general si antes habían tenido que escribir sobre Einstein que si lo habían hecho sobre Kate Moss (sic). Pero (atención) ese efecto sólo aparecía si las instrucciones del experimento se daban en una carpeta azul (sic) y no si se daban en una carpeta roja (sic), porque (redoble de tambor) el rojo produce evitación y el azul produce aproximación (sicn). En el caso de este estudio eran las medias, y no las desviaciones típicas, las que se parecían demasiado. Tanto que las simulaciones basadas en los supuestos datos brutos del estudio arrojaban una probabilidad de entre 0.0003 y 0.00018 de obtener unas medias tan parecidas o más.

Indagando en los datos sobre otros estudios del mismo autor, Simonsohn descubrió más irregularidades de este tipo, algunas de ellas francamente ingeniosas. Una de ellas se basa en la observación de que las personas somos muy malas generando eventos aleatorios. Si nos piden que generemos secuencias de caras y cruces que podrían surgir de lanzar una moneda al aire, la mayor parte de las veces alternaremos entre caras y cruces y casi nunca propondremos una secuencia cara-cara-cara-cara. De hecho, predeciremos este tipo de repeticiones con mucha menos frecuencia de la que realmente suceden en la naturaleza. Siguiendo la misma lógica, si alguien se está inventando datos, es probable que los números que se le vienen a la cabeza incluyan menos repeticiones de las que cabría esperar por azar. Esto se cumple también en algunos de los experimentos de Smeesters, donde los valores modales del estudio se repiten tan poco que uno sólo esperaría menos repeticiones en entre 21 y 93 de cada 100.000 simulaciones. Tirando del mismo hilo, observó que en otro experimento en el que los participantes tenían que decir cuánto pagarían por unas camisetas, los participantes utilizaron menos múltiplos de 5 de lo que es normal en este tipo de estudios. Muchísimos menos. Menos también que cuando el propio Simonsohn intentó replicar el experimento original de Smeesters.

El resultado de esta peculiar operación anti-corrupción científica no es sólo que dos científicos nunca volverán a inventarse datos. Más importante que eso es que estas ideas se añaden al creciente número de estrategias con las que ahora podemos detectar casos similares de fraude. Cabe destacar también que este tipo de trampas son más fáciles de detectar si uno dispone del archivo de datos en el que se basa un estudio. Tal vez sea hora de plantearse si no deberíamos hacer públicos los datos de todas las publicaciones científicas.

__________

Simonsohn, U. (2012). Just post it: The lesson from two cases of fabricated data detected by statistics alone. Psychological Science, 24, 1875-1888. doi: 10.1177/0956797613480366

Epidemiología del fraude y las malas prácticas

Hace pocas semanas publicaba en este mismo blog el resumen de un estudio de Simmons y colaboradores en el que nos mostraban lo fácil que es producir falsos positivos en la investigación científica si se toleran una serie de malas prácticas que probablemente son habituales en los laboratorios de todo el mundo. Cuando apenas nos hemos recuperado del mazazo, Psychological Science vuelve a la carga con un nuevo trabajo en el que se intenta medir precisamente la incidencia real de estas y otras prácticas cuestionables.

En este estudio, John, Loewenstein y Prelec encuestaron a más de 2.000 investigadores preguntándoles (a) si habían incurrido en una serie de malas prácticas (que iban de omitir información sobre algunas variables dependientes hasta falsificar los datos), (b) cómo de justificable les parecía haberlo hecho, (c) qué proporción de psicólogos pensaban que recurría a estas mismas prácticas, y (d) qué porcentaje de esos psicólogos pensaban ellos que reconocería haberlas cometido. Esta última medida es particularmente interesante porque teniendo en cuenta cuántos entrevistados confiesan realizar las prácticas (a) y cuál es la probabilidad de que alguien que las ha cometido las confiese (d), podemos tener una segunda estimación de cuál es la prevalencia real de estas prácticas (c).

Una de las principales novedades del estudio frente a sus precedentes es que para lograr que las respuestas que daban los participantes fueran sinceras, no sólo se aseguraron de que la encuesta fuera completamente anónima, sino que también ensayaron con la mitad de los participantes una técnica que les daba incentivos para ser honestos. Para ello utilizaron un algoritmo Bayesiano (al que llaman “droga de la verdad”) que computa un índice de credibilidad para cada participante basándose en las respuestas que dan sobre sus malas prácticas y las estimaciones de la distribución general de respuestas. Como no se podía pagar a los participantes sinceros sin violar el principio de anonimato, se premió a los participantes honestos haciendo una donación a la asociación que ellos eligieran.

Los autores encontraron que proporcionar estos incentivos para ser honestos incrementaba notablemente el número de “confesiones”, especialmente para las prácticas menos defendibles, tales como falsificar datos. Esto supone que los estudios previos que no han utilizado este tipo de incentivos (e.g., Fanelli, 2009; Martinson, Anderson, & de Vries, 2005) podrían estar subestimando la prevalencia real de las prácticas más graves. Teniendo en cuenta sólo los datos de la condición con incentivos para decir la verdad, los autores estiman que la mayor parte de los investigadores ha incurrido en alguna práctica como publicar selectivamente sólo algunos estudios, omitir información sobre algunas variables dependientes, aumentar muestra más allá de lo proyectado inicialmente, relatar hechos inesperados como si hubieran sido esperados de antemano, y excluir datos con criterios post-hoc. Más aún, según estos datos, uno de cada diez científicos ha introducido datos falsos en el registro científico. Separando los datos por áreas de investigación, se observa que estas prácticas son más frecuentes en psicología cognitiva, neurociencias y psicología social. Sin embargo, la incidencia parece ser menor entre los psicólogos clínicos.

Como señalan John y sus colaboradores, tal vez la consecuencia más triste de esta tendencia es que la mediocridad genera más mediocridad. A corto plazo, recurrir a estas prácticas hace que los currículums de los investigadores engorden a una velocidad vertiginosa y que las revistas de psicología aparezcan plagadas de artículos inusualmente elegantes. Cada día es más obvio para la comunidad científica que se trata sólo de una falsa ilusión de progreso que se construye sobre publicaciones selectivas y resultados poco o nada replicables. Pero esto no impide que poco a poco se vayan imponiendo unos cánones de productividad científica que sólo pueden alcanzarse cayendo en el pecado. Nos esperan malos tiempos si la única forma de estar a la altura como científico pasa por prostituir los propios pilares de la ciencia.

__________

Fanelli, D. (2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. PLoS ONE, 4, e5738.

John, L. K., Loewenstein, G., & Prelec, D. (en prensa). Measuring the prevalence of questionable research practices with incentives for truth-telling. Psychological Science.

Martinson, B. C., Anderson, M. S., & de Vries, R. (2005). Scientists behaving badly. Nature, 435, 737-738.