Antes se pilla a un científico mentiroso que a un estadístico cojo

Dirk Smeesters y Lawrence Sanna protagonizaron dos de los casos más sonados de fraude científico del pasado 2012. En un breve artículo que acaba de publicarse en Psychological Science, Uri Simonsohn nos revela cómo descubrió que estos dos autores se habían inventado datos, todo ello sin recurrir más que a un poco de estadística elemental y a una gran dosis de ingenio. Se trata en ambos casos de experimentos sobre el llamado priming social, un misterioso efecto investigado por psicólogos sociales según el cual comportamientos tan complejos como la conducta altruista o incluso el rendimiento en un test de cultura general pueden verse influidos por estímulos sutiles de cuyo efecto apenas somos conscientes (sic).

SannaEn el caso de Lawrence Sanna, el artículo crítico demostraba, presuntamente, que las personas eran más generosas cuando estaban sobre el escenario de un teatro, lo que sería compatible con la idea de que el comportamiento moral se asocia al concepto más abstracto de elevación (sic). Al ver la tabla de resultados que reproduzco aquí al lado, Simonsohn reparó en que algunos datos eran asombrosamente “bonitos”, imposiblemente “bonitos”. En concreto, dentro de cada experimento las desviaciones típicas (resaltadas aquí con cuadrados de colores) eran sorprendentemente similares. Mediante una sencilla simulación, Simonsohn comprobó que incluso asumiendo que las desviaciones típicas de cada grupo provinieran realmente de una población donde las desviaciones típicas son idénticas, la probabilidad de obtener tres muestras con desviaciones típicas tan cercanas es minúscula. Cuando Simonsohn pidió a los autores los datos originales del estudio, repitió sus simulaciones pero esta vez partiendo de los propios datos, mediante una técnica conocida como bootstrapping. Incluso así, la mayor parte de las simulaciones arrojaban desviaciones típicas más diferentes que las que se publicaron en el estudio de Sanna y colaboradores. Más aún, Simonsohn hizo mediciones similares en otros artículos del área, observando en cada caso cómo de diferentes tendían a ser las desviaciones típicas en las diferentes condiciones de este tipo de experimentos. Comparadas con las diferencias habituales, las que aparecen en los estudio de Sanna son insignificantes.

El segundo caso es una investigación similar de los datos de varios experimentos de Smeesters. En el primero de ellos “descubrieron” que los participantes rendían más en una prueba de cultura general si antes habían tenido que escribir sobre Einstein que si lo habían hecho sobre Kate Moss (sic). Pero (atención) ese efecto sólo aparecía si las instrucciones del experimento se daban en una carpeta azul (sic) y no si se daban en una carpeta roja (sic), porque (redoble de tambor) el rojo produce evitación y el azul produce aproximación (sicn). En el caso de este estudio eran las medias, y no las desviaciones típicas, las que se parecían demasiado. Tanto que las simulaciones basadas en los supuestos datos brutos del estudio arrojaban una probabilidad de entre 0.0003 y 0.00018 de obtener unas medias tan parecidas o más.

Indagando en los datos sobre otros estudios del mismo autor, Simonsohn descubrió más irregularidades de este tipo, algunas de ellas francamente ingeniosas. Una de ellas se basa en la observación de que las personas somos muy malas generando eventos aleatorios. Si nos piden que generemos secuencias de caras y cruces que podrían surgir de lanzar una moneda al aire, la mayor parte de las veces alternaremos entre caras y cruces y casi nunca propondremos una secuencia cara-cara-cara-cara. De hecho, predeciremos este tipo de repeticiones con mucha menos frecuencia de la que realmente suceden en la naturaleza. Siguiendo la misma lógica, si alguien se está inventando datos, es probable que los números que se le vienen a la cabeza incluyan menos repeticiones de las que cabría esperar por azar. Esto se cumple también en algunos de los experimentos de Smeesters, donde los valores modales del estudio se repiten tan poco que uno sólo esperaría menos repeticiones en entre 21 y 93 de cada 100.000 simulaciones. Tirando del mismo hilo, observó que en otro experimento en el que los participantes tenían que decir cuánto pagarían por unas camisetas, los participantes utilizaron menos múltiplos de 5 de lo que es normal en este tipo de estudios. Muchísimos menos. Menos también que cuando el propio Simonsohn intentó replicar el experimento original de Smeesters.

El resultado de esta peculiar operación anti-corrupción científica no es sólo que dos científicos nunca volverán a inventarse datos. Más importante que eso es que estas ideas se añaden al creciente número de estrategias con las que ahora podemos detectar casos similares de fraude. Cabe destacar también que este tipo de trampas son más fáciles de detectar si uno dispone del archivo de datos en el que se basa un estudio. Tal vez sea hora de plantearse si no deberíamos hacer públicos los datos de todas las publicaciones científicas.

__________

Simonsohn, U. (2012). Just post it: The lesson from two cases of fabricated data detected by statistics alone. Psychological Science, 24, 1875-1888. doi: 10.1177/0956797613480366

Cómo hacer que tus experimentos molen

En el último número de Perspectives on Psychological Science, Kurt Gray y el celebérrimo Dan Wegner comparten con nosotros los seis ingredientes fundamentales de su receta para el éxito:

  1. Primero los fenómenos: La teoría está bien, pero cuando te sea posible, haz que tus investigaciones se basen en una experiencia humana profunda, universal y poderosa.
  2. Sé sorprendente: Investiga algo que desafíe el sentido común y la intuición, que muestre que las cosas no son lo que parecen.
  3. Dirígete a las abuelas, no a los científicos: Desafiar las ideas que interesan a tus colegas profesionales genera cierto éxito a corto plazo. Pero es más probable que tu investigación se mantenga vigente si cuestiona las intuiciones de la población general.
  4. Sé el participante: Haz que tu experimento sea una experiencia para tus participantes. No temas que el procedimiento sea estrambótico y excéntrico.
  5. Estadística sencilla: Si puedes analizar tus datos con una prueba t, no hagas un ANOVA. Si puedes hacer un ANOVA de un factor, no hagas un ANOVA factorial.
  6. Comienzos poderosos: El primer párrafo de tu artículo debería resumir toda la investigación haciendo énfasis en todo lo anterior: centrarse en una experiencia profunda, contra-intuitiva y fácil de entender.

Si estos consejos te parecen sacados de un libro de auto-ayuda para investigadores, en mi mesa siempre habrá un plato para ti. Seguir estas pautas tal vez te lleve a conseguir más citas en la Web of Science. De vez en cuando incluso puede que te llame alguien de tu periódico local para hacerte una entrevista. Pero mi humilde opinión es que esta filosofía conduce a publicar estudios que son a la verdadera ciencia lo que Operación Triunfo es a la música. Cuando el impacto y el sensacionalismo se hacen tan importantes o más que el rigor y la veracidad, inevitablemente sucede lo que en los últimos años le ha pasado a la psicología social. Ni más ni menos.

__________

Gray, K., & Wegner, D. M. (2013). Six guidelines for interesting research. Perspectives on Psychological Science, 8, 549-553. doi: 1177/1745691613497967.

Ruidos, señales y overfitting

natesilverAunque llevaba meses deseando hacerme con un ejemplar del último libro de Nate Silver, The signal and the noise: The art and science of prediction, confieso que el primer contacto no me pareció muy alentador. Nada más mirar la foto del autor en la contraportada tuve la sensación de que alguien me susurraba al oído “perrea, perrea”. La cosa no mejoró cuando leí los primeros capítulos y descubrí que los temas que Silver había elegido para presentar su tesis eran de esos que despiertan un interés inversamente proporcional a la distancia que te separa de Oklahoma. El relato transcurre entre ligas de béisbol, elecciones a la presidencia de EE.UU., partidas de póker y otras pamplinas que posiblemente hagan la delicia del norteamericano medio, pero carecen de adeptos a este lado del charco.

Y sin embargo, el libro es una buenísima introducción a los problemas a los que se enfrenta cualquiera que quiera entender un sistema dinámico complejo y predecir su evolución. Entre otras cosas, el libro contiene la mejor explicación que conozco del concepto de overfitting. Si el lector no se ha encontrado nunca con esta palabreja, posiblemente creerá que el overfitting es el trastorno psiquiátrico que sufren las personas que van todos los días al gimnasio. Pero en realidad se trata de un concepto estadístico relacionado con cómo se ajusta un modelo a la realidad que pretende explicar y predecir. En principio, si uno desarrolla una teoría para explicar algo, cabría pensar que cuanto más se ajuste la teoría a los hechos, tanto mejor será la teoría. Pero en realidad puede suceder lo contrario: que una teoría sea mala precisamente porque se ajusta demasiado a los datos. Es entonces cuando decimos que el modelo tiene overfitting o sobreajuste. Veámoslo con el ejemplo que nos da el propio Nate Silver.

FiguraModelosImagina que queremos saber cómo evoluciona la calidad de un jugador de béisbol a medida que se va haciendo mayor. Lo primero que tenemos que hacer es recoger datos. Tras hacer algunas mediciones aquí y allá conseguimos la información que tenemos en el panel A. La forma más sencilla de explicar este patrón de resultados es asumir que la calidad de un jugador se incrementa progresivamente a medida que se va haciendo mayor hasta que llega un momento en el que la tendencia comienza a invertirse. Este modelo, al que llamaré Modelo 1, es el que aparece en el panel B. Como puede verse, el modelo no se ajusta a los datos a la perfección. De lo contrario todos los circulitos deberían estar exactamente en la línea. Sin embargo, el ajuste del modelo es aceptable. ¿Es posible diseñar un modelo con un ajuste todavía mejor? Por supuesto, el panel C muestra una línea alternativa que pasa mucho más cerca de todos los puntos. Llamemos a esta línea Modelo 2. La distancia media entre la línea y cada observación es menor para el Modelo 2 que para el Modelo 1. Ahora bien, ¿quiere eso decir que es un modelo mejor?

Tal vez no. El objetivo de una buena teoría no es sólo ajustarse bien a la evidencia que ya tenemos, sino también predecir los datos que podríamos observar en el futuro. Imagina que recabamos información sobre otros jugadores y que los circulitos verdes del panel D representan los resultados de estas nuevas observaciones. Estos datos siguen estando relativamente cerca de lo que predecía el Modelo 1. Sin embargo, el Modelo 2, que originalmente parecía ajustarse muy bien a los datos, ya no coincide de forma tan elegante con las nuevas observaciones.

En la terminología de Nate Silver, lo que le pasa al Modelo 2 es que no sólo trata de explicar la señal de la relación entre la edad y la calidad de un jugador, sino también el ruido aleatorio que inevitablemente contamina los datos. El modelo está tan ajustado a las observaciones que explica incluso lo que no debería explicar: la varianza que se debe al puro azar.

En busca del impacto científico

Como casi todos los investigadores, tengo una carpeta llena de artículos en PDF que debería ir leyéndome durante los próximos meses. Basándome en mi experiencia previa, calculo que llegaré a leer un 10% de ellos y que el resto simplemente se quedará ahí, haciéndome sentir culpable hasta que en un arrebato de realismo los elimine sin ningún miramiento. En cualquier área de investigación, por muy específica o especializada que sea, se publican al año cientos o miles de artículos científicos. Posiblemente algunos de ellos contienen ideas geniales que los convertirán en referencia obligada durante los siguientes años. Y otros, en fin, podrían servir para avivar el fuego de la barbacoa sin ningún perjuicio para la ciencia. ¿Cómo saber cuáles merecen la pena y cuáles no?

Las instituciones que tienen que evaluar el rendimiento de sus investigadores se enfrentan a un problema similar. Que un investigador haya publicado cuatro artículos en un año en principio suena muy bien. Pero el trabajo que se esconde detrás de esos cuatro artículos (y su impacto futuro) es muy diferente si se trata de publicaciones en revistas locales que nadie lee que si se trata de publicaciones en revistas internacionales muy prestigiosas, cuyos artículos son aceptados sólo después de pasar por un proceso de revisión extremadamente duro y crítico. Todo el mundo entiende que un artículo publicado en Science o Nature no merece la misma valoración que un artículo publicado en la revista de la asociación de vecinos del barrio. ¿Pero cómo valorar el mérito relativo de dos publicaciones en situaciones menos extremas?

Durante los últimos años se han propuesto diversos indicadores para medir hasta qué punto una revista se puede considerar prestigiosa o no. Seguramente, el más popular de estos indicadores es el índice de impacto, publicado cada año en la Web of Knowledge por la agencia Thompson Reuters. La lógica que se esconde detrás del índice es sencilla: Una revista es “buena” si sus artículos son citados frecuentemente, especialmente si estas citas se producen en poco tiempo. En concreto, para calcular el índice de impacto de una revista en un año concreto, se mide el número de citas que durante ese año han recibido los artículos que esa revista ha publicado en los dos años anteriores y ese número se divide entre el número total de artículos que dicha revista publicó en esos dos años. Por ejemplo, si queremos saber el índice de impacto del 2012, contamos el número de citas que se han hecho en 2012 a artículos que la revista publicó en 2010 y 2011. Y luego dividimos ese número de citas entre el número de artículos que la revista publicó entre 2010 y 2011. Por tanto, lo que este índice nos dice es cuántas veces se citó de media en 2012 un artículo publicado por esa revista entre 2010 y 2011.

Tal vez la sencillez de esta idea sea la responsable de que en la actualidad los índices de impacto de las revistas se hayan convertido en un referente casi universal para decidir qué revistas valen la pena y cuáles no. Si el índice de impacto de una revista la coloca a la cabeza de su área de investigación, entonces merece la pena leer los artículos que se publican ahí. Y si hay que juzgar el mérito de un investigador, su trabajo se valora más si sus artículos se han publicado en esas pocas revistas que lideran el ranking.

Sin embargo, la utilización de este indicador como referencia casi exclusiva para medir la calidad de las publicaciones no está exenta de críticas. Posiblemente el principal problema del índice de impacto o de cualquier otro indicador que aspire a convertirse en universal es que, una vez conocida la fórmula que se utiliza para medir la calidad científica, siempre es fácil inventar “trampas” con las que conseguir un resultado más favorable. Por ejemplo, a pesar de su nombre, el International Journal of Clinical and Health Psychology es en realidad una revista española que posiblemente no figura entre las más importantes de su área. Sin embargo, su índice de impacto tradicionalmente se sitúa entre 1.5 y 2.5, una cifra sorprendentemente alta para una revista española. ¿Es posible que esta revista esté convirtiéndose en un referente internacional? Lo dudo. Lo que sucede es que esta revista suele obligar a los autores a incluir en sus artículos auto-citas a otros trabajos publicados en la revista. Si, por ejemplo, un autor desea publicar un estudio correlacional, entonces debe citar un artículo donde se explica cómo realizar un estudio correlacional. Como estas auto-citas sólo cuentan si se realizan a artículos publicados en los dos últimos años, entonces estos artículos “de referencia” se reescriben periódicamente para que siempre haya una versión reciente que citar, de modo que las auto-citas sigan contribuyendo al índice de impacto.

Leyendo un interesantísimo artículo de Brembs y colaboradores que se acaba de publicar en Frontiers in Human Neuroscience, he descubierto que, además de este tipo de trampas, las revistas también pueden negociar con Thompson Reuters qué tipo de artículos cuentan en el cómputo y cuáles no. En concreto, lo que se negocia es si algunas publicaciones que no son estrictamente artículos científicos, como las notas editoriales, los comentarios, o las cartas al editor, se consideran en el cómputo o no. Ignorando esos textos lo que se consigue es que el denominador por el que se dividen el número de citas sea más pequeño y así el índice de impacto sea mayor, aun teniendo el mismo número de citas. Brembs y colaboradores sugieren que el índice de impacto de algunas revistas muy prestigiosas podría estar hinchado mediante este tipo de estrategias. Por ejemplo, Current Biology saltó de un índice de impacto de 7.007 en 2011 a 11.910 en 2012 sin apenas recibir más citas, simplemente por una reducción en el número de artículos computados.

En cualquier caso, lo más interesante del análisis de Brembs y colaboradores no es que los índices de impacto se vean influidos por este tipo de triquiñuelas, sino que posiblemente no consiguen medir correctamente aquello que pretenden medir. Si los artículos publicados en revistas de alto impacto fueran realmente mejores, uno esperaría, por ejemplo, que los experimentos publicados en esas revistas tuvieran mayor potencia estadística, fueran más fáciles de replicar o presentaran un menor número de retracciones. Sin embargo, nada de esto sucede. Si acaso, lo contrario está más próximo a la verdad: Son las revistas de mayor impacto las que más retracciones publican. Y con respecto a los otros indicadores, no hay evidencia alguna de que el índice de impacto correlacione claramente con la calidad de las publicaciones.

En el sistema actual, los índices de impacto determinan qué artículos se leen y cuáles no, a qué investigadores se contrata y a quiénes no, qué equipos reciben financiación y qué equipos no. Ante la escasa validez de los índices de impacto, parece poco razonable seguir utilizándolos como referente único y universal para tomar todas estas decisiones. Sin embargo, no por ello podemos renunciar a tener indicadores que nos permitan valorar la calidad relativa de diferentes publicaciones. Al final de su artículo, Brembs y colaboradores sugieren que la solución pasa por disponer de múltiples indicadores de calidad que se fijen en diferentes propiedades de los artículos y revistas. Si algunos editores intentan falsear la calidad de su revista, es más difícil que lo consigan si el impacto científico se mide con diversos indicadores que si se mide con uno solo. Además, cada indicador será sensible a diferentes aspectos de lo que constituye la calidad de una revista y colectivamente proporcionarán más información que los actuales índices de impacto.

__________

Brembs, B., Button, K., & Munafò, M. (2013). Deep impact: Unintended consequences of journal rank. Frontiers in Human Neuroscience, 7, 291.

Las neurociencias y el gatillazo estadístico

Los estudios de neurociencias son al clásico experimento de psicología lo que un crucero por las Bahamas a un viaje en interrail. Extremadamente caros. Pagar a los participantes por desplazarse hasta el laboratorio, pagar por el uso del fMRI, pasar cientos de horas analizando datos… Todo ello supone dinero, dinero y más dinero. En muchos laboratorios donde se hacen experimentos con ERPs hasta contratan un servicio de peluquería para adecentar al pobre participante, que termina el experimento con la cabeza llena de gel. Una consecuencia directa del elevado coste es que los investigadores, lógicamente, intentan ahorra dinero por todas partes. Si el experimento puede hacerse con diez personas, mejor que con treinta. ¿Verdad? Continúa leyendo en Psicoteca

p-curves, p-hacking, and p-sychology

replicationPruebe a hacer el siguiente experimento. Haga click sobre el cuadro de texto de Google y comience a escribir “replication crisis”. Con su habitual don de gentes, el buscador enseguida se ofrecerá a auto-completar el término de búsqueda. En ningún caso leerá “replication crisis in physics” o “replication crisis in biology”. No. Google es más listo que eso. Quienes han buscado esos términos en el pasado por lo general han terminado escribiendo “replication crisis in psychology”. Y así nos lo arroja a la cara el simpático rastreador de la web.

El mundo de la psicología se ha hecho un hueco en todas las portadas con sus recientes casos de fraude, sus misteriosas incursiones en el mundo de lo paranormal y, más recientemente, la imposibilidad de replicar uno o dos de sus más famosos y audaces experimentos. La otra parte de esta historia, menos sensacionalista pero más reveladora, es que la psicología también está en la primera línea de combate contra todo aquello que amenace a la integridad de la ciencia, dentro y fuera de sus fronteras. Algunas de las propuestas más ingeniosas para detectar y medir el impacto de las malas prácticas científicas se las debemos a la propia comunidad de investigadores de las ciencias del comportamiento. Una de mis favoritas tiene que ver con el estudio de la llamada curva de valores p.

En la estadística tradicional se procede de una forma un tanto retorcida. Para demostrar que un efecto existe lo que uno hace es asumir que no existe y luego ver cómo de rara sería la evidencia que hemos recogido si se parte de ese supuesto. El parámetro que mide cómo de extraño sería un dato bajo el supuesto de que un efecto no existe es lo que llamamos valor p. (En rigor, lo que mide el valor p es cómo de probable es encontrar un valor tan alejado o más de lo que cabría esperar bajo el supuesto de que la hipótesis nula es cierta.) Para lo que aquí nos interesa, basta con tener en cuenta que, por convención, se considera que uno ha observado un efecto significativo si el valor p de ese efecto es inferior a 0.05. Un valor tan pequeño quiere decir que es muy poco probable que el efecto se deba al puro azar. Que posiblemente hay un efecto real tras esos datos.

Imagine que queremos saber si una píldora reduce el dolor de cabeza. Para ello, hacemos el siguiente experimento. Le pedimos a un grupo de 50 personas que tome esa píldora todos los días y que apunte en una libreta cuándo le duele la cabeza. A otro grupo de personas le pedimos que haga exactamente lo mismo, pero sin que ellos lo sepan le damos un placebo. Después de un par de meses les pedimos que nos envíen las libretas y observamos que a los que han tomado la píldora les ha dolido la cabeza una media de 10 días. Sin embargo a los que han tomado el placebo les ha dolido la cabeza una media de 15 días. ¿Quiere esto decir que la píldora funciona? Bueno. Pues parece que sí. Pero la verdad es que este resultado podría deberse al puro azar. Para saber hasta qué punto se puede deber al azar o no, hacemos un análisis estadístico y nos dice que el valor p que obtenemos al comparar los grupos es, por ejemplo, 0.03. Como ese valor es inferior a 0.05, consideraríamos poco probable que la diferencia entre ambos grupos se deba al simple azar.

Aquí viene lo interesante. ¿Qué pasaría si la píldora realmente funciona y hacemos ese experimento muchas veces? Sin duda, aunque la píldora sea efectiva, el azar también influirá en los resultados. De modo que no siempre obtendremos los mismos datos. Y los análisis estadísticos no siempre arrojarán el mismo valor p. Unas veces será más alto y otras más bajo. Si el experimento se repitiera una y otra vez, la distribución de los valores p que obtendríamos debería parecerse a una curva exponencial en la que la mayor parte de los valores p serían muy pequeños y, sin embargo, habría relativamente menos experimentos que arrojaran valores p cercanos a 0.05. Esa gráfica, representando la distribución ideal de los valores p es lo que se denomina curva-p.

pcurves_psychSciEn condiciones normales, si uno coge los artículos que se publican en las revistas y registra sus valores p, deberían seguir una distribución similar a la que muestra esa curva. Pero, como ya puede imaginarse, no es eso lo que sucede. En el caso de algunas revistas la distribución real de valores p se aleja muy sustancialmente de la distribución ideal. En un estudio reciente, Masicampo y Lalande (2012) trazaron la curva de valores p de tres revistas extremadamente importantes en el ámbito de la psicología: Journal of Experimental Psychology: General, Journal of Personality and Social Psychology y Psychological Science. Los resultados indicaron que en los tres casos los valores p observados diferían significativamente de la distribución ideal. En concreto, en todas ellas había un número sospechosamente alto de valores inmediatamente inferiores a 0.05, que según la distribución ideal deberían ser los más infrecuentes. Como puede verse en la figura de la izquierda, en el caso de Psychological Science, la prevalencia de estos valores apenas significativos es realmente escalofriante.

¿A qué se debe esta distribución anómala de valores p? A que algo huele a podrido en Dinamarca, claro. Estas distribuciones son probablemente el producto de muchas prácticas malsanas en el mundo de la investigación. Una buena parte de la responsabilidad la tienen las propias revistas y sus equipos editoriales. Si un estudio tiene un valor p de 0.049 se publica, pero si tiene un valor p de 0.051 no se publica. No es significativo. ¿Se hace esto porque hay alguna barrera infranqueable entre lo que es mayor o menor de 0.05? En absoluto. El umbral del 0.05 es una pura convención social. La mayor parte de las veces la diferencia entre un estudio con una p = 0.045 y otro con p = 0.055 es el puro azar y nada más. Pero para el investigador hay una diferencia fundamental entre ambos: obtener un 0.045 significa que su trabajo cae dentro de lo convencionalmente aceptado y por tanto se publicará. Y publicarlo supone que el trabajo que ha hecho será conocido y reconocido por la comunidad científica. Y cuando quiera presentarse a una plaza de profesor o pedir un proyecto de investigación su contribución a la ciencia será tenida en cuenta. Obtener un 0.055 significa que el trabajo cae dentro de lo convencionalmente inaceptable. Costará horrores publicarlo o, más probablemente, no se publicará. La comunidad científica no lo conocerá y difícilmente se le valorará al investigador por haber dedicado meses o años de su trabajo a ese estudio.

Lógicamente el investigador que obtienen un valor p feo no se mete las manos en los bolsillos y se queda esperando a tener más suerte con su siguiente proyecto de investigación. Es muy probable que empiece a juguetear con los datos para ver si hay algo que pueda explicar por qué sus resultados no son significativos. Por ejemplo, es posible que descubra que uno de sus pacientes en el grupo que tomaba la píldora tenía un cáncer terminal y que por eso le dolía la cabeza mucho más que al resto. Al meter a ese participante en los análisis se está inflando el dolor de cabeza medio que sienten los miembros del grupo experimental que toma la píldora. ¡Normal que las diferencias no sean del todo significativas! Lo más probable es que el investigador elimine a este participante de la muestra dando por sentado que es un caso anómalo que está contaminando los resultados. Parece algo tan de sentido común que cuesta ver dónde está el problema en hacerlo. Pues bien, el problema es que si ese participante anómalo hubiera resultado estar en el grupo control, el que tomaba el placebo, posiblemente el investigador ni se habría dado cuenta de que existía. Los resultados habrían parecido bonitos desde el principio: habría encontrado las diferencias significativas que esperaba.

En otras palabras, los datos feos tienen más probabilidad de mantenerse en el estudio cuando favorecen la hipótesis del investigador que cuando van en contra. Y lo que esto supone es que si el azar resulta ir en contra del investigador se hacen más intentos por corregirlo que si la suerte conspira para “ayudarle”. Todas estas prácticas de análisis de los datos que permiten al investigador inclinar la balanza a su favor es lo que en la literatura se conoce como p-hacking. Todas ellas suponen una importante amenaza para la integridad de los resultados científicos porque incrementan la probabilidad de que un resultado aparentemente significativo refleje en realidad un falso positivo.

¿Cómo solucionar el problema? Lo cierto es que afortunadamente pueden ensayarse varias soluciones. Pero eso ya es una historia para otra entrada en este blog…

__________

Masicampo, E. J., & Lalande, D. R. (2012). A peculiar prevalance of p values just below .05. Quarterly Journal of Experimental Psychology, 65, 2271-2279.

¿El ocaso del priming social?

Durante las dos últimas décadas, la psicología social ha sido un hervidero de incesantes descubrimientos, cada cual más sorprendente que el anterior. Juzguen ustedes mismos. Utilizar palabras relacionadas con la tercera edad nos hace movernos más despacio. Al ver el logo de Apple repentinamente nos volvemos más creativos. Rendimos más en una prueba de cultura general si antes hemos pensado en un catedrático universitario. Es más probable que nos prestemos voluntarios a participar en un estudio de psicología si justo antes hemos tocado un osito de peluche… Estos y otros experimentos similares vendrían a confirmar la omnipresencia de lo que se ha venido a llamar priming social: la fuerte influencia que, conforme a esta literatura, ejercen sobre nuestra conducta claves sutiles, por mecanismos que escapan a nuestro control consciente.

No es extraño que este tipo de resultados se haya abierto camino rápidamente en los manuales de psicología social y que actualmente se expliquen en cualquier curso universitario sobre la materia. Se trata de hallazgos interesantes e incluso perturbadores. Sin embargo, el adjetivo que mejor los define es “sorprendentes”. Primero, porque cuestionan nuestra concepción general sobre qué determina nuestra conducta y qué papel juega la voluntad consciente en ella. Y, segundo, porque aunque en el área de la psicología cognitiva también se han encontrado diversos ejemplos de priming, estos fenómenos casi siempre tienen un efecto pequeño, breve y sumamente efímero. Por ejemplo, resulta más fácil reconocer que la palabra “león” se refiere a un animal si antes hemos sido brevemente expuestos al nombre de otro animal. Sin embargo, pequeñas alteraciones del procedimiento experimental son suficientes para que esos efectos desaparezcan. A la luz de lo difícil que es observar el priming semántico o afectivo en el laboratorio, los experimentos que documentan que observar el logo de Apple o tocar un osito de peluche pueden influir en nuestra conducta social parecen sencillamente extraordinarios. Y ya se sabe lo que sucede con las afirmaciones extraordinarias: que requieren pruebas extraordinarias.

¿Demasiado bonito para ser cierto? Varios estudios realizados en los últimos meses así lo sugieren. La polémica sobre la credibilidad de estos resultados se desató cuando Doyen, Klein, Pichon y Cleeremans, de la Universidad Libre de Bruselas, publicaron en PLoS ONE un breve informe en el que describían dos experimentos en los que no habían conseguido replicar un famoso ejemplo de priming. Cuando apenas se ha calmado el revuelo causado por aquel artículo, PLoS ONE publica ahora un estudio similar de Shanks, Newell y colaboradores que echa otro jarro de agua fría a los investigadores del llamado priming social. En esta ocasión se han realizado nada menos que nueve experimentos en los que se intentaba replicar, sin éxito, otro estudio particularmente popular. El dudoso honor le ha correspondido esta vez al hallazgo de Dijksterhuis y van Knippenberg de que las personas puntúan más en una prueba de cultura general si antes han pasado un tiempo pensando en un profesor universitario que si han estado pensando en un grupo de hooligans.

A la publicación del artículo de Shanks y colaboradores le ha seguido una agria polémica, desgraciadamente similar a la que tuvo lugar en ocasiones anteriores. La reacción de Dijksterhuis ante estos resultados es ligeramente más diplomática, pero en lo sustancial se diferencia poco de la defensa que Bargh hizo de sus propios experimentos cuando fueron cuestionados por Doyen y colaboradores. También en esta ocasión, Dijksterhuis achaca la divergencia de resultados a “los extremadamente poco profesionales” experimentos de Shanks, a los que califica de “sub-standard”, y a la posible existencia de moderadores (aún desconocidos) que tal vez estén determinando si el efecto se observa o no. No han faltado tampoco en esta ocasión los habituales ataques a la política de revisión de PLoS ONE. Dijksterhuis ha señalado también que el efecto de priming de conductas inteligentes se ha replicado en numerosas ocasiones.

A mi juicio, una de las intervenciones más destacadas en este debate se la debemos a Gregory Francis, que recientemente ha publicado una nota en el foro de PLoS ONE cuestionando la integridad de las publicaciones originales sobre el priming de conductas inteligentes. Aplicando un sencillo análisis, Francis observa que la potencia estadística de los experimentos originales de Dijksterhuis es relativamente baja, en torno a un 50%. Esto supone que aunque el efecto existiera realmente, uno sólo esperaría observarlo realmente en aproximadamente la mitad de los experimentos realizados con esa potencia estadística. Sin embargo, en el artículo original de Dijksterhuis y van Knippenberg el efecto resultó ser significativo en los cuatro experimentos que allí se publicaban. Respondiendo a la pregunta de más arriba, estos datos son demasiado bonitos para ser ciertos. Esto no quiere decir que los autores hayan mentido sobre los resultados, pero sí invita a sospechar que o bien los experimentos en los que no se observaba el efecto no se publicaron o bien que en el análisis de los datos se utilizaron diversas estratagemas que sabemos que aumentan la posibilidad de obtener un falso positivo.

__________

Doyen S., Klein O., Pichon C.-L., & Cleeremans, A. (2012). Behavioral priming: It’s all in the mind, but whose mind? PLoS ONE, 7, e29081.

Shanks, D. R., Newell, B. R., Lee, E. H., Balakrishnan, D., Ekelund, L., Cenac, Z., Kavvadia, F., & Moore, C. (2013). Priming intelligent behavior: An elusive phenomenon. PLoS ONE, 8, e56515.

El carácter psicológico de la explicación científica

El libro que Lewandowsky y Farrel han publicado bajo el título de Computational models in cognition vale su peso en oro (y así lo cobran las librerías). Juzguen ustedes a partir de mi pobre traducción de los párrafos con los que cierran el segundo capítulo.

Hay un último atributo de las explicaciones científicas que rara vez se hace explícito: Las explicaciones son “epistémicamente valiosas sólo si podemos entenderlas, ya sea implícita o explícitamente. Como resultado de ello, una explicación debe mantener algún contacto con nuestras capacidades psicológicas de comprensión” (Trout, 2007, p. 565). Se sigue de esto que cualquier explicación científica […] necesariamente debe evaluarse también en términos psicológicos. Esta sorprendente idea tiene numerosas implicaciones.

Primero, una explicación que no puede entenderse no es una explicación. Se sigue de ello que algunos fenómenos del universo podrían permanecer siendo un misterio para los humanos de forma irremediable –no porque en principio no existan explicaciones para ellos, sino porque esas explicaciones no pueden ser entendidas humanamente y por tanto no pueden formularse (Trout, 2007). También se sigue que los modelos usados en psicología se benefician de simplificar la realidad que pretenden explicar, incluso si esa simplificación hace que el modelo sea erróneo. A riesgo de ser provocativos, nos atrevemos a proponer que los modelos son útiles precisamente porque son falsos. Esto es lo que se conoce como la paradoja de Bonini (Dutton & Starbuck, 1971), según la cual a medida que un modelo se aproxima  más a la realidad, se hace más difícil de entender. En el caso más extremo, el modelo puede ser tan difícil de entender como aquello que pretende explicar –en cuyo caso, nada se gana con él.

Segundo, cuando hay varias explicaciones potencialmente comprensibles, se puede preferir algunas de ellas sobre otras por razones que son exclusivamente psicológicas y que no tienen nada que ver con sus propiedades objetivas. En un artículo con el evocador título de “Explanation as orgasm”, Gopnik (1998) subrayó la peculiar fenomenología […] que acompaña a las explicaciones; en concreto, propuso que la sensación gratificante que acompaña al descubrimiento de una explicación […] podría ser un mecanismo evolutivo para asegurar el impulso hacia la exploración y el descubrimiento –de la misma forma que los orgasmos proporcionan el impulso necesario para la reproducción. Aunque esta “emoción cognitiva” pueda tener beneficios para la especie en su conjunto, ya que asegura una exploración constante del entorno, podría no ser suficiente para asegurar que los individuos –incluyendo a los científicos– acepten las mejores explicaciones. Así pues, Trout (2007) identifica varios factores cognitivos, como el sesgo de retrodicción o el exceso de confianza, que podrían producir una falsa o exagerada sensación de satisfacción intelectual […] cuando un científico opta por una explicación. De la misma forma, la gente tiende a preferir explicaciones que son más sencillas de lo que permiten los datos (Lombrozo, 2007) y tienden a encontrar las explicaciones adaptacionistas particularmente seductoras […] (Lombrozo, 2005). Hintzman (1991) se atrevió a sugerir que un simple acrónimo puede llegar a aceptarse como una explicación de algo, incluso si el propio acrónimo implica que el fenómeno no tiene explicación (por ejemplo, OVNI) (Lewandowsky & Farrell, 2011, p. 68-69).

La psicología a la escuela

Hubo un tiempo en el que los psicólogos quisieron cambiar el mundo empezando por las escuelas. Mientras William James escribía sus populares Talks to teachers, Binet desarrollaba el primer gran test de inteligencia y Lightner Witmer creaba la psicología clínica, no para tratar casos de ansiedad y depresión, como hoy la conocemos, sino para ayudar a los niños con problemas de aprendizaje. A manos de Thorndike y Dewey la ciencia de Wundt, la ciencia de la mente, el aprendizaje y la memoria estaba llamada a revolucionar la sociedad desde las aulas. Un siglo después el mundo ha cambiado mucho, sí, pero las escuelas no tanto. En algún momento se perdieron el ímpetu y el entusiasmo. Los psicólogos del aprendizaje, la memoria y el pensamiento, enfundados en sus batas blancas, olvidaron que había un mundo real más allá del laboratorio. Y si quedaban psicólogos que quisieran cambiar el mundo, ya no miraban a los pupitres como línea de salida. En pleno siglo XXI, la psicología no es a la educación lo que la biología es a la medicina. Continúa leyendo en Psicoteca

Devolviendo la confianza en la psicología social

La psicología social vive uno de sus momentos más delicados. Durante las últimas semanas, las principales revistas del área se están apresurando a sacar a la luz sus retracciones de los artículos publicados por Diederik StapelDirk Smeesters y Lawrence Sanna, todos ellos acusados de inventarse los datos de sus experimentos. No ha ayudado a limpiar la imagen de este ámbito de investigación que una de sus revistas más prestigiosas, el Journal of Personality and Social Psychology, se decidiera a publicar, por motivos incomprensibles,un artículo sobre clarividencia que ha desatado una virulenta polémica sobre la adecuación de los métodos utilizados en psicología experimental. No hay razón para pensar que este tipo de problemas afecten a la psicología social más que a otras disciplinas científicas, pero la desafortunada sucesión de estos casos sonados en tan poco tiempo la ha puesto en el ojo del huracán. Continúa leyendo en Psicoteca

Poderes… estadísticos

La ciencia no es perfecta, pero tiene la perfección como ideal. Una de sus grandezas es precisamente su carácter auto-crítico, que la permite salir fortalecida de cualquier problema o adversidad, incluso de aquellas que la acechan desde dentro. El último año ha sido testigo de profundas polémicas en el seno de la psicología experimental que ilustran a la perfección cómo funciona nuestro “departamento de asuntos internos”. Cuando apenas habíamos empezado a asimilar el caso de fraude de Marc Hauser, hemos tenido que hacer frente al igualmente grave caso de Diederik Stapel. El mismo año se han publicado los experimentos de percepción extrasensorial de Daryl Bem, que para muchos constituyen un signo más de que es necesaria una revisión de nuestros métodos de investigación y de las políticas de publicación que siguen nuestras revistas más prestigiosas. También nos han sorprendido las dificultades para replicar algunos experimentos que se consideraban clásicos; entre ellos, el polémico estudio de Bargh.

Son numerosos los artículos que se han publicado durante este año haciendo una revisión crítica del modo en que funciona el sistema de publicación en ciencia y proponiendo métodos para detectar posibles casos de publicación de resultados poco robustos. A esta corriente pertenece un estudio de Gregory Francis recientemente publicado en Psychonomic Bulletin & Review que propone una sencillísima técnica para medir el grado de publicación selectiva en un área de investigación. Apenas es necesario explicar lo grave que puede ser la publicación selectiva de resultados positivos en cualquier disciplina científica. Imagine que hacemos 1000 estudios para comprobar si existe, por ejemplo, la hipersensibilidad electromagnética. Incluso aunque la hipersensibilidad electromagnética no exista (tal y como parece indicar toda la evidencia científica), habrá pequeñas fluctuaciones en los resultados de estos experimentos debidas al simple azar. Esto hará que un pequeño puñado de estudios arrojen resultados positivos: Es decir incluso si la hipersensibilidad electromagnética no existe, unos pocos estudios parecerán indicar que sí existe. Pongamos que de los 1000 estudios 950 concluyen que el efecto no existe y que los otros 50 concluyen que sí existe. A partir de estos resultados parece bastante sencillo intuir cuál es la realidad del fenómeno. Ahora bien, imagine que aunque hemos realizado 1000 estudios, las revistas científicas se niegan a publicar todos los que tienen resultados negativos y consecuentemente se publican sólo esos 50 estudios “positivos”. ¿Cuál es la impresión que se transmite a quien revisa esa literatura?

Por desgracia esto sucede con relativa frecuencia. En parte porque las revistas prefieren publicar estudios donde se demuestra que existe algo. (Demostrar que algo no existe no vende; es como aquello de “perro muerde a hombre”.) Pero a este problema de las revistas se suma que cuando un investigador quiere demostrar un fenómeno y tiene muchos estudios sobre el mismo, es probable que considere más “representativos” los estudios en los que se observa ese efecto que los estudios en los que no se observa. Aunque sería el ideal, ningún investigador es un testigo neutral de los resultados de sus experimentos.

Afortunadamente, disponemos de diversas técnicas que nos permiten saber cuándo existe un problema de publicación selectiva. El artículo de Francis propone un método sencillo que se basa en la idea de poder estadístico. Técnicamente, el poder estadístico de un estudio se define como la probabilidad de que los resultados de un estudio rechacen una hipótesis nula que es falsa. Simplificando esta definición: El poder estadístico es la probabilidad de que un estudio detecte un efecto que realmente existe. Uno de los parámetros de los que más depende ese poder estadístico es el número de observaciones que se hacen en un estudio.

Aunque parezca un concepto muy abstracto, es muy fácil de entender mediante un ejemplo. Imagina que tenemos una moneda trucada que da caras el 70% de las veces. Nosotros en realidad no sabemos aún si la moneda está trucada o no. Nuestro trabajo es precisamente averiguarlo. Así que tiramos esa moneda al aire unas cuantas veces para ver lo que pasa. Imagine que la tiramos 10 veces y salen 7 caras. ¿Es esto prueba de que la moneda está trucada? Pues la verdad es que no. Porque aunque se tratara de una moneda normal, es muy fácil que el azar haga que nos salgan 7 caras y 3 cruces. Ahora bien, imagine que hemos tirado la moneda 1000 veces y nos han salido 700 caras y 300 cruces. ¿Podemos concluir ahora que la moneda está trucada? Efectivamente, podemos hacerlo casi con total seguridad. La razón es que cuando tiramos la moneda sólo 10 veces, es muy probable que el azar tenga un efecto muy importante en el número de caras y cruces que nos salen. Pero a medida que incrementamos el número de observaciones es cada vez menos y menos probable que el patrón de resultados se vea muy influido por el azar. En otras palabras, sería  muy raro que el azar conspirara contra nosotros en 1000 ocasiones. Pues bien, eso que cambia entre tener 10 observaciones y 1000 observaciones es precisamente el poder estadístico. Cuantas más observaciones hagamos, tanto más probable es que cualquier efecto que veamos en los datos sea un efecto real y no un artificio del azar.

El lado oscuro del poder estadístico es que si un estudio tiene poco poder estadístico (es decir, si se basa en pocas observaciones), entonces a veces no conseguirá establecer a ciencia cierta si existe un efecto o no. Y es precisamente aquí donde el concepto de poder estadístico puede ser útil para ver si hay un problema de publicación selectiva en un área. Si los estudios de un área tienen poco poder estadístico, entonces esperaremos encontrar algunos resultados negativos, aunque el efecto que se esté estudiando exista realmente. Volviendo a los experimentos de Bem, esto implica, por ejemplo, que si la percepción extrasensorial existe y los estudios sobre ella tienen un poder estadístico del 80% entonces deberíamos esperar que la percepción extrasensorial se detectara en un 80% de los datos.

Pues bien, el artículo de Francis observa que en el caso de la percepción extrasensorial, el número de “éxitos” que se observan en los experimentos de Bem es mayor que el que sería esperable dado el poder estadístico de esos experimentos. Es decir, dado ese poder estadístico y asumiendo que la percepción extrasensorial existe, sería extremadamente poco probable tener tantos resultados positivos. Luego, “something is rotten in the state of Denmark”.

__________

Francis, G. (2012). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151-156. doi: 10.3758/s13423-012-0227-9

Presintiendo el futuro… de la psicología

Conforme a la teoría de la gravedad de Newton, los planetas deberían recorrer una órbita elíptica alrededor del sol. Curiosamente, Urano no se mueve así. Su órbita es aproximadamente elíptica, sí, pero aquí y allí se desvía de forma caprichosa del que debería ser su curso normal. Cuando los astrónomos del siglo XIX lo descubrieron, supongo que alguno se llevaría las manos a la cabeza. Si hubieran estudiado el falsacionismo de Karl Popper, sin duda habrían llegado a la conclusión de que la teoría de Newton debía ser incorrecta. Pero ninguno de ellos dio este paso. En lugar de ello, asumieron que si Urano se comportaba de forma extraña y si la teoría de Newton era cierta, entonces debía haber cerca algún cuerpo desconocido de gran tamaño cuya masa influyera en la órbita de Urano. Así se descubrió Neptuno.

Esta historia tiene interesantísimas repercusiones para entender cómo evoluciona (y cómo debería evolucionar) la ciencia. Primero, nos enseña que hay que tener cuidado a la hora de interpretar los datos porque lo que parece consistente o inconsistente con una teoría a menudo admite otras interpretaciones. A veces creemos que unos datos nos dicen algo sobre una teoría (en este caso, la teoría de la gravitación universal de Newton), pero en realidad nos están diciendo algo sobre otra teoría (en este caso, la teoría obsoleta de que sólo había siete planetas en el sistema solar). Segundo, nos enseña que aunque haya que mantener la mente abierta ante los nuevos datos, a menudo también merece la pena persistir en el intento de mantener explicaciones sencillas incluso para los hechos que inicialmente parecen desafiarlas.

Pensando en aquellos astrónomos que no renunciaron a la teoría de Newton ante la primera adversidad, es sencillo entender por qué los psicólogos actuales también miran con escepticismo las recientes “demostraciones” de percepción extrasensorial que el pasado 2011 publicó Bem en un artículo que ha sembrado la polémica. El diseño de los experimentos es ciertamente audaz y confieso de antemano que despierta todas mis simpatías. En realidad, se trata nada menos que de nueve experimentos que utilizan técnicas completamente diferentes, pero cuyos resultados convergen en la conclusión de que en determinadas condiciones las personas pueden ser sensibles a eventos que aún no han sucedido.

Uno de mis experimentos favoritos se basa en una inversión temporal de un experimento típico de priming afectivo. En los experimentos normales de priming afectivo se observa que el tiempo que se tarda en juzgar si una palabra (como, por ejemplo, “flor”) es positiva es menor si justo antes se presenta muy brevemente otra palabra que también es positiva (como, por ejemplo, “vacaciones”). Nada sorprendente hasta aquí. Lo interesante de los experimentos de Bem es que obtiene efectos similares incluso cuando se invierte el orden en el que se presentan los estímulos. Es decir, que nos cuesta menos decir, por ejemplo, que la palabra “flor” es positiva, si después de nuestra respuesta se presenta muy brevemente la palabra “vacaciones”. Estos resultados son tan asombrosos que cuesta describirlos asépticamente sin utilizar signos de admiración. El resto de experimentos de Bem son muy diferentes, pero la característica común de todos ellos es que el comportamiento de los participantes se ve influido por estímulos que aún no ha visto en ese momento. De ahí el nombre del polémico artículo: Feeling the future. Impresionante, ¿verdad?

Amparándose en estos resultados muchos dirán que a la psicología científica no le queda más remedio que rendirse ante la evidencia de estas pruebas a favor de la percepción extrasensorial. Pero nada más lejos de la realidad. Los psicólogos siguen en sus trece y su escepticismo no se ha rebajado ni un ápice. Y creo que actúan con la misma sabiduría que los astrónomos que antes de abandonar la teoría de Newton hicieron todo lo posible por “estirarla” para explicar la anomalía en la órbita de Urano.

Tal vez la más sencilla interpretación de los datos de Bem es que, salvo que los intentos de replicación y los meta-análisis posteriores indiquen lo contrario, es extremadamente probable que se trate de falsos positivos. La estadística inferencial que utilizamos habitualmente en las ciencias del comportamiento se basa en la idea de que aceptamos una hipótesis cuando la probabilidad de que las pruebas a su favor se deban al azar es inferior al 5%. Esto quiere decir que aunque diseñemos nuestros experimentos muy bien, en un 5% de las ocasiones (es decir, una de cada veinte veces) aceptaremos como válida una hipótesis falsa que parece verdadera por puro azar. Parece que este riesgo es pequeño, pero significa que si hacemos muchos experimentos a favor de nuestra hipótesis, aunque sea falsa, uno de cada veinte experimentos parecerá darnos la razón. Nosotros sabemos que nueve de los experimentos de Bem dan apoyo a la idea de que existe la percepción extrasensorial. Pero no sabemos si se trata de los únicos nueve experimentos que Bem ha realizado o si se trata de nueve experimentos elegidos de un conjunto más amplio (en el cual no todos los experimentos apoyaban esa hipótesis).

Incluso para el investigador más honesto (y no dudo de que Bem lo sea) es fácil caer en estos errores sin darse cuenta. Diseñamos un estudio piloto para explorar un nuevo fenómeno y si los primeros cinco datos que obtenemos parecen ambiguos, en lugar de terminar el experimento, hacemos un pequeño cambio en el experimento y vemos que pasa. Si los resultados no son más favorables ahora, tomamos esta segunda prueba como buena y la primea como mala. Por el contrario, si el segundo experimento también parece arrojar resultados ambiguos o abiertamente contrarios, es posible que no obstante realicemos un tercer experimento con pequeñas modificaciones para ver qué pasa. Y así sucesivamente. Al final, tendremos unos cuantos experimentos “piloto” fallidos o ambiguos y unos pocos experimentos que tienen resultados más favorables a nuestra hipótesis y que, como “padres de la criatura”, no podemos evitar tomar por buenos. Y, por supuesto, la publicación selectiva de resultados es sólo una de las malas (pero habituales) prácticas que puede llevarnos a caer en falsos positivos. (Véanse mis entradas previas sobre el tema aquí y aquí.)

Para evitar caer en falsos positivos, es fundamental que antes de darse por universalmente aceptado, un fenómeno sea replicado varias veces y, si es posible, por investigadores diferentes. Si el efecto existe realmente, deberían poder replicarse los resultados sin dificultad. Si ha sido un falso positivo, empezarán a observarse resultados negativos. El problema es que realizar estas réplicas consume mucho tiempo. Tiempo que los investigadores profesionales a menudo no tienen, porque sus carreras académicas dependen más de descubrir cosas nuevas que de comprobar si se replican resultados que han obtenido otros. (Hay que recordar que las principales revistas de psicología casi nunca aceptan la publicación de un trabajo que se limite a replicar a otro.)

Si en el caso de la órbita de Urano, la contradicción entre la teoría y los datos se solventó al descubrir Neptuno, ¿cómo se resolverá la contradicción entre los datos de Bem y las convicciones de los científicos de que el futuro no influye en el presente? Por lo pronto, los experimentos que han realizado otros psicólogos no han replicado los resultados de Bem (Ritchie, Wiseman, & French, 2012); así que parece poco probable que tengamos que reescribir los fundamentos de nuestra ciencia. Sin embargo, el caso de los experimentos de Bem es una ocasión excelente para replantearnos la forma en que realizamos investigación en psicología y en las ciencias de la salud en general. Son varios los artículos teóricos que han aprovechado esta ocasión para hacer esta misma lectura. De entre ellos recomiendo al menos dos. El de Wagenmakers, Wetzels, Borsboom y van der Maas (2011), publicado en el mismo volumen que el artículo original de Bem, es un alegato contra la utilización de análisis estadísticos laxos para poner a prueba hipótesis controvertidas. El otro, publicado por LeBel y Peters (2011) en el Review of General Psychology, nos invita entre otras cosas a hacer réplicas exactas de los experimentos más importantes en lugar de las habituales réplicas conceptuales (en las que se “repite” un experimento, pero variando detalles del procedimiento para ver si los resultados se mantienen a pesar de los cambios). Proporciona también un excelente análisis de por qué con frecuencia no prestamos toda la atención que se merecen a los intentos fallidos de réplicas. Lamentablemente no tengo espacio aquí para explicar con detalle ambos artículos, pero son dos excelentes muestras de cómo la verdadera ciencia aprovecha cualquier duda y debate para salir fortalecida.

__________

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407-425. doi: 10.1037/a0021524

LeBel, E. P., & Peters, K. R. (2011). Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice. Review of General Psychology, 15, 371-379. doi: 10.1037/a0025172

Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the future: Three unsuccessful attempts to replicate Bem’s ‘retroactive facilitation of recall’ effect. PLoS ONE, 7, e33423. doi:10.1371/journal.pone.0033423

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011). Journal of Personality and Social Psychology, 100, 426-432. doi: 10.1037/a0022790

¿Es la psicología una ciencia?

El artículo de Scott Lilienfeld que acaba de publicarse en American Psychologist tiene todos los ingredientes necesarios para convertirse en un clásico de la psicología. Arranca con un duro ataque a la línea de flotación de nuestra disciplina: El público general no aprecia la psicología como ciencia ni como profesión. Los datos que recopila el autor muestran, con poco margen para la duda, que para un porcentaje nada despreciable de la población la psicología ni es una ciencia ni es útil a la sociedad. Y no hablamos aquí de pequeños sectores ni de opiniones minoritarias. En algunos estudios, sólo un 30% de la población considera que la psicología es propiamente una ciencia. Y la mayor parte de los encuestados confían más en economistas, ingenieros, médicos e incluso sacerdotes a la hora de solucionar los problemas más acuciantes de la sociedad. Paradójicamente, estas opiniones públicas pueden provocar el propio declive de la psicología como ciencia, ya que es difícil que una sociedad que desconfía del estatus científico de la psicología opte por financiar el avance de esta disciplina, más aún en tiempos de crisis como los que vivimos.

Entre los argumentos que la gente utiliza para justificar su visión negativa de la psicología, Lilienfeld destaca que los legos suelen ver la psicología como un mero ejercicio de sentido común que no se basa en métodos científicos, que no permite realizar predicciones precisas ni arroja resultados replicables. Mucha gente tampoco espera más de la psicología, puesto que creen que cada ser humano es único y que es inútil intentar dar explicaciones generales para el comportamiento individual.

Algunas de estas críticas obedecen a simples malentendidos y a cierta voluntad de juzgar a la psicología con un rasero diferente del que se usa para evaluar otras disciplinas. Todo el mundo entiende que aunque cada ser humano sea único, la medicina científica es posible porque nos parecemos lo suficiente en unas cuantas cuestiones fundamentales que tienen que ver con cómo funciona nuestro organismo. Sin embargo, la gente encuentra este argumento poco convincente cuando se trata de la psicología. Lo mismo sucede con la dificultad que tienen los psicólogos para hacer predicciones precisas. Nuestras limitaciones en este terreno no son mayores que las de los médicos intentando predecir cuánto tiempo nos queda de vida o los economistas intentando atisbar si subirá o no el IBEX 35 la semana que viene. Pero de nuevo, lo que no mina la confianza en médicos y economistas, sí lo hace en el caso de los psicólogos.

En otros casos, se trata de críticas justamente merecidas por los psicólogos. Por ejemplo, no hemos sabido ser contundentes a la hora de condenar las prácticas pseudocientíficas de nuestros colegas, prácticas que por desgracia son demasiado habituales en algunos sectores profesionales. Si los psicólogos no nos limitamos a utilizar las técnicas diagnósticas y de intervención cuya utilidad está demostrada, si damos cabida a cualquier remedio “milagroso” en nuestro arsenal terapéutico, no podemos quejarnos de que la población general no perciba el carácter científico de la psicología. Cada vez que se inicia un programa que intenta elevar los estándares científicos de la psicología, se alzan voces en contra por parte de muchos profesionales. Cuando estas voces pueden más que la razón y los intereses cortoplacistas de los terapeutas se imponen al rigor científico, la psicología pierde parte de su legitimidad como ciencia.

Los psicólogos que sí que comparten la preocupación porque la psicología sea una ciencia rigurosa son igualmente culpables cuando se callan sus opiniones para sí mismos y no hacen nada por combatir la pseudociencia en su terreno. Si dejamos que sea sólo la voz de los “esotéricos” y charlatanes la que llega al público general, no podemos quejarnos que sea esta nuestra imagen.

Afortunadamente, ninguno de estos problemas carece de solución, y Lilienfeld hace un claro intento por lanzar propuestas concretas. Algunas de estas posibles medidas tienen que ver con lo que el psicólogo puede hacer a nivel individual por su disciplina. Una medida básica es preocuparse por estar bien formado y mantenerse al día sobre los avances científicos de la disciplina y sobre la investigación empírica que subyace a los diversos tratamientos y técnicas diagnósticas. Pero también es importante dedicar parte de nuestro tiempo a la divulgación de la psicología como ciencia y a la creación de una conciencia colectiva sobre su valor añadido para la sociedad. Estas medidas sólo pueden funcionar si las instituciones en su conjunto (muy especialmente las universidades, pero también las asociaciones profesionales) comienzan a valorar la actividad divulgativa de los profesores e investigadores. Hay que sacar a los científicos del laboratorio, y esto sólo comenzará a suceder cuando los centros de investigación les valoren por hacerlo.

__________

Lilienfeld, S. O. (2012). Public skepticism of psychology: Why many people perceive the study of human behavior as unscientific. American Psychologist, 67, 111-129.

Epidemiología del fraude y las malas prácticas

Hace pocas semanas publicaba en este mismo blog el resumen de un estudio de Simmons y colaboradores en el que nos mostraban lo fácil que es producir falsos positivos en la investigación científica si se toleran una serie de malas prácticas que probablemente son habituales en los laboratorios de todo el mundo. Cuando apenas nos hemos recuperado del mazazo, Psychological Science vuelve a la carga con un nuevo trabajo en el que se intenta medir precisamente la incidencia real de estas y otras prácticas cuestionables.

En este estudio, John, Loewenstein y Prelec encuestaron a más de 2.000 investigadores preguntándoles (a) si habían incurrido en una serie de malas prácticas (que iban de omitir información sobre algunas variables dependientes hasta falsificar los datos), (b) cómo de justificable les parecía haberlo hecho, (c) qué proporción de psicólogos pensaban que recurría a estas mismas prácticas, y (d) qué porcentaje de esos psicólogos pensaban ellos que reconocería haberlas cometido. Esta última medida es particularmente interesante porque teniendo en cuenta cuántos entrevistados confiesan realizar las prácticas (a) y cuál es la probabilidad de que alguien que las ha cometido las confiese (d), podemos tener una segunda estimación de cuál es la prevalencia real de estas prácticas (c).

Una de las principales novedades del estudio frente a sus precedentes es que para lograr que las respuestas que daban los participantes fueran sinceras, no sólo se aseguraron de que la encuesta fuera completamente anónima, sino que también ensayaron con la mitad de los participantes una técnica que les daba incentivos para ser honestos. Para ello utilizaron un algoritmo Bayesiano (al que llaman “droga de la verdad”) que computa un índice de credibilidad para cada participante basándose en las respuestas que dan sobre sus malas prácticas y las estimaciones de la distribución general de respuestas. Como no se podía pagar a los participantes sinceros sin violar el principio de anonimato, se premió a los participantes honestos haciendo una donación a la asociación que ellos eligieran.

Los autores encontraron que proporcionar estos incentivos para ser honestos incrementaba notablemente el número de “confesiones”, especialmente para las prácticas menos defendibles, tales como falsificar datos. Esto supone que los estudios previos que no han utilizado este tipo de incentivos (e.g., Fanelli, 2009; Martinson, Anderson, & de Vries, 2005) podrían estar subestimando la prevalencia real de las prácticas más graves. Teniendo en cuenta sólo los datos de la condición con incentivos para decir la verdad, los autores estiman que la mayor parte de los investigadores ha incurrido en alguna práctica como publicar selectivamente sólo algunos estudios, omitir información sobre algunas variables dependientes, aumentar muestra más allá de lo proyectado inicialmente, relatar hechos inesperados como si hubieran sido esperados de antemano, y excluir datos con criterios post-hoc. Más aún, según estos datos, uno de cada diez científicos ha introducido datos falsos en el registro científico. Separando los datos por áreas de investigación, se observa que estas prácticas son más frecuentes en psicología cognitiva, neurociencias y psicología social. Sin embargo, la incidencia parece ser menor entre los psicólogos clínicos.

Como señalan John y sus colaboradores, tal vez la consecuencia más triste de esta tendencia es que la mediocridad genera más mediocridad. A corto plazo, recurrir a estas prácticas hace que los currículums de los investigadores engorden a una velocidad vertiginosa y que las revistas de psicología aparezcan plagadas de artículos inusualmente elegantes. Cada día es más obvio para la comunidad científica que se trata sólo de una falsa ilusión de progreso que se construye sobre publicaciones selectivas y resultados poco o nada replicables. Pero esto no impide que poco a poco se vayan imponiendo unos cánones de productividad científica que sólo pueden alcanzarse cayendo en el pecado. Nos esperan malos tiempos si la única forma de estar a la altura como científico pasa por prostituir los propios pilares de la ciencia.

__________

Fanelli, D. (2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. PLoS ONE, 4, e5738.

John, L. K., Loewenstein, G., & Prelec, D. (en prensa). Measuring the prevalence of questionable research practices with incentives for truth-telling. Psychological Science.

Martinson, B. C., Anderson, M. S., & de Vries, R. (2005). Scientists behaving badly. Nature, 435, 737-738.

La ciencia de bocado engorda más

Una nueva moda ha invadido la ciencia durante los últimos cinco años: el brief report. A la costumbre tradicional de agrupar en cada artículo varios experimentos con evidencia convergente sobre un fenómeno le ha sucedido una tendencia cada vez más acusada a publicar artículos cortos en los que la introducción teórica se reduce al mínimo indispensable, el número de experimentos se limita a uno o dos y las discusiones teóricas van directamente al grano, sin florituras. Las ventajas de este tipo de publicaciones son muchas; sobre todo que los revisores pueden evaluar el artículo más rápidamente, los artículos aceptados ven la luz antes y la comunidad científica no necesita perder mucho tiempo para leer la versión definitiva. Algunos investigadores también han estimado que aunque el índice de impacto de las revistas que publican estos artículos breves tiende a ser más bajo, el índice de impacto por página es sin embargo mayor, lo que sugiere que en realidad estos artículos funcionan mejor a la hora de transmitir las ideas a la audiencia y estimular nueva investigación. Sin embargo, esta moda no está exenta de peligros. En un artículo (paradójicamente breve) que acaba de ver la luz en Perspectives on Psychological Science, Bertamini y Munafò reflexionan sobre el posible impacto negativo de los brief reports.

En primer lugar, muchas de las ventajas de estos artículos son cuestionables. Por ejemplo, el mayor índice de impacto por página que tienen estas revistas podría ser una consecuencia de que los autores dividan en varios artículos trabajos que en realidad deberían publicarse en un único artículo. Si esos diversos artículos se citan siempre juntos, eso puede producir la impresión de que ese trabajo tiene más impacto: una única idea genera varias citas. Pero sería una mera ilusión de impacto. Además, aunque los artículos breves conllevan menos trabajo para los editores y los revisores de las revistas científicas, a nivel global se multiplica el número de artículos que los investigadores envían a publicar, con lo cual en realidad se está aumentando el tiempo que se dedica colectivamente a estas tareas, aunque se esté reduciendo el trabajo por artículo individual.

En segundo lugar, este tipo de artículos breves tiene más probabilidades de arrojar falsos positivos. Por una parte, como se dan datos únicamente de uno o dos experimentos, no queda claro que los resultados que ahí aparezcan sean fácilmente replicables. Bertamini y Munafò observan que los brief reports no sólo incluyen menos experimentos, sino que además estos experimentos suelen tener muestras más pequeñas, lo que de nuevo favorece que aparezcan falsos positivos asociados a la falta de poder estadístico.

Las revistas pueden tener interés a corto plazo en favorecer estos informes breves de experimentos realizados con muestras pequeñas. Sus índices de impacto suben con el número de citas. Así que les interesa publicar artículos fáciles de leer y que generen polémica, independientemente de que se produzca porque otros autores repliquen los resultados o porque no consigan hacerlo. No en vano, los autores de este estudio observan que existe una correlación entre el índice de impacto de una revista y el grado en el que sus artículos exageran el tamaño real de los efectos que estudian. En otras palabras, las revistas pueden tener interés en vender “aire” porque aunque eso no haga progresar la ciencia, sí que genera citas y discusión.

La solución a estos problemas pasa por medir el impacto de las revistas no sólo por el número de citas que obtienen, sino también por otros criterios de calidad como la replicabilidad de sus resultados y los sesgos de publicación que puedan observarse entre sus artículos. También abogan por sustituir el actual énfasis en la cantidad de publicaciones por una mejor valoración de su calidad. En este sentido, destacan la política del Research Excellence Framwork del Reino Unido que desde hace unos años valora la producción científica de los departamentos y de los candidatos a diferentes puestos teniendo en cuenta únicamente las cuatro mejores publicaciones de los investigadores, de modo que se les incentiva para primar la calidad sobre la cantidad.

__________

Bertamini, M., & Munafò, M. R. (2012). Bite-size science and its undesired side effects. Perspectives on Psychological Science, 7, 67-71.