¿Sirve de algo entrenar la memoria de trabajo?

Dice la canción que tres cosas hay en la vida: salud, dinero y amor. Si hubiera que añadir una cuarta, mi voto va para la memoria de trabajo (MT). Es uno de esos constructos mágicos que parece predecirlo casi todo en la vida: capacidad lectora, rendimiento en matemáticas, aprendizaje de idiomas… De todo. Ante esta evidencia, es tentador pensar que entrenando la MT se podría desarrollar cualquier capacidad cognitiva. Si esto fuera cierto, el rendimiento intelectual podría mejorarse fácilmente mediante sencillos juegos de ordenador que nos obligaran a ejercitar la MT. Y, en efecto, decenas de estudios parecen (o parecían) sugerir que estos programas de entrenamiento funcionan. Sin embargo, un artículo recién publicado por Monica Melby-Lervåg, Thomas Redick y Charles Hulme desafía esta conclusión.

El artículo presenta un meta-análisis de 145 comparaciones experimentales publicadas en 87 artículos. Los resultados pueden resumirse en la figura que reproduzco bajo estas líneas. La columna de la derecha diferencia tres tipos de estudios, dependiendo de si se comprueba el efecto del entrenamiento en habilidades similares a las entrenadas (near-transfer effects), parcialmente similares a las entrenadas (intermediate-transfer effects) o totalmente diferentes a las entrenadas (far-transfer effects). Un primer patrón que puede observarse es que los efectos sólo son grandes en las dos primeras categorías. Entre los estudios que exploran el efecto del entrenamiento sobre habilidades lejanas, los efectos son siempre cercanos a cero.

hulme_fig2

La figura también clasifica los estudios en función de si utilizan un grupo de control “no tratado” o un grupo de control “tratado”. Los primeros son estudios donde los participantes del grupo de control no realizan ninguna actividad mientras los participantes del grupo experimental reciben el tratamiento. Como puede verse en la figura, los estudios que utilizan este tipo de grupo control pasivo son los que arrojan resultados más prometedores. Por desgracia, este tipo de grupo de control deja mucho que desear. Sería como comprobar la eficacia de una medicina utilizando como control a un grupo de personas que no consume ningún medicamento alternativo, ni siquiera un placebo.

hulme_fig_3El resultado más interesante del artículo, a mi juicio, es el análisis de la distribución de valores-p. En cualquier área de investigación “sana”, donde se exploran efectos reales, la distribución de valores-p suele mostrar asimetría a la derecha. Esto es, hay muchos más estudios con valores-p entre 0.00 y 0.01 que entre 0.04 y 0.05. La gráfica 3 del artículo, que reproduzco a la izquierda, muestra justo el patrón contrario entre los estudios que utilizaron controles “tratados”. Este tipo de distribución plana -o incluso con asimetría  a la izquierda- es el que suele observarse en presencia de falsos positivos. De hecho, aunque los autores son demasiado benévolos para discutir esta posibilidad, la asimetría a la izquierda sugiere que estos estudios podrían estar sesgados por cierta dosis de p-hacking. Es decir, que los datos podrían haberse analizado una y otra vez de diversas maneras hasta que, por azar, se obtuvieron resultados significativos.

Estos resultados revisten una especial importancia para el diseño de intervenciones educativas para niños con problemas de aprendizaje. Entre algunos profesionales comenzaba a cuajar la idea de que estos problemas podían paliarse mediante el entrenamiento de la MT. Los resultados de este meta-análisis sugieren que este tipo de prácticas están seguramente avocadas al fracaso.

__________

Melby-Lervag, M., Redick, T. S., & Hulme, C. (2016). Working memory training does not improve performance on measures of intelligence or other measures of “far transfer”: Evidence from a meta-analytic review. Perspectives on Psychological Science, 11, 512-534.

Cómo (no) saber si un proceso mental es inconsciente: El caso del aprendizaje implícito

Las técnicas estadísticas que utilizamos habitualmente en los experimentos de psicología están pensadas para evitar caer en el error de ver una pauta donde sólo hay ruido y azar. Precisamente por eso, estas técnicas no deben utilizarse cuando lo que queremos hacer es demostrar que los datos se deben al azar. A pesar de ello, hay grandes áreas de investigación donde se cae en este error de forma rutinaria. Un ejemplo fascinante es la investigación sobre aprendizaje implícito (o inconsciente). Según un meta-análisis reciente, buena parte de lo que creemos saber sobre el aprendizaje inconsciente podría estar sesgado por este sencillo error. Continúa leyendo en Ciencia Cognitiva…

Si tu médico te dice que “piensa inconscientemente”…

Uno de los pecados más habituales de los divulgadores científicos es lanzarnos a colgar en nuestros blogs comentarios de los estudios más sexys que se publican sin pararnos a pensar si esos resultados serán sólidos o no. Desde luego, no merezco ser yo quien tire la primera piedra contra nadie. Si alguna vez he caído en ese error, y seguro que así ha sido, espero que el último artículo que acabo de publicar en Frontiers in Psychology con Olga Kostopoulou y David Shanks me redima de mis excesos.

Entre los hallazgos más intrigantes que se han publicado en los diez últimos años brilla con luz propia el llamado efecto de pensamiento inconsciente. Un estudio publicado en Science en 2006 sugería que cuando las personas nos vemos obligadas a tomar una decisión particularmente difícil, como elegir el mejor coche de un catálogo o decidir entre varios apartamentos, puede ser mejor dejar pasar un periodo de tiempo distraídas en otros asuntos que dedicar el mismo tiempo a pensar en el problema en cuestión. Este descubriendo encaja bastante bien con el actual interés por todo lo que tiene que ver con la intuición y los heurísticos. De hecho, es muy difícil abrir un libro de divulgación sin encontrarse referencias a estos famosos experimentos.

¿Demasiado bonito para ser cierto? Posiblemente sí. Muchos de los experimentos que han intentado replicar este efecto han fracasado estrepitosamente. Y se han publicado al menos dos  meta-análisis que sugieren que en los contados casos en los que se ha encontrado este fenómeno, podría no ser más que un falso positivo. A pesar de estas críticas, el entusiasmo por el pensamiento inconsciente no ha perdido un ápice de intensidad en los últimos años.

Tal vez te preocupe saber que, entre las muchas cosas para las que se ha sugerido que el pensamiento inconsciente podría ser útil, figura la toma de decisiones médicas. Como lo oyes. Según este punto de vista, cuando un médico tiene que decidir cuál es tu diagnóstico o cómo de grave es tu enfermedad, lo mejor que puede hacer es delegar la decisión en su “inconsciente”, especialmente si tu caso es complejo. Y, lo creas o no, hasta hace poco esta recomendación tenía cierto apoyo empírico. En 2010 se publicó un estudio en el que se observó que los estudiantes de psicología clínica hacían mejores diagnósticos después de un periodo de distracción que después de un periodo de reflexión equivalente. No es de extrañar que empezaran a publicarse artículos en revistas médicas sugiriendo que la carrera de medicina debía incluir asignaturas para educar la “intuición médica”.

Lo que estos artículos no mencionan es que ha habido al menos otros tres intentos de replicar el efecto de pensamiento inconsciente en toma de decisiones médicas y que ninguno de ellos ha tenido resultados positivos. Y no parece que estos resultados nulos se deban a falta de potencia estadística. Según el meta-análisis que acabamos de publicar, si uno toma en conjunto todos estos estudios sobre decisiones médicas, el efecto de pensamiento inconsciente no es estadísticamente significativo. De hecho, aplicando una sencilla técnica estadística conocida como Bayes Factor hemos podido comprobar que la mayor parte de los estudios realizados dan apoyo a la idea de que el efecto de pensamiento inconsciente no ha tenido lugar.

De modo que, para terminar la frase que abre este post, si tu médico te dice que toma sus decisiones basándose en la intuición, dile que lea esta entrada dos veces cuando baje la marea. Y, sí, cambia de médico.

__________

Vadillo, M. A., Kostopoulou, O., & Shanks, D. R. (2015). A critical review and meta-analysis of the unconscious thought effect in medical decision making. Frontiers in Psychology, 6, 636.

Presintiendo el futuro… de la psicología

Conforme a la teoría de la gravedad de Newton, los planetas deberían recorrer una órbita elíptica alrededor del sol. Curiosamente, Urano no se mueve así. Su órbita es aproximadamente elíptica, sí, pero aquí y allí se desvía de forma caprichosa del que debería ser su curso normal. Cuando los astrónomos del siglo XIX lo descubrieron, supongo que alguno se llevaría las manos a la cabeza. Si hubieran estudiado el falsacionismo de Karl Popper, sin duda habrían llegado a la conclusión de que la teoría de Newton debía ser incorrecta. Pero ninguno de ellos dio este paso. En lugar de ello, asumieron que si Urano se comportaba de forma extraña y si la teoría de Newton era cierta, entonces debía haber cerca algún cuerpo desconocido de gran tamaño cuya masa influyera en la órbita de Urano. Así se descubrió Neptuno.

Esta historia tiene interesantísimas repercusiones para entender cómo evoluciona (y cómo debería evolucionar) la ciencia. Primero, nos enseña que hay que tener cuidado a la hora de interpretar los datos porque lo que parece consistente o inconsistente con una teoría a menudo admite otras interpretaciones. A veces creemos que unos datos nos dicen algo sobre una teoría (en este caso, la teoría de la gravitación universal de Newton), pero en realidad nos están diciendo algo sobre otra teoría (en este caso, la teoría obsoleta de que sólo había siete planetas en el sistema solar). Segundo, nos enseña que aunque haya que mantener la mente abierta ante los nuevos datos, a menudo también merece la pena persistir en el intento de mantener explicaciones sencillas incluso para los hechos que inicialmente parecen desafiarlas.

Pensando en aquellos astrónomos que no renunciaron a la teoría de Newton ante la primera adversidad, es sencillo entender por qué los psicólogos actuales también miran con escepticismo las recientes “demostraciones” de percepción extrasensorial que el pasado 2011 publicó Bem en un artículo que ha sembrado la polémica. El diseño de los experimentos es ciertamente audaz y confieso de antemano que despierta todas mis simpatías. En realidad, se trata nada menos que de nueve experimentos que utilizan técnicas completamente diferentes, pero cuyos resultados convergen en la conclusión de que en determinadas condiciones las personas pueden ser sensibles a eventos que aún no han sucedido.

Uno de mis experimentos favoritos se basa en una inversión temporal de un experimento típico de priming afectivo. En los experimentos normales de priming afectivo se observa que el tiempo que se tarda en juzgar si una palabra (como, por ejemplo, “flor”) es positiva es menor si justo antes se presenta muy brevemente otra palabra que también es positiva (como, por ejemplo, “vacaciones”). Nada sorprendente hasta aquí. Lo interesante de los experimentos de Bem es que obtiene efectos similares incluso cuando se invierte el orden en el que se presentan los estímulos. Es decir, que nos cuesta menos decir, por ejemplo, que la palabra “flor” es positiva, si después de nuestra respuesta se presenta muy brevemente la palabra “vacaciones”. Estos resultados son tan asombrosos que cuesta describirlos asépticamente sin utilizar signos de admiración. El resto de experimentos de Bem son muy diferentes, pero la característica común de todos ellos es que el comportamiento de los participantes se ve influido por estímulos que aún no ha visto en ese momento. De ahí el nombre del polémico artículo: Feeling the future. Impresionante, ¿verdad?

Amparándose en estos resultados muchos dirán que a la psicología científica no le queda más remedio que rendirse ante la evidencia de estas pruebas a favor de la percepción extrasensorial. Pero nada más lejos de la realidad. Los psicólogos siguen en sus trece y su escepticismo no se ha rebajado ni un ápice. Y creo que actúan con la misma sabiduría que los astrónomos que antes de abandonar la teoría de Newton hicieron todo lo posible por “estirarla” para explicar la anomalía en la órbita de Urano.

Tal vez la más sencilla interpretación de los datos de Bem es que, salvo que los intentos de replicación y los meta-análisis posteriores indiquen lo contrario, es extremadamente probable que se trate de falsos positivos. La estadística inferencial que utilizamos habitualmente en las ciencias del comportamiento se basa en la idea de que aceptamos una hipótesis cuando la probabilidad de que las pruebas a su favor se deban al azar es inferior al 5%. Esto quiere decir que aunque diseñemos nuestros experimentos muy bien, en un 5% de las ocasiones (es decir, una de cada veinte veces) aceptaremos como válida una hipótesis falsa que parece verdadera por puro azar. Parece que este riesgo es pequeño, pero significa que si hacemos muchos experimentos a favor de nuestra hipótesis, aunque sea falsa, uno de cada veinte experimentos parecerá darnos la razón. Nosotros sabemos que nueve de los experimentos de Bem dan apoyo a la idea de que existe la percepción extrasensorial. Pero no sabemos si se trata de los únicos nueve experimentos que Bem ha realizado o si se trata de nueve experimentos elegidos de un conjunto más amplio (en el cual no todos los experimentos apoyaban esa hipótesis).

Incluso para el investigador más honesto (y no dudo de que Bem lo sea) es fácil caer en estos errores sin darse cuenta. Diseñamos un estudio piloto para explorar un nuevo fenómeno y si los primeros cinco datos que obtenemos parecen ambiguos, en lugar de terminar el experimento, hacemos un pequeño cambio en el experimento y vemos que pasa. Si los resultados no son más favorables ahora, tomamos esta segunda prueba como buena y la primea como mala. Por el contrario, si el segundo experimento también parece arrojar resultados ambiguos o abiertamente contrarios, es posible que no obstante realicemos un tercer experimento con pequeñas modificaciones para ver qué pasa. Y así sucesivamente. Al final, tendremos unos cuantos experimentos “piloto” fallidos o ambiguos y unos pocos experimentos que tienen resultados más favorables a nuestra hipótesis y que, como “padres de la criatura”, no podemos evitar tomar por buenos. Y, por supuesto, la publicación selectiva de resultados es sólo una de las malas (pero habituales) prácticas que puede llevarnos a caer en falsos positivos. (Véanse mis entradas previas sobre el tema aquí y aquí.)

Para evitar caer en falsos positivos, es fundamental que antes de darse por universalmente aceptado, un fenómeno sea replicado varias veces y, si es posible, por investigadores diferentes. Si el efecto existe realmente, deberían poder replicarse los resultados sin dificultad. Si ha sido un falso positivo, empezarán a observarse resultados negativos. El problema es que realizar estas réplicas consume mucho tiempo. Tiempo que los investigadores profesionales a menudo no tienen, porque sus carreras académicas dependen más de descubrir cosas nuevas que de comprobar si se replican resultados que han obtenido otros. (Hay que recordar que las principales revistas de psicología casi nunca aceptan la publicación de un trabajo que se limite a replicar a otro.)

Si en el caso de la órbita de Urano, la contradicción entre la teoría y los datos se solventó al descubrir Neptuno, ¿cómo se resolverá la contradicción entre los datos de Bem y las convicciones de los científicos de que el futuro no influye en el presente? Por lo pronto, los experimentos que han realizado otros psicólogos no han replicado los resultados de Bem (Ritchie, Wiseman, & French, 2012); así que parece poco probable que tengamos que reescribir los fundamentos de nuestra ciencia. Sin embargo, el caso de los experimentos de Bem es una ocasión excelente para replantearnos la forma en que realizamos investigación en psicología y en las ciencias de la salud en general. Son varios los artículos teóricos que han aprovechado esta ocasión para hacer esta misma lectura. De entre ellos recomiendo al menos dos. El de Wagenmakers, Wetzels, Borsboom y van der Maas (2011), publicado en el mismo volumen que el artículo original de Bem, es un alegato contra la utilización de análisis estadísticos laxos para poner a prueba hipótesis controvertidas. El otro, publicado por LeBel y Peters (2011) en el Review of General Psychology, nos invita entre otras cosas a hacer réplicas exactas de los experimentos más importantes en lugar de las habituales réplicas conceptuales (en las que se “repite” un experimento, pero variando detalles del procedimiento para ver si los resultados se mantienen a pesar de los cambios). Proporciona también un excelente análisis de por qué con frecuencia no prestamos toda la atención que se merecen a los intentos fallidos de réplicas. Lamentablemente no tengo espacio aquí para explicar con detalle ambos artículos, pero son dos excelentes muestras de cómo la verdadera ciencia aprovecha cualquier duda y debate para salir fortalecida.

__________

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407-425. doi: 10.1037/a0021524

LeBel, E. P., & Peters, K. R. (2011). Fearing the future of empirical psychology: Bem’s (2011) evidence of psi as a case study of deficiencies in modal research practice. Review of General Psychology, 15, 371-379. doi: 10.1037/a0025172

Ritchie, S. J., Wiseman, R., & French, C. C. (2012). Failing the future: Three unsuccessful attempts to replicate Bem’s ‘retroactive facilitation of recall’ effect. PLoS ONE, 7, e33423. doi:10.1371/journal.pone.0033423

Wagenmakers, E.-J., Wetzels, R., Borsboom, D., & van der Maas, H. L. J. (2011). Why psychologists must change the way they analyze their data: The case of psi: Comment on Bem (2011). Journal of Personality and Social Psychology, 100, 426-432. doi: 10.1037/a0022790

Cuando la evidencia científica es contradictoria

En todas las discusiones entre los defensores de una pseudociencia y sus adversarios resulta sorprendente comprobar cómo tanto uno como otro bando defienden tener la evidencia científica de su lado. Esto es particularmente frecuente en las discusiones sobre la eficacia de la homeopatía. Los defensores de esta “terapia” se defienden trayendo a colación los resultados de estudios científicos que observan un efecto beneficioso de la homeopatía, mientras que los escépticos invocan también a la propia ciencia para defender que la homeopatía es un fraude. Este tipo de situaciones invita a pensar que alguien miente. ¿O tal vez no?

Lo cierto es que en cualquier situación en la que el azar juegue un papel importante es perfectamente plausible que la evidencia científica arroje resultados tanto a favor como en contra de una determinada hipótesis. Lo interesante es ver qué sucede cuando se tiene en cuenta toda la evidencia disponible (en lugar de estudios aislados) e intentar encontrar qué variables pueden estar determinando que se observe uno u otro resultado.

Figura 1

En el caso de la homeopatía, disponemos de muchos y muy buenos meta-análisis que proporcionan esta información. Uno de mis favoritos es el publicado por Shang y colaboradores (2005) en The Lancet. Los resultados de ese estudio se pueden resumir con una gráfica como la que puede verse a la izquierda. (Confieso que son datos inventados; pero nadie me negará el parecido con la Figura 2 del artículo de Shang y colaboradores.)

Lo que este gráfico nos muestra es a) que efectivamente hay muchos estudios cuyo resultado sugiere que la homeopatía tiene un efecto terapéutico (puntos por encima de la línea 0), b) que efectivamente hay muchos estudios que muestran que la homeopatía no tuvo efectos (puntos cercanos a la línea 0), y c) que la principal diferencia entre unos y otros es la calidad metodológica del estudio (si se utilizó o no un control de doble ciego, cómo de grande era la muestra…). Si se trata de saber si la homeopatía es efectiva o no, con estos datos debería ser suficiente para obtener una respuesta: No. Los únicos estudios que muestran un efecto son los que tienen problemas metodológicos o muestras muy pequeñas. Cuando se consideran sólo los resultados de los mejores estudios, el efecto terapéutico no es significativamente diferente de 0.

Sin embargo, la gráfica anterior me interesa por un segundo motivo. Es de sentido común que los estudios que se basan en muestras más grandes arrojen datos más seguros. (Por eso ningún científico serio se cree del todo los resultados de ningún estudio con muestras pequeñas.) Cuando las muestras son pequeñas lo normal es que los resultados estén muy influidos por los caprichos del azar y sean por tanto muy variables. Sin embargo, esto no explica por qué en la gráfica anterior se observan resultados sistemáticamente positivos con muestras pequeñas. En otras palabras, ahí no vemos resultados variables, sino resultados consistentemente positivos. ¿A qué podría deberse esto? En realidad se puede deber a muy pocas cosas. Y lo más probable es que se deba a lo siguiente.

Imagina que en lugar de discutir sobre si la homeopatía funciona o no, estamos discutiendo sobre si una moneda está trucada o no. Tú dices que sí lo está, que salen más caras que cruces. Yo digo que no lo está. Así que para descubrir quién tiene razón probamos a tirar la moneda al aire unas cuantas veces. A veces, tiramos la moneda al aire 10 veces y vemos qué pasa. Otras veces tiramos la moneda al aire 15 veces y vemos qué pasa. Otras veces 20, otras 25, y así sucesivamente. Probablemente, si organizamos estos datos en una gráfica como la anterior, obtendremos unos resultados similares a los de la Figura 2.

Figura 2

Es decir, que cuando hacemos tiradas cortas, los resultados son muy variables. A veces obtenemos una proporción de caras muy por encima o muy por debajo de 0.50, aunque la media tiende a mantenerse en 0.50. Cuando hacemos tiradas más largas, los resultados son menos variables: La proporción de caras oscila poco en torno a ese mismo 0.50. ¿Qué sugieren estos datos? Pues que la moneda no está trucada.

Ahora bien, imaginemos que hacemos este experimento de una forma un poco diferente. En primer lugar, imagina que no tenemos una simple curiosidad desinteresada por saber si la moneda está trucada o no, sino que nos jugamos algo en ello. Por ejemplo, tú has apostado 200 euros a que salen más caras que cruces y yo me apuesto lo mismo a que no. Imaginemos además que el encargado de tirar la moneda y ver qué sale eres tú. Lo haces en tu casa y me vas contando por teléfono lo que te sale. Yo voy apuntando lo que me dices en una hoja de Excel y al final tengo una gráfica como la Figura 3.

Figura 3

Así, de buenas a primeras, parece que en la mayor parte de las tiradas hemos sacado más caras que cruces. Parece que tú ganas. Estoy casi tentado de acercarme al cajero para sacar tus 200 euros, cuando caigo en la cuenta de que la Figura 3 es exactamente igual a la 2 salvo que faltan algunos datos contrarios a tu hipótesis. ¿No parece más bien que has ido probando la moneda en casa y me has comentado sólo los resultados de las tiradas que te favorecían?

Efectivamente, cuando tenemos datos como los que aparecen en las Figuras 1 ó 3 podemos sospechar con toda legitimidad que se está omitiendo información. Es decir que los resultados de los ensayos homeopáticos como los que aparecen en la Figura 1 sugieren que no se están publicando todos los datos. Probablemente existen ensayos clínicos con muestras pequeñas que también han encontrado efectos nulos (¡o incluso negativos!) para la homeopatía, pero estos datos nunca han visto la luz.

Por el ejemplo que he utilizado, muchos estarán interpretando que acuso a los investigadores de la homeopatía de esconder a propósito datos que van contra la propia homeopatía. Seguro que algunos lo hacen. Pero no creo que toda la cuestión se pueda achacar a la falta de honestidad científica, ni creo que sea el motivo más importante de esta omisión de datos. Como cualquier investigador sabe, es muy difícil que una revista se anime a publicar estudios cuyo resultado es nulo, estudios donde no se demuestra que algo sea diferente de otra cosa. De la misma forma que “perro muerde a hombre” no es noticia, normalmente demostrar que “el tratamiento A no funciona” o que “el efecto X no se observa” raramente despierta el interés de la comunidad. Yo mismo tengo un archivador repleto de experimentos con resultados de experimentos nulos que nunca serán dados a conocer. Si tuviera la más mínima esperanza de que pudieran publicarse en una revista medianamente digna, ahora mismo estaría exhumándolos del archivo .RAR en el que están enterrados. Pero sé que no es así.

El resultado de esta política es lo que se suele denominar publicación selectiva, un importante problema de la investigación científica. Como se publican sobre todo los estudios que obtienen resultados muy significativos, la literatura científica suele exagerar el tamaño real que tienen algunos efectos. El problema es tan ubicuo que algún estudio ha llegado a sugerir que podría haber publicación selectiva de artículos sobre publicación selectiva (Dubben & Beck-Bornholdt, 2005). Afortunadamente disponemos de las técnicas de meta-análisis para saber cuándo puede estar pasando y para calcular el tamaño del sesgo. ¡Larga vida al meta-análisis!

__________

Dubben, H.-H., & Beck-Bornholdt, H.-P. (2005). Systematic review of publication bias in studies on publication bias. British Medical Journal, 331, 433–434.

Shang, A., Huwiler-Müntener, K., Nartey, L., Jüni, P., Dörig, S., Sterne, J. A. C., Pewsner, D., & Egger, M. (2005). Are the clinical effects of homeopathy placebo effects? Comparative study of placebo-controlled trials of homeopathy and allopathy. The Lancet, 366, 726-732.