¿Puedo creerme este artículo?

Josep Marco-Pallarés y Juan Lupiáñez tuvieron la amabilidad de invitarme a dar un seminario en los másteres que dirigen en la Universitat de Barcelona y la Universidad de Granada, respectivamente. Intenté convencer a los estudiantes de que no deben creerse todo lo que lean en un artículo y les enseñé algunas herramientas estadísticas sencillas que permiten evaluar críticamente cómo de creíbles son los resultados de un estudio. Entre otras cosas, vimos cómo analizar la distribución de valores p, cómo hacer un funnel plot y cómo usar el test de exceso de resultados significativos. Si te interesan estos temas, puedes encontrar información sobre todas estas técnicas en las diapositivas del curso, incluyendo el código necesario para hacer los análisis en R y enlaces a otras aplicaciones online para detectar sesgos.

Advertisements

Entrevista para El Mcguffin Educativo

Siempre me ha sorprendido que a los escépticos de nuestro país les preocupen tanto la homeopatía y las flores de Bach -que al fin y al cabo son libres de tomar o no- y sin embargo permanezcan indiferentes ante las prácticas pseudocientíficas a las que, lo quieran o no, someten a sus hijos en las escuelas. Es difícil encontrar una escuela donde no se utilicen los bits de inteligencia de Doman, basados en la idea de que con la estimulación adecuada, cualquier niño de menos de uno año de edad puede aprender a escribir, sumar y restar. Bajo el nombre de HERAT acaba de llegar a nuestro país un programa educativo que en el resto de los países se conoce como Brain Gym y se basa en ideas felices como que los niños aprenden mejor si beben seis vasos de agua al día (porque “la comida procesada no tiene agua”), o si se tocan los lóbulos de las orejas de cierta manera para favorecer la conexión de los hemisferios cerebrales a través del cuerpo calloso. No pasa nada si tu hijo tiene problemas de dislexia, autismo o TDAH –que por cierto, no existe– porque disponemos de sencillos métodos que curan todo esto y más a base de hacer ejercicios de percusión o escuchando música manipulada electrónicamente. Lógicamente, los cursillos donde se enseña esto hacen furor entre el profesorado. Los niños del siglo XXI ya no son introvertidos o extrovertidos; no se les dan bien o mal las matemáticas. Ahora son de hemisferio izquierdo o de hemisferio derecho; visuales, kinestésicos o auditivos; tienen inteligencias múltiples, cada uno las suyas. De hecho, los niños son ahora tan diferentes los unos de los otros que ya sólo tienen una cosa en común: Todos son genios. En fin. Entre tanta tontería sólo hay un puñado de valientes que se atreve a decirle al emperador que va desnudo. Y entre ellos, Albert Reverter brilla con luz propia. Así que cuando me preguntó si me dejaría entrevistar para su blog, El Mcguffin Educativo, la respuesta fue sencilla. El resultado, aquí.

Entrevista para UDIMA

Cada vez que quedo con Carmelo para tomar algo y charlar un rato, no sé si llegamos a solucionar los grandes problemas del mundo, pero a mí me parece que todo va un poco mejor. Nuestras conversaciones pierden algo de gracia si no tenemos delante una cerveza o una ración de bravas que nos hagan de espectadoras y comenten la jugada. Aun así, Carmelo quiso entrevistarme formalmente para la UDIMA y esto es lo que salió. Debo decir que sólo estoy de acuerdo con el titular los días impares, pero hoy lo es.

Cognitive biases, error management theory, and the reproducibility of research findings

The human mind is the end product of hundreds of thousands of years of relentless natural selection. You would expect that such an exquisite piece of software should be capable of representing reality in an accurate and objective manner. Yet decades of research in cognitive science show that we fall prey to all sorts of cognitive biases and that we systematically distort the information we receive. Is this the best evolution can achieve? A moment’s thought reveals that the final goal of evolution is not to develop organisms with exceptionally accurate representations of the environment, but to design organisms good at surviving and reproducing. And survival is not necessarily about being rational, accurate, or precise. The target goal is actually to avoid making mistakes with fatal consequences, even if the means to achieve this is to bias and distort our perception of reality. Read the post in Imperfect Cognitions.

¿Sirve de algo entrenar la memoria de trabajo?

Dice la canción que tres cosas hay en la vida: salud, dinero y amor. Si hubiera que añadir una cuarta, mi voto va para la memoria de trabajo (MT). Es uno de esos constructos mágicos que parece predecirlo casi todo en la vida: capacidad lectora, rendimiento en matemáticas, aprendizaje de idiomas… De todo. Ante esta evidencia, es tentador pensar que entrenando la MT se podría desarrollar cualquier capacidad cognitiva. Si esto fuera cierto, el rendimiento intelectual podría mejorarse fácilmente mediante sencillos juegos de ordenador que nos obligaran a ejercitar la MT. Y, en efecto, decenas de estudios parecen (o parecían) sugerir que estos programas de entrenamiento funcionan. Sin embargo, un artículo recién publicado por Monica Melby-Lervåg, Thomas Redick y Charles Hulme desafía esta conclusión.

El artículo presenta un meta-análisis de 145 comparaciones experimentales publicadas en 87 artículos. Los resultados pueden resumirse en la figura que reproduzco bajo estas líneas. La columna de la derecha diferencia tres tipos de estudios, dependiendo de si se comprueba el efecto del entrenamiento en habilidades similares a las entrenadas (near-transfer effects), parcialmente similares a las entrenadas (intermediate-transfer effects) o totalmente diferentes a las entrenadas (far-transfer effects). Un primer patrón que puede observarse es que los efectos sólo son grandes en las dos primeras categorías. Entre los estudios que exploran el efecto del entrenamiento sobre habilidades lejanas, los efectos son siempre cercanos a cero.

hulme_fig2

La figura también clasifica los estudios en función de si utilizan un grupo de control “no tratado” o un grupo de control “tratado”. Los primeros son estudios donde los participantes del grupo de control no realizan ninguna actividad mientras los participantes del grupo experimental reciben el tratamiento. Como puede verse en la figura, los estudios que utilizan este tipo de grupo control pasivo son los que arrojan resultados más prometedores. Por desgracia, este tipo de grupo de control deja mucho que desear. Sería como comprobar la eficacia de una medicina utilizando como control a un grupo de personas que no consume ningún medicamento alternativo, ni siquiera un placebo.

hulme_fig_3El resultado más interesante del artículo, a mi juicio, es el análisis de la distribución de valores-p. En cualquier área de investigación “sana”, donde se exploran efectos reales, la distribución de valores-p suele mostrar asimetría a la derecha. Esto es, hay muchos más estudios con valores-p entre 0.00 y 0.01 que entre 0.04 y 0.05. La gráfica 3 del artículo, que reproduzco a la izquierda, muestra justo el patrón contrario entre los estudios que utilizaron controles “tratados”. Este tipo de distribución plana -o incluso con asimetría  a la izquierda- es el que suele observarse en presencia de falsos positivos. De hecho, aunque los autores son demasiado benévolos para discutir esta posibilidad, la asimetría a la izquierda sugiere que estos estudios podrían estar sesgados por cierta dosis de p-hacking. Es decir, que los datos podrían haberse analizado una y otra vez de diversas maneras hasta que, por azar, se obtuvieron resultados significativos.

Estos resultados revisten una especial importancia para el diseño de intervenciones educativas para niños con problemas de aprendizaje. Entre algunos profesionales comenzaba a cuajar la idea de que estos problemas podían paliarse mediante el entrenamiento de la MT. Los resultados de este meta-análisis sugieren que este tipo de prácticas están seguramente avocadas al fracaso.

__________

Melby-Lervag, M., Redick, T. S., & Hulme, C. (2016). Working memory training does not improve performance on measures of intelligence or other measures of “far transfer”: Evidence from a meta-analytic review. Perspectives on Psychological Science, 11, 512-534.

Poniendo en contexto la replicabilidad de la psicología

Desde que se publicaron los resultados del Reproducibility Project: Psychology (RPP) las actitudes de la comunidad científica se han dividido entre quienes creen que es necesario cambiar radicalmente la forma en la que se hace investigación en nuestra disciplina y quienes consideran que la situación no es tan mala y que los métodos que se han venido utilizando hasta ahora han funcionado razonablemente bien. A falta de términos mejores –y ya que estamos en plena campaña electoral– llamaré a los primeros reformistas y a los segundos conservadores.

Uno de los argumentos más frecuentemente esgrimidos por los conservadores es que el fracaso a la hora de replicar un fenómeno no quiere decir necesariamente que ese fenómeno no exista. Si acaso, una réplica fallida revela que ese fenómeno sólo aparece en circunstancias muy concretas y que, tan pronto como se cambia algo en un estudio, el efecto desaparece. Por ejemplo, si hacemos un estudio sobre las actitudes de los blancos hacia las personas de otras razas, es muy probable que los resultados sean muy diferentes en países como EE.UU. que en Holanda o Australia. Si alguien no consigue replicar en Holanda un resultado que se observó inicialmente en EE.UU. esto no quiere decir que el hallazgo original fuera falso sino, simplemente, que sólo puede detectarse en circunstancias muy concretas.

Un trabajo recién publicado en la prestigiosa PNAS sugiere que los resultados negativos del RPP podrían deberse en buena parte a las dificultades para recrear el contexto de los experimentos originales. Los autores de este estudio pidieron a tres investigadores que leyeran los abstracts de los 100 estudios que se habían intentado replicar en el RPP y que, en base únicamente a esos textos, juzgaran hasta qué punto los fenómenos estudiados podrían depender del contexto en el que tenía lugar el estudio. Por ejemplo, se les pedía que estimaran si los resultados podrían depender de que el estudio se realizara en un momento concreto (por ejemplo, tiempos de recesión), en una comunidad étnica, racial o cultural concreta (por ejemplo, mezcla de diferentes razas, culturas individualistas), o en un entorno rural o urbano, entre otros aspectos.

Captura de pantalla 2016-05-30 11.45.36Los autores del estudio tomaron estas estimaciones de la importancia del contexto y analizaron hasta qué punto ayudaban a predecir si un experimento se replicaría o no. Los resultados más importantes se muestran en la figura adjunta. Lo que aquí se muestra es que, después de controlar estadísticamente algunas de las variables más importantes (por ejemplo, la potencia estadística de la réplica, la “sorpresividad” del efecto en cuestión), la sensibilidad al contexto seguía explicando una parte importante de la varianza. Estos datos vienen a confirmar que manteniendo constantes todos los demás factores, algunos fenómenos son más sensibles al contexto que otros y esa mayor sensibilidad determina que puedan ser fácilmente replicados o no.

rpp_density_plotNo es ningún secreto que mis simpatías se decantan hacia el lado de los reformistas. Aunque valoro este tipo de trabajos y puedo apreciar su contribución, inevitablemente me despiertan sospechas. Ya he contestado aquí a quienes argumentan que los intentos fallidos de replicar un experimento se deben atribuir a moderadores y variables contextuales. Mi argumentación es idéntica en este caso. Puedo entender que unos fenómenos sean más delicados que otros y que requieran un mayor esfuerzo por parte del investigador para recrear las condiciones ideales; pero este argumento deja sin explicar la clara evidencia de sesgos de publicación y de p-hacking en los estudios originales del RPP. Uno de las gráficas que mejor lo demuestra es esta distribución de valores z elaborada por Richard Kunert. Un experimento tiene resultados significativos cuando su z es mayor de 1.96. Como puede verse en este gráfico, las puntuaciones z de los estudios originales del RPP es extremadamente irregular, con un pico muy pronunciado justo alrededor de 2. Esta distribución sugiere que ha habido sesgos de publicación (los estudios con z < 1.96 se han borrado del mapa) o malas prácticas (los estudios con z < 1.96 se han reanalizado una y otra vez hasta que por arte de magia se ha obtenido una z > 1.96). Nada de esto quiere decir que los autores del estudio en PNAS se equivoquen. Pero sospecho que representa sólo una parte de la historia. Una parte que puede resultar reconfortante, pero que tal vez nos ayude poco a mejorar la ciencia que hacemos.

__________

Van Bavel, J. J., Mende-Siedlecki, P., Brady, W. J., & Reinero, D. A. (2016). Contextual sensitivity in scientific reproducibility. Proceedings of the National Academy of Sciences of the United States of America, 113, 6454-6459.

Cómo (no) saber si un proceso mental es inconsciente: El caso del aprendizaje implícito

Las técnicas estadísticas que utilizamos habitualmente en los experimentos de psicología están pensadas para evitar caer en el error de ver una pauta donde sólo hay ruido y azar. Precisamente por eso, estas técnicas no deben utilizarse cuando lo que queremos hacer es demostrar que los datos se deben al azar. A pesar de ello, hay grandes áreas de investigación donde se cae en este error de forma rutinaria. Un ejemplo fascinante es la investigación sobre aprendizaje implícito (o inconsciente). Según un meta-análisis reciente, buena parte de lo que creemos saber sobre el aprendizaje inconsciente podría estar sesgado por este sencillo error. Continúa leyendo en Ciencia Cognitiva…