Producto interior bruto, interés por la ciencia y rendimiento científico

Una de las desgracias de ser español es que cuando se publican los resultados del informe PISA entras en un estado catatónico que te impide reaccionar a cualquier estimulación hasta que la siguiente jornada de liga te resetea y todo vuelve a la normalidad. Afortunadamente los habitantes de otros países son capaces de indagar y rebuscar en los datos de PISA sin que las lágrimas se lo impidan. Gracias a ellos, de vez en cuando descubrimos algunas pautas interesantes, como las que se perfilan en el estudio que acaban de publicar Elliot Tucker-Drob, Amanda Cheung y Daniel Brilley en Psychological Science.

El artículo se centra en la relación entre el interés por la ciencia y el rendimiento de los estudiantes en las pruebas de ciencia de los exámenes PISA. Lógicamente, los estudiantes a los que les interesa más la ciencia suelen puntuar más alto en estas pruebas. Lo interesante es que cómo de estrecha es esa relación depende de un número de factores. Si lo piensas bien, hay muchos obstáculos que pueden hacer que un estudiante con interés por la ciencia no llegue a ser bueno en ciencias. Tucker-Drob y colaboradores nos revelan algunos de ellos.

Uno de los resultados más interesantes es que el grado de relación entre interés por la ciencia y rendimiento científico depende del producto interior bruto (PIB) del país. En general, en los países más ricos, la relación entre interés y rendimiento es más fuerte. Se trata sólo de una correlación (aunque muy fuerte) que podría obedecer a varios motivos. La interpretación más sencilla es que los países más ricos proporcionan más oportunidades para que las personas con interés por ciencia desarrollen sus capacidades. En otras palabras, los países ricos facilitan que el talento se convierta en rendimiento. Aunque es interesante que también cabe la interpretación contraria: Tal vez los países donde las personas con interés por la ciencia pueden perseguir sus intereses acaben siendo más prósperos.

PIBReproduzco aquí la figura con los datos sobre la relación entre PIB y correlación interés-rendimiento. Cuidado al interpretar esta gráfica: Los países que están más arriba no son necesariamente los que obtienen mejor rendimiento en ciencias, sino aquellos donde la relación entre interés y rendimiento es más fuerte. Por una vez, agrada ver que España está ligeramente por encima del intervalo de confianza para esta regresión. Es decir, la relación entre interés y rendimiento es ligeramente mayor de lo que cabría predecir dado el PIB español.  Italia, por ejemplo, tiene un PIB ligeramente superior, pero una correlación interés-rendimiento claramente inferior. Tal vez los datos más positivos sean los de Australia o Reino Unido, países que además de tener un PIB alto presentan una relación interés-rendimiento excepcionalmente alta. Se trata de países especialmente buenos a la hora de hacer que los alumnos más interesados consigan un buen dominio de las ciencias. Es curioso que algunos países muy prósperos, como Luxemburgo, presentan sin embargo correlaciones muy bajas.

Otro dato interesante del estudio es que da pistas muy claras sobre cómo influye el estatus socio económico de la familia en la relación entre interés y rendimiento. Como cabría esperar, la ejecución de los niños está más relacionada con sus intereses en las familias de clase alta, que son las que tienen más recursos para hacer que los niños desarrollen sus intereses. Pero, y aquí viene lo bueno, esta relación está totalmente mediada por el estatus socio económico medio de las escuelas en las que estudian sus niños. Es decir, que importa más el estatus de la escuela que el estatus de la familia. O dicho de otra forma, si una familia tiene un niño con interés por la ciencia, merece la pena hacer el esfuerzo de enviar a ese niño a una escuela “por encima de sus posibilidades”.

El estudio arroja otros datos que dan que pensar, como que el interés por la ciencia correlaciona con el índice de democracia de un país, con su gasto en I+D, con el índice de justicia social y con el índice de coherencia social, aunque curiosamente no con el índice de desigualdad Gini ni con el acceso a la educación. Mastiquemos estos datos antes de que los resultados del siguiente informe nos quiten el apetito.

__________

Tucker-Drob, E. M., Cheung, A. K., & Briley, D. A. (in press). Gross domestic product, science interest, and science achievement: A person x nation interaction. Psychological Science.

Demasiado bonito para ser cierto

O al menos esa es la conclusión a la que llega Gregory Francis en su último y fulminante artículo sobre los sesgos de publicación en las revistas de psicología. El dedo acusador señala en esta ocasión a la prestigiosa Psychological Science. Aplicando un sencillo análisis estadístico a 44 artículos publicados entre 2009 y 2012, Francis ha encontrado que el número de resultados significativos es excesivamente alto en el 82% de ellos. La idea en la que se basa el análisis no puede ser más simple. Imagina que un artículo contiene cuatro experimentos y todos ellos obtienen resultados significativos. ¿Cuál es la probabilidad de que esto suceda? Es fácil calcularlo si uno conoce la potencia estadística de cada experimento. Si, por ejemplo, la potencia de los cuatro experimentos es de 0.75, 0.80, 0.90 y 0.85, entonces la probabilidad de que todos ellos arrojen resultados significativos es 0.75 x 0.80 x 0.90 x 0.85, es decir, 0.459. Se trata de un número razonable y plausible. Ahora bien, si la potencia de los experimentos hubiera sido, por ejemplo, 0.60, 0.70, 0.50 y 0.45, entonces la probabilidad de que todos ellos hubieran tenido resultados significativos habría sido 0.095. En general, cuando esta probabilidad es menor de 0.10 se considera que el número de resultados significativos es demasiado alto para lo que cabría esperar por azar y se entiende que debe haber tenido lugar un problema de publicación selectiva, p-hacking o simple fraude. O eso, o que la suerte está jugando una pasada muy mala. No es nada tranquilizador saber que la inmensa mayoría de los artículos publicados en Psychological Science sale mal parada en esta prueba. Menos aún si se tiene en cuenta que no es la primera vez que estudios como este ponen el prestigio de la revista en entredicho.

__________

Francis, G. (2014). The frequency of excess success for articles in Psychological Science. Psychonomic Bulletin & Review, 21, 1180-1187.

Dadme una docena de niños sanos

Una de las grandezas de vivir en un barrio universitario es que una tarde cualquiera puedes entrar en una librería de viejo, revolver cuatro baldas y en el lugar más insospechado encontrar una primera edición de Behaviorism por cinco libras. Tal vez nunca hayas oído hablar de este libro del fundador del conductismo, John B. Watson. Pero si alguna vez has sentido curiosidad por la psicología, seguro que te suena este párrafo, sin duda uno de los fragmentos más célebres de la historia de la psicología:

Dadme una docena de niños sanos, bien formados, para que los eduque, y yo me comprometo a elegir uno de ellos al azar y adiestrarlo para que se convierta en un especialista de cualquier tipo que yo pueda escoger —médico, abogado, artista, hombre de negocios y, sí, incluso mendigo o ladrón— independientemente de su talento, inclinaciones, tendencias, aptitudes, vocaciones y raza de sus antepasados.

Se trata sin duda del texto más maltratado de la historia de la psicología, tomado casi siempre como ejemplo de la simplicidad del conductismo, su indiferencia hacia la naturaleza humana y tal vez también una poca disimulada tendencia hacia la utopía o el totalitarismo. Si alguna vez te han querido hacer entender que este fragmento resume lo peor del conductismo, posiblemente ha sido a costa de sacarlo de contexto de una forma descarada.

Estas líneas apenas pueden entenderse sin hacer un pequeño viaje en el tiempo a los años inmediatamente anteriores a su publicación en 1925. Apenas 17 años antes, Henry Goddard había traducido al inglés el test de inteligencia de Binet, desatando con ello uno de los episodios más crudos y virulentos de darwinismo social de la historia. Aunque el test no fue validado propiamente hasta 1916, se empezó a emplear masivamente en escuelas y centros de salud mental. Entre 1913 y 1917 Goddard instaló en la Isla de Ellis un equipo encargado de pasar pruebas de inteligencia a los inmigrantes que llegaban del otro lado del Atlántico. Sus resultados “mostraban” que en torno al 80% de los judíos, rusos, italianos y húngaros que llegaban a la frontera eran “débiles mentales”. Conforme al pensamiento eugenésico de la época, se pensaba que la escasa inteligencia de estas personas obedecía a causas biológicas y que inevitablemente transmitirían su estupidez a los hijos y nietos que dejarían en suelo estadounidense. Bajo los auspicios de su informe, se aprobó la Ley de Inmigración de 1924 que limitaba la entrada de judíos y ciudadanos de sur y del este de Europa para preservar la homogeneidad cultural, social y racial de Estados Unidos.

La famosa frase que Watson publicaba sólo un año después en Behaviorism pretendía ser un llamamiento contra la eugenesia y el racismo que dominaban la política de inmigración. La alusión a la eugenesia se entiende mejor si uno ubica el texto de Watson no sólo en el contexto de su época sino también en su contexto dentro del libro. El párrafo completo donde aparecen esas frases reza así:

Querría dar un paso más y decir “Dadme una docena de niños sanos, bien formados, para que los eduque, y yo me comprometo a elegir uno de ellos al azar y adiestrarlo para que se convierta en un especialista de cualquier tipo que yo pueda escoger —médico, abogado, artista, hombre de negocios y, sí, incluso mendigo o ladrón— independientemente de su talento, inclinaciones, tendencias, aptitudes, vocaciones y raza de sus antepasados.” Me estoy alejando de los hechos y lo admito, pero también lo hacen quienes abogan por la posición contraria, y lo han estado haciendo durante miles de años. Nótese que cuando se realice este experimento, se me debe permitir especificar la forma en la que se debe criar a los niños y el tipo de mundo en el que habrán de vivir.

Watson sabía que estaba exagerando la importancia del entorno y no le importaba reconocerlo explícitamente. Pero creía que las consecuencias a las que conducía este error eran más benignas que las que se derivaban del error contrario. Para muestra del pensamiento de Watson sólo hay que continuar leyendo. Apenas unas líneas más abajo nos encontramos:

Lo mismo sucede cuando las razas “inferiores” se crían junto con las “superiores”. No tenemos ninguna evidencia de la inferioridad de la raza negra. Sin embargo, educad a un niño blanco y a uno negro en la misma escuela –criadlos en la misma familia (teóricamente sin diferencia alguna) y tan pronto como la sociedad comienza a ejercer su poder aplastante, el negro ya no puede competir.

[…] Nos gusta pensar que se necesitan tres generaciones para hacer a un caballeo (a veces muchas más) y que nosotros ya contamos con más de tres a nuestras espaldas. Sin embargo, la creencia en que las predisposiciones y rasgos son hereditarios nos evita tener que culparnos por la educación de nuestros jóvenes […] En la antigua psicología, los rasgos son un don de Dios y si mi chico o chica se descarría, no se me puede culpar como padre.

¿Se oculta algún interés personal tras la empatía del conductista? En efecto –le gustaría ver eliminadas las suposiciones y conjeturas que están bloqueando nuestros esfuerzos por invertir millones de dólares y años de paciente investigación en psicología infantil porque entonces, y sólo entonces, podremos construir una verdadera psicología de la humanidad.

Para ser uno de los textos más criticados de nuestra joven ciencia, no están nada mal los valores que laten tras estas páginas.

Ciegos ante la evidencia

Se han publicado decenas de artículos sobre la reticencia de los anti-vacunas o los negadores del cambio climático a aceptar la evidencia contraria a sus ideas. Casi todas las estrategias de intervención que se diseñan para luchar contra estas creencias fracasan una y otra vez. Las perspectivas de éxito resultan más desalentadoras, si cabe, cuando tenemos en cuenta que incluso las personas especializadas en cuestionar teorías y someterlas a prueba empírica son terriblemente reacias a cambiar sus ideas cuando los datos les llevan la contraria. Me refiero, cómo no, a los propios científicos.

O eso sugieren Clark Chinn y William Brewer en un sugerente artículo con el que acabo de toparme por casualidad. Según estudios previos que revisan en ese artículo, cuando los científicos se dan de bruces con un dato contrario a sus teorías, sólo ocasionalmente cambian sus creencias. En concreto, según la taxonomía de Chinn y Brewer, las ocho reacciones posibles ante la evidencia contraria son (a) ignorar los datos, (b) negar los datos, (c) excluir los datos, (d) suspender el juicio, (e) reinterpretar los datos, (f) aceptar los datos y hacer cambios periféricos en la teoría, y (g) aceptar los datos y cambiar las teorías.

Los autores utilizan un ejemplo real para ilustrar estas ocho reacciones. En la década de los 80 el premio Nobel Luis Álvarez y sus colaboradores propusieron que la extinción masiva del cretácico, en la que desaparecieron los dinosaurios, se había debido al impacto de un meteorito. El principal dato a favor de esta hipótesis era la alta concentración de iridio en el llamado límite KT, un estrato sedimentario que separaba el periodo cretácico de la era terciaria. El análisis de las citas que recibieron Álvarez y colaboradores durante los años siguientes a la publicación del artículo muestra que gran parte de la comunidad científica simplemente ignoró este descubrimiento (a). Durante algún tiempo incluso el propio equipo de Álvarez tuvo la sospecha de que los altos niveles de iridio en el límite KT podrían deberse a una contaminación de la muestra (b), lo que les obligó a tomar nuevas muestras. Algunos científicos sugirieron que los dinosaurios se habían extinguido 10.000 años antes del impacto del meteorito, con lo cual la capa de iridio no explicaba la extinción (c). Otros opinaban que la química del iridio no se conocía lo suficientemente bien como para poder extraer conclusiones (d). Tal vez algún día se podrían explicar esos altos niveles de iridio sin tener que asumir el impacto de un meteorito. Otro grupo de científicos reinterpretó los datos de Álvarez sugiriendo que el iridio del límite KT en realidad se habían filtrado de capas de sedimentos más recientes (e). También hubo quienes asumieron que el impacto del meteorito podría ser responsable de algunas de las extinciones del cretácico, pero no de todas ellas (f). Esto les permitía aceptar la evidencia encontrada por Álvarez pero sin renunciar a sus hipótesis previas sobre las causas de la extinción de los dinosaurios. Finalmente, algunos científicos renunciaron a sus hipótesis previas y aceptaron la nueva teoría sobre la extinción del cretácico (g).

No recuerdo si fue Thomas Kuhn o Max Planck quien dijo que la ciencia no evoluciona porque las teorías nuevas triunfen, sino porque quienes se oponen a ellas acaban muriéndose. Tal vez esa sea la novena y última reacción ante la evidencia contraria.

__________

Chinn, C. A., & Brewer, W. F. (1998). An empirical test of a taxonomy of responses to anomalous data in science. Journal of Research in Science Teaching, 35, 623-654.

El Gran Hermano experimenta contigo

Pocos experimentos de psicología alcanzan el impacto mediático que ha tenido el que acaban de publicar Kramer y colaboradores en la prestigiosa Proceedings of the National Academy of Sciences. En principio, el experimento no da para tanto. Simplificando mucho las cosas, su principal conclusión viene a ser que las emociones son contagiosas. Posiblemente se trata del efecto experimental más pequeño que jamás se ha publicado en una revista científica. (La d de Cohen de uno de los análisis es apenas 0.001.) El potencial incendiario del artículo no se debe a su contenido, sino a la metodología empleada. Los autores no se limitaron a llevar a un grupo de 50 participantes al laboratorio y observar su comportamiento, sino que manipularon las actualizaciones de Facebook de más de 600.000 internautas y observaron cómo cambiaba su comportamiento. Todo ello sin que los incautos participantes tuvieran la más mínima idea de que se estaba experimentando con ellos. En concreto, los investigadores limitaron el número de actualizaciones de carácter emocional positivo que aparecían en el feed de la mitad de los participantes y limitaron el número de actualizaciones negativas de la otra mitad. Como consecuencia de ello, el primer grupo de participantes empezó a publicar mensajes más negativos que el segundo.

La polémica se debe a que esta investigación no respeta las normas éticas de investigación que sirven de referente para hacer experimentos psicológicos o biomédicos. Uno de los requisitos básicos de cualquier estudio es que los participantes deben saber que sus datos están siendo observados y deben tener una información mínima sobre el estudio que les permita decidir libremente si quieren contribuir a él o no. También es requisito habitual que cualquier estudio tenga que ser previamente aprobado por un comité ético. El experimento de Kramer y colaboradores lógicamente no cumple con el primer criterio y no está claro sí llegó a ser aprobado o no por un comité ético ni en qué condiciones. Los autores se defienden en el propio artículo argumentando que el estudio no viola el acuerdo que los usuarios de Facebook firman cuando crean una cuenta de usuario.

Al otro lado de la polémica se sitúan los que sin llegar a aprobar esta conducta nos recuerdan que este tipo de estudios no son lo peor que se hace en las redes. El problema de la redes sociales no es que ocasionalmente se realice a través de ellas un estudio de interés científico sin que los participantes tengan noticia de ello. El verdadero problema es que las compañías realizan este tipo de estudios constantemente, con intereses puramente comerciales y sin publicar nunca los resultados de forma que sean accesibles a la ciudadanía. Tal vez sea un error atacar impasiblemente a los autores de un estudio que nos ha enseñado algo sobre la naturaleza humana a cambio de una pequeña manipulación de las actualizaciones de Facebook, mientras ignoramos el verdadero problema: La libertad con la que las redes sociales investigan sobre nosotros con intereses puramente comerciales y venden nuestra información al mejor postor.

__________

Kramer, A. D. I., Guillory, J. E., & Hancock, J. T. (2014). Experimental evidence of massive-scale emotional contagion through social networks. Proceedings of the National Academy of Sciences, 111, 8788-8790.

Cómo enviar tus recuerdos a la papelera de reciclaje

Salvo que tu vida haya sido un cuento de hadas, alguna vez habrás querido borrar de tu memoria un recuerdo insoportable. Quizá preferirías olvidar aquel día en el que viste a tu pareja serte infiel o la muerte de tu madre tras una larga y dolorosa enfermedad. Incluso si has sido la persona más feliz del mundo, tal vez no te importaría borrar de tu memoria aquel instante en el que viste morir a tu cachorro Larry atropellado por un autobús escolar cuando tenías apenas 7 años. La imagen de Larry destripado mirándote indefenso mientras el fino hilo de su vida se rompía te asalta en las noches de tormenta y te mantiene en vela durante interminables horas.

Lo que hoy en día sólo es ciencia ficción podría ser una realidad en un futuro no tan lejano. Los estudios sobre un interesante fenómeno conocido como reconsolidación podrían tener la clave para modificar recuerdos traumáticos como estos. Según las teorías tradicionales, para que un recuerdo se almacene en la memoria a largo plazo es necesario que tenga lugar un proceso de consolidación que puede llevar horas o días. Durante este intervalo, ese recuerdo se encuentra en un estado lábil y fácilmente alterable. Cualquier interrupción de este proceso (por ejemplo, mediante drogas o eletroshocks) puede hacer que el recuerdo se pierda o se almacene de forma imperfecta.

Hasta hace poco tiempo se pensaba que la consolidación tenía lugar una única vez. Pero la investigación reciente sugiere que este proceso podría tener lugar de nuevo cada vez que recordamos cierta información. De ahí el nombre de reconsolidación para referirse al proceso por el que un recuerdo se consolida repetidamente cada vez que es activado. Esto supone que cada vez que pensamos de nuevo en aquel día en que Larry murió estamos volviendo a poner ese recuerdo en el mismo estado lábil y maleable en el que estaba durante el proceso de consolidación. En principio, si se interrumpe este proceso de reconsolidación, se podría borrar o atenuar ese recuerdo.

El fenómeno de la reconsolidación está bien establecido en la investigación con animales. Sabemos que si enseñamos algo a un animal (por ejemplo, a encontrar la salida de un laberinto o que cierto estímulo va seguido de algún evento desagradable) y reactivamos ese recuerdo días después, durante la reconsolidación se puede borrar esa información inyectando al animal sustancias que bloquean la síntesis de proteínas en el cerebro. Sin embargo, la experimentación con humanos no ha arrojado resultados tan concluyentes por diversos motivos. Muchas de estas sustancias son tóxicas y no pueden utilizarse en la investigación con personas. Eso ha llevado a utilizar métodos alternativos cuyos resultados son controvertidos y poco claros.

Kroes y colaboradores acaban de publicar en Nature Neuroscience un estudio que es hasta la fecha la mejor evidencia de reconsolidación en humanos. Para su estudio, utilizaron una muestra de pacientes con depresión severa que estaban siguiendo una terapia electroconvulsiva (TEC) de forma regular. En la primera sesión del experimento les mostraron información sobre dos historias diferentes. Una semana más tarde volvieron al laboratorio y se les pidió que recordaran brevemente parte de la información sobre una de las historias. A continuación se les administró una sesión de TEC. Veinticuatro horas después volvieron al laboratorio y completaron un sencillo examen sobre las dos historias que habían memorizado una semana antes. Los resultados muestran que los participantes habían olvidado muchos más detalles de la historia que habían “refrescado” justo antes de la TEC. Sin embargo, el recuerdo de la otra historia se mantenía intacto. Estos resultados no se observaban en otros dos grupos de control que o bien no habían recibido la TEC o bien cuyos recuerdos habían sido examinados antes de que el proceso de reconsolidación hubiera tenido lugar.

__________

Kroes, M. C. W., Tendolkar, I., van Wingen, G. A., van Waarde, J. A., Strange, B. A., & Fernández, G. (2014). An electroconvulsive therapy procedure impairs resconsolidation of episodic memories in humans. Nature Neuroscience, 17, 204-206.

Las apariencias engañan, o por qué es mejor no cambiar de respuesta en un examen tipo test

Si eres aficionado a los blogs de ciencia, seguramente habrás leído una y mil veces que la correlación no implica causalidad. Lo que tal vez no hayas leído es que a veces una correlación puede llegar a ocultar una relación causal de signo contrario. Uno de los mecanismos que puede dar lugar a esta situación es lo que en estadística se conoce como paradoja de Simpson. Posiblemente el ejemplo más famoso de esta paradoja lo proporciona una demanda planteada a la Universidad de Berkeley por aplicar una política sexista de admisión de estudiantes. La demanda se basaba en que las estadísticas de la universidad mostraban que los hombres tenían más probabilidades de ser admitidos en la universidad. Sin embargo, cuando los responsables de la universidad desglosaron los datos por departamento, se observó que en realidad no había sesgos contra las mujeres en ningún departamento. Si acaso, la tendencia era la contraria: dentro de cualquier departamento, las mujeres tenían una pequeña ventaja sobre los hombres.

¿Cómo es posible que los datos de cada departamento mostraran una ventaja paras las mujeres y que los datos de la universidad en su conjunto mostraran una ventaja para los hombres? La explicación es que las mujeres echaban más solicitudes para los departamentos más complicados. Seguramente, Rafa Nadal ha perdido muchos más partidos de tenis que yo. Pero yo sólo he jugado contra mi hermano cuando tenía 7 años y Rafa Nadal ha jugado contra los mejores jugadores del mundo. Lo mismo sucedía con los hombres y las mujeres que solicitaban ser admitidos en Berkeley. Los datos mostraban que las mujeres tenían más interés por jugar en la primera liga.

Hace pocos días acabo de descubrir que esta paradoja podría tener la respuesta para uno de los problemas que más preocupan a la humanidad. Cuando estamos haciendo un examen tipo test, ¿debemos cambiar de respuesta si nos entran dudas? La sabiduría popular dicta que en caso de duda, es mejor ceñirse a nuestra respuesta original. Si el instinto nos dice que la respuesta correcta era la A, mejor no cambiar esa respuesta. Sin embargo, varios estudios científicos parecen mostrar que la intuición se equivoca: Tomados en su conjunto todos los datos, la probabilidad de acertar parece ser mayor para las personas que cambian de respuesta que para las que no.

Pues bien, según un estudio de van der Linden y colaboradores, esta aparente contradicción podría deberse a una paradoja de Simpson. Al parecer, es cierto que las personas que sacan mejores notas son también quienes más cambian de respuesta en los exámenes. A nivel grupal, esto produce una correlación entre cambiar de respuesta y sacar mejores notas. Pero esto no quiere decir que cambiar de respuesta mejore las notas. Si se mantiene constante la habilidad de los participantes, entonces la tendencia que se observa es la contraria: Si dos estudiantes son igual de buenos, entonces el que cambia menos de respuesta es el que saca mejores notas.

El ejemplo parece muy diferente al de la universidad de Berkeley. Sin embargo, se trata exactamente del mismo problema. Los datos parecen sugerir una correlación cuando se ignora un factor (los departamentos en el caso de la universidad y la habilidad de los estudiantes en el caso de los exámenes), pero la correlación es la contraria cuando ese factor se tiene en cuenta. Si el tema te interesa, estos y otros ejemplos los podrás encontrar en una magnífica introducción al tema que acaban de publicar Kievit y colaboradores en Frontiers in Psychology.

__________

Kievit, R. A., Frankenhuis, W. E., Waldorp, L. J., & Borsboom, D. (2013). Simpson’s paradox in psychological science: A practical guide. Frontiers in Psychology, 4, 513.

van der Linden, W. J., Jeon, M., & Ferrara, S. (2011). A paradox in the study of the benefits of test-item review. Journal of Educational Measurement, 48, 380-398.