Poderes… estadísticos

La ciencia no es perfecta, pero tiene la perfección como ideal. Una de sus grandezas es precisamente su carácter auto-crítico, que la permite salir fortalecida de cualquier problema o adversidad, incluso de aquellas que la acechan desde dentro. El último año ha sido testigo de profundas polémicas en el seno de la psicología experimental que ilustran a la perfección cómo funciona nuestro “departamento de asuntos internos”. Cuando apenas habíamos empezado a asimilar el caso de fraude de Marc Hauser, hemos tenido que hacer frente al igualmente grave caso de Diederik Stapel. El mismo año se han publicado los experimentos de percepción extrasensorial de Daryl Bem, que para muchos constituyen un signo más de que es necesaria una revisión de nuestros métodos de investigación y de las políticas de publicación que siguen nuestras revistas más prestigiosas. También nos han sorprendido las dificultades para replicar algunos experimentos que se consideraban clásicos; entre ellos, el polémico estudio de Bargh.

Son numerosos los artículos que se han publicado durante este año haciendo una revisión crítica del modo en que funciona el sistema de publicación en ciencia y proponiendo métodos para detectar posibles casos de publicación de resultados poco robustos. A esta corriente pertenece un estudio de Gregory Francis recientemente publicado en Psychonomic Bulletin & Review que propone una sencillísima técnica para medir el grado de publicación selectiva en un área de investigación. Apenas es necesario explicar lo grave que puede ser la publicación selectiva de resultados positivos en cualquier disciplina científica. Imagine que hacemos 1000 estudios para comprobar si existe, por ejemplo, la hipersensibilidad electromagnética. Incluso aunque la hipersensibilidad electromagnética no exista (tal y como parece indicar toda la evidencia científica), habrá pequeñas fluctuaciones en los resultados de estos experimentos debidas al simple azar. Esto hará que un pequeño puñado de estudios arrojen resultados positivos: Es decir incluso si la hipersensibilidad electromagnética no existe, unos pocos estudios parecerán indicar que sí existe. Pongamos que de los 1000 estudios 950 concluyen que el efecto no existe y que los otros 50 concluyen que sí existe. A partir de estos resultados parece bastante sencillo intuir cuál es la realidad del fenómeno. Ahora bien, imagine que aunque hemos realizado 1000 estudios, las revistas científicas se niegan a publicar todos los que tienen resultados negativos y consecuentemente se publican sólo esos 50 estudios “positivos”. ¿Cuál es la impresión que se transmite a quien revisa esa literatura?

Por desgracia esto sucede con relativa frecuencia. En parte porque las revistas prefieren publicar estudios donde se demuestra que existe algo. (Demostrar que algo no existe no vende; es como aquello de “perro muerde a hombre”.) Pero a este problema de las revistas se suma que cuando un investigador quiere demostrar un fenómeno y tiene muchos estudios sobre el mismo, es probable que considere más “representativos” los estudios en los que se observa ese efecto que los estudios en los que no se observa. Aunque sería el ideal, ningún investigador es un testigo neutral de los resultados de sus experimentos.

Afortunadamente, disponemos de diversas técnicas que nos permiten saber cuándo existe un problema de publicación selectiva. El artículo de Francis propone un método sencillo que se basa en la idea de poder estadístico. Técnicamente, el poder estadístico de un estudio se define como la probabilidad de que los resultados de un estudio rechacen una hipótesis nula que es falsa. Simplificando esta definición: El poder estadístico es la probabilidad de que un estudio detecte un efecto que realmente existe. Uno de los parámetros de los que más depende ese poder estadístico es el número de observaciones que se hacen en un estudio.

Aunque parezca un concepto muy abstracto, es muy fácil de entender mediante un ejemplo. Imagina que tenemos una moneda trucada que da caras el 70% de las veces. Nosotros en realidad no sabemos aún si la moneda está trucada o no. Nuestro trabajo es precisamente averiguarlo. Así que tiramos esa moneda al aire unas cuantas veces para ver lo que pasa. Imagine que la tiramos 10 veces y salen 7 caras. ¿Es esto prueba de que la moneda está trucada? Pues la verdad es que no. Porque aunque se tratara de una moneda normal, es muy fácil que el azar haga que nos salgan 7 caras y 3 cruces. Ahora bien, imagine que hemos tirado la moneda 1000 veces y nos han salido 700 caras y 300 cruces. ¿Podemos concluir ahora que la moneda está trucada? Efectivamente, podemos hacerlo casi con total seguridad. La razón es que cuando tiramos la moneda sólo 10 veces, es muy probable que el azar tenga un efecto muy importante en el número de caras y cruces que nos salen. Pero a medida que incrementamos el número de observaciones es cada vez menos y menos probable que el patrón de resultados se vea muy influido por el azar. En otras palabras, sería  muy raro que el azar conspirara contra nosotros en 1000 ocasiones. Pues bien, eso que cambia entre tener 10 observaciones y 1000 observaciones es precisamente el poder estadístico. Cuantas más observaciones hagamos, tanto más probable es que cualquier efecto que veamos en los datos sea un efecto real y no un artificio del azar.

El lado oscuro del poder estadístico es que si un estudio tiene poco poder estadístico (es decir, si se basa en pocas observaciones), entonces a veces no conseguirá establecer a ciencia cierta si existe un efecto o no. Y es precisamente aquí donde el concepto de poder estadístico puede ser útil para ver si hay un problema de publicación selectiva en un área. Si los estudios de un área tienen poco poder estadístico, entonces esperaremos encontrar algunos resultados negativos, aunque el efecto que se esté estudiando exista realmente. Volviendo a los experimentos de Bem, esto implica, por ejemplo, que si la percepción extrasensorial existe y los estudios sobre ella tienen un poder estadístico del 80% entonces deberíamos esperar que la percepción extrasensorial se detectara en un 80% de los datos.

Pues bien, el artículo de Francis observa que en el caso de la percepción extrasensorial, el número de “éxitos” que se observan en los experimentos de Bem es mayor que el que sería esperable dado el poder estadístico de esos experimentos. Es decir, dado ese poder estadístico y asumiendo que la percepción extrasensorial existe, sería extremadamente poco probable tener tantos resultados positivos. Luego, “something is rotten in the state of Denmark”.

__________

Francis, G. (2012). Too good to be true: Publication bias in two prominent studies from experimental psychology. Psychonomic Bulletin & Review, 19, 151-156. doi: 10.3758/s13423-012-0227-9

Alan Turing y la percepción extransensorial

Alan Turing, cuyo centenario celebramos en 2012, nos dejó una de las respuestas más controvertidas a la pregunta de si algún día podremos construir máquinas que piensen y cómo sabremos si efectivamente piensan. Su conocida propuesta constituye lo que hoy conocemos como Test de Turing: Si un observador neutral conversa con un ordenador y un ser humano y no sabe distinguir quién es quién, entonces habrá que atribuir al ordenador la misma “inteligencia” que al humano. En su artículo clásico “Computing machinery and intelligence” defiende la idea de que algún día se diseñará una máquina que pueda pasar la prueba y se adelanta a todas las críticas que puedan plantearse. Es difícil contener una sonrisa ante alguna de estas posibles “críticas”. Vean, vean…

(9) The argument from extrasensory perception

I assume that the reader is familiar with the idea of extrasensory perception, and the meaning of the four items of it, viz., telepathy, clairvoyance, precognition and psychokinesis. These disturbing phenomena seem to deny all our usual scientific ideas. How we should like to discredit them! Unfortunately the statistical evidence, at least for telepathy, is overwhelming. It is very difficult to rearrange one’s ideas so as to fit these new facts in. Once one has accepted them it does not seem a very big step to believe in ghosts and bogies. The idea that our bodies move simply according to the known laws of physics, together with some others not yet discovered but somewhat similar, would be one of the first to go.

This argument is to my mind quite a strong one. One can say in reply that many scientific theories seem to remain workable in practice, in spite of clashing with ESP; that in fact one can get along very nicely if one forgets about it. This is rather cold comfort, and one fears that thinking is just the kind of phenomenon where ESP may be especially relevant.

A more specific argument based on ESP might run as follows: “Let us play the imitation game, using as witnesses a man who is good as a telepathic receiver, and a digital computer. The interrogator can ask such questions as ‘What suit does the card in my right hand belong to?’ The man by telepathy or clairvoyance gives the right answer 130 times out of 400 cards. The machine can only guess at random, and perhaps gets 104 right, so the interrogator makes the right identification.” There is an interesting possibility which opens here. Suppose the digital computer contains a random number generator. Then it will be natural to use this to decide what answer to give. But then the random number generator will be subject to the psychokinetic powers of the interrogator. Perhaps this psychokinesis might cause the machine to guess right more often than would be expected on a probability calculation, so that the interrogator might still be unable to make the right identification. On the other hand, he might be able to guess right without any questioning, by clairvoyance. With ESP anything may happen.

If telepathy is admitted it will be necessary to tighten our test up. The situation could be regarded as analogous to that which would occur if the interrogator were talking to himself and one of the competitors was listening with his ear to the wall. To put the competitors into a “telepathy-proof room” would satisfy all requirements.

__________

Turing, A. M. (1950). Computing machinery and intellingece. Mind, 59, 433-460. doi: 10.1093/mind/LIX.236.433

Criterios diagnósticos de la pseudociencia

A lo largo de la historia, decenas de científicos y filósofos han intentado demarcar la frontera que separa la ciencia de la pseudociencia buscando un criterio bien definido que las separe. Para unos, la principal diferencia es la falsabilidad de las teorías científicas frente a la vaguedad de la pseudociencia. Para otros, es la utilización del método científico lo que mejor las distingue. Sin embargo, ni éstas ni otras propuestas similares se han hecho con la aceptación general de los académicos. Sea cual sea el criterio que se elija, siempre es posible encontrar algún contraejemplo que lo invalide. No es extraño que algunos filósofos, como Paul Feyerabend, hayan concluido que en realidad no hay ninguna diferencia esencial entre ciencia y pseudociencia. Sin embargo, existe una salida alternativa a este problema.

Normalmente intentamos definir los conceptos (como el concepto de “ciencia”) buscando las características necesarias y suficientes que debe reunir un elemento para pertenecer a la categoría que describe ese concepto. Por ejemplo, la definición de ser humano solía ser “animal racional”. Si algo es un animal y es racional, y si esa definición es correcta, entonces puede clasificarse con toda seguridad un ser humano. Sin embargo, hay conceptos cuyos elementos, utilizando la expresión de Wittgenstein, no tienen en común más que cierto “parecido familiar”: tienden a presentar ciertos rasgos comunes, pero ninguno de ellos es necesario ni suficiente para ser correctamente clasificado.

Un buen ejemplo de estas categorías son las enfermedades mentales. Como aún no sabemos muy bien cómo caracterizar algunas de ellas o cómo explicarlas, lo que los psicólogos y psiquiatras hacen es elaborar un listado de criterios diagnósticos para cada enfermedad. A un paciente se le diagnostica una enfermedad cuando cumple con un número determinado de esos criterios diagnósticos. Por ejemplo, el DSM-IV-TR propone diagnosticar un episodio depresivo mayor cuando un paciente cumple con cinco o más de estos criterios:

(1) Estado de ánimo depresivo la mayor parte del día, casi todos los días, indicado por el relato subjetivo o por observación de otros.

(2) Marcada disminución del interés o del placer en todas, o casi todas, las actividades durante la mayor parte del día, casi todos los días.

(3) Pérdida significativa de peso sin estar a dieta o aumento significativo, o disminución o aumento del apetito casi todos los días.

(4) Insomnio o hipersomnia casi todos los días.

(5) Agitación o retraso psicomotores casi todos los días.

(6) Fatiga o pérdida de energía casi todos los días.

(7) Sentimientos de desvalorización o de culpa excesiva o inapropiada (que pueden ser delirantes) casi todos los días (no simplemente autorreproches o culpa por estar enfermo).

(8) Menor capacidad de pensar o concentrarse, o indecisión casi todos los días (indicada por el relato subjetivo o por observación de otros).

(9) Pensamientos recurrentes de muerte (no sólo temor de morir), ideación suicida recurrente sin plan específico o un intento de suicidio o un plan de suicidio específico.

Para que un paciente sea diagnosticado como un caso de depresión severa debe cumplir con al menos 5 de estos criterios (luego ninguno es suficiente por sí solo), pero cualquiera de esos criterios es igualmente válido (luego ninguno es necesario).

La recopilación de textos de Mario Bunge que publica Laetoli bajo el título La pseudociencia ¡Vaya timo! Es un magnífico ejemplo de cómo esta misma lógica puede utilizarse para separar la ciencia de la pseudociencia. Tal vez no haya ninguna característica esencial que las diferencie, pero no por ello dejan de caracterizarse una y otra por diferentes atributos que tienden a aparecer juntos. En el libro de Bunge podemos encontrar varios listados de características habituales de la ciencia. Algunas de las más importantes son (a) que la ciencia tiende a cambiar a medida que avanza, (b) que una ciencia siempre presenta puntos de unión y es consistente con otras disciplinas también científicas, y (c) que la ciencia suele apoyarse en una determinada visión del mundo o filosofía que le es especialmente apta y que se caracteriza entre otras cosas por el realismo (la idea de que la realidad objetiva existe, independientemente de los observadores), el empirismo (la idea de que el conocimiento se basa en hechos observables) y el racionalismo (la idea de que las teorías científicas no pueden contradecirse entre sí o con los hechos).

De modo que si una teoría no cambia con el paso de las décadas, contradice a otras teorías bien asentadas y se protege de las críticas diciendo que la verdad, como la belleza, está en el ojo del que mira, ya sabe, es blanco y en botella. ¿Se le vienen ejemplos a la cabeza?