Cómo hacer que tus experimentos molen

En el último número de Perspectives on Psychological Science, Kurt Gray y el celebérrimo Dan Wegner comparten con nosotros los seis ingredientes fundamentales de su receta para el éxito:

  1. Primero los fenómenos: La teoría está bien, pero cuando te sea posible, haz que tus investigaciones se basen en una experiencia humana profunda, universal y poderosa.
  2. Sé sorprendente: Investiga algo que desafíe el sentido común y la intuición, que muestre que las cosas no son lo que parecen.
  3. Dirígete a las abuelas, no a los científicos: Desafiar las ideas que interesan a tus colegas profesionales genera cierto éxito a corto plazo. Pero es más probable que tu investigación se mantenga vigente si cuestiona las intuiciones de la población general.
  4. Sé el participante: Haz que tu experimento sea una experiencia para tus participantes. No temas que el procedimiento sea estrambótico y excéntrico.
  5. Estadística sencilla: Si puedes analizar tus datos con una prueba t, no hagas un ANOVA. Si puedes hacer un ANOVA de un factor, no hagas un ANOVA factorial.
  6. Comienzos poderosos: El primer párrafo de tu artículo debería resumir toda la investigación haciendo énfasis en todo lo anterior: centrarse en una experiencia profunda, contra-intuitiva y fácil de entender.

Si estos consejos te parecen sacados de un libro de auto-ayuda para investigadores, en mi mesa siempre habrá un plato para ti. Seguir estas pautas tal vez te lleve a conseguir más citas en la Web of Science. De vez en cuando incluso puede que te llame alguien de tu periódico local para hacerte una entrevista. Pero mi humilde opinión es que esta filosofía conduce a publicar estudios que son a la verdadera ciencia lo que Operación Triunfo es a la música. Cuando el impacto y el sensacionalismo se hacen tan importantes o más que el rigor y la veracidad, inevitablemente sucede lo que en los últimos años le ha pasado a la psicología social. Ni más ni menos.

__________

Gray, K., & Wegner, D. M. (2013). Six guidelines for interesting research. Perspectives on Psychological Science, 8, 549-553. doi: 1177/1745691613497967.

Advertisements

En busca del impacto científico

Como casi todos los investigadores, tengo una carpeta llena de artículos en PDF que debería ir leyéndome durante los próximos meses. Basándome en mi experiencia previa, calculo que llegaré a leer un 10% de ellos y que el resto simplemente se quedará ahí, haciéndome sentir culpable hasta que en un arrebato de realismo los elimine sin ningún miramiento. En cualquier área de investigación, por muy específica o especializada que sea, se publican al año cientos o miles de artículos científicos. Posiblemente algunos de ellos contienen ideas geniales que los convertirán en referencia obligada durante los siguientes años. Y otros, en fin, podrían servir para avivar el fuego de la barbacoa sin ningún perjuicio para la ciencia. ¿Cómo saber cuáles merecen la pena y cuáles no?

Las instituciones que tienen que evaluar el rendimiento de sus investigadores se enfrentan a un problema similar. Que un investigador haya publicado cuatro artículos en un año en principio suena muy bien. Pero el trabajo que se esconde detrás de esos cuatro artículos (y su impacto futuro) es muy diferente si se trata de publicaciones en revistas locales que nadie lee que si se trata de publicaciones en revistas internacionales muy prestigiosas, cuyos artículos son aceptados sólo después de pasar por un proceso de revisión extremadamente duro y crítico. Todo el mundo entiende que un artículo publicado en Science o Nature no merece la misma valoración que un artículo publicado en la revista de la asociación de vecinos del barrio. ¿Pero cómo valorar el mérito relativo de dos publicaciones en situaciones menos extremas?

Durante los últimos años se han propuesto diversos indicadores para medir hasta qué punto una revista se puede considerar prestigiosa o no. Seguramente, el más popular de estos indicadores es el índice de impacto, publicado cada año en la Web of Knowledge por la agencia Thompson Reuters. La lógica que se esconde detrás del índice es sencilla: Una revista es “buena” si sus artículos son citados frecuentemente, especialmente si estas citas se producen en poco tiempo. En concreto, para calcular el índice de impacto de una revista en un año concreto, se mide el número de citas que durante ese año han recibido los artículos que esa revista ha publicado en los dos años anteriores y ese número se divide entre el número total de artículos que dicha revista publicó en esos dos años. Por ejemplo, si queremos saber el índice de impacto del 2012, contamos el número de citas que se han hecho en 2012 a artículos que la revista publicó en 2010 y 2011. Y luego dividimos ese número de citas entre el número de artículos que la revista publicó entre 2010 y 2011. Por tanto, lo que este índice nos dice es cuántas veces se citó de media en 2012 un artículo publicado por esa revista entre 2010 y 2011.

Tal vez la sencillez de esta idea sea la responsable de que en la actualidad los índices de impacto de las revistas se hayan convertido en un referente casi universal para decidir qué revistas valen la pena y cuáles no. Si el índice de impacto de una revista la coloca a la cabeza de su área de investigación, entonces merece la pena leer los artículos que se publican ahí. Y si hay que juzgar el mérito de un investigador, su trabajo se valora más si sus artículos se han publicado en esas pocas revistas que lideran el ranking.

Sin embargo, la utilización de este indicador como referencia casi exclusiva para medir la calidad de las publicaciones no está exenta de críticas. Posiblemente el principal problema del índice de impacto o de cualquier otro indicador que aspire a convertirse en universal es que, una vez conocida la fórmula que se utiliza para medir la calidad científica, siempre es fácil inventar “trampas” con las que conseguir un resultado más favorable. Por ejemplo, a pesar de su nombre, el International Journal of Clinical and Health Psychology es en realidad una revista española que posiblemente no figura entre las más importantes de su área. Sin embargo, su índice de impacto tradicionalmente se sitúa entre 1.5 y 2.5, una cifra sorprendentemente alta para una revista española. ¿Es posible que esta revista esté convirtiéndose en un referente internacional? Lo dudo. Lo que sucede es que esta revista suele obligar a los autores a incluir en sus artículos auto-citas a otros trabajos publicados en la revista. Si, por ejemplo, un autor desea publicar un estudio correlacional, entonces debe citar un artículo donde se explica cómo realizar un estudio correlacional. Como estas auto-citas sólo cuentan si se realizan a artículos publicados en los dos últimos años, entonces estos artículos “de referencia” se reescriben periódicamente para que siempre haya una versión reciente que citar, de modo que las auto-citas sigan contribuyendo al índice de impacto.

Leyendo un interesantísimo artículo de Brembs y colaboradores que se acaba de publicar en Frontiers in Human Neuroscience, he descubierto que, además de este tipo de trampas, las revistas también pueden negociar con Thompson Reuters qué tipo de artículos cuentan en el cómputo y cuáles no. En concreto, lo que se negocia es si algunas publicaciones que no son estrictamente artículos científicos, como las notas editoriales, los comentarios, o las cartas al editor, se consideran en el cómputo o no. Ignorando esos textos lo que se consigue es que el denominador por el que se dividen el número de citas sea más pequeño y así el índice de impacto sea mayor, aun teniendo el mismo número de citas. Brembs y colaboradores sugieren que el índice de impacto de algunas revistas muy prestigiosas podría estar hinchado mediante este tipo de estrategias. Por ejemplo, Current Biology saltó de un índice de impacto de 7.007 en 2011 a 11.910 en 2012 sin apenas recibir más citas, simplemente por una reducción en el número de artículos computados.

En cualquier caso, lo más interesante del análisis de Brembs y colaboradores no es que los índices de impacto se vean influidos por este tipo de triquiñuelas, sino que posiblemente no consiguen medir correctamente aquello que pretenden medir. Si los artículos publicados en revistas de alto impacto fueran realmente mejores, uno esperaría, por ejemplo, que los experimentos publicados en esas revistas tuvieran mayor potencia estadística, fueran más fáciles de replicar o presentaran un menor número de retracciones. Sin embargo, nada de esto sucede. Si acaso, lo contrario está más próximo a la verdad: Son las revistas de mayor impacto las que más retracciones publican. Y con respecto a los otros indicadores, no hay evidencia alguna de que el índice de impacto correlacione claramente con la calidad de las publicaciones.

En el sistema actual, los índices de impacto determinan qué artículos se leen y cuáles no, a qué investigadores se contrata y a quiénes no, qué equipos reciben financiación y qué equipos no. Ante la escasa validez de los índices de impacto, parece poco razonable seguir utilizándolos como referente único y universal para tomar todas estas decisiones. Sin embargo, no por ello podemos renunciar a tener indicadores que nos permitan valorar la calidad relativa de diferentes publicaciones. Al final de su artículo, Brembs y colaboradores sugieren que la solución pasa por disponer de múltiples indicadores de calidad que se fijen en diferentes propiedades de los artículos y revistas. Si algunos editores intentan falsear la calidad de su revista, es más difícil que lo consigan si el impacto científico se mide con diversos indicadores que si se mide con uno solo. Además, cada indicador será sensible a diferentes aspectos de lo que constituye la calidad de una revista y colectivamente proporcionarán más información que los actuales índices de impacto.

__________

Brembs, B., Button, K., & Munafò, M. (2013). Deep impact: Unintended consequences of journal rank. Frontiers in Human Neuroscience, 7, 291.