40,000 artículos de neurociencia podrían estar equivocados

Vi este artículo en The Economist sobre un artículo aparentemente devastador [1] que arroja dudas sobre "algo así como 40,000 estudios publicados [fMRI]". El error, dicen, se debe a "supuestos estadísticos erróneos". Leí el documento y veo que en parte es un problema con múltiples correcciones de comparación, pero no soy un experto en fMRI y me resulta difícil seguirlo.

¿Cuáles son los supuestos erróneos de los que hablan los autores ? ¿Por qué se hacen esas suposiciones? ¿Cuáles son las formas de evitar hacer estas suposiciones?

Una parte posterior del cálculo del sobre dice que 40,000 documentos fMRI son más de $ mil millones en fondos (salario de estudiantes graduados, costos operativos, etc.).

[1] Eklund et al., Fracaso del clúster: por qué las inferencias fMRI para extensión espacial han inflado las tasas de falsos positivos, PNAS 2016

— R Greg Stacey
fuente

Vea también el documento sobre la resonancia magnética funcional del salmón muerto. wired.com/2009/09/fmrisalmon

— Reinstale a Monica el

Es una línea muy fina, especialmente en el estudio de las neuropatologías, porque puedes restringir totalmente los falsos positivos tanto como quieras, pero en la compensación terminas con una gran incidencia de falsos negativos.

— Firebug

Hay una pequeña diferencia entre los dos: el papel de salmón es una pequeña parábola sobre la importancia de la corrección de comparaciones múltiples, que todos deberían haber estado haciendo ya. Por el contrario, el problema PNAS muerde a las personas que intentaban hacer "lo correcto", pero la corrección en sí era un poco inestable.

— Matt Krause el

Creo que esta es una gran pregunta para hacer porque llega al corazón de las correcciones de las comparaciones múltiples y las suposiciones clave en la realización de este tipo de análisis en el contexto de una línea común de investigación. Sin embargo, la única pregunta en el texto es "¿alguien con más conocimiento que ellos quiere comentarlo?" que es algo amplio e inespecífico. Si esto pudiera enfocarse a un problema estadístico particular dentro del alcance del centro de ayuda, sería más adecuado para este foro.

— Restablece a Monica el

Gracias. Edité la pregunta para hacerlo más específico. Avísame si debería editarlo más.

— R Greg Stacey

En la cifra 40000

Las noticias son realmente sensacionalistas, pero el periódico está realmente bien fundado. Las discusiones duraron días en mi laboratorio, en general una crítica realmente necesaria que hace que los investigadores introspecten su trabajo. Recomiendo la lectura del siguiente comentario de Thomas Nichols , uno de los autores de "Fracaso del clúster: por qué las inferencias fMRI por extensión espacial han inflado las tasas de falsos positivos" (perdón por la larga cita).

Sin embargo, hay un número que lamento: 40,000. Al tratar de referirnos a la importancia de la disciplina de fMRI, utilizamos una estimación de toda la literatura de fMRI como número de estudios afectados por nuestros hallazgos. En nuestra defensa, encontramos problemas con la inferencia del tamaño del grupo en general (grave para P = 0.01 CDT, sesgada para P = 0.001), el método de inferencia dominante, lo que sugiere que la mayoría de la literatura se vio afectada. El número en la declaración de impacto, sin embargo, ha sido recogido por la prensa popular y alimentado una pequeña tormenta. Por lo tanto, creo que es mi deber hacer al menos una estimación aproximada de "¿A cuántos artículos afecta nuestro trabajo?". No soy bibliométrico, y este es realmente un ejercicio duro y listo, pero con suerte da una idea del orden de magnitud del problema.

El código de análisis (en Matlab) se presenta a continuación, pero aquí está el flaco: según algunos cálculos probabilísticos razonables, pero tal vez muestras frágiles de la literatura, calculo que alrededor de 15,000 artículos usan inferencia de tamaño de conglomerado con corrección para pruebas múltiples; de estos, alrededor de 3.500 usan un CDT de P = 0.01. 3.500 es aproximadamente el 9% de toda la literatura, o quizás más útilmente, el 11% de los documentos que contienen datos originales. (Por supuesto, algunos de estos 15,000 o 3,500 podrían usar inferencia no paramétrica, pero desafortunadamente es raro para fMRI; en contraste, es la herramienta de inferencia predeterminada para análisis estructurales de VBM / DTI en FSL).

Francamente pensé que este número sería mayor, pero no me di cuenta de la gran proporción de estudios que nunca utilizaron ningún tipo de corrección de pruebas múltiples. (¡No puede haber inflado los significados corregidos si no los corrige!) . Estos cálculos sugieren que 13,000 artículos no utilizaron corrección de pruebas múltiples. Por supuesto, algunos de estos pueden estar utilizando regiones de interés o análisis de subvolúmenes, pero son pocos (es decir, resultados de estilo de ensayo clínico) que no tienen absolutamente ninguna multiplicidad. Nuestro artículo no trata directamente sobre este grupo, pero para las publicaciones que usaron la corrección de pruebas múltiples populares, P <0.001 & k> 10, nuestro documento muestra que este enfoque tiene tasas de error familiares que superan ampliamente el 50%.

Entonces, ¿estamos diciendo que 3.500 documentos están "equivocados"? Depende. Nuestros resultados sugieren que los resultados de CDT P = 0.01 han inflado los valores de P, pero cada estudio debe ser examinado ... si los efectos son realmente fuertes, probablemente no importa si los valores de P están sesgados, y la inferencia científica permanecerá sin cambios. Pero si los efectos son realmente débiles, los resultados podrían ser consistentes con el ruido . Y, ¿qué pasa con esos 13,000 artículos sin corrección, especialmente comunes en la literatura anterior? No, tampoco deben descartarse de la mano, pero se necesita un ojo particularmente cansado para esos trabajos, especialmente cuando se comparan con nuevas referencias con estándares metodológicos mejorados.

También incluye esta tabla al final:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2

Básicamente, SPM (Mapeo Paramétrico Estadístico, una caja de herramientas para Matlab) es la herramienta más utilizada para los estudios de neurociencia fMRI. Si revisa el documento, verá que el uso de un CDT de P = 0.001 (el estándar) para los clústeres en SPM da casi la tasa esperada de error familiar.

Los autores incluso completaron una errata debido a la redacción del artículo:

Dada la interpretación errónea generalizada de nuestro artículo, Eklund et al., Cluster Failure: Por qué las inferencias fMRI por extensión espacial han inflado las tasas de falsos positivos, presentamos una errata en la oficina del PNAS Editoral:

Erratas para Eklund et al., Fracaso del clúster: por qué las inferencias fMRI para extensión espacial han inflado las tasas de falsos positivos. Eklund, Anders; Nichols, Thomas E; Knutsson, Hans

Dos oraciones estaban mal redactadas y podrían malinterpretarse fácilmente como exagerando nuestros resultados.

La última oración de la declaración de significancia debería leer: "Estos resultados cuestionan la validez de una serie de estudios de resonancia magnética funcional y pueden tener un gran impacto en la interpretación de resultados de neuroimagen débilmente significativos".

La primera oración después del encabezado "El futuro de la fMRI" debería haber leído: "Debido a las lamentables prácticas de archivo e intercambio de datos, es poco probable que se puedan volver a hacer análisis problemáticos".

Estos reemplazan las dos oraciones que implicaban erróneamente que nuestro trabajo afectó a todas las 40,000 publicaciones (ver Bibliometría de la Inferencia de Clúster para una estimación de la cantidad de literatura potencialmente afectada).

Después de rechazar inicialmente la errata, debido a que estaba corrigiendo la interpretación y no el hecho, PNAS acordó publicarla tal como la presentamos anteriormente.

En el llamado insecto

Algunas noticias también mencionaron un error como la causa de la invalidez de los estudios. De hecho, una de las herramientas de AFNI fue corregir las inferencias , y esto se resolvió después de que la preimpresión se publicara en arXiv .

Inferencia estadística utilizada en neuroimagen funcional

La neuroimagen funcional incluye muchas técnicas que tienen como objetivo medir la actividad neuronal en el cerebro (por ejemplo, fMRI, EEG, MEG, NIRS, PET y SPECT). Estos se basan en diferentes mecanismos de contraste. La resonancia magnética funcional se basa en el contraste dependiente del nivel de oxígeno en sangre (BOLD). En la fMRI basada en tareas, dado un estímulo, las neuronas en el cerebro responsables de la recepción de esa estimulación comienzan a consumir energía y esto desencadena la respuesta hemodinámica cambiando la señal de resonancia magnética ( ) en las proximidades de la micro reclutada -vascularización. $\approx 5\%$

Usando un modelo lineal generalizado (GLM), identifica qué series temporales de señales de vóxel están correlacionadas con el diseño del paradigma de su experimento (generalmente una serie de tiempo booleana convolucionada con una función de respuesta hemodinámica canónica, pero existen variaciones).

Entonces, este GLM le dio cuánto se asemeja cada serie de tiempo de voxel a la tarea. Ahora, digamos que tiene dos grupos de individuos: pacientes y controles usualmente. La comparación de los puntajes de GLM entre los grupos podría usarse para mostrar cómo la condición de los grupos modula su patrón de "activación" cerebral.

La comparación entre los grupos por vóxel es factible, pero debido a la función de dispersión de puntos inherente al equipo más un paso de preprocesamiento de suavizado, no es razonable esperar que los vóxeles lleven toda la información individualmente. La diferencia en los vóxeles entre los grupos debería, de hecho, extenderse a los vóxeles vecinos.

Por lo tanto, se realiza una comparación por conglomerados , es decir, solo se consideran las diferencias entre los grupos que se forman en conglomerados. Este umbral de extensión de grupo es la técnica de corrección de comparación múltiple más popular en los estudios de resonancia magnética funcional. El problema yace aquí.

SPM y FSL dependen de la teoría gaussiana de campo aleatorio (RFT) para la inferencia voxelwise y clusterwise corregida por FWE. Sin embargo, la inferencia de RFT en clúster depende de dos supuestos adicionales. La primera suposición es que la suavidad espacial de la señal de fMRI es constante sobre el cerebro, y la segunda suposición es que la función de autocorrelación espacial tiene una forma específica (un exponencial cuadrado) (30)

En SPM, al menos, debe establecer una tasa de FWE nominal y también un umbral de definición de clúster (CDT). Básicamente, SPM encuentra vóxeles altamente correlacionados con la tarea y, después de establecer un umbral con el CDT, los vecinos se agregan en grupos. Estos tamaños de conglomerados se comparan con la extensión de conglomerado esperada de Random Field Theory (RFT) dado el conjunto FWER [ 1 ].

La teoría de campos aleatorios requiere que el mapa de actividad sea uniforme, que sea una buena aproximación de red a campos aleatorios. Esto está relacionado con la cantidad de suavizado que se aplica a los volúmenes. El suavizado también afecta la suposición de que los residuos se distribuyen normalmente, ya que el suavizado, según el teorema del límite central, hará que los datos sean más gaussianos.

Los autores han demostrado en [ 1 ] que los tamaños de conglomerados esperados de RFT son realmente pequeños cuando se comparan con los umbrales de extensión de conglomerados obtenidos de las pruebas de permutación aleatorias (RPT).

En su artículo más reciente, los datos de estado de reposo (otra modalidad de fMRI, donde se instruye a los participantes a no pensar en nada en particular) se usaron como si las personas realizaran una tarea durante la adquisición de imágenes, y la comparación grupal se realizó voxel- y cluster -sabio. La tasa de error positivo falso observado (es decir, cuando observa diferencias en la respuesta de la señal a una tarea virtual entre grupos) debe ser razonablemente menor que la tasa de FWE esperada establecida en . Rehacer este análisis millones de veces en grupos de muestras aleatorias con diferentes paradigmas, sin embargo, mostró que las tasas de FWE más observadas son más altas de lo aceptable. $\alpha = 0.05$

@amoeba planteó estas dos preguntas muy pertinentes en los comentarios:

(1) The Eklund et al. El documento PNAS habla sobre el "nivel nominal del 5%" de todas las pruebas (ver, por ejemplo, una línea negra horizontal en la Fig. 1). Sin embargo, la CDT en la misma figura varía y puede ser, por ejemplo, 0.01 y 0.001. ¿Cómo se relaciona el umbral CDT con la tasa de error nominal tipo I? Estoy confundido por eso. (2) ¿Has visto la respuesta de Karl Friston http://arxiv.org/abs/1606.08199 ? Lo leí, pero no estoy muy seguro de lo que dicen: ¿veo correctamente que están de acuerdo con Eklund et al. pero decir que este es un problema "bien conocido"?

(1) Buena pregunta. De hecho, revisé mis referencias, veamos si puedo aclararlo ahora. La inferencia a nivel de grupo se basa en la extensión de los grupos que se forman después de aplicar un umbral primario (el CDT, que es arbitrario ). En el análisis secundario, se aplica un umbral en el número de vóxeles por grupo . Este umbral se basa en la distribución esperada de extensiones de clúster nulo, que puede estimarse a partir de la teoría (por ejemplo, RFT), y establece un FWER nominal. Una buena referencia es [ 2 ].

(2) Gracias por esta referencia, no la vi antes. Flandin y Friston argumentan que Eklund et al. la inferencia corroborada de RFT porque básicamente mostraron que respetando sus supuestos (con respecto a CDT y suavizado) los resultados son imparciales. Bajo esta luz, los nuevos resultados muestran que diferentes prácticas en la literatura tienden a sesgar la inferencia, ya que desglosa los supuestos de RFT.

En las comparaciones múltiples

También es bien sabido que muchos estudios en neurociencia no corrigen las comparaciones múltiples, las estimaciones oscilan entre el 10% y el 40% de la literatura. Pero estas afirmaciones no se tienen en cuenta, todos saben que estos documentos tienen una validez frágil y posiblemente enormes tasas de falsos positivos.

En el FWER superior al 70%

Los autores también informaron un procedimiento que produce FWER en más del 70%. Este procedimiento "popular" consiste en aplicar el CDT para mantener solo grupos muy significativos y luego aplicar otro umbral de extensión de grupo elegido arbitrariamente (en número de vóxeles). Esto, a veces llamado "inferencia de conjunto", tiene bases estadísticas débiles y posiblemente genera los resultados menos confiables.

Informes anteriores

Los mismos autores ya habían informado sobre problemas con la validez de SPM [ 1 ] en análisis individuales. También hay otros trabajos citados en esta área.

Curiosamente, varios informes sobre análisis a nivel grupal e individual basados en datos simulados concluyeron que el umbral de RFT eran, de hecho, conservadores. Con los recientes avances en potencia de procesamiento, aunque RPT se puede realizar mucho más fácilmente en datos reales, mostrando grandes discrepancias con RFT.

ACTUALIZACIÓN: 18 de octubre de 2017

Un comentario sobre "Cluster Failure" apareció en junio pasado [ 3 ]. Hay Mueller et al. Argumentan que los resultados presentados en Eklund et al podrían deberse a una técnica específica de preprocesamiento de imágenes utilizada en su estudio. Básicamente, volvieron a muestrear las imágenes funcionales a una resolución más alta antes de suavizar (aunque probablemente no sea realizado por todos los investigadores, este es un procedimiento de rutina en la mayoría de los software de análisis de fMRI). También señalan que Flandin y Friston no lo hicieron. De hecho, pude ver a Eklund hablar en el mismo mes en la Reunión Anual de la Organización para el Mapeo del Cerebro Humano (OHBM) en Vancouver, pero no recuerdo ningún comentario sobre este tema, sin embargo, parece crucial para la pregunta.

[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M. y Knutsson, H. (2012). ¿El análisis paramétrico de fMRI con SPM arroja resultados válidos? - Un estudio empírico de 1484 conjuntos de datos de descanso. NeuroImage, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A. y Wager, TD (2014). Umbral basado en la extensión del clúster en análisis fMRI: trampas y recomendaciones. Neuroimage, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE y Lohmann, G. (2017). Comentario: Fracaso del clúster: por qué las inferencias fMRI para extensión espacial han inflado las tasas de falsos positivos. Frontiers in Human Neuroscience, 11.

— Firebug
fuente

@Qroid Sí, para la primera parte, la suposición no se cumple (y esa es probablemente la causa del buen desempeño de la prueba de permutación no paramétrica). Los grupos son grupos de vóxeles, es decir, vóxeles vecinos que muestran el mismo efecto. Hay un valor p para definir un clúster (el umbral que define el clúster).

— Firebug

Esta respuesta se centra principalmente en si es 40000 o algún otro número, pero creo que sería más interesante para muchas personas aquí si pudieras resumir el debate principal (¿cuáles son los grupos? ¿Cuál es el problema con las correlaciones espaciales para la prueba de hipótesis? ¿Nadie? ¿Realmente piensas en esto antes? etc.)

— ameba dice Reinstate Monica

Gracias de nuevo. Después de mirar brevemente a Woo et al. 2014, ahora estoy seguro de por qué Eklund et al. llegó a PNAS y, en consecuencia, produjo una tormenta de este tipo en la prensa popular y en los blogs. No fueron Woo et al. diciendo más o menos lo mismo? Aquí está, justo en su blob "destacados": "Otra trampa es el aumento de falsos positivos cuando se usa un umbral primario liberal".

— ameba dice Reinstate Monica

Veo. Entonces, entiendo que científicamente no pasó mucho realmente ahora: el problema con los CDT liberales se conoce desde hace años, se discute en varios documentos y varios investigadores lo muestran en varias simulaciones. (Sin embargo, algunos investigadores continuaron utilizando CDT tan peligrosamente liberales). Eklund et al. ¡2016 tuvo la suerte de ser publicado en una revista y boo de "alto perfil"! - Todo el mundo está hablando de eso como si fuera una revelación.

— ameba dice Reinstate Monica

@amoeba La comunidad de neurociencia necesita una represión estadística, algo así como lo que sucedió en la psicología aplicada (quizás no tan drástica como prohibir los valores p). Muchos artículos que afirman tener significancia estadística no tienen rigor estadístico, las personas usan las herramientas y los parámetros que hacen que aparezcan los "resultados".

— Firebug