El investigador 1 ejecuta 1000 regresiones, el investigador 2 ejecuta solo 1, ambos obtienen los mismos resultados, ¿deberían hacer inferencias diferentes?

Imagine que un investigador está explorando un conjunto de datos y ejecuta 1000 regresiones diferentes y encuentra una relación interesante entre ellos.

Ahora imagine que otro investigador con los mismos datos ejecuta solo 1 regresión, y resulta que es el mismo que el otro investigador tomó 1000 regresiones para encontrar. El investigador 2 no conoce al investigador 1.

¿Debería el investigador 1 hacer inferencias diferentes que el investigador 2? ¿Por qué? Por ejemplo, ¿debería el investigador 1 realizar correcciones de comparaciones múltiples, pero el investigador 2 no debería?

Si el investigador 2 le mostrara primero su regresión única, ¿qué inferencias haría? Si después de eso el investigador 1 le mostró sus resultados, ¿debería cambiar su inferencia? Si es así, ¿por qué debería importar?

PD 1 : si hablar de investigadores hipotéticos hace que el problema sea abstracto, piense en esto: imagine que ejecutó solo una regresión para su trabajo, utilizando el mejor método disponible. Luego, otro investigador exploró 1000 regresiones diferentes con los mismos datos, hasta que encontró exactamente la misma regresión que usted ejecutó . ¿Deberían ustedes dos hacer inferencias diferentes? ¿La evidencia es la misma para ambos casos o no? ¿Debería cambiar su inferencia si conociera los resultados del otro investigador? ¿Cómo debe evaluar el público la evidencia de los dos estudios?

PD 2: por favor, trate de ser específico y de proporcionar una justificación matemática / teórica, si es posible.

— statslearner
fuente

Para ser una comparación válida, debe especificar todas las hipótesis nulas y alternativas. El investigador 2 solo puede probar la hipótesis 1, mientras que el investigador 1 probablemente quiera controlar la probabilidad de no cometer un error tipo 1 de 1000. Si esa es la inferencia simultánea que desea hacer, entonces debe hacer el ajuste del valor p. El investigador 2 tiene una prueba y no necesita ajustes. Para el investigador 1, ¿está ajustando diferentes modelos a los mismos datos o un modelo para cada uno de los 1000 conjuntos de datos?

— Michael R. Chernick

@MichaelChernick solo hay un conjunto de datos. El investigador 1 se ajusta a 1000 modelos para el mismo conjunto de datos hasta que encuentre el que le gusta. El investigador 2 solo encajó 1. Ambos investigadores usan los mismos datos. Entonces, ¿diría que estos dos investigadores tendrían que concluir cosas diferentes con exactamente el mismo conjunto de datos? ¿El investigador 2 debería confiar legítimamente en su análisis, mientras que el investigador 1 debería inflar sus intervalos de valor p / confianza debido a múltiples comparaciones?

— statslearner

Si seguiste mi argumento, lo hacen en el sentido de que solo el investigador 2 está probando una sola hipótesis mientras que el investigador 1 está probando 1000 hipótesis y necesita controlar todas las hipótesis que probó. Implica dos problemas diferentes. Lo que aún es vago es lo que quiere decir con "encontrar solo una relación interesante". Quizás pienses que has planteado una situación paradójica. No creo que tengas.

— Michael R. Chernick

@MichaelChernick, ¿por qué no es una paradoja que los mismos datos exactos con el mismo modelo conduzcan a dos conclusiones diferentes? Si lees los dos documentos por separado, ¿qué concluirías?

— statslearner

@MichaelChernick Lo hice, y me parece preocupante que pienses que esto es correcto: exactamente los mismos datos, con el mismo modelo, lo que lleva a dos conclusiones diferentes. Ver mis comentarios sobre la respuesta.

— statslearner

Respuestas:

Aquí está mi inclinación "bayesiana" sobre su pregunta. Creo que ha descrito una situación en la que dos personas con información previa diferente deberían obtener una respuesta / conclusión diferente cuando se les da el mismo conjunto de datos. Un ejemplo más contundente / extremo es suponer que tenemos un "investigador 1b" que simplemente adivina los parámetros del modelo de regresión y las conclusiones de cualquier hipótesis. Ejecutar regresiones no está conceptualmente demasiado lejos de adivinar. $1000$

Lo que creo que está sucediendo ... ¿qué aprendemos sobre la información previa de los investigadores de la pregunta anterior? - el investigador 1 probablemente tiene un previo plano para los modelos - el investigador 2 tiene un previo agudo para el modelo de interés (suponga que es el modelo que ambos encajan) $P (M_k|I_1)=\frac {1}{1000}$ $P (M_1|I_2) =1$ $M_1$

Obviamente, esto es una simplificación, pero como puede ver aquí, ya ponemos mucho más peso en las inferencias del investigador 2 sin ningún dato. Pero verán, una vez que ambos tengan en cuenta los datos, la probabilidad posterior del investigador 1 para aumentará ... (... sabemos esto porque fue "mejor "que otros otros modelos ...). La parte posterior del investigador 2 ya no puede concentrarse, ya es igual a . Lo que no sabemos es cuánto soportaron los datos sobre las alternativas. Lo que tampoco sabemos es cómo los diferentes modelos alteran las conclusiones sustantivas del investigador 1. Por ejemplo, supongamos que todos los $M_1$ $P (M_1|DI)>>P (M_1|I)$ $999$ $1$ $M_1$ $1000$ los modelos contienen un término común, y los parámetros de regresión para esa variable son significativamente mayores que (por ejemplo para todos los modelos). Entonces no hay ningún problema para concluir un efecto significativamente positivo, a pesar de que muchos modelos estaban en forma. $1000$ $0$ $p-value <10^{-8}$

Tampoco dices qué tan grande es el conjunto de datos, ¡y esto es importante! Si está hablando de un conjunto de datos con observaciones y covariables / predictores / variables independientes, entonces el investigador 1 probablemente todavía no esté seguro del modelo. Sin embargo, si el investigador 1 está usando observaciones, esto puede determinar de manera concluyente el modelo. $100$ $10$ $2,000,000$

No hay nada fundamentalmente malo con dos personas que comienzan con información diferente y continúan teniendo conclusiones diferentes después de ver los mismos datos. Sin embargo ... ver los mismos datos los acercará, siempre que sus "espacios modelo" se superpongan y los datos admitan esta "región superpuesta".

— probabilidadislogica
fuente

Entonces, la parte fundamental de su reclamo es que deberían hacer una inferencia diferente porque tienen antecedentes diferentes, y no porque ¿cuánto "exploraron los datos", correcto?

— statslearner

Por cierto, ¿cómo se evaluará la evidencia? ¿Te importaría cuántos modelos investigador 1 caben? Si es así, ¿por qué?

— statslearner

No necesariamente me importaría la cantidad de modelos que se ajustan, pero si el modelo que se está utilizando se conoce con certeza o no. Como menciono brevemente, me gustaría saber si hay alternativas razonables. Por ejemplo, si el investigador 1 tomó una decisión de "bola de línea" sobre una variable que se cae / agrega, me gustaría ver eso mencionado.

— probabilidadislogica

¿Por qué querrías ver eso mencionado, cambiaría eso tu anterior de alguna manera? ¿Lo estás usando como proxy para ti antes? No me queda claro el mapeo que estás haciendo. ¿Por qué las razones de un investigador en particular son importantes para su inferencia, ya que no afecta el proceso de generación de datos?

— statslearner

Estamos considerando que el conjunto de datos aquí es externo al investigador, él no lo recopiló y ambos investigadores usan los mismos datos. Parece que las razones por las que los hallazgos no se pueden replicar en psicología se deben a que solo usan umbrales de significación suelta como el estándar de evidencia para juzgar varias hipótesis locas que cualquier persona / científico razonable las consideraría ridículas a priori. Tomemos nuestro caso aquí, si la hipótesis probada en nuestro ejemplo es algo ridículo como una pose de poder, ¿importaría si realizamos 1 o 1000 regresiones?

— statslearner

La interpretación estadística es mucho menos clara que, lo que está pidiendo, el tratamiento matemático.

Las matemáticas son sobre problemas claramente definidos. Por ejemplo, tirar un dado perfecto o sacar bolas de una urna.

La estadística es matemática aplicada donde la matemática proporciona una guía pero no es la solución (exacta).

En este caso, es obvio que las circunstancias juegan un papel importante. Si realizamos una regresión y luego calculamos (matemáticas) algún valor p para expresar la fuerza, ¿cuál es la interpretación (estadística) y el valor del valor p?

En el caso de las 1000 regresiones realizadas por el investigador 1, el resultado es mucho más débil, ya que este tipo de situación ocurre cuando realmente no tenemos ni idea y solo estamos explorando los datos. El valor p es solo una indicación de que puede haber algo.

Entonces, el valor p obviamente es menos valioso en la regresión realizada por el investigador 1. Y si el investigador 1 o alguien que usa los resultados del investigador 1 quisiera hacer algo con la regresión, entonces el valor p debe corregirse. (y si pensabas que la diferencia entre el investigador 1 y el investigador 2 no era suficiente, solo piensa en la multitud de formas en que el investigador 1 puede corregir el valor p para comparaciones múltiples)
En el caso de la regresión única realizada por el investigador 2, el resultado es una evidencia mucho más sólida. Pero eso se debe a que la regresión no se sostiene por sí sola. Tenemos que incluir las razones por las cuales el investigador 2 realizó una sola regresión. Esto podría deberse a que tenía buenas razones (adicionales) para creer que la regresión única es un buen modelo para los datos.
La configuración de las regresiones realizadas por los investigadores 1 y 2 es muy diferente, y no es frecuente que encuentre ambas al mismo tiempo para el mismo problema. Si este es el caso, entonces
- el investigador 2 tuvo mucha suerte
  
  Esto no es tan infrecuente, y debemos corregirlo mejor al interpretar la literatura, así como también debemos mejorar la publicación de la imagen total de la investigación. Si hay mil investigadores como el investigador 2, y solo veremos a uno de ellos publicar un éxito, entonces debido a que no vimos las fallas de los otros 999 investigadores, podríamos creer erróneamente que no tuvimos un caso como el investigador 1
- El investigador 1 no era tan inteligente e hizo una búsqueda increíblemente superflua de alguna regresión, aunque podría haber sabido desde el principio que debería haber sido esa sola, y podría haber realizado una prueba más fuerte.
  
  Para los extraños que son más inteligentes que el investigador 1 (no se preocupan por las 999 regresiones adicionales desde el principio) y leen sobre el trabajo, podrían dar más fuerza a la importancia de los resultados, sin embargo, aún no son tan fuertes como lo haría para el Resultado del investigador 2.
  
  Si bien el investigador 1 puede haber sido demasiado conservador al corregir 999 regresiones adicionales superfluas, no podemos ignorar el hecho de que la investigación se realizó en un vacío de conocimiento y es mucho más probable encontrar un investigador afortunado del tipo 1 que el tipo 2)

Una historia relacionada interesante: en astronomía, cuando planeaban un mejor instrumento para medir el fondo cósmico con mayor precisión, hubo investigadores que argumentaron que solo publicaban la mitad de los datos. Esto se debe a que solo hay una oportunidad para recopilar datos. Una vez que todas las regresiones han sido realizadas por docenas de diferentes investigadores (y debido a la increíble variación y creatividad del teórico, ciertamente hay algo que se ajusta a cada posible, aleatorio, aumento en los datos), no hay posibilidad de realizar un nuevo experimento para verificar (es decir, a menos que pueda generar un universo completamente nuevo).

— Sexto empírico
fuente

+1 para @MartijnWeterings como dije en mis comentarios, el problema no estaba bien planteado matemáticamente. Me dio la impresión de que el OP pensó que hay una paradoja porque los dos investigadores serían conducidos a la misma elección de modelo, pero el que realiza 1000 regresiones es penalizado por la necesidad de un problema de comparación múltiple. No veo esto como una paradoja en absoluto (no está claro, pero creo que el OP sí). Dio una respuesta muy bien escrita y correcta que también explica intuitivamente por qué los dos casos son diferentes. ¡Creo que el OP debería comprobar su respuesta!

— Michael R. Chernick

\neq

$\neq$

Además, sé que esta es una práctica común, pero ¿no le preocupa decir que un resultado es "evidencia más sólida" que el otro, cuando son exactamente el mismo modelo y los mismos datos del mismo proceso de generación de datos? Lo único diferente es cuánto examinó un tercero los datos, y esto no debería tener ninguna relación con el propio DGP o sus creencias anteriores sobre el problema. ¿Debería el análisis del investigador 2 estar contaminado por la ignorancia del investigador 1, por ejemplo?

— statslearner

@MartijnWeterings ¿por qué debería importar la intención del investigador para la interpretación de los datos? Si está usando esto como una heurística, como un laico que interpreta un resultado experto, está bien. Pero para un científico que analiza los datos, parece que la intención del investigador no debería influir en su interpretación de la evidencia.

— statslearner

Por lo tanto, parece que está utilizando el comportamiento del investigador como un proxy para su anterior. Si el investigador ejecutara 1000 regresiones, eso correspondería a un nivel bajo antes de esa hipótesis específica. Si ejecutó solo 1, esto correspondería a un alto previo en esa hipótesis. Si tenía los dos casos, entonces no sabe cuál antes de usar.

— statslearner

Breve historia: no tenemos suficiente información para responder a su pregunta porque no sabemos nada sobre los métodos utilizados o los datos recopilados.

Respuesta larga ... La verdadera pregunta aquí es si cada investigador está haciendo:

ciencia rigurosa
pseudociencia rigurosa
exploración de datos
dragado de datos o p-hacking

Sus métodos determinarán la fuerza de la interpretación de sus resultados. Esto se debe a que algunos métodos son menos sólidos que otros.

En ciencia rigurosa desarrollamos una hipótesis, identificamos variables de confusión, desarrollamos controles para variables fuera de nuestra hipótesis, planificamos métodos de prueba, planificamos nuestra metodología analítica, realizamos pruebas / recolectamos datos y luego analizamos datos. (Tenga en cuenta que los métodos analíticos se planifican antes de que se realice la prueba). Este es el más riguroso porque debemos aceptar datos y análisis que no concuerden con la hipótesis. No es aceptable cambiar los métodos después del hecho para obtener algo interesante. Cualquier hipótesis nueva de los resultados tiene que pasar por el mismo proceso nuevamente.

En pseudociencia, a menudo tomamos datos que ya se han recopilado. Esto es más difícil de usar éticamente porque es más fácil agregar sesgos a los resultados. Sin embargo, todavía es posible seguir el método científico para analistas éticos. Sin embargo, puede ser difícil establecer controles adecuados y eso debe investigarse y anotarse.

La exploración de datos no se basa en la ciencia. No hay hipótesis específica. No existe una evaluación a priori de los factores de confusión. Además, es difícil regresar y volver a hacer el análisis utilizando los mismos datos, porque los resultados pueden estar contaminados por el conocimiento previo o el modelado y no hay datos nuevos para usar para la validación. Se recomienda un experimento científico riguroso para aclarar las posibles relaciones encontradas en el análisis exploratorio.

El dragado de datos o la piratería P es donde un "analista" realiza múltiples pruebas esperando una respuesta inesperada o desconocida o manipula los datos para obtener un resultado. Los resultados pueden ser una simple coincidencia, pueden ser el resultado de variables de confusión o pueden no tener un tamaño o poder de efecto significativo.

Hay algunos remedios para cada problema, pero esos remedios deben evaluarse cuidadosamente.

— Adam Sampson
fuente

Creo que está agregando ruido innecesario a la pregunta. Suponga que usaron los mejores métodos disponibles. Los datos no fueron recopilados por ellos, sino por una agencia estadística, por lo que no tenían control sobre la recopilación de datos. La única diferencia es cuánto exploró cada investigador los datos. Uno de ellos exploró mucho, el otro exploró solo una vez. Ambos obtienen el mismo modelo final con los mismos datos. ¿Deberían hacer diferentes inferencias? ¿Y cómo debería afectar eso tu inferencia?

— statslearner

Esto no es ruido extra. Las matemáticas son las matemáticas. Si los modelos son idénticos, entonces son idénticos. La forma en que interpreta los modelos depende de todas las otras variables no incluidas en su problema. Si ignora todos los demás contextos y diseños o experimentos, la respuesta es simple, ambos modelos funcionan igualmente matemáticamente y ambos son científicamente débiles.

— Adam Sampson