¿"Exploración" de datos versus "fisgoneo" / "tortura" de datos?

30

Muchas veces me he encontrado con advertencias informales contra "espionaje de datos" (aquí hay un ejemplo divertido ), y creo que tengo una idea intuitiva de lo que eso significa, y por qué puede ser un problema.

Por otro lado, el "análisis exploratorio de datos" parece ser un procedimiento perfectamente respetable en estadística, al menos a juzgar por el hecho de que un libro con ese título todavía se cita con reverencia como un clásico.

En mi línea de trabajo, a menudo me encuentro con lo que me parece un "espionaje de datos" desenfrenado, o tal vez sería mejor describirlo como " tortura de datos ", aunque quienes lo hacen parecen ver la misma actividad como una exploración completamente razonable y sin problemas. ".

Este es el escenario típico: el experimento costoso se lleva a cabo (sin pensar mucho en el análisis posterior), los investigadores originales no pueden discernir fácilmente una "historia" en los datos recopilados, alguien es llevado a aplicar alguna "magia estadística", y quién , después cortar y cortar los datos en todas las direcciones, finalmente logra extraer alguna "historia" publicable.

Por supuesto, generalmente hay algo de "validación" en el informe / documento final para mostrar que el análisis estadístico está en alza, pero la evidente actitud de publicación a toda costa detrás de todo me deja dudoso.

Desafortunadamente, mi comprensión limitada de lo que se debe hacer y lo que no se debe hacer con el análisis de datos me impide ir más allá de dudas tan vagas, por lo que mi respuesta conservadora es básicamente ignorar tales hallazgos.

Mi esperanza es que no solo una mejor comprensión de la distinción entre exploración y espionaje / tortura, sino también, y lo que es más importante, una mejor comprensión de los principios y técnicas para detectar cuando se haya cruzado esa línea, me permita evaluar tales hallazgos en una manera que puede explicar razonablemente un procedimiento analítico menos que óptimo, y así poder ir más allá de mi respuesta actual, bastante simple, de incredulidad general.

EDITAR: Gracias a todos por los comentarios y respuestas muy interesantes. A juzgar por su contenido, creo que no he explicado mi pregunta lo suficientemente bien. Espero que esta actualización aclare las cosas.

Mi pregunta aquí no se refiere tanto a lo que debo hacer para evitar torturar mis datos (aunque esta es una pregunta que también me interesa), sino más bien: ¿cómo debo considerar (o evaluar) los resultados que sé que se han llegado a través de tal "tortura de datos".

La situación se vuelve más interesante en aquellos casos (mucho más raros) en los que, además, estoy en condiciones de expresar una opinión sobre tales "hallazgos" antes de enviarlos para su publicación.

En este punto, lo máximo que puedo hacer es decir algo como "No sé cuánta credibilidad puedo dar a estos hallazgos, dado lo que sé sobre los supuestos y los procedimientos que se utilizaron para obtenerlos". Esto es demasiado vago para que valga la pena decirlo. Querer ir más allá de tanta imprecisión fue la motivación de mi publicación.

Para ser justos, mis dudas aquí se basan en métodos estadísticos más que aparentemente cuestionables. De hecho, veo esto último más como consecuencia del problema más profundo: una combinación de una actitud arrogante hacia el diseño experimental junto con un compromiso categórico de publicar los resultados tal como están (es decir, sin más experimentos). Por supuesto, los proyectos de seguimiento siempre se prevén, pero es simplemente fuera de cuestión que no saldrá ni un solo documento de, por ejemplo, "un refrigerador lleno de 100,000 muestras".

Las estadísticas entran en escena solo como un medio para cumplir este objetivo supremo. La única justificación para aferrarse a las estadísticas (secundarias como lo son en todo el escenario) es que un desafío frontal a la suposición de "publicación a toda costa" simplemente no tiene sentido.

De hecho, solo puedo pensar en una respuesta efectiva en tales situaciones: proponer alguna prueba estadística (que no requiera experimentación adicional) que realmente pruebe la calidad del análisis. Pero simplemente no tengo las estadísticas para ello. Mi esperanza (ingenua en retrospectiva) era descubrir qué podía estudiar que me permitiera llegar a tales pruebas ...

Mientras escribo esto, me doy cuenta de que, si aún no existe, el mundo podría usar una nueva sub-rama de estadísticas, dedicada a técnicas para detectar y exponer la "tortura de datos". (Por supuesto, no me refiero a dejarme llevar por la metáfora de la "tortura": el problema no es la "tortura de datos" per se, sino los "hallazgos" espurios a los que puede conducir).

multiple-comparisons interpretation eda

— kjo
fuente

1

@BabakP Esa cita aparece en seis respuestas aquí, incluidos los chistes de estadísticas y los hilos de citas de estadísticas. (Esta última es una buena fuente de citas relevantes si alguna vez está buscando algunas).

— whuber

77

No creo que haya ninguna distinción entre las técnicas utilizadas en la 'indagación de datos' y en el 'análisis de datos exploratorios': el uso despectivo del primer término es para un análisis exploratorio presentado engañosamente como un análisis confirmatorio.

— Scortchi - Restablece a Monica

8

Feynman, en el libro al que hace referencia, ya responde a esta pregunta: "Si quiere probar esta hipótesis [encontrada a través de la exploración], ... debe hacer otro experimento". Lo que parece estar preguntando es si Feynman pudo haber sido demasiado extremo ("exagerando un poco"): ¿en qué medida, si es que puede, puede justificarse la prueba formal de hipótesis cuando se desarrollaron al explorar los mismos datos ?

— whuber

2

@whuber: en la práctica es aún más dramático, porque a menudo se realizan pruebas con datos diferentes, pero la misma configuración experimental o tipo de experimento conducirá inadvertidamente a resultados similares.

— Enero

1

@Enero: eso depende de tus datos / experimentos, creo. Considere, por ejemplo, investigación biológica / médica. Para los datos que veo, la mayor variación suele ser entre pacientes (sujetos). Con suerte, repetir el experimento con nuevos pacientes conducirá a resultados similares, pero en la práctica este no suele ser el caso (es decir, los resultados de predicción de los modelos desarrollados en el primer grupo de pacientes son mucho peores de lo esperado, lo que significa que se produjo un sobreajuste, por lo que el los datos en el primer experimento fueron "torturados")

— cbeleites apoya a Monica el

22

Hay una distinción que a veces no recibe suficiente atención, a saber, la generación de hipótesis frente a las pruebas de hipótesis , o el análisis exploratorio frente a las pruebas de hipótesis. Se le permite a todos los trucos sucios del mundo presentar su idea / hipótesis. Pero cuando más tarde lo pruebes, debes matar sin piedad a tus seres queridos.

Soy un biólogo que trabaja con datos de alto rendimiento todo el tiempo, y sí, hago este "corte y corte" con bastante frecuencia. La mayoría de los casos que el experimento realizó no fue diseñado cuidadosamente; o tal vez aquellos que lo planearon no tuvieron en cuenta todos los resultados posibles. O la actitud general cuando se planificaba era "veamos qué hay allí". Terminamos con conjuntos de datos caros, valiosos y en sí mismos interesantes que luego giro y vuelvo para elaborar una historia.

Pero entonces, es solo una historia (posible hora de acostarse). Después de haber seleccionado un par de ángulos interesantes, y este es el punto crucial, debe probarlo no solo con conjuntos de datos independientes o muestras independientes, sino preferiblemente con un enfoque independiente , un sistema experimental independiente.

La importancia de esta última cosa, una configuración experimental independiente, no solo un conjunto independiente de mediciones o muestras, a menudo se subestima. Sin embargo, cuando probamos 30,000 variables para detectar diferencias significativas, a menudo sucede que si bien muestras similares (pero diferentes) de la misma cohorte y analizadas con el mismo método no rechazarán la hipótesis que basamos en el conjunto anterior. Pero luego pasamos a otro tipo de experimento y a otra cohorte, y nuestros hallazgos resultan ser el resultado de un sesgo metodológico o tienen una aplicabilidad limitada.

Es por eso que a menudo necesitamos varios documentos de varios investigadores independientes para aceptar realmente una hipótesis o un modelo.

Así que creo que esa tortura de datos está bien, siempre y cuando tenga en cuenta esta distinción y recuerde lo que está haciendo, en qué etapa del proceso científico se encuentra. Puede usar fases lunares o redefinir 2 + 2 siempre que tenga una validación independiente de los datos. Para ponerlo en una foto:

ingrese la descripción de la imagen aquí

Desafortunadamente, hay quienes ordenan un microarray para redondear un artículo después de que se hayan realizado varios experimentos y no haya surgido ninguna historia, con la esperanza de que el análisis de alto rendimiento muestre algo. O están confundidos acerca de la prueba de hipótesis completa frente a la generación.

— enero
fuente

Supongo que uno podría interpretar lo que he visto como "generación de hipótesis", pero el objetivo de las manipulaciones de las que estoy hablando es definitivamente publicar los resultados obtenidos de los datos "torturados", y hacerlo de la mejor manera. -Impacto de impacto que aceptará el papel. Huelga decir que tales documentos nunca llevan ninguna sugerencia de los orígenes torturados de sus hallazgos. De hecho, AFAICT, los autores no están en absoluto preocupados por esto. Y, sin embargo, creo que la mayoría de los lectores de este tipo de papeles sería muy descontar los hallazgos si supieran exactamente la cantidad de datos en la tortura entró en conseguir que ...

— KJo

1

@kjo: la generación de hipótesis es parte del proceso científico que definitivamente se puede publicar. Entonces esa no es razón.

— cbeleites apoya a Monica el

@Enero: olvidó mencionar el DoE "tome todas las muestras que podamos obtener, de todos modos serán muy pocas", que es el DoE más frecuente que encuentro.

— cbeleites apoya a Monica el

@cbeleites: bueno, no soñaría con criticar esta actitud en general; Por lo general, los experimentos podrían beneficiarse de un mayor número de réplicas. Pero estoy de acuerdo en que a menudo los experimentadores tienden a incluir tantas condiciones (tipos de muestra, cepas, variantes, clases, etc.) como solo físicamente posible, lo que hace que el análisis sea una pesadilla y a veces oscurece por completo la pregunta.

— Enero

12

Herman Friedman, mi profesor favorito en la escuela de posgrado, solía decir que

"Si no estás sorprendido, no has aprendido nada"

Evitar estrictamente cualquier cosa excepto la prueba más rigurosa de hipótesis definidas a priori limita severamente su capacidad de sorprenderse.

Creo que la clave es que somos honestos sobre lo que estamos haciendo. Si estamos en un modo altamente exploratorio, deberíamos decirlo. En el extremo opuesto, un profesor que conozco le dijo a su estudiante que cambiara sus hipótesis ya que no se encontró que las originales fueran significativas.

— Peter Flom - Restablece a Monica
fuente

44

No hay nada de malo en probar rigurosamente las hipótesis definidas a priori y espiar los mismos datos para sugerir que las siguientes hipótesis definidas a priori se prueben rigurosamente. Y si estamos en un modo incluso ligeramente exploratorio, deberíamos decirlo, solo decir lo que realmente hicimos, y dejar que otros decidan exactamente con qué cantidad de sal quieren tomar nuestros resultados, sin importar cuán convencidos estén de su validez. Nosotros mismos. Me gustaría dar a esta respuesta más de un voto por enfatizar la honestidad.

— Scortchi - Restablece a Monica

7

Permítanme agregar algunos puntos:

En primer lugar, la generación de hipótesis es una parte importante de la ciencia. Y se pueden publicar resultados no predictivos (exploratorios / descriptivos) .
En mi humilde opinión, el problema no es en sí mismo que la exploración de datos se utilice en un conjunto de datos y solo se publiquen partes de esos hallazgos. Los problemas son
- sin describir cuánto se ha probado
- luego sacar conclusiones como si el estudio fuera un estudio de validación para algún modelo predictivo / un estudio de prueba de hipótesis
El desarrollo de la ciencia y el método son procesos iterativos de una manera mucho más general que la simple generación de hipótesis: pruebas, generación de nuevas hipótesis, pruebas ... En mi humilde opinión, es una cuestión de juicio profesional qué tipo de conducta adecuada es necesaria en qué etapa (ver ejemplo abajo).

Lo que hago:

tratar de que las personas sean conscientes del sesgo optimista que resulta
Cuando tengo una oportunidad, también les muestro a las personas la diferencia que eso hace (factible principalmente con un nivel más bajo del mismo problema, por ejemplo, comparar datos validados independientemente del paciente con el rendimiento interno estimaciones de rutinas de optimización de hiperparámetros, como la búsqueda de cuadrícula de parámetros SVM, "modelos combinados" como PCA-LDA, etc. No es realmente factible para el dragado de datos reales, porque hasta ahora, nadie me dio el dinero para ganar una verdadera réplica de un estudio de tamaño razonable ...)
para documentos de los que soy coautor: insista en una discusión sobre las limitaciones de las conclusiones. Asegúrese de que las conclusiones no estén formuladas de manera más general de lo que permite el estudio.
Aliente a los compañeros de trabajo a usar su conocimiento experto sobre el tema del estudio y el proceso de generación de datos para decidir cómo tratar los datos en lugar de realizar una optimización costosa (en términos del tamaño de la muestra que necesitaría hacer correctamente) modelo- "hiper" -parámetros (como qué tipo de preprocesamiento usar).
Paralelamente: intente que las personas se den cuenta de lo costoso que es este negocio de optimización si se hace correctamente (si esto se llama exploración o no es irrelevante, si se hace mal, tendrá resultados similares como el dragado de datos), por ejemplo , Beleites, C. y Neugebauer , U. y Bocklitz, T. y Krafft, C. y Popp, J .: Planificación del tamaño de la muestra para modelos de clasificación. Anal Chim Acta, 2013, 760, 25-33. DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceptado en arXiv: 1211.1323
Aquí hay un estudio que encuentra que este intento ciego también es inútil, por ejemplo,
J. Engel, J. Gerretzen, E. Szymańska, JJ Jansen, G. Downey, L. Blanchet, LMC Buydens: ¿Rompiendo con las tendencias en el preprocesamiento? Tendencias TrAC en Química Analítica, 2013, 50, 96-106. DOI: 10.1016 / j.trac.2013.04.015
(probaron una gran cantidad de combinaciones de pasos de preprocesamiento y descubrieron que muy pocos conducen a mejores modelos que ningún preprocesamiento)
Enfatice que no estoy torturando mis datos más de lo necesario:
ejemplo :

Todo el preprocesamiento se decidió exclusivamente utilizando conocimiento espectroscópico, y no se realizó ningún preprocesamiento basado en datos.

Se lee un documento de seguimiento que utiliza los mismos datos como ejemplo para el desarrollo de teorías (diferentes)

Todo el procesamiento previo se decidió por conocimiento espectroscópico, no se incluyeron pasos basados en datos y no se realizó la optimización de parámetros. Sin embargo, verificamos que una proyección PLS [45] de los espectros en 25 variables latentes como preprocesamiento para el entrenamiento LR no condujo a más que ligeros cambios en la predicción (ver figura complementaria S.2).

Porque mientras tanto, un editor de la revista CILS me pidió explícitamente (en una conferencia) que comparara los modelos con el preprocesamiento de PLS.
Tome un punto de vista práctico: por ejemplo, en el estudio de astrocitoma vinculado anteriormente, por supuesto, todavía decidí algunos puntos después de mirar los datos (como qué umbral de intensidad corresponde a las mediciones tomadas desde fuera de la muestra, que luego se descartaron). Otras decisiones que sé que no son críticas (línea de base lineal versus cuadrática: mi experiencia con ese tipo de datos sugiere que esto realmente no cambia mucho, lo que también está en perfecto acuerdo con lo que Jasper Engel encontró en diferentes datos de tipo similar, por lo que No esperaría un gran sesgo al decidir el tipo de línea de base al observar los datos (el documento da un argumento de por qué eso es razonable).
Según el estudio que hicimos, ahora podemos decir qué se debe abordar a continuación y qué se debe cambiar. Y debido a que todavía estamos en un paso comparativamente temprano del desarrollo del método (mirando muestras ex vivo ), no vale la pena pasar por todos los "deberes" que finalmente serán necesarios antes de que el método pueda usarse in vivo . Por ejemplo, en la etapa actual de la clasificación del astrocitoma, la validación de muestreo es una opción más sensata que el conjunto de pruebas externas. Todavía enfatizo que se necesitará un estudio de validación verdaderamente externo en algún momento, porque algunas características de rendimiento solo se pueden medir de esa manera (por ejemplo, los efectos de la deriva / prueba del instrumento que podemos corregir para estos). Pero en este momento mientras todavía estamos jugando con ex-vivomuestras y están resolviendo otras partes del gran problema (en los documentos vinculados: cómo lidiar con los casos límite), la ganancia en conocimiento útil de un estudio de validación ex vivo adecuado es demasiado baja para que valga la pena el esfuerzo (en mi humilde opinión: a menos que que se hicieron para medir el sesgo debido al dragado de datos).
Una vez leí un argumento acerca de los estándares estadísticos y de informes, y si debería decidirse que es necesario para una revista (no recuerdo cuál) que me convenció: la idea expresada allí era que no es necesario que los editores intenten acordar y aplicar algún estándar (lo que causará mucha discusión inútil) porque:
- Quien utiliza las técnicas adecuadas suele ser muy consciente / orgulloso de eso y, por lo tanto, (y debería) informar en detalle lo que se hizo.
- Si un determinado punto (p. Ej., Dragado de datos, validación no independiente del nivel del paciente) no se explica claramente, la suposición predeterminada para los revisores / lectores es que el estudio no se adhirió a los principios adecuados en esa pregunta (posiblemente porque no lo hicieron) No sé mejor)

— cbeleites apoya a Monica
fuente

4

A veces, las cosas que ves como "tortura de datos" no son realmente. No siempre está claro de antemano exactamente qué va a hacer con los datos para dar lo que cree que son los resultados genuinos del experimento hasta que lo vea.

Por ejemplo, con los datos del tiempo de reacción para una tarea de decisión, a menudo desea rechazar los tiempos que no se refieren a la decisión (es decir, cuando van tan rápido que obviamente solo están adivinando y no tomando una decisión). Puede trazar la precisión de la decisión contra RT para ver dónde generalmente se producen las conjeturas. Pero hasta que haya probado ese paradigma en particular, no tiene forma de saber dónde están los límites (en el tiempo, no la precisión). Para algunos observadores, tal procedimiento parece torturar los datos, pero siempre que no tenga nada que ver directamente con las pruebas de hipótesis (no lo está ajustando en función de las pruebas), no está torturando los datos.

La indagación de datos durante un experimento está bien siempre que se haga de la manera correcta. Probablemente no sea ético pegar su experimento en una caja negra y solo hacer el análisis cuando se haya ejecutado el número planificado de sujetos. A veces es difícil decir que hay problemas con el experimento hasta que revise los datos y debería ver algunos tan pronto como sea posible. El análisis de datos se desprecia mucho porque se compara con ver si p <0.05 y decidir continuar. Pero hay muchos criterios por los cuales puede decidir continuar recolectando que no hacen nada dañino para sus tasas de error.

Supongamos que quiere asegurarse de que su estimación de varianza esté dentro de un rango probable conocido. Las muestras pequeñas pueden tener estimaciones de varianza bastante lejanas, por lo que debe recopilar datos adicionales hasta que sepa que la muestra es más representativa. En la siguiente simulación, espero que la varianza en cada condición sea 1. Voy a hacer algo realmente loco y tomar muestras de cada grupo de forma independiente para 10 muestras y luego agregar sujetos hasta que la varianza sea cercana a 1.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

Entonces, acabo de volverme loco con el muestreo y haciendo que mis variaciones sean cercanas a lo esperado y todavía no afecto mucho al alfa (está un poco por debajo de 0.05). Algunas restricciones más, como las N, deben ser iguales en cada grupo y no pueden ser más de 30, y el alfa es más o menos correcto en 0.05. ¿Pero qué hay de SE? ¿Qué sucede si en cambio trato de hacer que el SE sea un valor dado? Esa es realmente una idea realmente interesante porque a su vez estoy configurando el ancho de CI por adelantado (pero no la ubicación).

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

Una vez más, alpha cambió una pequeña cantidad a pesar de que he permitido que las N recorran hasta 46 de las 10 originales en función de la indagación de datos. Más importante aún, los SE se encuentran en un rango estrecho en cada uno de los experimentos. Es fácil hacer un pequeño ajuste alfa para solucionarlo si es una preocupación. El punto es que algunas indagaciones de datos hacen poco o ningún daño e incluso pueden traer beneficios.

(Por cierto, lo que estoy mostrando no es una bala mágica. En realidad, no se reduce el número de sujetos a largo plazo haciendo esto porque la potencia para la simulación de N variada es casi la misma que para una simulación de N promedio )

Nada de lo anterior contradice la literatura reciente sobre agregar sujetos después de que comenzó un experimento. En esos estudios, observaron simulaciones en las que agregó sujetos después de hacer una prueba de hipótesis para reducir el valor p. Eso sigue siendo malo y puede inflar extraordinariamente alfa. Además, me gustan mucho las respuestas de enero y Peter Flom. Solo quería señalar que mirar los datos mientras los está recolectando, e incluso cambiar un N planeado mientras se recolecta, no son necesariamente cosas malas.

— John
fuente

Ninguna de estas cosas está 'bien' en el sentido de no afectar la distribución de muestreo de las estadísticas de su prueba. Por supuesto, respuestas perfectamente sensatas a las sorpresas (véase la respuesta de @Peter), pero diluyen un poco la naturaleza confirmatoria de su experimento, aumentando los "grados de libertad del investigador". Precisamente para evitar sorpresas, hacemos estudios piloto para arreglar el protocolo y definimos las reglas de detención de antemano, tomándolas en cuenta en el análisis. El objetivo es un procedimiento bien definido que se puede replicar independientemente para demostrar la validez de sus resultados.

— Scortchi - Restablece a Monica

Puede sentirse libre de ejecutar las simulaciones usted mismo, pero tener una regla de detención basada en la varianza (por encima de un mínimo razonable N) no tendrá impacto en alfa y generará una potencia esperada. Incluso puede tener una regla de detención basada en SE y obtener SE consistentes y estos no afectarán alfa o beta. Simplemente no puede tener una pregla de detención basada. Todas las críticas de modificar N son sobre hacerlo después de una prueba de hipótesis (también debería haber otras cosas incluidas). Existe el potencial de que esto cause tentación ... pero lo estoy ignorando.

— John

En cuanto a la distribución del tiempo de reacción, ¿sugiere que es mejor elegir un punto de corte fijo basado en un piloto en lugar de averiguar cuándo cada sujeto está adivinando en función de la regresión logística y usar su propio punto de corte? (por supuesto, el punto de corte de precisión es fijo, pero no el tiempo de reacción).

— John

(1) Regla de detención basada en la varianza: afecta la estimación de la varianza y, por lo tanto, puede afectar las tasas de error cuando el experimento se analiza como si el tamaño de la muestra se hubiera fijado de antemano. Hay una tensión entre la advertencia de "más allá de un mínimo razonable N" dada en su comentario y los "tamaños de muestra pequeños" mencionados en su respuesta; sin duda tiene el nous estadístico para saber qué aproximaciones son lo suficientemente buenas cuando, pero no todos lo hacen. En términos más generales, un enfoque impecable es definir claramente la regla de detención antes del experimento.

— Scortchi - Restablece a Monica

(2) Distribución del tiempo de reacción: No (aunque es cierto que tenía algo así en mente); Estaba sugiriendo que cualquiera que sea el método utilizado para eliminar observaciones poco confiables, se desarrollaría mejor a partir de un estudio piloto y luego se aplicaría en un experimento confirmatorio.

— Scortchi - Restablece a Monica

0

Este es realmente un problema cultural de pensamiento desequilibrado, donde el sesgo de publicación conduce a favorecer resultados positivos y nuestra naturaleza competitiva requiere que se vea a editores e investigadores que producen resultados de interés que son novedosos o contenciosos, por ejemplo, en el sentido de refutar los resultados de otra persona. En la investigación médica, se han hecho progresos considerables para corregir este problema mediante el registro obligatorio de ensayos y la publicación de resultados con registros de ensayos abandonados que también se harán públicos. Entiendo que, dado que la publicación en revistas de investigación no exitosa puede no ser factible, hay planes para mantener una base de datos públicamente disponible. Los resultados inusuales que no se pueden replicar no son necesariamente el resultado de un delito menor, como quizás con 50,

Usar diferentes métodos tampoco es necesariamente una solución. Por ejemplo, ¿qué químico mezclaría los reactivos de diferentes maneras en diferentes condiciones y esperaría los mismos resultados de manera normal?

— Robert Jones
fuente