¿Es realmente así como funcionan los valores p? ¿Se puede basar un millón de trabajos de investigación por año en pura aleatoriedad?

98

Soy muy nuevo en las estadísticas y estoy aprendiendo a comprender los conceptos básicos, incluidos los valores . Pero hay un gran signo de interrogación en mi mente en este momento, y espero que mi comprensión sea incorrecta. Aquí está mi proceso de pensamiento: $p$

¿No son todas las investigaciones en todo el mundo algo así como los monos en el "teorema del mono infinito"? Considere que hay 23887 universidades en el mundo. Si cada universidad tiene 1000 estudiantes, son 23 millones de estudiantes cada año.

Digamos que cada año, cada estudiante realiza al menos una investigación, utilizando pruebas de hipótesis con . $\alpha=0.05$

¿No significa eso que incluso si todas las muestras de investigación se obtuvieran de una población aleatoria, alrededor del 5% de ellas "rechazarían la hipótesis nula como inválida"? Guau. Piénsalo. Eso es alrededor de un millón de trabajos de investigación por año que se publican debido a resultados "significativos".

Si así es como funciona, da miedo. Significa que gran parte de la "verdad científica" que damos por sentado se basa en pura aleatoriedad.

Un simple fragmento de código R parece apoyar mi comprensión:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Lo mismo ocurre con este artículo sobre el éxito -Pesca: Me deje engañar a millones a la Pensando chocolate ayuda a perder peso. He aquí cómo . $p$

¿Es esto realmente todo lo que hay que hacer? ¿Es así como se supone que funciona la "ciencia"?

hypothesis-testing statistical-significance p-value

— n_mu_sigma
fuente

31

El verdadero problema es potencialmente mucho peor que multiplicar el número de nulos verdaderos por el nivel de significación, debido a la presión para encontrar significación (si una revista importante no publicará resultados no significativos, o un árbitro rechazará un documento que no tienen resultados significativos, hay presión para encontrar una manera de lograr importancia ... y vemos expediciones de 'búsqueda de importancia' en muchas preguntas aquí); Esto puede conducir a verdaderos niveles de significación que son mucho más altos de lo que parecen ser.

— Glen_b

55

Por otro lado, muchas hipótesis nulas son puntos nulos, y rara vez son realmente ciertas.

— Glen_b

37

No combine el método científico con los valores p. Entre otras cosas, la ciencia insiste en la reproducibilidad . Así es como los artículos sobre, por ejemplo, la fusión en frío podrían publicarse (en 1989), pero la fusión en frío no ha existido como una teoría científica sostenible durante el último cuarto de siglo. Tenga en cuenta también que pocos científicos están interesados en trabajar en áreas donde la hipótesis nula relevante es verdadera . Por lo tanto, su hipótesis de que "todas las muestras de investigación fueron extraídas de [una] población aleatoria" no refleja nada realista.

— whuber

13

Referencia obligatoria a la caricatura de gominolas xkcd . Respuesta corta: desafortunadamente, esto sucede con demasiada frecuencia, y algunas revistas ahora insisten en que un estadístico revise cada publicación para reducir la cantidad de investigación "significativa" que se abre paso en el dominio público. Muchas respuestas y comentarios relevantes en esta discusión anterior

— Floris

8

Quizás no entiendo la queja ... "Derrotamos con éxito el 95% de las hipótesis falsas. El 5% restante no fue tan fácil de vencer debido a las fluctuaciones aleatorias que parecen efectos significativos. Deberíamos mirarlos más de cerca e ignorar el otro 95% ". Esto suena exactamente como el tipo correcto de comportamiento para algo como "ciencia".

— Eric Towers

70

Esto es ciertamente una preocupación válida, pero no es del todo correcto.

Si se realizan 1,000,000 de estudios y todas las hipótesis nulas son verdaderas , aproximadamente 50,000 tendrán resultados significativos en p <0.05. Eso es lo que significa valor p. Sin embargo, lo nulo esencialmente nunca es estrictamente cierto. Pero incluso si lo aflojamos a "casi cierto" o "sobre lo correcto" o algo así, eso significaría que los 1,000,000 de estudios tendrían que ser sobre cosas como

La relación entre el número de seguro social y el coeficiente intelectual
¿La longitud de los dedos de los pies está relacionada con el estado de su nacimiento?

y así. Disparates.

Un problema es, por supuesto, que no sabemos qué valores nulos son ciertos. Otro problema es el que @Glen_b mencionó en su comentario: el problema del cajón de archivos.

Es por eso que me gustan tanto las ideas de Robert Abelson que él presenta en Estadísticas como argumento basado en principios . Es decir, la evidencia estadística debe ser parte de un argumento basado en principios de por qué algo es así y debe juzgarse según los criterios MÁGICOS:

Magnitud: ¿Qué tan grande es el efecto?
Articulación: ¿Está lleno de "si", "ands" y "peros" (eso es malo)
Generalidad: ¿en qué medida se aplica?
Interés
Credibilidad: los reclamos increíbles requieren mucha evidencia

— Peter Flom
fuente

44

¿Podría uno decir "si se realizan estudios 1M e incluso si todas las hipótesis nulas son verdaderas, entonces aproximadamente 50,000 realizarán un error tipo 1 y rechazarán incorrectamente la hipótesis nula? Si un investigador obtiene p <0.05, solo sabe que" h0 es correcto y ha ocurrido un evento raro O h1 es incorrecto ". No hay forma de saber cuál es solo mirando los resultados de este estudio, ¿no es así?

— n_mu_sigma

55

Solo puede obtener un falso positivo si el positivo es, de hecho, falso. Si eligió 40 IV que eran todo ruido, entonces tendría una buena posibilidad de un error tipo I. Pero generalmente elegimos IVs por una razón. Y el nulo es falso. No puede cometer un error de tipo I si el valor nulo es falso.

— Peter Flom

66

No entiendo su segundo párrafo, incluidos los puntos, en absoluto. Digamos, en aras de la discusión, que 1 millón de estudios estaban probando compuestos de medicamentos para curar una afección específica. La hipótesis nula para cada uno de estos estudios es que el medicamento no cura la afección. Entonces, ¿por qué debe ser "esencialmente nunca estrictamente cierto"? Además, ¿por qué dice que todos los estudios tendrían que ser sobre relaciones sin sentido, como ss # e IQ? Gracias por cualquier explicación adicional que pueda ayudarme a entender su punto.

— Chelonian

11

Para concretar los ejemplos de @ PeterFlom: los primeros tres dígitos de un SSN (solían) codificar el código postal del solicitante. Dado que los estados individuales tienen datos demográficos algo diferentes y el tamaño de los dedos puede estar correlacionado con algunos factores demográficos (edad, raza, etc.), es casi seguro que existe una relación entre el número de seguro social y el tamaño de los dedos, si uno tiene suficientes datos.

— Matt Krause

66

@MattKrause buen ejemplo. Prefiero el recuento de dedos por género. Estoy seguro de que si hiciera un censo de todos los hombres y todas las mujeres, encontraría que un género tiene más dedos en promedio que el otro. Sin tomar una muestra extremadamente grande, no tengo idea de qué género tiene más dedos. Además, dudo que, como fabricante de guantes, use los datos del censo digital en el diseño de guantes.

— emory

40

¿No son todas las investigaciones en todo el mundo algo así como los monos del "teorema del mono infinito"?

Recuerde, los científicos NO son críticamente como monos infinitos, porque su comportamiento de investigación, particularmente la experimentación, es cualquier cosa menos aleatorio. Los experimentos son (al menos se supone que son) manipulaciones y mediciones increíblemente cuidadosamente controladas que se basan en hipótesis informadas mecánicamente que se basan en una gran cantidad de investigaciones previas. No son solo tomas aleatorias en la oscuridad (o dedos de mono en máquinas de escribir).

Considere que hay 23887 universidades en el mundo. Si cada universidad tiene 1000 estudiantes, son 23 millones de estudiantes cada año. Digamos que cada año, cada estudiante hace al menos una investigación,

Esa estimación del número de hallazgos de investigación publicados tiene que estar muy lejos. No sé si hay 23 millones de "estudiantes universitarios" (¿eso solo incluye universidades o colegios también?) En el mundo, pero sé que la gran mayoría de ellos nunca publica ningún hallazgo científico. Quiero decir, la mayoría de ellos no son estudiantes de ciencias, e incluso la mayoría de los estudiantes de ciencias nunca publican resultados.

Una estimación más probable (algunos discusión ) para el número de publicaciones científicas cada año es de aproximadamente 1-2 millones.

¿No significa eso que incluso si todas las muestras de investigación fueran extraídas de una población aleatoria, alrededor del 5% de ellas "rechazarían la hipótesis nula como inválida"? Guau. Piensa en eso. Eso es alrededor de un millón de trabajos de investigación por año que se publican debido a resultados "significativos".

Tenga en cuenta que no todas las investigaciones publicadas tienen estadísticas donde la significación es correcta en el valor p = 0.05. A menudo se ven valores de p como p <0.01 o incluso p <0.001. No sé cuál es el valor p "medio" de más de un millón de documentos, por supuesto.

Si así es como funciona, da miedo. Significa que gran parte de la "verdad científica" que damos por sentado se basa en pura aleatoriedad.

También tenga en cuenta que los científicos son que no se supone que los tomen una pequeña cantidad de resultados en p alrededor de 0.05 como "verdad científica". Ni siquiera cerca. Se supone que los científicos deben integrarse en muchos estudios, cada uno de los cuales tiene un poder estadístico apropiado, mecanismo plausible, reproducibilidad, magnitud del efecto, etc., e incorporarlo en un modelo tentativo de cómo funciona algún fenómeno.

Pero, ¿significa esto que casi toda la ciencia es correcta? De ninguna manera. Los científicos son humanos y son víctimas de los prejuicios, la mala metodología de investigación (incluidos los enfoques estadísticos inadecuados), el fraude, el simple error humano y la mala suerte. Probablemente más dominante en por qué una porción saludable de la ciencia publicada está equivocada son estos factores en lugar de la convención p <0.05. De hecho, pasemos directamente al grano y hagamos una declaración aún más "aterradora" que la que usted ha presentado:

Por qué los hallazgos de investigación más publicados son falsos

— Queloniano
fuente

10

Diría que Ioannidis está haciendo un argumento riguroso que respalda la pregunta. La ciencia no se hace nada así como los optimistas que responden aquí parecen pensar. Y muchas investigaciones publicadas nunca se replican. Además, cuando se intenta la replicación, los resultados tienden a respaldar el argumento de Ioannidis de que gran parte de la ciencia publicada es básicamente una locura.

— matt_black

99

Puede ser interesante que en física de partículas nuestro umbral de valor p para reclamar un descubrimiento sea 0.00000057.

— David Z

2

Y en muchos casos, no hay valores de p en absoluto. Las matemáticas y la física teórica son casos comunes.

— Davidmh

21

$p$

$\alpha$

Vea, por ejemplo, esta discusión reciente de un artículo de 2014 de David Colquhoun: Confusión con tasa de descubrimiento falso y pruebas múltiples (en Colquhoun 2014) . He estado argumentando en contra de esta estimación de "al menos 30%", pero estoy de acuerdo en que en algunos campos de investigación la tasa de falsos descubrimientos puede ser mucho más alta que 5%. Esto es realmente preocupante.

No creo que decir que nulo casi nunca sea cierto ayuda aquí; Los errores de tipo S y tipo M (según lo introducido por Andrew Gelman) no son mucho mejores que los errores de tipo I / II.

Creo que lo que realmente significa es que uno nunca debe confiar en un resultado "significativo" aislado.

$\alpha\approx 10^{-7}$ $\alpha=0.05$

$p<0.05$ $p$

$p<0.05$

— ameba
fuente

Re "valores de p acumulativos": ¿Puedes multiplicar los valores de p individuales o necesitas hacer una combinatoria monstruosa para que funcione?

— Kevin

@Kevin: se pueden multiplicar los valores

individuales , pero se necesita adaptar el umbral de significancia

. Piensa en 10

aleatorios

p

$p$

α

$\alpha$

p

$p$ valores distribuidos uniformemente en [0,1] (es decir, generados bajo hipótesis nula); su producto probablemente estará por debajo de 0.05, pero sería una tontería rechazar el valor nulo. Busque el método de Fisher para combinar valores p; Hay muchos hilos al respecto aquí en CrossValidated también.

— ameba

17

Su preocupación es exactamente la preocupación que subyace en gran parte de la discusión actual en la ciencia sobre la reproducibilidad. Sin embargo, el verdadero estado de cosas es un poco más complicado de lo que sugiere.

Primero, establezcamos alguna terminología. La prueba de significancia de hipótesis nula puede entenderse como un problema de detección de señal: la hipótesis nula es verdadera o falsa, y puede elegir rechazarla o retenerla. La combinación de dos decisiones y dos posibles estados de cosas "verdaderos" da como resultado la siguiente tabla, que la mayoría de las personas ve en algún momento cuando aprenden estadísticas por primera vez:

ingrese la descripción de la imagen aquí

Los científicos que usan pruebas de significación de hipótesis nulas intentan maximizar el número de decisiones correctas (que se muestran en azul) y minimizar el número de decisiones incorrectas (que se muestran en rojo). Los científicos que trabajan también están tratando de publicar sus resultados para que puedan obtener empleos y avanzar en sus carreras.

$H_0$

El sesgo de publicación

$\alpha$ no depende de si el resultado es significativo (véase, por ejemplo, Stern & Simes, 1997 ; . Dwan y otros, 2008 ), ya sea porque los científicos sólo presentan resultados significativos para su publicación (el llamado problema del archivador de archivos; Rosenthal, 1979 ) o porque los resultados no significativos se envían para su publicación pero no se hacen a través de una revisión por pares.

La cuestión general de la probabilidad de publicación depende de la observada $p$ valor es lo que se entiende por sesgo de publicación . Si damos un paso atrás y pensamos en las implicaciones del sesgo de publicación para una literatura de investigación más amplia, una literatura de investigación afectada por el sesgo de publicación aún contendrá resultados verdaderos , a veces la hipótesis nula de que un científico afirma ser falso realmente será falsa, y, dependiendo del grado de sesgo de publicación, a veces un científico afirmará correctamente que una hipótesis nula dada es verdadera. Sin embargo, la literatura de investigación también estará abarrotada por una proporción demasiado grande de falsos positivos (es decir, estudios en los que el investigador afirma que la hipótesis nula es falsa cuando realmente es verdad).

Investigador grados de libertad

$\alpha$ $\alpha$ . Dada la presencia de un número suficientemente grande de prácticas de investigación cuestionables, la tasa de falsos positivos puede llegar a 0,60 incluso si la tasa nominal se estableció en 0,05 ( Simmons, Nelson y Simonsohn, 2011 ).

Es importante tener en cuenta que el uso indebido de los grados de libertad del investigador (que a veces se conoce como una práctica de investigación cuestionable; Martinson, Anderson y de Vries, 2005 ) no es lo mismo que inventar datos. En algunos casos, excluir los valores atípicos es lo correcto, ya sea porque el equipo falla o por alguna otra razón. La cuestión clave es que, en presencia de los grados de libertad del investigador, las decisiones tomadas durante el análisis a menudo dependen de cómo resultan los datos ( Gelman y Loken, 2014), incluso si los investigadores en cuestión no son conscientes de este hecho. Mientras los investigadores usen los grados de libertad del investigador (consciente o inconscientemente) para aumentar la probabilidad de un resultado significativo (quizás porque los resultados significativos son más "publicables"), la presencia de grados de libertad del investigador sobrepoblará una literatura de investigación con falsos positivos en de la misma manera que el sesgo de publicación.

Una advertencia importante a la discusión anterior es que los artículos científicos (al menos en psicología, que es mi campo) rara vez consisten en resultados únicos. Más comunes son los estudios múltiples, cada uno de los cuales involucra múltiples pruebas: el énfasis está en construir un argumento más amplio y descartar explicaciones alternativas para la evidencia presentada. Sin embargo, la presentación selectiva de resultados (o la presencia de grados de libertad del investigador) puede producir sesgos en un conjunto de resultados tan fácilmente como un solo resultado. Existe evidencia de que los resultados presentados en documentos de estudios múltiples a menudo son mucho más limpios y fuertes de lo que cabría esperar, incluso si todas las predicciones de estos estudios fueran ciertas ( Francis, 2013 ).

Conclusión

Fundamentalmente, estoy de acuerdo con su intuición de que las pruebas de significación de hipótesis nulas pueden salir mal. Sin embargo, diría que los verdaderos culpables que producen una alta tasa de falsos positivos son procesos como el sesgo de publicación y la presencia de grados de libertad de los investigadores. De hecho, muchos científicos son conscientes de estos problemas, y mejorar la reproducibilidad científica es un tema de debate actual muy activo (por ejemplo, Nosek y Bar-Anan, 2012 ; Nosek, Spies y Motyl, 2012 ). Entonces, está en buena compañía con sus preocupaciones, pero también creo que también hay razones para un optimismo cauteloso.

Referencias

Stern, JM y Simes, RJ (1997). Sesgo de publicación: evidencia de publicación tardía en un estudio de cohorte de proyectos de investigación clínica. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Dwan, K., Altman, DG, Arnaiz, JA, Bloom, J., Chan, A., Cronin, E., ... Williamson, PR (2008). Revisión sistemática de la evidencia empírica del sesgo de publicación del estudio y el sesgo de informe de resultados. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). El problema del cajón de archivos y la tolerancia para resultados nulos. Boletín psicológico, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS y De Vries, R. (2005). Los científicos se portan mal. Nature, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A. y Loken, E. (2014). La crisis estadística en la ciencia. Científico estadounidense, 102, 460-465.

Francis, G. (2013). Replicación, consistencia estadística y sesgo de publicación. Revista de psicología matemática, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA y Bar-Anan, Y. (2012). Utopía científica: I. Apertura de la comunicación científica. Consulta psicológica, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR y Motyl, M. (2012). Utopía científica: II. Reestructuración de incentivos y prácticas para promover la verdad sobre la publicabilidad. Perspectivas sobre la ciencia psicológica, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058

— Patrick S. Forscher
fuente

1

+1. Bonita colección de enlaces. Aquí hay un artículo muy relevante para su sección "Investigador de los grados de libertad": El jardín de los caminos de bifurcación: ¿Por qué las comparaciones múltiples pueden ser un problema, incluso cuando no hay "expedición de pesca" o "piratería" y la hipótesis de la investigación fue postulado de antemano por Andrew Gelman y Eric Loken (2013).

— ameba

Gracias, @amoeba, por esa interesante referencia. Me gusta especialmente el punto de que Gelman y Loken (2013) afirman que capitalizar los grados de libertad de los investigadores no tiene por qué ser un proceso consciente. He editado mi respuesta para incluir ese documento.

— Patrick S. Forscher

Acabo de encontrar la versión publicada de Gelman & Loken (2014) en American Scientist.

— Patrick S. Forscher

10

Una verificación sustancial sobre el importante tema planteado en esta pregunta es que la "verdad científica" no se basa en publicaciones individuales aisladas. Si un resultado es suficientemente interesante, incitará a otros científicos a buscar las implicaciones del resultado. Ese trabajo tenderá a confirmar o refutar el hallazgo original. Puede haber una probabilidad de 1/20 de rechazar una hipótesis nula verdadera en un estudio individual, pero solo 1/400 de hacerlo dos veces seguidas.

Si los científicos simplemente repiten los experimentos hasta que encuentran "importancia" y luego publican sus resultados, el problema podría ser tan grande como sugiere el OP. Pero no es así como funciona la ciencia, al menos en mis casi 50 años de experiencia en investigación biomédica. Además, una publicación rara vez trata sobre un solo experimento "significativo", sino que se basa en un conjunto de experimentos relacionados entre sí (cada uno debe ser "significativo" por sí solo) que en conjunto brindan apoyo para una hipótesis más amplia y sustantiva.

Un problema mucho mayor proviene de científicos que están demasiado comprometidos con sus propias hipótesis. Luego pueden interpretar en exceso las implicaciones de los experimentos individuales para respaldar sus hipótesis, participar en la edición de datos dudosos (como eliminar arbitrariamente los valores atípicos) o (como he visto y ayudado a atrapar) simplemente inventar los datos.

La ciencia, sin embargo, es un proceso altamente social, independientemente de la mitología sobre los científicos locos que se esconden en las torres de marfil. El toma y daca entre miles de científicos que persiguen sus intereses, en base a lo que han aprendido del trabajo de otros, es la máxima protección institucional contra los falsos positivos. Los resultados falsos a veces pueden perpetuarse durante años, pero si un problema es lo suficientemente importante, el proceso eventualmente identificará las conclusiones erróneas.

— EdM
fuente

66

1 / 4000

$1/4000$

40

$40$

2

De los 23 millones de estudios, aún no pudimos saber si 5.000 resultados rechazan la hipótesis nula solo debido al ruido, ¿podríamos? Realmente también es un problema de escala. Una vez que tenga millones de investigaciones, el error tipo 1 será común.

— n_mu_sigma

3

Si hubiera solo 5000 conclusiones erróneas de 23,000,000 de estudios, ¡lo llamaría poco común !

— whuber

3

En casi 50 años haciendo ciencia y conociendo a otros científicos, no puedo pensar en ninguno que repitiera experimentos hasta que lograran "importancia". La posibilidad teórica planteada por @whuber no es, en mi experiencia, un gran problema práctico. El problema práctico mucho más grande es inventar datos, ya sea indirectamente desechando "valores atípicos" que no se ajustan a una preconcepción, o simplemente inventando "datos" para comenzar. Esos comportamientos que he visto de primera mano, y no se pueden solucionar ajustando los valores p .

— EdM

3

@EdM "Puede haber una probabilidad de 1/20 de rechazar una hipótesis nula verdadera en un estudio individual, pero solo 1/4000 de hacerlo dos veces seguidas". ¿Cómo conseguiste el segundo número?

— Aksakal

5

Solo para agregar a la discusión, aquí hay una publicación interesante y una discusión posterior sobre cómo las personas comúnmente malinterpretan el valor p.

Lo que debe mantenerse en cualquier caso es que un valor p es solo una medida de la fuerza de la evidencia para rechazar una hipótesis dada. Un valor p definitivamente no es un umbral duro por debajo del cual algo es "verdadero" y por encima del cual solo se debe al azar. Como se explica en la publicación mencionada anteriormente:

Los resultados son una combinación de efectos reales y posibilidad, no es ni

— Antoine
fuente

tal vez esto contribuirá a la comprensión de los valores p: stats.stackexchange.com/questions/166323/…

4

Como también se señaló en las otras respuestas, esto solo causará problemas si va a considerar selectivamente los resultados positivos donde se descarta la hipótesis nula. Esta es la razón por la cual los científicos escriben artículos de revisión en los que consideran los resultados de investigaciones publicados anteriormente y tratan de desarrollar una mejor comprensión del tema en función de eso. Sin embargo, sigue existiendo un problema, que se debe al llamado "sesgo de publicación", es decir, es más probable que los científicos escriban un artículo sobre un resultado positivo que sobre un resultado negativo, también un documento sobre un resultado negativo es más probabilidades de ser rechazado para su publicación que un documento sobre un resultado positivo.

Especialmente en los campos donde las pruebas estadísticas son muy importantes, si esto es un gran problema, el campo de la medicina es un ejemplo notorio. Es por esto que se hizo obligatorio registrar los ensayos clínicos antes de que se realicen (por ejemplo, aquí ). Por lo tanto, debe explicar la configuración, cómo se realizará el análisis estadístico, etc., etc., antes de que comience el ensayo. Las principales revistas médicas se negarán a publicar artículos si los ensayos que informan no se registraron.

Desafortunadamente, a pesar de esta medida, el sistema no funciona tan bien .

— Conde iblis
fuente

tal vez esto contribuirá a la comprensión de los valores p: stats.stackexchange.com/questions/166323/…

3

Esto está cerca de un hecho muy importante sobre el método científico: enfatiza la falsabilidad. La filosofía de la ciencia que es más popular hoy en día tiene el concepto de falsabilidad de Karl Popper. como piedra angular.

El proceso científico básico es así:

Cualquiera puede reclamar cualquier teoría que desee, en cualquier momento. La ciencia admitirá cualquier teoría que sea "falsificable". El sentido más literal de esa palabra es que, si a alguien más no le gusta el reclamo, esa persona es libre de gastar los recursos para refutar el reclamo. Si no crees que los calcetines de argyle curan el cáncer, puedes usar tu propia sala médica para refutarlo.
Debido a que esta barra de entrada es monumentalmente baja, es tradicional que la "Ciencia" como grupo cultural realmente no entretenga ninguna idea hasta que haya hecho un "buen esfuerzo" para falsificar su propia teoría.
La aceptación de ideas tiende a ir en etapas. Puede incluir su concepto en un artículo de revista con un estudio y un valor p bastante bajo. Lo que sí te compra es publicidad y cierta credibilidad. Si alguien está interesado en su idea, como si su ciencia tiene aplicaciones de ingeniería, es posible que desee utilizarla. En ese momento, es más probable que financien una ronda adicional de falsificación.
Este proceso avanza, siempre con la misma actitud: cree lo que quieras, pero para llamarlo ciencia, necesito poder refutarlo más tarde.

Esta barra baja de entrada es lo que le permite ser tan innovador. Entonces, sí, hay una gran cantidad de artículos de revistas teóricamente "equivocados". Sin embargo, la clave es que cada artículo publicado es en teoría falsificable, por lo que en cualquier momento, alguien podría gastar el dinero para probarlo.

Esta es la clave: los diarios contienen no solo cosas que pasan una prueba p razonable, sino que también contienen las claves para que otros la desmantelen si los resultados resultan ser falsos.

— Cort Ammon
fuente

1

Esto es muy idealista. A algunas personas les preocupa que demasiados documentos incorrectos puedan crear una relación señal / ruido demasiado baja en la literatura y ralentizar o desviar seriamente el proceso científico.

— ameba

1

@amoeba Sacas un buen punto. Ciertamente quería capturar el caso ideal porque encuentro que a menudo se pierde en el ruido. Más allá de eso, creo que la cuestión de SNR en la literatura es una pregunta válida, pero al menos es una que debería ser equilibrable. Ya hay conceptos de buenas publicaciones vs malas publicaciones, por lo que hay algunos indicios de que ese acto de equilibrio ha estado en marcha durante algún tiempo.

— Cort Ammon

Esta comprensión de la filosofía de la ciencia parece estar varias décadas desactualizada. La falsabilidad popperiana es solo "popular" en el sentido de ser un mito urbano común sobre cómo sucede la ciencia.

— EnergyNumbers

@EnergyNumbers ¿Podrías iluminarme sobre la nueva forma de pensar? La filosofía SE tiene una opinión muy diferente a la suya. Si nos fijamos en el historial de preguntas allí, la falsabilidad popperiana es la característica definitoria de la ciencia para la mayoría de los que hablaron en voz alta. ¡Me encantaría aprender una nueva forma de pensar y traerla allí!

— Cort Ammon

¿Nuevo? Kuhn refutó a Popper hace décadas. Si no tiene una publicación Popperian en filosofía.se, actualizarla parece ser una causa perdida, simplemente déjelo en la década de 1950. Si desea actualizarse, cualquier manual de pregrado del siglo XXI sobre filosofía de la ciencia debería ayudarlo a comenzar.

— EnergyNumbers

1

¿Es así como se supone que funciona la "ciencia"?

Así es como funcionan muchas ciencias sociales. No tanto con las ciencias físicas. Piensa en esto: escribiste tu pregunta en una computadora. Las personas pudieron construir estas complicadas bestias llamadas computadoras usando el conocimiento de la física, la química y otros campos de las ciencias físicas. Si la situación fuera tan mala como la describe, ninguno de los componentes electrónicos funcionaría. O piense en cosas como la masa de un electrón, que se conoce con una precisión increíble. Pasan a través de miles de millones de puertas lógicas en una computadora durante un over, y su computadora aún funciona y funciona durante años.

ACTUALIZACIÓN: Para responder a los votos negativos que recibí, me sentí inspirado para darle un par de ejemplos.

El primero es de física: Bystritsky, VM, et al. " Medición de los factores astrofísicos S y las secciones transversales de la reacción p (d, γ) 3He en la región de energía ultrabaja utilizando un objetivo de deuteruro de circonio ". Physics of Particles and Nuclei Letters 10.7 (2013): 717-722.

$0.237 \pm 0.061$

Mi próximo ejemplo es de ... psicología: Paustian-Underdahl, Samantha C., Lisa Slattery Walker y David J. Woehr. " Género y percepciones de la efectividad del liderazgo: un metaanálisis de moderadores contextuales ". Revista de Psicología Aplicada, 2014, vol. 99, núm. 6, 1129-1145.

$\chi^2$

Ahora, mire algunas tablas de los papeles y adivine de qué papeles son:

ingrese la descripción de la imagen aquí

Esa es la respuesta por qué en un caso necesita estadísticas "geniales" y en otro no: porque los datos son malos o no. Cuando tiene buenos datos, no necesita muchas estadísticas más allá de los errores estándar.

ACTUALIZACIÓN2: @ PatrickS.Forscher hizo una declaración interesante en el comentario:

También es cierto que las teorías de las ciencias sociales son "más suaves" (menos formales) que las teorías de la física.

Debo estar en desacuerdo. En economía y finanzas las teorías no son "blandas" en absoluto. Puede buscar aleatoriamente un documento en estos campos y obtener algo como esto:

ingrese la descripción de la imagen aquí

y así.

Es de Schervish, Mark J., Teddy Seidenfeld y Joseph B. Kadane. " Extensiones de la teoría de la utilidad esperada y algunas limitaciones de las comparaciones por pares ". (2003) ¿Te parece suave?

Estoy reiterando mi punto aquí de que cuando sus teorías no son buenas y los datos son malos, puede usar las matemáticas más difíciles y aún así obtener un resultado malo.

En este artículo, hablan de servicios públicos, el concepto de felicidad y satisfacción, absolutamente inobservable. Es como lo que es una utilidad de tener una casa frente a comer una hamburguesa con queso? Presumiblemente existe esta función, donde puede conectar "comer hamburguesa con queso" o "vivir en su propia casa" y la función escupirá la respuesta en algunas unidades. Tan loco como suena, esto es en lo que se basa la tecnología moderna, gracias a von Neuman.

— Aksakal
fuente

1

+1 No estoy seguro de por qué esto fue rechazado dos veces. Básicamente estás señalando que los descubrimientos en física pueden ser probados con experimentos, y la mayoría de los "descubrimientos" en las ciencias sociales no pueden serlo, lo que no impide que reciban mucha atención de los medios.

— Flounderer

66

La mayoría de los experimentos en última instancia implican algún tipo de prueba estadística y aún dejan espacio para errores tipo 1 y comportamientos erróneos como la pesca con valor p. Creo que señalar las ciencias sociales está un poco fuera de lugar.

— Kenji

44

Para enmendar un poco lo que @GuilhermeKenjiChihaya está diciendo, la desviación estándar de los errores podría presumiblemente usarse para realizar una prueba estadística en experimentos físicos. Presumiblemente, esta prueba estadística llegaría a la misma conclusión a la que llegan los autores al ver el gráfico con sus barras de error. La principal diferencia con los documentos de física, entonces, es la cantidad subyacente de ruido en el experimento, una diferencia que es independiente de si La lógica subyacente al uso de valores p es válida o no válida.

— Patrick S. Forscher

3

Además, @Flounderer, parece que estás usando el término "experimento" en un sentido con el que no estoy familiarizado, ya que los científicos sociales hacen "experimentos" (es decir, aleatorización de unidades a condiciones) todo el tiempo. Es cierto que los experimentos de ciencias sociales son difíciles de controlar en el mismo grado que los experimentos de física. También es cierto que las teorías de las ciencias sociales son "más suaves" (menos formales) que las teorías de la física. Pero estos factores son independientes de si un estudio dado es un "experimento".

— Patrick S. Forscher

2

@Aksakal, aunque no estoy de acuerdo con los -1, también estoy en parte en desacuerdo con tu crítico de ciencias sociales. Su ejemplo de trabajo económico tampoco es un buen ejemplo de lo que los científicos sociales hacen a diario porque la teoría de la utilidad es un concepto estrictamente económico / matemático / estadístico (por lo que ya tiene matemáticas) y no se parece, por ejemplo, a las teorías psicológicas que se prueban experimentalmente ... Sin embargo, estoy de acuerdo en que a menudo las estadísticas se usan libremente en muchas áreas de investigación, incluidas las ciencias sociales.

— Tim