Elegir una prueba estadística basada en el resultado de otra (por ejemplo, normalidad)

Así que he oído decir que no es una buena idea elegir una prueba estadística basada en el resultado de otra. Sin embargo, esto me parece extraño. Por ejemplo, las personas a menudo eligen usar una prueba no paramétrica cuando alguna otra prueba sugiere que los residuos no se distribuyen normalmente. Este enfoque parece bastante aceptado pero no parece estar de acuerdo con la primera oración de este párrafo. Solo esperaba obtener aclaraciones sobre este tema.

hypothesis-testing

— Jimj
fuente

El hecho de que los residuos no sean gaussianos no significa que necesite pruebas no paramétricas. Por lo general, puede discernir el tipo de modelo a usar (sí, modelo, no prueba) de la naturaleza de los datos (recuento, 0 1 datos, continuo, relación de varianza media, relación lineal o no lineal, etc.) y ajustar los modelos en consecuencia para cumplir con las características de los datos habiendo decidido previamente cuál era la hipótesis a ser probada. Una vez que sienta que el ajuste cumple con los supuestos del modelo ajustado, entonces puede evaluar el valor p y otras estadísticas,

— Restablecer Monica - G. Simpson

Respuestas:

Dado que es la probabilidad de observar datos de este extremo o más extremo si es verdadero, entonces, ¿cuál es la interpretación de donde se llega a a través de un proceso donde se tomó una decisión contingente en la selección de la prueba que producido ese ? La respuesta es incognoscible (o al menos casi incognoscible). Al tomar la decisión de ejecutar la prueba o no sobre la base de algún otro proceso probabilístico, ha hecho que la interpretación de su resultado sea aún más complicada. $p$ $H_0$ $p$ $p$ $p$ $p$ los valores son máximamente interpretables cuando el tamaño de la muestra y el plan de análisis se seleccionaron por completo por adelantado. En otras situaciones, las interpretaciones se vuelven difíciles, por eso "no es una buena idea". Dicho esto, es una práctica ampliamente aceptada ... después de todo, ¿por qué incluso molestarse en realizar una prueba si descubre que la prueba que había planeado ejecutar no era válida? La respuesta a esa pregunta es mucho menos segura. Todo esto se reduce al simple hecho de que la prueba de significación de hipótesis nula (el caso de uso primario de ) tiene algunos problemas que son difíciles de superar. $p$

— russellpierce
fuente

No pude encontrar ningún artículo sobre este fenómeno en Google, posiblemente porque utilicé los términos de búsqueda incorrectos. ¿Alguien podría señalarme en la dirección de un artículo que discute el problema de las pruebas basadas en pruebas?

— Rob Hall

@RobHall: Esta es una instancia específica de "La importancia de los problemas hipotéticos para los datos imaginarios". Cf. Wagenmakers, 2007, p. 784. Wagenmakers se basa específicamente en el tema de las transformaciones en la segunda columna que indica "para calcular el valor de p, necesita saber qué hubiera hecho si los datos hubieran sido diferentes ... esto incluye lo que habría hecho si los datos claramente se había distribuido de manera no normal ..., los valores de p solo se pueden calcular una vez que el plan de muestreo es completamente conocido y especificado de antemano ".

— russellpierce

Por ejemplo, las personas a menudo eligen usar una prueba no paramétrica cuando alguna otra prueba sugiere que los residuos no se distribuyen normalmente. Este enfoque parece bastante aceptado pero no parece estar de acuerdo con la primera oración de este párrafo. Solo esperaba obtener aclaraciones sobre este tema.

Sí, muchas personas hacen este tipo de cosas y cambian su segunda prueba por una que pueda tratar la heterocedasticidad cuando rechazan la igualdad de varianza, y así sucesivamente.

El hecho de que algo sea común no significa que sea necesariamente sabio.

De hecho, en algunos lugares (no nombraré las disciplinas más ofensivas), muchas de estas pruebas formales de hipótesis contingentes a otras pruebas formales de hipótesis se enseñan realmente.

El problema al hacerlo es que sus procedimientos no tienen sus propiedades nominales, a veces ni siquiera cercanas. (Por otro lado, asumir cosas como esas sin ninguna consideración en absoluto por una violación potencialmente extrema podría ser aún peor).

Varios documentos sugieren que para el caso de heterocedasticidad, es mejor actuar simplemente como si las variaciones no fueran iguales que probarlo y solo hacer algo al respecto en el rechazo.

En el caso de la normalidad, está menos claro. Al menos en muestras grandes, en muchos casos la normalidad no es tan crucial (pero irónicamente, con muestras grandes, es mucho más probable que rechace su prueba de normalidad), siempre que la no normalidad no sea demasiado salvaje. Una excepción es para los intervalos de predicción, donde realmente necesita su suposición de distribución para estar cerca de la derecha.

En parte, un problema es que las pruebas de hipótesis responden una pregunta diferente a la que necesita ser respondida. Realmente no necesita saber "los datos son realmente normales" (casi siempre, no serán exactamente normales a priori ). La pregunta es más bien "cuán grave será el impacto de la no normalidad en mi inferencia".

El segundo problema generalmente es casi independiente del tamaño de la muestra o en realidad mejora con el aumento del tamaño de la muestra; sin embargo, las pruebas de hipótesis casi siempre rechazarán en muestras de gran tamaño.

Hay muchas situaciones en las que hay procedimientos robustos o incluso libres de distribución que están muy cerca de ser completamente eficientes, incluso en la normalidad (y potencialmente mucho más eficientes en algunas desviaciones bastante modestas), en muchos casos parecería una tontería no tomar el mismo enfoque prudente.

— Glen_b -Reinstate a Monica
fuente

Niza (+1) ¿Podría dar una referencia a los artículos que menciona sobre el caso heteroscedastico?

— gui11aume

No deseo señalar ninguno, pero los encuentro en línea todo el tiempo, por lo que no es difícil determinar cuáles tienden a enfatizarlo (tienden a ser los mismos que históricamente sobre enfatizan las pruebas de hipótesis). De hecho, las disciplinas de las personas que generan preguntas aquí donde los carteles piensan que tienen que usar pruebas formales generalmente serían las mismas. No son solo una o dos disciplinas, veo muchas, pero algunas parecen hacerlo especialmente a menudo. Para que sea razonablemente común, solo puedo suponer que ha habido textos particularmente conocidos en esas áreas que insistieron en ello.

— Glen_b -Reinstate a Monica el

@ gui11aume Aquí hay una referencia ... no es una de las que estaba buscando, pero hace el punto que estaba llegando (que las pruebas preliminares pueden empeorar las cosas).

— Glen_b -Reinstate Monica

Andrew Gelman tuvo una publicación relacionada recientemente sobre la heterogeneidad entre grupos que está relacionada (al menos sobre por qué un proceso de este tipo es problemático).

— Andy W

Una pregunta relacionada con estas discusiones de hace un tiempo: stats.stackexchange.com/questions/305/…

— russellpierce

Los principales problemas han sido bien explicados por otros, pero se confunden con los subyacentes o asociados.

Reverencia excesiva para los valores P, como máximo un tipo de evidencia en las estadísticas.
La renuencia a ver que los informes estadísticos se basan inevitablemente en una combinación de opciones, algunas firmemente basadas en evidencia, otras basadas en una combinación de análisis previos, intuición, conjeturas, juicio, teoría, etc.

Supongamos que yo y mi precavido amigo Test Everything elegimos una transformación logarítmica para una respuesta, pero salto a esa conclusión basada en una combinación de razonamiento físico y experiencia previa con datos, mientras que Test Everything elige la escala logarítmica basada en las pruebas y estimaciones de Box-Cox de un parámetro

Ahora ambos usamos la misma regresión múltiple. ¿Nuestros valores P tienen diferentes interpretaciones? En una interpretación, los valores P de Test Everything están condicionados a sus inferencias anteriores. También utilicé inferencias, pero en su mayoría eran informales, basadas en una larga serie de gráficos, cálculos, etc. anteriores en proyectos anteriores. ¿Cómo se informa eso?

Naturalmente, los resultados de la regresión son exactamente los mismos para Test Everything y para mí.

La misma combinación de consejos razonables y filosofía dudosa se aplica a la elección de predictores y la forma funcional. A los economistas, por ejemplo, se les enseña a respetar las discusiones teóricas previas y a desconfiar de la indagación de datos, con buenas razones en cada caso. Pero en los casos más débiles, la teoría en cuestión es solo una sugerencia tentativa hecha previamente en la literatura, muy probablemente después de algún análisis empírico. Pero las referencias bibliográficas santifican, mientras que aprender de los datos disponibles es sospechoso, para muchos autores.

— Nick Cox
fuente

Muy claro (+1).

— gui11aume

+1. Sin embargo, existe una diferencia a largo plazo en el rendimiento de sus análisis frente a los análisis de Test Everything. Cada vez que se ejecuta este análisis, utilizará la misma estrategia, basada en lo que está escrito en la literatura (que no fluctúa experimento por experimento). OTOH, los datos son una muestra aleatoria, y el resultado de las pruebas de Box-Cox fluctuará estudio por estudio.

— gung - Restablece a Monica

Eso es divertido, pero mi experiencia también cambia a largo plazo.

— Nick Cox