Prueba de varianza finita?


29

¿Es posible probar la finitud (o existencia) de la varianza de una variable aleatoria dada una muestra? Como nulo, o bien {la varianza existe y es finita} o {la varianza no existe / es infinita} sería aceptable. Filosóficamente (y computacionalmente), esto parece muy extraño porque no debería haber diferencia entre una población sin varianza finita y una con una varianza muy muy grande (digamos> ), así que no espero que este problema pueda ser resuelto10400

Un enfoque que me habían sugerido fue a través del Teorema del límite central: suponiendo que las muestras son id y la población tiene una media finita, se podría verificar, de alguna manera, si la media muestral tiene el error estándar correcto al aumentar el tamaño de la muestra. Sin embargo, no estoy seguro de creer que este método funcionaría. (En particular, no veo cómo convertirlo en una prueba adecuada).


1
Relevante: stats.stackexchange.com/questions/94402/… Si existe la más mínima posibilidad de que la varianza no exista, es mejor usar un modelo que no asuma una varianza finita. Ni siquiera pienses en probarlo.
kjetil b halvorsen

Respuestas:


13

No, esto no es posible, porque una muestra finita de tamaño no puede distinguir de manera confiable entre, por ejemplo, una población normal y una población normal contaminada por una cantidad de una distribución de Cauchy donde >> . (Por supuesto, el primero tiene una varianza finita y el segundo tiene una varianza infinita). Por lo tanto, cualquier prueba completamente no paramétrica tendrá una potencia arbitrariamente baja contra tales alternativas.n1/NNn


44
Este es un muy buen punto. sin embargo, ¿no tienen la mayoría de las pruebas de hipótesis una potencia arbitrariamente baja contra alguna alternativa? por ejemplo, una prueba de media cero tendrá una potencia muy baja cuando se le da una muestra de una población con media parapequeño. Todavía me pregunto si tal prueba se puede construir de manera sensata, y mucho menos si tiene poca potencia en algunos casos. ϵ0<|ϵ|
shabbychef

2
Además, las distribuciones 'contaminadas' como la que usted cita siempre me parecieron estar en desacuerdo con la idea de estar 'idénticamente distribuidas'. Quizás estarías de acuerdo. Parece que decir que las muestras se extraen de alguna distribución sin indicar que la distribución no tiene sentido (bueno, la parte 'independientemente' de iid es significativa).
shabbychef

2
(1) Tienes razón acerca de la baja potencia, pero el problema aquí (me parece) es que no hay un paso gradual de "finito" a "infinito": el problema parece no tener una escala natural para decirnos lo que constituye una desviación "pequeña" del nulo en comparación con una desviación "grande". (2) La forma de distribución es independiente de las consideraciones de iid. No quiero decir que, digamos, el 1% de los datos provendrá de un Cauchy y el 99% de un Normal. Quiero decir que el 100% de los datos provienen de una distribución que es casi normal pero tiene colas de Cauchy. En este sentido, los datos pueden ser identificados para una distribución contaminada.
whuber


3
@shabbychef si cada observación surge del mismo proceso de mezcla exacto en el que están distribuidas de manera idéntica, cada una como un sorteo de la distribución de mezcla correspondiente. Si algunas observaciones son necesariamente de un proceso y otras son necesariamente de un proceso diferente (las observaciones 1 a 990 son normales y las observaciones 991 a 1000 son Cauchy, por ejemplo), entonces no están distribuidas de manera idéntica (a pesar de que la muestra combinada puede ser indistinguible de una mezcla de 99% -1%). Esto esencialmente se reduce al modelo del proceso que está utilizando.
Glen_b: reinstala a Monica el

16

No puede estar seguro sin conocer la distribución. Pero hay ciertas cosas que puede hacer, como mirar lo que podría llamarse la "varianza parcial", es decir, si tiene una muestra de tamaño , dibuja la varianza estimada de los primeros términos, con de 2 a .NnnN

Con una variación de población finita, espera que la variación parcial pronto se establezca cerca de la variación de población.

Con una varianza de población infinita, verá saltos en la varianza parcial seguidos de disminuciones lentas hasta que aparezca el siguiente valor muy grande en la muestra.

Esta es una ilustración con variables aleatorias normales y de Cauchy (y una escala logarítmica) Varianza parcial

Esto puede no ayudar si la forma de su distribución es tal que se necesita un tamaño de muestra mucho mayor que el que tiene para identificarlo con suficiente confianza, es decir, cuando los valores muy grandes son bastante (pero no extremadamente) raros para una distribución con variación finita, o son extremadamente raros para una distribución con varianza infinita. Para una distribución dada, habrá tamaños de muestra que es más probable que revelen su naturaleza; a la inversa, para un tamaño de muestra dado, hay distribuciones que tienen más probabilidades de no ocultar su naturaleza para ese tamaño de muestra.


44
+1 Me gusta porque (a) un gráfico generalmente revela mucho más que una prueba y (b) es práctico. Me preocupa un poco que tenga un aspecto arbitrario: su apariencia dependerá (en gran medida, tal vez) del orden en que se proporcionan los datos. Cuando la "varianza parcial" se debe a uno o dos valores extremos, y se acercan al principio, este gráfico puede ser engañoso. Me pregunto si hay una buena solución para este problema.
whuber

1
+1 para un gran gráfico. Realmente solidifica el concepto de "no varianza" en la distribución de Cauchy. @whuber: ¿Ordenar los datos en todas las permutaciones posibles, ejecutar la prueba para cada uno y tomar algún tipo de promedio? No es muy eficiente desde el punto de vista computacional, te lo concederé :) pero, ¿tal vez podrías elegir un puñado de permutaciones aleatorias?
naught101

2
@ naught101 Hacer un promedio sobre todas las permutaciones no te dirá nada, porque obtendrás una línea perfectamente horizontal. Tal vez no entiendo lo que quieres decir?
whuber

1
@whuber: en realidad me refería a tomar el promedio de algún tipo de prueba de convergencia, no el gráfico en sí. Pero admitiré que es una idea bastante vaga, y eso es en gran parte porque no tengo idea de lo que estoy hablando :)
nada101

7

Aquí hay otra respuesta. Suponga que puede parametrizar el problema, algo como esto:

H0: Xt(df=3) versus H1: Xt(df=1).

Entonces podría hacer una prueba de razón de probabilidad de Neyman-Pearson ordinaria de versus H 1 . Tenga en cuenta que H 1 es Cauchy (varianza infinita) y H 0 es la t de Student habitual con 3 grados de libertad (varianza finita) que tiene PDF: f ( x | ν ) = Γ ( ν + 1H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

para . Dados los datos de muestra aleatoria simple x 1 , x 2 , ... , x n , la prueba de razón de probabilidad rechaza H 0 cuando Λ ( x ) = n i = 1 f ( x i | ν = 1 )<x<x1,x2,,xnH0 dondek0se elige de modo que P(Λ(X)>k

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Es un poco de álgebra simplificar

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Entonces, nuevamente, obtenemos una muestra aleatoria simple, calculamos y rechazamos H 0 si es demasiado grande. ¿Cuan grande? Esa es la parte divertida! Va a ser difícil (¿imposible?) Obtener una forma cerrada para el valor crítico, pero podríamos aproximarnos tan cerca como queramos, seguro. Aquí hay una forma de hacerlo, con R. Supongamos que , y para reír, digamos .Λ(x)H0Λ(x)α=0.05n=13

Generamos un montón de muestras bajo , calculamos para cada muestra y luego encontramos el 95º cuantil.H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

Esto resulta ser (después de algunos segundos) en mi máquina para ser , que después de multiplicado por ( 12.8842 esk1,9859. Seguramente hay otras formas mejores de aproximar esto, pero solo estamos jugando.(3/2)13k1.9859

En resumen, cuando el problema es parametrizable, puede configurar una prueba de hipótesis como lo haría en otros problemas, y es bastante sencillo, excepto en este caso para algunos bailes de claqué cerca del final. Tenga en cuenta que sabemos por nuestra teoría que la prueba anterior es una prueba más poderosa de versus H 1 (en el nivel α ), por lo que no hay nada mejor que esto (medido por el poder).H0H1α

Descargos de responsabilidad: este es un ejemplo de juguete. No tengo ninguna situación del mundo real en la que tenga curiosidad por saber si mis datos provienen de Cauchy en lugar de t de Student con 3 df. Y la pregunta original no decía nada acerca de los problemas parametrizados, parecía estar buscando un enfoque no paramétrico, que creo que fue abordado bien por los demás. El propósito de esta respuesta es para los futuros lectores que se topan con el título de la pregunta y buscan el enfoque clásico de los libros de texto polvorientos.

PD: puede ser divertido jugar un poco más con la prueba para probar , o algo más, pero no lo he hecho. Supongo que se pondría bastante feo bastante rápido. También pensé en probar diferentes tipos de distribuciones estables , pero nuevamente, fue solo un pensamiento.H1:ν1


2
estimar el en distribuciones estables es notoriamente difícil. α
shabbychef

1
También podría probar que , porque T-dist tiene una variación finita solo para ν > 2 . H1:ν2ν>2
probabilidadislogic

2
Re: , no sabía que era notoriamente difícil, pero suena bien, gracias. @probability, tienes razón, y la única razón por la que elegí 3 versus 1 fue porque significaba menos fracciones. Y por cierto, me gustó la respuesta de probabilidad mejor que la mía (+1). α

1
αα=2

6

DY1,Y2,,YN

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

Una hipótesis tiene varianza finita, una tiene varianza infinita. Solo calcule las probabilidades:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

P(H0|I)P(HA|I)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

L1<μ,τ<U1L2<σ,τ<U2

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

s2=N1i=1N(YiY¯)2Y¯=N1i=1NYi

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

Y ahora tomando la razón, encontramos que las partes importantes de las constantes de normalización se cancelan y obtenemos:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

Y todas las integrales siguen siendo adecuadas en el límite para que podamos obtener:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

λ=σ2dσ=12λ32dλ

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

Y obtenemos como forma analítica final las probabilidades de trabajo numérico:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

Por lo tanto, esto puede considerarse como una prueba específica de varianza finita versus infinita. También podríamos hacer una distribución T en este marco para obtener otra prueba (pruebe la hipótesis de que los grados de libertad son mayores que 2).


1
s2

2
ss2=N1i=1N(YiY¯)2Y¯x¯

5

El contraejemplo no es relevante para la pregunta formulada. Desea probar la hipótesis nula de que una muestra de variables aleatorias iid se extrae de una distribución que tiene una varianza finita, a un nivel de significancia dado . Recomiendo un buen texto de referencia como "Inferencia estadística" de Casella para comprender el uso y el límite de las pruebas de hipótesis. Con respecto a ht en la variación finita, no tengo una referencia útil, pero el siguiente artículo aborda una versión similar, pero más fuerte, del problema, es decir, si las colas de distribución siguen una ley de potencia.

DISTRIBUCIONES DE LA LEY DE PODER EN DATOS EMPÍRICOS SIAM Review 51 (2009): 661-703.


1

Un enfoque que me habían sugerido fue a través del Teorema del límite central.

Esta es una vieja pregunta, pero quiero proponer una forma de usar el CLT para probar colas grandes.

X={X1,,Xn}Y={Y1,,Yn}X

Z=n×mean(Y)mean(X)sd(Y),

también está cerca de la función de distribución N (0,1).

Ahora todo lo que tenemos que hacer es realizar una gran cantidad de bootstraps y comparar la función de distribución empírica de las Z observadas con la edf de un N (0,1). Una forma natural de hacer esta comparación es la prueba de Kolmogorov-Smirnov .

Las siguientes imágenes ilustran la idea principal. En ambas imágenes, cada línea coloreada se construye a partir de la realización de 1000 observaciones de la distribución particular, seguido de 200 muestras de arranque de tamaño 500 para la aproximación del ecdf Z. La línea continua negra es el N (0,1) cdf.

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí


2
Ninguna cantidad de arranque lo llevará a ningún lado contra el problema que planteé en mi respuesta. Esto se debe a que la gran mayoría de las muestras no proporcionará ninguna evidencia de una cola pesada, y el arranque, por definición, usa solo los datos de la muestra misma.
whuber

1
@whuber Si los valores X se toman de una ley de potencia simétrica, se aplica el CLT generalizado y la prueba KS detectará la diferencia. Creo que su observación no caracteriza correctamente lo que usted dice que es un "paso gradual de" finito "a" infinito ""
Mur1lo

1
El CLT nunca "se aplica" a ninguna muestra finita. Es un teorema sobre un límite.
whuber

1
Cuando digo que "se aplica", solo digo que proporciona una buena aproximación si tenemos una muestra grande.
Mur1lo

1
La vaguedad de "buena aproximación" y "grande" lamentablemente no logran captar la lógica de las pruebas de hipótesis. Implícito en su declaración está la posibilidad de recolectar una muestra cada vez más grande hasta que pueda detectar la gran cola: pero no es así como suelen funcionar las pruebas de hipótesis. En la configuración estándar, tiene una muestra dada y su tarea es probar si es de una distribución en la hipótesis nula. En este caso, bootstrapping no lo hará mejor que cualquier otra prueba directa.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.