Intervalo de confianza en una cantidad aleatoria?

8

Supongamos que es un vector desconocido , y uno observa . Me gustaría calcular los intervalos de confianza en la cantidad aleatoria , basándose solo en el observado y el parámetro conocido . Es decir, para un dado , encuentre modo que . $\vec{a}$ $p$ $\vec{b} \sim \mathcal{N}\left(\vec{a}, I\right)$ $\vec{b}^{\top} \vec{a}$ $\vec{b}$ $p$ $\alpha \in (0,1)$ $c(\vec{b}, p, \alpha)$ $Pr\left(\vec{b}^{\top}\vec{a} \le c(\vec{b},p,\alpha)\right) = \alpha$

Esta es una pregunta extraña porque la aleatoriedad que contribuye a los intervalos de confianza también afecta a . El enfoque directo es afirmar que, condicional en , , por lo tanto , pero no creo que esto dé un CI adecuado porque está sesgado para , que es el valor esperado de . ( es, hasta escala, un RV de chi-cuadrado no central, con un parámetro de no centralidad dependiendo de $\vec{b}$ $\vec{b}$ $\vec{a} \sim\mathcal{N}\left(\vec{b}, I\right)$ $\vec{b}^{\top}\vec{a} \sim\mathcal{N}\left(\vec{b}^{\top}\vec{b}, {\vec{b}^{\top}\vec{b}}I\right)$ $\vec{b}^{\top}\vec{b}$ $\vec{a}^{\top}\vec{a}$ $\vec{b}^{\top}\vec{a}$ $\vec{b}^{\top}\vec{b}$ $\vec{a}^{\top}\vec{a}$ ; su valor esperado no es .) $\vec{a}^{\top}\vec{a}$

nota : incondicionalmente, y , lo que significa que es una variable aleatoria de chi-cuadrado no central. Por lo tanto, es una estimación imparcial de la media de y de su varianza. ¡Esto último es algo inútil, ya que puede ser negativo! $\vec{b}^{\top}\vec{a} \sim\mathcal{N}\left(\vec{a}^{\top}\vec{a},\vec{a}^{\top}\vec{a}\right)$ $\vec{b}^{\top}\vec{b} \sim \chi\left(p, \vec{a}^{\top}\vec{a}\right)$ $\vec{b}^{\top}\vec{b} - p$ $\vec{a}^{\top}\vec{b}$

Estoy buscando todas y cada una de las formas sensatas de abordar este problema. Estos pueden incluir:

Un límite de confianza adecuado, que es una función del observado y conocido tal que para todos y todos modo que . Edite Lo que quiero decir con esto es que, si arregló y luego dibujó un aleatorio , la probabilidad de que es bajo sorteos repetidos de . Entonces, por ejemplo, si $c$ $\vec{b}$ $p$ $Pr\left(\vec{b}^{\top}\vec{a} \le c(\vec{b},p,\alpha)\right) = \alpha$ $\alpha$ $\vec{a}$ $\vec{a}^{\top}\vec{a} > 0$ $\vec{a}$ $\vec{b}$ $\vec{b}^{\top}\vec{a} - c\left(\vec{b},p,\alpha\right) \le 0$ $\alpha$ $\vec{b}$ $\vec{a}$ y luego dibujó independiente , luego la proporción de tal que se acercaría como el número de réplicas va a . $\vec{b_i}$ $i$ $\vec{b_i}^{\top}\vec{a} \le c(\vec{b_i},p,\alpha)$ $\alpha$ $\infty$
Una confianza ligada 'en expectativa'. Esta es una función de la observada , y de y conocidos, de modo que su valor esperado incondicional es el cuantil de para todos . $\vec{b}$ $p$ $\alpha$ $\alpha$ $\vec{b}^{\top}\vec{a}$ $\vec{a} : \vec{a}^{\top}\vec{a} > 0$
Algún tipo de solución bayesiana en la que pueda especificar un previo sano en , luego, dada la observación , obtenga un posterior en ambos y $\vec{a}^{\top}\vec{a}$ $\vec{b}$ $\vec{b}^{\top}\vec{b}$ $\vec{a}^{\top}\vec{a}$ .

editar La forma original de esta pregunta tenía la covarianza de $\vec{b}$ como $\frac{1}{n}I$ , sin embargo, creo que wlog uno puede asumir $n=1$ , así que he editado toda mención de $n$ .

— shabbychef
fuente

Los "intervalos de confianza" en cantidades aleatorias generalmente se denominan "intervalos de predicción".

— kjetil b halvorsen

1

@kjetilbhalvorsen: esta no es una pregunta con respecto a los intervalos de predicción, que estiman "un intervalo en el que caerán las observaciones futuras", según Wikipedia. El vector

\vec{b}

$\vec{b}$ ha ya sido observado.

— shabbychef

1

No puedo ver como

p

$p$ entra en esto en absoluto. ¿Puedes por favor aclarar?

— Ben - Restablece a Mónica el

1

@Ben

p

$p$ es la longitud de los vectores

\vec{a}

$\vec{a}$ y

\vec{b}

$\vec{b}$ .

— shabbychef

1

@Whuber stats.stackexchange.com/questions/389624

— Sextus Empiricus

5

Vista geométrica del problema y distribuciones de $\vec{b}\cdot \vec{a}$ y $|\vec{b}|^2$

A continuación se muestra una vista geométrica del problema. La dirección de $\vec{a}$ realmente no importa y solo podemos usar las longitudes de estos vectores $|\vec{a}|$ y $|\vec{b}|$ que dan toda la información necesaria.

La distribución de la longitud de la proyección vectorial de $\vec{b}$ sobre $\vec{a}$ estarán $\vec{b} \cdot \vec{a}/{\vert \vec{a} \vert} \sim N(\vert \vec{a} \vert,1)$ que está relacionado con la cantidad que estás buscando

\vec{si} \cdot \vec{una} \sim norte (El | \vec{una} {El |}^{2}, El | \vec{una} {El |}^{2})

$\vec{b} \cdot {\vec{a}} \sim N(\vert \vec{a} \vert^2,\vert \vec{a} \vert^2)$

Podemos deducir aún más que la longitud al cuadrado del vector de muestras $|\vec{b}|^2$ tiene la distribución una distribución chi-cuadrado no central , con los grados de libertad $p$ y el parámetro de no centralidad $\sum_{k=1}^p \mu_k^2 = \vert \vec{a} \vert^2$

El | \vec{si} {El |}^{2} \sim χ_{pags, El | \vec{una} {El |}^{2}}^{2}

$\vert \vec{b} \vert^2 \sim \chi^2_{p,\vert \vec{a} \vert^2}$

además

{(El | \vec{si} {El |}^{2} - \frac{(\vec{si} \cdot \vec{una})^{2}}{El | \vec{una} {El |}^{2}})}_{condicional en \vec{si} \cdot \vec{una} y El | \vec{una} {El |}^{2}} \sim χ_{pags - 1}^{2}

$\left(|\vec{b}|^2 - \frac{(\vec{b} \cdot\vec{a})^2}{\vert \vec{a} \vert^2}\right)_{\text{conditional on ${\vec{b} \cdot \vec{a}}$ and $|\vec{a}|^2$}} \sim \chi^2_{p-1}$

Esta última expresión muestra que el intervalo estimado para $\vec{b}\cdot\vec{a}$ puede , desde cierto punto de vista, ser visto como un intervalo de confianza, porque $\vec{b}\cdot\vec{a}$ puede verse como un parámetro en la distribución de $|\vec{b}|^2$ . Pero es complicado porque hay un parámetro molesto $|\vec{a}|^2$ y también el parámetro $\vec{b}\cdot\vec{a}$ es una variable aleatoria relacionada con $|\vec{a}|^2$ .

Gráficos de distribuciones y algún método para definir un $c(\vec{b},p,\alpha)$

En la imagen de arriba, trazamos una región del 95% usando la derecha $\beta_1$ parte de la distribución de $N(\vert \vec{a} \vert^2,\vert \vec{a} \vert^2)$ y la parte superior $\beta_2$ parte de la distribución desplazada de $\chi^2_{p-1}$ tal que $\beta_1 \cdot \beta_2 = 0.05$

Ahora el gran truco es dibujar alguna línea $c(|\vec{\beta}|^2,p,\alpha)$ que limita los puntos de tal manera que para cualquier $\vec{a}$ hay una fracción $1-\alpha$ de los puntos (al menos) que están debajo de la línea.

Debajo de la línea es donde la región tiene éxito y queremos que esto suceda al menos fracción $1-\alpha$ del tiempo. (véase también La lógica básica de construir un intervalo de confianza y ¿Podemos rechazar una hipótesis nula con intervalos de confianza producidos mediante muestreo en lugar de la hipótesis nula? para un razonamiento análogo pero en un entorno más simple).

Puede ser dudoso que podamos tener éxito para resolver la situación:

\forall El | \vec{una} El | : PAGS r (\vec{si} \cdot \vec{una} \leq C (\vec{si}, pags, α)) = α

$\forall \, |\vec{a}| \,: \quad Pr(\vec{b} \cdot \vec{a} \leq c(\vec{b},p,\alpha)) = \alpha$

Pero siempre deberíamos poder obtener algún resultado como

\forall El | \vec{una} El | : PAGS r (\vec{si} \cdot \vec{una} \leq C (\vec{si}, pags, α)) \leq α

$\forall \, |\vec{a}| \,: \quad Pr(\vec{b} \cdot \vec{a} \leq c(\vec{b},p,\alpha)) \leq \alpha$

o más estrictamente el límite superior mínimo de todos los $Pr(\vec{b} \cdot \vec{a} \leq c(\vec{b},p,\alpha))$ es igual a $\alpha$

cenar {PAGS r (\vec{si} \cdot \vec{una} \leq C (\vec{si}, pags, α)) : El | \vec{una} El | \geq 0 0} = α

$\text{sup} \lbrace Pr(\vec{b} \cdot \vec{a} \leq c(\vec{b},p,\alpha)): |\vec{a}| \geq 0 \rbrace = \alpha$

Para la línea en la imagen con el múltiple $|\vec{a}|$ Usamos la línea que toca los picos de las regiones individuales para definir la función $c(|\vec{b}|,p,\alpha)$ . Al usar estos picos, obtenemos que las regiones originales, que estaban destinadas a ser $\alpha = \beta_1 \beta_2$ No están cubiertos de manera óptima. En cambio, menos puntos caen debajo de la línea (entonces $\alpha > \beta_1 \beta_2$ ) Para pequeños $|\vec{a}|$ estos serán la parte superior, y para grandes $|\vec{a}|$ Esta será la parte correcta. Entonces obtendrás:

\begin{matrix} El | \vec{una} El | << 1 : PAGS r (\vec{si} \cdot \vec{una} \leq C (\vec{si}, pags, α)) \approx β_{2} \\ El | \vec{una} El | >> 1 : PAGS r (\vec{si} \cdot \vec{una} \leq C (\vec{si}, pags, α)) \approx β_{1} \end{matrix}

$\begin{array}{} |\vec{a}| << 1: \quad Pr(\vec{b} \cdot \vec{a} \leq c(\vec{b},p,\alpha)) \approx \beta_2 \\ |\vec{a}| >> 1 : \quad Pr(\vec{b} \cdot \vec{a} \leq c(\vec{b},p,\alpha)) \approx \beta_1 \end{array}$

y

cenar {PAGS r (\vec{si} \cdot \vec{una} \leq C (\vec{si}, pags, α)) : El | \vec{una} El | \geq 0 0} \approx max (β_{1}, β_{2})

$\text{sup} \lbrace Pr(\vec{b} \cdot \vec{a} \leq c(\vec{b},p,\alpha)): |\vec{a}| \geq 0 \rbrace \approx \max(\beta_1,\beta_2)$

Así que esto todavía es un poco de trabajo en progreso. Una posible forma de resolver la situación podría ser tener alguna función paramétrica que sigas mejorando iterativamente por prueba y error, de modo que la línea sea más constante (pero no sería muy perspicaz). O posiblemente se podría describir alguna función diferencial para la línea / función.

# find limiting 'a' and a 'b dot a'  as function of b² 
f <- function(b2,p,beta1,beta2) {
  offset <- qchisq(1-beta2,p-1)
  qma <- qnorm(1-beta1,0,1)
  if (b2 <= qma^2+offset) {
    xma = -10^5
  } else {
    ysup <- b2 - offset - qma^2
    alim <- -qma + sqrt(qma^2+ysup) 
    xma <- alim^2+qma*alim
  }
    xma
}  
fv <- Vectorize(f)  

# plot boundary
b2 <- seq(0,1500,0.1)
lines(fv(b2,p=25,sqrt(0.05),sqrt(0.05)),b2)


# check it via simulations
dosims <- function(a,testfunc,nrep=10000,beta1=sqrt(0.05),beta2=sqrt(0.05)) {
  p <- length(a)
  replicate(nrep,{
    bee <- a + rnorm(p)
    bnd <- testfunc(sum(bee^2),p,beta1,beta2)
    bta <- sum(bee * a)
    bta <= bnd
  })
}

mean(dosims(c(1,rep(0,7)),fv))

### plotting
# vectors of |a| to be tried
las2 <- 2^seq(-10,10,0.5) 
# different values of beta1 and beta2
y1 <- sapply(las2,FUN = function(las2) 
  mean(dosims(c(las2,rep(0,24)),fv,nrep=50000,beta1=0.2,beta2=0.2)))
y2 <- sapply(las2,FUN = function(las2) 
  mean(dosims(c(las2,rep(0,24)),fv,nrep=50000,beta1=0.4,beta2=0.1)))
y3 <- sapply(las2,FUN = function(las2) 
  mean(dosims(c(las2,rep(0,24)),fv,nrep=50000,beta1=0.1,beta2=0.4)))

plot(-10,-10,
     xlim=c(10^-3,10^3),ylim=c(0,0.5),log="x",
     xlab = expression("|a|"), ylab = expression(paste("effective ", alpha)))

points(las2,y1, cex=0.5, col=1,bg=1, pch=21)
points(las2,y2, cex=0.5, col=2,bg=2, pch=21)
points(las2,y3, cex=0.5, col=3,bg=3, pch=21)

text(0.001,0.4,expression(paste(beta[2], " = 0.4   ", beta[1], " = 0.1")),pos=4)
text(0.001,0.25,expression(paste(beta[2], " = 0.2   ", beta[1], " = 0.2")),pos=4)
text(0.001,0.15,expression(paste(beta[2], " = 0.1   ", beta[1], " = 0.4")),pos=4)

title(expression(paste("different effective ", alpha, " for different |a|")))

— Sexto Empírico
fuente

Como

\vec{b}

$\vec{b}$ es aleatorio, la función

f (\vec{b}, p, α)

$f(\vec{b},p,\alpha)$ También es aleatorio. No obstante, creo que se puede construir una función tal que la declaración de probabilidad se mantenga bajo la replicación del experimento (para un método fijo

\vec{a}

$\vec{a}$ )

— shabbychef

Una forma de responder la pregunta sería encontrar la función

f

$f$ tal que

P ({\vec{b}}^{⊤} \vec{a} \leq f (\vec{b}, p, α)) = α

$P\left(\vec{b}^{\top}\vec{a} \le f(\vec{b}, p, \alpha)\right) = \alpha$ , donde la replicación está bajo un fijo

\vec{a}

$\vec{a}$ , pero realizaciones independientes de

\vec{b}

$\vec{b}$ . En realidad, sin embargo, solo observaremos uno

\vec{b}

$\vec{b}$ . (Darse cuenta de que

\vec{b}

$\vec{b}$ sí es probable que sea un estadístico suficiente reescalado calculado sobre una serie de realizaciones independientes de un experimento).

— shabbychef

Vea también mi 'respuesta', que muestra que para grandes

{\vec{a}}^{⊤} \vec{a}

$\vec{a}^{\top}\vec{a}$ , cierta estadística es casi Normal, mientras que para valores pequeños de este parámetro, es más como un Chi-cuadrado (desplazado, reescalado) no central. Dicho eso

\vec{a}

$\vec{a}$ es un parámetro de población desconocido, por lo que no sabemos cuál es el correcto. Podemos estimar

{\vec{a}}^{⊤} \vec{a}

$\vec{a}^{\top}\vec{a}$ de la cantidad

{\vec{b}}^{⊤} \vec{b}

$\vec{b}^{\top}\vec{b}$ , sin embargo.

— shabbychef

No veo por qué importa eso

\vec{b}

$\vec{b}$ está a ambos lados de la ecuación. Sin embargo, intentaré editar la pregunta una vez más para que quede perfectamente claro.

— shabbychef

1

Publiqué una respuesta falsa con código real.

— shabbychef

3

Cambiaré la notación a algo más familiar. Espero que no sea confuso.

No veo cómo se podría estimar el $c$ -función con un estimador completamente imparcial. Pero proporcionaré un estimador imparcial para "parte" de la $c$ -función, y proporciona una fórmula para el sesgo restante, de modo que pueda evaluarse mediante simulación.

Asumimos que tenemos una normalidad conjunta $p$ vector aleatorio (columna) tridimensional

X \sim norte (μ, \frac{1}{norte} {yo}_{pags}), μ = (μ_{1}, . . ., μ_{pags})^{'}

$\mathbf x \sim N\left (\mathbf μ, \frac 1n \mathbf I_p\right),\;\;\;\mathbf μ = (\mu_1,...,\mu_p)'$

Por la especificación de la matriz de covarianza, los elementos del vector aleatorio son independientes.

Estamos interesados en la variable aleatoria univariante $Y = \mathbf x'\mathbf μ$ . Debido a la normalidad articular, esta variable también tiene una distribución normal.

Y \sim norte (μ^{'} μ, \frac{1}{norte} μ^{'} μ)

$Y\sim N\left(\mathbf μ'\mathbf μ, \frac 1n \mathbf μ'\mathbf μ\right)$

Por lo tanto

PAGS (\sqrt{norte} \frac{Y - μ^{'} μ}{\sqrt{μ^{'} μ}} \leq \sqrt{norte} \frac{C - μ^{'} μ}{\sqrt{μ^{'} μ}}) = Φ (\sqrt{norte} \frac{C - μ^{'} μ}{\sqrt{μ^{'} μ}})

$P\left(\sqrt n\frac {Y-\mathbf μ'\mathbf μ}{\sqrt {\mathbf μ'\mathbf μ}} \leq \sqrt n\frac {c-\mathbf μ'\mathbf μ}{\sqrt {\mathbf μ'\mathbf μ}}\right)=\Phi\left(\sqrt n\frac {c-\mathbf μ'\mathbf μ}{\sqrt {\mathbf μ'\mathbf μ}}\right)$

dónde $\Phi()$ es el CDF normal estándar y

Φ (\sqrt{n} \frac{c - μ^{'} μ}{\sqrt{μ^{'} μ}}) = α \Rightarrow \sqrt{n} \frac{c - μ^{'} μ}{\sqrt{μ^{'} μ}} = Φ^{- 1} (α) = z_{α}

$\Phi\left(\sqrt n\frac {c-\mathbf μ'\mathbf μ}{\sqrt {\mathbf μ'\mathbf μ}}\right) = \alpha \Rightarrow \sqrt n\frac {c-\mathbf μ'\mathbf μ}{\sqrt {\mathbf μ'\mathbf μ}} = \Phi^{-1}(\alpha)=z_{\alpha}$

\begin{matrix} (1) & \Rightarrow c = \frac{\sqrt{μ^{'} μ}}{\sqrt{n}} z_{a} + μ^{'} μ \end{matrix}

$\Rightarrow c = \frac {\sqrt {\mathbf μ'\mathbf μ}}{\sqrt n} z_a + \mathbf μ'\mathbf μ \tag{1}$

Por lo tanto, necesitamos obtener estimaciones para $\mathbf μ'\mathbf μ$ y su raíz cuadrada. Para cada elemento del vector $\mathbf x$ decir $X_k$ tenemos $n$ observaciones iid disponibles, $\{x_{k1},...,x_{kn}\}$ . Entonces, para cada elemento de $\mathbf μ'\mathbf μ = (\mu_1^2,...,\mu_p^2)'$ probemos el estimador

Est (μ_{k}^{2}) = \frac{1}{norte} \sum_{yo = 1}^{norte} X_{k yo}^{2}

$\text{Est}(\mu_k^2) = \frac 1n\sum_{i=1}^nX^2_{ki}$

Este estimador tiene valor esperado

mi (\frac{1}{norte} \sum_{yo = 1}^{norte} X_{k yo}^{2}) = \frac{1}{norte} \sum_{yo = 1}^{norte} mi (X_{k yo}^{2}) = \frac{1}{norte} \sum_{yo = 1}^{norte} (Var (X_{k yo}) + [mi (X_{k yo})]^{2})

$E\left(\frac 1n\sum_{i=1}^nX^2_{ki}\right) = \frac 1n \sum_{i=1}^nE(X^2_{ki}) =\frac 1n \sum_{i=1}^n\left(\text{Var}(X_{ki})+[E(X_{ki})]^2\right)$

\Rightarrow mi (\hat{μ_{k}^{2}}) = \frac{1}{norte} \sum_{yo = 1}^{norte} (\frac{1}{norte} + μ_{k}^{2}) = \frac{1}{norte} + μ_{k}^{2}

$\Rightarrow E\left(\hat {\mu_k^2}\right) = \frac 1n\sum_{i=1}^n\left(\frac 1n+\mu_k^2\right) = \frac 1{n} + \mu_k^2$

Entonces un estimador imparcial para $\mu_{ki}^2$ es

\hat{μ_{k}^{2}} = \frac{1}{norte} \sum_{yo = 1}^{norte} X_{k yo}^{2} - \frac{1}{norte}

$\hat {\mu_k^2} = \frac 1n\sum_{i=1}^nX^2_{ki} -\frac 1{n}$

implicando que

mi [\sum_{k = 1}^{pags} (\frac{1}{norte} \sum_{yo = 1}^{norte} X_{k yo}^{2} - \frac{1}{norte})] = \frac{1}{norte} mi (\sum_{k = 1}^{pags} \sum_{yo = 1}^{norte} X_{k yo}^{2}) - \frac{pags}{norte} = μ^{'} μ

$E\left[\sum_{k=1}^p\left(\frac 1n\sum_{i=1}^nX^2_{ki} -\frac 1{n}\right)\right] =\frac 1n E\left(\sum_{k=1}^p\sum_{i=1}^nX^2_{ki}\right) -\frac p{n} =\mathbf μ'\mathbf μ$

y asi que

\begin{matrix} (2) & \hat{θ} \equiv \frac{1}{norte} \sum_{k = 1}^{pags} \sum_{yo = 1}^{norte} X_{k yo}^{2} - \frac{pags}{norte} \end{matrix}

$\hat \theta \equiv \frac 1n\sum_{k=1}^p\sum_{i=1}^nX^2_{ki} -\frac p{n} \tag{2}$ es un estimador imparcial de

μ^{'} μ

$\mathbf μ'\mathbf μ$ .

Pero un estimador imparcial para $\sqrt {\mathbf μ'\mathbf μ}$ no parece existir (uno que se base únicamente en las cantidades conocidas, es decir).

Así que supongamos que seguimos y estimamos $c$ por

\begin{matrix} (3) & \hat{C} = \frac{\sqrt{\hat{θ}}}{\sqrt{norte}} z_{una} + \hat{θ} \end{matrix}

$\hat c = \frac {\sqrt {\hat \theta}}{\sqrt n} z_a + \hat \theta \tag{3}$

El sesgo de este estimador es

si (\hat{C}) = mi (\hat{C} - C) = \frac{z_{α}}{\sqrt{norte}} \cdot [mi (\sqrt{\hat{θ}}) - \sqrt{μ^{'} μ}] > 0 0

$B(\hat c) = E(\hat c - c) = \frac {z_{\alpha}}{\sqrt n}\cdot \left[E\left(\sqrt {\hat \theta}\right) - \sqrt {\mathbf μ'\mathbf μ}\right] >0$

el resultado de "sesgo positivo" debido a la desigualdad de Jensen.

En este enfoque, el tamaño $n$ de la muestra es crítica, ya que reduce el sesgo para cualquier valor dado de $\mathbf μ$ .

¿Cuáles son las consecuencias de este sesgo de sobreestimación? Supongamos que se nos da $n$ , $p$ , y se nos dice que calculemos el valor crítico para $Y$ por probabilidad $\alpha$ , $P(Y\leq c) = \alpha$ .

Dada una secuencia de muestras, proporcionaremos una estimación $\hat c$ para lo cual, "en promedio" $\hat c > c$ .

En otras palabras

PAGS (Y \leq mi (\hat{C})) = α^{*} > α = PAGS (Y \leq C)

$P(Y\leq E(\hat c)) = \alpha^* > \alpha = P(Y\leq c)$

Se podría evaluar por simulación la magnitud del sesgo para varios valores de $\mathbf μ$ , y cómo y cuánto distorsiona los resultados.

— Alecos Papadopoulos
fuente

Creo que esto es hacia un CI imparcial (opción 2 en mi edición), y similar en espíritu a mi respuesta insatisfactoria. Pensaré cómo podría construirse una mejor estimación de la desviación estándar con la información disponible. Creo que tal vez una serie de Taylor podría funcionar. Además, no estoy seguro acerca de

n

$n$ observaciones de

x

$x$ parte. Tenemos

n = 1

$n=1$ sin pérdida de generalidad .

— shabbychef

Como puede ver, el valor de

n

$n$ importa cuando se trata de prejuicios. Por lo tanto, depende de lo que quiera decir con "sin pérdida de generalidad". Una cuestión más práctica es que si se proporcionaran las fórmulas para

n = 1

$n=1$ , no sería necesariamente claro cómo exactamente deberían buscar

n

$n$ . Ahora se proporcionan para general

n

$n$ para poder conectar cualquier valor de

n

$n$ , y ver qué pasa

— Alecos Papadopoulos

El problema es que no hay

n

$n$ ; Solo fue relevante para dar el trasfondo del problema, y debería borrarlo de la pregunta. Solo observas un solo

b

$b$ (en su terminología,

x

$\mathbf{x}$ , con

n = 1

$n=1$ )

— shabbychef

Eso no crea ningún problema. Solo inserte

1

$1$ donde quiera

n

$n$ Aparece en mis fórmulas.

— Alecos Papadopoulos

1

Un enfoque que casi funciona es el siguiente: tenga en cuenta que $\left(\vec{b}^{\top}\vec{b} - \vec{b}^{\top}\vec{a}\right) / \sqrt{\vec{b}^{\top}\vec{b}}$ 'parece' $\vec{z}^{\top} \vec{c}$ , dónde $\vec{c}$ es un vector de longitud unitaria (en realidad es $\vec{b}$ escalado a la longitud de la unidad), y $\vec{z} = \vec{b} - \vec{a} \sim \mathcal{N}\left(0,I\right)$ . Si fuera el caso que $\vec{c}$ eran independientes de $\vec{z}$ , entonces uno podría afirmar que $\vec{b}^{\top}\vec{b} + Z_{\alpha} \sqrt{\vec{b}^{\top}\vec{b}}$ era un $\alpha$ confianza confinada, donde $Z_{\alpha}$ es el $\alpha$ cuantil de lo normal.

Sin embargo, $\vec{c}$ no es independiente de $\vec{z}$ . Tiende a estar 'alineado con' $\vec{z}$ . Ahora, cuando $\vec{a}^{\top}\vec{a} \gg 1$ , $\vec{c}$ es esencialmente independiente, y la confianza vinculada anteriormente brinda una cobertura adecuada. Cuando $0 < \vec{a}^{\top}\vec{a} \ll 1$ , sin embargo, $\vec{z}^{\top}\vec{c}$ es más como una variable aleatoria chi-cuadrado desplazada, escalada y no central.

Una pequeña simulación R muestra los efectos de $\vec{a}^{\top}\vec{a}$ en la normalidad de la cantidad $\left(\vec{b}^{\top}\vec{b} - \vec{b}^{\top}\vec{a}\right) / \sqrt{\vec{b}^{\top}\vec{b}}$ :

z.sim <- function(p,eff.size,nsim=1e5) {
    a <- matrix(eff.size * rnorm(p),nrow=p)
    b <- rep(a,nsim) + matrix(rnorm(p*nsim),nrow=p)
    atb <- as.matrix(t(a) %*% b)
    btb <- matrix(colSums(b * b),nrow=1)
    isZ <- (btb - atb) / sqrt(btb)
}

set.seed(99) 
isZ <- z.sim(6,1e3)
jpeg("isZ.jpg")
qqnorm(isZ)
qqline(isZ)
dev.off()

jpeg("isChi.jpg")
isZ <- z.sim(6,1e-3)
qqnorm(isZ)
qqline(isZ)
dev.off()

un gran caso un pequeño caso

— shabbychef
fuente

Esto se ve como un plegado multivariado normal para mí ...

— shabbychef

Esto no funcionará porque la distribución depende de lo desconocido.

{\vec{a}}^{⊤} \vec{a}

$\vec{a}^{\top}\vec{a}$ . Quizás uno podría establecer un previo en esta cantidad que conduciría a un posterior en

{\vec{a}}^{⊤} \vec{b}

$\vec{a}^{\top}\vec{b}$ .

— shabbychef

1

Para el caso $p=1$ , podemos encontrar un intervalo de dos lados. En este caso podemos suponer que $0 < a$ es el parámetro de población, y observamos $b=\mathcal{N}\left(a,1\right).$ Deseamos enlazar $ab$ en probabilidad con alguna función de $|b|$ (Solo podemos usar el valor absoluto de $b$ ya que es el análogo unidimensional de $\sqrt{\vec{b}^{\top}\vec{b}}$ Para el $p>1$ caso.)

Dejar $\phi$ ser la función de densidad normal, y dejar $z_{\alpha/2}$ ser el $\alpha/2$ cuantil de lo normal. Entonces, trivialmente

\int_{- \infty}^{\infty} ϕ (si - una) yo {El | una - si El | \geq - z_{α / / 2}} re si = α .

$\int_{-\infty}^{\infty} \phi\left(b-a\right) I\left\{|a-b| \ge -z_{\alpha/2}\right\} \mathrm{d}b = \alpha.$ Ahora tenga en cuenta que

| a - b |

$|a-b|$ es invariante con respecto a la multiplicación del interior por

\pm 1

$\pm 1$ , entonces podemos multiplicar por

sign (b)

$\operatorname{sign}\left(b\right)$ . Es decir

| a - b | = | a sign (b) - | b | | .

$|a-b| = \left|a\operatorname{sign}\left(b\right) - |b| \right|.$ Usando esto, luego multiplicando las cantidades por

| b |

$|b|$ tenemos:

\begin{aligned} α & = PAGS (El | una firmar (si) - El | si El | El | \geq - z_{α / / 2}), \\ = PAGS (El | una si - {si}^{2} El | \geq - z_{α / / 2} El | si El |), \\ = PAGS (una si \notin [{si}^{2} + z_{α / / 2} El | si El |, {si}^{2} - z_{α / / 2} El | si El |]) . \end{aligned}

$\begin{align} \alpha &= \mathcal{P}\left( \left|a\operatorname{sign}\left(b\right) - |b| \right| \ge -z_{\alpha/2} \right),\\ &= \mathcal{P}\left( \left|ab - b^2 \right| \ge -z_{\alpha/2} |b| \right),\\ &= \mathcal{P}\left( ab \not\in \left[b^2 + z_{\alpha/2} |b|,b^2 - z_{\alpha/2} |b|\right] \right). \end{align}$

Así, el intervalo simétrico $\left[b^2 + z_{\alpha/2} |b|,b^2 - z_{\alpha/2} |b|\right]$ tiene $1-\alpha$ cobertura de $ab$ .

Probemos con el código:

test_ci <- function(a,nsim=100000,alpha=0.05) {
  b <- rnorm(nsim,mean=a,sd=1)
  b_lo <- b^2 + abs(b) * qnorm(alpha/2)
  b_hi <- b^2 + abs(b) * qnorm(alpha/2,lower.tail=FALSE)
  ab <- a*b
  isout <- ab < b_lo | ab > b_hi
  mean(isout) 
}
# try twice, with a 'small' and with a 'large'
set.seed(1234)
test_ci(a=0.01)
set.seed(4321)
test_ci(a=3.00)

Obtengo la tasa nominal de 0.05 tipo I:

[1] 0.04983
[1] 0.04998

No está claro cómo convertir esto en una solución para el $p>1$ caso, pero supongo algo de trigonometría y uso del $t$ Se aplicará la distribución.

— shabbychef
fuente

0

De nuevo, la pregunta es encontrar la función $c()$ tal que, si arreglaste $\vec{a}$ , entonces debajo $m$ sorteos independientes de $\vec{b_i} = \vec{a} + \vec{z_i}$ , la proporción de $i$ tal que $\vec{b_i}^{\top}\vec{a} \le c\left(\vec{b_i},p,\alpha\right)$ debería ir a $\alpha$ como $m \to \infty$ .

Daré una solución rota para ilustrar cómo debería funcionar esto en el código. Primera nota que $\vec{b}^{\top}\vec{b}$ es un chi-cuadrado no central con parámetro de no centralidad $\lambda=\vec{a}^{\top}\vec{a}$ y df $p$ . Entonces tenemos

mi [{\vec{si}}^{⊤} \vec{si}] = pags + {\vec{una}}^{⊤} \vec{una} .

$E\left[\vec{b}^{\top}\vec{b}\right] = p + \vec{a}^{\top}\vec{a}.$ Ahora tenga en cuenta que

{\vec{b}}^{⊤} \vec{a} \sim N ({\vec{a}}^{⊤} \vec{a}, {\vec{a}}^{⊤} \vec{a})

$\vec{b}^{\top}\vec{a} \sim \mathcal{N}\left(\vec{a}^{\top}\vec{a},\vec{a}^{\top}\vec{a}\right)$ . Entonces en particular,

mi [{\vec{si}}^{⊤} \vec{si} - {\vec{si}}^{⊤} \vec{una} - pags] = 0.

$E\left[\vec{b}^{\top}\vec{b} - \vec{b}^{\top}\vec{a} - p\right] = 0.$ Ignorando la covarianza de

{\vec{b}}^{⊤} \vec{a}

$\vec{b}^{\top}\vec{a}$ y

{\vec{b}}^{⊤} \vec{b}

$\vec{b}^{\top}\vec{b}$ (bajo mi propio riesgo), puedo afirmar erróneamente que la variación de esta cantidad es

Var [{\vec{si}}^{⊤} \vec{si} - {\vec{si}}^{⊤} \vec{una} - pags] = {\vec{una}}^{⊤} \vec{una} + 2 (pags + 2 {\vec{una}}^{⊤} \vec{una}) = 2 pags + 5 5 {\vec{una}}^{⊤} \vec{una} .

$\operatorname{Var}\left[\vec{b}^{\top}\vec{b} - \vec{b}^{\top}\vec{a} - p\right] = \vec{a}^{\top}\vec{a} + 2\left(p + 2 \vec{a}^{\top}\vec{a}\right) = 2p + 5\vec{a}^{\top}\vec{a}.$ Al unirlos, puedo hacer la afirmación extravagante y ridícula de que el

α

$\alpha$ cuantil de

{\vec{b}}^{⊤} \vec{b} - {\vec{b}}^{⊤} \vec{a} - p

$\vec{b}^{\top}\vec{b} - \vec{b}^{\top}\vec{a} - p$ esta alrededor

Z_{α} \sqrt{2 pags + 5 5 {\vec{una}}^{⊤} \vec{una}} .

$Z_{\alpha}\sqrt{2p+5\vec{a}^{\top}\vec{a}}.$ Entonces podría concluir incorrectamente que

PAGS r ({\vec{si}}^{⊤} \vec{una} \leq {\vec{si}}^{⊤} \vec{si} - pags + Z_{α} \sqrt{2 pags + 5 5 {\vec{una}}^{⊤} \vec{una}}) \approx α .

$Pr\left(\vec{b}^{\top}\vec{a} \le \vec{b}^{\top}\vec{b} - p + Z_{\alpha}\sqrt{2p+5\vec{a}^{\top}\vec{a}}\right) \approx \alpha.$ Ya que no se

\vec{a}

$\vec{a}$ , Podría sustituir aún más en la expectativa de

{\vec{b}}^{⊤} \vec{b}

$\vec{b}^{\top}\vec{b}$ llegar a

C (\vec{si}, pags, α) = {\vec{si}}^{⊤} \vec{si} - pags + Z_{α} \sqrt{0 0 \lor (5 5 {\vec{si}}^{⊤} \vec{si} - 3 pags)},

$c\left(\vec{b},p,\alpha\right) = \vec{b}^{\top}\vec{b} - p + Z_{\alpha}\sqrt{0 \vee \left(5\vec{b}^{\top}\vec{b}-3p\right)},$ teniendo cuidado, por supuesto, para evitar estimar una desviación estándar negativa .

Esto ciertamente no va a funcionar porque ignoramos el término de covarianza. Sin embargo, el punto es demostrar algo de código:

# my broken 'c' function
cfunc <- function(bee,p=length(bee),alpha=0.05) {
  lam <- sum(bee^2)
  sig <- sqrt(max(0,5*lam - 3*p))
  lam - p + qnorm(alpha) * sig
}
# check it via simulations
dosims <- function(a,testfunc,nrep=10000,alpha=0.05) {
  p <- length(a)
  replicate(nrep,{
    bee <- a + rnorm(p)
    bnd <- testfunc(bee,p,alpha)
    bta <- sum(bee * a)
    bta <= bnd
  })
}
options(digits=5)
set.seed(1234)
mean(dosims(rep(0.01,8),cfunc))
mean(dosims(rep(0.1,8),cfunc))
mean(dosims(rep(1,8),cfunc))

No obtengo nada como el nominal $0.05$ cobertura:

[1] 0.0011
[1] 0.0018
[1] 0.001

Debería poder conectar una confianza de trabajo destinada a testfunc.

— shabbychef
fuente

Intervalo de confianza en una cantidad aleatoria?

Vista geométrica del problema y distribuciones de b⃗ ⋅a⃗ si→⋅una→\vec{b}\cdot \vec{a} y |b⃗ |2El |si→El |2|\vec{b}|^2

Gráficos de distribuciones y algún método para definir un c (si⃗ , p , α )C(si→,pags,α)c(\vec{b},p,\alpha)

Vista geométrica del problema y distribuciones de $\vec{b}\cdot \vec{a}$ y $|\vec{b}|^2$

Gráficos de distribuciones y algún método para definir un $c(\vec{b},p,\alpha)$