Actualización : con el beneficio de una retrospectiva de algunos años, escribí un tratamiento más conciso de esencialmente el mismo material en respuesta a una pregunta similar.
Cómo construir una región de confianza
Comencemos con un método general para construir regiones de confianza. Se puede aplicar a un solo parámetro, para obtener un intervalo de confianza o un conjunto de intervalos; y se puede aplicar a dos o más parámetros, para obtener regiones de confianza dimensional más altas.
Afirmamos que las estadísticas observadas D originan a partir de una distribución con parámetros θ , es decir, la distribución de muestreo s(d|θ) sobre posibles estadísticas d , y buscamos una región de confianza para θ en el conjunto de valores posibles Θ . Defina una región de mayor densidad (HDR): el h -HDR de un PDF es el subconjunto más pequeño de su dominio que admite la probabilidad h . Denote el h -HDR de s(d|ψ) como Hψ , para cualquier ψ∈Θ . Entonces, laregión de confianzah paraθ , dados los datosD , es el conjuntoCD={ϕ:D∈Hϕ} . Un valor típico deh sería 0,95.
Una interpretación frecuente
De la definición anterior de una región de confianza se sigue
d∈Hψ⟷ψ∈Cd
con Cd={ϕ:d∈Hϕ} . Ahora imagine un gran conjunto de ( imaginarios ) observaciones {Di} , tomada en circunstancias similares a D . es decir, son muestras de s(d|θ) . Como Hθ admite la masa de probabilidad h del PDFs(d|θ) ,P(Di∈Hθ)=h para todoi . Por lo tanto, la fracción de{Di} para la cualDi∈Hθ esh . Y así, usando la equivalencia anterior, la fracción de{Di} para la cualθ∈CDi también esh .
Esto, entonces, es lo que el reclamo frecuentista de la región de confianza h para θ equivale a:
Tomar un gran número de observaciones imaginarios {Di} de la distribución muestral s(d|θ) que dio lugar a la estadística observada D . Entonces, θ encuentra dentro de una fracción h de las regiones de confianza análogas pero imaginarias {CDi} .
Por lo tanto, la región de confianza CD no hace ningún reclamo sobre la probabilidad de que θ encuentre en algún lugar. La razón es simplemente que no hay nada en la formulación que nos permita hablar de una distribución de probabilidad sobre θ . La interpretación es simplemente una superestructura elaborada, que no mejora la base. La base es solo s(d|θ) y D , donde θ no aparece como una cantidad distribuida, y no hay información que podamos usar para abordar eso. Básicamente, hay dos formas de obtener una distribución sobre θ :
- Asigne una distribución directamente de la información disponible: p(θ|I) .
- Relacione θ con otra cantidad distribuida: p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx .
En ambos casos, θ debe aparecer a la izquierda en alguna parte. Los frecuentes no pueden usar ninguno de los métodos, porque ambos requieren un previo herético.
Una vista bayesiana
Lo más que un Bayesiano puede hacer de la región de confianza hCD , dada sin calificación, es simplemente la interpretación directa: que es el conjunto de ϕ para el cual D cae en el h -HDR Hϕ de la distribución de muestreo s(d|ϕ) . No necesariamente nos dice mucho sobre θ , y he aquí por qué.
La probabilidad de que θ∈CD , dada D y la información de fondo I , sea:
P(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
Observe que, a diferencia de la interpretación frecuentista, inmediatamente exigimos una distribución sobreθ. La información de fondoInos dice, como antes, que la distribución de muestreo ess(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
Ahora esta expresión en general no evalúa ah, es decir, laregión de confianzahCDno siempre contieneθcon probabilidadh. De hecho, puede ser muy diferente deh. Hay, sin embargo, muchas situaciones comunes en las quenose evalúan comoh, que es la razón por regiones de confianza a menudo son consistentes con nuestras intuiciones probabilísticas.
Por ejemplo, suponga que el PDF conjunto anterior de d y θ es simétrico en que pd,θ(d,θ|I)=pd,θ(θ,d|I) . (Claramente, esto implica una suposición de que el PDF se extiende sobre el mismo dominio en d y θ .) Entonces, si lo anterior es p(θ|I)=f(θ) , tenemos s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D) . Por lo tanto
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
From the definition of an HDR we know that for any ψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
Therefore, given that s(d|θ)f(θ)=s(θ|d)f(d), CD=HD implies P(θ∈CD|DI)=h. The antecedent satisfies
CD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.