Los conceptos estadísticos y matemáticos son exactamente iguales, entendiendo que "familia" es un término matemático genérico con variaciones técnicas adaptadas a diferentes circunstancias:
Una familia paramétrica es una curva (o superficie u otra generalización de dimensión finita de la misma) en el espacio de todas las distribuciones.
El resto de esta publicación explica lo que eso significa. Por otro lado, no creo que nada de esto sea controvertido, ni matemática ni estadísticamente (aparte de un problema menor que se señala a continuación). En apoyo de esta opinión, he proporcionado muchas referencias (principalmente a artículos de Wikipedia).
Esta terminología de "familias" tiende a usarse cuando se estudian las clases de funciones en un conjunto Y o "mapas". Dado un dominio X , una familia F de mapas en X parametrizada por algún conjunto Θ (los "parámetros") es una funciónCYYX FX Θ
F: X× Θ → Y
para el cual (1) para cada , la función F θ : Xθ ∈ Θ dada por F θ ( x ) = F ( x , θ ) está en C Y y (2)Fθ: X→ YFθ(x)=F(x,θ)CY tiene ciertas propiedades "agradables".F
La idea es que queremos variar las funciones de a Y de manera "uniforme" o controlada. La propiedad (1) significa que cada θ designa dicha función, mientras que los detalles de la propiedad (2) capturarán el sentido en el que un cambio "pequeño" en θ induce un cambio suficientemente "pequeño" en F θXYθθFθ .
Un ejemplo matemático estándar, cercano al mencionado en la pregunta, es una homotopía . En este caso, es la categoría de mapas continuos desde los espacios topológicos X al espacio topológico Y ;CY XY es el intervalo de unidad con su topología usual, y requiere que F sea unacontinuamapa a partir del producto topológico X × Θ en Y . Puede considerarse como una "deformación continua del mapa 0Θ=[0,1]⊂RFX×ΘYF0a ". Cuando X YF1 es en sí mismo un intervalo, tales mapas soncurvasenX=[0,1]Y y la homotopía es una deformación suave de una curva a otra.
Para aplicaciones estadísticas, es el conjunto de todas las distribuciones en R (o, en la práctica, en R n para alguna n , pero para mantener la exposición simple me enfocaré en n = 1CYRRnnn=1 ). Podemos identificarlo con el conjunto de todas las funciones càdlàg no decrecientes donde el cierre de su rango incluye tanto 0 como 1 : estas son las funciones de distribución acumulativa, o simplemente funciones de distribución. Por lo tanto, X = R yR→[0,1]01X=R .Y=[0,1]
Una familia de distribuciones es cualquier subconjunto de . CY Otro nombre para una familia es modelo estadístico. Consiste en todas las distribuciones que suponemos que rigen nuestras observaciones, pero no sabemos qué distribución es la real.
- Una familia puede estar vacía.
- sí es una familia.CY
- Una familia puede consistir en una distribución única o solo en un número finito de ellas.
Estas características teóricas de conjuntos abstractos son de relativamente poco interés o utilidad. Es solo cuando consideramos una estructura matemática adicional (relevante) en que este concepto se vuelve útil. Pero, ¿qué propiedades de C Y son de interés estadístico? Algunos que aparecen con frecuencia son:CYCY
es unconjunto convexo: dadas dos distribuciones F , G ∈ C Y , podemos formar ladistribución delamezcla(1-t) F +t GCYF,G∈CY para todas las t ∈ [ 0 , 1 ] . Este es un tipo de "homotopía" de F a G(1−t)F+tG∈Yt∈[0,1]FG .
Grandes partes de admiten varias pseudo métricas, como la divergencia Kullback-Leibler o la métrica de Fisher Information estrechamente relacionada.CY
tiene una estructura de aditivo: correspondiente a cualquiera de las dos distribuciones F y G es su suma, F ⋆ G .CYFGF⋆G
admite muchas funciones útiles y naturales, a menudo denominadas "propiedades". Estos incluyen cualquier cuantil fijo (como la mediana), así como losacumulantes.CY
es un subconjunto de unespacio de funciones. Como tal, hereda muchas métricas útiles, como lanorma sup(norma L ∞ ) dada por | El | F-G | El | ∞ = sup x ∈ R | F(x)-G(x) | .CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
Naturales acciones de grupo en inducen acciones en C Y . Las acciones más comunes son las traducciones T μ : x → x + μ y scalings S σ : x → x σ para σ > 0 . El efecto que tienen en una distribución es enviar F a la distribución dada por F μ , σ ( x ) = F ( ( x - μ /RCY Tμ:x→x+μ Sσ:x→xσσ>0F . Estos conducen a los conceptos de familias de escala de ubicación y sus generalizaciones. (No proporciono una referencia, porque las búsquedas extensas en la Web muestran una variedad de definiciones diferentes: aquí, al menos, puede haber un poco de controversia).Fμ,σ(x)=F((x−μ)/σ)
Las propiedades que importan dependen del problema estadístico y de cómo piensa analizar los datos. Abordar todas las variaciones sugeridas por las características anteriores tomaría demasiado espacio para este medio. Centrémonos en una aplicación importante común.
Tomemos, por ejemplo, la máxima probabilidad. En la mayoría de las aplicaciones, querrá poder usar Cálculo para obtener una estimación. Para que esto funcione, debe ser capaz de "tomar derivados" en la familia.
( Técnica de lado: La forma habitual en que esto se logra es seleccionar un dominio para d ≥ 0 y especifique una , continua localmente invertible función p de Θ en C Y (esto significa que por cada. Theta ∈ Θ hay existe una bola B ( θ , ϵ ) , con ϵ > 0 para la cual p ∣ B ( θ , ϵ ) BΘ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 es uno a uno. En otras palabras, si alteramos θ en una cantidad suficientemente pequeña siempre obtendremos una distribución diferente.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
En consecuencia, en la mayoría de las aplicaciones de ML requerimos que sea continuo (y con suerte, casi diferenciable en todas partes) en el componente Θ . (Sin continuidad, maximizar la probabilidad generalmente se convierte en un problema insoluble). Esto lleva a la siguiente definición orientada a la probabilidad de una familia paramétrica :pΘ
Una familia paramétrica de distribuciones (univariadas) es un mapa localmente invertible con Θ ⊂ R n , para el cual (a) cada F θ es una función de distribución y (b) para cada x ∈ R , la función L x : θ → [ 0 , 1 ] dada por L x ( θ ) = F ( x , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) es continuo y casi en todas partes diferenciable.
Tenga en cuenta que una familia paramétrica es más que solo la colección de F θ : también incluye la forma específica en que los valores de los parámetros θ corresponden a las distribuciones.FFθθ
Terminemos con algunos ejemplos ilustrativos.
Deje ser el conjunto de todas las distribuciones normales. Como se indicó, esta no es una familia paramétrica: es solo una familia. Para ser paramétricos, tenemos que elegir una parametrización. Una forma es elegir Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 }
y mapear ( μ , σ ) a la distribución Normal con media μ
y varianza σ 2 .CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
El conjunto de Poisson distribuciones(λ) es una familia paramétrica con .λ∈Θ=(0,∞)⊂R1
(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1}.
F and G be any two distributions. Then F(x,θ)=(1−θ)F(x)+θG(x) is a parametric family for θ∈[0,1]. (Proof: the image of F is a set of distributions and its partial derivative in θ equals −F(x)+G(x) which is defined everywhere.)
The Pearson family is a four-dimensional family, Θ⊂R4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.
The family CY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CY with any topology (whether statistically useful or not) and p:Θ→CY is continuous and locally has a continuous inverse, then locally CY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.