Definición de familia de una distribución?


14

¿Una familia de una distribución tiene una definición de estadística diferente a la de otras disciplinas?

En general, una familia de curvas es un conjunto de curvas, cada una de las cuales viene dada por una función o parametrización en la que se varía uno o más de los parámetros. Dichas familias se utilizan, por ejemplo, para caracterizar componentes electrónicos .

Para las estadísticas, una familia según una fuente es el resultado de variar el parámetro de forma. Entonces, ¿cómo podemos entender que la distribución gamma tiene un parámetro de forma y escala y que solo la distribución gamma generalizada tiene, además, un parámetro de ubicación? ¿Eso hace que la familia sea el resultado de variar el parámetro de ubicación? Según @whuber, el significado de una familia es implícitamente Una "parametrización" de una familia es un mapa continuo desde un subconjunto de ℝ n , con su topología habitual, en el espacio de distribuciones, cuya imagen es esa familia.n

¿Qué es, en lenguaje simple, una familia para distribuciones estadísticas?

Una pregunta sobre las relaciones entre las propiedades estadísticas de las distribuciones de la misma familia ya ha generado una controversia considerable por una pregunta diferente, por lo que parece que vale la pena explorar el significado.

Que esta no es necesariamente una pregunta simple nace por su uso en la frase familia exponencial , que no tiene nada que ver con una familia de curvas, sino que está relacionada con cambiar la forma del PDF de una distribución por reparametrización no solo de parámetros , pero también la sustitución de funciones de variables aleatorias independientes.


1
Por la frase "familia de una distribución", ¿quieres decir algo más "una familia de distribuciones"? Una familia exponencial es una familia de distribuciones (con ciertas propiedades), e interpretando el pdf de cada distribución como una curva, incluso corresponde a una familia de curvas, por lo que los últimos párrafos parecen confusos.
Juho Kokkala

@JuhoKokkala Parece confuso porque el significado de "familia" depende del contexto. Por ejemplo, una distribución normal de media desconocida y varianza conocida se encuentra en la familia exponencial. Una distribución normal tiene soporte infinito, , y una distribución exponencial tiene soporte semi-infinito, [ 0 , + ) , por lo que no hay familia de curvas para una distribución exponencial que cubra el rango de una normal distribución, nunca tienen la misma forma ...(-,+)[0 0,+)
Carl

@JuhoKokkala ... y un PDF exponencial ni siquiera tiene un parámetro de ubicación, mientras que una distribución normal no puede prescindir de uno. Vea el enlace de arriba para las sustituciones necesarias, y el contexto en el que un pdf normal está en la familia exponencial.
Carl

1
stats.stackexchange.com/questions/129990/… puede ser relevante. "La distribución normal de la media desconocida y la varianza conocida se encuentra en la familia exponencial" es, que yo sepa, abuso de terminología (aunque algo común). Para ser exactos, una familia exponencial es una familia de distribuciones con ciertas propiedades. La familia de distribuciones normales con media desconocida y varianza conocida es una familia exponencial; la familia de distribuciones exponenciales es otra familia exponencial, etc.
Juho Kokkala

1
@JuhoKokkala: Esa "familia" se usa con tanta frecuencia (ab), en un caso especial, para significar "conjunto de familias" tal vez valga la pena sacar otra respuesta. (No puedo pensar en otros casos, por alguna razón parece que nadie es propenso a hablar de " la familia de la escala de ubicación".)
Scortchi - Restablece a Monica

Respuestas:


14

Los conceptos estadísticos y matemáticos son exactamente iguales, entendiendo que "familia" es un término matemático genérico con variaciones técnicas adaptadas a diferentes circunstancias:

Una familia paramétrica es una curva (o superficie u otra generalización de dimensión finita de la misma) en el espacio de todas las distribuciones.

El resto de esta publicación explica lo que eso significa. Por otro lado, no creo que nada de esto sea controvertido, ni matemática ni estadísticamente (aparte de un problema menor que se señala a continuación). En apoyo de esta opinión, he proporcionado muchas referencias (principalmente a artículos de Wikipedia).


Esta terminología de "familias" tiende a usarse cuando se estudian las clases de funciones en un conjunto Y o "mapas". Dado un dominio X , una familia F de mapas en X parametrizada por algún conjunto Θ (los "parámetros") es una funciónCYYX FX Θ

F:X×ΘY

para el cual (1) para cada , la función F θ : XθΘ dada por F θ ( x ) = F ( x , θ ) está en C Y y (2)Fθ:XYFθ(x)=F(x,θ)CY tiene ciertas propiedades "agradables".F

La idea es que queremos variar las funciones de a Y de manera "uniforme" o controlada. La propiedad (1) significa que cada θ designa dicha función, mientras que los detalles de la propiedad (2) capturarán el sentido en el que un cambio "pequeño" en θ induce un cambio suficientemente "pequeño" en F θXYθθFθ .

Un ejemplo matemático estándar, cercano al mencionado en la pregunta, es una homotopía . En este caso, es la categoría de mapas continuos desde los espacios topológicos X al espacio topológico Y ;CY XY es el intervalo de unidad con su topología usual, y requiere que F sea unacontinuamapa a partir del producto topológico X × Θ en Y . Puede considerarse como una "deformación continua del mapa 0Θ=[0,1]RFX×ΘYF0a ". Cuando X YF1 es en sí mismo un intervalo, tales mapas soncurvasenX=[0,1]Y y la homotopía es una deformación suave de una curva a otra.

Para aplicaciones estadísticas, es el conjunto de todas las distribuciones en R (o, en la práctica, en R n para alguna n , pero para mantener la exposición simple me enfocaré en n = 1CYRRnnn=1 ). Podemos identificarlo con el conjunto de todas las funciones càdlàg no decrecientes donde el cierre de su rango incluye tanto 0 como 1 : estas son las funciones de distribución acumulativa, o simplemente funciones de distribución. Por lo tanto, X = R yR[0,1]01X=R .Y=[0,1]

Una familia de distribuciones es cualquier subconjunto de . CY Otro nombre para una familia es modelo estadístico. Consiste en todas las distribuciones que suponemos que rigen nuestras observaciones, pero no sabemos qué distribución es la real.

  • Una familia puede estar vacía.
  • sí es una familia.CY
  • Una familia puede consistir en una distribución única o solo en un número finito de ellas.

Estas características teóricas de conjuntos abstractos son de relativamente poco interés o utilidad. Es solo cuando consideramos una estructura matemática adicional (relevante) en que este concepto se vuelve útil. Pero, ¿qué propiedades de C Y son de interés estadístico? Algunos que aparecen con frecuencia son:CYCY

  1. es unconjunto convexo: dadas dos distribuciones F , G C Y , podemos formar ladistribución delamezcla(1-t) F +t GCYF,GCY para todas las t [ 0 , 1 ] . Este es un tipo de "homotopía" de F a G(1t)F+tGYt[0,1]FG .

  2. Grandes partes de admiten varias pseudo métricas, como la divergencia Kullback-Leibler o la métrica de Fisher Information estrechamente relacionada.CY

  3. tiene una estructura de aditivo: correspondiente a cualquiera de las dos distribuciones F y G es su suma, FG .CYFGFG

  4. admite muchas funciones útiles y naturales, a menudo denominadas "propiedades". Estos incluyen cualquier cuantil fijo (como la mediana), así como losacumulantes.CY

  5. es un subconjunto de unespacio de funciones. Como tal, hereda muchas métricas útiles, como lanorma sup(norma L ) dada por | El | F-G | El | = sup x R | F(x)-G(x) | .CYL

    ||FG||=supxR|F(x)G(x)|.
  6. Naturales acciones de grupo en inducen acciones en C Y . Las acciones más comunes son las traducciones T μ : x x + μ y scalings S σ : x x σ para σ > 0 . El efecto que tienen en una distribución es enviar F a la distribución dada por F μ , σ ( x ) = F ( ( x - μ /RCY Tμ:xx+μ Sσ:xxσσ>0F . Estos conducen a los conceptos de familias de escala de ubicación y sus generalizaciones. (No proporciono una referencia, porque las búsquedas extensas en la Web muestran una variedad de definiciones diferentes: aquí, al menos, puede haber un poco de controversia).Fμ,σ(x)=F((xμ)/σ)

Las propiedades que importan dependen del problema estadístico y de cómo piensa analizar los datos. Abordar todas las variaciones sugeridas por las características anteriores tomaría demasiado espacio para este medio. Centrémonos en una aplicación importante común.

Tomemos, por ejemplo, la máxima probabilidad. En la mayoría de las aplicaciones, querrá poder usar Cálculo para obtener una estimación. Para que esto funcione, debe ser capaz de "tomar derivados" en la familia.

( Técnica de lado: La forma habitual en que esto se logra es seleccionar un dominio para d 0 y especifique una , continua localmente invertible función p de Θ en C Y (esto significa que por cada. Theta Θ hay existe una bola B ( θ , ϵ ) , con ϵ > 0 para la cual p B ( θ , ϵ ) BΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0 es uno a uno. En otras palabras, si alteramos θ en una cantidad suficientemente pequeña siempre obtendremos una distribución diferente.))pB(θ,ϵ):B(θ,ϵ)ΘCYθ

En consecuencia, en la mayoría de las aplicaciones de ML requerimos que sea ​​continuo (y con suerte, casi diferenciable en todas partes) en el componente Θ . (Sin continuidad, maximizar la probabilidad generalmente se convierte en un problema insoluble). Esto lleva a la siguiente definición orientada a la probabilidad de una familia paramétrica :pΘ

Una familia paramétrica de distribuciones (univariadas) es un mapa localmente invertible con Θ R n , para el cual (a) cada F θ es una función de distribución y (b) para cada x R , la función L x : θ [ 0 , 1 ] dada por L x ( θ ) = F ( x , θ )

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) es continuo y casi en todas partes diferenciable.

Tenga en cuenta que una familia paramétrica es más que solo la colección de F θ : también incluye la forma específica en que los valores de los parámetros θ corresponden a las distribuciones.FFθθ

Terminemos con algunos ejemplos ilustrativos.

  • Deje ser el conjunto de todas las distribuciones normales. Como se indicó, esta no es una familia paramétrica: es solo una familia. Para ser paramétricos, tenemos que elegir una parametrización. Una forma es elegir Θ = { ( μ , σ ) R 2σ > 0 } y mapear ( μ , σ ) a la distribución Normal con media μ y varianza σ 2 .CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • El conjunto de Poisson distribuciones(λ) es una familia paramétrica con .λΘ=(0,)R1

  • (θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1}.

  • F and G be any two distributions. Then F(x,θ)=(1θ)F(x)+θG(x) is a parametric family for θ[0,1]. (Proof: the image of F is a set of distributions and its partial derivative in θ equals F(x)+G(x) which is defined everywhere.)

  • The Pearson family is a four-dimensional family, ΘR4, which includes (among others) the Normal distributions, Beta distributions, and Inverse Gamma distributions. This illustrates the fact that any one given distribution may belong to many different distribution families. This is perfectly analogous to observing that any point in a (sufficiently large) space may belong to many paths that intersect there. This, together with the previous construction, shows us that no distribution uniquely determines a family to which it belongs.

  • The family CY of all finite-variance absolutely continuous distributions is not parametric. The proof requires a deep theorem of topology: if we endow CY with any topology (whether statistically useful or not) and p:ΘCY is continuous and locally has a continuous inverse, then locally CY must have the same dimension as that of Θ. However, in all statistically meaningful topologies, CY is infinite dimensional.


2
It will take me about a day to digest your answer. I will have to chew slowly. Meanwhile, thank you.
Carl

(+1) OK, I slogged through it. So is F:R×Θ[0,1] a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.
Carl

1
Doesn't the second sentence of this answer serve that request for simplicity?
whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.
Carl

1
I have accepted your answer. You have enough information in it that I could apply it to the question in question.
Carl

1

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.


0

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair (S,P), where S is the set of possible observations, i.e., the sample space, and P is a set of probability distributions on S.

Suppose that we have a statistical model (S,P) with P={Pθ:θΘ}. The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that ΘRd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
In this example, the dimension, d, equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, μ=0, we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.