¿Qué es exactamente una distribución?

Sé muy poco de probabilidad y estadística, y deseo aprender. Veo la palabra "distribución" utilizada en todo el lugar en diferentes contextos.

Por ejemplo, una variable aleatoria discreta tiene una "distribución de probabilidad". Yo sé lo que es esto. Una variable aleatoria continua tiene una función de densidad de probabilidad, entonces para , la integral de a de la función de densidad de probabilidad es la función de distribución acumulativa evaluada en . $x\in\mathbb{R}$ $-\infty$ $x$ $x$

Y aparentemente solo "función de distribución" es sinónimo de "función de distribución acumulativa", al menos cuando se habla de variables aleatorias continuas (pregunta: ¿son siempre sinónimos?).

Luego hay muchas distribuciones famosas. Distribución distribución, etc. Pero, ¿qué es exactamente una distribución ? ¿Es la función de distribución acumulativa de una variable aleatoria ? ¿O la función de densidad de probabilidad de una variable aleatoria ? $\Gamma$ $\chi^2$ $\Gamma$ $\Gamma$ $\Gamma$

Pero luego, una distribución de frecuencia de un conjunto de datos finitos parece ser un histograma.

Larga historia corta: en Probabilidad y estadística, ¿cuál es la definición de la palabra "distribución"?

Conozco la definición de distribución en Matemáticas (un elemento del espacio dual de la colección de funciones de prueba equipadas con la topología de límite inductivo), pero no Probabilidad y Estadística.

distributions definition

— danzibr
fuente

El artículo de Wikipedia correspondiente parece ser una introducción decente al tema.

— Aleksandr Blekh

Estrictamente, 'distribución' y 'cdf' deben considerarse sinónimos, pero 'distribución' se usa a menudo en un sentido mucho más flexible y se usa para referirse realmente a una densidad / pmf.

— Glen_b -Reinstate Monica el

Su comprensión de una distribución es bastante cercana a la de probabilidad; La principal diferencia es que aquellos en probabilidad disfrutan de algunas propiedades adicionales (de ser positivo y normalizado a la unidad). La conexión es que su definición establece una distribución en términos del operador de expectativa asociado. También existe un abuso (grave) del lenguaje que prevalece en las estadísticas, que también llama a una familia de distribuciones parametrizadas una "distribución". Finalmente, cualquier conjunto de datos finito determina una distribución obtenida por muestreo de ella, su "distribución empírica".

— whuber

@whuber Eso ayuda, gracias En particular, el abuso del lenguaje. Sería como llamar a la integral indefinida de una función ... una función.

— danzibr

Una pregunta similar con buenas respuestas: stats.stackexchange.com/questions/210403/…

— kjetil b halvorsen

Respuestas:

Lo siguiente es para valued random-variables. La extensión a otros espacios es sencilla si está interesado. Yo diría que la siguiente definición un poco más general es más intuitiva que considerar por separado las funciones de densidad, masa y distribución acumulativa. $\mathbb R-$

Incluyo algunos términos matemáticos / probabilísticos en el texto para corregirlo. Si uno no está familiarizado con esos términos, la intuición se capta igualmente bien con solo pensar en "conjuntos de Borel" como "cualquier subconjunto de que se me ocurra", y en la variable aleatoria como el resultado numérico de algún experimento con una probabilidad asociada $\mathbb R$

Deje sea un espacio de probabilidad y un valor variable aleatoria en este espacio. $\left( \Omega, \mathcal F, P \right)$ $X(\omega)$ $\mathbb R-$

La función de conjunto , donde es un conjunto Borel, se llama la distribución de . $Q(A):=P\left(\omega \in \Omega : X(\omega) \in A\right)$ $A$ $X$

En palabras, la distribución le dice (en términos generales), para cualquier subconjunto de , la probabilidad de que tome un valor en ese conjunto. Se puede demostrar que está completamente determinado por la función y viceversa. Para hacerlo, y omito los detalles aquí, construya una medida en los conjuntos de Borel que asignen la probabilidad a todos los conjuntos y argumente que esta medida finita está de acuerdo con en un $\mathbb R$ $X$ $Q$ $F(x):=P(X\leq x)$ $F(x)$ $(-\infty, x)$ $Q$ $\pi-$ sistema que genera el Borel $\sigma-$ álgebra.

Si sucede que $Q(A)$ puede escribirse como $Q(A) =\int_Af(x)dx$ entonces $f$ es una función de densidad para $Q$ y puede ver, aunque esta densidad no está determinada de manera única (considere los cambios en conjuntos de Lebesgue miden cero), tiene sentido hablar también de $f$ como la distribución de . Por lo general, sin embargo, lo llamamos la función de densidad de probabilidad de . $X$ $X$

Del mismo modo, si sucede que se puede escribir como , entonces tiene sentido hablar de como la distribución de aunque generalmente la llamamos la función de masa de probabilidad. $Q(A)$ $Q(A)=\sum_{i\in A\cap\{\dots,-1,0,1,\dots\}}f(i)$ $f$ $X$

Por lo tanto, siempre que lea algo como " sigue una distribución uniforme en ", simplemente significa que la función , que le indica la probabilidad de que tome valores en ciertos conjuntos, se caracteriza por función de densidad de probabilidad o la función de distribución acumulativa $X$ $[0,1]$ $Q(A)$ $X$ $f(x)=I_{[0,1]}$ . $F(x)=\int_{-\infty}^x f(t)dt$

Una nota final sobre el caso en el que no se menciona una variable aleatoria, sino solo una distribución. Se puede demostrar que dada una función de distribución (o una función de distribución de masa, densidad o acumulación), existe un espacio de probabilidad con una variable aleatoria que tiene esta distribución. Por lo tanto, esencialmente no hay diferencia en hablar sobre una distribución, o sobre una variable aleatoria que tenga esa distribución. Es solo una cuestión de enfoque.

— ekvall
fuente

Sea un espacio de probabilidad, sea un espacio medible y sea una función medible, lo que significa que para cada . La distribución de es la medida de probabilidad $(\Omega,\mathscr{F},P)$ $(\mathscr{X},\mathscr{B})$ $X:\Omega\to\mathscr{X}$ $X^{-1}(B)=\{\omega:X(\omega)\in B\}\in\mathscr{F}$ $B\in\mathscr{B}$ $X$ sobre definido por . Cuando y es el campo sigma de Borel, nos referimos a la función como una "variable" aleatoria. $\mu_X$ $(\mathscr{X},\mathscr{B})$ $\mu_X(B)=P(X\in B)$ $\mathscr{X}=\mathbb{R}$ $\mathscr{B}$ $X$

— zen
fuente

debe ser muy claro para las personas con poco conocimiento de probabilidad y estadísticas :)

— Alexey Grigorev

Bueno, el OP parece saber cosas matemáticas avanzadas como "elemento del espacio dual de la colección de funciones de prueba equipadas con la topología de límite inductivo". Verifica el final de su pregunta.

— Zen

De hecho, fue una buena respuesta para mí. Necesitaba verificar la definición de un espacio de probabilidad, pero para una persona con antecedentes matemáticos, estaba claro. Aprecié la concisión de la respuesta, solo que no la acepté debido a los detalles en la otra respuesta.

— danzibr

La pregunta y las respuestas hasta ahora parecen haberse centrado en distribuciones teóricas. Las distribuciones empíricas proporcionan una comprensión más intuitiva de las distribuciones.

Ejemplo

Durante un torneo de clase en saltar la cuerda observamos a todos los niños en una clase de saltar la cuerda. El primer niño puede saltar dos veces, el segundo cuatro veces, el siguiente quince veces, etc. Registramos el número de saltos. Cinco de los niños saltaron ocho veces cada uno, pero solo uno de los niños saltó dos veces. Decimos que saltar ocho veces se distribuye de manera diferente que saltar dos veces.

Una definición ostensiva para una distribución observada es la frecuencia de ocurrencias para cada valor observado de una variable.

En estadística inferencial intentamos ajustar las distribuciones teóricas a las distribuciones observadas, porque nos gustaría trabajar con los supuestos de las distribuciones teóricas. Puede alcanzar una definición similar para distribuciones teóricas reemplazando "observado" por "observable" o para ser más preciso: "esperado".

— noumenal
fuente