Estoy aprendiendo sobre la función empírica de distribución acumulativa. Pero aun no entiendo
¿Por qué se llama 'Empírico'?
¿Hay alguna diferencia entre Empirical CDF y CDF?
Estoy aprendiendo sobre la función empírica de distribución acumulativa. Pero aun no entiendo
¿Por qué se llama 'Empírico'?
¿Hay alguna diferencia entre Empirical CDF y CDF?
Respuestas:
Deje ser una variable aleatoria.
La distinción es qué medida de probabilidad se utiliza. Para el CDF empírico, utiliza la medida de probabilidad definida por los conteos de frecuencia en una muestra empírica.
Supongamos que es una variable aleatoria que denota el resultado de un solo lanzamiento de moneda donde denota caras y denota colas.
El CDF para una moneda justa viene dado por:
Si volteó 2 cabezas y 1 cola, el CDF empírico sería:
La CDF empírica podría reflejar que en su muestra, de sus lanzamientos eran cabezas.
El CDF está dado por:
Digamos que tuvo 3 sorteos IID y obtuvo los valores . El CDF empírico sería:
Con suficientes sorteos de IID (y se cumplen ciertas condiciones de regularidad), el CDF empírico convergería en el CDF subyacente de la población.
¿Hay alguna diferencia entre Empirical CDF y CDF?
Si, son diferentes. Un cdf empírico es un cdf apropiado, pero los cdf empíricos siempre serán discretos, incluso cuando no se extraigan de una distribución discreta, mientras que el cdf de una distribución puede ser otras cosas además de discreto.
Si trata una muestra como si fuera una población de valores, cada uno igualmente probable (es decir, coloque la probabilidad 1 / n en cada observación), entonces el cdf de esa distribución sería el ECDF de los datos.
¿Por qué se llama 'Empírico'?
Es una estimación de la población cdf basada en la muestra; específicamente, si trata las proporciones de la muestra en cada valor de datos distinto y lo trata como si fuera una probabilidad en la población, obtiene el ECDF.
Empírico tiene un significado algo así como "por observación en lugar de teoría", y eso es exactamente lo que significa en este caso ... usar las observaciones para determinar la función de distribución.
El CDF empírico se construye a partir de un conjunto de datos real (en el gráfico a continuación, utilicé 100 muestras de una distribución normal estándar). El CDF es una construcción teórica: es lo que vería si pudiera tomar infinitas muestras.
El CDF empírico generalmente se aproxima bastante bien al CDF, especialmente para muestras grandes (de hecho, existen teoremas sobre la rapidez con que converge al CDF a medida que aumenta el tamaño de la muestra).
Empírico es algo que construyes a partir de datos y observaciones. Por ejemplo, suponga que desea saber acerca de la distribución de la altura de las personas en un país. Se comienza midiendo personas y se obtiene un histograma que se puede aproximar a una distribución. Luego calcula el CDF empírico.
Si está utilizando una distribución estadística (una fórmula determinista que proporciona exactamente la misma salida con los mismos parámetros), también puede calcular su CDF.
Según Dictionary.com , las definiciones de "empírico" incluyen:
derivado o guiado por la experiencia o el experimento.
Por lo tanto, el CDF empírico es el CDF que obtiene de sus datos. Esto contrasta con el CDF teórico (a menudo llamado "CDF"), que se obtiene de un modelo estadístico o probabilístico como la distribución Normal.