Si queremos ver visiblemente la distribución de datos continuos, ¿cuál entre el histograma y el pdf debería usarse?
¿Cuáles son las diferencias, no en cuanto a fórmulas, entre el histograma y el pdf?
Si queremos ver visiblemente la distribución de datos continuos, ¿cuál entre el histograma y el pdf debería usarse?
¿Cuáles son las diferencias, no en cuanto a fórmulas, entre el histograma y el pdf?
Respuestas:
Para aclarar el punto de Dirks:
Digamos que sus datos son una muestra de una distribución normal. Podría construir la siguiente trama:
La línea roja es la estimación empírica de la densidad, la línea azul es el pdf teórico de la distribución normal subyacente. Tenga en cuenta que el histograma se expresa en densidades y no en frecuencias aquí. Esto se hace para propósitos de trazado, en general las frecuencias se usan en histogramas.
Entonces, para responder a su pregunta: usted usa la distribución empírica (es decir, el histograma) si desea describir su muestra, y el pdf si desea describir la distribución subyacente hipotética.
La trama se genera mediante el siguiente código en R:
x <- rnorm(100)
y <- seq(-4,4,length.out=200)
hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Un histograma es una estimación previa de la edad de una densidad de la computadora. Una estimación de densidad es una alternativa.
En estos días usamos ambos, y hay una rica literatura sobre los valores predeterminados que se deben usar.
Un pdf, por otro lado, es una expresión de forma cerrada para una distribución dada . Eso es diferente de describir su conjunto de datos con una densidad o histograma estimado .
No hay una regla dura y rápida aquí. Si conoce la densidad de su población, entonces un PDF es mejor. Por otro lado, a menudo tratamos con muestras y un histograma puede transmitir cierta información que cubre una densidad estimada. Por ejemplo, Andrew Gelman hace este punto:
Un beneficio clave de un histograma es que, como un gráfico de datos sin procesar, contiene las semillas de su propia evaluación de errores. O, para decirlo de otra manera, la irregularidad de un histograma ligeramente atenuado realiza un servicio útil al indicar visualmente la variabilidad del muestreo. Por eso, si miras los histogramas en mis libros y artículos publicados, casi siempre uso muchos contenedores. Casi nunca me gustan esas estimaciones de densidad de kernel que las personas a veces usan para mostrar distribuciones unidimensionales. Prefiero ver el histograma y saber dónde están los datos.
Histograma de frecuencia relativa ( discreto )
Histograma de densidad ( discreto )
Función de densidad de probabilidad PDF ( continuo )
Estas referencias fueron útiles :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function
Distribución_probabilidad continua del sitio anterior
http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html