Esta respuesta se centra completamente en la estimación de modo de una muestra, con énfasis en un método en particular. Si hay algún sentido fuerte en el que ya conoces la densidad, analítica o numéricamente, entonces la respuesta preferida es, en resumen, buscar el máximo máximo único o múltiple directamente, como en la respuesta de @Glen_b.
Los "modos de media muestra" pueden calcularse utilizando la selección recursiva de la media muestra con la longitud más corta. Aunque tiene raíces más largas, Bickel y Frühwirth (2006) presentaron una excelente presentación de esta idea.
La idea de estimar el modo como el punto medio del intervalo más corto que contiene un número fijo de observaciones se remonta al menos a Dalenius (1965). Ver también Robertson y Cryer (1974), Bickel (2002) y Bickel y Frühwirth (2006) sobre otros estimadores del modo.
Las estadísticas de orden de una muestra de valores de x están definidas por x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n - 1 ) ≤ x ( n )nxx(1)≤x(2)≤⋯≤x(n−1)≤x(n) .
El modo de media muestra se define aquí usando dos reglas.
Regla 1. Si , el modo de media muestra es x ( 1 ) . Si n = 2 , el modo de media muestra es ( x ( 1 ) + x ( 2 ) ) / 2 . Si n = 3 , el modo de medio-muestra es ( x ( 1 ) + x ( 2 ) ) / 2 si x ( 1 ) y x ( 2n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1)x(2)están más cerca que y x ( 3 ) , ( x ( 2 ) + x ( 3 ) ) / 2 si lo opuesto es verdad, y x ( 2 )x(2)x(3)(x(2)+x(3))/2x(2) de otro modo.
Regla 2. Si , aplicamos la selección recursiva hasta que quede con 3 o menos valores. Primero deje h 1 = ⌊ n / 2 ⌋ . La mitad más corta de los datos del rango k al rango k + h 1 se identifica para minimizar x ( k + h 1 ) - x ( k ) sobre k = 1 , ⋯ , n - h 1n≥43h1=⌊n/2⌋kk+h1x(k+h1)−x(k)k=1,⋯,n−h1 . Entonces la mitad más corta de esas valores se identifica usando h 2 = ⌊ h 1 / 2 ⌋ , y así sucesivamente. Para terminar, use la Regla 1.h1+1h2=⌊h1/2⌋
La idea de identificar la mitad más corta se aplica en el "shorth" nombrado por JW Tukey e introducido en el estudio de robustez Princeton de estimadores de ubicación por Andrews, Bickel, Hampel, Huber, Rogers y Tukey (1972, p.26) como el media de la media longitud más corta para h = ⌊ n / 2 ⌋ . Rousseeuw (1984), basándose en una sugerencia de Hampel (1975), señaló que el punto medio de la mitad más corta ( x k + x ( k + h )x(k),⋯,x(k+h)h=⌊n/2⌋ es el estimador de ubicación de mediana menor de cuadrados (LMS) para x . Ver Rousseeuw (1984) y Rousseeuw y Leroy (1987) para aplicaciones de LMS e ideas relacionadas a la regresión y otros problemas. Tenga en cuenta que este punto medio LMS también se llama shorth en algunas publicaciones más recientes (por ejemplo, Maronna, Martin y Yohai 2006, p.48). Además, la mitad más corta en sí misma a veces también se llama shorth, como lo indica el título de Grübel (1988). Para una implementación de Stata y más detalles, ver
desde SSC.(xk+x(k+h))/2xshorth
Algunos comentarios generales siguen las ventajas y desventajas de los modos de media muestra, desde el punto de vista de los analistas de datos prácticos tanto como los estadísticos matemáticos o teóricos. Cualquiera sea el proyecto, siempre será prudente comparar los resultados con medidas de resumen estándar (p. Ej., Medianas o medias, incluidas las medias geométricas y armónicas) y relacionar los resultados con gráficos de distribuciones. Además, si su interés está en la existencia o el alcance de la bimodalidad o la multimodalidad, será mejor mirar directamente a estimaciones adecuadamente suavizadas de la función de densidad.
Estimación del modo Al resumir dónde están los datos más densos, el modo de media muestra agrega un estimador automático del modo a la caja de herramientas. Las estimaciones más tradicionales del modo basadas en la identificación de los picos en los histogramas o incluso los gráficos de densidad del núcleo son sensibles a las decisiones sobre el origen o el ancho del contenedor o el tipo de núcleo y el ancho medio del núcleo y, en cualquier caso, son más difíciles de automatizar. Cuando se aplica a distribuciones que son unimodales y aproximadamente simétricas, el modo de media muestra estará cerca de la media y la mediana, pero más resistente que la media a los valores atípicos en cualquiera de las colas. Cuando se aplica a distribuciones que son unimodales y asimétricas, el modo de media muestra estará más cerca del modo identificado por otros métodos que la media o la mediana.
Simplicidad La idea del modo de media muestra es bastante simple y fácil de explicar a estudiantes e investigadores que no se consideran especialistas en estadística.
Interpretación gráfica El modo de media muestra puede relacionarse fácilmente con las pantallas estándar de distribuciones, como las gráficas de densidad del grano, la distribución acumulativa y las gráficas de cuantiles, histogramas y gráficas de tallo y hojas.
Al mismo tiempo, tenga en cuenta que
No es útil para todas las distribuciones Cuando se aplica a distribuciones que tienen aproximadamente forma de J, el modo de media muestra se aproximará al mínimo de los datos. Cuando se aplica a distribuciones que tienen aproximadamente forma de U, el modo de media muestra estará dentro de la mitad de la distribución que tenga una densidad promedio más alta. Ninguno de los comportamientos parece especialmente interesante o útil, pero igualmente hay poca necesidad de resúmenes de modo único para distribuciones en forma de J o en forma de U. Para las formas en U, la bimodalidad hace que la idea de un solo modo sea discutible, si no es inválida.
Lazos La mitad más corta puede no estar definida de manera única. Incluso con datos medidos, el redondeo de los valores informados con frecuencia puede dar lugar a vínculos. Qué hacer con dos o más mitades más cortas ha sido poco discutido en la literatura. Tenga en cuenta que las mitades atadas pueden superponerse o ser disjuntas.
hsmode
tt⌈t/2⌉
−9,−4,−1,0,−1,4,9−0.501+⌊n/2⌋nn, lo cual es difícil de lograr dados otros objetivos, en particular que la longitud de la ventana nunca debe disminuir con el tamaño de la muestra. Preferimos creer que este es un problema menor con conjuntos de datos de tamaño razonable.
1+⌊n/2⌋nnn=1,n=2⌈n/2⌉
1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66. The Stata implementation hsmode
reports a mode of 5.38. Robertson and Cryer's own estimates using a rather different procedure are 5.00,5.02,5.04. Compare with your favourite density estimation procedure.
Andrews, D.F., P.J. Bickel, F.R. Hampel, P.J. Huber, W.H. Rogers and J.W.
Tukey. 1972. Robust estimates of location: survey and advances.
Princeton, NJ: Princeton University Press.
Bickel, D.R. 2002. Robust estimators of the mode and skewness of
continuous data. Computational Statistics & Data Analysis 39:
153-163.
Bickel, D.R. and R. Frühwirth. 2006. On a fast, robust estimator of the
mode: comparisons to other estimators with applications. Computational Statistics & Data Analysis 50: 3500-3530.
Dalenius, T. 1965. The mode - A neglected statistical parameter. Journal, Royal Statistical Society A 128: 110-117.
Grübel, R. 1988. The length of the shorth. Annals of Statistics 16:
619-628.
Hampel, F.R. 1975. Beyond location parameters: robust concepts and
methods. Bulletin, International Statistical Institute 46: 375-382.
Maronna, R.A., R.D. Martin and V.J. Yohai. 2006. Robust statistics: theory
and methods. Chichester: John Wiley.
Robertson, T. and J.D. Cryer. 1974. An iterative procedure for estimating
the mode. Journal, American Statistical Association 69: 1012-1016.
Rousseeuw, P.J. 1984. Least median of squares regression. Journal,
American Statistical Association 79: 871-880.
Rousseeuw, P.J. and A.M. Leroy. 1987. Robust regression and outlier
detection. New York: John Wiley.
This account is based on documentation for
Cox, N.J. 2007. HSMODE: Stata module to calculate half-sample modes, http://EconPapers.repec.org/RePEc:boc:bocode:s456818.
See also David R. Bickel's website here for information on implementations in other software.