Detección de valores atípicos en distribuciones beta

Digamos que tengo una gran muestra de valores en . Me gustaría estimar la distribución subyacente . La mayoría de las muestras provienen de esta supuesta distribución , mientras que el resto son valores atípicos que me gustaría ignorar en la estimación de y . $[0,1]$ $\text{Beta}(\alpha, \beta)$ $\text{Beta}(\alpha, \beta)$ $\alpha$ $\beta$

¿Cuál es una buena manera de proceder al respecto?

¿Sería una estándar: utilizada en diagramas de caja mala aproximación? $\text{Inliers} = \left\{x \in [Q1 - 1.5\, \text{IQR}, Q3 + 1.5 \,\text{IQR}] \right\}$

¿Cuál sería una forma más basada en principios de resolver esto? ¿Hay algún previo en particular en y que funcione bien en este tipo de problema? $\alpha$ $\beta$

ingrese la descripción de la imagen aquí

outliers pymc beta-distribution

— Amelio Vazquez-Reina
fuente

considere la respuesta publicada aquí . Una vez que se hayan marcado los valores atípicos, elimínelos y use el ajuste de distribución MLE en las observaciones restantes. Será más preciso por los motivos explicados en el enlace.

— user603

Una forma más sistemática de abordar este problema sería utilizar un modelo de mezcla explícito, con una especificación de la distribución de los "valores atípicos". Una forma simple sería usar una mezcla de una distribución beta (para los puntos que le interesan) y una distribución uniforme (para los "valores atípicos"). Al modelar los datos como una distribución mixta, puede obtener estimaciones de $\alpha$ y $\beta$ que tienen en cuenta automáticamente el hecho de que algunos de los puntos pueden ser atípicos.

Para resolver este problema utilizando un modelo de mezcla, deje $\phi$ ser la probabilidad de un "valor atípico" y asumir que tiene valores IID $X_1, ..., X_n \sim \phi \cdot \text{U}(0, 1) + (1- \phi) \cdot \text{Beta}(\alpha, \beta)$ . La función de probabilidad de los datos observados es:

L_{x} (α, β, ϕ) = \prod_{i = 1}^{n} (ϕ + (1 - ϕ) \frac{Γ (α + β)}{Γ (α) Γ (β)} x_{i}^{α - 1} (1 - x_{i})^{β - 1}) .

$L_\boldsymbol{x}(\alpha, \beta, \phi) = \prod_{i=1}^n \left( \phi + (1 - \phi) \frac{\Gamma (\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} x_i^{\alpha - 1} (1-x_i)^{\beta - 1} \right).$

Puede proceder desde aquí utilizando MLE clásico o estimación bayesiana. Cualquiera de las dos requerirá técnicas numéricas. Después de haber estimado los tres parámetros en el modelo, tendría una estimación de y que incorpora automáticamente la posibilidad de valores atípicos. También tendría una estimación de la proporción de valores atípicos del modelo de mezcla. $\alpha$ $\beta$

— Ben - Restablece a Monica
fuente