Respuestas:
Hay varios. Encontrará una comparación exhaustiva en este enlace a una versión sin delegar del documento (referencia adecuada al final de esta respuesta).
Debido a las limitaciones del problema, el desglose del algoritmo más robusto (el L / RMC) es como máximo del 12,5%. Una ventaja del L / RMC es que se basa en cuantiles y sigue siendo interpretable incluso cuando la distribución subyacente no tiene momentos. Otra ventaja es que no asume la simetría de la distribución de la parte no contaminada de los datos para medir el peso de la cola: de hecho, el algoritmo devuelve dos números: el RMC para el peso de la cola derecha y el LMC para el peso de la cola izquierda.
La robustez de un estimador se puede medir por su punto de ruptura. Sin embargo, la noción de punto de ruptura es complicada en este contexto. Intuitivamente, significa que un adversario necesitaría controlar al menos el 12.5% de su muestra para hacer que este estimador tome valores arbitrarios (eso debe entenderse como un valor arbitrario dentro del rango de valores que el estimador puede devolver, ya que la medida del peso de la cola siempre está en por construcción: ninguna cantidad de contaminación puede, por ejemplo, hacer que el algoritmo regrese -1!). En la práctica, se encuentra que se puede reemplazar aproximadamente el 5% de la muestra con valores atípicos incluso muy patológicos sin causar que las estimaciones más afectadas (siempre hay dos) se aparten demasiado del valor que tenía en la muestra no contaminada.
El L / RMC también está ampliamente implementado. Por ejemplo, puede encontrar una implementación de R aquí . Como se explica en el artículo vinculado anteriormente, para calcular el L / RMC, debe calcular el MC (el estimador implementado en el enlace) por separado en la mitad izquierda y derecha de sus datos. Aquí, la mitad derecha (izquierda) son las submuestras formadas por la observación (más pequeña) más grande que la mediana de su muestra original.