'Outlier' es un término conveniente para recopilar datos juntos que no se ajustan a lo que espera que se vea su proceso, para eliminarlo del análisis.
Sugeriría nunca (advertencia más adelante) eliminar los valores atípicos. Mi experiencia es el control de procesos estadísticos, por lo que a menudo me ocupo de grandes volúmenes de datos de series temporales generados automáticamente que se procesan utilizando un gráfico de ejecución / diagrama de caja móvil, etc., dependiendo de los datos y la distribución.
Lo que sucede con los valores atípicos es que siempre proporcionarán información sobre su "proceso". A menudo, lo que estás pensando como un proceso es en realidad muchos procesos y es mucho más complejo de lo que crees.
Usando el ejemplo en su pregunta, sugeriría que podría haber una serie de 'procesos'. habrá variación debido a ...
- muestras tomadas por un dispositivo de conductancia
- muestras tomadas entre dispositivos de conductancia
- cuando el sujeto quitó una sonda
- cuando el sujeto se movió
- diferencias dentro de la piel de un sujeto en su cuerpo o entre diferentes días de muestreo (cabello, humedad, aceite, etc.)
- diferencias entre sujetos
- La formación de la persona que toma las medidas y las variaciones entre el personal.
Todos estos procesos producirán una variación adicional en los datos y probablemente moverán la media y cambiarán la forma de la distribución. Muchos de estos no podrá separarlos en procesos distintos.
Entonces, yendo a la idea de eliminar puntos de datos como 'valores atípicos' ... solo eliminaría puntos de datos, cuando definitivamente puedo atribuirlos a un 'proceso' particular que no quiero incluir en mi análisis. Luego debe asegurarse de que los motivos de no inclusión se registren como parte de su análisis, por lo que es obvio. No asuma la atribución, esa es la clave para tomar notas adicionales a través de la observación durante la recopilación de datos.
Desafiaría su afirmación "porque la mayoría de ellos son errores de todos modos", ya que no son errores, sino solo parte de un proceso diferente que ha identificado en sus mediciones como diferente.
En su ejemplo, creo que es razonable excluir puntos de datos que puede atribuir a un proceso separado que no desea analizar.