Siempre que sus datos provengan de una distribución conocida con propiedades conocidas, puede definir rigurosamente un valor atípico como un evento que es muy poco probable que haya sido generado por el proceso observado (si considera que "demasiado poco probable" no es riguroso, entonces todas las pruebas de hipótesis son).
Sin embargo, este enfoque es problemático en dos niveles: asume que los datos provienen de una distribución conocida con propiedades conocidas, y conlleva el riesgo de que los valores atípicos sean vistos como puntos de datos que algunas hadas mágicas introdujeron de contrabando en su conjunto de datos.
En ausencia de faeries de datos mágicos, todos los datos provienen de su experimento y, por lo tanto, en realidad no es posible tener valores atípicos, solo resultados extraños. Estos pueden provenir de errores de grabación (por ejemplo, una casa de 400000 habitaciones por 4 dólares), problemas de medición sistemática (el algoritmo de análisis de imagen informa áreas enormes si el objeto está demasiado cerca del borde) problemas experimentales (a veces, los cristales precipitan fuera de la solución, que dan una señal muy alta), o características de su sistema (una célula a veces se puede dividir en tres en lugar de dos), pero también pueden ser el resultado de un mecanismo que nadie ha considerado nunca porque es raro y está haciendo una investigación, lo que significa que algunas de las cosas que haces simplemente aún no se conocen.
Idealmente, se toma el tiempo de investigar cada caso atípico y solo lo elimina de su conjunto de datos una vez que comprende por qué no se ajusta a su modelo. Esto lleva mucho tiempo y es subjetivo, ya que las razones dependen en gran medida del experimento, pero la alternativa es peor: si no comprende de dónde provienen los valores atípicos, tiene la opción de dejar que los valores atípicos "estropeen" sus resultados, o definir un enfoque "matemáticamente riguroso" para ocultar su falta de comprensión. En otras palabras, al perseguir la "rigurosidad matemática", eliges entre no obtener un efecto significativo y no entrar al cielo.
EDITAR
Si todo lo que tiene es una lista de números sin saber de dónde provienen, no tiene forma de saber si algún punto de datos es un valor atípico, porque siempre puede suponer una distribución donde todos los datos son intrínsecos.