La propuesta tiene numerosos defectos. Aquí es quizás el más grande.
Suponga que está recopilando datos y ve estos valores:
2 , 3 , 1
6 / 3 = 2
Luego viene un valor atípico:
2 , 3 , 1 , 1000
Entonces lo reemplazas con la media:
2 , 3 , 1 , 2
El siguiente número es bueno:
2 , 3 , 1 , 2 , 7
Ahora la media es 3. Espere un minuto, la media es ahora 3, pero reemplazamos 1000 con una media de 2, solo porque ocurrió como el cuarto valor. ¿Qué pasa si cambiamos el orden de las muestras?
2 , 3 , 1 , 7 , 1000
( 2 + 3 + 1 + 7 ) / 4 = 13 / 4
El problema es que el dato falso que estamos sustituyendo en lugar de 1000 depende de los otros datos. Ese es un problema epistemológico si se supone que las muestras representan mediciones independientes.
nortenortenortenortenorte
Básicamente, recortar los resultados que no se ajustan es una cosa (y puede justificarse si se hace de manera consistente de acuerdo con un algoritmo, en lugar de cambiar los cambios de humor del experimentador).
La falsedad de los resultados es objetable por razones filosóficas, epistemológicas y éticas.
Puede haber algunas circunstancias atenuantes, que tienen que ver con cómo se usan los resultados. Por ejemplo, digamos que esta sustitución de valores atípicos por la media actual es parte del algoritmo de una computadora integrada, que le permite implementar un sistema de control de circuito cerrado. (Muestra algunas salidas del sistema, luego ajusta las entradas para lograr el control). Todo es en tiempo real, por lo que debe proporcionarse algo para un período de tiempo determinado en lugar de datos faltantes. Si esta falsificación ayuda a superar los problemas técnicos y garantiza un funcionamiento sin problemas, entonces todo está bien.
Aquí hay otro ejemplo, de telefonía digital: PLC (ocultación de pérdida de paquetes). Se produce una mierda y los paquetes se pierden, pero la comunicación es en tiempo real. PLC sintetiza voces falsas basadas en información de tono reciente de paquetes recibidos correctamente. Entonces, si un hablante decía la vocal "aaa" y luego se perdió un paquete, el PLC puede rellenar el paquete faltante extrapolando el "aaa" durante la duración de la trama (digamos 5 o 10 milisegundos o lo que sea). El "aaa" es tal que se parece a la voz del hablante. Esto es análogo al uso de una "media" para sustituir los valores considerados como malos. Es algo bueno; es mejor que el sonido que entra y sale, y ayuda a la inteligibilidad.
Si la falsificación de datos es parte de un programa de mentir a las personas para ocultar el trabajo fallido, eso es otra cosa.
Entonces, no podemos pensarlo independientemente de la aplicación: ¿cómo se utilizan las estadísticas? ¿Las sustituciones conducirán a conclusiones no válidas? ¿Hay implicaciones éticas?