Estoy trabajando en estadísticas para compilaciones de software. Tengo datos para cada compilación en pasar / fallar y el tiempo transcurrido y generamos ~ 200 de estos / semana.
La tasa de éxito es fácil de agregar, puedo decir que el 45% pasó cualquier semana. Pero también me gustaría agregar el tiempo transcurrido, y quiero asegurarme de no tergiversar demasiado los datos. Pensé que sería mejor preguntarle a los profesionales :-)
Digamos que tengo 10 duraciones. Representan casos de aprobación y rechazo. Algunas compilaciones fallan inmediatamente, lo que hace que la duración sea inusualmente corta. Algunos se cuelgan durante las pruebas y eventualmente caducan, causando duraciones muy largas. Creamos diferentes productos, por lo que incluso las construcciones exitosas varían entre 90 segundos y 4 horas.
Podría obtener un conjunto como este:
[50, 7812, 3014, 13400, 21011, 155, 60, 8993, 8378, 9100]
Mi primer enfoque fue obtener el tiempo medio clasificando el conjunto y seleccionando el valor medio, en este caso 7812 (no me molesté con la media aritmética para conjuntos pares).
Desafortunadamente, esto parece generar mucha variación, ya que solo selecciono un valor dado. Entonces, si tuviera la tendencia de este valor, rebotaría entre 5000-10000 segundos dependiendo de qué construcción estuviera en la mediana.
Entonces, para suavizar esto, probé otro enfoque: eliminar los valores atípicos y luego calcular una media sobre los valores restantes. Decidí dividirlo en terciles y trabajar solo en el medio:
[50, 60, 155, 3014, 7812, 8378, 8993, 9100, 13400, 21011] ->
[50, 60, 155], [3014, 7812, 8378, 8993], [9100, 13400, 21011] ->
[3014, 7812, 8378, 8993]
La razón por la que esto me parece mejor es doble:
- No queremos ninguna acción en las compilaciones más rápidas, ya están bien
- Las construcciones más largas son probablemente inducidas por el tiempo de espera, y siempre estarán allí. Tenemos otros mecanismos para detectar esos
Entonces, me parece que estos son los datos que estoy buscando, pero me preocupa que haya logrado la suavidad al eliminar, bueno, la verdad.
¿Es esto controvertido? ¿Es el método cuerdo?
¡Gracias!