Tengo 2 conjuntos de datos distribuidos exponencialmente y quiero estar seguro de que son de diferentes distribuciones. Lamentablemente, un error necesario en la detección de los datos me obliga a descartar todos los datos por debajo de un cierto umbral. En cada conjunto tengo alrededor de 3000 puntos de datos y trazar los datos me hace pensar que el valor lambda es diferente. El ajuste también produce diferentes valores para lambda.
¿Cómo puedo estar seguro de que ambos conjuntos de datos se originan en una distribución diferente?
Aquí una gráfica de cómo se ven los conjuntos (tenga en cuenta que todos los valores bajo duración = 3 segundos deben descartarse):
ACTUALIZACIÓN: Las distribuciones anteriores se normalizan en ambos casos sobre N solo por compararlas mejor en un gráfico porque el número total de puntos de datos N es diferente.
ACTUALIZACIÓN2: Después del truncamiento, tengo alrededor de 150 valores de por vida para el conjunto de datos rojo y 350 para el conjunto de datos azul. Resulta que 3000 fue exagerado (lo siento).
ACTUALIZACIÓN3: Gracias por soportarme. Aquí están los datos en bruto:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Hasta ahora ajusté una función exponencial a ambos conjuntos de datos y comparé las pendientes. Dado que cualquier normalización no debería cambiar la pendiente de los datos, diferentes pendientes deberían implicar diferentes distribuciones exponenciales subyacentes (Mi experiencia con el análisis estadístico es muy limitada).
Los valores por debajo del umbral se descartan porque la medición detecta muchos eventos con demasiada frecuencia en ese régimen.
ACTUALIZACIÓN4: Me acabo de dar cuenta de que mi problema es mucho más complicado de lo que pensaba. De hecho, he dejado los datos censurados (no sé el comienzo de algunos eventos) y los datos censurados a la derecha (no sé el final de algunos eventos) Y tengo que descartar todas las vidas de menos de 3s (truncamiento). ¿Hay alguna manera de incorporar todo eso en un análisis? Hasta ahora encontré ayuda sobre cómo trabajar con datos censurados (análisis de supervivencia), pero ¿qué debo hacer con el truncamiento?