Tengo datos sobre una serie de apuestas ganadoras y perdedoras en 5 rondas de apuestas con deserción después de cada ronda. Estoy usando un árbol de decisión como el siguiente para mostrar los datos.
Los nodos hacia la parte superior del árbol son aquellos que están teniendo apuestas ganadoras, y aquellos hacia la parte inferior del árbol están teniendo carreras de apuestas perdedoras. Quiero ver (a) la deserción en cada nodo (b) los cambios en los tamaños medios de apuesta en cada nodo. Estoy mirando la tasa de deserción en cada nodo del nodo anterior y la tasa de supervivencia (usando la cantidad esperada de personas en cada nodo si la probabilidad es del 50%). Por ejemplo, si la probabilidad es del 50% en cada nodo, de los 1000 que comenzaron, aproximadamente 500 personas deberían estar en cada uno de los segundos nodos, W y L. La hipótesis es (a) la tasa de desgaste es mayor después de perder apuestas (b) el tamaño medio de la apuesta se reduce después de los perdedores y aumenta después de los ganadores.
Solo quiero hacer esto en un entorno univariado muy simple primero. ¿Cómo puedo realizar una prueba t para mostrar que el cambio en el tamaño medio de la apuesta del nodo WW al nodo WWW es estadísticamente significativo si 50 personas se han retirado? No estoy seguro de que este sea el enfoque correcto: cada apuesta posterior es independiente, pero la gente abandona a los perdedores, por lo que la muestra no coincide. Si se tratara de un caso de la misma clase tomando una serie de exámenes uno tras otro sin que nadie abandone, entendería cómo realizar la prueba t adecuada, pero creo que esto es un poco diferente.
¿Cómo puedo hacer esto? Además, si los resultados están siendo sesgados por un pequeño número de clientes, ¿cómo podría eliminar el 5% superior y el 5% inferior? ¿Solo elimina a los clientes con el mayor tamaño de apuesta acumulada de la apuesta 1 - 3?
Tengo los datos a partir de los cuales se generó la figura, por lo que tengo el error medio, estándar, estándar, etc. en cada nodo.