Soy nuevo en el análisis de secuencia, y me preguntaba cómo reaccionaría si los anchos de silueta promedio (ASW) de los análisis de conglomerados de matrices de disimilitud basadas en la coincidencia óptima son bajos (alrededor de 25). ¿Parecería apropiado concluir que hay poca estructura subyacente que permita agrupar las secuencias? ¿Podría ignorar el bajo ASW basado en otras medidas de calidad de clúster (he pegado algunas a continuación)? ¿O es probable que las elecciones realizadas durante el análisis de secuencia o los análisis de clúster posteriores puedan ser responsables de los bajos números de ASW?
Cualquier sugerencia sera apreciada. Gracias.
En caso de que se necesite más contexto:
Estoy examinando 624 secuencias de desajustes de horas de trabajo (es decir, desajustes entre el número de horas que una persona prefiere trabajar en una semana y el número de horas que realmente trabajan) entre personas de 20 años. Todas las secuencias que estoy examinando tienen una longitud de 10. Mi objeto de secuencia tiene cinco estados (M = quiere más horas, S = quiere las mismas horas, F = quiere menos horas, O = fuera de la fuerza laboral y U = desempleado )
No he hecho una contabilidad sistemática de cómo varían los resultados de ASW con diferentes combinaciones de enfoques. Aún así, probé los costos indirectos bajos y medios (.1 y .6 del costo máximo de sustitución; me importa más el orden de los eventos que su cronometraje) y diferentes procedimientos de agrupamiento (barrio, promedio y pam). Mi impresión general es que los números ASW siguen siendo bajos.
Quizás los bajos resultados de ASW tengan sentido. Esperaría que estos estados vengan en una variedad de diferentes órdenes, y los estados pueden repetirse. La eliminación de observaciones duplicadas solo reduce el N de 624 a 536. El estudio de los datos revela que de hecho hay una buena variedad y secuencias que consideraría muy diferentes, por ejemplo, las personas que querían las mismas horas todo el tiempo, desarrollaron un desajuste, resolvieron un desajuste, y oscilaba de un lado a otro entre tener y no tener un desajuste. Quizás la falta de grupos claramente diferenciados no es lo mismo que la falta de variaciones interesantes. Aún así, los resultados débiles del grupo parecen dejarme sin una buena manera de resumir las secuencias.
Resultados del método de Ward con indel establecido en .1 del costo de sustitución de 2 Estas estadísticas parecen sugerir que una solución de 6 grupos podría ser buena. Sin embargo, el ASW es bajo, al menos para soluciones que tienen un número razonable de clústeres (2 o 3 son muy pocos).
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08