Tengo 400 respuestas a un cuestionario de 20 ítems que pretende medir un comportamiento actitudinal en estudiantes de medicina. El instrumento fue validado en los EE. UU. Para un solo año de estudiantes de medicina y los datos publicados son muy "limpios": todos los valores ritc> 0.3, alfa 0.84, PCA con una estructura estable de cuatro factores, etc. En mi muestra he encontrado 5 de 20 elementos para tener ritc <0.2 y en una subpoblación cultural (n = 70) estos valores ritc son cero / negativos. Si retengo todos los ítems, aquellos con ritc pobre no cargan en ningún factor o se clasifican en un factor de 2 elementos juntos (factor 4). Hipotetizo que (y me gustaría investigar) esto se debe a (i) una pequeña subpoblación cultural para la cual la construcción puede estar mal capturada, o (ii) porque tengo respuestas de los estudiantes en todas las etapas de un programa y hay un aspecto de desarrollo en la construcción mal captada por los ítems de la escala. ¿Hay alguna prueba estadística que me permita investigar esto?
¿Deberían eliminarse los elementos con ritc de la escala? De ser así, ¿hago esto secuencialmente comenzando con el más bajo y en qué punto debo dejar de eliminar elementos / he perdido algo del cuestionario? Si quiero comparar la estructura factorial de la escala entre las subpoblaciones mayores y menores, ¿cómo intento esto o la submuestra menor es demasiado pequeña para sacar conclusiones? Cualquier referencia sería muy apreciada.
Finalmente, el propósito de validar la escala es usarla para determinar la efectividad de una intervención usando una puntuación previa y posterior a la intervención; si un elemento tiene un ritmo bajo, supongo que puede afectar la confiabilidad de la escala en un entorno experimental, o soy incorrecto? ¿Existe alguna forma estadística de determinar la utilidad de una escala diseñada para medir construcciones que tienen un aspecto de desarrollo, es decir, todos los ítems funcionan apropiadamente a medida que el estudiante desarrolla "más" de la construcción actitudinal?