Estoy tratando de encontrar la correlación entre una variable dicotómica y una variable continua.
De mi trabajo de base en esto, descubrí que tengo que usar una prueba t independiente y la condición previa para ello es que la distribución de la variable debe ser normal.
Realicé la prueba de Kolmogorov-Smirnov para probar la normalidad y descubrí que la variable continua no es normal y está sesgada (para aproximadamente 4,000 puntos de datos).
Hice la prueba de Kolmogorov-Smirnov para todo el rango de variables. ¿Debería dividirlos en grupos y hacer la prueba? Es decir, si tengo niveles de colesterol risk level
( 0
= no riesgoso, 1
= riesgoso) y colesterol, entonces debería:
Divídalos en dos grupos, como
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
¿Tómelos juntos y aplique la prueba? (Lo realicé solo en todo el conjunto de datos).
Después de eso, ¿qué prueba debo hacer si aún no es normal?
EDITAR: El escenario anterior fue solo una descripción que intenté proporcionar para mi problema. Tengo un conjunto de datos que contiene más de 1000 variables y alrededor de 4000 muestras. Son de naturaleza continua o categórica. Mi tarea es predecir una variable dicotómica basada en estas variables (tal vez proponer un modelo de regresión logística). Así que pensé que la investigación inicial implicaría encontrar la correlación entre una variable dicotómica y una variable continua.
Intenté ver cómo es la distribución de las variables y, por lo tanto, intenté ir a la prueba t. Aquí encontré la normalidad como un problema. La prueba de Kolmogorov-Smirnov dio un valor de significancia de 0.00 en la mayoría de estas variables.
¿Debo asumir la normalidad aquí? La asimetría y la curtosis de estas variables también muestran que los datos están sesgados (> 0) en casi todos los casos.
Según la nota que se proporciona a continuación, investigaré más a fondo la correlación punto-biserial. Pero sobre la distribución de variables todavía no estoy seguro.