Me parece que para elegir las herramientas estadísticas correctas, primero tengo que identificar si mi conjunto de datos es discreto o continuo.
¿Podría importarme enseñarme cómo puedo probar si los datos son discretos o continuos con R?
Me parece que para elegir las herramientas estadísticas correctas, primero tengo que identificar si mi conjunto de datos es discreto o continuo.
¿Podría importarme enseñarme cómo puedo probar si los datos son discretos o continuos con R?
Respuestas:
La única razón por la que puedo pensar de inmediato para requerir esta decisión, es para decidir sobre la inclusión de una variable como continua o categórica en una regresión.
En primer lugar, a veces no tiene otra opción: las variables de carácter o los factores (donde alguien que proporcionó los datos. El marco ha tomado la decisión por usted) son obviamente categóricos.
Eso nos deja con variables numéricas. Puede tener la tentación de verificar simplemente si las variables son números enteros, pero este no es un buen criterio: mire la primera línea de código a continuación ( x1
): estas son 1000 observaciones de solo los dos valores y : aunque estos son no enteros, esto parece una variable categórica obvia. Lo que podría hacer para algunos es verificar cuántos valores diferentes hay en sus datos, aunque supongo que cualquier umbral que pueda usar para esto será subjetivo:x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Tendería a decir que una variable que tiene solo un 5% de valores únicos podría llamarse con seguridad discreta (pero, como se mencionó: esto es subjetivo). Sin embargo: esto no lo convierte en un buen candidato para incluirlo como una variable categórica en su modelo: si tiene 1000000 observaciones y 5% de valores únicos, eso todavía deja 50000 'categorías': si incluye esto como categórico, usted ' vamos a pasar muchísimos grados de libertad.
Supongo que esta llamada es aún más subjetiva y depende en gran medida del tamaño de la muestra y el método de elección. Sin más contexto, es difícil dar pautas aquí.
Entonces, ahora probablemente tenga algunas variables que podría agregar como categóricas en su modelo. ¿Pero deberías ? Esta pregunta se puede responder (aunque realmente depende, nuevamente, de su objetivo) con una prueba de razón de probabilidad: el modelo donde la variable es categórica es una supermodelo del modelo con la variable como una covariable continua. Para ver esto, imagine una regresión lineal en una variable x
que contiene tres valores 0
, 1
y 2
. Ajuste de un modelo:
donde es un indicador variable ficticio (es igual a 1 si ) es solo un más flexible forma de ajustar un modelo
Con la estructura de super / submodelo, puede averiguar si hay evidencia en los datos de que la estructura más compleja es necesaria, haciendo una prueba de razón de probabilidad : -2 veces la diferencia en la probabilidad máxima logarítmica (típicamente indicada como desviación en R) siga una con df = la diferencia en el número de parámetros (en el ejemplo anterior: 4 parámetros - 3 parámetros).