¿Cómo probar si mis datos son discretos o continuos?

Me parece que para elegir las herramientas estadísticas correctas, primero tengo que identificar si mi conjunto de datos es discreto o continuo.

¿Podría importarme enseñarme cómo puedo probar si los datos son discretos o continuos con R?

r continuous-data discrete-data

— evdstat
fuente

¿Quiere decir si ciertas variables deben agregarse como predictores continuos o categóricos (discretos) en un modelo de tipo de regresión?

— Nick Sabbe

Cómo se recopilaron los datos y cómo se registraron las variables probablemente le dará algunas pistas al respecto; Además, es probable que dependa de si desea modelar sus datos como continuos o discretos (consulte, por ejemplo, preguntas relacionadas con elementos de Likert y análisis de escalas discretas). Punto no relacionado: sería bueno si pudiera registrar su cuenta de una vez por todas, y tal vez considere aceptar respuestas o revisar sus preguntas anteriores.

— chl

haga un qqnorm y si los puntos están a lo largo de la diagonal, los datos son continuos (si está en líneas horizontales es discreto)

— user222362

La única razón por la que puedo pensar de inmediato para requerir esta decisión, es para decidir sobre la inclusión de una variable como continua o categórica en una regresión.

En primer lugar, a veces no tiene otra opción: las variables de carácter o los factores (donde alguien que proporcionó los datos. El marco ha tomado la decisión por usted) son obviamente categóricos.

Eso nos deja con variables numéricas. Puede tener la tentación de verificar simplemente si las variables son números enteros, pero este no es un buen criterio: mire la primera línea de código a continuación ( x1): estas son 1000 observaciones de solo los dos valores y : aunque estos son no enteros, esto parece una variable categórica obvia. Lo que podría hacer para algunos es verificar cuántos valores diferentes hay en sus datos, aunque supongo que cualquier umbral que pueda usar para esto será subjetivo: $-1.5$ $2.5$ x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Tendería a decir que una variable que tiene solo un 5% de valores únicos podría llamarse con seguridad discreta (pero, como se mencionó: esto es subjetivo). Sin embargo: esto no lo convierte en un buen candidato para incluirlo como una variable categórica en su modelo: si tiene 1000000 observaciones y 5% de valores únicos, eso todavía deja 50000 'categorías': si incluye esto como categórico, usted ' vamos a pasar muchísimos grados de libertad.

Supongo que esta llamada es aún más subjetiva y depende en gran medida del tamaño de la muestra y el método de elección. Sin más contexto, es difícil dar pautas aquí.

Entonces, ahora probablemente tenga algunas variables que podría agregar como categóricas en su modelo. ¿Pero deberías ? Esta pregunta se puede responder (aunque realmente depende, nuevamente, de su objetivo) con una prueba de razón de probabilidad: el modelo donde la variable es categórica es una supermodelo del modelo con la variable como una covariable continua. Para ver esto, imagine una regresión lineal en una variable xque contiene tres valores 0, 1y 2. Ajuste de un modelo: donde es un indicador variable ficticio (es igual a 1 si ) es solo un más flexible forma de ajustar un modelo

mi [y] = β_{0 0} + β_{1} 1 X_{1} + β_{1} 2 X_{2}

$E[y] = \beta_0 + \beta_11 x_{1} + \beta_12 x_{2}$

x_{i}

$x_i$

x == i

$x==i$

mi [y] = β_{0 0} + β_{1} X

$E[y] = \beta_0 + \beta_1 x$ porque el último es equivalente a

mi [y] = β_{0 0} + β_{1} X_{1} + 2 β_{1} X_{2}

$E[y] = \beta_0 + \beta_1 x_{1} + 2 \beta_1 x_{2}$

Con la estructura de super / submodelo, puede averiguar si hay evidencia en los datos de que la estructura más compleja es necesaria, haciendo una prueba de razón de probabilidad : -2 veces la diferencia en la probabilidad máxima logarítmica (típicamente indicada como desviación en R) siga una con df = la diferencia en el número de parámetros (en el ejemplo anterior: 4 parámetros - 3 parámetros). $\chi^2$

— Nick Sabbe
fuente

+1 Buen ejemplo de cómo mejorar una pregunta extraña con una gran respuesta.

Bueno, de hecho, cualquier continuo puede ser discreto, haciendo que los histogramas solo muestren cómo se hace en la práctica. Probablemente mezclé datos de conteo (datos de valor entero) con categóricos ... aunque mi primera suposición fue sobre distribuciones discretas y continuas, no solo puntos de datos (e investigadores locos que asignan valores reales a categorías), así que ... borré el mío de todos modos , ya que no creo que resuelva el problema (+1)

— Dmitrij Celov

parece que @Dmitrij eliminó su respuesta, ¿podría reeditar su respuesta para reflejar eso? Es una gran respuesta (+1), por lo que la referencia a contenido no existente sobresale un poco.

— mpiktas