¿Cuál es la diferencia entre datos discretos y datos continuos?
¿Cuál es la diferencia entre datos discretos y datos continuos?
Respuestas:
Los datos discretos solo pueden tomar valores particulares. Potencialmente puede haber un número infinito de esos valores, pero cada uno es distinto y no hay área gris en el medio. Los datos discretos pueden ser numéricos, como números de manzanas, pero también pueden ser categóricos, como rojo o azul, o masculino o femenino, o bueno o malo.
Los datos continuos no están restringidos a valores separados definidos, pero pueden ocupar cualquier valor en un rango continuo. Entre dos valores de datos continuos puede haber un número infinito de otros. Los datos continuos son siempre esencialmente numéricos.
A veces tiene sentido tratar los datos numéricos que son propiamente de un tipo como del otro. Por ejemplo, algo como la altura es continua, pero a menudo no nos importan demasiado las pequeñas diferencias y, en cambio, agrupamos las alturas en una serie de contenedores discretos . Por el contrario, si contamos grandes cantidades de alguna entidad discreta (granos de arroz, termitas o centavos en la economía), podemos optar por no pensar en 2,000,006 y 2,000,008 como valores crucialmente diferentes, sino como puntos cercanos en un continuo aproximado.
A veces también puede ser útil tratar los datos numéricos como categóricos, por ejemplo: bajo peso, normal, obesidad. Esto suele ser solo otro tipo de binning.
Rara vez tiene sentido considerar los datos categóricos como continuos.
Los datos son siempre discretos. Dada una muestra de n
valores en una variable, el número máximo de valores distintos que la variable puede tomar es igual n
. Ver esta cita
Todos los espacios muestrales reales son discretos, y todas las variables aleatorias observables tienen distribuciones discretas. La distribución continua es una construcción matemática, adecuada para el tratamiento matemático, pero no prácticamente observable. EJG Pitman (1979, p. 1).
Por lo general, se supone que los datos de una variable se extraen de una variable aleatoria. La variable aleatoria es continua en un rango si hay un número infinito de valores posibles que la variable puede tomar entre dos puntos diferentes en el rango. Por ejemplo, se supone que la altura, el peso y el tiempo son continuos. Por supuesto, cualquier medición de estas variables será finitamente precisa y, en cierto sentido, discreta.
Es útil distinguir entre
variables discretas ordenadas (es decir, ordinales), no ordenadas (es decir, nominales) y binarias.
Algunos libros de texto introductorios confunden una variable continua con una variable numérica. Por ejemplo, una puntuación en un juego de computadora es discreta aunque sea numérica.
Algunos libros de texto introductorios confunden una variable de proporción con variables continuas. Una variable de conteo es una variable de proporción, pero no es continua.
En la práctica real, una variable a menudo se trata como continua cuando puede tomar un número suficientemente grande de valores diferentes.
Las temperaturas son continuas. Puede ser de 23 grados, 23.1 grados, 23.100004 grados.
El sexo es discreto. Solo puedes ser hombre o mujer (en el pensamiento clásico de todos modos). Algo que podrías representar con un número entero como 1, 2, etc.
La diferencia es importante ya que muchos algoritmos estadísticos y de minería de datos pueden manejar un tipo pero no el otro. Por ejemplo, en la regresión regular, la Y debe ser continua. En regresión logística, la Y es discreta.
Los datos discretos solo pueden tomar ciertos valores.
Ejemplo: el número de estudiantes en una clase (no puede tener medio estudiante).
Los datos continuos son datos que pueden tomar cualquier valor (dentro de un rango)
Ejemplos:
En el caso de la base de datos, siempre almacenaríamos los datos de forma discreta, incluso si la naturaleza de los datos es continua. ¿Por qué debería enfatizar la naturaleza de los datos? Deberíamos tomar la distribución de datos que podrían ayudarnos a analizar los datos. SI la naturaleza de los datos es continua, le sugiero que los use mediante análisis continuo.
Tomemos un ejemplo de continuo y discreto: MP3. Incluso el tipo de "sonido" es analogía, si se almacena en formato digital. Deberíamos analizarlo siempre de forma análoga.
Por un lado, desde un punto de vista práctico, estoy de acuerdo con la respuesta de Jeromy Anglim. Al final, la mayoría de las veces tratamos con variables discretas, aunque desde un punto de vista teórico son continuas, y eso tiene un impacto real, por ejemplo, para la clasificación. Recuerde el artículo de Strobl que indica que los bosques aleatorios están sesgados hacia variables con múltiples puntos de corte (mayor precisión pero naturaleza potencialmente similar). Desde mi experiencia personal, las redes neuronales probabilísticas también pueden presentar un sesgo cuando las variables presentan una precisión diferente a menos que sean del mismo tipo (es decir, continuas). Por otro lado, desde un punto de vista teórico, la clasificación clásica (por ejemplo, continua, discreta, nominal, etc.) es, en mi humilde opinión, correcta. De acuerdo, creo que el nombre fuente del artículo de Quinlan que describe el algoritmo M5, que es un "regresor", es una gran elección. Entonces, la definición y las implicaciones de continuo versus discreto son relevantes dependiendo del 'entorno'.
Refs:
Quinlan JR (1992). Aprendizaje con clases continuas. En: La 5ta Conferencia Conjunta Australiana sobre IA. Sydney (Australia), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A. y Hothorn T. (2007). Sesgo en medidas aleatorias de importancia variable del bosque: ilustraciones, fuentes y una solución. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
Los datos discretos toman valores particulares, mientras que los datos continuos no están restringidos a valores separados.
Los datos discretos son distintos y no hay un área gris en el medio, mientras que los datos continuos ocupan cualquier valor sobre un valor de datos continuo.
Datos discretos Pueden tomar valores particulares. Son numéricos.
Los datos discretos pueden tomar solo valores enteros, mientras que los datos continuos pueden tomar cualquier valor. Por ejemplo, el número de pacientes con cáncer tratados por un hospital cada año es discreto, pero su peso es continuo. Algunos datos son continuos pero se miden de manera discreta, por ejemplo, su edad. Es común informar su edad como decir, 31.