¿Es solo la agregación de puntos de datos? ¿O es la representación de puntos de datos para diferentes elementos en un formato tabular organizado con valores de las diferentes variables? ¿Cómo es diferente de los datos sin procesar?
¿Es solo la agregación de puntos de datos? ¿O es la representación de puntos de datos para diferentes elementos en un formato tabular organizado con valores de las diferentes variables? ¿Cómo es diferente de los datos sin procesar?
Respuestas:
En mi experiencia, "conjunto de datos" (o "conjunto de datos") es un término informal que se refiere a una recopilación de datos. En general, un conjunto de datos contiene más de una variable y se refiere a un solo tema; Es probable que se trate de una sola muestra.
Un error que a menudo veo que hacen los escritores de preguntas de validación cruzada es usar "conjunto de datos" como sinónimo de "variable" o "vector".
Creo que Wikipedia hace un trabajo decente al definirlo:
Lo más común es que un conjunto de datos corresponda al contenido de una sola tabla de base de datos, o una única matriz de datos estadísticos, donde cada columna de la tabla representa una variable particular, y cada fila corresponde a un miembro dado del conjunto de datos en cuestión. El conjunto de datos enumera valores para cada una de las variables, como la altura y el peso de un objeto, para cada miembro del conjunto de datos. Cada valor se conoce como dato. El conjunto de datos puede comprender datos para uno o más miembros, correspondientes al número de filas.
El término conjunto de datos también se puede usar de manera más flexible, para referirse a los datos en una colección de tablas estrechamente relacionadas, correspondientes a un experimento o evento particular. Un ejemplo de este tipo son los conjuntos de datos recopilados por las agencias espaciales que realizan experimentos con instrumentos a bordo de sondas espaciales.
En la disciplina de datos abiertos, el conjunto de datos es la unidad para medir la información publicada en un repositorio público de datos abiertos. El portal europeo de datos abiertos agrega más de medio millón de conjuntos de datos. En este campo se han propuesto otras definiciones, pero actualmente no hay una oficial. Algunos otros problemas (fuentes de datos en tiempo real, conjuntos de datos no relacionales, etc.) aumentan la dificultad para llegar a un consenso al respecto.
Como puede ver, el término es algo vago.
Creo que es posible que necesite definir un punto de datos antes de poder definir un conjunto de datos : ¿por qué es un elemento primitivo y no necesita definición, pero no al revés?
Al menos dos definiciones tienen sentido para mí:
Una o más observaciones (casos, registros, filas) para una o más variables (campos, columnas).
Lo que sea almacenado como datos dentro de un archivo legible por un programa de elección.
El diseño tabular es común pero no creo que sea parte de ninguna definición; cómo se almacenan los datos puede ser prácticamente importante, naturalmente.
PD: La palabra "formato" está tan sobrecargada que para mí es mejor evitarla a menos que se especifique sin ambigüedades. Lo he visto usado para
Texto general o específico o formato de archivo binario
Estructura de datos, p. Ej., Tabular u otro
Almacenamiento de datos o tipos de variables, por ejemplo, bit, entero, real, carácter
Presentación de control de formato de visualización, por ejemplo, detalles sobre el número de decimales; visualización decimal, hexadecimal o binaria.
Ya hay algunas buenas respuestas aquí y no creo que pueda profundizar más que Nick Cox o Franck Dernoncourt en el tema de si "conjunto de datos" se refiere a la recopilación conceptual de datos relacionados, o al arreglo particular de esos datos, por ejemplo, en una tabla / matriz o un archivo legible por computadora. El extracto de Franck menciona casos extremos como datos recopilados continuamente, o datos distribuidos en varias tablas, que vale la pena tener en cuenta si asumía que iba a haber una definición simple. (No todo el software de estadísticas puede manejarlo, pero es muy fácil imaginar un caso en el que los datos se almacenan en una base de datos relacional con varias tablas. ¿Es toda la base de datos un solo "conjunto de datos"?)
Sin embargo, una cosa que agregaré es que los conjuntos de datos generalmente no son conjuntos, en el sentido matemático. Sensu stricto ya sea que un conjunto contenga un objeto o no, pero no puede contener más de una copia de ese objeto. Si lanzo un dado ocho veces y obtengo un puntaje de 1, 4, 3, 5, 5, 4, 6, 4, entonces el conjunto de puntajes obtenidos es solo {1, 3, 4, 5, 6}. Tenga en cuenta que los elementos podrían estar en cualquier orden, los acabo de escribir en valor ascendente, pero el conjunto {5, 4, 1, 6, 3} es matemáticamente igual a él, por ejemplo. ¡Sin embargo, esto no es lo que generalmente queremos decir con un conjunto de datos!
Pero los vectores son solo para registrar una variable; para varias, puede ser más conveniente usar una matriz para tabular con el orden preservado. Para situaciones más sofisticadas, como medir una propiedad de una cuadrícula tridimensional de vóxeles con el tiempo, incluso puede pasar a organizar los datos en un tensor (consulte, por ejemplo, esta pregunta ).
Pero tenga en cuenta que conceptualmente un multiset puede ser suficiente en la mayoría de las situaciones simples, incluso si es inconveniente para fines prácticos. Si lancé una moneda al mismo tiempo que tiraba el dado y quería registrar los dos resultados juntos, entonces podría usar un conjunto múltiple como {(1, H), (3, T), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} en lugar de una matriz. Un conjunto ordinario no será suficiente, ya que no contaría la multiplicidad de (4, H), por ejemplo.