¿Cuál es la diferencia entre una población y una muestra? ¿Qué variables y estadísticas comunes se utilizan para cada una y cómo se relacionan entre ellas?
¿Cuál es la diferencia entre una población y una muestra? ¿Qué variables y estadísticas comunes se utilizan para cada una y cómo se relacionan entre ellas?
Respuestas:
La población es el conjunto de entidades en estudio. Por ejemplo, la altura media de los hombres. Esta es una población hipotética porque incluye a todos los hombres que han vivido, están vivos y vivirán en el futuro. Me gusta este ejemplo porque lleva a casa el punto de que nosotros, como analistas, elegimos la población que deseamos estudiar. Por lo general, es imposible encuestar / medir a toda la población porque no todos los miembros son observables (por ejemplo, hombres que existirán en el futuro). Si es posible enumerar a toda la población, a menudo es costoso hacerlo y tomaría mucho tiempo. En el ejemplo anterior tenemos una población "hombres" y un parámetro de interés, su altura.
En cambio, podríamos tomar un subconjunto de esta población llamado muestra y usar esta muestra para sacar inferencias sobre la población en estudio, dadas algunas condiciones. Por lo tanto, podríamos medir la altura media de los hombres en una muestra de la población a la que llamamos estadística y usarla para hacer inferencias sobre el parámetro de interés en la población. Es una inferencia porque habrá cierta incertidumbre e imprecisión al sacar conclusiones sobre la población basadas en una muestra. Esto debería ser obvio: tenemos menos miembros en nuestra muestra que nuestra población, por lo tanto, hemos perdido algo de información.
Hay muchas formas de seleccionar una muestra y el estudio de esto se llama teoría de muestreo. Un método de uso común se llama muestreo aleatorio simple (SRS). En SRS, cada miembro de la población tiene la misma probabilidad de ser incluido en la muestra, de ahí el término "aleatorio". Existen muchos otros métodos de muestreo, por ejemplo, muestreo estratificado, muestreo por conglomerados, etc., todos los cuales tienen sus ventajas y desventajas.
Es importante recordar que la muestra que extraemos de la población es solo una de una gran cantidad de muestras potenciales. Si diez investigadores estuvieran estudiando la misma población, sacando sus propias muestras, entonces podrían obtener diferentes respuestas. Volviendo a nuestro ejemplo anterior, cada uno de los diez investigadores puede llegar a una altura media diferente de los hombres, es decir, la estadística en cuestión (altura media) varía de una muestra a otra; tiene una distribución llamada distribución de muestreo. Podemos usar esta distribución para comprender la incertidumbre en nuestra estimación del parámetro de población.
Se sabe que la distribución muestral de la media muestral es una distribución normal con una desviación estándar igual a la desviación estándar de la muestra dividida por el tamaño de la muestra. Debido a que esto podría confundirse fácilmente con la desviación estándar de la muestra, es más común llamar a la desviación estándar de la distribución de muestreo el error estándar .
La población es el conjunto completo de valores o individuos que le interesan. La muestra es un subconjunto de la población y es el conjunto de valores que realmente utiliza en su estimación.
Entonces, por ejemplo, si desea conocer la altura promedio de los residentes de China, esa es su población, es decir, la población de China. La cuestión es que este es un número bastante grande, y no podría obtener datos para todos los presentes. Entonces, usted toma una muestra, es decir, obtiene algunas observaciones, o la altura de algunas de las personas en China (un subconjunto de la población, la muestra) y hace su inferencia basándose en eso.
La población lo es todo en el grupo de estudio. Por ejemplo, si está estudiando el precio de las acciones de Apple, son los precios de las acciones históricas, actuales e incluso futuras. O, si tienes una fábrica de huevos, son todos los huevos hechos por la fábrica.
No siempre tiene que muestrear y hacer pruebas estadísticas. Si su población es su familia de vida inmediata, no necesita hacer una muestra, ya que la población es pequeña.
El muestreo es popular por una variedad de razones:
Cuando pensamos en el término "población", generalmente pensamos en las personas de nuestra ciudad, región, estado o país y sus características respectivas, como género, edad, estado civil, pertenencia étnica, religión, etc. En estadística, el término "población" adquiere un significado ligeramente diferente. La "población" en las estadísticas incluye a todos los miembros de un grupo definido en el que estamos estudiando o recopilando información para tomar decisiones basadas en datos.
Una parte de la población se llama muestra. Es una proporción de la población, una porción de ella, una parte de ella y todas sus características. Una muestra es un grupo científicamente elaborado que en realidad posee las mismas características que la población, si se extrae al azar (¡Esto puede ser difícil de creer para usted, pero es cierto!)
Las muestras extraídas al azar deben tener dos características:
* Cada persona tiene la misma oportunidad de ser seleccionado para su muestra; y,
* La selección de una persona es independiente de la selección de otra persona.
Lo bueno de las muestras aleatorias es que puede generalizar a la población que le interesa. Entonces, si toma muestras de 500 hogares en su comunidad, puede generalizar a los 50,000 hogares que viven allí. Si combina algunas de las características demográficas de las 500 con las 50,000, verá que son sorprendentemente similares.
Una población incluye todos los elementos de un conjunto de datos. Una muestra consta de una o más observaciones de la población. BOA, A. (2012, 17)