Cómo muestrear cuando no conoces la distribución

9

Soy bastante nuevo en estadísticas (un puñado de cursos Uni de nivel principiante) y me preguntaba sobre el muestreo de distribuciones desconocidas. Específicamente, si no tiene idea de la distribución subyacente, ¿hay alguna forma de "garantizar" que obtenga una muestra representativa?

Ejemplo para ilustrar: digamos que está tratando de descubrir la distribución global de la riqueza. Para cualquier individuo, de alguna manera puede averiguar su riqueza exacta; pero no puedes "probar" a cada persona en la Tierra. Entonces, digamos que muestreas n = 1000 personas al azar.

Si su muestra no incluye Bill Gates, podría pensar que no existen multimillonarios.
Si la muestra incluye Bill Gates, podría pensar que los multimillonarios son más comunes de lo que realmente son.

En cualquier caso, no se puede saber cuán comunes o raros son los multimillonarios; Es posible que ni siquiera pueda decir si existe alguna.

¿Existe un mejor mecanismo de muestreo para un caso como este?

¿Cómo le diría a priori qué procedimiento de muestreo utilizar (y cuántas muestras se necesitan)?

Me parece que es posible que tenga que "probar" un gran porcentaje de la población para saber, con algo que se acerque a una certeza razonable, qué tan comunes o raros son los multimillonarios en el planeta, y que esto se debe a que la distribución subyacente es un poco difícil trabajar con.

— syenmesh
fuente

1

En el caso de la distribución de la riqueza, mucho dependería de cuál era exactamente el objetivo. Si, por ejemplo, el objetivo fuera estimar los niveles de riqueza que colocarían a un individuo entre el 10% superior, el 20% superior, etc., entonces no sería crítico si la muestra incluyera o no a multimillonarios. Pero si el objetivo era estimar la proporción de riqueza en total en el 10% superior, entonces la forma en que la muestra manejaba a los multimillonarios probablemente sería crítica. El punto general aquí es que si una muestra es representativa siempre es relativa a lo que está tratando de hacer.

— Adam Bailey

¿De Verdad? problema abierto, las respuestas son buenas, todavía son aproximaciones (a veces mejores, a veces peores). Es un problema abierto, quizás el único problema abierto de las estadísticas

— Nikos M.

9

$f$ $f$ $f$ $1000$ p (f | b = 0)

$f$ $1000$ p (f | b = 1)

$f < 0.01$

— Tom Minka
fuente

7

Hay dos cosas que puede hacer (por separado o en combinación)

Modelar la cola

Una es modelar la cola de la distribución usando una distribución paramétrica. Se sabe que las leyes de poder se ajustan bien a la distribución de la riqueza, por lo que intenta una distribución de Pareto. Puede ajustar esa distribución por la máxima probabilidad, es decir, al encontrar los parámetros que mejor representan su muestra. O mejor, podría poner un previo Bayesiano en los parámetros y calcular el posterior completo.

Desafortunadamente, las leyes de potencia son muy sensibles a los parámetros, y sin muchos puntos de datos grandes en su muestra, habrá mucha incertidumbre sobre el exponente. El número estimado de multimillonarios será sensible a este parámetro, pero mucho menos que la riqueza promedio de multimillonarios, por lo que la situación no es tan mala.

Muestreo de importancia

El otro es cambiar la forma en que recolecta su muestra. Suponga que sospecha (como debería) que hay más multimillonarios per cápita en Mónaco o Zúrich que en Mogadishiu. Si conoce la población de cada una de estas ciudades, podría recolectar una muestra más grande en las ciudades donde espera ver más multimillonarios, y una más pequeña en las demás.

Digamos que Zurich tiene 400,000 personas y Mogadishu 1,400,000 y queremos encuestar a 9,000 personas. Aquí nos interesa la cantidad de millonarios, no multimillonarios.

Una muestra imparcial seleccionaría 2,000 personas en Zurich y 7,000 en Mogadiscio. Sin embargo, sesgaremos la muestra muestreando siete veces más a menudo de Zurich. Así que "fingiremos" que Zúrich tiene 2.800.000 personas y luego nos adaptaremos. Esto significa que encuestaremos a 6,000 personas en Zurich en lugar de 2,000 y 4,000 en Mogadiscio.

Digamos que contamos con 21 millonarios en nuestra muestra de Zurich, y solo 1 en nuestra muestra de Mogadiscio. Dado que probamos más de 7 veces Zurich, solo lo contaríamos como 3 millonarios.

Este procedimiento disminuirá la varianza de su estimador. También se puede usar junto con el primer método, en cuyo caso se ajustará la muestra de importancia al ajustar una distribución paramétrica.

— Arthur B.
fuente

6

Creo que un buen método de muestreo se basa en el conocimiento previo del sistema. En su campo, tiene conocimiento sobre posibles sesgos que podrían afectar su muestreo. Si no tiene ese conocimiento, puede adquirirlo de la literatura.

En su ejemplo, sabe que hay multimillonarios y que pueden sesgar su muestreo. Por lo tanto, puede decidir estratificar el muestreo por nivel educativo, país, tipo de trabajo, etc. Existen múltiples opciones.

Probemos con otro ejemplo. Su objetivo es determinar la abundancia de una especie de ratones en un parque. En este parque, hay bosques y prados. Según la literatura, sabes que los ratones son más abundantes en el bosque que los prados. Entonces, estratifica su muestreo por esta característica. Hay otro procedimiento de muestreo posible, pero creo que su mejor información será de la literatura existente.

¿Y si no hay literatura sobre su campo? Improbable, pero en ese contexto, haría un estudio previo para ver qué factores deben tenerse en cuenta para el muestreo.

— Emilie
fuente

2

Si una muestra es representativa o no, no tiene nada que ver con las mediciones observadas de la muestra. Una muestra es representativa si cada conjunto de unidades de observación tiene la misma probabilidad de ser elegido que cualquier otro conjunto del mismo tamaño. Por supuesto, esto es difícil de hacer a menos que pueda obtener una enumeración completa de su espacio muestral. Suponiendo que pueda obtener eso (de los datos del tramo censal, por ejemplo), una muestra aleatoria simple será representativa.

No importa cómo obtenga su muestra, siempre habrá al menos tres fuentes de error separadas para considerar:

error de muestreo: por casualidad, incluye a Bill Gates en su muestra representativa. Los métodos estadísticos, especialmente los anchos de los intervalos de confianza, etc. están diseñados para ocuparse de esto, siempre que tenga un conocimiento aproximado de la distribución en cuestión (por ejemplo, normalidad, que la distribución de la riqueza definitivamente no posee).

sesgo de muestreo: la muestra no fue representativa. Ejemplo: Bill Gates tiene un número que no figura en la lista, por lo que su encuesta telefónica nunca podría comunicarse con él (a menos que use algo como "marcación de dígitos aleatorios"). Este es un ejemplo extremo, pero el sesgo de muestreo está muy extendido. Una ocurrencia común es tomar muestras en el lugar o por conveniencia: usted muestra a los clientes del restaurante en el restaurante si les gusta el lugar, con qué frecuencia han estado allí y si planean regresar. Los clientes repetidos tienen muchas más probabilidades de ser muestreados que los clientes únicos, y las muestras de este tipo pueden estar severamente sesgadas en sus actitudes.

sesgo de respuesta: las mediciones en sí mismas son inexactas. Esto puede ocurrir debido a cualquier cosa, desde mal funcionamiento del medidor hasta mentiras conscientes hasta efectos cuánticos (por ejemplo, el principio de incertidumbre de Heisenberg).

— usuario3697176
fuente

Esta respuesta tiene consejos útiles y cubre un buen terreno. Sin embargo, me gustaría sugerir que la caracterización de "representante" puede ser demasiado restrictiva, ya que excluye las formas comunes y útiles de muestreo (incluidas algunas específicamente mencionadas en otras respuestas), como el muestreo estratificado, el muestreo de importancia y las formas de muestreo sistemático . ¿No sería suficiente permitir que una muestra sea representativa cuando se conoce la posibilidad de incluir cualquier conjunto de unidades de observación (y, por lo tanto, se puede utilizar para producir estimaciones imparciales) pero no necesariamente constante para todos los conjuntos de un tamaño determinado?

— whuber

@whuber "¿No sería suficiente permitir que una muestra sea representativa cuando se conoce la posibilidad de incluir cualquier conjunto de unidades de observación ...": Esto es correcto, y debería editar mi respuesta para reconocer el muestreo estratificado y el muestreo de importancia. Sin embargo, el muestreo sistemático es incierto, y el consejo dado en el enlace y en otros lugares es simplemente incorrecto. Si hay patrones sistemáticos en los datos, un punto de partida aleatorio no eliminará el sesgo, todo lo que hará es asegurarse de que no podrá calcular el sesgo.

— user3697176

quizás la mejor respuesta hasta ahora (en el sentido de apuntar directamente al punto estadístico)

— Nikos M.