¿Qué sucede si su muestra aleatoria claramente no es representativa?


28

¿Qué sucede si toma una muestra aleatoria y puede ver que claramente no es representativa, como en una pregunta reciente ? Por ejemplo, ¿qué sucede si se supone que la distribución de la población es simétrica alrededor de 0 y la muestra que extrae al azar tiene observaciones positivas y negativas desequilibradas, y el desequilibrio es estadísticamente significativo, ¿dónde lo deja eso? ¿Qué declaraciones razonables puede hacer sobre la población en base a una muestra sesgada? ¿Cuál es un curso de acción razonable en tal situación? ¿Importa cuando en nuestra investigación notamos este desequilibrio?


2
Michael, se podría esperar que este problema ocurra una vez en 20, si usamos la significación estadística como nuestra métrica. La mayoría de las veces no sabemos cuándo elegimos al azar una muestra no representativa porque no sabemos lo suficiente sobre la población. Pero cuando sabemos algo sobre la población, y notamos tal anomalía, ¿qué hacemos?
Joel W.

3
Sí, la práctica más correcta es obtener una muestra aleatoria lo suficientemente grande, como escribió @MichaelChernick. Sin embargo, uno de mis profesores me dice que verificó mediante simulación de Monte Carlo que, cuando un investigador tiene que aumentar el tamaño de la muestra, no es tan correcto simplemente agregar unidades estadísticas a la muestra, pero uno tiene que repetir el muestreo. De lo contrario, las estadísticas pueden estar sesgadas (¡una vez más!).
this.is.not.a.nick

44
@Michael, no entiendo por qué tu afirmación es verdadera. Un valor p menor que 0.05 ocurrirá bajo la hipótesis nula el 5% del tiempo, independientemente del tamaño de la muestra. Entonces, ¿cómo puede ser posible que tamaños de muestra más grandes resuelvan este problema? Me parece que su recomendación invita implícitamente a los lectores a confundir el tamaño y el poder de las pruebas de hipótesis.
whuber

2
@Michael, ¿qué quieres decir con que deberíamos recopilar más datos al azar? ¿Esperamos que saquemos al azar una muestra sesgada en la otra dirección? En cualquier caso, ¿qué número de casos adicionales deberíamos dibujar? ¿Sugiere que establezcamos un número al inicio o usemos una regla de detención? Si se trata de una regla de detención, ¿cómo se vería la regla? Finalmente, incluso si la muestra más grande resultante no tiene sesgo estadísticamente significativo, sabemos que está compuesta por dos muestras, una con sesgo y otra sin sesgo. ¿Qué declaraciones razonables puede hacer sobre la población basándose en una muestra tan compleja?
Joel W.

2
@Michael Una conclusión alternativa es que una muestra altamente significativa y muy sesgada indica un problema con el procedimiento de muestreo. Si es así, la falta de simetría persistirá en una muestra más grande.
whuber

Respuestas:


7

La respuesta dada por MLS (usar muestreo de importancia) es tan buena como las suposiciones que puede hacer sobre sus distribuciones. La principal fortaleza del paradigma de muestreo de población finita es que no es paramétrico, ya que no hace suposiciones sobre la distribución de los datos para hacer inferencias (válidas) en los parámetros de población finita.

Un enfoque para corregir los desequilibrios de la muestra se llama post-estratificación . Debe dividir la muestra en clases no superpuestas (post-estratos) y luego volver a ponderar estas clases de acuerdo con las cifras de población conocidas. Si se sabe que su población tiene una mediana de 0, puede volver a ponderar las observaciones positivas y negativas para que sus proporciones ponderadas se conviertan en 50-50: si tuvo un SRS desafortunado con 10 observaciones negativas y 20 observaciones positivas, le daría el los negativos el peso de 15/10 = 1.5 y los positivos, 15/20 = 0.75.

Existen formas más sutiles de la calibración de la muestra , en las que puede calibrar su muestra para satisfacer restricciones más generales, como tener una media de una variable continua que sea igual al valor específico. La restricción de simetría es bastante difícil de trabajar, aunque eso también podría ser factible. Puede ser que Jean Opsomer tenga algo sobre esto: ha estado haciendo un gran trabajo de estimación de kernel para datos de encuestas.


¿Cómo se compara la postratificación, lógica o estadísticamente, con simplemente descartar la muestra desequilibrada y extraer otra muestra? (A veces, extraer la muestra es la parte intensiva en mano de obra de la investigación, pero a veces es lo que se hace después de haber extraído la muestra lo que requiere mucha mano de obra y extraer la muestra implica un esfuerzo relativamente menor, como en muchas investigaciones experimentales.)
Joel W .

2
Nunca he estado en una situación en la que descartar los datos sea la mejor respuesta, y nunca los he visto discutidos en ninguno de los libros de estadísticas de la encuesta. En la mayoría de las estadísticas de encuestas, obtener los datos es al menos cinco veces más costoso que cualquiera de los siguientes análisis y procesamiento de datos (excepto probablemente para algunas encuestas web baratas donde la recolección de datos es casi gratuita). Si se encuentra en un mundo experimental, no debe etiquetar su publicación como "muestreo", y en su lugar debe usar "diseño de experimento".
StasK

Se pueden usar muestras aleatorias en lugar de estratificadas porque hay muchas formas posibles de estratificar en un entorno del mundo real. Puede suceder que después de seleccionar dos muestras aleatorias para un experimento, observe un desequilibrio flagrante. Entonces estás atrapado entre una roca y un lugar difícil: vive con el desequilibrio (por ejemplo, todas las personas mayores en un grupo, todos los hablantes no nativos en un grupo, todos los doctorados en un grupo, etc.), o dibuja un nueva muestra y debilita la conexión entre lo que ha hecho y los supuestos de todas las técnicas estadísticas. La post-estratificación parece ser del segundo tipo.
Joel W.

2

Soy el miembro más joven aquí, pero yo diría que desechar y empezar de nuevo es siempre la mejor respuesta, si usted sabe que su muestra es significativamente representativa, y si usted tiene una idea de cómo surgió la toma de muestras poco representativas en el primer lugar y cómo evitarlo si es posible la segunda vez.

¿De qué servirá probar una segunda vez si probablemente terminas en el mismo barco?

Si volver a recopilar datos no tiene sentido o es prohibitivamente costoso, debe trabajar con lo que tiene, tratando de compensar la falta de representación mediante estratificación, imputación, modelado más elegante o lo que sea. Debe tener en cuenta claramente que compensó de esta manera, por qué cree que es necesario y por qué cree que funcionó. Luego trabaje la incertidumbre que surgió de su compensación durante todo su análisis. (Hará que tus conclusiones sean menos seguras, ¿verdad?)

Si no puede hacer eso, debe abandonar el proyecto por completo.


¿Qué sucede si no sabe por qué la muestra no es representativa, todavía está justificado para descartarla y extraer una nueva muestra aleatoria? ¿Si no, porque no? Además, supongamos que descarta la primera muestra y dibuja una segunda, ¿son las estadísticas inferenciales que podría calcular basadas en la segunda muestra de alguna manera inapropiadas debido a la primera muestra descartada? Por ejemplo, si se suscribe para descartar muestras no representativas, ¿está cambiando la distribución de muestreo en la que se basa su prueba estadística? Si es así, ¿está haciendo que sea más fácil o más difícil encontrar significación estadística?
Joel W.

@Wayne Buena idea.
Subhash C. Davar

1

qppags

spags=mi{F(X)El |Xpags}s(pags)F{X1,...,Xnorte}pags

spags1norteyo=1norteF(Xyo).
Xyoqspags
spags1norteyo=1nortepags(Xyo)q(Xyo)F(Xyo).
mi{pags(X)q(X)F(X)El |Xq}=pags(X)F(X)reX,

Usted dice que la muestra no está sesgada y cualquier intento de arreglar la muestra agregará sesgo. Sugiero que el proceso por el cual se recolectó la muestra no tiene sesgos, pero, de hecho, la muestra está sesgada, tal vez seriamente sesgada. ¿Hay formas de tratar de corregir el sesgo grande conocido que se podría esperar que introduzca un sesgo adicional relativamente pequeño?
Joel W.

1
Para desambiguar un poco la terminología: pienso en el sesgo como una propiedad de la expectativa de una variable aleatoria. En otras palabras, si el proceso que recopila los datos es imparcial, también lo es la muestra. Sin embargo, la muestra aún puede ser atípica y conducir a conclusiones no deseadas. Cualquier forma general de solucionar esto induce sesgo, ya que está adaptando el procedimiento de muestreo (imparcial). Probablemente, el enfoque menos sesgado es recolectar y usar nuevas muestras. Un enfoque ligeramente más sesgado agregaría estas nuevas muestras a las antiguas, pero el resultado podría ser menos variable ya que tiene más muestras en total.
MLS

2
@Joel W. ¿Qué quiere decir cuando dice que la muestra está sesgada? ¿Es la estimación de la media basada en la muestra la que está sesgada? Cualquier muestra estimada va a diferir de la media real y algunas pueden estar muy lejos. Cuando el muestreo es aleatorio, esto se debe a la varianza y no al sesgo. No es correcto decir que una muestra está sesgada porque se sabe que la distribución de la muestra es muy diferente de la distribución de la población. En muestras pequeñas, muchos pueden parecer poco representativos por una razón u otra, pero el muestreo aleatorio no es sesgado.
Michael R. Chernick

1
@Michael, estoy de acuerdo en que debemos reconocer y vivir con una variación aleatoria cuando sea necesario. Me pregunto qué podríamos hacer razonablemente cuando detectamos una variación no deseada. ¿Qué pasa si nuestra muestra aleatoria resulta incluir relativamente demasiados jóvenes, o demasiados trabajadores manuales, etc., cuando esas categorías son relevantes para nuestra investigación? Yendo aún más lejos, ¿deberíamos revisar nuestras muestras para ver si están desequilibradas de esa manera? ¿Importa si nos damos cuenta de esto antes de realizar más investigaciones con la muestra o después de haber invertido recursos para realizar investigaciones con la muestra?
Joel W.

1
El desequilibrio covariable es muy importante. Si existe en una muestra, se puede utilizar un modelo de regresión para ajustarlo. Vance Berger ha escrito un libro sobre este tema que probablemente he citado anteriormente en este sitio web. Aquí hay un enlace de Amazon a una descripción del libro. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.