Prueba de una tabla de contingencia 2x2: hombre / mujer, empleado / desempleado

Me especializo en ciencias, y mi conocimiento de estadística es bastante superficial.

Problema

Tenía que encontrar un conjunto de datos y analizarlo lo mejor que pudiera como asignación para mi curso de estadística. Esto ya no es una tarea, solo necesito ayuda para interpretar por qué hice mal mi análisis y qué debería haber hecho en su lugar.

Utilicé un conjunto de datos categóricos de las tasas de empleo en Nueva Zelanda, planeando organizarlo en una tabla de contingencia 2x2 y utilicé la prueba de chi-cuadrado de Pearson y la prueba exacta de Fisher para evaluar si el género se correlaciona con el empleo.

Lo que quiero responder

Entienda por qué no puedo usar la prueba de ji cuadrado y la prueba exacta de Fisher para este problema y aprenda lo que debería haber usado en su lugar. ¿"Odds-ratio en función del tiempo", supongo? ¿Algún enlace útil sobre cómo hacerlo perfectamente en R?
Comprenda el comentario de "correlación secuencial" con respecto a la primera parte de la tarea y qué es exactamente lo que debería haber hecho.

Manera de ayudarme # 1 (más corto)

Así es como se ven nuestros datos (basados en un censo):

                 Male     Female
Employed      1201600    1060200
Unemployed      73300      75000

Hice una prueba de ji cuadrado y una prueba exacta de Fisher en R, suponiendo que el valor p obtenido me dirá la probabilidad de tal distribución de trabajos (o un extremo más) dado que el nulo es verdadero (que hombres y mujeres tienen las mismas posibilidades de conseguir un trabajo). Obtuve un valor p muy pequeño, y la prueba de Fisher me dio una razón de posibilidades de 1.16, lo que significa que existe una correlación, y específicamente los hombres tienen un 16% más de probabilidades de encontrar trabajo en Nueva Zelanda.

Sin embargo, según mi profesor, usé estas pruebas de manera inapropiada. No entendí bien por qué, pero creo que estaba diciendo que estas pruebas suponen independencia, y debido a que hay una cantidad determinada de trabajos disponibles en Nueva Zelanda, nuestras muestras no son independientes ... Sin embargo, no estoy seguro de eso (usted puede ver sus comentarios citados a continuación).

Manera de ayudarme # 2 (más tiempo)

Si tienes algo de tiempo libre, te agradecería mucho que pudieras ver toda la tarea. También proporcionaré los comentarios del profesor, por lo que si pudiera interpretarlo para mí, ¡sería genial! La tarea es muy fácil para un matemático / estadístico, solo hay dos preguntas allí, solo está llena de relleno donde traté de demostrar que sé lo que estoy haciendo, puedes saltarte la mayor parte.

Aquí está el enlace a un archivo PDF con la tarea en la que no tuve éxito: estadísticas de asignación.pdf .

Comentarios del profesor

Su figura 1 exhibe correlación secuencial, que es la verdadera razón por la cual la regresión lineal no funciona. Ni la prueba de pescador ni el chi cuadrado son buenos para su tabla de 2x2. Esto se debe a que desea probar la homogeneidad, pero está rechazando el valor nulo por falta de independencia (lo cual no es interesante). La distinción entre los dos es irrelevante aquí (son asintóticamente idénticos en cualquier caso). Podría haber trazado la razón de posibilidades en función del tiempo.

hypothesis-testing chi-squared fishers-exact

— Th334
fuente

puedes agregar la etiqueta de

— autoestudio

@tomka No estoy de acuerdo con la etiqueta de autoestudio en este caso, por lo que la he eliminado. Esta pregunta trata con datos reales y se refiere a un problema genuino, no solo a una situación de libro de texto de rutina. Los criterios para la etiqueta de autoaprendizaje no son si la pregunta se origina con el trabajo en el aula sino más bien la naturaleza de la pregunta en sí. Visite los hilos meta.stats.stackexchange.com/questions/1904 y meta.stats.stackexchange.com/questions/1172 para obtener más información o para hablar sobre esto.

— whuber

¿Se basan esos números de empleo en un censo o en un archivo de encuesta ponderado (es decir, una muestra)?

— probabilityislogic

@tomka y whuber, en realidad no me importa, pero esta no es una tarea típica, si eso es lo que quieres decir. También podría ser una disertación en el sentido de que las únicas instrucciones eran recolectar datos y analizarlos.

— Th334

@probabilityislogic, buen punto, es el censo (país pequeño). ¿Afecta la forma en que debemos abordar los datos?

— Th334

Respuestas:

Algunas respuestas inmediatas:

1) Su profesor quiere decir que los datos muestran autocorrelación. Esto lleva a estimaciones ineficientes de coeficientes de regresión en regresión lineal simple. Dependiendo de si fue cubierto en su curso, eso es un error.

2) Tal vez no entiendo el problema completamente, pero IMAO la prueba de independencia chi-cuadrado se usa correctamente aquí, excepto por otros dos problemas:

3) Su prueba de chi-cuadrado tiene un poder inmenso, debido al tamaño de la muestra. Es difícil no ser significativo, incluso si los efectos fueron muy pequeños. Además, parece que tienes un censo de la población. En esta situación, la inferencia estadística es innecesaria, porque se observan todas las unidades de población. Pero eso no es lo que comenta el profesor.

4) Parece agregar los datos a través de puntos de tiempo. En realidad, debe probar una vez por punto de tiempo, ya que de lo contrario agrega efectos a lo largo del tiempo (cuenta unidades varias veces). Pero eso tampoco es lo que comenta el profesor.

El profesor realmente comenta que desea probar el nulo de homogeneidad, donde prueba el nulo de independencia. Entonces, ¿qué quiere decir con homogeneidad?

Supongo que se refiere a la prueba de homogeneidad marginal en datos de prueba emparejados. Esta prueba se utiliza para evaluar si hubo un cambio en el tiempo (medidas repetidas). Sin embargo, esto no es lo que desea evaluar en primer lugar. Supongo que no entendió que desea probar si el género y el empleo en el momento x están relacionados. Tal vez también trató de sugerir que lo que debe probar es un cambio a lo largo del tiempo (o ningún cambio, en cuyo caso la contingencia repetida múltiple se llamaría homogénea).

— tomka
fuente

1) ¿Podría obtener una descripción rápida (o un enlace) de lo que es una autocorrelación y cómo conduce al sesgo? 3) Entonces, ¿alguna prueba estadística es inapropiada aquí debido al censo? ¿Cómo podría responder mi pregunta entonces? 4) ¿De qué prueba estás hablando: regresión o chi-cuadrado? En este último, me concentré solo en el último punto de datos: el censo más reciente.

— Th334

@Herman 1) Cometí un error: los parámetros de regresión serán ineficientes, lo que significa que el estimador OLS ya no es el mejor estimador, es decir, su varianza puede ser muy grande y conducir a pruebas falsamente insignificantes. Tal vez esto es un comienzo para algunos detalles: stats.stackexchange.com/questions/19321/… 3) Sí, si observa todas las unidades de población, no hay necesidad de inferencia sobre los parámetros de población que observa sin error de muestreo 4) Chi- al cuadrado En ese caso, el comentario 4 no se aplica.

— tomka

Es una respuesta muy opaca, me parece que dicen "no lo hiciste bien esta vez, intenta más la próxima vez". La única forma de entenderlo es ser valiente y pedirle a su profesor una reunión para discutir más las cosas.

¿Su profesor parece estar decepcionado con su elección de preguntas de investigación tal vez? Creo que pueden haber estado buscando algunas "palabras de moda" como "auto- / serial- / correlation" "series temporales" "efectos estacionales / ajuste" "ciclos económicos" "tendencia". No sé qué se esperaba que supieras al hacer la tarea.

De todos modos, esto es lo que pienso.

Su asignación muestra una buena capacidad para realizar una prueba estadística, pero desde una perspectiva de análisis de datos muestra una extraña elección de ejemplos. El análisis debe ser sobre contar una historia. Personalmente, me gustó la elección del empleo masculino frente al femenino como tema. Sin embargo, habría puesto el "segundo ejemplo" primero, ya que es una pregunta más simple "¿hay una diferencia de género ahora?? ". Después de mostrar que claramente hay una diferencia (como usted), podría haber pasado a la pregunta más compleja de" ¿ha habido una diferencia de género consistente con el tiempo? "Por supuesto, esta pregunta puede estar más allá del alcance de su "caja de herramientas estadísticas" para responder de manera formal. Una forma de hacerlo con la regresión lineal es modelar las probabilidades de ser empleado frente a desempleado (o las probabilidades de registro si esto le da una mejor opción) para hombres y mujeres. tener un modelo simple de ols

y_{i} = β_{0} + β_{1} x_{i} + e_{i}

$y_i=\beta_0+\beta_1x_i +e_i$

Dónde $y_i$ es la relación "empleado" / "desempleado" y $x_i$ es una variable ficticia igual a uno si la relación es para hombres y cero en caso contrario, y $e_i$ es el residual Luego prueba si $\beta_1=0$ . Podría llevar el modelo más allá e incluir una covariable de tiempo, así como una interacción entre tiempo y género. Todo esto es parte de la construcción de su trabajo de análisis como una historia ("la trama se complica", por así decirlo). Esto, por supuesto, depende de saber acerca de la regresión múltiple (que puede estar fuera del contenido del curso).

No hubiera usado ese primer ejemplo, por supuesto, la regresión lineal era inapropiada. Su profesor (probablemente) quiere ver un ejemplo de un buen uso de la regresión lineal. Por supuesto, el ejemplo de ols que mencioné anteriormente también puede no ser apropiado, esto depende de la evaluación del modelo.

— probabilidadislogica
fuente

@probabilityslogic, te diré lo que se supone que debo saber. En mis dos cursos de estadística combinados , cubrimos con varios grados de detalle lo siguiente: distribución bi (multi) nominal, distribución normal, prueba t, anova, chi-cuadrado / regresión exacta / lineal, logística / logística, distribución hipogeométrica, teorema de Bayes , distribución beta. Eso es. ¿Tenía mejores herramientas para manejar mi pregunta elegida que la que usé?

— Th334

@probabilityslogic, no entiendo muy bien cómo hacer una "regresión lineal para modelar las probabilidades de ser empleado frente a desempleado para hombres y mujeres". ¿Podría por favor intentar explicarlo usando los números de mis datos, o mostrarme modismos R, o vincularme a lo que debería leer si puede, o sugerirme que haga una nueva pregunta? En lo que respecta a las ecuaciones teóricas, entiendo que en su ejemplo beta-0 es nuestra intersección, beta-1 es nuestra pendiente, x son nuestros datos y e es un error ... lo cual es lo mismo que decir que no entiendo nada . Qué vergonzoso, lo siento.

— Th334