¿Qué significa "observaciones independientes"?

Estoy tratando de entender lo que significa la suposición de observaciones independientes . Algunas definiciones son:

"Dos eventos son independientes si y solo si $P(a \cap b) = P(a) * P(b)$ ". ( Diccionario de términos estadísticos )
"La ocurrencia de un evento no cambia la probabilidad de otro" ( Wikipedia ).
"el muestreo de una observación no afecta la elección de la segunda observación" ( David M. Lane ).

Un ejemplo de observaciones dependientes que a menudo se da son los estudiantes anidados dentro de los maestros como a continuación. Supongamos que los maestros influyen en los estudiantes pero los estudiantes no se influyen entre sí.

Entonces, ¿cómo se violan estas definiciones para estos datos? El muestreo [grado = 7] para [estudiante = 1] no afecta la distribución de probabilidad para el grado que se muestreará a continuación. (¿O sí? Y si es así, ¿qué predice la observación 1 con respecto a la próxima observación?)

¿Por qué las observaciones serían independientes si hubiera medido en gender lugar de teacher_id? ¿No afectan las observaciones de la misma manera?

teacher_id   student_id   grade
         1            1       7
         1            2       7
         1            3       6
         2            4       8
         2            5       8
         2            6       9

— RubenGeert
fuente

Se podría sugerir que la distribución de calificaciones para el maestro 1 tuvo un valor "medio" menor que para el maestro 2 y, por lo tanto, los estudiantes del maestro 1 tenderían a tener calificaciones más bajas, en promedio, que los estudiantes del maestro 2. En otras palabras , la distribución de estudiantes / calificaciones para los dos maestros bien podría ser distribuciones diferentes. Eso sería suficiente para hacer que las observaciones sean dependientes.

— Restablecer Monica - G. Simpson

@GavinSimpson: He estado pensando en esta línea exacta de razonamiento. Sin embargo, ¿qué pasa si lo reemplazo teacherpor gender? El género está presente en la mayoría de los datos de ciencias sociales y se correlaciona con casi cualquier cosa hasta cierto punto.

— RubenGeert

Seguramente debe depender de la respuesta. Si estuviéramos observando las calificaciones de los estudiantes de ciencias en el Reino Unido, tal vez habría un efecto con diferentes distribuciones de logros para los dos géneros, en promedio sobre las poblaciones que está estudiando. De todos modos, todo esto solo importa (en un modelo estadístico) para los residuos, o puesto de manera diferente para las respuestas condicionales al modelo ajustado. En otras palabras, si las observaciones no son independientes, está bien siempre y cuando el modelo tenga en cuenta esto, de modo que los residuos sean independientes.

— Restablece a Monica - G. Simpson el

No puede tomar (1) o (2) como definiciones de independencia (estadística), porque la independencia se puede definir sin referencia a la causalidad. Las tres citas son solo esfuerzos para proporcionar ejemplos informales e intuitivos . ((3) posiblemente podría tomarse como una definición siempre que haya tenido acceso a una definición cuantitativa y rigurosa de la cantidad de información). Por lo tanto, sería una buena idea referirse a una definición real como las que aparecen bajo el título "Definición" en el artículo de Wikipedia que hace referencia.

— whuber

No, puede hacer que los residuos sean independientes (o al menos reducir la dependencia hasta el punto de que los residuos parezcan independientes). Esto viene de los supuestos del modelo lineal;

donde

es una matriz de correlación. La suposición habitual es que

es una matriz de identidad, por lo tanto, fuera de las diagonales son cero y, por lo tanto, la suposición de independencia está en los residuos. Dicho de otra manera, esta es una declaración sobre

condicional sobre el modelo ajustado.

ε \sim N (0, σ^{2} Λ)

$\varepsilon \sim N(0, \sigma^2 \Lambda)$

Λ

$\Lambda$

Λ

$\Lambda$

y

$y$

— Restablecer Monica - G. Simpson

Respuestas:

En la teoría de la probabilidad, la independencia estadística (que no es lo mismo que la independencia causal) se define como su propiedad (3), pero (1) sigue como consecuencia . Se dice que los eventos y son estadísticamente independientes si y solo si: $\dagger$ $\mathcal{A}$ $\mathcal{B}$

PAGS (UNA \cap si) = PAGS (UNA) \cdot PAGS (si) .

$\mathbb{P}(\mathcal{A} \cap \mathcal{B}) = \mathbb{P}(\mathcal{A}) \cdot \mathbb{P}(\mathcal{B}) .$

Si entonces si sigue que: $\mathbb{P}(\mathcal{B}) > 0$

PAGS (UNA El | si) = \frac{PAGS (UNA \cap si)}{PAGS (si)} = \frac{PAGS (UNA) \cdot PAGS (si)}{PAGS (si)} = PAGS (UNA) .

$\mathbb{P}(\mathcal{A} |\mathcal{B}) = \frac{\mathbb{P}(\mathcal{A} \cap \mathcal{B})}{\mathbb{P}(\mathcal{B})} = \frac{\mathbb{P}(\mathcal{A}) \cdot \mathbb{P}(\mathcal{B})}{\mathbb{P}(\mathcal{B})} = \mathbb{P}(\mathcal{A}) .$

Esto significa que la independencia estadística implica que la ocurrencia de un evento no afecta la probabilidad del otro. Otra forma de decir esto es que la ocurrencia de un evento no debería cambiar sus creencias sobre el otro. El concepto de independencia estadística generalmente se extiende de eventos a variables aleatorias de una manera que permite hacer afirmaciones análogas para variables aleatorias, incluidas las variables aleatorias continuas (que tienen probabilidad cero de cualquier resultado particular). El tratamiento de la independencia para las variables aleatorias implica básicamente las mismas definiciones aplicadas a las funciones de distribución.

Es crucial comprender que la independencia es una propiedad muy fuerte : si los eventos son estadísticamente independientes, entonces (por definición) no podemos aprender acerca de uno observando al otro. Por esta razón, los modelos estadísticos generalmente implican supuestos de independencia condicional , dada alguna distribución o parámetros subyacentes. El marco conceptual exacto depende de si uno está usando métodos bayesianos o métodos clásicos. El primero implica una dependencia explícita entre los valores observables, mientras que el segundo implica una forma implícita (complicada y sutil) de dependencia. Comprender este problema correctamente requiere un poco de comprensión de las estadísticas clásicas versus las bayesianas.

Los modelos estadísticos a menudo dicen que usan una suposición de que las secuencias de variables aleatorias son "independientes e idénticamente distribuidas (IID)". Por ejemplo, puede tener una secuencia observable , lo que significa que cada variable aleatoria observable se distribuye normalmente con media y desviación estándar $X_1, X_2, X_3, ... \sim \text{IID N} (\mu, \sigma^2)$ $X_i$ $\mu$ $\sigma$ . Cada una de las variables aleatorias en la secuencia es "independiente" de las otras en el sentido de que su resultado no cambia la distribución establecida de los otros valores. En este tipo de modelo, usamos los valores observados de la secuencia para estimar los parámetros en el modelo, y luego podemos predecir los valores no observados de la secuencia. Esto necesariamente implica el uso de algunos valores observados para aprender sobre otros.

Estadísticas bayesianas: todo es conceptualmente simple. Supongamos que son condicionalmente IID dados los parámetros y , y trata esos parámetros desconocidos como variables aleatorias. Dada cualquier distribución previa no degenerada de estos parámetros, los valores en la secuencia observable son dependientes (incondicionalmente), generalmente con correlación positiva. Por lo tanto, tiene mucho sentido que usemos los resultados observados para predecir resultados posteriores no observados: son condicionalmente independientes, pero incondicionalmente dependientes. $X_1, X_2, X_3, ...$ $\mu$ $\sigma$

Estadísticas clásicas: esto es bastante complicado y sutil. Supongamos que son IID dados los parámetros y $X_1, X_2, X_3, ...$ $\mu$ $\sigma$ , pero trate esos parámetros como "constantes desconocidas". Dado que los parámetros se tratan como constantes, no hay una diferencia clara entre independencia condicional e incondicional en este caso. Sin embargo, todavía usamos los valores observados para estimar los parámetros y hacer predicciones de los valores no observados. Por lo tanto, utilizamos los resultados observados para predecir resultados posteriores no observados, aunque no sean "independientes" entre sí. Esta aparente incongruencia se discute en detalle en O'Neill, B. (2009) Intercambiabilidad, correlación y efecto de Bayes. Revista estadística internacional 77 (2) , págs. 241 - 250 .

Aplicando esto a los datos de los grados de los estudiantes, es probable que el modelo algo como esto suponiendo que gradees condicionalmente independiente GIVEN teacher_id. Usaría los datos para hacer inferencias sobre la distribución de calificaciones para cada maestro (que no se supondría que fuera igual) y esto le permitiría hacer predicciones sobre lo desconocido gradede otro estudiante. Debido a que la gradevariable se usa en la inferencia, afectará sus predicciones de cualquier gradevariable desconocida para otro estudiante. Reemplazar teacher_idcon genderno cambia esto; en cualquier caso, tiene una variable que podría usar como predictor grade.

Si usa el método bayesiano, tendrá una suposición explícita de independencia condicional y una distribución previa para las distribuciones de calificaciones de los maestros, y esto conduce a una dependencia incondicional (predictiva) de las calificaciones, lo que le permite usar racionalmente una calificación en su predicción de otra. Si está utilizando estadísticas clásicas, tendrá un supuesto de independencia (basado en parámetros que son "constantes desconocidas") y utilizará métodos de predicción estadística clásicos que le permitirán usar una calificación para predecir otra.

Hay algunas presentaciones fundamentales de la teoría de probabilidad que definen la independencia a través de la declaración de probabilidad condicional y luego dan la declaración de probabilidad conjunta como consecuencia. Esto es menos común. $\dagger$

— Reinstala a Monica
fuente

La independencia estadística es lo que usted describe en la primera parte de su respuesta. Pero su oración "... si los eventos son estadísticamente independientes, entonces (por definición) no podemos aprender acerca de uno observando al otro". es descaradamente mal. El mundo está lleno de eventos estadísticamente independientes pero similares y variables aleatorias.

— Alecos Papadopoulos

¿"Aprender" no significa cambiar nuestras creencias sobre una cosa basada en la observación de otra? Si es así, ¿la independencia (por definición) no impide esto?

— Restablece a Mónica

Iba a hacer un comentario similar al de @Alecos. La impresión general que se tiene es que está afirmando que observar una realización de una variable aleatoria no nos dice nada sobre su distribución

, por lo que no puede predecir nada sobre una segunda realización independiente. Si este fuera el caso, la mayor parte de la teoría del muestreo y la estimación sería imposible de desarrollar. Pero tiene razón en el sentido de que si conocemos

y observamos una realización, eso no nos da información adicional sobre ninguna otra realización independiente .

F

$F$

F

$F$

— whuber

Creo que el problema aquí es que el modelo estándar con IID distribución

está implícitamente utilizando un supuesto de condicional independencia dado el conocimiento de . Condicional al conocimiento de

, las observaciones son independientes, pero incondicionalmente tiene una situación en la que cada observación proporciona información sobre

, que luego afecta sus creencias sobre las otras observaciones.

F

$F$ $F$

F

$F$

F

$F$

— Vuelva a instalar a Monica

La dificultad en este tema es que la estadística clásica trata la distribución subyacente y los parámetros como "constantes desconocidas" y, por lo tanto, no hace ninguna distinción explícita entre independencia condicional o incondicional, en este caso. En las estadísticas bayesianas, todo es muy simple.

— Vuelva a instalar Mónica

Deje $\mathbb x=(X_1,...,X_j,...,X_k)$ por un vector aleatorio dimensional, es decir, una colección de posición fija de variables aleatorias (funciones reales medibles). $k-$

Considere muchos de tales vectores, por ejemplo , y el índice de estos vectores por , entonces, digamos $n$ $i=1,...,n$

y considerarlos como una colección llamada "la muestra",

X_{yo} = (X_{1 yo}, . . ., X_{j yo}, . . ., X_{k yo})

$\mathbb x_i=(X_{1i},...,X_{ji},...,X_{ki})$

. Entonces llamamos a cada

S = (x_{1}, . . ., x_{i}, . . ., x_{n})

$S=(\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n)$

k -

$k-$ vector dimensional una "observación" (aunque realmente se convierte en uno solo cuando medimos y registramos las realizaciones de las variables aleatorias involucradas).

Primero tratemos el caso donde existe una función de masa de probabilidad (PMF) o una función de densidad de probabilidad (PDF), y también, unimos dichas funciones. Denotado por el PMF articulación o PDF conjunta de cada vector aleatorio, y la PMF articulación o PDF conjunta de todos estos vectores juntos. $f_i(\mathbb x_i),\;i=1,...,n$ $f(\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n)$

Entonces, la muestra se llama una "muestra independiente", si se cumple la siguiente igualdad matemática: $S$

F (X_{1}, . . ., X_{yo}, . . ., X_{norte}) = \prod_{yo = 1}^{norte} F_{yo} (X_{yo}), \forall (X_{1}, . . ., X_{yo}, . . ., X_{norte}) \in {re}_{S}

$f(\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n) = \prod_{i=1}^{n}f_i(\mathbb x_i),\;\;\; \forall (\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n) \in D_S$

donde es el dominio conjunto creado por los vectores / observaciones aleatorias. $D_S$ $n$

Esto significa que las "observaciones" son "conjuntamente independientes" (en el sentido estadístico, o "independientes en probabilidad" como era el viejo dicho que todavía se ve hoy en día). El hábito es simplemente llamarlos "observaciones independientes".

Tenga en cuenta que la propiedad de independencia estadística aquí está sobre el índice , es decir, entre observaciones. No está relacionado con cuáles son las relaciones probabilísticas / estadísticas entre las variables aleatorias en cada observación (en el caso general tratamos aquí donde cada observación es multidimensional). $i$

Tenga en cuenta también que en los casos en que tenemos variables aleatorias continuas sin densidades, lo anterior se puede expresar en términos de las funciones de distribución.

Esto es lo que significa "observaciones independientes" . Es una propiedad definida con precisión expresada en términos matemáticos. Veamos algo de lo que implica .

ALGUNAS CONSECUENCIAS DE TENER OBSERVACIONES INDEPENDIENTES

R. Si dos observaciones son parte de un grupo de observaciones independientes en conjunto, entonces también son "independientes por pares" (estadísticamente),

f (x_{i}, x_{m}) = f_{i} (x_{i}) f_{m} (x_{m}) \forall i \neq m, i, m = 1, . . ., n

$f(\mathbb x_i,\mathbb x_m) = f_i(\mathbb x_i)f_m(\mathbb x_m)\;\;\; \forall i\neq m, \;\;\; i,m =1,...,n$

This in turn implies that conditional PMF's/PDFs equal the "marginal" ones

f (x_{i} ∣ x_{m}) = f_{i} (x_{i}) \forall i \neq m, i, m = 1, . . ., n

$f(\mathbb x_i \mid \mathbb x_m) = f_i(\mathbb x_i)\;\;\; \forall i\neq m, \;\;\; i,m =1,...,n$

This generalizes to many arguments, conditioned or conditioning, say

f (x_{i}, x_{ℓ} ∣ x_{m}) = f (x_{i}, x_{ℓ}), f (x_{i} ∣ x_{m}, x_{ℓ}) = f_{i} (x_{i})

$f(\mathbb x_i , \mathbb x_{\ell}\mid \mathbb x_m) = f(\mathbb x_i , \mathbb x_{\ell}),\;\;\;\; f(\mathbb x_i \mid \mathbb x_m, \mathbb x_{\ell}) = f_i(\mathbb x_i)$

etc, as long as the indexes to the left are different to the indexes on the right of the vertical line.

This implies that if we actually observe one observation, the probabilities characterizing any other observation of the sample do not change. So as regards prediction, an independent sample is not our best friend. We would prefer to have dependence so that each observation could help us say something more about any other observation.

B. On the other hand, an independent sample has maximum informational content. Every observation, being independent, carries information that cannot be inferred, wholly or partly, by any other observation in the sample. So the sum total is maximum, compared to any comparable sample where there exists some statistical dependence between some of the observations. But of what use is this information, if it cannot help us improve our predictions?

Well, this is indirect information about the probabilities that characterize the random variables in the sample. The more these observations have common characteristics (common probability distribution in our case), the more we are in a better position to uncover them, if our sample is independent.

In other words if the sample is independent and "identically distributed", meaning

f_{i} (x_{i}) = f_{m} (x_{m}) = f (x), i \neq m

$f_i(\mathbb x_i) = f_m(\mathbb x_m) = f(\mathbb x),\;\;\; i\neq m$

it is the best possible sample in order to obtain information about not only the common joint probability distribution $f(\mathbb x)$ , but also for the marginal distributions of the random variables that comprise each observation, say $f_j(x_{ji})$ .

So even though $f(\mathbb x_i \mid \mathbb x_m) = f_i(\mathbb x_i)$ , so zero additional predictive power as regards the actual realization of $\mathbb x_i$ , with an independent and identically distributed sample, we are in the best position to uncover the functions $f_i$ (or some of its properties), i.e. the marginal distributions.

Therefore, as regards estimation (which is sometimes used as a catch-all term, but here it should be kept distinct from the concept of prediction), an independent sample is our "best friend", if it is combined with the "identically distributed" property.

C. It also follows that an independent sample of observations where each is characterized by a totally different probability distribution, with no common characteristics whatsoever, is as worthless a collection of information as one can get (of course every piece of information on its own is worthy, the issue here is that taken together these cannot be combined to offer anything useful). Imagine a sample containing three observations: one containing (quantitative characteristics of) fruits from South America, another containing mountains of Europe, and a third containing clothes from Asia. Pretty interesting information pieces all three of them -but together as a sample cannot do anything statistically useful for us.

Put in another way, a necessary and sufficient condition for an independent sample to be useful, is that the observations have some statistical characteristics in common. This is why, in Statistics, the word "sample" is not synonymous to "collection of information" in general, but to "collection of information on entities that have some common characteristics".

APPLICATION TO THE OP'S DATA EXAMPLE

Responding to a request from user @gung, let's examine the OP's example in light of the above. We reasonably assume that we are in a school with more than two teachers and more than six pupils. So a) we are sampling both pupilss and teachers, and b) we include in our data set the grade that corresponds to each teacher-pupil combination.

Namely, the grades are not "sampled", they are a consequence of the sampling we did on teachers and pupils. Therefore it is reasonable to treat the random variable $G$ (=grade) as the "dependent variable", while pupils ( $P$ ) and teachers $T$ are "explanatory variables" (not all possible explanatory variables, just some). Our sample consists of six observations which we write explicitly, $S = (\mathbb s_1, ..., \mathbb s_6)$ as

\begin{aligned} s_{1} = (T_{1}, P_{1}, G_{1}) \\ s_{2} = (T_{1}, P_{2}, G_{2}) \\ s_{3} = (T_{1}, P_{3}, G_{3}) \\ s_{3} = (T_{2}, P_{4}, G_{4}) \\ s_{4} = (T_{2}, P_{5}, G_{5}) \\ s_{5} = (T_{2}, P_{6}, G_{6}) \end{aligned}

$\begin{align} \mathbb s_1 =(T_1, P_1, G_1) \\ \mathbb s_2 =(T_1, P_2, G_2) \\ \mathbb s_3 =(T_1, P_3, G_3) \\ \mathbb s_3 =(T_2, P_4, G_4) \\ \mathbb s_4 =(T_2, P_5, G_5) \\ \mathbb s_5 =(T_2, P_6, G_6) \\ \end{align}$

Under the stated assumption "pupils do not influence each other", we can consider the $P_i$ variables as independently distributed. Under a non-stated assumption that "all other factors" that may influence the Grade are independent of each other, we can also consider the $G_i$ variables to be independent of each other.
Finally under a non-stated assumption that teachers do not influence each other, we can consider the variables $T_1, T_2$ as statistically independent between them.

But irrespective of what causal/structural assumption we will make regarding the relation between teachers and pupils, the fact remains that observations $\mathbb s_1, \mathbb s_2, \mathbb s_3$ contain the same random variable ( $T_1$ ), while observations $\mathbb s_4, \mathbb s_5, \mathbb s_6$ also contains the same random variable ( $T_2$ ).

Note carefully the distinction between "the same random variable" and "two distinct random variables that have identical distributions".

So even if we assume that "teachers do NOT influence pupils", then still, our sample as defined above is not an independent sample, because $\mathbb s_1, \mathbb s_2, \mathbb s_3$ are statistically dependent through $T_1$ , while $\mathbb s_4, \mathbb s_5, \mathbb s_6$ are statistically dependent through $T_2$ .

Assume now that we exclude the random variable "teacher" from our sample. Is the (Pupil, Grade) sample of six observations, an independent sample? Here, the assumptions we will make regarding what is the structural relationship between teachers, pupils, and grades does matter.

First, do teachers directly affect the random variable "Grade", through perhaps, different "grading attitudes/styles"? For example $T_1$ may be a "tough grader" while $T_2$ may be not. In such a case "not seeing" the variable "Teacher" does not make the sample independent, because it is now the $G_1, G_2, G_3$ that are dependent, due to a common source of influence, $T_1$ (and analogously for the other three).

But say that teachers are identical in that respect. Then under the stated assumption "teachers influence students" we have again that the first three observations are dependent with each other, because teachers influence pupils who influence grades, and we arrive at the same result, albeit indirectly in this case (and likewise for the other three). So again, the sample is not independent.

THE CASE OF GENDER

Now, let's make the (Pupil, Grade) six-observation sample "conditionally independent with respect to teacher" (see other answers) by assuming that all six pupils have in reality the same teacher. But in addition let's include in the sample the random variable " $Ge$ =Gender" that traditionally takes two values ( $M,F$ ), while recently has started to take more. Our once again three-dimensional six-observation sample is now

\begin{aligned} s_{1} = (G e_{1}, P_{1}, G_{1}) \\ s_{2} = (G e_{2}, P_{2}, G_{2}) \\ s_{3} = (G e_{3}, P_{3}, G_{3}) \\ s_{3} = (G e_{4}, P_{4}, G_{4}) \\ s_{4} = (G e_{5}, P_{5}, G_{5}) \\ s_{5} = (G e_{6}, P_{6}, G_{6}) \end{aligned}

$\begin{align} \mathbb s_1 =(Ge_1, P_1, G_1) \\ \mathbb s_2 =(Ge_2, P_2, G_2) \\ \mathbb s_3 =(Ge_3, P_3, G_3) \\ \mathbb s_3 =(Ge_4, P_4, G_4) \\ \mathbb s_4 =(Ge_5, P_5, G_5) \\ \mathbb s_5 =(Ge_6, P_6, G_6) \\ \end{align}$

Note carefully that what we included in the description of the sample as regards Gender, is not the actual value that it takes for each pupil, but the random variable "Gender". Look back at the beginning of this very long answer: the Sample is not defined as a collection of numbers (or fixed numerical or not values in general), but as a collection of random variables (i.e. of functions).

Now, does the gender of one pupil influences (structurally or statistically) the gender of the another pupil? We could reasonably argue that it doesn't. So from that respect, the $Ge_i$ variables are independent. Does the gender of pupil $1$ , $Ge_1$ , affects in some other way directly some other pupil ( $P_2, P_3,...$ )? Hmm, there are battling educational theories if I recall on the matter. So if we assume that it does not, then off it goes another possible source of dependence between observations. Finally, does the gender of a pupil influence directly the grades of another pupil? if we argue that it doesn't, we obtain an independent sample (conditional on all pupils having the same teacher).

— Alecos Papadopoulos
fuente

No estoy de acuerdo con su punto B. Para algunos propósitos, como estimar una media, la correlación negativa es mejor que la independencia.

— kjetil b halvorsen

@kjetil ¿Mejor en qué sentido?

— Alecos Papadopoulos

Sería útil si pudiera conectar esto concretamente a las preguntas del OP en el texto. Dado esto, ¿cómo entendemos que las observaciones enumeradas no son independientes? ¿Y en qué se diferencia el dejar de lado al maestro de dejar de lado el sexo?

— gung - Restablece a Monica

@gung Incluí algunas elaboraciones según las líneas que sugirió.

— Alecos Papadopoulos

Mejor en el sentido de reducir la varianza

— kjetil b halvorsen

Las definiciones de independencia estadística que da en su publicación son esencialmente correctas, pero no llegan al corazón de la suposición de independencia en un modelo estadístico . Para comprender lo que entendemos por la suposición de observaciones independientes en un modelo estadístico, será útil revisar lo que es un modelo estadístico a nivel conceptual.

Modelos estadísticos como aproximaciones a los "dados de la naturaleza"

Usemos un ejemplo familiar: recolectamos una muestra aleatoria de humanos adultos (de una población bien definida, por ejemplo, todos los humanos adultos en la tierra) y medimos sus alturas. Deseamos estimar la altura media de la población de humanos adultos. Para hacer esto, construimos un modelo estadístico simple asumiendo que las alturas de las personas surgen de una distribución normal.

Nuestro modelo será bueno si una distribución normal proporciona una buena aproximación de cómo la naturaleza "elige" alturas para las personas. Es decir, si simulamos datos bajo nuestro modelo normal, ¿el conjunto de datos resultante se parece mucho (en un sentido estadístico) a lo que observamos en la naturaleza? En el contexto de nuestro modelo, ¿nuestro generador de números aleatorios proporciona una buena simulación del complicado proceso estocástico que la naturaleza usa para determinar las alturas de adultos humanos seleccionados al azar ("dados de la naturaleza")?

El supuesto de independencia en un contexto de modelado simple

Cuando asumimos que podíamos aproximarnos a los "dados de la naturaleza" al dibujar números aleatorios de una distribución normal, no queríamos decir que sacaríamos un solo número de la distribución normal y luego asignar esa altura a todos. Quisimos decir que dibujaríamos independientemente números para todos de la misma distribución normal. Esta es nuestra suposición de independencia.

Imagine ahora que nuestra muestra de adultos no era una muestra aleatoria, sino que provenía de un puñado de familias. La estatura corre en algunas familias, y la escasez corre en otras. Ya dijimos que estamos dispuestos a asumir que las alturas de todos los adultos provienen de una distribución normal. Pero el muestreo de la distribución normal no proporcionaría un conjunto de datos que se parezca mucho a nuestra muestra (nuestra muestra mostraría "grupos" de puntos, algunos cortos, otros altos: cada grupo es una familia). Las alturas de las personas en nuestra muestra no son sorteos independientes de la distribución normal general.

El supuesto de independencia en un contexto de modelado más complicado

¡Pero no todo esta perdido! Es posible que podamos escribir un mejor modelo para nuestra muestra, uno que conserve la independencia de las alturas. Por ejemplo, podríamos escribir un modelo lineal donde las alturas surjan de una distribución normal con una media que depende de a qué familia pertenece el sujeto. En este contexto, la distribución normal describe la variación residual , DESPUÉS de que tenemos en cuenta la influencia de la familia. Y las muestras independientes de una distribución normal podrían ser un buen modelo para esta variación residual.

En general, lo que hemos hecho es escribir un modelo más sofisticado de cómo esperamos que se comporten los dados de la naturaleza en el contexto de nuestro estudio. Al escribir un buen modelo, aún podríamos estar justificados al suponer que la parte aleatoria del modelo (es decir, la variación aleatoria alrededor de las medias familiares) se muestrea de forma independiente para cada miembro de la población.

El supuesto de independencia (condicional) en un contexto de modelado general

En general, los modelos estadísticos funcionan suponiendo que los datos surgen de alguna distribución de probabilidad. Los parámetros de esa distribución (como la media de la distribución normal en el ejemplo anterior) pueden depender de covariables (como la familia en el ejemplo anterior). Pero, por supuesto, son posibles variaciones infinitas. La distribución podría no ser normal, el parámetro que depende de las covariables podría no ser la media, la forma de la dependencia podría no ser lineal, etc. TODOS estos modelos se basan en el supuesto de que proporcionan una aproximación razonablemente buena de cómo los dados de la naturaleza comportarse (nuevamente, los datos simulados bajo el modelo se verán estadísticamente similares a los datos reales obtenidos por naturaleza).

Cuando simulamos datos bajo el modelo, el paso final siempre será dibujar un número aleatorio de acuerdo con alguna distribución de probabilidad modelada. Estos son los sorteos que suponemos que son independientes unos de otros. Los datos reales que obtenemos pueden no parecer independientes, porque las covariables u otras características del modelo pueden indicarnos que usemos diferentes distribuciones de probabilidad para diferentes sorteos (o conjuntos de sorteos). Pero toda esta información debe integrarse en el modelo mismo. No podemos permitir que el sorteo de números finales aleatorio dependa de los valores que extrajimos para otros puntos de datos. Por lo tanto, los eventos que necesitan ser independientes son las tiradas de "dados de la naturaleza" en el contexto de nuestro modelo.

Es útil referirse a esta situación como independencia condicional , lo que significa que los puntos de datos son independientes entre sí dadas (es decir, condicionadas) por las covariables. En nuestro ejemplo de altura, asumimos que mi estatura y la altura de mi hermano condicionadas por mi familia son independientes entre sí, y también son independientes de su altura y la altura de su hermana condicionada por su familia. Una vez que conocemos la familia de alguien, sabemos de qué distribución normal dibujar para simular su altura, y los sorteos para diferentes individuos son independientes independientemente de su familia (aunque nuestra elección de qué distribución normal dibujar depende de la familia). También es posible que incluso después de tratar con la estructura familiar de nuestros datos, aún no logremos una buena independencia condicional (tal vez también es importante modelar el género, por ejemplo).

En última instancia, si tiene sentido asumir la independencia condicional de las observaciones es una decisión que debe tomarse en el contexto de un modelo particular. Es por eso que, por ejemplo, en la regresión lineal, no verificamos que los datos provengan de una distribución normal, sino que verificamos que los RESIDUALES provienen de una distribución normal (y de la MISMA distribución normal en todo el rango de datos). La regresión lineal supone que, después de tener en cuenta la influencia de las covariables (la línea de regresión), los datos se muestrean independientemente de una distribución normal, de acuerdo con la definición estricta de independencia en la publicación original.

En el contexto de tu ejemplo

"Profesor" en sus datos podría ser como "familia" en el ejemplo de altura.

Un giro final sobre eso

Muchos modelos familiares suponen que los residuos surgen de una distribución normal. Imagina que te di algunos datos que claramente NO eran normales. Tal vez están fuertemente sesgados, o tal vez son bimodales. Y te dije "estos datos provienen de una distribución normal".

"De ninguna manera", dices, "¡Es obvio que eso no es normal!"

"¿Quién dijo algo acerca de que los datos son normales?" Yo digo. "Solo dije que provienen de una distribución normal".

"¡Uno en el mismo!" tu dices. "¡Sabemos que un histograma de muestra razonablemente grande de una distribución normal tenderá a parecer aproximadamente normal!"

"Pero", digo, "nunca dije que los datos se muestrearan independientemente de la distribución normal. El DO proviene de una distribución normal, pero no son sorteos independientes".

La suposición de independencia (condicional) en el modelado estadístico está ahí para evitar que los imbéciles como yo ignoren la distribución de los residuos y apliquen mal el modelo.

Dos notas finales

1) El término "dados de la naturaleza" no es mío originalmente, pero a pesar de consultar un par de referencias, no puedo entender dónde lo obtuve en este contexto.

2) Algunos modelos estadísticos (por ejemplo, modelos autorregresivos) no requieren independencia de las observaciones de esta manera. En particular, permiten que la distribución de muestreo para una observación dada dependa no solo de covariables fijas, sino también de los datos que la precedieron.

— Jacob Socolar
fuente

Gracias por esto. Me gusta que se ponga de una manera muy accesible. Usted aborda el tema de cómo se desarrolla esto para el maestro, ¿puede extender la discusión para abordar también la idea del sexo como una covariable?

— gung - Restablece a Monica