Lo que concluye si los datos son IID proviene de información externa, no de los datos en sí. Usted, como científico, debe determinar si es razonable asumir el IID de los datos en función de cómo se recopilaron los datos y otra información externa.
Considere algunos ejemplos.
Escenario 1: generamos un conjunto de datos independientemente de una distribución única que resulta ser una mezcla de 2 normales.
Escenario 2: Primero generamos una variable de género a partir de una distribución binomial, luego dentro de hombres y mujeres generamos de manera independiente datos de una distribución normal (pero las normales son diferentes para hombres y mujeres), luego eliminamos o perdemos la información de género.
En el escenario 1, los datos son IID y en el escenario 2 los datos claramente no están distribuidos de manera idéntica (diferentes distribuciones para hombres y mujeres), pero las 2 distribuciones para los 2 escenarios son indistinguibles de los datos, debe saber cómo los datos fue generado para determinar la diferencia.
Escenario 3: tomo una muestra aleatoria simple de personas que viven en mi ciudad y administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas en la ciudad.
Escenario 4: tomo una muestra aleatoria simple de personas que viven en mi ciudad y administro una encuesta y analizo los resultados para hacer inferencias sobre todas las personas en el país.
En el escenario 3, los sujetos serían considerados independientes (muestra aleatoria simple de la población de interés), pero en el escenario 4 no serían considerados independientes porque fueron seleccionados de un pequeño subconjunto de la población de interés y la proximidad geográfica probablemente impondría dependencia. Pero los 2 conjuntos de datos son idénticos, es la forma en que pretendemos usar los datos lo que determina si son independientes o dependientes en este caso.
Por lo tanto, no hay forma de probar usando solo los datos para mostrar que los datos son IID, los gráficos y otros diagnósticos pueden mostrar algunos tipos de no IID, pero la falta de estos no garantiza que los datos sean IID. También puede comparar suposiciones específicas (IID normal es más fácil de refutar que solo IID). Cualquier prueba sigue siendo solo una regla, pero el hecho de no rechazar las pruebas nunca prueba que sea IID.
Las decisiones sobre si está dispuesto a asumir que se cumplen las condiciones de IID deben tomarse en función de la ciencia de cómo se recopilaron los datos, cómo se relacionan con otra información y cómo se utilizarán.
Ediciones:
Aquí hay otro conjunto de ejemplos para no idénticos.
Escenario 5: los datos son residuales de una regresión donde hay heterocedasticidad (las varianzas no son iguales).
Escenario 6: los datos provienen de una mezcla de normales con media 0 pero diferentes variaciones.
En el escenario 5, podemos ver claramente que los residuos no están distribuidos de manera idéntica si graficamos los residuos contra los valores ajustados u otras variables (predictores o predictores potenciales), pero los residuales mismos (sin la información externa) serían indistinguibles del escenario 6.