Me temo que podría tener la respuesta matizada y quizás insatisfactoria de que es una elección subjetiva del investigador o analista de datos. Como se menciona en otra parte de este hilo, no es suficiente simplemente decir que los datos tienen una "estructura anidada". Sin embargo, para ser justos, esta es la cantidad de libros que describen cuándo usar modelos multinivel. Por ejemplo, acabo de sacar el libro Análisis multinivel de Joop Hox de mi estantería, lo que da esta definición:
Un problema multinivel concierne a una población con una estructura jerárquica.
Incluso en un libro de texto bastante bueno, la definición inicial parece ser circular. Creo que esto se debe en parte a la subjetividad de determinar cuándo usar qué tipo de modelo (incluido un modelo multinivel).
Otro libro, Modelos lineales mixtos de West, Welch y Galecki dice que estos modelos son para:
variables de resultado en las que los residuos se distribuyen normalmente pero pueden no ser independientes o tener una varianza constante. Los diseños de estudios que conducen a conjuntos de datos que pueden analizarse adecuadamente utilizando LMM incluyen (1) estudios con datos agrupados, como estudiantes en aulas, o diseños experimentales con bloques aleatorios, como lotes de materia prima para un proceso industrial, y (2) estudios longitudinales o de medidas repetidas, en los que los sujetos se miden repetidamente a lo largo del tiempo o en diferentes condiciones.
El modelado multinivel de Finch, Bolin y Kelley en R también habla de violar la suposición de iid y los residuos correlacionados:
De particular importancia en el contexto del modelado multinivel es el supuesto [en regresión estándar] de términos de error distribuidos independientemente para las observaciones individuales dentro de una muestra. Esta suposición esencialmente significa que no hay relaciones entre los individuos en la muestra para la variable dependiente una vez que se tienen en cuenta las variables independientes en el análisis.
Creo que un modelo multinivel tiene sentido cuando hay razones para creer que las observaciones no son necesariamente independientes entre sí. Cualquier "grupo" que explique esta no independencia puede ser modelado.
Un ejemplo obvio serían los niños en las aulas: todos están interactuando entre ellos, lo que puede hacer que sus puntajes en las pruebas no sean independientes. ¿Qué sucede si una clase tiene a alguien que hace una pregunta que lleva a que el material esté cubierto en esa clase que no está cubierto en otras clases? ¿Qué pasa si el maestro está más despierto para algunas clases que para otras? En este caso, habría cierta falta de independencia de los datos; en palabras multinivel, podríamos esperar que alguna variación en la variable dependiente se deba al clúster (es decir, la clase).
Creo que su ejemplo de un perro versus un elefante depende de las variables de interés independientes y dependientes. Por ejemplo, digamos que estamos preguntando si hay un efecto de la cafeína en el nivel de actividad. Los animales de todo el zoológico se asignan al azar para obtener una bebida con cafeína o una bebida de control.
Si somos un investigador interesado en la cafeína, podríamos especificar un modelo multinivel, porque realmente nos importa el efecto de la cafeína. Este modelo se especificaría como:
activity ~ condition + (1+condition|species)
Esto es particularmente útil si hay una gran cantidad de especies sobre las que estamos probando esta hipótesis. Sin embargo, un investigador podría estar interesado en los efectos de la cafeína específicos de la especie. En ese caso, podrían especificar especies como un efecto fijo:
activity ~ condition + species + condition*species
Obviamente, esto es un problema si hay, por ejemplo, 30 especies, creando un diseño difícil de manejar de 2 x 30. Sin embargo, puede ser bastante creativo con la forma en que uno modela estas relaciones.
Por ejemplo, algunos investigadores están abogando por un uso aún más amplio del modelado multinivel. Gelman, Hill y Yajima (2012) argumentan que el modelado multinivel podría usarse como una corrección para comparaciones múltiples, incluso en investigaciones experimentales donde la estructura de los datos no es obviamente de naturaleza jerárquica:
Los problemas más difíciles surgen al modelar comparaciones múltiples que tienen más estructura. Por ejemplo, supongamos que tenemos cinco medidas de resultado, tres variedades de tratamientos y subgrupos clasificados por dos sexos y cuatro grupos raciales. No quisiéramos modelar esta estructura 2 × 3 × 4 × 5 como 120 grupos intercambiables. Incluso en estas situaciones más complejas, creemos que el modelado multinivel debería y eventualmente tomará el lugar de los procedimientos clásicos de comparaciones múltiples.
Los problemas pueden modelarse de varias maneras, y en casos ambiguos, múltiples enfoques pueden parecer atractivos. Creo que nuestro trabajo es elegir un enfoque razonable e informado y hacerlo de manera transparente.