Un problema con su discusión con el profesor es uno de terminología, hay un malentendido que se interpone en el camino de transmitir una idea potencialmente útil. En diferentes lugares, ambos cometen errores.
Entonces, lo primero que debe abordar: es importante tener muy claro qué es una distribución .
Una distribución normal es un objeto matemático específico, que podría considerar como modelo para una población infinita de valores. (Ninguna población finita puede tener una distribución continua).
En términos generales, lo que hace esta distribución (una vez que especifica los parámetros) es definir (a través de una expresión algebraica) la proporción de los valores de la población que se encuentra dentro de cualquier intervalo dado en la línea real. Un poco menos flexible, define la probabilidad de que un solo valor de esa población se encuentre en cualquier intervalo dado.
Una muestra observada realmente no tiene una distribución normal; una muestra podría (potencialmente) extraerse de una distribución normal, si existiera una. Si observa el cdf empírico de la muestra, es discreto. Si lo agrupa (como en un histograma) la muestra tiene una "distribución de frecuencia", pero esas no son distribuciones normales. La distribución puede decirnos algunas cosas (en un sentido probabilístico) sobre una muestra aleatoria de la población, y una muestra también puede decirnos algunas cosas sobre la población.
Una interpretación razonable de una frase como "muestra distribuida normalmente" * es "una muestra aleatoria de una población distribuida normalmente".
* (Por lo general, trato de evitar decirlo yo mismo, por razones que con suerte se aclaran lo suficiente aquí; por lo general, me limito a la segunda clase de expresión).
Habiendo definido los términos (aunque todavía un poco flojo), veamos ahora la pregunta en detalle. Voy a abordar piezas específicas de la pregunta.
distribución normal uno debe tener media = mediana = modo
Esta es ciertamente una condición en la distribución de probabilidad normal, aunque no es un requisito en una muestra extraída de una distribución normal; las muestras pueden ser asimétricas, pueden tener una media diferente de la mediana, etc. [Sin embargo, podemos tener una idea de cuán separados podríamos esperar razonablemente que estén si la muestra realmente proviene de una población normal].
todos los datos deben estar contenidos bajo la curva de campana
No estoy seguro de lo que significa "contenido debajo" en este sentido.
y perfectamente simétrica alrededor de la media.
No; estás hablando de los datos aquí, y una muestra de una población normal (definitivamente simétrica) no sería en sí misma perfectamente simétrica.
Por lo tanto, técnicamente, prácticamente NO hay distribuciones normales en estudios reales,
Estoy de acuerdo con su conclusión, pero el razonamiento no es correcto; no es una consecuencia del hecho de que los datos no son perfectamente simétricos (etc.); Es el hecho de que las poblaciones en sí mismas no son perfectamente normales .
si el sesgo / curtosis es menor a 1.0, es una distribución normal
Si ella dijo esto de esa manera, definitivamente está equivocada.
Una asimetría de la muestra puede estar mucho más cerca de 0 que eso (tomando "menos de" para significar en magnitud absoluta no un valor real), y el exceso de curtosis de la muestra también puede estar mucho más cerca de 0 que eso (podrían incluso, ya sea por casualidad o construcción, potencialmente puede ser casi exactamente cero), y sin embargo, la distribución de la que se extrajo la muestra puede ser claramente no normal.
Podemos ir más allá, incluso si supiéramos por arte de magia que la asimetría de la población y la curtosis son exactamente las de una persona normal, todavía no nos diría por sí mismas que la población era normal, ni siquiera algo cercano a lo normal.
El conjunto de datos es el número total de caídas / año en una muestra aleatoria de 52 hogares de ancianos, que es una muestra aleatoria de una población más grande.
La distribución poblacional de los recuentos nunca es normal. Los recuentos son discretos y no negativos, las distribuciones normales son continuas y sobre toda la línea real.
Pero estamos realmente centrados en el tema equivocado aquí. Los modelos de probabilidad son solo eso, modelos . No confundamos nuestros modelos con los reales .
El problema no es "¿son los datos en sí mismos normales?" (no pueden ser), ni siquiera "¿es normal la población de la que se extrajeron los datos?" (este casi nunca será el caso).
Una pregunta más útil para discutir es "¿hasta qué punto se vería afectada mi inferencia si tratara a la población como distribuida normalmente?"
También es una pregunta mucho más difícil de responder bien, y puede requerir mucho más trabajo que mirar algunos diagnósticos simples.
Las estadísticas de muestra que mostró no son particularmente inconsistentes con la normalidad (podría ver estadísticas como esa o "peor", no muy raramente si tuviera muestras aleatorias de ese tamaño de poblaciones normales), pero eso no significa en sí mismo que la población real de la cual se extrajo la muestra, automáticamente se "acerca lo suficiente" a la normalidad para algún propósito en particular. Sería importante considerar el propósito (qué preguntas está respondiendo), y la solidez de los métodos empleados para ello, e incluso entonces aún no podemos estar seguros de que sea "lo suficientemente bueno"; a veces puede ser mejor simplemente no asumir lo que no tenemos buenas razones para asumir a priori (por ejemplo, en base a la experiencia con conjuntos de datos similares).
NO es una distribución normal
Los datos, incluso los datos extraídos de una población normal, nunca tienen exactamente las propiedades de la población; De esos números por sí solos no tiene una buena base para concluir que la población no es normal aquí.
Por otro lado, tampoco tenemos una base razonablemente sólida para decir que está "suficientemente cerca" de lo normal: ni siquiera hemos considerado el propósito de asumir la normalidad, por lo que no sabemos a qué características de distribución podría ser sensible.
Por ejemplo, si tuviera dos muestras para una medición limitada, sabía que no sería muy discreto (no solo tomaría unos pocos valores distintos) y razonablemente cercano a simétrico, podría estar relativamente contento de usar una muestra de dos prueba t con un tamaño de muestra no tan pequeño; es moderadamente robusto a desviaciones leves de los supuestos (algo robusto a nivel, no tan robusto a la potencia). Pero sería mucho más cauteloso al asumir la normalidad causal cuando se prueba la igualdad de propagación, por ejemplo, porque la mejor prueba bajo esa suposición es bastante sensible a la suposición.
Debido a que ambos están entre los valores críticos de -1 y +1, se considera que estos datos se distribuyen normalmente ".
Si ese es realmente el criterio por el cual uno decide usar un modelo de distribución normal, entonces a veces lo llevará a análisis bastante pobres.
Los valores de esas estadísticas nos dan algunas pistas sobre la población de la que se extrajo la muestra, pero eso no es lo mismo que sugerir que sus valores son de alguna manera una 'guía segura' para elegir un análisis.
Ahora, para abordar el problema subyacente con una versión mejor redactada de una pregunta como la que tenía:
Todo el proceso de mirar una muestra para elegir un modelo está plagado de problemas, ¡esto altera las propiedades de cualquier elección de análisis posterior en función de lo que vio! por ejemplo, para una prueba de hipótesis, sus niveles de significancia, valores p y potencia no son lo que usted elegiría / calcularía , porque esos cálculos se basan en que el análisis no se basa en los datos.
Véase, por ejemplo, Gelman y Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volumen 102, Número 6, p 460 (DOI: 10.1511 / 2014.111.460) que analiza problemas con dicho análisis dependiente de los datos.