¿Una "distribución normal" debe tener media = mediana = modo?


17

He estado en un debate con mi profesor de estadística de nivel de posgrado sobre "distribuciones normales". Sostengo que para obtener realmente una distribución normal, uno debe tener media = mediana = modo, todos los datos deben estar contenidos debajo de la curva de campana, y perfectamente simétricos alrededor de la media. Por lo tanto, técnicamente, prácticamente NO hay distribuciones normales en estudios reales, y deberíamos llamarlos de otra manera, tal vez "casi normal".

Ella dice que soy demasiado exigente, y si la asimetría / curtosis es inferior a 1.0, es una distribución normal y saca puntos en un examen. El conjunto de datos es el número total de caídas / año en una muestra aleatoria de 52 hogares de ancianos, que es una muestra aleatoria de una población más grande. Alguna idea?

Problema:

PREGUNTA: 3. Calcule las medidas de asimetría y curtosis para estos datos. Incluya un histograma con una curva normal. Discute tus hallazgos. ¿Los datos se distribuyen normalmente?

Statistics 
Number of falls  
N  Valid    52
   Missing   0
Mean        11.23
Median      11.50
Mode         4a

a. Existen múltiples modos. Se muestra el valor más pequeño.

Number of falls  
N  Valid    52
   Missing   0
Skewness      .114
Std. Error of Skewness    .330
Kurtosis  -.961
Std. Error of Kurtosis    .650

Mi respuesta:

Los datos son platykurtic y solo tienen un ligero sesgo positivo, y NO es una distribución normal porque la media, la mediana y la moda no son iguales y los datos no se distribuyen uniformemente alrededor de la media. En realidad, prácticamente ningún dato es una distribución normal perfecta, aunque podemos analizar "distribuciones aproximadamente normales" como la altura, el peso, la temperatura o la longitud del dedo anular adulto en grandes grupos de población.

Respuesta del profesor:

Tienes razón en que no hay una distribución perfectamente normal. Pero, no estamos buscando la perfección. Necesitamos mirar datos además del histograma y las medidas de tendencia central. ¿Qué le dicen las estadísticas de asimetría y curtosis sobre la distribución? Debido a que ambos están entre los valores críticos de -1 y +1, estos datos se consideran distribuidos normalmente.


3
Me gustaría saber la redacción exacta de tu profesor. En principio, una distribución normal tiene una media, una mediana y un modo idénticos (pero también muchas otras distribuciones) y tiene asimetría 0 y (llamada exceso) curtosis 0 (y también algunas otras distribuciones). En el mejor de los casos, una distribución con (por ejemplo) leve asimetría o curtosis es aproximadamente normal. Tenga en cuenta que casi todos los datos reales son, en el mejor de los casos, aproximaciones a distribuciones con nombre en la colección teórica.
Nick Cox

22
No estoy de acuerdo con @ user2974951 En compañía de cada buen texto, sé que estoy perfectamente feliz de pensar que la distribución normal tiene una mediana y un modo. Y eso se aplica ampliamente a las distribuciones continuas, aunque no dudo que se puedan identificar contraejemplos patológicos.
Nick Cox

44
Gracias por el detalle específico, que muestra mérito en ambos lados, pero no estoy calificando a ninguno de ustedes. Sin embargo, disiento fuertemente del término valores críticos según lo utilizado por su profesor, ya que los límites para la asimetría y la curtosis no tienen ninguna importancia más allá de las reglas generales que podrían usarse. Dependiendo de lo que esté haciendo con los datos, una asimetría < 1 podría coincidir con el deseo de transformar los datos y una asimetría de > 1 podría ir junto con el abandono de los datos, y lo mismo ocurre con la curtosis. ±1<1>1
Nick Cox

66
Si nos dejamos abrazar seriamente por el arte de las trampas, deberíamos observar que no hay caídas negativas, y que las caídas son discretas, por lo que la distribución de facto no puede ser normal. Esto hace que la pregunta sea nula en primer lugar. En una nota más seria, la pregunta es claramente un ejemplo fabricado con el objetivo de verificar reglas básicas específicas. En realidad, dependiendo del objetivo de nuestro estudio, puede ser razonable o no asumir una distribución normal. En verdad nunca lo sabremos, ya que solo tenemos una muestra.
Ioannis

55
@ user2974951 Debería considerar eliminar su primer comentario, ya que no está de acuerdo con él ahora. ¡Hasta ahora ha engañado a tres lectores para que indiquen que están de acuerdo con eso!
whuber

Respuestas:


25

Un problema con su discusión con el profesor es uno de terminología, hay un malentendido que se interpone en el camino de transmitir una idea potencialmente útil. En diferentes lugares, ambos cometen errores.

Entonces, lo primero que debe abordar: es importante tener muy claro qué es una distribución .

Una distribución normal es un objeto matemático específico, que podría considerar como modelo para una población infinita de valores. (Ninguna población finita puede tener una distribución continua).

En términos generales, lo que hace esta distribución (una vez que especifica los parámetros) es definir (a través de una expresión algebraica) la proporción de los valores de la población que se encuentra dentro de cualquier intervalo dado en la línea real. Un poco menos flexible, define la probabilidad de que un solo valor de esa población se encuentre en cualquier intervalo dado.

Una muestra observada realmente no tiene una distribución normal; una muestra podría (potencialmente) extraerse de una distribución normal, si existiera una. Si observa el cdf empírico de la muestra, es discreto. Si lo agrupa (como en un histograma) la muestra tiene una "distribución de frecuencia", pero esas no son distribuciones normales. La distribución puede decirnos algunas cosas (en un sentido probabilístico) sobre una muestra aleatoria de la población, y una muestra también puede decirnos algunas cosas sobre la población.

Una interpretación razonable de una frase como "muestra distribuida normalmente" * es "una muestra aleatoria de una población distribuida normalmente".

* (Por lo general, trato de evitar decirlo yo mismo, por razones que con suerte se aclaran lo suficiente aquí; por lo general, me limito a la segunda clase de expresión).

Habiendo definido los términos (aunque todavía un poco flojo), veamos ahora la pregunta en detalle. Voy a abordar piezas específicas de la pregunta.

distribución normal uno debe tener media = mediana = modo

Esta es ciertamente una condición en la distribución de probabilidad normal, aunque no es un requisito en una muestra extraída de una distribución normal; las muestras pueden ser asimétricas, pueden tener una media diferente de la mediana, etc. [Sin embargo, podemos tener una idea de cuán separados podríamos esperar razonablemente que estén si la muestra realmente proviene de una población normal].

todos los datos deben estar contenidos bajo la curva de campana

No estoy seguro de lo que significa "contenido debajo" en este sentido.

y perfectamente simétrica alrededor de la media.

No; estás hablando de los datos aquí, y una muestra de una población normal (definitivamente simétrica) no sería en sí misma perfectamente simétrica.

Por lo tanto, técnicamente, prácticamente NO hay distribuciones normales en estudios reales,

Estoy de acuerdo con su conclusión, pero el razonamiento no es correcto; no es una consecuencia del hecho de que los datos no son perfectamente simétricos (etc.); Es el hecho de que las poblaciones en sí mismas no son perfectamente normales .

si el sesgo / curtosis es menor a 1.0, es una distribución normal

Si ella dijo esto de esa manera, definitivamente está equivocada.

Una asimetría de la muestra puede estar mucho más cerca de 0 que eso (tomando "menos de" para significar en magnitud absoluta no un valor real), y el exceso de curtosis de la muestra también puede estar mucho más cerca de 0 que eso (podrían incluso, ya sea por casualidad o construcción, potencialmente puede ser casi exactamente cero), y sin embargo, la distribución de la que se extrajo la muestra puede ser claramente no normal.

Podemos ir más allá, incluso si supiéramos por arte de magia que la asimetría de la población y la curtosis son exactamente las de una persona normal, todavía no nos diría por sí mismas que la población era normal, ni siquiera algo cercano a lo normal.

El conjunto de datos es el número total de caídas / año en una muestra aleatoria de 52 hogares de ancianos, que es una muestra aleatoria de una población más grande.

La distribución poblacional de los recuentos nunca es normal. Los recuentos son discretos y no negativos, las distribuciones normales son continuas y sobre toda la línea real.

Pero estamos realmente centrados en el tema equivocado aquí. Los modelos de probabilidad son solo eso, modelos . No confundamos nuestros modelos con los reales .

El problema no es "¿son los datos en sí mismos normales?" (no pueden ser), ni siquiera "¿es normal la población de la que se extrajeron los datos?" (este casi nunca será el caso).

Una pregunta más útil para discutir es "¿hasta qué punto se vería afectada mi inferencia si tratara a la población como distribuida normalmente?"

También es una pregunta mucho más difícil de responder bien, y puede requerir mucho más trabajo que mirar algunos diagnósticos simples.

Las estadísticas de muestra que mostró no son particularmente inconsistentes con la normalidad (podría ver estadísticas como esa o "peor", no muy raramente si tuviera muestras aleatorias de ese tamaño de poblaciones normales), pero eso no significa en sí mismo que la población real de la cual se extrajo la muestra, automáticamente se "acerca lo suficiente" a la normalidad para algún propósito en particular. Sería importante considerar el propósito (qué preguntas está respondiendo), y la solidez de los métodos empleados para ello, e incluso entonces aún no podemos estar seguros de que sea "lo suficientemente bueno"; a veces puede ser mejor simplemente no asumir lo que no tenemos buenas razones para asumir a priori (por ejemplo, en base a la experiencia con conjuntos de datos similares).

NO es una distribución normal

Los datos, incluso los datos extraídos de una población normal, nunca tienen exactamente las propiedades de la población; De esos números por sí solos no tiene una buena base para concluir que la población no es normal aquí.

Por otro lado, tampoco tenemos una base razonablemente sólida para decir que está "suficientemente cerca" de lo normal: ni siquiera hemos considerado el propósito de asumir la normalidad, por lo que no sabemos a qué características de distribución podría ser sensible.

Por ejemplo, si tuviera dos muestras para una medición limitada, sabía que no sería muy discreto (no solo tomaría unos pocos valores distintos) y razonablemente cercano a simétrico, podría estar relativamente contento de usar una muestra de dos prueba t con un tamaño de muestra no tan pequeño; es moderadamente robusto a desviaciones leves de los supuestos (algo robusto a nivel, no tan robusto a la potencia). Pero sería mucho más cauteloso al asumir la normalidad causal cuando se prueba la igualdad de propagación, por ejemplo, porque la mejor prueba bajo esa suposición es bastante sensible a la suposición.

Debido a que ambos están entre los valores críticos de -1 y +1, se considera que estos datos se distribuyen normalmente ".

Si ese es realmente el criterio por el cual uno decide usar un modelo de distribución normal, entonces a veces lo llevará a análisis bastante pobres.

Los valores de esas estadísticas nos dan algunas pistas sobre la población de la que se extrajo la muestra, pero eso no es lo mismo que sugerir que sus valores son de alguna manera una 'guía segura' para elegir un análisis.


Ahora, para abordar el problema subyacente con una versión mejor redactada de una pregunta como la que tenía:

Todo el proceso de mirar una muestra para elegir un modelo está plagado de problemas, ¡esto altera las propiedades de cualquier elección de análisis posterior en función de lo que vio! por ejemplo, para una prueba de hipótesis, sus niveles de significancia, valores p y potencia no son lo que usted elegiría / calcularía , porque esos cálculos se basan en que el análisis no se basa en los datos.

Véase, por ejemplo, Gelman y Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volumen 102, Número 6, p 460 (DOI: 10.1511 / 2014.111.460) que analiza problemas con dicho análisis dependiente de los datos.


Hola Peter, lo siento, ni siquiera vi tu publicación allí.
Glen_b -Reinstate Monica

Esta conversación se ha movido al chat .
Glen_b -Reinstale a Monica el

41

Te estás perdiendo el punto y probablemente también estés siendo "difícil", lo cual no es apreciado en la industria. Ella le muestra un ejemplo de juguete, para entrenarlo en la evaluación de la normalidad de un conjunto de datos, es decir si el conjunto de datos proviene de una distribución normal . Mirar los momentos de distribución es una forma de verificar la normalidad, por ejemplo, la prueba de Jarque Bera se basa en dicha evaluación.

Sí, la distribución normal es perfectamente simétrica. Sin embargo, si extrae una muestra de una distribución normal verdadera, es probable que esa muestra no sea perfectamente simétrica. Este es el punto que te falta por completo. Puede probar esto muy fácilmente usted mismo. Simplemente genere una muestra de la distribución gaussiana y verifique su momento. Nunca serán perfectamente "normales", a pesar de que la verdadera distribución sea tal.

Aquí hay un ejemplo tonto de Python. Estoy generando 100 muestras de 100 números aleatorios, luego obtengo sus medias y medianas. Imprimo la primera muestra para mostrar que la media y la mediana son diferentes, luego muestro el histograma de la diferencia entre las medias y las medianas. Puedes ver que es bastante estrecho, pero la diferencia es básicamente nunca cero. Tenga en cuenta que los números realmente provienen de una distribución normal .

código:

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(1)
s = np.random.normal(0, 1, (100,100))
print('sample 0 mean:',np.mean(s[:,0]),'median:',np.median(s[:,0]))

plt.hist(np.mean(s,0)-np.median(s,0))
plt.show()
print('avg mean-median:',np.mean(np.mean(s,0)-np.median(s,0)))

salidas: ingrese la descripción de la imagen aquí

PD

Ahora, si el ejemplo de su pregunta debe considerarse normal o no depende del contexto. En el contexto de lo que se enseñó en el aula, estás equivocado, porque tu profesor quería ver si conoces la prueba de la regla general que te dio, que es que la curtosis sesgada y excesiva debe estar en -1 a 1 rango.

Personalmente, nunca usé esta regla general en particular (no puedo llamarlo una prueba), y ni siquiera sabía que existía. Aparentemente, algunas personas en algunos campos lo usan. Si conectara los descriptivos de su conjunto de datos a la prueba JB, habría rechazado la normalidad. Por lo tanto, no está equivocado al sugerir que el conjunto de datos no es normal, por supuesto, pero está equivocado en el sentido de que no pudo aplicar la regla que se esperaba de usted en función de lo que se enseñó en la clase.

Si fuera usted, me acercaría cortésmente a su profesor y le explicaría, además de mostrarle la salida de prueba de JB. Reconocería que, según su prueba, mi respuesta fue incorrecta, por supuesto. Si intentas discutir con ella de la forma en que discutes aquí, tus posibilidades son muy bajas de recuperar el punto en la prueba, porque tu razonamiento es débil sobre las medianas y los medios y las muestras, muestra falta de comprensión de las muestras frente a las poblaciones. Si cambia de tono, tendrá un caso.


23
(+1) Exactamente el punto. Confundir la variable aleatoria y una muestra de realizaciones de esa variable aleatoria.
Xi'an

15
t

¿Sería justo decir que si sus muestras estuvieran perfectamente distribuidas normalmente, eso es evidencia de que las muestras no son aleatorias?
JimmyJames

@JimmyJames, hace 4 años había un artículo en Science que decía que una conversación de 20 minutos con un encuestador gay puede cambiar tus sentimientos hacia las personas homosexuales. Resulta que los autores compusieron los datos de su encuesta. Eran demasiado vagos y generaban un ruido gaussiano perfecto, y así fue como fueron atrapados - ver Irregularidades en LaCour (2014) por Broockman et al.
Aksakal

@ Aksakal No estoy seguro de que sea exactamente lo mismo que estoy preguntando. En ese caso, creo que el argumento en ese caso fue que los datos reales nunca son perfectamente normales. Estoy empezando por su afirmación "Sin embargo, si extrae una muestra de una distribución normal verdadera, es probable que esa muestra no sea perfectamente simétrica". Si estoy tomando muestras aleatoriamente de una distribución normal perfecta, no esperaría que cada punto de datos sucesivo se coloque en el lugar donde debe estar para completar una curva normal perfecta. Eso me parecería un proceso de selección no aleatorio.
JimmyJames

6

El maestro está claramente fuera de su elemento, y probablemente no debería enseñar estadísticas. Me parece peor enseñar algo mal que no enseñarlo en absoluto.

Todos estos problemas podrían resolverse fácilmente si la distinción entre "datos" y "proceso que produjo los datos" se hiciera más claramente. Los datos se dirigen al proceso que produjo los datos. La distribución normal es un modelo para este proceso.

No tiene sentido hablar sobre si los datos se distribuyen normalmente. Por una razón, los datos son siempre discretos. Por otra razón, la distribución normal describe una infinidad de cantidades potencialmente observables, no un conjunto finito de cantidades específicas observadas.

Además, la respuesta a la pregunta "es el proceso que produjo los datos de un proceso distribuido normalmente " también es siempre "no", independientemente de los datos. Dos razones simples: (i) cualquier medida que tomemos es necesariamente discreta, redondeada a cierto nivel. (ii) la simetría perfecta, como un círculo perfecto, no existe en la naturaleza observable. Siempre hay imperfecciones.

En el mejor de los casos, la respuesta a la pregunta "¿qué le dicen estos datos sobre la normalidad del proceso de generación de datos" se podría dar de la siguiente manera: "estos datos son consistentes con lo que esperaríamos ver, si los datos realmente provienen de un proceso normalmente distribuido ". Esa respuesta correcta no concluye que la distribución es normal.

Estos problemas se entienden muy fácilmente mediante el uso de simulación. Simplemente simule datos de una distribución normal y compárelos con los datos existentes. Si los datos son recuentos (0,1,2,3, ...), entonces obviamente el modelo normal está equivocado porque no produce números como 0,1,2,3, ...; en cambio, produce números con decimales que duran para siempre (o al menos hasta donde la computadora lo permita). Tal simulación debería ser lo primero que debe hacer al aprender sobre la pregunta de normalidad. Entonces puede interpretar más correctamente los gráficos y las estadísticas de resumen.


10
No rebajé tu respuesta, pero considera que estás juzgando a un profesor graduado por las palabras de un estudiante. ¿Qué tan probable es que un estudiante tenga razón y un maestro esté equivocado? ¿No es más probable que el estudiante esté tergiversando a su profesor y el contexto de la conversación?
Aksakal

Según mi experiencia y las palabras de los alumnos, diría que es más probable que el maestro esté equivocado. Hay profesores con poca capacitación formal que imparten cursos, incluso cursos de posgrado, en universidades de todo el mundo. ¡Si las agencias de acreditación supieran la verdad!
Peter Westfall

66
@ Possum-Pie, puedo adivinar lo que se espera de ti. Probablemente sea un curso de 101 en estadísticas, por lo que debe tener en cuenta la asimetría y la curtosis. Si no están lo suficientemente cerca de 0 y 3, entonces dices que no es normal. Eso es todo. De hecho, eso es lo que hace la prueba JB de una manera más formal. El objetivo del ejercicio es que recuerdes que Gaussian tiene sesgo 0 y curtosis 3. Estás convirtiendo este ejercicio tonto pero necesario en una discusión filosófica.
Aksakal

2
El comentario del maestro "Debido a que ambos están entre los valores críticos de -1 y +1, se considera que estos datos se distribuyen normalmente" definitivamente muestra (i) falta de comprensión o (ii) voluntad de enseñar lo que él / ella sabe estar equivocado. No creo que sea una discusión filosófica cuestionar la preparación del maestro o los métodos pedagógicos.
Peter Westfall

3
El lenguaje de "consistencia" es bueno. Pero como señaló Possum-Pie, los maestros les dicen a los estudiantes, "en base a esta prueba / diagnóstico, los datos son normales", lo cual es incorrecto en varios aspectos. Los maestros (psíquicos y de otro tipo) necesitan (i) distinguir el proceso de generación de datos de los datos, (ii) decirles a los estudiantes que los modelos normales y otros son modelos para el proceso de generación de datos, (iii) decirles que la distribución normal siempre es incorrecto como modelo, independientemente de los diagnósticos, y (iv) decirles que el objetivo del ejercicio es diagnosticar el grado de no normalidad, no responder sí / no. Luego explica por qué es importante.
Peter Westfall

4

Soy ingeniero, así que en mi mundo, el estadístico aplicado es lo que más veo y obtengo el valor más concreto. Si va a trabajar aplicado, entonces debe estar sólidamente basado en la práctica sobre la teoría: ya sea elegante o no, el avión tiene que volar y no chocar.

Cuando pienso en esta pregunta, la forma en que la abordo, como también lo han hecho muchos de mis mejores técnicos aquí, es pensar en "cómo se ve en el mundo real con la presencia de ruido".

La segunda cosa que hago es, a menudo, hacer una simulación que me permita entender la pregunta.

Aquí hay una breve exploración:

#show how the mean and the median  differ with respect to sample size

#libraries
library(reshape2)
library(ggplot2)

#sample sizes
ssizes <- 10^(seq(from=1, to=3, by=0.25))
ssizes <- round(ssizes)

#loops per sample
n_loops <- 5000

#pre-declare, prep for loop
my_store <- matrix(0, 
                   ncol = 3, 
                   nrow = n_loops*length(ssizes))

count <- 1

for(i in 1:length(ssizes)){

  #how many samples
  n_samp <- ssizes[i]

  for(j in 1:n_loops){

    #draw samples
    y <- 0
    y <- rnorm(n = n_samp,mean = 0, sd = 1)

    #compute mean, median, mode
    my_store[count,1] <- n_samp
    my_store[count,2] <- median(y)
    my_store[count,3] <- mean(y)


    #update
    count = count + 1
  }
}


#make data into ggplot friendly form
df <- data.frame(my_store)
names(df) <- c("n_samp", "median","mean")

df <- melt(df, id.vars = 1, measure.vars = c("median","mean"))


#make ggplot
ggplot(df, aes(x=as.factor(n_samp), 
               y = value, 
               fill = variable)) + geom_boxplot() + 
  labs(title = "Contrast Median and Mean estimate variation vs. Sample Size",
       x = "Number of Samples",
       y = "Estimated value")

Da esto como la salida: ingrese la descripción de la imagen aquí

Nota: tenga cuidado con el eje x, porque tiene escala de registro, no escala uniforme.

Sé que la media y la mediana son exactamente las mismas. El código lo dice. La realización empírica es muy sensible al tamaño de la muestra, y si no hay muestras realmente infinitas, entonces nunca pueden coincidir perfectamente con la teoría.

Puede pensar si la incertidumbre en la mediana envuelve la media estimada o viceversa. Si la mejor estimación de la media está dentro del IC del 95% de la estimación para la mediana, entonces los datos no pueden decir la diferencia. Los datos dicen que son iguales en teoría. Si obtiene más datos, vea lo que dice.


1
Gráfico interesante Hubiera pensado que la media habría sido generalmente mayor que la mediana al principio considerando los valores atípicos de las persecuciones medias ... en otras palabras, las barras rojas serían malas y las verdes medianas. ¿Qué me estoy perdiendo?
Possum-Pie

1
@ Possum-Pie Recuerde que los valores atípicos pueden estar en cualquier dirección ... ¡la distribución normal tiene una cola izquierda y una cola derecha!
Silverfish

2
@ ¿Será una implementación bastante estándar de un diagrama de caja?
Glen_b -Reinstate Monica

1
@Glen_b He visto muchos libros de texto que no enseñan el uso de puntos para valores atípicos, por lo que puedo entender que alguien no esté acostumbrado a ellos. Pero según Hadley , los puntos han estado allí incluso cuando Tukey presentó su "trama esquemática" en 1970.
Silverfish

1
Sí, una versión sin valores atípicos (solo basada en un resumen de 5 números) sería esencialmente la trama de rango de Mary Spear (1952). (Nota que el papel pierde algunas importantes precursores históricos diagrama de caja, pre 1952)
Glen_b -Reinstate Mónica

4

En las estadísticas médicas, solo comentamos las formas y la apariencia de las distribuciones. El hecho de que ninguna muestra finita discreta pueda ser normal es irrelevante y pedante. Te marcaría mal por eso.

Si una distribución parece "mayormente" normal, nos sentimos cómodos con llamarla normal. Cuando describo distribuciones para una audiencia no estadística, me siento muy cómodo llamando a algo aproximadamente normal, incluso cuando sé que la distribución normal no es el modelo de probabilidad subyacente, tengo la sensación de que estaría del lado de su maestro aquí ... pero nosotros no tiene histograma o conjunto de datos para verificar.

Como consejo, realizaría las siguientes inspecciones muy de cerca:

  • ¿Quiénes son los valores atípicos, cuántos y cuáles son sus valores?
  • ¿Los datos son bimodales?
  • ¿Los datos parecen tomar una forma sesgada para que alguna transformación (como un registro) cuantifique mejor la "distancia" entre observaciones?
  • ¿Existe aparente truncamiento o amontonamiento para que los ensayos o los laboratorios no detecten de manera confiable un cierto rango de valores?

Parece que en un campo con tantas matemáticas, la gente sería más estricta entre decir que algo es "distribución normal" que tiene ciertas connotaciones muy estrictas y decir que es "casi normal". Nunca diría que 1.932 es 2. pero puedo decir que es casi 2.
Possum-Pie

1
¿"Irrelevante y pedante"? ¿Seriamente? Estoy de acuerdo con Possum-Pie. Tampoco diría que 1.932 es lo mismo que 2.0. Decir que los datos son "normales" confunde todo, desde el significado de la distribución normal como modelo para el proceso que produjo los datos, hasta el hecho real de que las distribuciones normales nunca modelan con precisión nuestros procesos. A todos se les debe enseñar que cuando aprenden la distribución normal para que no hagan declaraciones tontas.
Peter Westfall

2
@PeterWestfall Creo que parte del problema aquí es que "los datos provienen de una distribución normal" casi nunca es literalmente cierto, e incluso si fuera cierto, probablemente sería imposible probarlo de manera concluyente. Entonces, dado que la frase casi nunca sería literalmente cierta, la gente usará "los datos son normales" como una abreviatura conveniente para significar "los datos parecen lo suficientemente cercanos a la normalidad para fines prácticos" o "la distribución normal es una buena opción". modelo suficiente para nuestro DGP ".
Silverfish

Entonces, ¿por qué enseñar lo que está mal cuando es tan simple enseñar lo que está bien?
Peter Westfall

3
@PeterW El punto lingüístico no se trata solo de la enseñanza, se trata de la forma en que se usa la frase (y se pretende interpretar) en la vida cotidiana: "los datos son normales" casi nunca se usan para significar "Sé con certeza que la población de la que se tomaron muestras de los datos es normal ", porque casi nunca podría significar eso. Sería mejor si la gente dice "los datos parece normal" o incluso "las miradas de datos normalish " (es decir, parece bastante cerca de lo normal que no se preocupan por su desviación de la normalidad), pero sobre todo en un entorno aplicada la gente a menudo decir ese tipo de cosas.
Silverfish

2

Creo que usted y su profesor están hablando en un contexto diferente. La igualdad de la media = mediana = modo son características de distribución teórica y esta no es la única característica. No puede decir que si para cualquier distribución por encima de la propiedad se mantiene, la distribución es normal. La distribución T también es simétrica pero no es normal. Entonces, estás hablando de propiedades teóricas de distribución normal que siempre son válidas para la distribución normal.

Su profesor está hablando sobre la distribución de datos de muestra. Tiene razón, nunca obtendrá datos en la vida real, donde encontrará mean = median = mode. Esto se debe simplemente a un error de muestreo . Del mismo modo, es muy poco probable, obtendrá un coeficiente de asimetría cero para los datos de la muestra y un exceso de curtosis cero. Su profesor solo le está dando una regla simple para tener una idea sobre la distribución de las estadísticas de muestra. Lo cual no es cierto en general (sin obtener más información).


3
Se dice que el profesor es femaie.
Nick Cox

¡Por qué no obtienes mean = median = mode es principalmente porque muchas distribuciones realmente están sesgadas! (Estrictamente, mean = median = mode también es posible con distribuciones asimétricas, a pesar de lo que dicen muchos libros de texto.)
Nick Cox

1
No estoy de acuerdo con la falta de igualdad de la media / mediana / modo = error de muestreo. Suponga que muestreó al azar 52 hogares de ancianos para tasas de caída. Las casas 27, 34 y 52 tienen personal crónicamente corto y siempre tienen un número de caídas superior al promedio. Esas casas empujan mal hacia la cola y no se debe a un error de muestreo.
Possum-Pie

1
@Possum Pie Lo que los datos son secundarios aquí, pero estás dando diferentes señales en diferentes lugares. Aquí está hablando de varios hogares de ancianos, pero en su pregunta dice "en un hogar de ancianos". No está claro si incluso los detalles incidentales no ayudan.
Nick Cox

@Nick Cox Lo siento, lo aclaré. Número de caídas / año en una muestra de 52 hogares de ancianos
Possum-Pie

1

Para fines prácticos, los procesos subyacentes como este generalmente se aproximan finamente por distribución normal sin que nadie levante una ceja.

Sin embargo, si desea ser pedante, el proceso subyacente en este caso no se puede distribuir normalmente, porque no puede producir valores negativos (el número de caídas no puede ser negativo). No me sorprendería si en realidad fuera al menos una distribución bimodal con un segundo pico cercano a cero.


Es bimodal con modos en 4 caídas y 13 caídas. No hay cero caídas reportadas.
Possum-Pie
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.