¿La desviación estándar es totalmente incorrecta? ¿Cómo se puede calcular el estándar para alturas, recuentos, etc. (números positivos)?

13

Digamos que estoy calculando alturas (en cm) y los números deben ser superiores a cero.

Aquí está la lista de muestra:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

En este ejemplo, de acuerdo con la distribución normal, el 99.7% de los valores deben estar entre ± 3 veces la desviación estándar de la media. Sin embargo, incluso el doble de la desviación estándar se vuelve negativa:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Sin embargo, mis números deben ser positivos. Por lo tanto, deben estar por encima de 0. Puedo ignorar los números negativos, pero dudo que esta sea la forma correcta de calcular las probabilidades utilizando la desviación estándar.

¿Alguien puede ayudarme a entender si estoy usando esto de manera correcta? ¿O necesito elegir un método diferente?

Bueno, para ser sincero, las matemáticas son matemáticas. No importa si es una distribución normal o no. Si funciona con números sin signo, ¡también debería funcionar con números positivos! ¿Me equivoco?

EDITAR1: histograma agregado

Para ser más claro, he agregado el histograma de mis datos reales

EDIT2: algunos valores

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

— Don codificador
fuente

28

Creo que el malentendido aquí es que una distribución que solo puede tener números positivos no es normal, por lo que la regla del 99.7% que usted establece no se aplica. En segundo lugar, a partir de la fórmula de desviación estándar (muestra), puede ver que no hay ninguna condición para que ninguno de los valores originales sea positivo, entonces, ¿por qué debería estar equivocado? Puede ser que se use incorrectamente, pero las estadísticas son principalmente agnósticas y no deberían aplicarse sin pensar.

— Momo

8

La belleza de la regla 68-95-99.7, @Momo, es que no se aplica incluso a muchas distribuciones decididamente no normales. En este caso, el 50% de los números están dentro de 1 sd de la media y el 100% están dentro de 2 sds de la media. Observe que el 68% se aproxima con precisión al 50% y el 95% se aproxima con precisión al 100% dentro de las desviaciones que esperaríamos de un conjunto de datos tan pequeño. Por lo tanto, este ejemplo ilustra la regla general, a pesar de que puede ser un poco poco convincente debido a su pequeño tamaño.

— whuber

2

Estoy de acuerdo. Permítanme corregir esto a "para que la regla del 99.7% que declara no se aplique necesariamente ". La fuente de la confusión aquí parece aplicar esto como algo más que una regla general y no en términos de sus matices "aproximadamente dentro de las desviaciones que esperaríamos". El último comentario de OP solo muestra eso.

— Momo

44

¿Debería cambiarse el título a algo como "Cómo aplicar la regla 68-95-99.7 a los datos que tienen que ser positivos"? Creo que captura más del espíritu de la pregunta. (No es un problema con la forma en que se calcula la desviación estándar, que es lo que sugiere el título, sino con la forma en que se usa para encontrar probabilidades).

— Silverfish

44

La desviación estándar no es "incorrecta". Lo que es menos preciso es tratar como cosas normales que no lo son; las proporciones fuera de un número dado de desviaciones estándar implicadas por la normalidad no siempre serán precisas para otras distribuciones. Para distribuciones unimodales continuas, cerca de 2 desviaciones estándar, los intervalos de dos lados son a menudo bastante razonables, pero más lejos las probabilidades de cola pueden tener errores relativos muy altos.

— Glen_b -Reinstalar Monica

23

Si sus números solo pueden ser positivos, modelarlos como una distribución normal puede no ser deseable dependiendo de su caso de uso, porque la distribución normal es compatible con todos los números reales.

¿Quizás quiera modelar la altura como una distribución exponencial, o tal vez una distribución normal truncada?

EDITAR: ¡Después de ver sus datos, realmente parece que podría encajar bien en una distribución exponencial! Puede estimar el parámetro tomando, por ejemplo, un enfoque de máxima verosimilitud. $\lambda$

— Kevin Li
fuente

10

La primera oración no es correcta en general: muchas cantidades que son estrictamente positivas a menudo se pueden aproximar mediante una distribución normal. Si la masa de probabilidad por debajo de 0 es muy pequeña, no importa a todos los efectos prácticos. En este caso particular, ciertamente es correcto.

— COOLSerdash

13

-1 Esta respuesta refleja una idea errónea ampliamente difundida (y poco perniciosa) sobre lo que es un modelo estadístico y lo que realmente significa modelar datos con una distribución Normal. De hecho, si creyéramos lo que dice esta publicación, entonces sería "ciertamente incorrecto" aproximar una distribución Binomial con una distribución Normal, ¡pero este es históricamente el uso original y probablemente más extendido de la distribución Normal! (Editar:

— eliminé el voto negativo

44

Depende de lo que quieras decir con "superior". Parte del costo de un modelo radica en lo que se necesita para implementarlo. Si adopta un modelo normal truncado, es probable que se comprometa a realizar muchos cálculos numéricos personalizados en lugar de cálculos analíticos rápidos, fáciles y tal vez maravillosamente precisos. Otro propósito de un modelo es proporcionar información : uno piensa, "si la naturaleza se comporta al menos aproximadamente como estos supuestos, ¿qué consecuencias se pueden inferir de esos supuestos?" A menudo, hacer tales inferencias es más fácil con una simple aproximación.

— whuber

2

@whuber: después de "maravillosamente preciso", agregué mentalmente "incorrecto". Lo siento. Por supuesto, también "pero útil" por caja.

— Stephan Kolassa

2

¿Aunque los datos consisten en valores no enteros?

— Kevin Li

19

"¿Cuál es la forma correcta de aplicar 68-95-99.7 a mi caso?"

Uno debería esperar esa regla general para que la cobertura se aplique exactamente solo si está (1) mirando la población completa (infinita) o la distribución de probabilidad teórica , y (2) la distribución es exactamente normal .

Si toma una muestra aleatoria de tamaño 20, incluso de una distribución genuinamente normal, no siempre encontrará que el 95% de los datos (19 de los 20 ítems) se encuentran dentro de 2 (o 1.960) desviaciones estándar de la media. De hecho, no se garantiza que 19 de los 20 ítems se encuentren dentro de 1.960 desviaciones estándar de la población de la media de la población, ni que 19 de los 20 ítems se encuentren dentro de 1.960 desviaciones estándar de la muestra de la media.

Si toma una muestra de datos de una distribución que no está distribuida normalmente, entonces uno no esperaría que la regla 68-95-99.7 se aplique exactamente. Pero puede estar razonablemente cerca de hacerlo, particularmente si el tamaño de la muestra es grande (la regla general de "cobertura del 99.7%" puede no ser especialmente significativa con un tamaño de muestra por debajo de 1000) y la distribución es razonablemente cercana a la normalidad. En teoría, muchos datos, como la altura o el peso, no pueden provenir de una distribución normal precisa o eso implicaría una probabilidad pequeña, pero no nula, de que sean negativos. Sin embargo, para datos con una distribución aproximadamente simétrica y unimodal, donde los valores medios son más comunes y los valores extremadamente altos o bajos disminuyen en probabilidad, el modelo de una distribución normal puede ser adecuado para fines prácticos.Si mi histograma muestra una curva en forma de campana, ¿puedo decir que mis datos se distribuyen normalmente?

Si desea límites teóricamente vinculantes que se apliquen a cualquier distribución, vea la desigualdad de Chebyshev , que establece que, como máximo, de los valores puede ser mayor que $1/k^2$ $k$ desviaciones estándar de la media. Esto garantiza que al menos el 75% de los datos se encuentran dentro de dos desviaciones estándar de la media, y el 89% dentro de tres desviaciones estándar. Pero esas cifras son solo el mínimo teóricamente garantizado. Para muchas distribuciones más o menos en forma de campana, encontrará que la cifra de cobertura de desviación de dos estándares se acerca mucho más al 95% que al 75%, por lo que la "regla general" de la distribución normal sigue siendo útil. Por otro lado, si sus datos provienen de una distribución que no tiene forma de campana, es posible que pueda encontrar un modelo alternativo que describa mejor los datos y tenga una regla de cobertura diferente.

(Una cosa que es agradable acerca de la regla 68-95-99.7 es que se aplica a cualquier distribución normal, independientemente de sus parámetros para la media o la desviación estándar. Del mismo modo, la desigualdad de Chebyshev se aplica independientemente de los parámetros, o incluso de la distribución, aunque solo proporciona límites inferiores para la cobertura. Pero si aplica, por ejemplo, un modelo normal truncado o sesgado , entonces no hay un equivalente simple de cobertura "68-95-99.7", porque dependería de los parámetros de la distribución .)

— Lepisma
fuente

7

¿Alguien puede ayudarme a entender si estoy usando esto de manera correcta?

Oh, eso es facil. No, no lo estás usando correctamente.

En primer lugar, está utilizando un conjunto de datos bastante pequeño. Tratar de descifrar el comportamiento estadístico de este conjunto de tamaños es ciertamente posible, pero los límites de confianza son (ejem) bastante grandes. Para conjuntos de datos pequeños, las desviaciones de las distribuciones esperadas son normales para el curso, y cuanto menor sea el conjunto, mayor será el problema. Recuerde, "La Ley de promedios no solo permite las coincidencias más escandalosas, sino que también las requiere".

Peor aún, el conjunto de datos particular que está utilizando simplemente no se parece mucho a una distribución normal. Piénselo: con una media de .498, tiene dos muestras por debajo de 0.1 y tres más a .748 o más. Entonces tienes un grupo de 3 puntos entre .17 y .22. Mirar este conjunto de datos en particular y argumentar que debe ser una distribución normal es un caso bastante bueno de argumento procrusteano. ¿Te parece una curva de campana? Es perfectamente posible que la población más grande siga una distribución normal o normal modificada, y un tamaño de muestra más grande resolvería el problema, pero no apostaría por ello, particularmente sin saber más sobre la población.

Digo normal modificado, ya que como Kevin Li ha señalado, técnicamente una distribución normal incluye todos los números reales. Como también se señaló en los comentarios a su respuesta, esto no impide aplicar dicha distribución en un rango limitado y obtener resultados útiles. Como dice el refrán, "Todos los modelos están equivocados. Algunos son útiles".

Pero este conjunto de datos en particular simplemente no parece inferir una distribución normal (incluso en un rango limitado) es una idea particularmente buena. Si sus 10 puntos de datos parecieran .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (media de 0.500), ¿asumiría una distribución normal?

— James Martin
fuente

He utilizado datos aleatorios para poder explicar mis necesidades y problemas

— Don Coder

1

@DonCoder Los datos aleatorios (a menos que los haya modificado de alguna manera) seguirían la distribución uniforme, no la distribución normal.

— barrycarter

55

Los datos aleatorios deben generarse a partir de alguna distribución. ¿Cuál elegiste?

— Peter Flom - Restablece a Monica

He agregado el histograma de mis datos reales

— Don Coder

2

En uno de los comentarios dice que usó "datos aleatorios" pero no dice de qué distribución. Si está hablando de las alturas de los humanos, se distribuyen aproximadamente de manera normal, pero sus datos no son remotamente apropiados para las alturas humanas: ¡los suyos son fracciones de cm!

Y sus datos no son remotamente normales. Supongo que usó una distribución uniforme con límites de 0 y 1. Y generó una muestra muy pequeña. Probemos con una muestra más grande:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

entonces, ninguno de los datos está más allá de 2 sd de la media, porque eso está más allá de los límites de los datos. Y la porción dentro de 1 sd será aproximadamente 0.56.

— Peter Flom - Restablece a Monica
fuente

1

A menudo, cuando tiene la restricción de que todas sus muestras deben ser positivas, vale la pena mirar el logaritmo de sus datos para ver si su distribución puede ser aproximada por una distribución lognormal.

— rinspy
fuente

1

Un cálculo de desviación estándar es relativo a la media. ¿Se puede aplicar la desviación estándar a los números que siempre son positivos? Absolutamente. Si tuviera que sumar 1000 a cada uno de los valores en su conjunto de muestra, vería el mismo valor de desviación estándar, pero se habría proporcionado más espacio para respirar por encima de cero.

s = \sqrt{\frac{\sum_{i = 1}^{N} (x_{i} - \bar{x})^{2}}{N - 1}} = \sqrt{\frac{\sum_{i = 1}^{N} ((x_{i} + k) - (\bar{x} + k))^{2}}{N - 1}}

$\displaystyle s={\sqrt {\frac {\sum _{i=1}^{N}(x_{i}-{\overline {x}})^{2}}{N-1}}} = {\sqrt {\frac {\sum _{i=1}^{N}((x_{i}+k)-({\overline {x}}+k))^{2}}{N-1}}}$

Sin embargo, agregar una constante arbitraria a sus datos es superficial. Cuando utilice la desviación estándar para un conjunto de datos tan pequeño, deberá esperar resultados sin refinar. Considere la desviación estándar como una lente de cámara con enfoque automático: cuanto más tiempo (datos) le dé, más clara será la imagen. Si después de rastrear 1000000 puntos de datos, su desviación media y estándar sigue siendo la misma que con 10, entonces puedo comenzar a cuestionar la validez de su experimento.

— Ian MacDonald
fuente

1

Su histograma muestra que la distribución normal no es adecuada. Puedes probar lognormal u otra cosa que sea asimétrica y estrictamente positiva

— Aksakal
fuente

1

El punto principal es que muchos de nosotros somos perezosos *, y la distribución normal es conveniente para trabajar con nosotros, las personas perezosas. Es fácil hacer cálculos usando la distribución normal y tiene una buena base matemática. Como tal, es un "modelo" sobre cómo trabajar con datos. Este modelo a menudo funciona sorprendentemente bien, y a veces cae de bruces.

Es muy obvio que sus muestras no indican una distribución normal en los datos. Entonces, la solución a su dilema es elegir un "modelo" diferente y trabajar con una distribución diferente. Las distribuciones de Weibull pueden estar en dirección, hay otras.

perezoso en no conocer realmente los datos y seleccionar mejores modelos cuando sea necesario.

— ghellquist
fuente

0

Básicamente está utilizando datos de relación en lugar de datos de intervalo. Los geógrafos pasan por esto todo el tiempo al calcular el S / D para la precipitación anual en un lugar específico (más de 100 años de puntos de muestra en el Centro Cívico de LA) o nevadas (más de 100 años de muestras de nevadas en Big Bear Lake). Solo podemos tener números positivos, así son las cosas.

— Jim Woods
fuente

0

En meteorología, las distribuciones de velocidades del viento se parecen mucho a esto. Por definición, las velocidades del viento tampoco son negativas.

Entonces, en su caso, definitivamente miraría la distribución de Weibull .

— boseki
fuente

0

Comienza con "según la distribución normal" cuando sus datos claramente no están distribuidos normalmente, ese es el primer problema. Usted dice "No importa si es una distribución normal o no". Lo cual es una tontería absoluta. No puede usar declaraciones sobre datos distribuidos normales si sus datos no están distribuidos normalmente.

Y malinterpretas la declaración. "El 99.7% debe estar dentro de tres desviaciones estándar". Y el 99.7% de sus datos estaban dentro de tres desviaciones estándar. Aún mejor, fue 100% dentro de dos desviaciones estándar. Entonces la afirmación es cierta .

— gnasher729
fuente