"¿Hay una palabra mejor para esa distribución?"
Aquí hay una distinción que vale la pena entre usar palabras para describir las propiedades de la distribución, en lugar de tratar de encontrar un "nombre" para la distribución para que pueda identificarla como (aproximadamente) una instancia de una distribución estándar particular: una para la cual una fórmula o pueden existir tablas estadísticas para su función de distribución, y para las cuales puede estimar sus parámetros. En este último caso, es probable que esté utilizando la distribución con nombre, por ejemplo, "normal / gaussiano" (los dos términos son generalmente sinónimos), como un modelo que captura algunas de las características clave de sus datos, en lugar de reclamar la población de sus datos. extraído de exactamente sigue esa distribución teórica. Para citar ligeramente a George Box,Todos los modelos están "equivocados", pero algunos son útiles. Si está pensando en el enfoque de modelado, vale la pena considerar qué características desea incorporar y cuán complicado o parsimonioso desea que sea su modelo.
Ser positivamente sesgado es un ejemplo de describir una propiedad que tiene la distribución, pero no se acerca a especificar qué distribución estándar es "el" modelo apropiado. Descarta algunos candidatos, por ejemplo, la distribución gaussiana (es decir, normal) tiene un sesgo cero, por lo que no será apropiado modelar sus datos si el sesgo es una característica importante. Puede haber otras propiedades de los datos que también son importantes para usted, por ejemplo, que son unimodales (tiene un solo pico) o que están delimitados entre 0 y 24 horas (o entre 0 y 1, si lo escribe como una fracción del día), o que hay una masa de probabilidad concentrada en cero (ya que hay personas que no miran YouTube en absoluto en un día determinado).curtosis . Y vale la pena tener en cuenta que, error de muestreo incluso si su distribución tenía una forma de "joroba" o "curva de campana" y tenía una inclinación cero o casi cero, ¡no se deduce automáticamente que la distribución normal sea "correcta" para ella! Por otro lado, incluso si la población de la que se extraen sus datos realmente siguió una distribución particular con precisión, debido a que su conjunto de datos puede no parecerse demasiado. Es probable que los pequeños conjuntos de datos sean "ruidosos", y puede que no esté claro si ciertas características que puede ver, por ejemplo, pequeñas jorobas adicionales o colas asimétricas, son propiedades de la población subyacente de la que se extrajeron los datos (y quizás, por lo tanto, deberían incorporarse en su modelo) o si son solo artefactos de su muestra particular (y para propósitos de modelado deben ser ignorados). Si tiene un pequeño conjunto de datos y el sesgo es cercano a cero, entonces es incluso plausible que la distribución subyacente sea realmente simétrica. Cuanto mayor sea su conjunto de datos y mayor sea la asimetría, menos plausible se volverá, pero mientras usted podría realizar una prueba de significación para ver cuán convincente es la evidencia que sus datos proporcionan de asimetría en la población de la que se extrajo, esto puede estar perdiendo el punto en cuanto a si una distribución normal (u otra distribución cero) es apropiada como modelo ...
¿Qué propiedades de los datos realmente importan para los propósitos que pretende modelar? Tenga en cuenta que si el sesgo es razonablemente pequeño y no le importa mucho, incluso si la población subyacente está realmente sesgada , aún puede encontrar la distribución normal como un modelo útil para aproximar esta verdadera distribución de los tiempos de observación. Pero debes comprobar que esto no termine haciendo predicciones tontas. Debido a que una distribución normal no tiene el valor más alto o más bajo posible, aunque los valores extremadamente altos o bajos se vuelven cada vez más improbables, siempre encontrará que su modelo predice que hay algunosprobabilidad de mirar por un número negativo de horas por día, o más de 24 horas. Esto se vuelve más problemático para usted si la probabilidad predicha de tales eventos imposibles se vuelve alta. Una distribución simétrica como la normal predecirá que tantas personas mirarán por períodos de tiempo más de, por ejemplo, 50% por encima de la media, mientras que mirarán por menos de 50% por debajo de la media. Si los tiempos de observación son muy asimétricos, entonces este tipo de predicción también puede ser tan inverosímil como tonto, y le dará resultados engañosos si está tomando los resultados de su modelo y usándolos como entradas para algún otro propósito (por ejemplo, usted estamos ejecutando una simulación de tiempos de observación para calcular la programación óptima de publicidad). Si la asimetría es tan notable que desea capturarla como parte de su modelo, entonces elLa distribución normal sesgada puede ser más apropiada. Si desea capturar tanto la asimetría como la curtosis, considere la t sesgada . Si desea incorporar los límites superior e inferior físicamente posibles, considere usar las versiones truncadas de estas distribuciones. Existen muchas otras distribuciones de probabilidad que pueden ser asimétricas y unimodales (para las elecciones de parámetros apropiadas) como las distribuciones F o gamma , y nuevamente puede truncarlas para que no predigan tiempos de observación imposiblemente altos. Una distribución betapuede ser una buena opción si está modelando la fracción del día que pasa mirando, ya que esto siempre está limitado entre 0 y 1 sin que sea necesario un mayor truncamiento. Si desea incorporar la concentración de probabilidad en exactamente cero debido a los no observadores, considere construir un modelo de obstáculo .
Pero en el momento en que intente incluir todas las características que pueda identificar a partir de sus datos y crear un modelo cada vez más sofisticado, ¿tal vez debería preguntarse por qué está haciendo esto? ¿Sería ventajoso un modelo más simple, por ejemplo, que sea más fácil trabajar matemáticamente o que tenga menos parámetros para estimar? Si le preocupa que tal simplificación lo deje incapaz de capturar todas las propiedades que le interesan, es muy posible que ninguna distribución "estándar" haga lo que usted desea. Sin embargo, no estamos restringidos a trabajar con distribuciones con nombre cuyas propiedades matemáticas se hayan dilucidado previamente. En cambio, considere usar sus datos para construir una función de distribución empírica. Esto capturará todo el comportamiento que estaba presente en sus datos, pero ya no puede darle un nombre como "normal" o "gamma", ni puede aplicar propiedades matemáticas que pertenezcan solo a una distribución particular. Por ejemplo, la regla del "95% de los datos se encuentra dentro de 1.96 desviaciones estándar de la media" es para datos distribuidos normalmente y puede no aplicarse a su distribución; aunque tenga en cuenta que algunas reglas se aplican a todas las distribuciones, por ejemplo, la desigualdad de Chebyshev garantiza al menosEl 75% de sus datos deben estar dentro de dos desviaciones estándar de la media, independientemente de la desviación. Desafortunadamente, la distribución empírica también heredará todas esas propiedades de su conjunto de datos que surgen puramente por error de muestreo, no solo las que posee la población subyacente, por lo que puede encontrar un histograma de su distribución empírica que tiene algunas jorobas y caídas que la población misma no tiene. . Es posible que desee investigar las funciones de distribución empírica suavizadas , o mejor aún, aumentar el tamaño de la muestra.
En resumen: aunque la distribución normal tiene un sesgo cero, el hecho de que sus datos estén sesgados no descarta la distribución normal como un modelo útil, aunque sí sugiere que alguna otra distribución puede ser más apropiada. Debe considerar otras propiedades de los datos al elegir su modelo, además del sesgo, y considerar también los propósitos para los que va a utilizar el modelo. Es seguro decir que su verdadera población de tiempos de observación no sigue exactamente alguna distribución famosa y con nombre, pero esto no significa que dicha distribución esté condenada a ser inútil como modelo. Sin embargo, para algunos propósitos, puede preferir usar la distribución empírica en sí misma, en lugar de intentar ajustar una distribución estándar.