Respuestas:
La distribución categórica es la generalización de la distribución de Bernoulli a un número fijo de resultados.
De manera equivalente, es el caso especial de la distribución multinomial donde el número de "opciones" se fija en uno.
Por lo tanto, tiene pdf:
En resumen, Bernoulli tiene , binomial tiene , multinomial tiene , y categórico tiene .
Las variables categóricas tienen conjuntos finitos de valores discretos. Los ejemplos incluyen sexo (hombre / mujer), país, planeta, etc. Compare esto con variables continuas, que pueden tomar un número infinito de valores diferentes. Los ejemplos incluyen peso, longitud, distancia, etc.
Tenga en cuenta que a veces se puede expresar información similar de manera categórica y continua; por ejemplo, planet = earth
podría expresarse como distance to sun = 1 astronomical unit ≈ 150 million kilometers
. Sin embargo, en realidad no hay forma de expresar 200 millones de kilómetros del sol en términos de planetas, porque no hay un planeta allí (Marte está a 228 millones de kilómetros del sol). Lo mismo para 201 millones de km, 202, etc. Todo lo que se podría decir sobre estas distancias en términos de planetas es planet = none
; no podría decir planet = 4/3×earth
o .88×Mars
porque no hay una manera significativa de multiplicar un planeta o cualquier otra variable categórica. En términos de planetas, estas distancias serían indistinguibles, pero, por supuesto, tienen sentido como distancias distintas del sol cuando se expresan como tales, como una variable continua.
También se pueden expresar variables continuas con precisión arbitraria (por ejemplo, una unidad astronómica es 149,597,871 km, no exactamente 150 millones de km). Por el contrario, no hay forma de expresar con planet = earth
mayor precisión; La tierra es exactamente tierra, ni más ni menos. Además, no tendría sentido decir que cualquier otro planeta es "más" o "menos" que la Tierra si planet
es una variable nominal. Sin embargo, podría codificarse como una variable ordenada (ordinal): los planetas se ordenan en términos de distancia al sol, volumen, número de lunas, etc. Estos números son todos continuos en sus propios términos (o al menos cuentan, que son discretos pero no categórico), pero no en términos de planetas. Por ejemplo, si los planetas están clasificadas por la distancia desde el sol o por el número de lunas, mars > earth > venus
. Si los planetas están ordenados por volumen,earth > venus > mars
. No es necesario ordenar variables categóricas, y tal vez algunas no se puedan ordenar, pero agregar orden no las hace menos categóricas.
Como dice Wikipedia, las distribuciones categóricas son generalizaciones de la distribución de Bernoulli a más de dos valores posibles (la distribución de Bernoulli es estrictamente binaria). La distribución de Bernoulli también es un caso especial de la distribución binomial, pero no llamaría categórica a la distribución binomial (es discreta, pero es una variable de conteo, por lo que se definen las distancias entre los valores). Las distribuciones multinomiales pueden combinarse con distribuciones categóricas, pero Wikipedia advierte en contra de esto .