¿Qué se entiende por "variable aleatoria"?

69

¿Qué quieren decir cuando dicen "variable aleatoria"?

— Baltimark
fuente

35

Una variable aleatoria es una variable cuyo valor depende de eventos desconocidos. Podemos resumir los eventos desconocidos como "estado", y luego la variable aleatoria es una función del estado.

Ejemplo:

Supongamos que tenemos tres tiradas de dados ( , , ). Entonces el estado . $D_{1}$ $D_{2}$ $D_{3}$ $S=(D_{1},D_{2},D_{3})$

Una variable aleatoria es el número de 5s. Esto es: $X$

X = ({re}_{1} = 5 5 ?) + ({re}_{2} = 5 5 ?) + ({re}_{3} = 5 5 ?)

$X=(D_{1}=5?)+(D_{2}=5?)+(D_{3}=5?)$

Otra variable aleatoria es la suma de las tiradas de dados. Esto es: $Y$

Y = {re}_{1} + {re}_{2} + {re}_{3}

$Y=D_{1}+D_{2}+D_{3}$

— Pablo
fuente

Gracias por una respuesta clara y concisa. Plantea una pregunta con el propósito de separar el estado desconocido del resultado (supongo que así es como se llama el dominio y el rango de la "variable aleatoria" en la teoría de la probabilidad). Parece que se llama el estado desconocido a sample, que pedí distinguir de los resultados . ¿Por qué necesita introducir una función y llamarla variable aleatoria, aunque es absolutamente determinista y no es variable en absoluto? ¿Por qué no puedes probar el resultado de inmediato?

— Val

2

Cuando los "eventos" se vuelven "conocidos", ¿qué sucede con la variable aleatoria? Según esta respuesta, ¡ya no puede existir! La dependencia de esta respuesta en ideas tan nebulosas como "conocidas", que es puramente subjetiva, la hace menos satisfactoria como definición o explicación de variables aleatorias.

— whuber

1

@whuber English y otros idiomas humanos son necesariamente imprecisos. Parece que en realidad estás eligiendo la palabra "depende", no "conocida". "es una función de" es más preciso, pero luego "eventos desconocidos" es vago, por lo que los matemáticos definen un "espacio de probabilidad", "álgebra sigma", "funciones medibles", etc. Si necesita un tratamiento más riguroso, Wikipedia lo tiene: en.wikipedia.org/wiki/Random_variable

— Paul

1

@whuber Mientras wikipedia se apresura a la jerga matemática para obtener precisión, noto que su respuesta, un ejemplo decente de todo eso, aunque es una lectura que vale la pena, requiere aproximadamente 16 párrafos para ejecutarse. ¿Pero qué decirle a un estudiante universitario que quiere una respuesta que demore 5 segundos en leerse? Los clientes aprecian la brevedad en las definiciones.

— Paul

55

Es una función de valor real medible en un espacio de probabilidad. Con cada uno de esos términos técnicos: "medible", "función de valor real" y "espacio de probabilidad", calculo que perdí el 90% de la audiencia potencial, dejando solo el 0.1% realmente entendiendo y apreciando la definición. Por cierto, esa es una definición puramente matemática. Es inútil hasta que uno haya especificado cómo se puede aplicar a un problema estadístico real, pero al menos es correcto (si no es completamente general).

— whuber

69

Introducción

Al pensar en un comentario reciente, noto que todas las respuestas hasta ahora sufren el uso de términos indefinidos como "variable" y términos vagos como "desconocido", o apelan a conceptos matemáticos técnicos como "función" y "espacio de probabilidad". ¿Qué deberíamos decirle a la persona no matemática que desea una definición simple, intuitiva y precisa de "variable aleatoria"? Después de algunos preliminares que describen un modelo simple de fenómenos aleatorios, proporciono una definición que es lo suficientemente corta como para caber en una línea. Debido a que podría no satisfacer completamente a los cognoscentes , luego se explica cómo extender esto a la definición técnica habitual.

Entradas en una caja

Una forma de abordar la idea detrás de una variable aleatoria es apelar al modelo de aleatoriedad de tickets-in-a-box . Este modelo reemplaza un experimento u observación por una caja llena de boletos. En cada boleto se escribe un posible resultado del experimento. (Un resultado puede ser tan simple como "cara" o "cruz", pero en la práctica es algo más complejo, como un historial de precios de acciones, un registro completo de un experimento largo o la secuencia de todas las palabras en un documento .) Todos los resultados posibles aparecen al menos una vez entre los tickets; Algunos resultados pueden aparecer en muchos boletos.

En lugar de llevar a cabo el experimento, imaginamos a fondo, pero a ciegas, mezclar todos los tickets y seleccionar solo uno. Si podemos demostrar que el experimento real debe comportarse como si se llevaron a cabo de esta manera, a continuación, hemos reducido un experimento en el mundo real potencialmente complicado (y caro, y muy largo) a una simple e intuitiva, experimento mental (o "modelo estadístico "). La claridad y simplicidad que ofrece este modelo hace posible analizar el experimento.

Un ejemplo

Los ejemplos estándar se refieren a los resultados de lanzar monedas y dados y dibujar cartas de juego. Estos son un poco molestos por su trivialidad, por lo que, para ilustrar, supongamos que estamos preocupados por el resultado de las elecciones presidenciales de EE. UU. En 2016. Como simplificación (pequeña), asumiré que uno de los dos partidos principales: Republicano (R) o Demócrata (D): ganará. Debido a que (con la información actualmente disponible) el resultado es incierto, imaginamos poner boletos en una caja: algunos con "R" escrito en ellos y otros con "D". Nuestro modelo del resultado es sacar exactamente un boleto de esta casilla.

Falta algo: aún no hemos estipulado cuántas entradas habrá para cada resultado. De hecho, descubrir esto es el principal problema de las estadísticas: según las observaciones (y la teoría), ¿qué se puede decir sobre las proporciones relativas de cada resultado en el cuadro?

(Espero que esté claro que las proporciones de cada tipo de boleto en el cuadro determinan sus propiedades, en lugar de los números reales de cada boleto. Las proporciones se definen, como de costumbre, para ser el recuento de cada tipo de boleto dividido por el número total de boletos. Por ejemplo, una caja con un boleto "D" y un boleto "R" se comporta exactamente como una caja con un millón de boletos "D" y un millón de boletos "R", porque en cualquier caso cada tipo es 50% de todas las entradas y, por lo tanto, cada una tiene un 50% de posibilidades de ser sorteadas cuando las entradas están completamente mezcladas).

Hacer el modelo cuantitativo

Pero no sigamos esta pregunta aquí, porque estamos cerca de nuestro objetivo de definir una variable aleatoria. El problema con el modelo hasta ahora es que no es cuantificable, mientras que nos gustaría poder responder preguntas cuantitativas con él. Y tampoco me refiero a preguntas triviales, sino a preguntas reales y prácticas como "si mi empresa tiene mil millones de euros invertidos en el desarrollo de combustibles fósiles en alta mar en los Estados Unidos, cuánto cambiará el valor de esta inversión como resultado de las elecciones de 2016 ? " En este caso, el modelo es tan simple que no hay mucho que podamos hacer para obtener una respuesta realista a esta pregunta, pero podríamos ir tan lejos como para consultar a nuestro personal económico y pedir sus opiniones sobre los dos posibles resultados:

Si ganan los demócratas, ¿cuánto cambiará la inversión? (Suponga que la respuesta es dólares). $d$
Si ganan los republicanos, ¿cuánto va a cambiar? (Suponga que la respuesta es dólares). $r$

Las respuestas son números. Para usarlos en el modelo, le pediré a mi personal que revise todos los boletos en la caja y en cada boleto "D" para escribir " dólares" y en cada boleto "R" para escribir " dólares". Ahora podemos modelar la incertidumbre en la inversión de manera clara y cuantitativa: su cambio de valor posterior a las elecciones es lo mismo que recibir la cantidad de dinero escrita en un boleto único extraído al azar de esta casilla. $d$ $r$

Este modelo nos ayuda a responder preguntas adicionales sobre la inversión. Por ejemplo, ¿qué tan inseguros deberíamos estar sobre el valor de la inversión ? Aunque existen fórmulas matemáticas (simples) para esta incertidumbre, podríamos reproducir sus respuestas de manera razonablemente precisa simplemente usando nuestro modelo repetidamente, tal vez miles de veces, para ver qué tipos de resultados ocurren realmente y medir su propagación. Un modelo de entradas en una caja nos brinda una forma de razonar cuantitativamente sobre resultados inciertos.

Variables aleatorias

Para obtener respuestas cuantitativas sobre fenómenos inciertos o variables, podemos adoptar un modelo de ticket-in-a-box y escribir números en los tickets. Este proceso de escribir números tiene que seguir solo una regla: debe ser consistente. En el ejemplo, cada boleto demócrata debe tener " dólares" escritos, sin excepciones, y cada boleto republicano debe tener " dólares" escritos. $d$ $r$

Una variable aleatoria es cualquier forma consistente de escribir números en tickets en un cuadro.

(La notación matemática para esto es dar un nombre al proceso de renumeración, típicamente con una letra latina mayúscula como o La información de identificación escrita en los boletos a menudo se nombra con letras minúsculas, típicamente (minúscula griega "omega" El valor asociado por medio de la variable aleatoria al ticket se denota como . En el ejemplo, entonces, podríamos decir algo como " es una variable aleatoria que representa el cambio en el valor de la inversión". se especificaría completamente indicando $X$ $Y$ $\omega$ $X$ $\omega$ $X(\omega)$ $X$ y . En casos más complicados, los valores de están dados por descripciones más complicadas y, a menudo, por fórmulas. Por ejemplo, los boletos podrían representar el valor de un año de los precios de cierre de una acción y la variable aleatoria podría ser el valor en un momento particular de algún derivado en esa acción, como una opción de venta. El contrato de opción describe cómose calculaLos operadores de opciones utilizan exactamente este tipo de modelo para fijar el precio de sus productos). $X(\text{D})=d$ $X(\text{R}) = r$ $X$ $X$ $X$

$X$

Después: sobre la mensurabilidad

Cuando la definición de variable aleatoria se acompaña con la advertencia "medible", lo que el definidor tiene en mente es una generalización del modelo de tickets en una caja a situaciones con infinitos resultados posibles. (Técnicamente, se necesita solo con resultados infinitamente innumerables o cuando hay probabilidades irracionales involucradas, e incluso en este último caso se puede evitar). Con infinitos resultados, es difícil decir cuál sería la proporción del total. Si hay infinitas entradas "D" e infinitas entradas "R", ¿cuáles son sus proporciones relativas? ¡No podemos descubrirlo con una mera división de un infinito por otro!

En estos casos, necesitamos una forma diferente de especificar las proporciones. Un conjunto de tickets "medibles" es cualquier colección de tickets en la caja para la cual se puede definir su proporción. Cuando se hace esto, el número que hemos estado pensando como una "proporción" se llama "probabilidad". (No todas las colecciones de tickets necesitan tener una probabilidad asociada).

$X$ $X(\omega)$ $a$ $b$ $a$ $b$

— whuber
fuente

77

Para aquellos que no estaban familiarizados con las variables aleatorias o los modelos de ticket-in-a-box, un tutorial interactivo rápido en mi sitio web en quantdec.com/envstats/notes/class_06/tutorial.htm proporciona práctica y algunos conceptos adicionales.

— whuber

2

Un ejemplo trabajado que ilustra estos conceptos aparece en stats.stackexchange.com/a/68782 .

— whuber

2

Nota : sospecho que muchas personas usan el término "población" más o menos en el sentido de los boletos en una caja. Evito esa terminología porque suena demasiado como si solo pudiéramos crear modelos de probabilidad para muestrear poblaciones reales (físicas). Incluso cuando se muestrea una población física, es raro que haya una correspondencia perfecta entre ellos y los boletos. Por ejemplo, nadie podrá enumerar vivos a los chinos el 1 de enero de 2014, en parte debido a las incertidumbres sobre cuándo nacen, cuándo mueren e incluso si son chinos.

— whuber

44

@jsk La introducción a esta respuesta explica por qué tal atención parecía necesaria. Aunque es cierto que otras dos respuestas en este hilo contienen una definición correcta y completa ("una función medible desde un espacio de probabilidad en un espacio medible conocido como el espacio de estado"), esa definición requiere implícitamente comprender preliminares sobre álgebras sigma, medidas de probabilidad, y funciones medibles. Los lectores se quejarán "eso es material de nivel de posgrado" .

— whuber

44

@ user4205580 Para una definición puramente matemática, la "consistencia" no es necesaria en absoluto, porque para el matemático, la variable aleatoria es simplemente "dada". Para las aplicaciones estadísticas, como se discute aquí, es una condición importante, porque muchos datos no son numéricos: las variables aleatorias deben construirse de manera apropiada para el modelo y los objetivos analíticos. Puedes decidir por ti mismo si hay algún valor para ti en esta distinción conceptual.

— whuber

16

Informalmente, una variable aleatoria es una forma de asignar un código numérico a cada resultado posible. *

Ejemplo 1

$\{H,T\}$

$X$ $X(H)=1$ $X(T)=0$ $1$ $0$

Ejemplo 2

{UNA ♠, K ♠, ..., 2 ♠, UNA ♡, K ♡, ..., 2 ♡, UNA ♢, K ♢, ..., 2 ♢, UNA ♣, K ♣, ..., 2 ♣} .

$\{A♠, K♠, \dots, 2♠, A♡, K♡, \dots, 2♡, A♢, K♢, \dots, 2♢, A♣, K♣, \dots, 2♣ \}.$

En el bridge, un as vale 4 puntos de cartas altas, un rey 3, una reina 2 y un jack 1. Cualquier otra carta vale 0 puntos.

$Y$ $Y\left(A♡ \right)=4$ $Y\left(J♣ \right)=1$ $Y\left(7♠ \right)=0$

$H$ $T$ $A♠$

* Formalmente, una variable aleatoria es una función que asigna cada resultado (en el espacio muestral) a un número real.

— Kenny LJ
fuente

55

+1. Esta respuesta llega al punto, es correcta y es clara, evitando así las tonterías sobre valores "desconocidos" y "cambiantes" que impregnan las otras respuestas en este hilo.

— whuber

12

A diferencia de una variable regular, una variable aleatoria no puede ser sustituida por un valor único e inmutable. En cambio , se pueden establecer propiedades estadísticas , como la distribución de la variable aleatoria. La distribución es una función que proporciona la probabilidad de que la variable tome un valor dado o se encuentre dentro de un rango dado ciertos parámetros, como la media o la desviación estándar.

Las variables aleatorias pueden clasificarse como discretas si la distribución describe valores de un conjunto contable, como los enteros. La otra clasificación para una variable aleatoria es continua y se usa si la distribución cubre valores de un conjunto incontable como los números reales.

— marcador, rotulador
fuente

2

Probablemente sea mejor no usar el término "variable normal" aquí cuando no se refiere a una variable aleatoria normalmente distribuida.

— Rob Hyndman

Convenido. Aunque personalmente miraría a alguien divertido durante unos segundos si dijera "variable normal" y no arrojara la palabra "aleatorio" o "distribuido" en algún lugar para indicarme que eso es lo que estaban discutiendo. Pero también soy ingeniero y no estadístico, así que no uso tanta notación específica de dominio.

— Sharpie

77

Las variables aleatorias pueden clasificarse como discretas si no llaman la atención sobre sí mismas. Si son meramente contables, decimos discreto :-P También, quiere decir prescribir en lugar de proscribir, pero creo que describir podría ser más apropiado. Buena respuesta, de todos modos, ¡ojalá que +1 ayude a mitigar las dudas!

— walkytalky

@walkytalky Gracias por las correcciones. He hecho algunas correcciones.

— Sharpie

1

Cualquier variable es un marcador de posición para un valor. Puede asignar este o aquel valor a una variable (a veces el conjunto de valores que puede asignar está restringido por un conjunto, llamado tipo ). Las variables que mantienen un valor único e inmutable se conocen como 'constantes'. ¿Es posible que desee decir que la variable aleatoria mantiene un valor conocido mientras que el valor de la variable aleatoria es desconocido? Esto contradice las otras respuestas, que dicen que la variable aleatoria no es una variable en absoluto; es una función que (determinísticamente) asigna el estado desconocido a otra cosa. No es aleatorio y no es una variable, dicen.

— Val

6

Me contaron esta historia:

Se puede comparar una variable aleatoria con el Sacro Imperio Romano: el Sacro Imperio Romano no era sagrado, no era romano y no era un imperio.

Del mismo modo, una variable aleatoria no es aleatoria ni variable. Es solo una función. (La historia fue contada aquí: fuente ).

¡Esta es al menos una forma de explicar, que puede ayudar a las personas a recordar!

— kjetil b halvorsen
fuente

3

De Wikipedia :

En matemáticas (especialmente teoría de probabilidad y estadística), una variable aleatoria (o variable estocástica) es (en general) una función medible que asigna un espacio de probabilidad en un espacio medible. Las variables aleatorias que mapean todos los resultados posibles de un evento en números reales se estudian con frecuencia en estadísticas elementales y se usan en las ciencias para hacer predicciones basadas en datos obtenidos de experimentos científicos. Además de las aplicaciones científicas, se desarrollaron variables aleatorias para el análisis de juegos de azar y eventos estocásticos. La utilidad de las variables aleatorias proviene de su capacidad de capturar solo las propiedades matemáticas necesarias para responder preguntas probabilísticas.

Desde cnx.org :

Una variable aleatoria es una función, que asigna valores numéricos únicos a todos los resultados posibles de un experimento aleatorio en condiciones fijas. Una variable aleatoria no es una variable, sino una función que asigna eventos a números.

— Mehper C. Palavuzlar
fuente

44

Ninguna de las definiciones de cnx.org es correcta: la primera debido a su uso vago, y posiblemente engañoso, de "condiciones únicas" y "condiciones fijas" y la segunda porque simplemente es incorrecta; un RV se define en los resultados (elementos del espacio muestral), no en los eventos (conjuntos de resultados medibles).

— whuber

P = κ λ e^{- λ t}

$P=\kappa \lambda e^{-\lambda t}$

κ = \int_{0}^{\infty} P (t) d t

$\kappa=\int_0^\infty P(t) dt$

E D (t) = λ e^{- λ t}

$ED(t)=\lambda e^{-\lambda t}$

E D (t)

$ED(t)$ tiene la forma de un pdf, no es un modelo para un histograma de resultados.

— Carl

1

f (x)

$f(x)$

3

Una variable aleatoria, generalmente denotada como X, es una variable donde el resultado es incierto. La observación de un resultado particular de esta variable se llama realización. Más concretamente, es una función que mapea un espacio de probabilidad en un espacio medible, generalmente llamado espacio de estado. Las variables aleatorias son discretas (pueden tomar una cantidad de valores distintos) o continuas (pueden tomar una cantidad infinita de valores).

Considere la variable aleatoria X, que es el total obtenido al tirar dos dados. Puede tomar cualquiera de los valores 2-12 (con igual probabilidad dado dados justos) y el resultado es incierto hasta que se tiran los dados.

— Graham Cookson
fuente

55

Solo un pensamiento, pero esto se lee como si dijeras que la probabilidad de obtener un 12 (1/36) es la misma que un 7 (1/6).

— jefflovejapan

0

En mis estudios universitarios no matemáticos, nos dijeron que la variable aleatoria es un mapa de valores que esa variable puede llevar a las probabilidades. Esto permitió dibujar las distribuciones de probabilidad

Recientemente, me di cuenta de lo diferente que es lo que los matemáticos tienen en mente. Resulta que con la variable aleatoria significan una función simple X: Ω → R, que toma un elemento del espacio muestral Ω ( también conocido como resultado, ticket o individual , como se explicó anteriormente) y lo traduce en un número real R en el rango ( -∞, ∞). Es decir, se señaló anteriormente que no es aleatorio ni variable en absoluto. La aleatoriedad generalmente viene con la medida de probabilidad P, como parte del espacio de medida (Ω, P). P asigna muestras a R, de manera similar a la variable aleatoria, pero este intervalo de tiempo se limita a [0,1] y podemos decir que la variable aleatoria se traduce (Ω, P) en (R, P), por lo tanto, la variable aleatoria está equipada con probabilidad mida P: R -> [0,1] para que pueda decir para cada x en R cuál es la probabilidad de que ocurra.

$\Omega$

H (Ω) = \sum PAGS (Ω_{yo}) l norte (Ω_{yo})

$H(\Omega) = \sum{P(\Omega_i) ln (\Omega_i)}$

integral no necesita ningún valor real de variable aleatoria.

— Val
fuente

X

$X$

A

$A$

σ

$\sigma$

A

$\mathcal{A}$