¿Por qué la suma de dos variables aleatorias es una convolución?


33

Durante mucho tiempo no entendí por qué la "suma" de dos variables aleatorias es su convolución , mientras que una función de densidad de mezcla suma de f(x) y g(x) es pf(x)+(1p)g(x); la suma aritmética y no su convolución. La frase exacta "la suma de dos variables aleatorias" aparece en google 146,000 veces, y es elíptica de la siguiente manera. Si se considera que un RV produce un valor único, entonces ese valor único se puede agregar a otro valor único de RV, que no tiene nada que ver con la convolución, al menos no directamente, todo lo que es una suma de dos números. Sin embargo, un resultado de RV en las estadísticas es una colección de valores y, por lo tanto, una frase más exacta sería algo así como "el conjunto de sumas coordinadas de pares de valores individuales asociados de dos RV es su convolución discreta" ... y puede ser aproximado por el convolución de las funciones de densidad correspondientes a esos RV. Lenguaje aún más simple: 2 RV's de n-las muestras son en efecto dos vectores n-dimensionales que se suman como su suma vectorial.

Muestre los detalles de cómo la suma de dos variables aleatorias es una convolución y una suma.


66
Realmente no creo que sea 'suma' en un sentido algebraico abstracto . Cuando hacemos una 'suma de variables', nos referimos a la operación aritmética típica como la conocemos al sumar números naturales o números reales. Eso significa que hacemos una nueva variable 'agregando' las otras variables juntas. La noción de 'una suma de variables' también existe fuera del ámbito de las estadísticas y es independiente de las expresiones sobre convoluciones y probabilidades. Entonces, de hecho, 'la suma de variables es una convolución', está mal. Pero nadie está implicando esto. Deberíamos cambiar la palabra 'es' en esa declaración.
Sextus Empiricus

55
Esto es como argumentar que f(x)g(x) no debería llamarse 'el producto de dos funciones f y g' (o solo interpretarse como una noción algebraica abstracta de 'producto') porque es una convolución en términos de las transformadas de Fourier de esas funciones.
Sextus Empiricus

16
El "aviso" es engañoso. Una suma de variables aleatorias X e Y se entiende precisamente en el mismo sentido que los escolares entienden "suma": para cada ω , el valor (X+Y)(ω) se encuentra sumando los números X(ω) e Y(ω).No hay nada abstracto al respecto. Estas casas rodantes tienen distribuciones. Existen muchas formas de representar las distribuciones. La función de distribución de X+Y es la convolución de los DF deX eY ; la función característica deX+Y es elproductode sus CFs; la función generadora acumulativa deX+Y es lasumade sus CGF; y así.
whuber

3
No veo ni variables aleatorias ni distribuciones en su cálculo.
whuber

8
En el idioma de mi publicación en stats.stackexchange.com/a/54894/919 , un par de variables aleatorias consiste en una caja de tickets en cada uno de los cuales están escritos dos números, uno designado X y el otro Y . La suma de estas variables aleatorias se obtiene sumando los dos números encontrados en cada ticket. El cálculo literalmente es una tarea que podría asignar a un aula de tercer grado. (Hago este punto para enfatizar tanto la simplicidad fundamental de la operación como para mostrar cuán fuertemente está conectada con lo que todos entienden que significa "suma".)(X,Y)XY.
whuber

Respuestas:


14

Los cálculos de convolución asociados con las distribuciones de variables aleatorias son todas manifestaciones matemáticas de la Ley de probabilidad total .


En el idioma de mi publicación en ¿Qué se entiende por "variable aleatoria"? ,

Un par de variables aleatorias (X,Y) consiste en una caja de entradas en cada uno de los que están escritos dos números, uno designado X y la otra Y . La suma de estas variables aleatorias se obtiene sumando los dos números encontrados en cada ticket.

Publiqué una imagen de dicha caja y sus tickets en Aclarando el concepto de suma de variables aleatorias .

ingrese la descripción de la imagen aquí

Este cálculo literalmente es una tarea que podría asignar a un aula de tercer grado. (Hago este punto para enfatizar tanto la simplicidad fundamental de la operación como para mostrar cuán fuertemente está conectada con lo que todos entienden que significa "suma").

La forma en que la suma de variables aleatorias se expresa matemáticamente depende de cómo represente el contenido del cuadro:

Los dos primeros son especiales en la medida en que la caja puede no tener un pmf, pdf o mgf, pero siempre tiene un cdf, cf y cgf.


X, Y,X+YX+YzX+Yz,Pr(X+Y=z).

El pmf de la suma se encuentra desglosando el conjunto de tickets de acuerdo con el valor de escrito en ellos, siguiendo la Ley de Probabilidad Total, que establece las proporciones (de subconjuntos disjuntos) suma. Más técnicamenteX

La proporción de tickets encontrados dentro de una colección de subconjuntos disjuntos de la caja es la suma de las proporciones de los subconjuntos individuales.

Se aplica así:

La proporción de tickets donde , escrita debe ser igual a la suma sobre todos los valores posibles de la proporción de tickets donde y escritaX+Y=zPr(X+Y=z),xX=xX+Y=z,Pr(X=x,X+Y=z).

Debido a que y implican esta expresión puede reescribirse directamente en términos de las variables originales e comoX=xX+Y=zY=zx,XY

Pr(X+Y=z)=xPr(X=x,Y=zx).

Esa es la convolución.


Editar

¡Tenga en cuenta que aunque las convoluciones están asociadas con sumas de variables aleatorias, las convoluciones no son convoluciones de las variables aleatorias en sí mismas!

De hecho, en la mayoría de los casos no es posible convolucionar dos variables aleatorias. Para que esto funcione, sus dominios deben tener una estructura matemática adicional. Esta estructura es un grupo topológico continuo.

Sin entrar en detalles, basta decir que la convolución de cualquiera de las dos funciones debe tener un aspecto abstractoX,Y:GH

(XY)(g)=h,kGh+k=gX(h)Y(k).

(La suma podría ser una integral y, si esto va a producir nuevas variables aleatorias a partir de las existentes, debe ser medible siempre que e sean; ahí es donde debe entrar alguna consideración de topología o mensurabilidad).XYXY

Esta fórmula invoca dos operaciones. Una es la multiplicación en debe tener sentido multiplicar los valores e La otra es la suma en debe tener sentido agregar elementos deH:X(h)HY(k)H.G:G .G.

En la mayoría de las aplicaciones de probabilidad, es un conjunto de números (reales o complejos) y la multiplicación es la habitual. Pero el espacio muestral, a menudo no tiene estructura matemática en absoluto. Es por eso que la convolución de variables aleatorias generalmente ni siquiera está definida. Los objetos involucrados en convoluciones en este hilo son representaciones matemáticas de las distribuciones de variables aleatorias. Se utilizan para calcular la distribución de una suma de variables aleatorias, dada la distribución conjunta de esas variables aleatorias.HG,


Referencias

Stuart y Ord, Teoría avanzada de estadística de Kendall, Volumen 1. Quinta edición, 1987, Capítulos 1, 3 y 4 ( Distribuciones de frecuencia, momentos y acumulantes, y funciones características ).


La asociatividad con la multiplicación escalar de las propiedades algebraicas relaciona que para cualquier número real (o complejo) . Mientras que una buena propiedad es que la convolución de dos funciones de densidad es una función de densidad, una no está restringida a funciones de densidad convolucionarias, y la convolución no es en general un tratamiento de probabilidad, claro que sí, pero puede ser un tratamiento de series de tiempo, por ejemplo, un tratamiento de la escorrentía de agua en lagos después de una lluvia, un modelo de concentración de drogas después de la dosificación, etc.a
a(fg)=(af)g
a
Carl

@Carl ¿Cómo concuerda ese comentario con su pregunta original, que pregunta sobre sumas de variables aleatorias ? En el mejor de los casos, es tangencial.
whuber

Le pido que no generalice en exceso. Comenzar una oración con "convolución es" sin decir que "la convolución de los RV es" es elíptica. Todo mi problema aquí fue con la notación elíptica. La suma vectorial de dos vectores de espacios es convolución, independientemente de si esos vectores están normalizados o no. Si están normalizados, no necesitan ser probabilidades. Esa es toda la verdad, no solo parte de ella. n
Carl

Gracias: aclararé la primera oración para enfatizar que estoy respondiendo su pregunta.
Whuber

La nueva adición es cierta para la convolución de los vehículos recreativos, que técnicamente es lo que pregunté. Y tal vez me equivoque, pero la convolución no siempre es de RV, pero siempre se puede reducir a algunos factores de escala de funciones de densidad multiplicadas por esas funciones de densidad, donde los escalares son multiplicativos y donde las funciones de densidad son a veces RV, en cuyo caso los factores de escala son la identidad multiplicativa, es decir, 1.
Carl

41

Notación, mayúsculas y minúsculas

https://en.wikipedia.org/wiki/Notation_in_probability_and_statistics

  • Las variables aleatorias generalmente se escriben en letras mayúsculas romanas: , , etc.XY
  • Las realizaciones particulares de una variable aleatoria se escriben en letras minúsculas correspondientes. Por ejemplo , , , ..., podría ser una muestra correspondiente a la variable aleatoria y una probabilidad acumulativa se escribe formalmente para diferenciar la variable aleatoria de la realización.x1x2xnXP(X>x)

Z=X+Y significazi=xi+yixi,yi


Mezcla de variables -> suma de pdf

https://en.wikipedia.org/wiki/Mixture_distribution

Utiliza una suma de las funciones de densidad de probabilidad y cuando la probabilidad (por ejemplo, Z) se define mediante una suma única de diferentes probabilidades.fX1fX2

Por ejemplo, cuando es una fracción del tiempo definido por y una fracción del tiempo definido por , entonces obtiene yZsX11sX2

P(Z=z)=sP(X1=z)+(1s)P(X2=z)
fZ(z)=sfX1(z)+(1s)fX2(z)

. . . . Un ejemplo es la elección entre tiradas de dados con un dado de 6 caras o un dado de 12 caras. Digamos que haces 50-50 por ciento de las veces que uno corta en dados o el otro. Entonces

fmixedroll(z)=0.5f6sided(z)+0.5f12sided(z)


Suma de variables -> convolución de pdf

https://en.wikipedia.org/wiki/Convolution_of_probability_distributions

Utiliza una convolución de las funciones de densidad de probabilidad y cuando la probabilidad (por ejemplo Z) está definida por múltiples sumas de diferentes probabilidades (independientes).fX1fX2

Por ejemplo, cuando (es decir, ¡una suma!) Y múltiples pares diferentes suman , cada uno con la probabilidad . Luego obtienes la convoluciónZ=X1+X2 x 1 , x 2 z f X 1 ( x 1 ) f X 2 ( x 2 ) P ( Z = z ) = todos los pares  x 1 + x 2 = z P ( X 1 = x 1 ) P ( X 2 = x 2 )x1,x2zfX1(x1)fX2(x2)

P(Z=z)=all pairs x1+x2=zP(X1=x1)P(X2=x2)

y

fZ(z)=x1 domain of X1fX1(x1)fX2(zx1)

o para variables continuas

fZ(z)=x1 domain of X1fX1(x1)fX2(zx1)dx1

. . . . un ejemplo es la suma de dos tiradas de dados para yfX2(x)=fX1(x)=1/6x{1,2,3,4,5,6}

fZ(z)=x{1,2,3,4,5,6} and zx{1,2,3,4,5,6}fX1(x)fX2(zx)

tenga en cuenta que elijo integrar y sumar , lo que me parece más intuitivo, pero no es necesario y puede integrar de a si define fuera del dominio.x1 domain of X1fX1(x1)=0

Ejemplo de imagen

ejemplo de 'suma de variables' que resulta en 'convolución de archivos PDF'

Deje que sea . Para conocer deberá integrar las probabilidades para todas las realizaciones de que conducir a .ZX+YP(z12dz<Z<z+12dz)x,yz12dz<Z=X+Y<z+12dz

Entonces esa es la integral de en la región largo de la línea .f(x)g(y)±12dzx+y=z


Escrito por StackExchangeStrike


66
@Carl no es jargonesco. La convolución puede verse de hecho como una suma de muchas sumas. Pero esto no es a lo que se refiere 'la suma de variables' . Se refiere a cosas como cuando hablamos de 'una suma de dos tiradas de dados', que tiene un significado e interpretación muy normales en la vida cotidiana (especialmente cuando jugamos un juego de mesa). ¿Prefieres decir que tomamos una combinación de dos tiradas de dados cuando usamos la suma algebraica de dos tiradas de dados?
Sextus Empiricus

2
La probabilidad de tirar 7 con la suma (única) de dos dados es la suma de (muchas) probabilidades de tirar 1-6, 2-5, 3-4, 4-3, 5-2, 6-1. El término suma aparece dos veces y, en el primer caso, cuando se refiere a una sola expresión sumatoria, es a lo que se refiere la afirmación 'suma de dos variables', como en 'suma de dos tiradas de dados'.
Sextus Empiricus

55
De hecho, la integral reemplaza la suma de probabilidades. Pero eso se relaciona con el segundo uso del término suma, no con el primer uso del término suma. Entonces todavía podemos referirnos a la suma de dos variables (que es el primer uso del término). Esto se debe a que el término 'suma' no se usa para referirse a la operación de convolución o la operación de suma de las probabilidades, sino a la suma de las variables.
Sextus Empiricus

8
al menos no es jerárquico decir "la densidad de probabilidad para una suma de tiradas de dados se define por la convolución de las densidades de probabilidad para las tiradas de dados individuales". El término 'una suma de tiradas de dados' tiene una interpretación muy normal en la vida cotidiana cuando no hay estadísticos con su jerga. Es en este sentido (suma de tiradas de dados) que necesita interpretar (suma de variables). Este paso tampoco es jargonesco. La gente usa 'sumas de variables' todo el tiempo. Es solo el estadístico el que piensa en las probabilidades de estas sumas y comienza a aplicar convoluciones
Sextus Empiricus

2
@Carl: Creo que entendiste mal mi declaración. Decías que no es bueno llamar a una integral de convolución una suma, lo que implica que alguien llama a la integral de convolución una suma. Pero nadie aquí está diciendo esto. Lo que se dijo es que una integral de convolución es el pdf de la suma de ciertas variables. Estaba cambiando la declaración a algo falso y luego se quejó de que es falsa.

28

Su confusión parece surgir de la combinación de variables aleatorias con sus distribuciones.

Para "desaprender" esta confusión, podría ser útil retroceder un par de pasos, vaciar la mente por un momento, olvidarse de cualquier formalismo sofisticado como los espacios de probabilidad y las álgebras sigma (si ayuda, finja que está de regreso en la escuela primaria ¡y nunca he oído hablar de ninguna de esas cosas!) y solo piense en lo que representa fundamentalmente una variable aleatoria: un número de cuyo valor no estamos seguros .

Por ejemplo, digamos que tengo un dado de seis lados en la mano. (Realmente sí. De hecho, tengo una bolsa entera de ellos). Todavía no lo he rodado, pero estoy a punto de hacerlo, y decido llamar al número que aún no he rodado en ese dado. el nombre " ".X

¿Qué puedo decir sobre esta , sin tirar el dado y determinar su valor? Bueno, puedo decir que su valor no será , o , o . De hecho, puedo asegurar que será un número entero entre y , inclusive, porque esos son los únicos números marcados en el dado. Y como compré esta bolsa de dados de un fabricante de renombre, puedo estar bastante seguro de que cuando tire el dado y determine cuál es realmente el número , es igualmente probable que sea cualquiera de esos seis valores posibles, o lo más cercano a eso como puedo determinar7 - 1 1X71 16X1216X

En otras palabras, mi es una variable aleatoria de valores enteros distribuida uniformemente en el conjunto .{ 1 , 2 , 3 , 4 , 5 , 6 }X{1,2,3,4,5,6}


De acuerdo, pero seguramente todo eso es obvio, entonces, ¿por qué sigo aclarando cosas tan triviales que seguramente ya sabes? Es porque quiero hacer otro punto, que también es trivial pero, al mismo tiempo, crucialmente importante: ¡puedo hacer matemáticas con esta , incluso si aún no sé su valor!X

Por ejemplo, puedo decidir agregar uno al número que lanzaré en el dado y llamar a ese número por el nombre " ". No sabré qué número será esta , ya que no sé cuál será hasta que haya tirado el dado, pero aún puedo decir que será uno mayor que , o en términos matemáticos, .Q Q X Q X Q = X + 1XQQXQXQ=X+1

Y esto será también una variable aleatoria, porque yo no sé todavía su valor; Sólo sé que va a ser uno mayor que . Y porque sé qué valores puede tomar, y qué tan probable es tomar cada uno de esos valores, también puede determinar aquellas cosas para . Y tú también puedes, fácilmente. Realmente no necesitará ningún formalismo o cálculo sofisticado para darse cuenta de que será un número entero entre y , y que es igualmente probable (suponiendo que mi dado sea tan justo y equilibrado como creo). cualquiera de esos valores.X X Q Q 2 7QXXQQ27

¡Pero hay más! También podría decidir, por ejemplo, multiplicar el número que lanzaré en el dado por tres, y llamar al resultado . Y esa es otra variable aleatoria, y estoy seguro de que también puedes calcular su distribución, sin tener que recurrir a integrales o convoluciones o álgebra abstracta.R = 3 XXR=3X

Y si realmente quisiera, incluso podría decidir tomar el número aún por determinar y doblarlo, hilarlo y mutilarlo, dividirlo por dos, restarle uno y cuadrar el resultado. Y el número resultante es otra variable aleatoria; esta vez, no tendrá un valor entero ni estará uniformemente distribuido, pero aún puede calcular su distribución con la suficiente facilidad utilizando solo lógica y aritmética elementales.S = ( 1XS=(12X1)2


OK, entonces puedo definir nuevas variables aleatorias al conectar mi dado desconocido en varias ecuaciones. ¿Y qué? Bueno, ¿recuerdas cuando dije que tenía una bolsa entera de dados? Déjame tomar otro, y llamar al número que voy a tirar en ese dado con el nombre " ".YXY

Esos dos dados que tomé de la bolsa son bastante idénticos: si los cambiara cuando no estaba mirando, no podría decirlo, así que puedo asumir con bastante seguridad que este también tendrá la misma distribución que . Pero lo que realmente quiero hacer es tirar ambos dados y contar el número total de pips en cada uno de ellos . Y ese número total de pips, que también es una variable aleatoria ya que aún no lo sé , llamaré " ".X TYXT

¿Qué tan grande será este número ? Pues bien, si es el número de pips I se deslice sobre el primer troquel, y es el número de pips I se deslice sobre la segunda matriz, entonces será claramente su suma, es decir, . Y puedo decir que, dado que e están entre uno y seis, debe ser al menos dos y como máximo doce. Y dado que e son números enteros, claramente también debe ser un número entero.X Y T T = X + Y X Y T X Y TTXYTT=X+YXYTXYT


Pero, ¿qué tan probable es que tome cada uno de sus valores posibles entre dos y doce? Definitivamente no es igual de probable que tome cada uno de ellos: un poco de experimentación revelará que es mucho más difícil tirar un doce en un par de dados que tirar, digamos, un siete.T

Para resolverlo, permítanme denotar la probabilidad de que saque el número en el primer dado (el resultado cuyo resultado decidí llamar ) por la expresión . Del mismo modo, denotaré la probabilidad de que saque el número en el segundo dado por . Por supuesto, si mis dados son perfectamente justos y equilibrados, entonces para cualquier y entre uno y seis, pero también podríamos considerar el más general caso en el que los dados podrían estar sesgados, y es más probable que arroje algunos números que otros.X Pr [ X = a ] b Pr [ Y = b ] Pr [ X = a ] = Pr [ Y = b ] = 1aXPr[X=a]bPr[Y=b] abPr[X=a]=Pr[Y=b]=16ab

Ahora, ya que las dos tiradas serán independientes (Desde luego, no estoy pensando en el engaño y el ajuste de uno de ellos sobre la base de la otra!), La probabilidad de que voy a rodar en el primer dado y en el segundo simplemente ser el producto de esas probabilidades:b Pr [ X = a  y  Y = b ] = Pr [ X = a ] Pr [ Y = b ] .a b

Pr[X=a and Y=b]=Pr[X=a]Pr[Y=b].

(Tenga en cuenta que la fórmula anterior solo se cumple para pares independientes de variables aleatorias; ciertamente no se mantendría si reemplazamos arriba con, digamos, !)QYQ

Ahora, hay varios valores posibles de e que podrían producir el mismo total ; por ejemplo, podría surgir igualmente de e como de e , o incluso de e . Pero si ya había tirado el primer dado , y sabía el valor de , entonces podría decir exactamente qué valor tendría que tirar en el segundo dado para alcanzar cualquier número total de pepitas.Y T T = 4 X = 1 Y = 3 X = 2 Y = 2 X = 3 Y = 1 XXYTT=4X=1Y=3X=2Y=2X=3Y=1X

Específicamente, digamos que estamos interesados ​​en la probabilidad de que , para algún número . Ahora, si sé después de tirar el primer dado que , entonces solo podría obtener el total tirando en el segundo dado. Y, por supuesto, ya sabemos, sin tirar ningún dado, que la probabilidad a priori de tirar en el primer dado y en el segundo dado esT=ccX=aT=cY=caaca

Pr[X=a and Y=ca]=Pr[X=a]Pr[Y=ca].

Pero, por supuesto, hay varias formas posibles de alcanzar el mismo total , dependiendo de lo que termine tirando en el primer dado. Para obtener la probabilidad total de tirar pips en los dos dados, necesito sumar las probabilidades de todas las diferentes formas en que podría tirar ese total. Por ejemplo, la probabilidad total de que tire un total de 4 pips en los dos dados será:cPr[T=c]c

Pr[T=4]=Pr[X=1]Pr[Y=3]+Pr[X=2]Pr[Y=2]+Pr[X=3]Pr[Y=1]+Pr[X=4]Pr[Y=0]+

Tenga en cuenta que fui demasiado lejos con esa suma anterior: ¡ciertamente no puede ser ! Pero matemáticamente eso no es problema; solo necesitamos definir la probabilidad de eventos imposibles como (o o o ) como cero. Y de esa manera, obtenemos una fórmula genérica para la distribución de la suma de dos tiradas de dado (o, más generalmente, cualesquiera dos variables aleatorias independientes con valores enteros):Y0Y=0Y=7Y=1Y=12

T=X+YPr[T=c]=aZPr[X=a]Pr[Y=ca].

¡Y bien podría detener mi exposición aquí, sin mencionar la palabra "convolución"! Pero, por supuesto, si sabe cómo es una convolución discreta , puede reconocer una en la fórmula anterior. Y esa es una forma bastante avanzada de establecer el resultado elemental derivado anteriormente: la función de masa de probabilidad de la suma de dos variables aleatorias con valores enteros es la convolución discreta de las funciones de masa de probabilidad de los sumandos.

Y, por supuesto, al reemplazar la suma con una masa integral y de probabilidad con densidad de probabilidad , también obtenemos un resultado análogo para variables aleatorias distribuidas continuamente. Y al extender suficientemente la definición de una convolución, incluso podemos hacer que se aplique a todas las variables aleatorias, independientemente de su distribución, aunque en ese punto la fórmula se convierte casi en una tautología, ya que habremos definido la convolución de dos Las distribuciones de probabilidad arbitrarias son la distribución de la suma de dos variables aleatorias independientes con esas distribuciones.

Pero aun así, todo esto con convoluciones y distribuciones y PMF y PDF es realmente solo un conjunto de herramientas para calcular cosas sobre variables aleatorias. Los objetos fundamentales que estamos calculando cosas acerca son las mismas variables aleatorias, que en realidad son sólo números cuyos valores no estamos seguros acerca .

Y además, ese truco de convolución solo funciona para sumas de variables aleatorias, de todos modos. Si quisieras saber, digamos, la distribución de o , tendrías que resolverlo usando métodos elementales, y el resultado no sería una convolución.U=XYV=XY


Anexo: Si desea una fórmula genérica para calcular la distribución de la suma / producto / exponencial / cualquier combinación de dos variables aleatorias, aquí hay una forma de escribir una: donde representa una operación binaria arbitraria y es un paréntesis de Iverson , es decir,

A=BCPr[A=a]=b,cPr[B=b and C=c][a=bc],
[a=bc]
[a=bc]={1if a=bc, and0otherwise.

(La generalización de esta fórmula para variables aleatorias no discretas se deja como un ejercicio de formalismo en su mayoría sin sentido. El caso discreto es suficiente para ilustrar la idea esencial, con el caso no discreto simplemente agregando un montón de complicaciones irrelevantes).

Puede comprobar usted mismo que esta fórmula realmente funciona, por ejemplo, para la suma y que, para el caso especial de agregar dos variables aleatorias independientes , es equivalente a la fórmula de "convolución" dada anteriormente.

Por supuesto, en la práctica, esta fórmula general es mucho menos útil para el cálculo, ya que implica una suma sobre dos variables ilimitadas en lugar de solo una. Pero a diferencia de la fórmula de suma única, funciona para funciones arbitrarias de dos variables aleatorias, incluso no invertibles, y también muestra explícitamente la operación lugar de disfrazarla como su inversa (como la fórmula de "convolución" disfraza la suma como sustracción).


PD. Acabo de tirar los dados. Resulta que e , lo que implica que , , , , y . Ahora ya lo sabes. ;-)X=5Y=6Q=6R=15S=2.25T=11U=30V=15625


44
¡Esta debería ser la respuesta aceptada! Muy intuitivo y claro!
Vladislavs Dovgalecs

3
@Carl: El punto que estoy tratando de hacer es que la suma de las variables aleatorias es de hecho una simple suma: . Si deseamos calcular la distribución de , entonces necesitaremos hacer algo más complicado, pero ese es un problema secundario. La variable aleatoria no es su distribución. (De hecho, una variable aleatoria ni siquiera se caracteriza completamente por su distribución, ya que la distribución (marginal) por sí sola no codifica información sobre sus posibles dependencias con otras variables.)T=X+YT
Ilmari Karonen

3
@Carl: ... En cualquier caso, si desea introducir un símbolo especial para "adición de variables aleatorias", entonces, por coherencia, también debe tener símbolos especiales para "multiplicación de variables aleatorias" y "división de variables aleatorias" y "exponenciación de variables aleatorias" y "logaritmo de variables aleatorias" y así sucesivamente. Todas esas operaciones están perfectamente bien definidas en variables aleatorias, vistas como números con un valor incierto , pero en todos los casos calcular la distribución del resultado es mucho más complicado que simplemente hacer el cálculo correspondiente para las constantes.
Ilmari Karonen

55
@Carl: La confusión desaparece cuando dejas de confundir una variable aleatoria con su distribución. Tomar la distribución de una variable aleatoria no es una operación lineal en ningún sentido significativo, por lo que la distribución de la suma de dos variables aleatorias (generalmente) no es la suma de sus distribuciones. Pero lo mismo es cierto para cualquier operación no lineal. Seguramente no está confundido por el hecho de que , entonces, ¿por qué debería confundirse por el hecho de que ? x+yx+yPr[X+Y=c]Pr[X=c]+Pr[Y=c]
Ilmari Karonen

3
@Carl: Espera, ¿qué? Ruedo dos dados, anote los resultados y , y luego calcular . ¿Cómo es que no es una división ordinaria? (Y sí, sigue siendo una división ordinaria incluso si lo hago antes de tirar los dados. En ese caso, los valores de e todavía no están fijos, y por lo tanto tampoco lo es el valor de ).XYZ=X/YXYZ
Ilmari Karonen

7

En realidad no creo que esto sea del todo correcto, a menos que te esté malentendiendo.

Si e son variables aleatorias independientes, entonces la relación suma / convolución a la que se refiere es la siguiente: Es decir, la función de densidad de probabilidad (pdf) de la suma es igual a la convolución (denotado por el operador) de la pdf de individual de y .XY

p(X+Y)=p(X)p(Y)
XY

Para ver por qué esto es así, considere que para un valor fijo de , la suma sigue el pdf de , desplazado por una cantidad . Entonces, si considera todos los valores posibles de , la distribución de se obtiene reemplazando cada punto en por una copia de centrada en ese punto (o viceversa), y luego sumando todas estas copias , que es exactamente lo que es una convolución.X=xS=X+YYxXSp(X)p(Y)

Formalmente, podemos escribir esto como: o, de forma equivalente:

p(S)=pY(Sx)pX(x)dx
p(S)=pX(Sy)pY(y)dy

Editar: para aclarar algo de confusión, permítanme resumir algunas de las cosas que dije en los comentarios. La suma de dos variables aleatorias e no se refiere a la suma de sus distribuciones. Se refiere al resultado de sumar sus realizaciones. Para repetir el ejemplo que di en los comentarios, suponga que e son los números lanzados con un tiro de dos dados ( es el número arrojado con un dado e el número arrojado con el otro). Entonces definamosY X Y X Y S = X + Y X Y X YXYXYXYS=X+Ycomo el número total arrojado con los dos dados juntos. Por ejemplo, para un dado dado, podríamos lanzar un 3 y un 5, por lo que la suma sería 8. La pregunta ahora es: ¿cómo se ve la distribución de esta suma y cómo se relaciona con las distribuciones individuales? de e ? En este ejemplo específico, el número arrojado con cada dado sigue una distribución uniforme (discreta) entre [1, 6]. La suma sigue una distribución triangular entre [1, 12], con un pico en 7. Como resultado, esta distribución triangular se puede obtener mediante la convolución de las distribuciones uniformes de e , y esta propiedad en realidad es válida para todas las sumas de ( independientes) variables aleatorias.XYXY


Sumar muchas sumas es más combinar que una sola suma que valga la pena anotar con un signo '+'. Mi preferencia sería decir que las variables aleatorias se combinan por convolución.
Carl

66
Una convolución podría llamarse una suma de muchas sumas, claro. Pero lo que debe entender es que la convolución se aplica estrictamente a los PDF de las variables que se suman. Las variables en sí mismas no están enrevesadas. Simplemente se agregan uno al otro, y no hay forma de interpretar esa suma como una operación de convolución (por lo que la premisa básica de su pregunta, como se dice ahora, es incorrecta).
Ruben van Bergen

44
Estás malinterpretando esa referencia. Establece: La distribución de probabilidad de la suma de dos o más variables aleatorias independientes es la convolución de sus distribuciones individuales . No dice que una suma de dos variables aleatorias es lo mismo que convolucionar esas variables. Dice que la distribución de la suma es la convolución de la distribución de las variables individuales. Una variable aleatoria y su distribución son dos cosas diferentes.
Ruben van Bergen

Claro, usted puede convolución variables aleatorias. Pero la propiedad de suma / convolución que es ampliamente conocida y discutida en ese artículo (y en mi respuesta anterior) no trata convoluciones de variables aleatorias. Se refiere específicamente a sumas de variables aleatorias y las propiedades de la distribución de esa suma.
Ruben van Bergen

1
("Claro, puedes convolucionar variables aleatorias". ¿Puedes? Mi entendimiento fue que, para obtener la función de distribución de la suma de variables aleatorias, convolucionas las funciones de masa / densidad de cada una, muchas personas hablan (libremente) de distribuciones convolucionales, y algunos hablan (erróneamente) de convolucionar variables aleatorias. Perdón por desviarme, pero tengo curiosidad.)
Scortchi - Restablece a Monica

6

Comience considerando el conjunto de todos los resultados distintos posibles de un proceso o experimento. Sea una regla (aún no especificada) para asignar un número a cualquier resultado dado ; deja que sea ​​también. Entonces establece una nueva regla para asignar un número a cualquier resultado dado: añadir el número que se obtiene a partir siguiente regla al número que se obtiene de siguiente regla .XωYS=X+YSXY

Podemos parar ahí. ¿Por qué no debería llamarse una suma?S=X+Y

Si pasamos a definir un espacio de probabilidad , la función de masa (o densidad) de la variable aleatoria (porque eso es lo que son nuestras reglas ahora) se puede obtener convolucionando la función de masa (o densidad) de con el de (cuando son independientes). Aquí "convolucionar" tiene su sentido matemático habitual . Pero la gente a menudo habla de distribuciones convolucionales, lo cual es inofensivo; o, a veces, incluso de variables aleatorias convolucionantes, que aparentemente no lo son, si sugiere leer " " como " ", y por lo tanto, el "S=X+YXYX+YX convoluted with Y+"en el primero representa una operación compleja de alguna manera análoga o amplia la idea de la suma en lugar de la suma simple y simple. Espero que quede claro por la exposición anterior, deteniéndose donde dije que podíamos, que ya tiene mucho sentido antes de que la probabilidad se ponga en escena.X+Y

En términos matemáticos, las variables aleatorias son funciones cuyo codominio es el conjunto de números reales y cuyo dominio es el conjunto de todos los resultados. Entonces, el " " en " " (o " ", para mostrar sus argumentos explícitamente) tiene exactamente el mismo significado que el " " en " ". Está bien pensar en cómo sumar vectores de valores realizados, si ayuda a la intuición; pero eso no debería generar confusión sobre la notación utilizada para sumas de variables aleatorias.+X+YX(ω)+Y(ω)+sin(θ)+cos(θ)


[Esta respuesta simplemente trata de reunir sucintamente los puntos hechos por @MartijnWeterings, @IlmariKaronen, @RubenvanBergen y @whuber en sus respuestas y comentarios. Pensé que podría ayudar venir de la dirección de explicar qué es una variable aleatoria en lugar de qué es una convolución. ¡Gracias a todos!]


(+1) Por esfuerzo. Responde demasiado profundo para mí. Sin embargo, me llevó a uno. Por favor, lea eso y hágame saber sus pensamientos.
Carl

Es la notación elíptica lo que me confundió: para todo , en otras palabras, suma de vectores . Si alguien hubiera dicho "suma de vectores" en lugar de "suma" , no me habría estado rascando la cabeza preguntándome qué significaba, pero no dicho. Si=Xi+Yii=1,2,3,...,n1,n
Carl

Bueno, si coloca las realizaciones de e en vectores y desea calcular el vector de realizaciones de , entonces usaría la suma de vectores. Pero eso parece bastante tangencial. Después de todo, ¿sentirías la necesidad de explicar ' ' usando vectores, o decir que ' ' en esa expresión significa la suma de vectores? XYSsin(θ)+cos(ϕ)+
Scortchi - Restablece a Monica

¿Hacer que? El contexto eran datos discretos, por ejemplo, RV, no funciones continuas, por ejemplo, PDF o , y es una suma ordinaria. sin(θ)sin(θ)+cos(ϕ)
Carl

1
@Carl: (1) Si un biólogo modela el no. los huevos puestos en el nido de un pato como un rv Poisson, en realidad no respaldan la posibilidad de una infinidad de huevos. Si tienes una pregunta sobre el papel de los conjuntos infinitos en Matemáticas, pregúntala en Matemáticas o Filosofía SE. (2) Aunque bastante estándar, la nomenclatura puede inducir a error; De ahí mi respuesta.
Scortchi - Restablece a Monica

3

En respuesta a su "Aviso", um, ... no.

Deje que , , y variables aleatorias y dejar que . Entonces, una vez que elija y , se fuerza . Usted hace estas dos elecciones, en este orden, cuando escribe Pero eso es un circunvolución.XYZZ=X+YZXY=ZX

P(Z=z)=P(X=x)P(Y=zx)dx.

Aviso desaparecido (+1) a ti por preocuparte.
Carl

2

La razón es la misma que los productos de funciones de poder están relacionados con convoluciones. La convolución siempre aparece de forma natural, si se combina con objetos que tienen un rango (por ejemplo, las potencias de dos funciones de potencia o el rango de los PDF) y donde el nuevo rango aparece como la suma de los rangos originales.

Es más fácil ver valores medios. Para que tenga un valor medio, ambos deben tener valores medios, o si uno tiene un valor alto, el otro debe tener un valor bajo y viceversa. Esto coincide con la forma de la convolución, que tiene un índice que va de valores altos a valores bajos mientras que el otro aumenta.x+y

Si observa la fórmula para la convolución (para valores discretos, solo porque me resulta más fácil verla allí)

(fg)(n)=kf(k)g(nk)

a continuación, se ve que la suma de los parámetros a las funciones ( y ) siempre se resume exactamente a . Por lo tanto, lo que realmente está haciendo la convolución es sumar todas las combinaciones posibles, que tienen el mismo valor.nkkn

Para las funciones de potencia obtenemos

(a0+a1x1+a2x2++anxn)(b0+b1x1+b2x2++bmxm)=i=0m+nkakbikxi

que tiene el mismo patrón de combinar exponentes altos de la izquierda con exponentes bajos de la derecha o viceversa, para obtener siempre la misma suma.

Una vez que vea, qué está haciendo realmente la convolución aquí, es decir, qué términos se están combinando y por qué debe, por lo tanto, aparecer en muchos lugares, la razón para convolucionar variables aleatorias debería ser bastante obvia.


2

Probemos la suposición para el caso continuo, y luego explíquela e ilustre usando histogramas construidos a partir de números aleatorios, y las sumas formadas al sumar pares ordenados de números de manera que la convolución discreta, y ambas variables aleatorias sean todas de longitud .n

De Grinstead CM, Snell JL. Introducción a la probabilidad: American Mathematical Soc .; 2012. Ch. 7, ejercicio 1:

Supongamos que e son variables aleatorias independientes de valor real con funciones de densidad y , respectivamente. Demuestre que la función de densidad de la suma es la convolución de las funciones y .XYfX(x)fY(y)X+YfX(x)fY(y)

Sea la variable aleatoria conjunta . Entonces la función de densidad conjunta de es , ya que e son independientes. Ahora calcule la probabilidad de que , integrando la función de densidad conjunta sobre la región apropiada en el plano. Esto le da a la función de distribución acumulada de .Z(X,Y)ZfX(x)fY(y)XYX+YzZ

FZ(z)=P(X+Yz)=(x,y):x+yzfX(x)fY(y)dydx
=fX(x)[yzxfY(y)dy]dx=fX(x)[FY(zx)]dx.

Ahora diferencie esta función con respecto a para obtener la función de densidad de .zz

fZ(z)=dFZ(z)dz=fX(x)fY(zx)dx.

Para apreciar lo que esto significa en la práctica, esto se ilustra a continuación con un ejemplo. La realización de un elemento de número aleatorio (estadística: resultado, ciencias de la computación: instancia) a partir de una distribución se puede considerar que toma la función de densidad acumulativa inversa de una función de densidad de probabilidad de una probabilidad aleatoria. (Una probabilidad aleatoria es, computacionalmente, un único elemento de una distribución uniforme en el intervalo [0,1].) Esto nos da un valor único en el eje . A continuación, generamos otro segundo elemento aleatorio de eje partir del CDF inverso de otro, posiblemente diferente, PDF de un segundo, probabilidad aleatoria diferente. Entonces tenemos dos elementos aleatorios. Cuando se agregan, las dosxxx-los valores así generados se convierten en un tercer elemento y, observe lo que ha sucedido. Los dos elementos ahora se convierten en un solo elemento de magnitud , es decir, se ha perdido información. Este es el contexto en el que tiene lugar la "adición"; es la suma dex1+x2x-valores. Cuando se producen múltiples repeticiones de este tipo de adición, la densidad resultante de las realizaciones (densidad de resultado) de las sumas tiende hacia el PDF de la convolución de las densidades individuales. La pérdida general de información resulta en suavizado (o dispersión de densidad) de la convolución (o sumas) en comparación con los PDF (o sumandos) que lo constituyen. Otro efecto es el cambio de ubicación de la convolución (o sumas). Tenga en cuenta que las realizaciones (resultados, instancias) de elementos múltiples solo proporcionan elementos dispersos que pueblan (ejemplifican) un espacio muestral continuo.

Por ejemplo, se crearon 1000 valores aleatorios utilizando una distribución gamma con una forma de y una escala de . Estos se agregaron por pares a 1000 valores aleatorios de una distribución normal con una media de 4 y una desviación estándar de . Los histogramas a escala de densidad de cada uno de los tres grupos de valores se trazaron conjuntamente (panel izquierdo a continuación) y se contrastaron (panel derecho a continuación) con las funciones de densidad utilizadas para generar los datos aleatorios, así como la convolución de esas funciones de densidad. 10/921/4ingrese la descripción de la imagen aquí

Como se ve en la figura, la explicación de la suma de los sumandos parece ser plausible ya que las distribuciones de datos suavizadas por el núcleo (rojo) en el panel izquierdo son similares a las funciones de densidad continua y su convolución en el panel derecho.


@whuber Finalmente, creo que entiendo. La suma es de eventos aleatorios. Echa un vistazo a mi explicación y dime si está claro ahora, por favor.
Carl

3
Ayuda a tener cuidado con el idioma. Los eventos son conjuntos . En raras ocasiones, incluso son conjuntos de números (es por eso que sus elementos se denominan "resultados"). Los eventos no suman, los valores de las variables aleatorias sí. El tema sobre "impresionantemente complicado" es solo una distracción. De hecho, si desea llegar al meollo del asunto, asegúrese de que uno de los sumandos en su ejemplo sea una variable aleatoria de media cero, porque la media afecta un cambio general en la ubicación. Se quiere entender intuitivamente lo que hace convolución de otro modo que cualquier cambio bajo la ubicación.
whuber

@whuber Gracias-útil. Solo en estadística es un resultado un elemento único de un espacio muestral. Para el resto de nosotros, un resultado es el resultado de un evento. Alisado y cambio. Lo que muestro es el ejemplo menos confuso de muchos, ya que reduce la colisión de las parcelas superpuestas.
Carl

1
Ahora veo cómo piensas en modelos mixtos. Estás construyendo lo que a veces se conoce como "multisets". (Por lo general, se utiliza un constructor distinto de los corchetes para aclarar la notación.) La idea parece ser la de una función de distribución empírica: la distribución empírica de un conjunto múltiple y la distribución empírica de un conjunto múltiple dan elevarse a la distribución empírica de su unión multiset, que es la mezcla de las dos distribuciones con pesos relativosy{,}AB|A||B|.
Whuber

1
Creo que detecto una posible fuente de confusión en estas ediciones en curso. Debido a que tomaría demasiado tiempo explicarlo en un comentario, he agregado una edición a mi respuesta con la esperanza de que pueda ayudar un poco. De hecho, la primera línea original de mi respuesta fue engañosa en esa cuenta, así que también la arreglé con disculpas.
whuber

1

Esta pregunta puede ser antigua, pero me gustaría proporcionar otra perspectiva. Se basa en una fórmula para un cambio de variable en una densidad de probabilidad conjunta. Se puede encontrar en Lecture Notes: Probability and Random Processes en KTH, 2017 Ed. (Koski, T., 2017, pp 67), que se refiere a una prueba detallada en Analysens Grunder, del 2 (Neymark, M., 1970, pp 148-168):


Deje que un vector aleatorio tenga el pdf conjunto . Defina un nuevo vector aleatorio porX=(X1,X2,...,Xm)fX(x1,x2,...,xm)Y=(Y1,Y2,...,Ym)

Yi=gi(X1,X2,...,Xm),i=1,2,...,m

donde es continuamente diferenciable y es invertible con el inversogi(g1,g2,...,gm)

Xi=hi(Y1,Y2,...,Ym),i=1,2,...,m

Entonces el pdf conjunto de (en el dominio de la invertibilidad) esY

fY(y1,y2,...,ym)=fX(h1(x1,x2,...,xm),h2(x1,x2,...,xm),...,hm(x1,x2,...,xm))|J|

donde es el determinante jacobianoJ

J=|x1y1x1y2...x1ymx2y1x2y2...x2ymxmy1xmy2...xmym|


Ahora, apliquemos esta fórmula para obtener el pdf conjunto de una suma de irvs :X1+X2

Defina el vector aleatorio con una junta desconocida pdf . A continuación, defina un vector aleatorio porX=(X1,X2)fX(x1,x2)Y=(Y1,Y2)

Y1=g1(X1,X2)=X1+X2Y2=g2(X1,X2)=X2.

El mapa inverso es entonces

X1=h1(Y1,Y2)=Y1Y2X2=h2(Y1,Y2)=Y2.

Por lo tanto, debido a esto y a nuestra suposición de que y son independientes, el pdf conjunto de esX1X2Y

fY(y1,y2)=fX(h1(y1,y2),h2(y1,y2))|J|=fX(y1y2,y2)|J|=fX1(y1y2)fX2(y2)|J|

donde el Jacobiano esJ

J=|x1y1x1y2x2y1x2y2|=|1101|=1

Para encontrar el pdf de , marginalizamosY1=X1+X2

fY1=fY(y1,y2)dy2=fX(h1(y1,y2),h2(y1,y2))|J|dy2=fX1(y1y2)fX2(y2)dy2

que es donde encontramos su convolución: D


0

Las expresiones generales para las sumas de n variables aleatorias continuas se encuentran aquí:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0216422

"Modelos de etapas múltiples para la falla de sistemas complejos, desastres en cascada y la aparición de enfermedades"

Para variables aleatorias positivas, la suma puede escribirse simplemente en términos de un producto de transformadas de Laplace y el inverso de su producto. El método está adaptado de un cálculo que apareció en el libro de texto "Probability Theory" de ET Jaynes.


Bienvenido a nuestro sitio. Puede encontrar el hilo en stats.stackexchange.com/questions/72479 , así como el documento Moschopolous al que hace referencia, para ser de interés.
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.