¿Cuál es la definición matemática de una relación causal entre dos variables aleatorias?
Matemáticamente, un modelo causal consiste en relaciones funcionales entre variables. Por ejemplo, considere el siguiente sistema de ecuaciones estructurales:
x=fx(ϵx)y=fy(x,ϵy)
Esto significa que x funcionalmente determina el valor de y (si interviene en x esto cambia los valores de y ) pero no al revés. Gráficamente, esto generalmente se representa por x→y , lo que significa que x entra en la ecuación estructural de y. Como anexo, también puede expresar un modelo causal en términos de distribuciones conjuntas de variables contrafácticas, que es matemáticamente equivalente a los modelos funcionales .
Dada una muestra de la distribución conjunta de dos variables aleatorias X e Y, ¿cuándo diríamos que X causa Y?
A veces (o la mayoría de las veces) no tienes conocimiento sobre la forma de las ecuaciones estructurales fx , fy , ni siquiera si x→y o y→x . La única información que tiene es la distribución de probabilidad conjunta p(y,x) (o muestras de esta distribución).
Esto lleva a su pregunta: ¿cuándo puedo recuperar la dirección de causalidad solo de los datos? O, más precisamente, ¿cuándo puedo recuperar si x ingresa en la ecuación estructural de y o viceversa, solo a partir de los datos?
Por supuesto, sin ninguna suposición fundamentalmente comprobable sobre el modelo causal, esto es imposible . El problema es que varios modelos causales diferentes pueden implicar la misma distribución de probabilidad conjunta de las variables observadas. El ejemplo más común es un sistema lineal causal con ruido gaussiano.
Pero bajo algunos supuestos causales, esto podría ser posible --- y esto es en lo que trabaja la literatura de descubrimiento causal. Si no tiene una exposición previa a este tema, puede comenzar con Elementos de inferencia causal de Peters, Janzing y Scholkopf, así como el capítulo 2 de Causalidad de Judea Pearl. Tenemos un tema aquí en CV para referencias sobre descubrimiento causal , pero aún no tenemos tantas referencias enumeradas allí.
Por lo tanto, no hay una sola respuesta a su pregunta, ya que depende de los supuestos que uno haga. El artículo que menciona cita algunos ejemplos, como asumir un modelo lineal con ruido no gaussiano . Este caso se conoce como LINGAN (abreviatura de modelo acíclico lineal no gaussiano), aquí hay un ejemplo en R
:
library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1
# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat")
# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
# [,1] [,2]
# [1,] . .
# [2,] TRUE .
Observe aquí que tenemos un modelo causal lineal con ruido no gaussiano donde x2 causa x1 y lingam recupera correctamente la dirección causal. Sin embargo, tenga en cuenta que esto depende de manera crítica de los supuestos de LINGAM.
Para el caso del artículo que cita, hacen esta suposición específica (vea su "postulado"):
Si x→y , la longitud mínima de descripción del mecanismo que asigna X a Y es independiente del valor de X, mientras que la longitud mínima de descripción del mecanismo que asigna Y a X depende del valor de Y.
Tenga en cuenta que esto es una suposición. Esto es lo que llamaríamos su "condición de identificación". Esencialmente, el postulado impone restricciones a la distribución conjunta p(x,y) . Es decir, el postulado dice que si x→y ciertas restricciones se mantienen en los datos, y si y→x otras restricciones se mantienen. Este tipo de restricciones que tienen implicaciones comprobables (imponer restricciones en p(y,x) ) es lo que le permite a uno recuperarse direccionalmente de los datos de observación.
Como observación final, los resultados del descubrimiento causal aún son muy limitados y dependen de suposiciones fuertes, tenga cuidado al aplicarlos en el contexto del mundo real.