¿Cómo se define matemáticamente la causalidad?

¿Cuál es la definición matemática de una relación causal entre dos variables aleatorias?

Dada una muestra de la distribución conjunta de dos variables aleatorias $X$ e $Y$ , ¿cuándo diríamos que $X$ causa $Y$ ?

Por contexto, estoy leyendo este artículo sobre descubrimiento causal .

machine-learning causality

— Jane
fuente

Hasta donde puedo ver, la causalidad es un concepto científico, no matemático. ¿Se puede editar para aclarar?

— mdewey

@mdewey No estoy de acuerdo. La causalidad se puede cobrar en términos completamente formales. Ver, por ejemplo, mi respuesta.

— Kodiólogo

Respuestas:

¿Cuál es la definición matemática de una relación causal entre dos variables aleatorias?

Matemáticamente, un modelo causal consiste en relaciones funcionales entre variables. Por ejemplo, considere el siguiente sistema de ecuaciones estructurales:

x = f_{x} (ϵ_{x}) y = f_{y} (x, ϵ_{y})

$x = f_x(\epsilon_{x})\\ y = f_y(x, \epsilon_{y})$

Esto significa que $x$ funcionalmente determina el valor de $y$ (si interviene en $x$ esto cambia los valores de $y$ ) pero no al revés. Gráficamente, esto generalmente se representa por $x \rightarrow y$ , lo que significa que $x$ entra en la ecuación estructural de y. Como anexo, también puede expresar un modelo causal en términos de distribuciones conjuntas de variables contrafácticas, que es matemáticamente equivalente a los modelos funcionales .

Dada una muestra de la distribución conjunta de dos variables aleatorias X e Y, ¿cuándo diríamos que X causa Y?

A veces (o la mayoría de las veces) no tienes conocimiento sobre la forma de las ecuaciones estructurales $f_{x}$ , $f_y$ , ni siquiera si $x\rightarrow y$ o $y \rightarrow x$ . La única información que tiene es la distribución de probabilidad conjunta $p(y,x)$ (o muestras de esta distribución).

Esto lleva a su pregunta: ¿cuándo puedo recuperar la dirección de causalidad solo de los datos? O, más precisamente, ¿cuándo puedo recuperar si $x$ ingresa en la ecuación estructural de $y$ o viceversa, solo a partir de los datos?

Por supuesto, sin ninguna suposición fundamentalmente comprobable sobre el modelo causal, esto es imposible . El problema es que varios modelos causales diferentes pueden implicar la misma distribución de probabilidad conjunta de las variables observadas. El ejemplo más común es un sistema lineal causal con ruido gaussiano.

Pero bajo algunos supuestos causales, esto podría ser posible --- y esto es en lo que trabaja la literatura de descubrimiento causal. Si no tiene una exposición previa a este tema, puede comenzar con Elementos de inferencia causal de Peters, Janzing y Scholkopf, así como el capítulo 2 de Causalidad de Judea Pearl. Tenemos un tema aquí en CV para referencias sobre descubrimiento causal , pero aún no tenemos tantas referencias enumeradas allí.

Por lo tanto, no hay una sola respuesta a su pregunta, ya que depende de los supuestos que uno haga. El artículo que menciona cita algunos ejemplos, como asumir un modelo lineal con ruido no gaussiano . Este caso se conoce como LINGAN (abreviatura de modelo acíclico lineal no gaussiano), aquí hay un ejemplo en R:

library(pcalg)
set.seed(1234)
n <- 500
eps1 <- sign(rnorm(n)) * sqrt(abs(rnorm(n)))
eps2 <- runif(n) - 0.5
x2 <- 3 + eps2
x1 <- 0.9*x2 + 7 + eps1

# runs lingam
X <- cbind(x1, x2)
res <- lingam(X)
as(res, "amat") 

# Adjacency Matrix 'amat' (2 x 2) of type ‘pag’:
#     [,1]  [,2]
# [1,] .     .   
# [2,]  TRUE .

Observe aquí que tenemos un modelo causal lineal con ruido no gaussiano donde $x_2$ causa $x_1$ y lingam recupera correctamente la dirección causal. Sin embargo, tenga en cuenta que esto depende de manera crítica de los supuestos de LINGAM.

Para el caso del artículo que cita, hacen esta suposición específica (vea su "postulado"):

Si $x\rightarrow y$ , la longitud mínima de descripción del mecanismo que asigna X a Y es independiente del valor de X, mientras que la longitud mínima de descripción del mecanismo que asigna Y a X depende del valor de Y.

Tenga en cuenta que esto es una suposición. Esto es lo que llamaríamos su "condición de identificación". Esencialmente, el postulado impone restricciones a la distribución conjunta $p(x,y)$ . Es decir, el postulado dice que si $x \rightarrow y$ ciertas restricciones se mantienen en los datos, y si $y \rightarrow x$ otras restricciones se mantienen. Este tipo de restricciones que tienen implicaciones comprobables (imponer restricciones en $p(y,x)$ ) es lo que le permite a uno recuperarse direccionalmente de los datos de observación.

Como observación final, los resultados del descubrimiento causal aún son muy limitados y dependen de suposiciones fuertes, tenga cuidado al aplicarlos en el contexto del mundo real.

— Carlos Cinelli
fuente

¿Existe la posibilidad de que aumente su respuesta para incluir algunos ejemplos simples con datos falsos, por favor? Por ejemplo, después de leer un poco de Elementos de inferencia causal y ver algunas de las conferencias de Peters, y un marco de regresión se usa comúnmente para motivar la necesidad de comprender el problema en detalle (ni siquiera estoy tocando su trabajo de ICP). Tengo la impresión (tal vez equivocada) de que en su esfuerzo por alejarse del RCM, sus respuestas omiten toda la maquinaria de modelado tangible real.

— usεr11852 dice Reinstate Monic

@ usεr11852 No estoy seguro de entender el contexto de sus preguntas, ¿quiere ejemplos de descubrimiento causal? Hay varios ejemplos en el mismo documento que Jane ha proporcionado. Además, no estoy seguro de entender lo que quieres decir con "evitar RCM y dejar de lado la maquinaria de modelado tangible", ¿qué maquinaria tangible nos estamos perdiendo en el contexto de descubrimiento causal aquí?

— Carlos Cinelli

Disculpas por la confusión, no me importan los ejemplos de los documentos. Puedo citar otros papeles yo mismo. (Por ejemplo, López-Paz et al. CVPR 2017 sobre su coeficiente de causalidad neural) Lo que me importa es un ejemplo numérico simple con datos falsos que alguien ejecuta en R (o su idioma favorito) y ver qué quiere decir. Si cita, por ejemplo, Peters 'et al. libro y tienen pequeños fragmentos de código que son de gran ayuda (y ocasionalmente usan solo lm). ¡No podemos evitar las muestras de observación de los conjuntos de datos de Tuebingen para tener una idea del descubrimiento causal! :)

— usεr11852 dice Reinstate Monic

@ usεr11852 seguro, incluso un ejemplo falso es trivial, puedo incluir uno usando lingam en R. Pero, ¿le importaría explicar lo que quiso decir con "evitar RCM y omitir la maquinaria de modelado tangible"?

— Carlos Cinelli

@ usεr11852 ok gracias por los comentarios, intentaré incluir más código cuando sea apropiado. Como observación final, los resultados del descubrimiento causal aún son muy limitados, por lo que las personas deben tener mucho cuidado al aplicarlos según el contexto.

— Carlos Cinelli

Hay una variedad de enfoques para formalizar la causalidad (que está en consonancia con el desacuerdo filosófico sustancial sobre la causalidad que ha existido durante siglos). Una popular es en términos de resultados potenciales. El enfoque de resultados potenciales, llamado modelo causal de Rubin , supone que para cada situación causal, hay una variable aleatoria diferente. Entonces, $Y_1$ podría ser la variable aleatoria de posibles resultados de un ensayo clínico si un sujeto toma el fármaco del estudio, e $Y_2$ podría ser la variable aleatoria si toma el placebo. El efecto causal es la diferencia entre $Y_1$ e $Y_2$ . Si de hecho $Y_1 = Y_2$ , podríamos decir que el tratamiento no tiene ningún efecto. De lo contrario, podríamos decir que la condición del tratamiento causa el resultado.

Las relaciones causales entre variables también se pueden representar con gráficos acílicos direccionales , que tienen un sabor muy diferente pero que resultan matemáticamente equivalentes al modelo de Rubin (Wasserman, 2004, sección 17.8).

Wasserman, L. (2004). Todas las estadísticas: un curso conciso en inferencia estadística . Nueva York, NY: Springer. ISBN 978-0-387-40272-7.

— Kodiólogo
fuente

gracias. ¿Cuál sería una prueba para ello dado un conjunto de muestras de distribución conjunta?

— Jane

Estoy leyendo arxiv.org/abs/1804.04622 . No he leído sus referencias. Estoy tratando de entender qué se entiende por causalidad basada en datos de observación.

— Jane

Lo siento (-1), esto no es lo que se pide, no se observan

, se observa una muestra de variables objetivas

. Vea el documento que Jane ha vinculado.

Y_{1}

$Y_1$

Y_{2}

$Y_2$

X

$X$

Y

$Y$

— Carlos Cinelli

@Vimal: entiendo el caso donde tenemos "distribuciones intervencionistas". No tenemos "distribuciones intervencionistas" en este contexto y eso es lo que hace que sea más difícil de entender. En el ejemplo motivador del artículo, dan algo como

. La distribución condicional de y dada x es esencialmente la distribución del ruido

más alguna traducción, mientras que eso no se cumple para la distribución condicional de x dada y. Iniciativamente entiendo el ejemplo. Estoy tratando de entender cuál es la definición general para el descubrimiento observacional de la causalidad.

(x, y = x^{3} + ϵ)

$(x, y=x^3+\epsilon)$

ϵ

$\epsilon$

— Jane

@ Jane para el caso observacional (para su pregunta), en general no puede inferir la dirección de causalidad puramente matemática, al menos para el caso de dos variables. Para más variables, bajo supuestos adicionales (no comprobables) que podría hacer una reclamación, pero la conclusión todavía puede ser cuestionado. Esta discusión es muy larga en los comentarios. :)

— Vimal

$X$ $Y$

$X$ tal que el valor de $Y$ está cambiado

An intervention is a surgical change to a variable that does not affect variables it depends on. Interventions have been formalized rigorously in structural equations and causal graphical models, but as far as I know, there is no definition which is independent of a particular model class.

The simulation of $Y$ requires the simulation of $X$

To make this rigorous requires formalizing a model over $X$ and $Y$ , and in particular the semantics which define how it is simulated.

In modern approaches to causation, intervention is taken as the primitive object which defines causal relationships (definition 1). In my opinion, however, intervention is a reflection of, and necessarily consistent with simulation dynamics.

— zenna
fuente