(Movido de comentarios a una respuesta solicitada por @Greenparker)
Parte 1)
El término log p proviene de la concentración de medida (gaussiana). En particular, si tienepIID Gaussian variables aleatorias [F1], su máximo está en el orden deσ √logp−−−−√p con alta probabilidad.σlogp−−−−√
El factor simplemente viene del hecho de que está mirando el error de predicción promedio, es decir, coincide con el n - 1 en el otro lado, si observa el error total, no estaría allí.n−1n−1
Parte 2)
Esencialmente, tienes dos fuerzas que necesitas controlar:
- i) las buenas propiedades de tener más datos (por lo que queremos que sea grande);n
- ii) las dificultades tienen más características (irrelevantes) (por lo que queremos que sea pequeño).p
En la estadística clásica, por lo general arreglar y dejamos que n ir hasta el infinito: este régimen no es muy útil para la teoría de alta dimensión, ya que es (asintótica) en el régimen de bajas dimensiones de la construcción .pn
Alternativamente, podríamos dejar que vaya al infinito yn permanezca fijo, pero luego nuestro error simplemente explota a medida que el problema se vuelve esencialmente imposible. Dependiendo del problema, el error puede llegar al infinito o detenerse en algún límite superior natural ( por ejemplo , error de clasificación errónea del 100%).pn
Dado que ambos casos son un poco inútiles, consideramos que van al infinito, por lo que nuestra teoría es relevante (se mantiene en alta dimensión) sin ser apocalíptica (características infinitas, datos finitos).n,p
Tener dos "botones" es generalmente más difícil de lo que tiene un solo mando, por lo que fijamos para algunos fija f y dejamos que n vamos a infinito (y por lo tanto p tiende a infinito indirectamente). [F2] La elección de f determina el comportamiento del problema. Por razones en mi respuesta a la parte 1, resulta que la "maldad" de las características adicionales solo crece como log p, mientras que la "bondad" de los datos adicionales crece como n .p=f(n)fnpflogpn
- Si permanece constante (equivalentemente,p=f(n)=Θ(Cn)para algo deC), pisamos agua y el problema es un lavado (el error permanece fijo asintóticamente);logpnp=f(n)=Θ(Cn)C
- si (p=o(Cn)) logramos asintóticamente cero error;logpn→0p=o(Cn)
- y si (p=ω(Cn)), el error finalmente llega al infinito.logpn→∞p=ω(Cn)
Este último régimen a veces se llama "ultradimensional" en la literatura. El término "ultradimensional" no tiene una definición rigurosa hasta donde yo sé, pero es informalmente solo "el régimen que rompe el lazo y estimadores similares".
Podemos demostrar esto con un pequeño estudio de simulación en condiciones bastante idealizadas. Aquí tomamos orientación teórica sobre la elección óptima de de [BRT09] y seleccionamos λ = 3 √λ .λ=3log(p)/n−−−−−−−√
p=f(n)=3n
Código para reproducir:
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
logpn
P <- 10 + ceiling(exp(N/120))
Aquí vemos que el error de predicción (usando el mismo diseño que el anterior) se nivela en lugar de continuar a cero.
Penen2en2
P <- 10 + ceiling(exp(N^(1.03)/120))
(Usé un poco aleatorio Xpara la velocidad, así que no intentes comparar los números con los otros gráficos directamente) Es difícil ver algún repunte en este gráfico, tal vez porque evitamos que el crecimiento de UHD sea demasiado "ultra" en nombre del tiempo computacional. Usando un exponente más grande (comominorte1.5) haría el crecimiento asintótico un poco más claro.
A pesar de lo que dije anteriormente y de cómo puede parecer, el régimen de dimensiones ultraaltas en realidad no es completamente inútil (aunque está cerca), pero requiere técnicas mucho más sofisticadas que un simple máximo de variables aleatorias gaussianas para controlar el error. La necesidad de utilizar estas técnicas complejas es la fuente principal de la complejidad que observa.
No hay una razón particular para pensar que p , ndebería crecer "juntos" de cualquier manera ( es decir , no hay una razón obvia "del mundo real" para arreglarp = f( n )), pero las matemáticas generalmente carecen de lenguaje y herramientas para discutir los límites con dos "grados de libertad", por lo que es lo mejor que podemos hacer (¡por ahora!).
Parte 3)
Me temo que no conozco ningún libro en la literatura estadística que realmente se centre en el crecimiento de Iniciar sesiónpag vs norteexplícitamente. (Puede haber algo en la literatura de detección de compresión)
Mi referencia favorita actual para este tipo de teoría son los Capítulos 10 y 11 de Aprendizaje estadístico con dispersión [F3], pero generalmente toma el enfoque de considerarn , pfijo y dando propiedades de muestra finita (no asintótica) para obtener un "buen" resultado. Este es realmente un enfoque más poderoso, una vez que tiene el resultado para cualquiern , p, es fácil considerar los asintóticos, pero estos resultados son generalmente más difíciles de obtener, por lo que hasta ahora solo los tengo para estimadores de tipo lazo.
Si se siente cómodo y dispuesto a profundizar en la literatura de investigación, miraría los trabajos de Jianqing Fan y Jinchi Lv, que han realizado la mayor parte del trabajo fundamental sobre problemas de dimensiones ultraaltas. ("Detección" es un buen término para buscar)
[F1] En realidad, cualquier variable aleatoria subgaussiana , pero esto no agrega mucho a esta discusión.
[F2] También podríamos establecer la escasez "verdadera" s depender de norte (s = g( n )) pero eso no cambia demasiado las cosas.
[F3] T. Hastie, R. Tibshirani y M. Wainwright. Aprendizaje estadístico con escasez. Monografías sobre estadísticas y probabilidad aplicada 143. CRC Press, 2015. Disponible para descarga gratuita en https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf
[BRT] Peter J. Bickel, Ya'acov Ritov y Alexandre B. Tsybakov. "Análisis simultáneo de Lasso y Dantzig Selector". Anales de Estadísticas 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620