Límites en en términos de además de la desigualdad de Jensen?

Si es una función convexa, la desigualdad de Jensen establece que , y mutatis mutandis cuando es cóncava. Claramente, en el peor de los casos, no puede el límite superior en términos de para una convexa , pero ¿hay un límite que vaya en esta dirección si es convexo pero "no demasiado convexo"? ¿Existe algún límite estándar que proporcione condiciones en una función convexa (y posiblemente también la distribución, si es necesario) que le permita concluir que , donde $f$ $f(\textbf{E}[x]) \le \textbf{E}[f(x)]$ $f$ $\textbf{E}[f(x)]$ $f(\textbf{E}[x])$ $f$ $f$ $f$ $\textbf{E}[f(x)] \le \varphi(f)f(\textbf{E}[x])$ $\varphi(f)$ ¿alguna función de la curvatura / grado de convexidad de ? ¿Algo parecido a una condición de Lipschitz, tal vez? $f$

randomness pr.probability randomized-algorithms

— Ian
fuente

Votación para cerrar como fuera de tema. math.stackexchange.com tal vez?

— Aryabhata

Creo que esta pregunta debería permanecer abierta; Este es el tipo de desigualdad que muchos teóricos que trabajan encontrarían útil regularmente.

— Aaron Roth el

Sé que esto está más cerca de las matemáticas puras que la mayoría de las preguntas publicadas hasta ahora, pero diría que esto es sobre el tema, ya que este tipo de cosas aparece con frecuencia en el análisis de algoritmos aleatorios (que es la aplicación que tengo en mente). Creo que las matemáticas que se usan mucho en informática deberían considerarse un juego justo para las preguntas.

— Ian

vote para mantenerse abierto. definitivamente sobre el tema

— Suresh Venkat

También voto para mantenerme abierto.

— Jeff el

EDITAR: la versión original perdió un valor absoluto. ¡¡lo siento!!

Hola, Ian. Brevemente describiré dos desigualdades de muestra, una usando un límite de Lipschitz, la otra usando un límite en la segunda derivada, y luego discutiré algunas dificultades en este problema. Aunque estoy siendo redundante, dado que un enfoque que usa una derivada explica lo que sucede con más derivadas (a través de Taylor), resulta que la segunda versión de derivada es bastante buena.

Primero, con un límite de Lipschitz: simplemente reelabora la desigualdad estándar de Jensen. Se aplica el mismo truco: calcular la expansión de Taylor en el valor esperado.

Específicamente, Sea medida correspondiente , y establezca . Si tiene Lipschitz constante , entonces por el teorema de Taylor $X$ $\mu$ $m := \textrm E(x)$ $f$ $L$

f (x) = f (m) + f^{'} (z) (x - m) \leq f (m) + L | x - m |,

$f(x) = f(m) + f'(z)(x-m) \leq f(m) + L|x-m|,$

donde (nota que y son posibles). Usando esto y volviendo a trabajar la prueba de Jensen (estoy paranoico y verifiqué que el estándar está en Wikipedia), $z \in [m, x]$ $x\leq m$ $x> m$

\begin{aligned} E (f (X)) & = \int f (x) d μ (x) \leq f (m) \int d μ (x) + L \int | x - m | d μ (x) \\ = f (E (X)) + L E (| X - E (X) |) . \end{aligned}

$\begin{align} \operatorname{E}(f(X)) & = \int f(x) \, d\mu(x) \leq f(m) \int d\mu(x) + L\int |x-m| \, d\mu(x) \\[6pt] & = f(\operatorname{E}(X)) + L \operatorname{E} (|X-\operatorname{E}(X)|). \end{align}$

Ahora, supongamos . En este caso, $|f''(x)| \leq \lambda$

\begin{aligned} f (x) & = f (m) + f^{'} (m) (x - m) + f^{″} (z) \frac{(x - m)^{2}}{2} \\ \leq f (m) + f^{'} (m) (x - m) + λ \frac{(x - m)^{2}}{2}, \end{aligned}

$\begin{align} f(x) & = f(m) + f'(m)(x-m) + f''(z) \frac{(x-m)^2} 2 \\[6pt] & \leq f(m) + f'(m)(x-m) + \lambda \frac{(x-m)^2} 2, \end{align}$

y entonces

\begin{aligned} E (f (X)) & \leq f (m) + f^{'} (m) (E (X) - m) + \frac{λ E ((X - m)^{2})}{2} \\ = f (E (X)) + \frac{λ Var (X)}{2} . \end{aligned}

$\begin{align} \operatorname{E}(f(X)) & \leq f(m) + f'(m)(\operatorname{E}(X) - m) + \frac {\lambda \operatorname{E}((X-m)^2)}{2} \\[6pt] & = f(\operatorname{E}(X)) + \frac {\lambda \operatorname{Var}(X)}2. \end{align}$

Me gustaría mencionar brevemente algunas cosas. Lo siento si son obvios.

Una es que no puedes decir simplemente "wlog " cambiando la distribución, porque estás cambiando la relación entre y . $\operatorname{E}(X) = 0$ $f$ $\mu$

El siguiente es que el límite debe depender de la distribución de alguna manera. Para ver esto, imaginar que y . Cualquiera sea el valor de , aún obtienes . Por otro lado, $X \sim \textrm{Gaussian}(0, \sigma^2)$ $f(x) = x^2$ $\sigma$ $f(\operatorname{E}(X)) = f(0) = 0$ . Por lo tanto, al cambiar , puede hacer que la brecha entre las dos cantidades sea arbitraria. Intuitivamente, se aleja más masa de la media y, por lo tanto, para cualquier función estrictamente convexa, aumentará. $\operatorname{E}(f(X)) = \operatorname{E}(X^2) = \sigma^2$ $\sigma$ $\operatorname{E} (f(X))$

Por último, no veo cómo obtener un límite multiplicativo como sugieres. Todo lo que he usado en esta publicación es estándar: el teorema de Taylor y los límites derivados son pan y mantequilla en los límites estadísticos, y automáticamente dan errores aditivos, no multiplicativos.

Sin embargo, lo pensaré y publicaré algo. La vaga intuición es que necesitará condiciones muy difíciles tanto en la función como en la distribución, y que el límite aditivo está realmente en el centro de la misma.

— matus
fuente

Cada vez que edito, la respuesta se topa. Así que señalaré: el segundo límite derivado es ajustado para el ejemplo que di.

— matus

Creo que tienes razón en que los límites aditivos son los mejores posibles sin condiciones mucho más fuertes en la función.

— Ian

Estimado Ian, pensé en este problema un poco más, pero la principal dificultad en mi mente se insinúa en el ejemplo que di, donde

, pero

. Puede restringir tanto la familia de funciones (derivadas, derivadas limitadas, integrables) como la distribución (momentos suaves, acotados, limitados), y aún tiene estos ejemplos. Es suficiente tener una función simétrica, no negativa, igual a cero en la media de la distribución. Dicho esto, todo depende de las restricciones en su problema exacto. En el caso general, creo que la naturaleza aditiva es fundamental.

f (E (X)) = 0

$f(\textrm E(X))= 0$

E (f (X)) > 0

$\textrm E (f(X)) > 0$

— matus

@ Ian: Las pruebas de las desigualdades de Chernoff y Azuma-Hoeffding utilizan argumentos que recuerdan esto, por lo que es posible que desee leerlos para inspirarse. Véase, por ejemplo, el libro de Mitzenmacher y Upfal sobre aleatorización en informática.

— Warren Schudy

Para una idea, considere una distribución concentrada en dos valores; digamos, con probabilidades iguales de 1/2 que es igual a 1 o 3, de donde . Tomar y . Considere las funciones para las cuales y . Haciendo $\textbf{E}[x] = 2$ $N >> 0$ $\epsilon > 0$ $f$ $f(1) = f(3)= N\epsilon$ $f(\textbf{E}[x]) = f(2) = \epsilon$ suficientemente pequeño y conectando continuamente entre estos tres puntos, podemos hacer que la curvatura de tan pequeña como se desee. Luego $\epsilon$ $f$ $f$

, aún $\textbf{E}[f(x)] = N\epsilon$

. $N = N\epsilon / \epsilon = \textbf{E}[f(x)] / f(\textbf{E}[x]) \le \varphi(f)$

Esto muestra que debe ser arbitrariamente grande. $\varphi(f)$

— whuber
fuente