Definición y convergencia de mínimos cuadrados re ponderados iterativamente


16

He estado usando mínimos cuadrados iterativamente ponderados (IRLS) para minimizar las funciones de la siguiente forma,

J(m)=i=1Nρ(|xim|)

donde N es el número de instancias de xiR , mR es la estimación sólida que quiero, y ρ es una función de penalización robusta adecuada. Digamos que es convexo (aunque no necesariamente estrictamente) y diferenciable por ahora. Un buen ejemplo de tal ρ es la función de pérdida de Huber .

Lo que he estado haciendo es diferenciar J(m) con respecto a m (y manipular) para obtener,

dJdm=i=1Nρ(|xim|)|xim|(xim)

y resolviendo esto iterativamente poniéndolo igual a 0 y fijando pesos en la iteración k a wi(k)=ρ(|xim(k)|)|xim(k)|(tenga en cuenta que la singularidad percibida enxi=m(k)es realmente una singularidad removible en todos losρme interesan). Entonces obtengo,

i=1Nwi(k)(xim(k+1))=0

y resuelvo obtener, m(k+1)=i=1Nwi(k)xii=1Nwi(k) .

Repito este algoritmo de punto fijo hasta la "convergencia". Notaré que si llegas a un punto fijo, eres óptimo, ya que tu derivada es 0 y es una función convexa.

Tengo dos preguntas sobre este procedimiento:

  1. ¿Es este el algoritmo IRLS estándar? Después de leer varios documentos sobre el tema (y estaban muy dispersos y vagos sobre lo que es IRLS), esta es la definición más coherente del algoritmo que puedo encontrar. Puedo publicar los documentos si la gente quiere, pero en realidad no quería sesgar a nadie aquí. Por supuesto, puede generalizar esta técnica básica a muchos otros tipos de problemas que involucran vectores xi 'sy argumentos distintos de |xim(k)|, siempre que el argumento sea una norma de una función afín de sus parámetros. Cualquier ayuda o idea sería genial en esto.
  2. La convergencia parece funcionar en la práctica, pero tengo algunas preocupaciones al respecto. Todavía tengo que ver una prueba de ello. Después de algunas simulaciones simples de Matlab, veo que una iteración de esto no es un mapeo de contracción (generé dos instancias aleatorias de m calculando |m1(k+1)m2(k+1)||m1(k)m2(k)|y vi que esto es ocasionalmente mayor que 1). Además, el mapeo definido por varias iteraciones consecutivas no es estrictamente un mapeo de contracción, pero la probabilidad de que la constante de Lipschitz esté por encima de 1 es muy baja. Entonces, ¿existe la noción de unmapeo de contracción en la probabilidad? ¿Cuál es la maquinaria que usaría para demostrar que esto converge? ¿Incluso converge?

Cualquier orientación es útil.

Editar: Me gusta el artículo sobre IRLS para recuperación dispersa / detección de compresión por Daubechies et al. 2008 "Minimización de mínimos cuadrados ponderada iterativamente para una recuperación dispersa" en el arXiv. Pero parece centrarse principalmente en los pesos para problemas no convexos. Mi caso es considerablemente más simple.


Mirando la página wiki en IRWLS , lucho por la diferencia entre el procedimiento que describe y el IRWLS (solo usan como sufunción ρ particular). ¿Puede explicar de qué manera cree que el algoritmo que propone esdiferentede IRWLS? |yixxiββ|2ρ
user603

Nunca dije que fuera diferente, y si lo implicaba, no era mi intención.
Chris A.

Respuestas:


10

En cuanto a su primera pregunta, uno debe definir "estándar" o reconocer que se ha establecido gradualmente un "modelo canónico". Como lo indica un comentario, parece que al menos la forma en que usa IRWLS es bastante estándar.

En cuanto a su segunda pregunta, el "mapeo de contracción en probabilidad" podría estar vinculado (aunque sea de manera informal) a la convergencia de "algoritmos estocásticos recursivos". Por lo que leí, hay una gran literatura sobre el tema, principalmente en ingeniería. En economía, utilizamos un poco, especialmente los trabajos seminales de Lennart Ljung, el primer artículo fue Ljung (1977) , que mostró que la convergencia (o no) de un algoritmo estocástico recursivo puede determinarse por la estabilidad (o no) de una ecuación diferencial ordinaria relacionada.

(lo que sigue ha sido reelaborado después de una fructífera discusión con el OP en los comentarios)

Convergencia

Usaré como referencia Sabre Elaydi "Introducción a las ecuaciones de diferencia", 2005, 3d ed. El análisis está condicionado a alguna muestra de datos dada, por lo que las se tratan como fijas. xs

La condición de primer orden para la minimización de la función objetivo, vista como una función recursiva en , m ( k + 1 ) = N i = 1 v i [ m ( k ) ] x i ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

tiene un punto fijo (el argmin de la función objetivo). Según el teorema 1.13 pp 27-28 de Elaydi, si la primera derivada con respecto a de la RHS de [ 1 ] , evaluada en el punto fijo m , se denota como A ( m ) , es menor que la unidad en valor absoluto , entonces m es asintóticamente estable (AS). Más sobre el Teorema 4.3 p.179 tenemos que esto también implica que el punto fijo es uniformemente AS (UAS). "Asintóticamente estable" significa que para algún rango de valores alrededor del punto fijo, una vecindad ( m m[1]mA(m)m
, no necesariamente de tamaño pequeño, el punto fijo esatractivo(m±γ) , por lo que si el algoritmo proporciona valores en este entorno, convergerá. La propiedad "uniforme" significa que el límite de este vecindario y, por lo tanto, su tamaño, es independiente del valor inicial del algoritmo. El punto fijo se convierte globalmente en UAS, si . Entonces, en nuestro caso, si demostramos queγ=

|A(m)||i=1Nvi(m)mxi|<1[2]

Hemos probado la propiedad UAS, pero sin convergencia global. Luego, podemos intentar establecer que el vecindario de atracción es, de hecho, los números reales extendidos completos, o que el valor inicial específico que utiliza el OP como se menciona en los comentarios (y es estándar en la metodología IRLS), es decir, la media muestral de las , ˉ x , siempre pertenece al vecindario de atracción del punto fijo.xx¯

Calculamos la derivada

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

and

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

we have

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Inserting this into [3] we have

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

If ρ(|xim|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

and

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Since we do not know how many of the |xim|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.

What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m.


Thanks for the response. Give me some time to analyze this answer.
Chris A.

Certainly. After all, the question waited 20 months.
Alecos Papadopoulos

Yeah, I was reminded of the problem and decided to put up a bounty. :)
Chris A.

Lucky me. I wasn't there 20 months ago - I would have taken up this question, bounty or not.
Alecos Papadopoulos

Thanks so much for this response. It's looking like, so far, that you've earned the bounty. BTW, your indexing on the derivative of vi w.r.t m is notationally weird. Couldn't the summations on the second line of this use another variable, such as j?
Chris A.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.