En cuanto a su primera pregunta, uno debe definir "estándar" o reconocer que se ha establecido gradualmente un "modelo canónico". Como lo indica un comentario, parece que al menos la forma en que usa IRWLS es bastante estándar.
En cuanto a su segunda pregunta, el "mapeo de contracción en probabilidad" podría estar vinculado (aunque sea de manera informal) a la convergencia de "algoritmos estocásticos recursivos". Por lo que leí, hay una gran literatura sobre el tema, principalmente en ingeniería. En economía, utilizamos un poco, especialmente los trabajos seminales de Lennart Ljung, el primer artículo fue Ljung (1977) , que mostró que la convergencia (o no) de un algoritmo estocástico recursivo puede determinarse por la estabilidad (o no) de una ecuación diferencial ordinaria relacionada.
(lo que sigue ha sido reelaborado después de una fructífera discusión con el OP en los comentarios)
Convergencia
Usaré como referencia Sabre Elaydi "Introducción a las ecuaciones de diferencia", 2005, 3d ed.
El análisis está condicionado a alguna muestra de datos dada, por lo que las se tratan como fijas. x′s
La condición de primer orden para la minimización de la función objetivo, vista como una función recursiva en ,
m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i ,m
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
tiene un punto fijo (el argmin de la función objetivo). Según el teorema 1.13 pp 27-28 de Elaydi, si la primera derivada con respecto a de la RHS de [ 1 ] , evaluada en el punto fijo m ∗ , se denota como A ′ ( m ∗ ) , es menor que la unidad en valor absoluto , entonces m ∗ es asintóticamente estable (AS). Más sobre el Teorema 4.3 p.179 tenemos que esto también implica que el punto fijo es uniformemente AS (UAS).
"Asintóticamente estable" significa que para algún rango de valores alrededor del punto fijo, una vecindad ( m ∗m[1]m∗A′(m∗)m∗
, no necesariamente de tamaño pequeño, el punto fijo esatractivo(m∗±γ) , por lo que si el algoritmo proporciona valores en este entorno, convergerá. La propiedad "uniforme" significa que el límite de este vecindario y, por lo tanto, su tamaño, es independiente del valor inicial del algoritmo. El punto fijo se convierte globalmente en UAS, si .
Entonces, en nuestro caso, si demostramos queγ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
Hemos probado la propiedad UAS, pero sin convergencia global. Luego, podemos intentar establecer que el vecindario de atracción es, de hecho, los números reales extendidos completos, o que el valor inicial específico que utiliza el OP como se menciona en los comentarios (y es estándar en la metodología IRLS), es decir, la media muestral de las , ˉ x , siempre pertenece al vecindario de atracción del punto fijo.xx¯
Calculamos la derivada
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
and
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
we have
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Inserting this into [3] we have
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
If ρ(|xi−m|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
and
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Since we do not know how many of the |xi−m∗|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.
What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m∗.