La regresión de mínimos cuadrados ponderados (WLS) no es un modelo transformado. En lugar de ello, se está tratando simplemente cada observación como más o menos información acerca de la relación subyacente entre e . Los puntos que son más informativos reciben más "peso", y los que son menos informativos reciben menos peso. Tiene razón en que la regresión de mínimos cuadrados ponderados (WLS) es técnicamente válida solo si los pesos se conocen a priori. XY
Sin embargo, la regresión lineal (MCO) es bastante robusta frente a la heterocedasticidad y, por lo tanto, también lo es WLS si sus estimaciones están en el estadio. Una regla general para la regresión OLS es que no se ve muy afectada por la heterocedasticidad siempre que la varianza máxima no sea mayor que 4 veces la varianza mínima. Por ejemplo, si la varianza de los residuos / errores aumenta con , entonces estaría bien si la varianza de los residuales en el extremo superior fuera menos de cuatro veces la varianza de los residuales en el extremo inferior. La implicación de esto es que si sus pesos lo llevan dentro de ese rango, está razonablemente seguro. Es una especie de herraduras y granadas de manoXsituación. Como resultado, puede intentar estimar la función que relaciona la varianza de los residuos con los niveles de sus variables predictoras.
Existen varios problemas relacionados con la forma en que se debe realizar dicha estimación:
Recuerde que los pesos deben ser el recíproco de la varianza (o lo que sea que use).
Si sus datos aparecen solo en niveles discretos de , como en un experimento o un ANOVA, puede estimar la varianza directamente en cada nivel de y usarla. Si las estimaciones son niveles discretos de una variable continua (p. Ej., 0 mg., 10 mg., 20 mg., Etc.), es posible que desee suavizarlos, pero probablemente no habrá mucha diferencia. XX
Sin embargo, las estimaciones de las variaciones, debido a la cuadratura, son muy susceptibles a valores atípicos y / o altos puntos de apalancamiento. Si sus datos no están distribuidos uniformemente en , o si tiene relativamente pocos datos, no se recomienda estimar la varianza directamente. Es mejor estimar algo que se espera se correlacione con la varianza, pero que sea más robusto. Una opción común sería usar la raíz cuadrada de los valores absolutos de las desviaciones de la media condicional. (Por ejemplo, en R, se mostrará un diagrama de dispersión de estos contra , llamado "diagrama de nivel de dispersión", para ayudarlo a diagnosticar la posible heterocedasticidad; vea mi respuesta aquí .) Incluso más robusto podría ser usar el rango intercuartil condicional, o el condicionalXplot(model, which=2)
Xmediana desviación absoluta de la mediana .
Si es una variable continua, la estrategia típica es utilizar una regresión OLS simples para obtener los residuos, y uno a continuación regresión de las funciones en [ 3 ] (lo más probable la desviación absoluta de la raíz) en . El valor predicho de esta función se usa para el peso asociado con ese punto. XX
Obtener sus pesos de los residuos de una regresión de OLS es razonable porque OLS es imparcial, incluso en presencia de heterocedasticidad. No obstante, esos pesos dependen del modelo original y pueden cambiar el ajuste del modelo WLS posterior. Por lo tanto, debe verificar sus resultados comparando las versiones beta estimadas de las dos regresiones. Si son muy similares, estás bien. Si los coeficientes de WLS difieren de los de OLS, debe usar las estimaciones de WLS para calcular los residuos manualmente (los residuos informados del ajuste de WLS tomarán en cuenta los pesos). Habiendo calculado un nuevo conjunto de residuos, determine los pesos nuevamente y use los nuevos pesos en una segunda regresión WLS. Este proceso debe repetirse hasta que dos conjuntos de betas estimadas sean lo suficientemente similares (aunque hacer esto una vez es poco común).
Si este proceso lo incomoda un poco, porque los pesos se estiman y porque dependen del modelo anterior e incorrecto, otra opción es usar el estimador 'sandwich' de Huber-White . Esto es consistente incluso en presencia de heterocedasticidad, no importa cuán grave sea, y no depende del modelo. También es potencialmente menos molesto.
Demuestro una versión simple de los mínimos cuadrados ponderados y el uso de los SE sándwich en mi respuesta aquí: Alternativas al ANOVA de una vía para los datos heterocedásticos .