¿Cómo calcular los intervalos de confianza en los coeficientes de regresión en PLS?

10

El modelo subyacente de PLS es que un determinado matriz y vector están relacionadas por donde es un latente de la matriz, y son términos de ruido (suponiendo que están centrados). $n \times m$ $X$ $n$ $y$

X = T P^{'} + E,

$X = T P' + E,$

y = T q^{'} + f,

$y = T q' + f,$

T

$T$

n \times k

$n \times k$

E, f

$E, f$

X, y

$X, y$

PLS produce estimaciones de y un vector de 'atajo' de coeficientes de regresión, modo que . Me gustaría encontrar la distribución de bajo algunos supuestos simplificadores, que probablemente deberían incluir lo siguiente: $T, P, q$ $\hat{\beta}$ $y \sim X \hat{\beta}$ $\hat{\beta}$

El modelo es correcto, es decir , para desconocidos ; $X = T P' + E,y = T q' + f$ $T, P, q$
El número de factores latentes, , se conoce y se usa en el algoritmo PLS; $k$
Los términos de error reales son iid cero-media normal con variaciones conocidas;

Esta pregunta está algo poco definida porque hay decenas de variantes del algoritmo 'the' PLS, pero aceptaría resultados para cualquiera de ellas. También aceptaría orientación sobre cómo estimar la distribución de través de, por ejemplo, un bootstrap, pero tal vez esa sea una pregunta separada. $\hat{\beta}$

— shabbychef
fuente

9

¿Conoces este artículo: Regresión PLS: una herramienta básica de quimiometría ? La derivación de SE y CI para los parámetros PLS se describe en §3.11.

Por lo general, confío en Bootstrap para calcular los IC, como se sugiere, por ejemplo, en Abdi, H. Regresión de mínimos cuadrados parciales y proyección sobre regresión de estructura latente (Regresión PLS) . Me parece recordar que hay soluciones teóricas discutidas en Tenenhaus M. (1998) La régression PLS: Théorie et pratique (Technip), pero no puedo verificar por ahora ya que no tengo el libro. Por ahora, hay algunos paquetes R útiles, como plsRglm .

PD : Acabo de descubrir el artículo de Nicole Krämer , en referencia al paquete plsdof R.

— chl
fuente

2

Descubrí un artículo de Reiss, et. Alabama. , Cálculo del intervalo de confianza de mínimos cuadrados parciales para la predicción de la calidad industrial al final del lote , en la que aparece la cita:

La predicción de PLS debe ir acompañada de un intervalo de confianza en línea para indicar la precisión de la predicción. La formulación del intervalo de confianza para la predicción de PLS es un área de estudio que no ha concluido un "estándar de oro".

Este documento contiene una referencia a la 'encuesta excelente de dicho trabajo', error estándar de predicción para PLS multivía , por Faber y Bro, y un documento por Faber y Kowalski, propagación de errores de medición para la validación de predicciones obtenidas por regresión de componentes principales y mínimos cuadrados parciales . Resumiré estos resultados a medida que estén disponibles ...

— shabbychef
fuente

(+1) Es bueno saberlo, gracias. Debería volver a mirar el trabajo de Michel Tenenhaus. Le haré saber si me parece interesante.

— chl