La Sección 3.5.2 en Los elementos del aprendizaje estadístico es útil porque coloca la regresión de PLS en el contexto correcto (de otros métodos de regularización), pero de hecho es muy breve y deja algunas declaraciones importantes como ejercicios. Además, solo considera un caso de una variable dependiente univariada y .
La literatura sobre PLS es vasta, pero puede ser bastante confusa porque hay muchos "sabores" diferentes de PLS: versiones univariadas con un solo DV y (PLS1) y versiones multivariadas con varios DVs Y (PLS2), versiones simétricas tratando X y Y igual y versiones asimétricas ("regresión PLS") tratando X como independiente y Y como variables dependientes, versiones que permiten una solución global a través de SVD y versiones que requieren deflaciones iterativas para producir cada siguiente par de direcciones PLS, etc. etc.
Todo esto se ha desarrollado en el campo de la quimiometría y se mantiene algo desconectado de la literatura estadística o de aprendizaje automático "convencional".
El documento de resumen que encuentro más útil (y que contiene muchas referencias adicionales) es:
Para una discusión más teórica, puedo recomendar más:
Una breve introducción a la regresión de PLS con univariante (también conocido como PLS1, también conocido como SIMPLS)y
El objetivo de la regresión es estimar en un modelo lineal . La solución OLS disfruta de muchas propiedades de optimización pero puede sufrir un sobreajuste. De hecho, OLS busca que produce la mayor correlación posible de con . Si hay muchos predictores, siempre es posible encontrar alguna combinación lineal que tenga una alta correlación con . Esta será una correlación espuria, y tal generalmente apuntará en una dirección que explica muy poca variación eny = X β + ϵ β = ( X ⊤ X ) - 1 X ⊤ y β X β y y β Xβy= Xβ+ ϵβ= ( X⊤X )- 1X⊤yβX βyyβX. Las instrucciones que explican muy poca variación son a menudo direcciones muy "ruidosas". Si es así, a pesar de que en los datos de entrenamiento la solución OLS funciona muy bien, en los datos de prueba funcionará mucho peor.
Para evitar el sobreajuste, uno usa métodos de regularización que esencialmente obligan a a apuntar en direcciones de alta varianza en (esto también se llama "contracción" de ; consulte ¿Por qué funciona la contracción? ). Uno de estos métodos es la regresión de componentes principales (PCR) que simplemente descarta todas las direcciones de baja varianza. Otro (mejor) método es la regresión de crestas que penaliza suavemente las direcciones de baja varianza. Otro método más es PLS1.X ββXβ
PLS1 reemplaza el objetivo de OLS de encontrar que maximiza la correlación con un objetivo alternativo de encontrar con longitud maximizando la covarianza que nuevamente penaliza efectivamente las direcciones de baja varianza.corr ( X β , y ) β ‖ β ‖ = 1 cov ( X β , y ) ∼ corr ( X β , y ) ⋅βcorr( X β, y )β∥ β∥ = 1
cov( X β, y ) ∼ corr( X β, y ) ⋅ var( X β)-------√,
Encontrar tales (llamémoslo ) produce el primer componente PLS . Se puede buscar además el segundo (y luego tercero, etc.) componente PLS que tiene la mayor covarianza posible con bajo la restricción de no estar correlacionado con todos los componentes anteriores. Esto debe resolverse de forma iterativa, ya que no existe una solución de forma cerrada para todos los componentes (la dirección del primer componente simplemente viene dada porβ 1 z 1 = X β 1 y β 1 X ⊤ y β z β i β P L Sββ1z1= X β1yβ1X⊤ynormalizado a la longitud de la unidad). Cuando se extrae el número deseado de componentes, la regresión PLS descarta los predictores originales y usa los componentes PLS como nuevos predictores; esto produce una combinación lineal de ellos que se puede combinar con todos para formar la final .βzβyoβP L S
Tenga en cuenta que:
- Si se utilizan todos los componentes PLS1, PLS será equivalente a OLS. Entonces, el número de componentes sirve como parámetro de regularización: cuanto menor es el número, más fuerte es la regularización.
- Si los predictores no están correlacionados y todos tienen la misma varianza (es decir, se ha blanqueado ), entonces solo hay un componente PLS1 y es equivalente a OLS.XXX
- Los vectores de peso y para no serán ortogonales, pero producirán componentes no correlacionados y .βyoβji ≠ jzyo= X βyozj= X βj
Dicho todo esto, no conozco ninguna ventaja práctica de la regresión PLS1 sobre la regresión de cresta (aunque esta última tiene muchas ventajas: es continua y no discreta, tiene solución analítica, es mucho más estándar, permite extensiones de núcleo y analíticas fórmulas para errores de validación cruzada de dejar uno fuera, etc., etc.).
Citando de Frank y Friedman:
RR, PCR y PLS se ven en la Sección 3 para operar de manera similar. Su objetivo principal es reducir el vector del coeficiente de la solución lejos de la solución OLS hacia las direcciones en el espacio variable de predicción de una dispersión de muestra más grande. Se observa que PCR y PLS se encogen más lejos de las direcciones de baja propagación que RR, lo que proporciona la contracción óptima (entre estimadores lineales) para una equidirección previa. Por lo tanto, PCR y PLS suponen que la verdad es probable que tenga alineaciones preferenciales particulares con las direcciones de alta dispersión de la distribución de la variable predictiva (muestra). Un resultado algo sorprendente es que PLS (además) coloca una masa de probabilidad incrementada en el vector de coeficiente verdadero alineado con la dirección del componente principal, dondeKK es la cantidad de componentes PLS utilizados, de hecho, expande la solución OLS en esa dirección.
También realizan un extenso estudio de simulación y concluyen (el énfasis es mío):
Para las situaciones cubiertas por este estudio de simulación, se puede concluir que todos los métodos sesgados (RR, PCR, PLS y VSS) proporcionan una mejora sustancial sobre OLS. [...] En todas las situaciones, RR dominó todos los otros métodos estudiados. Los PLS generalmente tuvieron un desempeño casi tan bueno como el RR y generalmente superaron a la PCR, pero no mucho.
Actualización: en los comentarios @cbeleites (que trabaja en quimiometría) sugiere dos posibles ventajas de PLS sobre RR:
Un analista puede tener una idea a priori de cuántos componentes latentes deben estar presentes en los datos; esto permitirá establecer una fuerza de regularización sin hacer una validación cruzada (y puede que no haya suficientes datos para hacer un CV confiable). Tal elección a priori de podría ser más problemática en RR.λ
RR produce una sola combinación lineal como una solución óptima. En contraste, PLS con, por ejemplo, cinco componentes produce cinco combinaciones lineales que luego se combinan para predecir . Es probable que las variables originales que están fuertemente interrelacionadas se combinen en un solo componente PLS (porque combinarlas juntas aumentará el término de varianza explicado). Por lo tanto, podría ser posible interpretar los componentes individuales de PLS como algunos factores latentes reales que impulsan . La afirmación es que es más fácil interpretar etc., en comparación con el conjuntoβR Rβyoyyβ1, β2,βP L S. Compare esto con la PCR, donde también se puede ver como una ventaja que los componentes principales individuales se puedan interpretar y asignar algún significado cualitativo.