Proceso de regresión gaussiana para conjuntos de datos de alta dimensión


10

Solo quería ver si alguien tiene alguna experiencia aplicando la regresión de procesos gaussiana (GPR) a conjuntos de datos de alta dimensión. Estoy investigando algunos de los diversos métodos GPR dispersos (por ejemplo, pseudo-entradas GPR dispersas) para ver qué podría funcionar para conjuntos de datos de alta dimensión donde la selección de características ideal es parte del proceso de selección de parámetros.

Cualquier sugerencia sobre documentos / código / o varios métodos para probar es definitivamente apreciada.

Gracias.


2
Como se dijo, esta pregunta es bastante vaga. Las preguntas que son independientes, concretas y bien motivadas tienden a recibir la mayor atención y las mejores respuestas aquí. (Por ejemplo, si tiene un problema particular que está tratando de resolver, considere proporcionar suficientes detalles para que los lectores puedan entender lo que está tratando de hacer).
Cardenal

Respuestas:


13

Los modelos de procesos gaussianos generalmente están bien con conjuntos de datos de alta dimensión (los he usado con datos de microarrays, etc.). La clave está en elegir buenos valores para los hiperparámetros (que controlan efectivamente la complejidad del modelo de manera similar a la regularización).

Los métodos dispersos y los métodos de pseudo-entrada son más para conjuntos de datos con una gran cantidad de muestras (> aproximadamente 4000 para mi computadora) en lugar de una gran cantidad de características. Si tiene una computadora lo suficientemente potente como para realizar una descomposición de Cholesky de la matriz de covarianza (n por n donde n es el número de muestras), entonces probablemente no necesite estos métodos.

Si es un usuario de MATLAB, le recomiendo encarecidamente la caja de herramientas GPML y el libro de Rasmussen y Williams como buenos lugares para comenzar.

SIN EMBARGO, si está interesado en la selección de funciones, entonces evitaría GP. El enfoque estándar para la selección de características con GP es utilizar un núcleo de determinación automática de relevancia (por ejemplo, covSEard en GPML), y luego lograr la selección de características ajustando los parámetros del núcleo para maximizar la probabilidad marginal. Desafortunadamente, es muy probable que termine ajustando la probabilidad marginal y terminando con un modelo que funciona (posiblemente mucho) peor que un modelo con una covarianza de función radial esférica simple (covSEiso en GPML).

Mi investigación actual se centra en el ajuste excesivo en la selección de modelos en este momento y he descubierto que esto es tanto un problema para la maximización de la evidencia en GP como para la optimización basada en validación cruzada de hiperparámetros en modelos de kernel, para más detalles vea este documento y este .

La selección de características para modelos no lineales es muy complicada. A menudo, obtiene un mejor rendimiento si se adhiere a un modelo lineal y utiliza enfoques de tipo de regularización L1 (Lasso / LARS / Elastic net, etc.) para lograr la dispersión o métodos forestales aleatorios.


Gracias Dikran He intentado mirar glmnet en R para modelos lineales regularizados. Desafortunadamente, mis predicciones terminan siendo las mismas (creo que la media de mi conjunto de entrenamiento). Los modelos lineales parecen tener dificultades para extraer la señal en mis datos. Es por eso que he estado buscando modelos no lineales que pueden manejar muchas características / interacciones de características potenciales. Sin embargo, estoy bastante seguro de que eso es mucho pedir. ¿Alguna sugerencia en ese frente? No tengo un problema P >> N. Usando 150 características, 1000 ejemplos.
tomas

Hola Dikran Esa fue una pregunta bastante vaga que hice en mis comentarios, perdón por eso. Puse una pregunta más específica en los foros. De nuevo, gracias por tu ayuda. stats.stackexchange.com/questions/30411/…
tomas

¡no hay problema, a menudo resolver cuáles son las preguntas es más difícil que responderlas! Me ocuparé de las otras preguntas.
Dikran Marsupial

Gracias por esta respuesta En el caso de características de alta dimensión pero un conjunto de datos no tan grande (n ~ 10k d ~ 1k), ¿es posible usar ARD para acelerar el cálculo? Estoy usando la caja de herramientas GPML. ¿Podríamos "esparcir" automáticamente la matriz de covarianza para enfocarnos en las características relevantes?
Emile el

1
el enlace " r.csail.mit.edu/papers/v8/cawley07a.html " no funciona ... ¿Es este? jmlr.org/papers/v8/cawley07a.html . Quizás sea beneficioso agregar citas completas en lugar de solo enlaces :-)
Curioso

4

Puede intentar utilizar funciones de covarianza diseñadas especialmente para tratar datos de alta dimensión. Mire a través del artículo sobre la función de covarianza aditiva, por ejemplo. Han funcionado mejor que otras funciones de covarianza de vanguardia en mis experimentos numéricos con algunos datos reales de una dimensión de entrada bastante grande (alrededor de ).30

Sin embargo, si la dimensión de entrada es realmente enorme (más de o ), parece que cualquier método de kernel fallará, y no hay exclusión para la regresión de procesos gaussianos.100200

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.