¿Qué métodos existen para ajustar los hiperparámetros SVM del kernel gráfico?

Tengo algunos datos que existen en un gráfico . Los vértices pertenecen a una de las dos clases , y estoy interesado en entrenar un SVM para distinguir entre las dos clases. Un núcleo apropiado para esto es el núcleo de difusión , donde es el laplaciano de y es un parámetro de ajuste. $G=(V,E)$ $y_i\in\{-1,1\}$ $K=\exp(-\beta L),$ $L$ $G$ $\beta$

Ajustar el SVM requiere la selección de hiperparámetros, por lo que tengo que ajustarConvencionalmente, usamos validación cruzada para este problema, pero eso no parece apropiado aquí, ya que omitir un vértice de cambia todo el gráfico, ¡posiblemente incluso aumenta el número de componentes conectados! Si el número de componentes conectados cambia, algunos vértices se vuelven inalcanzables de otros, y nos enfrentamos a un conjunto de datos muy diferente al que comenzamos. Es decir, no solo nos falta el vértice eliminado , sino que también nos falta información sobre todos los otros vértices en el gráfico que estaban adyacentes a ese vértice. $\theta=(\beta, C).$ $i$ $G$ $i$ $j$

La noción básica de validación cruzada es que nos gustaría aproximarnos al rendimiento del modelo cuando se presentan nuevos datos. En problemas estándar, la omisión de algunos de sus datos para la prueba no cambia los valores de los datos de entrenamiento restantes. Sin embargo, en el caso de los datos de gráficos, no está claro qué significa para el modelo ver datos "nuevos" en la configuración de CV. Omitir vértices o bordes tiene el potencial de cambiar completamente los datos. Por ejemplo, imagine un gráfico que es un gráfico star, en el que un vértice tiene aristas a vértices, y todos los demás vértices tienen 1 arista. Omitir el vértice central para construir los datos de entrenamiento $S=(V_S,E_S)$ $k$ $k$ $k$ $S^*$ desconectará completamente el gráfico, y la matriz del núcleo será diagonal. Pero, por supuesto, será posible entrenar un modelo sobre estos datos de entrenamiento proporcionados en . Lo que está menos claro es lo que significa probar el rendimiento fuera de muestra del modelo resultante. ¿Se vuelve a calcular la matriz del núcleo para y se proporciona eso para hacer predicciones? $S^*$ $S$

O, alternativamente, ¿comienza uno calculando la matriz del núcleo de en su totalidad y omite filas y columnas según sea necesario para producir la matriz del núcleo utilizada para estimar la SVM? Esto presenta sus propios problemas conceptuales, ya que la inclusión del nodo central en significa que cada vértice es accesible desde cualquier otro vértice, y la matriz del núcleo es densa. ¿Significará esta inclusión que hay fuga de información en los pliegues y sesga la salida de validación cruzada? Por un lado, los datos sobre los nodos centrales omitidos todavía están presentes, ya que el nodo central omitido conecta el gráfico. Por otro lado, no sabemos nada sobre las etiquetas $S$ $S$ $y$ de los nodos omitidos, por lo que podemos sentirnos seguros de que estamos obteniendo estimaciones fuera de la muestra razonablemente imparciales al realizar el CV de esta manera.

¿Cómo se seleccionan los hiperparámetros para problemas de este tipo? ¿CV es imperfecto pero aceptable, o necesitamos métodos especializados? ¿Es posible el ajuste de hiperparámetros en mi contexto?

— Sycorax dice reinstalar a Mónica
fuente

Busque extensiones fuera de la muestra para métodos espectrales. Apliqué algunas de las técnicas para la clasificación de imágenes en mi tesis (mirando hacia atrás ahora, lo habría hecho de otra manera). Los resultados fueron interesantes, pero los modelos en sí mismos eran bastante frágiles y no fáciles de ajustar.

— Vladislavs Dovgalecs

@xeon ¿Alguna recomendación sobre dónde comenzar a mirar esta literatura?

— Sycorax dice Reinstate Monica

Descargo de responsabilidad: no estoy muy familiarizado con los núcleos de gráficos, por lo que esta respuesta podría basarse en suposiciones incorrectas. Estoy de acuerdo en que omitir los vértices al calcular la matriz del núcleo es subóptimo. Dicho esto, no estoy seguro de que la validación cruzada sea necesariamente problemática. ¿Es su contexto de aprendizaje transducción o inducción?

En general, no estoy convencido de que calcular la matriz del núcleo para una dada en función de todos los datos (es decir, tanto el entrenamiento como la prueba) necesariamente cree una fuga de información. Si calcular el núcleo en función de todos los datos resulta correcto, puede entrenar modelos en una configuración cv típica, utilizando los bloques relevantes de la matriz de núcleo completa (precalculada) para entrenamiento / prueba. $\beta$

Este enfoque le permitiría optimizar conjuntamente y , por ejemplo a través de bibliotecas como Optunity , donde se usa para calcular el núcleo en función de todos los datos y se usa para entrenar modelos en los pliegues de entrenamiento exclusivamente. $\beta$ $C$ $\beta$ $C$

— Marc Claesen
fuente

Marc, gracias por tu atención. Mi problema es inductivo. Mi instinto es que estás en lo correcto, y que calculamos la matriz de núcleo completa para todos los datos y luego omitimos filas y columnas según sea necesario para producir el núcleo CV'd. ¿Sería consciente de alguna referencia a este efecto?

— Sycorax dice Reinstate Monica

No de inmediato, pero tengo algunos colegas que trabajan en problemas comparables (agrupación espectral del núcleo) que puedo preguntar. Quizás tengan referencias y / o mejores ideas. Se actualizará cuando sepa más.

— Marc Claesen