¿Alguna "regla de oro" sobre el número de características versus el número de instancias? (pequeños conjuntos de datos)

17

Me pregunto si hay alguna heurística en el número de características versus el número de observaciones. Obviamente, si un número de características es igual al número de observaciones, el modelo se sobreajustará. Mediante el uso de métodos dispersos (LASSO, red elástica) podemos eliminar varias características para reducir el modelo.

Mi pregunta es (teóricamente): antes de usar las métricas para evaluar la selección del modelo, ¿hay alguna observación empírica que relacione el número óptimo de características con el número de observaciones?

Por ejemplo: para un problema de clasificación binaria con 20 instancias en cada clase, ¿hay algún límite superior en la cantidad de características a usar?

feature-selection model-selection

— Arnold Klein
fuente

13

Múltiples artículos han opinado que

solo en casos excepcionales existe una distribución conocida del error en función del número de características y el tamaño de la muestra.

La superficie de error para un conjunto dado de instancias y características, es una función de la correlación (o falta de) entre características.

Este artículo sugiere lo siguiente:

$N-1$ $N$
$\sqrt N$

Otro enfoque (empírico) que podría adoptarse es dibujar las curvas de aprendizaje para diferentes tamaños de muestra del mismo conjunto de datos, y usarlo para predecir el rendimiento del clasificador en diferentes tamaños de muestra. Aquí está el enlace al documento .

— shark8me
fuente

2

Encuentro esta respuesta algo engañosa ya que falta una suposición crucial del documento de Hua: las características Hua et al. considerar en el documento vinculado son todos informativos, que no es lo que puede esperar tener en la práctica. En mi humilde opinión, esto debe establecerse claramente ya que el tipo más común de "características" no correlacionadas de la OMI son los canales de medición no informativos.

— cbeleites apoya a Monica el

Wrt. las curvas de aprendizaje: OP probablemente no podrá usarlas con 2 × 20 casos, ya que no se pueden medir con una precisión útil en tan pocos casos. Hua menciona brevemente esto, y discutimos esta dificultad más bien en detalle en el documento que vinculé en mi respuesta a continuación.

— cbeleites apoya a Monica el

8

desde mi propia experiencia: en un caso, trabajé con una base de datos real que es muy pequeña (300 imágenes) con muchas clases, un grave problema de desequilibrio de datos y terminé usando 9 funciones: SIFT, HOG, Shape context, SSIM, GM y 4 características basadas en DNN. En otro caso, trabajé con una base de datos muy grande (> 1 M de imágenes) y terminé usando solo la función HOG. Creo que no existe una relación directa entre el número de instancias y el número de características requeridas para lograr una alta precisión. PERO: el número de clases, la similitud entre clases y la variación dentro de la misma clase (estos tres parámetros) pueden afectar el número de características. cuando se tiene una base de datos más grande con muchas clases y una gran similitud entre clases y una gran variación dentro de la misma clase, se necesitan más funciones para lograr una alta precisión. RECUERDA:

— Bashar Haddad
fuente

@Bashar Haddad: corrígeme si me equivoco (como soy nuevo tanto en visión artificial como en ML), ¿no es la característica HOG en realidad un vector de alta dimensión (en mi caso, estaba obteniendo características HOG dimensionales de 1764)? Entonces, cuando dices 9 características y una de ellas es HOG, ¿no estás realmente obteniendo un espacio de características de alta dimensión solo para HOG?

— Mathmath

1

En la literatura usan la palabra característica para indicar el tipo de característica o el índice de dimensión. Entonces, cuando digo que estoy usando 6 características, esto significa que estoy usando 6 tipos de características, cada una de ellas es un vector (1 x D). Si estoy hablando del tipo de característica Hog, cada dimensión puede ser una característica.

— Bashar Haddad

2

Depende ... pero, por supuesto, esa respuesta no te lleva a ninguna parte.

Él es una regla general para la complejidad del modelo: Aprender de los datos - Dimensión VC

"Más o menos" necesita 10 puntos de datos para cada parámetro del modelo. Y la cantidad de parámetros del modelo puede ser similar a la cantidad de características.

— Gerenuk
fuente

2

Un poco tarde para la fiesta, pero aquí hay algunas heurísticas.

problema de clasificación binaria con 20 instancias en cada clase, ¿hay algún límite superior en la cantidad de características a usar?

Para el entrenamiento de clasificadores lineales, se recomiendan de 3 a 5 casos independientes por clase y característica. Este límite le brinda modelos confiables estables , no garantiza un buen modelo (esto no es posible: podría tener datos poco informativos donde ningún modelo podría lograr un buen rendimiento de generalización)
Sin embargo, para tamaños de muestra tan pequeños como su escenario, la verificación (validación) en lugar de la capacitación es el cuello de botella, y la verificación depende del número absoluto de casos de prueba en lugar de casos relativos a la complejidad del modelo: como regla general, necesita una prueba de ≈ 100 casos en el denominador para estimar una proporción con un intervalo de confianza que no sea más de 10% de ancho.

Desafortunadamente, esto también significa que básicamente no puede obtener la curva de aprendizaje empírica para su aplicación: no puede medirla con la suficiente precisión, y en la práctica de todos modos tendrá grandes dificultades para extrapolarla porque para el entrenamiento reacciona al pequeño tamaño de muestra al restringir su modelo complejidad, y esto lo relajaría al aumentar el tamaño de la muestra.

Consulte nuestro documento para obtener más detalles: Beleites, C. y Neugebauer, U. y Bocklitz, T. y Krafft, C. y Popp, J .: Planificación del tamaño de la muestra para modelos de clasificación. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceptado en arXiv: 1211.1323
Nunca he tenido nada parecido a estas recomendaciones (datos de espectroscopía, también para aplicaciones médicas). Lo que hago entonces es: mido muy de cerca la estabilidad del modelo como parte del proceso de modelado y verificación.

— cbeleites apoya a Monica
fuente