Aquí les pregunto qué hacen comúnmente los demás para usar la prueba de ji cuadrado para la selección de características wrt resultado en el aprendizaje supervisado. Si entiendo correctamente, ¿prueban la independencia entre cada característica y el resultado, y comparan los valores p entre las pruebas para cada característica?
En http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
La prueba de chi cuadrado de Pearson es una prueba estadística aplicada a conjuntos de datos categóricos para evaluar la probabilidad de que cualquier diferencia observada entre los conjuntos surgiera por casualidad.
...
Una prueba de independencia evalúa si las observaciones emparejadas sobre dos variables, expresadas en una tabla de contingencia , son independientes entre sí (por ejemplo, respuestas de encuestas de personas de diferentes nacionalidades para ver si la nacionalidad de uno está relacionada con la respuesta).
Entonces, ¿las dos variables cuya independencia es probada por la prueba deben ser categóricas o discretas (permitiendo ordenadas además de categóricas), pero no contiguas?
Desde http://scikit-learn.org/stable/modules/feature_selection.html , ellos
realice una en el conjunto de datos del iris para recuperar solo las dos mejores características.
En el conjunto de datos de iris , todas las características son numéricas y de valor continuo, y el resultado son etiquetas de clase (categóricas). ¿Cómo se aplica la prueba de independencia chi cuadrado a las características continuas?
Para aplicar la prueba de independencia de chi cuadrado al conjunto de datos, primero convertimos las características continuas en características discretas, agrupando (es decir, primero discretizando los dominios continuos de las características en contenedores, y luego reemplazando las características por las ocurrencias de los valores de las características en los contenedores )?
Las ocurrencias en varios contenedores forman una característica multinomial (ya sea que ocurra o no en cada contenedor), por lo que la prueba de independencia de chi cuadrado puede aplicarse a ellos, ¿verdad?
Por cierto, supongo, ¿podemos aplicar la prueba de independencia de chi cuadrado a características y resultados de cualquier tipo , correcto?
Para la parte del resultado, podemos seleccionar características no solo para la clasificación, sino también para la regresión, mediante la prueba de independencia de chi cuadrado, agrupando el resultado continuo, ¿verdad?
El sitio de aprendizaje scikit también dice
Calcule las estadísticas de chi-cuadrado entre cada característica no negativa y clase.
Esta puntuación se puede utilizar para seleccionar las características n_features con los valores más altos para la estadística chi-cuadrado de prueba de X, que debe contener solo características no negativas como booleanos o frecuencias (por ejemplo, conteo de términos en la clasificación de documentos), en relación con el clases
¿Por qué la prueba requiere características no negativas?
Si las características no tienen signos pero son categóricas o discretas, ¿la prueba aún puede aplicarse a ellas? (Ver mi parte 1)
Si las características son negativas, siempre podemos vincular sus dominios y reemplazarlos con sus ocurrencias (al igual que lo que supongo para aplicar la prueba al conjunto de datos del iris, consulte la parte 2), ¿verdad?
Nota: Supongo que Scikit Learn sigue los principios generales, y eso es lo que estoy pidiendo aquí. Si no, entonces todavía está bien.