¿Qué clasificador es más preciso para una clasificación SVM?


10

Estoy aprendiendo la clasificación SVM y encuentro un problema. No estoy seguro de si este dilema tiene una terminología para ello.

Supongamos que nos gustaría clasificar a los pacientes por SVM a partir de las muestras de personas sanas (de ambos sexos) y personas con cáncer de hígado (de ambos sexos). Si etiquetamos la muestra de personas sanas como clase 1 y las personas con cáncer como clase 2, podemos entrenar un SVM binario y obtener un clasificador 1 para predecir cualquier paciente nuevo. Ahora, imagina otro escenario. Suponga que primero dividimos todas las muestras por género antes de la clasificación SVM. Para cada género, aún clasificamos a los pacientes sanos frente a los pacientes cancerosos en 2 clases y entrenamos un SVM binario para obtener el clasificador 2 y el clasificador 3 para muestras de mujeres y hombres, respectivamente. La pregunta es si hay una nueva paciente, ¿qué clasificador, 1 o 2, se debe utilizar para obtener una predicción más precisa? Aquí está el dilema de los argumentos que tengo.

(1) Cuando el número de muestras es grande, la predicción debería ser más precisa. Basado en este argumento, el clasificador 1 parece una buena opción.

(2) Sin embargo, si primero dividimos las muestras en grupos de hombres y mujeres, el clasificador 2 parece una mejor opción ya que el nuevo paciente (muestra de prueba desconocida) es mujer.

¿Este tipo de dilema tiene una terminología o alguien sabe más información o cómo resolver un problema como este? Ni siquiera estoy seguro de si esta es una pregunta legítima y lamento la pregunta ingenua de antemano. Gracias


44
Esto no se puede responder en general. Quizás si supiéramos cuánto influye el género en el cáncer y cuántas muestras tiene, qué función de pérdida usa, etc. Probablemente sea mucho más fácil experimentar usando la validación cruzada.
adrianN

Gracias. Que tiene sentido. Supongo que no debería haber una regla general.
Cassie

esto suena como una pregunta general de ML sobre "cómo debo usar ML para resolver este problema". No hay una respuesta estándar. es importante / aceptado / estándar probar diferentes enfoques y ver qué estrategias conducen a los resultados de predicción más precisos. el encabezado general es algo así como "representación del problema del mundo real en el marco abstracto de ML" o más o menos "modelado" y está cubierto en buenas referencias estándar
vzn

Respuestas:


2

Debe echar un vistazo a la selección de funciones y los algoritmos que automatizan este proceso. Está bien si eres nuevo en ML y no entiendes todo el proceso de selección de funciones, solo obtén la intuición adecuada y luego puedes usar una biblioteca para automatizar el proceso.

La idea clave de tener un algoritmo de aprendizaje es por lo que se puede encontrar los patrones ... lo máximo que puede hacer, es ayuda de él hacia fuera, proporcionando una gran cantidad de datos (no redundantes) y tener un buen procesamiento previo paso, que por lo general implica la materia como selección de funciones y normalización .

En una nota amistosa, al implementar algoritmos de aprendizaje, no debe intentar modificar su conjunto de datos simplemente 'mirándolo', a menos que tenga métricas concretas que testifiquen que necesita modificaciones, muchas veces, ha sido el caso, que el aprendizaje El algoritmo puso un alto sesgo hacia las características que no parecían estar ni remotamente "relacionadas" con el proceso de clasificación. Intente siempre realizar un paso de selección de funciones antes de intentar cualquier modificación en sus datos.


1

Un encabezado general para este tipo de paso del proceso de aprendizaje automático es el preprocesamiento de datos, que según Wikipedia incluye "limpieza, normalización, transformación, extracción y selección de funciones, etc.".

Otro aspecto del aprendizaje automático es "crear el modelo". esto implica decisiones, por ejemplo, sobre cuántas clases se detectarán, cuál será el "tamaño" o las "dimensiones" de la estructura ML (por ejemplo, "cuántos granos incluirá la SVM", etc., aproximadamente análoga a la elección del número de neuronas en un NN modelo). desafortunadamente, algunos árbitros tienden a omitir o "pasar por alto" este paso. pero tenga en cuenta que es común con las estadísticas y algunos libros de estadísticas tendrán una buena descripción.

En los enfoques de tipo ML, es convencional que exista un fuerte proceso iterativo / de retroalimentación / evolutivo para determinar tanto el preprocesamiento efectivo como el modelado. el experimentador prueba varias ideas de preprocesamiento y modelado y se mueve en la dirección de las más exitosas. la regla general es "cuanto mejores sean las predicciones, más se preprocesará y modelará correctamente [y presumiblemente también de manera realista ]", pero también dado que se descarta cuidadosamente el sobreajuste .

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.