Rápidamente se hace evidente, al mirar muchos relatos de la "suposición múltiple", que muchos escritores son notablemente descuidados sobre su significado. Los más cuidadosos lo definen con una advertencia sutil pero enormemente importante : que los datos se encuentran en o cerca de una variedad de baja dimensión.
Incluso aquellos que no incluyen la cláusula "o cerca de" adoptan claramente el supuesto múltiple como una ficción aproximada, conveniente para realizar análisis matemáticos, porque sus aplicaciones deben contemplar desviaciones entre los datos y el múltiple estimado. De hecho, muchos escritores más tarde introducen un mecanismo explícito para las desviaciones, como contemplar la regresión de contra donde está restringido a descansar en un múltiple pero la puede incluir desviaciones aleatorias Esto es equivalente a suponer que las tuplas encuentran cercayxxMk⊂Rd y(xi,yi)a, pero no necesariamente en, una variedad dimensional inmersa de la formak
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
para alguna función suave (regresión) . Dado que podemos ver todos los puntos perturbados , que están simplemente cerca de la gráfica de (un múltiple dimensional), como acostado en la variedad -dimensional , esto ayuda a explicar por qué tal descuido acerca de distinguir "en" de "cerca de" puede no ser importante en teoría.f:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
La diferencia entre "encendido" y "cercano a" es muy importante para las aplicaciones. "Cerrar a" permite que los datos puedan desviarse del múltiple. Como tal, si elige estimar esa variedad, entonces se puede cuantificar la cantidad típica de desviación entre los datos y la variedad. Un colector ajustado será mejor que otro cuando la cantidad típica de desviación sea menor, ceteris paribus.
La figura muestra dos versiones de la suposición del múltiple para los datos (puntos azules grandes): el múltiple negro es relativamente simple (requiere solo cuatro parámetros para describir) pero solo se acerca a los datos, mientras que el múltiple de puntos rojos se ajusta a los datos perfectamente pero es complicado (se necesitan 17 parámetros).
Como en todos estos problemas, existe una compensación entre la complejidad de describir la variedad y la bondad del ajuste (el problema del sobreajuste). Siempre es posible encontrar una variedad unidimensional que se ajuste perfectamente a cualquier cantidad finita de datos en (como con la variedad de puntos rojos en la figura, simplemente ejecute una curva suave a través de todos los puntos , en cualquier orden: es casi seguro que no se intersecará, pero si lo hace, perturbe la curva en la vecindad de cualquier intersección para eliminarla). En el otro extremo, si solo se permite una clase limitada de colectores (como los hiperplanos euclidianos rectos únicamente), un buen ajuste puede ser imposible, independientemente de las dimensiones, y la desviación típica entre los datos y el ajuste puede ser grande.Rd
Esto conduce a una forma directa y práctica de evaluar el supuesto múltiple: si el modelo / predictor / clasificador desarrollado a partir del supuesto múltiple funciona aceptablemente bien, entonces el supuesto estaba justificado. Por lo tanto, las condiciones apropiadas buscadas en la pregunta serán que alguna medida relevante de bondad de ajuste sea aceptablemente pequeña. (¿Qué medida? Depende del problema y equivale a seleccionar una función de pérdida).
Es posible que múltiples de diferentes dimensiones (con diferentes tipos de restricciones en su curvatura) puedan ajustarse a los datos, y predecir datos retenidos, igualmente bien. No se puede "probar" nada sobre la "variedad" subyacente en general, especialmente cuando se trabaja con conjuntos de datos humanos grandes y desordenados. Todo lo que podemos esperar es que el colector ajustado sea un buen modelo.
Si no se te ocurre un buen modelo / predictor / clasificador, entonces la suposición múltiple es inválida, estás asumiendo variedades de una dimensión demasiado pequeña, o no has buscado lo suficiente o lo suficientemente bien.