Sé que esto probablemente se haya discutido en otro lugar, pero no he podido encontrar una respuesta explícita. Estoy tratando de usar la fórmula para calcular fuera de muestra de un modelo de regresión lineal, donde es la suma de los residuos cuadrados y es el suma total de cuadrados. Para el conjunto de entrenamiento, está claro que
¿Qué pasa con el conjunto de prueba? ¿Debo seguir usando fuera de la muestra , o usar lugar?
He descubierto que si uso , la resultante puede ser negativo a veces. Esto es consistente con la descripción de la r2_score()
función de sklearn , donde usaron (que también es utilizada por la score()
función de su linear_model para probar muestras). Afirman que "un modelo constante que siempre predice el valor esperado de y, sin tener en cuenta las características de entrada, obtendría una puntuación R ^ 2 de 0.0".
Sin embargo, en otros lugares la gente ha usado como aquí y aquí (la segunda respuesta de dmi3kno). ¿Entonces me preguntaba cuál tiene más sentido? Cualquier comentario será muy apreciado!