Para comenzar, sugeriría que generalmente es bueno desconfiar de las afirmaciones de que solo hay unamanera de hacer algo Dividir una muestra obtenida en un conjunto de datos de "entrenamiento" y "pruebas" es un enfoque común en muchas aplicaciones de aprendizaje automático / ciencia de datos. A menudo, estos enfoques de modelado están menos interesados en las pruebas de hipótesis sobre un proceso de generación de datos subyacente, lo que quiere decir que tienden a ser algo teóricos. De hecho, la mayoría de estos tipos de divisiones de entrenamiento / prueba solo quieren ver si el modelo se ajusta demasiado en términos de rendimiento predictivo. Por supuesto, también es posible usar un enfoque de entrenamiento / prueba para ver si un modelo dado se replica en términos de qué parámetros son "significativos", o para ver si las estimaciones de los parámetros caen dentro de los rangos esperados en ambos casos.
En teoría, validar o invalidar modelos es lo que se supone que debe hacer la ciencia, en gran medida. Investigadores independientes, que examinan, generan y prueban por separado las hipótesis que respaldan o refutan los argumentos sobre una teoría de por qué o bajo qué circunstancias ocurre un fenómeno observable, esa es la empresa científica en una cáscara de nuez (o al menos en una oración demasiado larga). Entonces, para responder a su pregunta, incluso para mí las divisiones de entrenamiento / prueba no están "validando" un modelo. Eso es algo que requiere el peso de años de evidencia acumulada por múltiples investigadores independientes que estudian el mismo conjunto de fenómenos. Sin embargo, concederé que esta toma puede ser una diferencia en la semántica sobre lo que veo que significa la validación del modelo frente a lo que el término validación ha llegado a significar en entornos aplicados ...
Dependiendo de su enfoque de datos y modelado, puede que no siempre sea apropiado desde un punto de vista estadístico dividir su muestra en conjuntos de entrenamiento y prueba. Por ejemplo, las muestras pequeñas pueden ser particularmente difíciles de aplicar a este enfoque. Además, algunas distribuciones pueden tener ciertas propiedades que los hacen difíciles de modelar incluso con muestras relativamente grandes. Su caso de cero inflado probablemente se ajuste a esta última descripción. Si el objetivo es llegar a una aproximación de la "verdad" acerca de un conjunto de relaciones o procesos subyacentes que se cree que explican algún fenómeno, no se sentirá bien al tomar un enfoque deficiente para probar una hipótesis determinada. Entonces, quizás el primer paso es realizar un análisis de potencia para ver si es probable que incluso repita el hallazgo de interés en sus datos subconjuntos.
Otra opción es especificar varios modelos para ver si "mejor" explican los datos observados. El objetivo aquí sería identificar el mejor modelo entre un conjunto de alternativas razonables. Este es un argumento relativo, no absoluto, que estaría haciendo sobre su modelo. Esencialmente, está admitiendo que puede haber otros modelos que podrían postularse para explicar sus datos, pero su modelo es la mejor de las alternativas probadas (al menos eso es lo que espera). Todos los modelos del conjunto, incluido su modelo hipotético, deben estar teóricamente fundamentados; de lo contrario, corre el riesgo de establecer un grupo de hombres de paja estadísticos.
También hay factores de Bayes en los que puede calcular el peso de la evidencia que proporciona su modelo, dada su información, para una hipótesis específica relativa a escenarios alternativos.
Esto está lejos de ser una lista exhaustiva de opciones, pero espero que ayude. Saldré de la caja de jabón ahora. Solo recuerde que cada modelo en cada estudio publicado sobre el comportamiento humano es incorrecto. Casi siempre hay variables omitidas relevantes, interacciones no modeladas, poblaciones muestreadas de manera imperfecta y un simple error de muestreo antiguo en juego que ofusca la verdad subyacente.