Lo que quieres hacer no existe porque es, por falta de una mejor palabra, matemáticamente defectuoso.
Pero primero, destacaré por qué creo que las premisas de su pregunta son sólidas. Luego trataré de explicar por qué creo que las conclusiones que extraes de ellos se basan en un malentendido del modelo logístico y, finalmente, sugeriré un enfoque alternativo.
Voy a denotar sus observaciones (las letras más en negrilla denotan vectores) que se encuentran en espacio tridimensional (la primera entrada de es 1) con , y np x{(xxi,yi)}ni=1np p<n y i ∈[0,1]xxip<nyi∈[0,1] es una función monótona de xf(xxi)=f(xx′iββ) , digamos como lacurva logísticapara arreglar ideas. Por conveniencia, supondré que n essuficientementegrande en comparación con p .xx′iββnp
Tiene razón en que si tiene la intención de utilizar TVD como criterio para evaluar el modelo ajustado, entonces es razonable esperar que su ajuste optimice ese mismo criterio entre todos los posibles candidatos, en sus datos. Por lo tanto
ββ∗=argminββ∈Rp||yy−f(xx′iββ)||1
El problema es el término de error :
y si aplicamos (simplemente queremos que nuestro modelo sea asintóticamente imparcial ), entonces, debe ser heteroscedastic . Esto se debe a que puede tomar dos valores, 0 y 1. Por lo tanto, dado
, también solo puede tomar dos valores: cuando , que ocurre con probabilidad y cuandoE ( ϵϵi=yi−f(xx′iββ)ϵ i y i xE(ϵϵ)=0ϵi yiϵ i 1-f( xxxiϵiy i = 1 f ( x1−f(xx′iββ)yi=1- f ( xf(xx′iββ)y i = 1 1 - f ( x−f(xx′iββ)yi=1, que ocurre con probabilidad .1−f(xx′iββ)
Estas consideraciones juntas implican que:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
por lo tanto, no es constante sino que tiene forma de parábola cóncava y se maximiza cuando es tal que .xvar(ϵϵ) E ( y | xxxE(y|xx)≈.5
Esta heterocedasticidad inherente de los residuos tiene consecuencias . Implica, entre otras cosas, que al minimizar la función de pérdida , está asintóticamente parte de su muestra. Es decir, los ajustados no se ajustan a los datos en absoluto, sino solo la parte de los mismos que se agrupa alrededor de los lugares donde es tal que . A saber, estos son los puntos de datos menos informativos en su muestra : corresponden a aquellas observaciones para las cuales el componente de ruido es el más grande. Por lo tanto, su ajuste se tira hacia , por ejemplo, irrelevante.βl1xββ∗ E ( yxxβE(yy|xx)≈.5ββ∗=ββ:f(xx′ββ)≈.5
Una solución, como queda claro en la exposición anterior, es eliminar el requisito de imparcialidad. Una forma popular de sesgar el estimador (con alguna interpretación bayesiana adjunta) es incluir un término de contracción. Si volvemos a escalar la respuesta:
y+i=2(yi−.5),1≤i≤n
y, por conveniencia computacional, reemplace por otra función monótona - será conveniente que la secuela denote el primer componente del vector de parámetros como y los restantes ones - e incluya un término de contracción (por ejemplo, uno de la forma ), el problema de optimización resultante se convierte en:g ( xf(xx′ββ)c p - 1 γg(xx,[c,γγ])=xx′[c,γγ]cp−1| El | γγγ||γγ||2
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
Tenga en cuenta que en este nuevo problema de optimización (también convexo), la penalización para una observación clasificada correctamente es 0 y crece linealmente con para una clasificación clasificada, como en el pérdida. La solución para este segundo problema de optimización son los famosos coeficientes lineales svm (con separación perfecta). A diferencia de , tiene sentido aprender estos de los datos con una penalización de tipo TVD ('tipo' debido al término de sesgo) . En consecuencia, esta solución está ampliamente implementada. Ver por ejemplo el paquete R LiblineaR .l 1 [ c ∗ , γxx′[[c,γ]l1 β[c∗,γγ∗] [ c ∗ , γββ∗[c∗,γγ∗]