Si tomo todo el conjunto de datos y divido el número total de bolas que sacaron a un bateador por el número total de bolas lanzadas, puedo ver que tendría la probabilidad promedio de que un jugador de bolos saque a un bateador: será alrededor de 0.03 (con suerte ¿No me he equivocado ya?)
Desafortunadamente, esto quizás ya no sea exactamente lo que estás buscando.
Supongamos que tenemos un solo jugador de bolos y dos bateadores: Don Bradman y yo. (Sé muy poco sobre el cricket, así que si estoy haciendo algo aquí, avíseme). Los juegos son algo como:
- Don va al bate y sale al 99º tazón.
- Voy a batear y salgo inmediatamente.
- Don va al bate y sale al 99º tazón.
- Voy a batear y salgo inmediatamente.
En este caso, hay cuatro outs de 200 bolos, por lo que la probabilidad marginal de que un jugador de bolos saque a un bateador se estima en 4/200 = 2%. Pero en realidad, la probabilidad de que Don esté fuera es más del 1%, mientras que la mía es del 100%. Entonces, si eliges un bateador y un jugador de bolos al azar, la probabilidad de que este jugador de bolos saque a este bateador esta vez es más como (50% de probabilidad de que hayas elegido a Don) * (1% de probabilidad de que salga) + (50% de probabilidad de que hayas elegido yo) * (100% de probabilidad de salir) = 50.05%. Pero si eliges un lanzamiento al azar, entonces hay un 2% de posibilidades de que salga. Por lo tanto, debe pensar detenidamente sobre cuál de esos modelos de muestreo está pensando.
De todos modos, tu propuesta no es una locura. Más simbólicamente, sea el jugador de bolos ym el bateador; dejemos que f ( b , m ) sea la probabilidad de que b salga m . Entonces estás diciendo:bmf(b,m)bm
f(b,m)=Em′[f(b,m′)]Eb′[f(b′,m)]Eb′,m′[f(b′,m′)].
Esto tiene la propiedad deseada de que:
es igualmente consistente si toma medias sobre solobom.
Eb,m[f(b,m)]=Eb,m′[f(b,m′)]Eb′,m[f(b′,m)]Eb′,m′[f(b′,m′)]=Eb,m[f(b,m)];
simetro
Tenga en cuenta que en este caso podemos asignar
Su hipótesis es que se puede observarg(b)yh(m)razonablemente bien a partir de los datos. Mientras (a) tenga suficientes juegos [lo que hace] y (b) todos los jugadores jueguen entre sí con frecuencias razonablemente similares, entonces esto está bien.
C: = Eb , m[ f( b , m ) ]sol( b ) : = Emetro[ f( b , m ) ] / C--√h ( m ) : = Esi[ f( b , m ) ] / C--√para que f( b , m ) = g( b )h ( m ) .
sol( b )h ( m )
Para explicar un poco (b): imagina que tienes datos de un montón de juegos profesionales, y un montón de juegos míos jugando con mis amigos. Si no hay superposición, tal vez me veo muy bien en comparación con mis amigos, así que tal vez pienses que soy mucho mejor que el peor jugador profesional. Esto es obviamente falso, pero no tienes ningún dato para refutar eso. Sin embargo, si tienes una pequeña superposición, donde jugué contra un jugador profesional una vez y fui destruido, entonces los datos respaldan la clasificación de mis amigos y yo como peores que los profesionales, pero tu método no lo justificaría. Técnicamente, el problema aquí es que está asumiendo que tiene una buena muestra para, por ejemplo, misi′[ f( b′, m ) ], pero su distribución está sesgada.si′
Por supuesto, sus datos no se verán tan mal, pero dependiendo de la estructura de la liga o lo que sea, podría tener algunos elementos de ese problema.
Puede intentar solucionarlo con un enfoque diferente. El modelo propuesto para es en realidad una instancia de modelos de factorización de matriz de bajo rango comunes en el filtrado colaborativo , como en el problema de Netflix . Allí, eliges la función gF y h ( m ) para que sea de dimensión r , y represente f ( b , m ) = g ( b ) T h ( m ) . Puedes interpretar r > 1sol( b )h ( m )rF( b , m ) = g( b )Th ( m )r > 1como la complejidad de su modelo de un solo puntaje de "calidad" a tener puntajes a lo largo de múltiples dimensiones: tal vez ciertos jugadores de bolos lo hacen mejor contra ciertos tipos de bateadores. (Esto se ha hecho, por ejemplo, para juegos de la NBA ).
La razón por la que se llaman factorización matricial es porque si crea una matriz con tantas filas como bombines y tantas columnas como bateadores, puede escribir esto comoF
donde has factorizado unN×M
⎡⎣⎢⎢⎢⎢⎢F( b1, m1)F( b2, m1)⋮F( bnorte, m1)F( b1, m2)F( b2, m2)⋮F( bnorte, m2)......⋱...F( b1, mMETRO)F( b2, mMETRO)⋮F( bnorte, mMETRO)⎤⎦⎥⎥⎥⎥⎥F= ⎡⎣⎢⎢sol( b1)⋮sol( bnorte)⎤⎦⎥⎥sol⎡⎣⎢⎢h ( m1)⋮h ( mMETRO)⎤⎦⎥⎥THT
norte× Mmatriz
en un
N × r una
G y una
M × r uno
H .
Fnorte× rsolMETRO× rH
Por supuesto, no puedes observar directamente. El modelo habitual es que puedes observar entradas ruidosas de F al azar; en su caso, se llega a observar un sorteo de una distribución binomial con un número aleatorio de ensayos para cada entrada de F .FFF
Podría construir un modelo de probabilidad como, por ejemplo:
solyo k∼ N( 0 , σ2sol)Hj k∼ N( 0 , σ2H)Fyo j= GTyoHjRyo j∼ Bi n o m i a l ( nyo j, Fyo j)
norteyo jRyo jσsolσH
Este no es un modelo perfecto: por un lado, ignora que norteFyo j[ 0 , 1 ]solH