Levante la medida en minería de datos


36

¿Busqué en muchos sitios web para saber qué hará exactamente el ascensor? Los resultados que encontré fueron sobre usarlo en aplicaciones, no en sí mismo.

Sé sobre la función de soporte y confianza. Desde Wikipedia, en la minería de datos, el levantamiento es una medida del rendimiento de un modelo para predecir o clasificar casos, comparándolo con un modelo de elección aleatoria. ¿Pero cómo? La confianza * es el valor del ascensor. También busqué otras fórmulas, pero no puedo entender por qué los gráficos de levantamiento son importantes en la precisión de los valores pronosticados. Quiero decir, ¿qué política y razón hay detrás del levantamiento?


2
Necesito contexto aquí. En marketing, este sería un gráfico que indicaría el porcentaje de aumento de ventas esperado de varias actividades de marketing, pero probablemente tenga un contexto diferente en mente.
zbicyclist

Respuestas:


59

Daré un ejemplo de cómo es útil "levantar" ...

Imagine que está ejecutando una campaña de correo directo en la que envía una oferta a los clientes con la esperanza de que respondan. Los datos históricos muestran que cuando envía su base de clientes por completo al azar, aproximadamente el 8% de ellos responden al envío (es decir, entran y compran con la oferta). Entonces, si envía 1,000 clientes, puede esperar 80 respondedores.

Ahora, decide ajustar un modelo de regresión logística a sus datos históricos para encontrar patrones que sean predictivos de si es probable que un cliente responda a un envío de correos. Usando el modelo de regresión logística, a cada cliente se le asigna una probabilidad de responder y usted puede evaluar la precisión porque sabe si realmente respondió. Una vez que cada cliente tiene asignada su probabilidad, los clasifica del cliente con la puntuación más alta a la más baja. Entonces podría generar algunos gráficos de "elevación" como estos:

ingrese la descripción de la imagen aquí

Ignora la tabla superior por ahora. El gráfico inferior dice que después de clasificar a los clientes según su probabilidad de responder (de mayor a menor), y luego dividirlos en diez compartimientos iguales, la tasa de respuesta en el compartimento n. ° 1 (el 10% de los principales clientes) es 29 % vs 8% de clientes aleatorios, para un aumento de 29/8 = 3.63. Para el momento en que llegamos a los clientes calificados en la cuarta casilla, hemos capturado tantos de los tres anteriores que la tasa de respuesta es más baja de lo que esperaríamos enviar al azar a las personas.

Mirando la tabla superior ahora, lo que esto dice es que si usamos los puntajes de probabilidad en los clientes, podemos obtener el 60% del total de respondedores que recibiríamos por correo al azar enviando solo el 30% de los clientes con puntajes más altos. Es decir, utilizando el modelo podemos obtener el 60% de la ganancia esperada para el 30% del costo del correo enviando solo el 30% de los clientes calificados, y esto es a lo que realmente se refiere el ascensor .


Buena explicación, muchas gracias. ¿Podría decirme en la tabla de elevación por qué necesitamos una muestra aleatoria? Comprendí que el 8% es aleatorio, pero ¿por qué es necesario rastrearlo al azar? Vi otro gráfico que traza el promedio de valores y tampoco sé la razón de la existencia del promedio
Nickool el

Lo que obtuve es que lift = 3.63 dice que hasta la columna 4 tenemos mejores tasas de respuesta que el 8%, entonces simplemente asumes la columna 1 y al considerar el 29% (30% en estimación) solo consideraste la columna 1 ¿Entonces qué levantamiento hizo con 3.63?
Nickool

1
¡Oh Dios mío! ¡Entendí mi error, el 30% no se relaciona con el 29%, el 30% significa 3/10 3 primeras columnas de datos! Ahora lo entendí completamente: DI estoy tan feliz !!!!! gracias>: D <
Nickool

1
@nik: Digamos que cuesta $$ 1 en papel y franqueo para enviar por correo a cada cliente. Ingenuamente, podríamos gastar 1 = 300 ahora y esperamos 48 clientes. A continuación, estimaríamos cuánta ganancia es probable de cada cliente. Tenemos Spend- 300-get-48- y cuál elijamos depende de la ganancia por cliente. 1000metrounayolyonortesolunall1000dotustometromirsunanorterewmimiXpagsmidot8300)thminortewmimiXpagsmidottosolmit60 601000-solmit-80-dotustometromirsvsSpagsminortere-
Josh Hemann

1
@ user1700890 El gráfico superior a menudo se etiqueta como un gráfico de ganancia acumulativa, mientras que el gráfico inferior no es lo mismo que un gráfico de elevación acumulativo (donde la elevación nunca puede ser inferior a 1), pero divide los datos en diez contenedores separados.
RobertF

3

Los gráficos de elevación representan la relación entre la respuesta de un modelo frente a la ausencia de ese modelo. Por lo general, se representa por el porcentaje de casos en la X y la cantidad de veces que la respuesta es mejor en el eje Y. Por ejemplo, un modelo con elevación = 2 en el punto 10% significa:

  • Sin ningún modelo que tome un 10% de la población (sin orden porque no hay modelo), la proporción de y = 1 sería el 10% de la población total con y = 1.

  • Con el modelo obtenemos 2 veces esta proporción, es decir, esperamos obtener el 20% de la población total con y = 1.En la etiqueta de caracteres X representa los datos ordenados por la predicción. El primer 10% es el 10% de las predicciones principales


3

La elevación no es más que la relación de confianza a la confianza esperada. En el área de las reglas de asociación: "Una relación de elevación mayor que 1.0 implica que la relación entre el antecedente y el consecuente es más significativa de lo que se esperaría si los dos conjuntos fueran independientes. Cuanto mayor sea la relación de elevación, más significativa será la asociación. " Por ejemplo-

si una base de datos de supermercados tiene 100,000 transacciones en el punto de venta, de las cuales 2,000 incluyen los artículos A y B, y 800 de ellas incluyen el artículo C, la regla de asociación "Si se compran A y B, entonces C se compra en el mismo viaje ", tiene un soporte de 800 transacciones (alternativamente 0.8% = 800 / 100,000) y una confianza del 40% (= 800 / 2,000). Una forma de pensar en el soporte es que es la probabilidad de que una transacción seleccionada aleatoriamente de la base de datos contenga todos los elementos en el antecedente y el consecuente, mientras que la confianza es la probabilidad condicional de que una transacción seleccionada aleatoriamente incluya todos los elementos en el en consecuencia, dado que la transacción incluye todos los elementos del antecedente.

Usando el ejemplo anterior, la Confianza esperada, en este caso, significa "confianza, si comprar A y B no aumenta la probabilidad de comprar C." Es el número de transacciones que incluye el consecuente dividido por el número total de transacciones. Suponga que el número total de transacciones para C es 5,000. Por lo tanto, la confianza esperada es 5,000 / 1,00,000 = 5%. Para el ejemplo de supermercado, Lift = Confianza / Confianza esperada = 40% / 5% = 8. Por lo tanto, Lift es un valor que nos da información sobre el aumento de la probabilidad de la parte entonces (consecuente) dada la parte if (antecedente). aquí está el enlace al artículo fuente


2

Levantar es solo una medida para medir la importancia de la regla

es una medida para verificar si esta regla está en la lista por casualidad o si estamos esperando

Elevación = Confianza / Confianza esperada


0

Digamos que estamos usando el ejemplo de una tienda de comestibles que está probando la validez de una regla de asociación que tiene un antecedente y un consecuente (por ejemplo: "Si un cliente compra pan, también comprará mantequilla").

Si observa todas las transacciones y examina una al azar, la probabilidad de que esa transacción contenga el consecuente es "Confianza esperada". Si observa todas las transacciones que contienen el antecedente y selecciona una transacción aleatoria, la probabilidad de que esa transacción contenga el consecuente es "Confianza". "Levantar" es esencialmente la diferencia entre estos dos. Con el levantamiento, podemos examinar la relación entre dos elementos que tienen una alta confianza (si la confianza es baja, el levantamiento es esencialmente irrelevante).

Si tienen una gran confianza y poca elevación, entonces todavía sabemos que los artículos se compran con frecuencia juntos, pero no sabemos si el consecuente está sucediendo debido al antecedente o si es solo una coincidencia (tal vez ambos se compran juntos a menudo porque Ambos son productos muy populares pero no tienen ningún tipo de relación entre ellos).

Sin embargo, si la confianza y la elevación son altas, entonces podemos suponer razonablemente que el consecuente está sucediendo debido al antecedente. Cuanto más alto sea el levantamiento, menor será la probabilidad de que la relación entre los dos elementos sea solo una coincidencia. En términos matemáticos:

Elevación = Confianza / Confianza esperada

En nuestro ejemplo, si la confianza de nuestra regla fuera alta y el aumento fuera bajo, eso significaría que muchos clientes están comprando pan y mantequilla, pero no sabemos si se debe a alguna relación especial entre el pan y la mantequilla o si el pan y la mantequilla son solo artículos populares individualmente y el hecho de que a menudo aparecen juntos en los carritos de supermercado es solo una coincidencia. Si la confianza en nuestra regla es alta y la elevación es alta, esto indica una correlación bastante fuerte entre el antecedente y el consecuente, lo que significa que podemos asumir razonablemente que los clientes están comprando mantequilla debido al hecho de que están comprando pan. Cuanto más alto sea el elevador, más confianza tendremos en esta asociación.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.