Quiero construir un índice de criminalidad e índice de inestabilidad política basado en noticias

Tengo este proyecto paralelo en el que rastreo los sitios web de noticias locales en mi país y quiero crear un índice de criminalidad e índice de inestabilidad política. Ya he cubierto la parte de recuperación de información del proyecto. Mi plan es hacer:

Extracción de temas sin supervisión.
Detección de casi duplicados.
Clasificación supervisada y nivel de incidentes (crimen / político - alto / medio / bajo).

Usaré python y sklearn y ya he investigado los algoritmos que puedo usar para esas tareas. Creo que 2. podría darme un factor de relevancia de una historia: cuantos más periódicos publiquen sobre una historia o tema, más relevante será para ese día.

Mi próximo paso es crear el índice mensual, semanal y diario (en todo el país y por ciudades) en función de las características que tengo, y estoy un poco perdido aquí ya que la "sensibilidad a la inestabilidad" podría aumentar con el tiempo. Quiero decir, el índice del mayor incidente de inestabilidad del año pasado podría ser menor que el índice de este año. También si usar escala fija 0-100 o no.

Más tarde, me gustaría poder predecir incidentes basados en esto, por ejemplo, si la sucesión de eventos en las últimas semanas está conduciendo a un incidente mayor. Pero por ahora estaré contento de hacer funcionar la clasificación y construir el modelo de índice.

Agradecería cualquier puntero a un documento, lecturas relevantes o pensamientos. Gracias.

PD: Perdón si la pregunta no pertenece aquí.

ACTUALIZACIÓN : Todavía no "lo logré", pero recientemente hubo noticias sobre un grupo de científicos que están trabajando en un sistema para predecir los eventos utilizando archivos de noticias y publicaron un documento relevante Mining the Web para predecir eventos futuros (PDF )

machine-learning classification text-mining

— Rolando Max
fuente

Para la parte técnica (las herramientas) recomendaría dos libros como un buen punto de partida para O'Reiley: Inteligencia colectiva (con código Python), Aprendizaje automático (con código R) ... capturan temas relacionados con los suyos. El siguiente paso podría ser el sitio web de Manning ... Para la parte metodológica, recomendaría el grupo de Web Semántica en LinkedIn.

— Radu Marius Florin

Super mucho como esta pregunta. ¡¡Mantennos informados!!

— entropía

Considere variaciones en la puntuación GINI.

Está normalizado y su salida varía de 0 a 1.

EDITAR:

Por qué GINI es "genial" o al menos potencialmente apropiado:

Es una medida de desigualdad o inequidad. Se utiliza como una medida sin escala para caracterizar la heterogeneidad de las redes sin escala, incluidas las redes infinitas y aleatorias. Es útil para construir árboles CART porque es la medida del poder de división de una división de datos en particular.

Por su alcance:

Hay menos errores de redondeo. Los rangos lejos de 1.0 tienden a sufrir problemas numéricos.
es legible por humanos y más accesible por humanos. Los humanos tienen una comprensión más concreta de los objetos que de miles de millones.

Porque está normalizado:

las comparaciones de puntajes son significativas, un 0.9 en un país significa el mismo nivel de relativa falta de uniformidad que un 0.9 en cualquier otro país.
Se normaliza contra la curva de Lorenz para una uniformidad perfecta, por lo tanto, los valores son indicadores relevantes de la relación de la distribución de valores de interés con la curva de Lorenz.

Referencias

— EngrStudent - Restablece a Monica
fuente

Bienvenido al sitio, @EngrStudent. ¿Le importaría decir un poco más sobre el coeficiente GINI y por qué es la respuesta correcta aquí? Como eres nuevo aquí y comienzas a contribuir, es posible que desees leer nuestras preguntas frecuentes , que contienen mucha información sobre el sitio.

— gung - Restablecer Monica