Estoy trabajando en un problema de clasificación de texto usando Random Forest como clasificadores, y un enfoque de bolsa de palabras. Estoy usando la implementación básica de Random Forests (el presente en scikit), que crea una condición binaria en una sola variable en cada división. Dado esto, ¿hay alguna diferencia entre usar características simples de tf (frecuencia de término)? donde cada palabra tiene un peso asociado que representa el número de apariciones en el documento, o tf-idf (término frecuencia * frecuencia inversa del documento), donde el término frecuencia también se multiplica por un valor que representa la relación entre el número total de documentos y el número de documentos que contienen la palabra)?
En mi opinión, no debería haber ninguna diferencia entre estos dos enfoques, porque la única diferencia es un factor de escala en cada característica, pero dado que la división se realiza a nivel de características individuales, esto no debería hacer una diferencia.
¿Estoy en lo cierto en mi razonamiento?