¿Cuál es el nombre del operador que toma un vector categórico y lo transforma en la representación binaria usando una codificación de un punto? Me pregunto ya que estoy escribiendo un artículo científico y necesito un nombre propio para eso.
¿Cuál es el nombre del operador que toma un vector categórico y lo transforma en la representación binaria usando una codificación de un punto? Me pregunto ya que estoy escribiendo un artículo científico y necesito un nombre propio para eso.
Respuestas:
Los estadísticos llaman codificación de uno en caliente como codificación ficticia . Como otros sugirieron (incluyendo Scortchi en los comentarios), este no es un sinónimo exacto, pero este es el término que generalmente se usaría para las variables categóricas codificadas 0-1.
Ver también: "Variable ficticia" versus "variable indicadora" para datos nominales / categóricos
Depende de tu público objetivo.
Como dijo Tim , los estadísticos lo llaman codificación ficticia, y eso es lo que esperaría ver al describir algo como un modelo de regresión. "Se incluyeron variables codificadas simuladas para ajustar la ubicación de la tienda". Creo que llamarlo una codificación única parece un poco extraño aquí.
Sin embargo, como también dijo otro Tim , la codificación única es bastante común en la literatura de aprendizaje automático. Implica débilmente la existencia de nodos (como en una red neuronal), cables físicos (en un dispositivo) o algo así, al menos para mí.
El término proviene de la ingeniería electrónica. ¿Piensa quién llamaría a 1 "caliente"? Solo aquellos que trabajan con electricidad, donde "caliente" o "vivo" significa que hay potencial eléctrico en el cable . "Uno caliente" se refiere al diseño del circuito donde el nivel discreto de señal eléctrica en un cable se descodificaría en caliente / frío en un conjunto de cables. Supongo que algunas personas de aprendizaje automático con antecedentes de EE encontraron la analogía convincente.
En econometría y estadísticas puede encontrar variables dummy
o indicator
variables, que son bastante similares porque se utilizan para representar categorías distintas con sus indicadores distintos. Sin embargo, hay una sutil diferencia. Por ejemplo, crea dummies K-1 para las categorías K, porque la categoría base corresponde a todos los dummies establecidos en 0. En contraste, creo que en una codificación activa tiene cables K, donde la categoría base tendrá su propio cable ( variable).
Estoy entrenado estadísticamente, y recientemente he oído hablar de la "codificación única" en aprendizaje automático / comp. Por lo general, me acabo de referir a la matriz one-hotted como matriz de diseño / matriz de datos / marco de diseño.
En ciencias físicas e ingeniería, se llama el delta de Kronecker (generalizado) .
El delta de Kronecker es realmente útil en Sigma / Pi / Einstein / etc. anotaciones ya que permite que los términos se especifiquen condicionalmente.
Solo para relacionar esto con las estructuras de programación comunes, el delta de Kronecker condition?1:0
, donde ?:
está el operador condicional .