A1. ¿Qué es la reducción de dimensionalidad? Si piensa en datos en una matriz, donde las filas son instancias y las columnas son atributos (o características), entonces la reducción de dimensionalidad está asignando esta matriz de datos a una nueva matriz con menos columnas. Para la visualización, si piensa en cada columna matriz (atributo) como una dimensión en el espacio de características, la reducción de dimensionalidad es la proyección de instancias desde el espacio dimensional superior (más columnas) hacia un subespacio dimensional inferior (menos columnas).
El objetivo típico de esta transformación es (1) preservar la información en la matriz de datos, mientras se reduce la complejidad computacional; (2) mejorar la separabilidad de diferentes clases en los datos.
A2. Reducción de la dimensionalidad como selección de características o extracción de características: utilizaré el omnipresente conjunto de datos de Iris , que podría decirse que es el 'hola mundo' de la ciencia de datos. Brevemente, el conjunto de datos de Iris tiene 3 clases y 4 atributos (columnas). Ilustraré la selección y extracción de características para la tarea de reducir la dimensionalidad del conjunto de datos Iris de 4 a 2.
Calculo la covarianza por pares de este conjunto de datos usando la biblioteca en Python llamada seaborn. El código es: sns.pairplot (iris, tono = "especie", marcadores = ["o", "s", "D"]) La figura que obtengo es
que puedo seleccionar el par de atributos (2 dimensiones) que proporcionan La mayor separación entre las 3 clases (especies) en el conjunto de datos de Iris. Este sería un caso de selección de características.
El siguiente es la extracción de características. Aquí, estoy proyectando el espacio de características de 4 dimensiones de Iris en un nuevo subespacio de 2 dimensiones, que no está alineado en el eje con el espacio original. Estos son nuevos atributos. Por lo general, se basan en la distribución en el espacio original de alta dimensión. El método más popular es el Análisis de componentes principales, que calcula los vectores propios en el espacio original.
Obviamente, no estamos restringidos a usar solo una proyección lineal y global en un subespacio basado en vectores propios. También podemos usar métodos de proyección no lineal. Aquí hay un ejemplo de PCA no lineal que utiliza redes neuronales.
Se extraen los atributos (dimensiones) del último ejemplo.de los 4 atributos originales usando redes neuronales. Puede experimentar con varios tipos de PCA para el conjunto de datos de iris utilizando este código de métodos pca .
Resumen: Si bien los métodos de extracción de características pueden parecer superiores en rendimiento a la selección de características, la elección se basa en la aplicación. Los atributos de la extracción de características generalmente pierden la interpretación física, lo que puede o no ser un problema basado en la tarea en cuestión. Por ejemplo, si está diseñando una tarea de recopilación de datos muy costosa con sensores costosos y necesita economizar los atributos (número de sensores diferentes), desearía recolectar una pequeña muestra piloto utilizando todos los sensores disponibles y luego seleccionar los que son más informativos para la tarea de recopilación de grandes datos.