Respuestas:
p = 2
(También hay normas , que se definen de forma análoga, excepto para funciones en lugar de vectores o secuencias; en realidad, esto es lo mismo, ya que los vectores son funciones con dominios finitos).
No conozco ningún uso de una norma en una aplicación de aprendizaje automático donde , excepto donde . Por lo general, ve o , o, a veces, donde desea relajar el caso ; no es estrictamente convexo en , pero es, para . Esto puede hacer que encontrar la solución sea "más fácil" en ciertos casos.
En el contexto de la regularización, si agrega a su función objetivo, lo que está diciendo es que espera que sea escaso , es decir, en su mayoría compuesto por ceros. Es un poco técnico, pero básicamente, si hay una solución densa , es probable que haya una solución más escasa con la misma norma. Si espera que su solución sea densa, puede agregar a su objetivo, porque entonces es mucho más fácil trabajar con su derivada. Ambos sirven para evitar que la solución tenga demasiado peso.
La norma mixta entra cuando intentas integrar varias fuentes. Básicamente, desea que el vector de solución esté formado por varias piezas , donde es el índice de alguna fuente. La es solo la forma de todas las normas recopiladas en un vector. Es decir,
El propósito de esto no es "sobrepasar" un conjunto de soluciones, digamos usando . Las piezas individuales son escasas, pero no se arriesga a destruir un vector de solución completo al tomar la forma de todas las soluciones. Entonces usas el norm en el exterior en su lugar.
Espero que ayude.
Vea este documento para más detalles.