El concepto central aquí es la complejidad de Kolmogorov , y más específicamente la compresibilidad . Para tener una sensación intuitiva de compresibilidad, considere dos cadenas y B ∈ B ∗ , donde B = { 0 , 1 } . DejarA∈B∗B∈B∗B={0,1}
1010 1010 1010 , yA=1010 1010 1010 1010
0110 0111 1001 .B=1011 0110 0111 1001
Tenga en cuenta que . ¿Cómo podríamos cuantificar cuánta información tiene A o B ? Si pensamos en la teoría de la información clásica, en general, transmitir una cadena de longitud n toma n bits en promedio. Sin embargo, no podemos decir cuántos bits necesitamos para transmitir una cadena específica de longitud n .|A|=|B|=16ABnnn
¿Por qué el contenido de información de una cadena aleatoria no es cero?
En una mirada más cercana, podemos ver que, de hecho, . Sin embargo, es mucho más difícil decir si B tiene ningún patrón obvio en su estructura, por lo menos, parece y se siente más al azar que A . Como podemos encontrar un patrón en A , podemos comprimir fácilmente A y representarlo con menos de 16 bits. Del mismo modo, dado que no es fácil detectar ningún patrón en B , no podemos comprimirlo tanto. Por lo tanto, podemos decir que B tiene más información que una . Además, una cadena aleatoria de longitud nA=108BAAA16BBAntiene información máxima ya que no hay forma de que podamos comprimirla y, por lo tanto, representarla con menos de bits.n
¿Qué es información útil, entonces?
Para información útil , sí, hay una definición usando una máquina de Turing . La información útil en x ∈ B ∗ esTx∈B∗
minT { l(T)+C(x|T):T∈{T0,T1,...}},
donde indica la longitud de una codificación de auto-limitante para una máquina de Turing T . La notación es normalmente tal que C ( x ) indica la complejidad de Kolmogorov de x y C ( x | y ) la complejidad Kolmogorov condicional de x dado y .l(T)TC(x)xC(x|y)xy
Aquí la cantidad de información útil contenida en x . Lo que podríamos preguntar es qué T seleccionará entre aquellos que satisfagan el requisito. El problema es separar un programa más corto x ∗ en partes x ∗ = p q st p representa una T apropiada . Esta es realmente la idea que generó la longitud mínima de descripción (MDL) .TxTx∗x∗=pqpT