Si los datos son , es decir, un n -secuencia de un espacio muestral X , las probabilidades puntuales empíricos son
p ( x ) = 1Xnorte= x1... xnortenX
parax∈X. Aquíδx(xi)es uno sixi=xy cero en caso contrario. Esto es, p (x)es la frecuencia relativa dexen la secuencia observada. Laentropíade la distribución de probabilidad dada por las probabilidades puntuales empíricos es
H( p )=-Σ
p^(x)=1n|{i∣xi=x}|=1n∑i=1nδx(xi)
x∈Xδx(xi)xi=xp^(x)xH(p^)=−∑x∈Xp^(x)logp^(x)=−∑x∈X1n∑i=1nδx(xi)logp^(x)=−1n∑i=1nlogp^(xi).
The latter identity follows by interchanging the two sums and noting that
∑x∈Xδx(xi)logp^(x)=logp^(xi).
From this we see that
H(p^)=−1nlogp^(xn)
with
p^(xn)=∏ni=1p^(xi) and using the terminology from the question this is the empirical entropy of the
empirical probability distribution. As pointed out by @cardinal in a comment,
−1nlogp(xn) is the empirical entropy of a given probability distribution with point probabilities
p.