熵(entropy)是表示随机变量不确定性的度量.设X是一个取有限个值的离散随机变量,其概率分布为P(χ=xi)=pi,i=1,2,…,nP(\chi = x_i) = p_i, i = 1, 2, \dots, nP(χ=xi)=pi,i=1,2,…,n则随机变量X的熵定义为H(χ)=−∑i=1npilogpiH(\chi) = -\sum_{i=1}^n p_i\log{p_i} H(χ)=−i=1∑npilogpi当pi=0p_i=0pi=0时,定义0log0=00\log{0}=00log0=0通常上式中对数以2为底或者以e为底.
熵只依赖于X的分布,与X的取值无关,X的熵也记作H(p)=−∑i=1npilogpiH(p)=-\sum_{i=1}^np_i\log{p_i}H(p)=−i=1∑npilogpi有取值范围0⩽H(P)⩽logn0\leqslant{H(P)\leqslant{\log{n}}}0⩽H(P)⩽logn
∵0⩽pi⩽1且对数的底数大于1, ∴logpi⩽0, ∴0⩽H(p)\because0\leqslant{p_i\leqslant{1}}且对数的底数大于1,\space\space\space\space\therefore\log{p_i}\leqslant{0},\space\space\space\therefore0\leqslant{H(p)}∵0⩽pi⩽1且对数的底数大于1, ∴logpi⩽0, ∴0⩽H(p)当均匀分布时,熵值最大,由于均匀分布时,限定越小,不确定性越大,熵取最大值.当均匀分布时,熵值最大,由于均匀分布时,限定越小,不确定性越大,熵取最大值.当均匀分布时,熵值最大,由于均匀分布时,限定越小,不确定性越大,熵取最大值.取pi=1n,H(p)=logn,综上,有0⩽H(P)⩽logn □取p_i={1\over{n}},H(p)=\log{n},综上,有0\leqslant{H(P)\leqslant{\log{n}}}\space\space\space\space\square取pi=n1,H(p)=logn,综上,有0⩽H(P)⩽logn □熵值最大的取值是根据熵的定义得到的.
参考:
《统计学习方法》,李航,p60.
726

被折叠的 条评论
为什么被折叠?



