信息论基础-中国科学技术大学
- 格式:pdf
- 大小:1.68 MB
- 文档页数:56
第8章微分熵设X是一个随机变量,其累积分布定义函数为。
如果F(x)是连续的,则称该随机变量是连续的。
当F(x)的导数存在时,令f(x)F(x)。
若,则称f(x)是X的概f(x)=F’(x)率密度函数。
另外,使f(x)>0的所有x构成的集合称为X的支撑集。
一个以f(x)为密度函数的连续随机定义变量X的微分熵(differential entropy)定义为《信息论基础》中国科学技术大学刘斌1第8章微分熵设X是一个随机变量,其累积分布定义函数为。
如果F(x)是连续的,则称该随机变量是连续的。
当F(x)的导数存在时,令f(x)F(x)。
若,则称f(x)是X的概f(x)=F’(x)率密度函数。
另外,使f(x)>0的所有x构成的集合称为X的支撑集。
一个以f(x)为密度函数的连续随机定义变量X的微分熵(differential entropy)定义为《信息论基础》中国科学技术大学刘斌2微分熵的例子[0,a]上的均匀分布:例✓a<1时,h(X)<01时h(X)0正态分布:例《信息论基础》中国科学技术大学刘斌3连续随机变量的AEPAEP :对于一个独立同分布的随机变量序列来说, 设是一个服从密度函数f(x)的独立同分布的随机变量序列,则定理定义 对及任意的n ,定义f(x)的典型集如下定义其中中国科学技术大学刘斌4《信息论基础》连续随机变量的典型集性质集合的体积Vol(A)定义为定义连续随机变量的典型集有如下的性质连续随机变量的典型集有如下的性质:1.对于充分大的n ,定理2.对于所有的n ,33.对于充分大的n ,中国科学技术大学刘斌5《信息论基础》微分熵和离散熵的区别如果随机变量X的密度函数f(x)是黎曼定理可积的,那么《信息论基础》中国科学技术大学刘斌6微分熵和离散熵的区别H(X)是离散意义的熵,是信息熵,无限大h(X)是连续意义的熵,是微分熵h()是连续意义的熵是微分熵微分熵h(X)不代表信源X的平均不确定度,也不代表X每取一个数值所提供的平均信息量,不含有信息度量的内涵《信息论基础》中国科学技术大学刘斌7微分熵和离散熵的区别连续随机变量X经过精确到小数点后n比特位的量化处理后,熵的值大约是h(X)+n般情况下,在精确到位的意义下,()一般情况下,在精确到n h(X)+n 是为了描述X所需的平均比特数。
信息论基础1~81 绪论与概览2 熵相对熵与互信息2.1 熵H(X)=−∑x∈X p(x)logp(x)H(X)=−∑x∈Xp(x)logp(x)2.2 联合熵H(X,Y)=−∑x∈X∑y∈Y p(x,y)logp(x,y)H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)H(Y|X)=∑x∈X p(x)H(Y|X=x)H(Y|X)=∑x∈Xp(x)H(Y|X=x)定理2.2.1(链式法则): H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(X)+H(Y|X) 2.3 相对熵与互信息相对熵(relative entropy): D(p||q)=∑x∈X p(x)logp(x)q(x)=Eplogp(x)q(x)D(p||q)=∑x∈Xp(x)lo gp(x)q(x)=Eplogp(x)q(x)互信息(mutual information): I(X;Y)=∑x∈X∑y∈Y p(x,y)logp(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))I(X;Y) =∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)=D(p(x,y)||p(x)p(y))2.4 熵与互信息的关系I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)I(X;Y)=H(X)−H(X|Y)=H(Y)−H(Y|X)互信息I(X;Y)是在给定Y知识的条件下X的不确定度的缩减量I(X;Y)=H(X)+H(Y)−H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)2.5 熵,相对熵与互信息的链式法则定理 2.5.1(熵的链式法则): H(X1,X2,...,X n)=∑ni=1H(Xi|X i−1,...,X1)H(X1,X2,...,Xn)=∑i=1nH(Xi| Xi−1, (X1)定理 2.5.2(互信息的链式法则): I(X1,X2,...,X n;Y)=∑ni=1I(Xi;Y|X i−1,...,X1)I(X1,X2,...,Xn;Y)=∑i=1nI(Xi ;Y|Xi−1, (X1)条件相对熵: D(p(y|x)||q(y|x))=∑x p(x)∑yp(y|x)logp(y|x)q(y|x)=Ep(x,y)logp(Y|X)q( Y|X)D(p(y|x)||q(y|x))=∑xp(x)∑yp(y|x)logp(y|x)q(y|x)=Ep(x,y)logp (Y|X)q(Y|X)定理 2.5.3(相对熵的链式法则): D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))D(p(x,y)||q(x,y))=D( p(x)||q(x))+D(p(y|x)||q(y|x))2.6 Jensen不等式及其结果定理2.6.2(Jensen不等式): 若给定凸函数f和一个随机变量X,则Ef(X)≥f(EX)Ef(X)≥f(EX)定理2.6.3(信息不等式): D(p||q)≥0D(p||q)≥0推论(互信息的非负性): I(X;Y)≥0I(X;Y)≥0定理2.6.4: H(X)≤log|X|H(X)≤log|X|定理2.6.5(条件作用使熵减小): H(X|Y)≤H(X)H(X|Y)≤H(X)从直观上讲,此定理说明知道另一随机变量Y的信息只会降低X的不确定度. 注意这仅对平均意义成立. 具体来说, H(X|Y=y)H(X|Y=y) 可能比H(X)H(X)大或者小,或者两者相等.定理 2.6.6(熵的独立界): H(X1,X2,…,X n)≤∑ni=1H(Xi)H(X1,X2,…,Xn)≤∑i=1nH(Xi)2.7 对数和不等式及其应用定理 2.7.1(对数和不等式): ∑ni=1ailogaibi≥(∑ni=1ai)log∑ni=1ai∑ni=1bi∑i=1nailogaibi≥(∑i =1nai)log∑i=1nai∑i=1nbi定理2.7.2(相对熵的凸性): D(p||q)D(p||q) 关于对(p,q)是凸的定理2.7.3(熵的凹性): H(p)是关于p的凹函数2.8 数据处理不等式2.9 充分统计量这节很有意思,利用统计量代替原有抽样,并且不损失信息.2.10 费诺不等式定理2.10.1(费诺不等式): 对任何满足X→Y→X^,X→Y→X^, 设Pe=Pr{X≠X^},Pe=Pr{X≠X^}, 有H(Pe)+Pe log|X|≥H(X|X^)≥H(X|Y)H(Pe)+Pelog|X|≥H(X|X^)≥H(X|Y)上述不等式可以减弱为1+Pe log|X|≥H(X|Y)1+Pelog|X|≥H(X|Y)或Pe≥H(X|Y)−1log|X|Pe≥H(X|Y)−1log|X|引理 2.10.1: 如果X和X’独立同分布,具有熵H(X),则Pr(X=X′)≥2−H(X)Pr(X=X′)≥2−H(X)3 渐进均分性4 随机过程的熵率4.1 马尔科夫链4.2 熵率4.3 例子:加权图上随机游动的熵率4.4 热力学第二定律4.5 马尔科夫链的函数H(Yn|Y n−1,…,Y1,X1)≤H(Y)≤H(Y n|Y n−1,…,Y1)H(Yn|Yn−1,…,Y1,X1)≤H(Y)≤H(Yn|Yn−1,…,Y1)5 数据压缩5.1 有关编码的几个例子5.2 Kraft不等式定理5.2.1(Kraft不等式): 对于D元字母表上的即时码,码字长度l1,l2,…,l m l1,l2,…,lm必定满足不等式∑iD−li≤1∑iD−li≤15.3 最优码l∗i=−log Dpili∗=−logDpi5.4 最优码长的界5.5 唯一可译码的Kraft不等式5.6 赫夫曼码5.7 有关赫夫曼码的评论5.8 赫夫曼码的最优性5.9 Shannon-Fano-Elias编码5.10 香农码的竞争最优性5.11由均匀硬币投掷生成离散分布6 博弈与数据压缩6.1 赛马6.2 博弈与边信息6.3 相依的赛马及其熵率6.4 英文的熵6.5 数据压缩与博弈6.6 英语的熵的博弈估计7 信道容量离散信道: C=maxp(x)I(X;Y)C=maxp(x)I(X;Y)7.1 信道容量的几个例子7.2 对称信道如果信道转移矩阵p(y|x)p(y|x) 的任何两行相互置换,任何两列也相互置换,那么称该信道是对称的.7.3 信道容量的性质7.4 信道编码定理预览7.5 定义7.6 联合典型序列7.7 信道编码定理7.8 零误差码7.9 费诺不等式与编码定理的逆定理7.10 信道编码定理的逆定理中的等式7.11 汉明码7.12 反馈容量7.13 信源信道分离定理8 微分熵8.1 定义h(X)=−∫Sf(x)logf(x)dxh(X)=−∫Sf(x)logf(x)dx均匀分布 h(X)=logah(X)=loga正态分布h(X)=1/2log2πeδ2h(X)=1/2log2πeδ2 8.2 连续随机变量的AEP8.3 微分熵与离散熵的关系8.4 联合微分熵与条件微分熵8.5 相对熵与互信息8.6 微分熵, 相对熵以及互信息的性质。
信息论基础
信息论是一门研究信息传输和处理的科学。
它的基础理论主要有以下几个方面:
1. 信息的定义:在信息论中,信息被定义为能够消除不确定性的东西。
当我们获得一条消息时,我们之前关于该消息的不确定性会被消除或减少。
信息的量可以通过其发生的概率来表示,概率越小,信息量越大。
2. 熵:熵是一个表示不确定性的量。
在信息论中,熵被用来衡量一个随机变量的不确定性,即随机变量的平均信息量。
熵越大,表示随机变量的不确定性越高。
3. 信息的传输和编码:信息在传输过程中需要进行编码和解码。
编码是将消息转换为一种合适的信号形式,使其能够通过传输渠道传输。
解码则是将接收到的信号转换回原始消息。
4. 信道容量:信道容量是指一个信道能够传输的最大信息量。
它与信道的带宽、噪声水平等因素相关。
信道容量的
计算可以通过香浓定理来进行。
5. 信息压缩:信息压缩是指将信息表示为更为紧凑的形式,以减少存储或传输空间的使用。
信息压缩的目标是在保持
信息内容的同时,尽可能减少其表示所需的比特数。
信息论还有其他一些重要的概念和理论,如互信息、信道
编码定理等,这些都是信息论的基础。
信息论的研究不仅
在信息科学领域具有重要应用,还在通信、计算机科学、
统计学等领域发挥着重要作用。
信息论基础第二版习题答案信息论是一门研究信息传输和处理的学科,它的基础理论是信息论。
信息论的基本概念和原理被广泛应用于通信、数据压缩、密码学等领域。
而《信息论基础》是信息论领域的经典教材之一,它的第二版是对第一版的修订和扩充。
本文将为读者提供《信息论基础第二版》中部分习题的答案,帮助读者更好地理解信息论的基本概念和原理。
第一章:信息论基础1.1 信息的定义和度量习题1:假设有一个事件发生的概率为p,其信息量定义为I(p) = -log(p)。
求当p=0.5时,事件的信息量。
答案:将p=0.5代入公式,得到I(0.5) = -log(0.5) = 1。
习题2:假设有两个互斥事件A和B,其概率分别为p和1-p,求事件A和B 同时发生的信息量。
答案:事件A和B同时发生的概率为p(1-p),根据信息量定义,其信息量为I(p(1-p)) = -log(p(1-p))。
1.2 信息熵和条件熵习题1:假设有一个二进制信源,产生0和1的概率分别为p和1-p,求该信源的信息熵。
答案:根据信息熵的定义,信源的信息熵为H = -plog(p) - (1-p)log(1-p)。
习题2:假设有两个独立的二进制信源A和B,产生0和1的概率分别为p和1-p,求两个信源同时发生时的联合熵。
答案:由于A和B是独立的,所以联合熵等于两个信源的信息熵之和,即H(A,B) = H(A) + H(B) = -plog(p) - (1-p)log(1-p) - plog(p) - (1-p)log(1-p)。
第二章:信道容量2.1 信道的基本概念习题1:假设有一个二进制对称信道,其错误概率为p,求该信道的信道容量。
答案:对于二进制对称信道,其信道容量为C = 1 - H(p),其中H(p)为错误概率为p时的信道容量。
习题2:假设有一个高斯信道,信道的信噪比为S/N,求该信道的信道容量。
答案:对于高斯信道,其信道容量为C = 0.5log(1 + S/N)。
= pQhb) = = pWLh)124各章参考答案2. 1. (1) 4.17 比特;(2) 5.17 比特;(3) 1.17 比特; (4) 3.17 比特 2. 2. 1.42比特2. 3.(1) 225.6 比特;(2) 13.2 比特2. 4. (1) 24.07 比特;(2) 31.02 比特2. 5. (1)根据炳的可加性,一个复合事件的平均不确定性可以通过多次实验逐步解除。
如果我们使每次实验所获得的信息量最大。
那么所需要的总实验次数就最少。
用无秩码天平 的一次称重实验结果所得到的信息量为log3,k 次称重所得的信息量为klog3o 从12个硬币 中鉴别其中的一个重量不同(不知是否轻或重)所需信息量为log24。
冽31og3=log27>log24o 所以在理论上用3次称重能够鉴别硬币并判断其轻或重。
每次实验应使结果具有最大的炳。
其中的一个方法如下:第一次称重:将天平左右两盘各放4枚硬币,观察其结果:①平衡 ② 左倾③右倾。
i )若结果为①,则假币在未放入的4枚币,第二次称重:将未放入的4枚 中的3枚和已称过的3枚分别放到左右两盘,根据结果可判断出肃中没有假币;若有,还能 判断出轻和重,第三次称重:将判断出含有假币的三枚硬币中的两枚放到左右两盘中,便可 判断出假币。
订)若结果为②或③即将左盘中的3枚取下,将右盘中的3枚放到左盘中,未 称的3枚放到右盘中,观察称重缺码,若平衡,说明取下的3枚中含假币,只能判出轻重, 若倾斜方的不变,说明在左、右盘中未动的两枚中其中有一枚为假币,若倾斜方向变反,说 明从右盘取过的3枚中有假币,便可判出轻重。
(2)第三次称重类似i )的情况,但当两个硬币知其中一个为假,不知为哪个时, 第三步用一个真币与其中一个称重比较即可。
对13个外形相同的硬币情况.第一次按4,4,5分别称重,如果假币在一五个硬币的组里,则鉴 别所需信息量为Iogl0>log9=21og3,所以剩下的2次称重不能获得所需的信息.2. 6. (1) log2“=15 比特;(2)1比特;(3) 15个问题2. 7. 证明: (略)2. 8.证明: (略)/ 、 111 、 12.9. P (dibi) = - p(ci\bi )= 12P (cM — — P (sb) < , 12 ,6,2. 10.证明: (略) 2. 11.证明: (略)2.12.证明: (略)2 [3.(1) H(X) = H(Y) = 1, H(Z) = 0.544, H(XZ) = 1.406, H(YZ) = 1.406,H(XKZ) = 1.812(2)H(X/Y) = H(Y/X) = 0.810f H(X/Z) = 0.862, H(Z/X) = H(Z/Y) =0.405 , H(Y/Z) = 0.862, H(X/YZ) = H(Y/XZ) = 0.405, H(Z/XY) =(3)1(X;K) = 0.188 Z(X;Z) = 0.138 Z(K;Z) = 0.138 7(X;Y/Z) =0.457 , I(Y;Z/X) = I(X;Z/Y) = 0.406(单位均为比特/符号)p 游(000) = 1)= Pg(l°l)=服z(l 1°)= 714. X 1 Z ■,(2)P加(°°°)=P宓(111)= !(3)P加(°°°)= 〃加(°。