信息量和熵
- 格式:ppt
- 大小:342.50 KB
- 文档页数:49
信息论与编码理论习题答案LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】第二章 信息量和熵八元编码系统,码长为3,第一个符号用于同步,每秒1000个码字,求它的信息速率。
解:同步信息均相同,不含信息,因此 每个码字的信息量为 2⨯8log =2⨯3=6 bit因此,信息速率为 6⨯1000=6000 bit/s掷一对无偏骰子,告诉你得到的总的点数为:(a) 7; (b) 12。
问各得到多少信息量。
解:(1) 可能的组合为 {1,6},{2,5},{3,4},{4,3},{5,2},{6,1})(a p =366=61得到的信息量 =)(1loga p =6log = bit (2) 可能的唯一,为 {6,6})(b p =361得到的信息量=)(1logb p =36log = bit 经过充分洗牌后的一副扑克(52张),问:(a) 任何一种特定的排列所给出的信息量是多少?(b) 若从中抽取13张牌,所给出的点数都不相同时得到多少信息量?解:(a) )(a p =!521信息量=)(1loga p =!52log = bit (b) ⎩⎨⎧⋯⋯⋯⋯花色任选种点数任意排列13413!13)(b p =1352134!13A ⨯=1352134C 信息量=1313524log log -C = bit 随机掷3颗骰子,X 表示第一颗骰子的结果,Y 表示第一和第二颗骰子的点数之和,Z 表示3颗骰子的点数之和,试求)|(Y Z H 、)|(Y X H 、),|(Y X Z H 、)|,(Y Z X H 、)|(X Z H 。
解:令第一第二第三颗骰子的结果分别为321,,x x x ,1x ,2x ,3x 相互独立,则1x X =,21x x Y +=,321x x x Z ++=)|(Y Z H =)(3x H =log 6= bit )|(X Z H =)(32x x H +=)(Y H=2⨯(361log 36+362log 18+363log 12+364log 9+365log 536)+366log 6= bit )|(Y X H =)(X H -);(Y X I =)(X H -[)(Y H -)|(X Y H ]而)|(X Y H =)(X H ,所以)|(Y X H = 2)(X H -)(Y H = bit或)|(Y X H =)(XY H -)(Y H =)(X H +)|(X Y H -)(Y H 而)|(X Y H =)(X H ,所以)|(Y X H =2)(X H -)(Y H = bit),|(Y X Z H =)|(Y Z H =)(X H = bit )|,(Y Z X H =)|(Y X H +)|(XY Z H =+= bit设一个系统传送10个数字,0,1,…,9。
信息量,信息熵1. 信息量的多与少任何事都会承载⼀定的信息量,包括已发⽣和未发⽣的事,只是它们承载的信息量有所不同。
如昨天下⾬这个已知事件,因为已经发⽣,你我都知道这件事,故它的信息量为0。
但明天会下⾬这件事,因为未发⽣,所以这事的信息量就⼤。
从上⾯例⼦可以看出信息量是⼀个与事件发⽣概率相关的概念,⼀条信息的信息量跟这个信息能解答的问题的不确定性有关。
⼀条信息能解答的问题越不确定,那它包含的信息量就越⼤。
如猜⼀个骰⼦最后向上的那⾯是多少点的游戏,这个游戏可能的情况有6种,但是猜32⽀球队中谁获得世界杯冠军的游戏则有32种可能。
所以“哪⽀球队最终获得世界杯冠军”的信息量⽐“骰⼦最后向上那⾯是多少点”的信息量⼤,因为前者是从32种可能中确定答案,⽽后者是从6种可能中确定答案。
2. 信息量的计算假设我错过了某年世界杯⽐赛,现在要去问⼀个知道⽐赛结果的朋友“哪⽀球队最终获得世界杯冠军”?他要求我猜,猜完会告诉我是对还是错,但我每猜⼀次就要给他⼀块钱。
那么我需要付给他多少钱才能知道谁是冠军?解:我可以把球队编号,从1到32,然后问“冠军的球队在1-16号中吗?”。
假如他告诉我对了,我就问“冠军的球队在1-8号中吗?”。
如果他告诉我不对,我就⾃然就知道冠军队在9-16号中。
这样我只需要猜5次就可以知道哪⽀球队是冠军了(思路类似于折半查找)所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。
⾹农⽤“⽐特”(bit)来作为信息量的单位。
像上边“谁是世界杯冠军”这个问题的答案的信息量是5⽐特。
如果是64⽀球队,“谁是世界杯冠军”这个问题的答案的信息量就是6⽐特,因为要多猜⼀次。
对⾜球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。
因为他知道巴西,西班⽛,德国等这些强队夺冠的可能性⽐⽇本,韩国等球队⼤的多。
所以他可以先把强队分成⼀组,剩下的其它队伍⼀组。
然后问冠军是否在夺冠热门组⾥边。
重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直⾄找到冠军队,这样也许三次或四次就猜出结果了。
信息论与编码理论习题解第二章-信息量和熵2.1解: 平均每个符号长为:1544.0312.032=⨯+⨯秒 每个符号的熵为9183.03log 3123log 32=⨯+⨯比特/符号所以信息速率为444.34159183.0=⨯比特/秒2.2 解: 同步信号均相同不含信息,其余认为等概,每个码字的信息量为 3*2=6 比特; 所以信息速率为600010006=⨯比特/秒2.3 解:(a)一对骰子总点数为7的概率是366 所以得到的信息量为 585.2)366(log 2= 比特 (b) 一对骰子总点数为12的概率是361 所以得到的信息量为 17.5361log 2= 比特 2.4 解: (a)任一特定排列的概率为!521,所以给出的信息量为 58.225!521log 2=- 比特 (b) 从中任取13张牌,所给出的点数都不相同的概率为13521313521344!13C A =⨯所以得到的信息量为 21.134log 1313522=C 比特.2.5 解:易证每次出现i 点的概率为21i,所以比特比特比特比特比特比特比特398.221log 21)(807.1)6(070.2)5(392.2)4(807.2)3(392.3)2(392.4)1(6,5,4,3,2,1,21log )(2612=-==============-==∑=i i X H x I x I x I x I x I x I i ii x I i2.6 解: 可能有的排列总数为27720!5!4!3!12= 没有两棵梧桐树相邻的排列数可如下图求得, Y X Y X Y X Y X Y X Y X Y X Y图中X 表示白杨或白桦,它有⎪⎪⎭⎫⎝⎛37种排法,Y 表示梧桐树可以栽种的位置,它有⎪⎪⎭⎫⎝⎛58种排法,所以共有⎪⎪⎭⎫ ⎝⎛58*⎪⎪⎭⎫⎝⎛37=1960种排法保证没有两棵梧桐树相邻,因此若告诉你没有两棵梧桐树相邻时,得到关于树排列的信息为1960log 27720log 22-=3.822 比特 2.7 解: X=0表示未录取,X=1表示录取; Y=0表示本市,Y=1表示外地;Z=0表示学过英语,Z=1表示未学过英语,由此得比特比特比特)01(log )01()0()00(log )00()0()(8113.04log 4134log 43)()(02698.04110435log 104354310469log 10469)1()01(log )01()0()00(log )00()0;(104352513/41)522121()0(/)1())11()1,10()10()1,00(()01(104692513/43)104109101()0(/)0())01()0,10()00()0,00(()00()(4512.04185log 854383log 83)1()01(log )01()0()00(log )00()0;(8551/4121)0(/)1()10()01(8351/43101)0(/)0()00()00()(,251225131)1(,2513100405451)10()1()00()0()0(,54511)1(,51101432141)10()1()00()0()0(,41)1(,43)0(222222222222+=====+=======+==+======+========⨯⨯+========+=========⨯⨯+========+=========+======+========⨯=========⨯=========-===⨯+====+======-===⨯+⨯====+=========x y p x y p x p x y p x y p x p X Y H X H c x p z x p z x p x p z x p z x p z X I z p x p x y p x y z p x y p x y z p z x p z p x p x y p x y z p x y p x y z p z x p b x p y x p y x p x p y x p y x p y X I y p x p x y p y x p y p x p x y p y x p a z p y z p y p y z p y p z p y p x y p x p x y p x p y p x p x p2.8 解:令{}{}R F T Y B A X ,,,,==,则比特得令同理03645.0)()(5.0,02.03.0)2.05.0(log 2.0)()2.05.0(log )2.05.0()2.03.0(log )2.03.0(5.0log 5.03.0log 3.0)5log )1(2.02log )1(5.0log )1(3.05log 2.0log 3.02log 5.0(2.0log 2.0)2.05.0(log )2.05.0()2.03.0(log )2.03.0()()();()(2.0)(,2.05.0)(2.03.0)1(3.05.0)()()()()(5.0max 2'2222223102231022222==∴==+-=---++-+=-+-+-+++-----++-=-===-=+=-⨯+=+==p p I p I p pp p I p p p p p p p p p p p p p p X Y H Y H Y X I p I R P p F P pp p B P B T P A P A T P T P2.9 & 2.12解:令X=X 1,Y=X 1+X 2,Z=X 1+X 2+X 3, H(X 1)=H(X 2)=H(X 3)= 6log 2 比特 H(X)= H(X 1) = 6log 2 =2.585比特 H(Y)= H(X 2+X 3)=6log 61)536log 365436log 364336log 363236log 36236log 361(2222222+++++ = 3.2744比特 H(Z)= H(X 1+X 2+X 3)=)27216log 2162725216log 2162521216log 2162115216log 2161510216log 216106216log 21663216log 2163216log 2161(222222222++++++= 3.5993比特 所以H(Z/Y)= H(X 3)= 2.585 比特 H(Z/X) = H(X 2+X 3)= 3.2744比特 H(X/Y)=H(X)-H(Y)+H(Y/X) = 2.585-3.2744+2.585 =1.8955比特H(Z/XY)=H(Z/Y)= 2.585比特 H(XZ/Y)=H(X/Y)+H(Z/XY) =1.8955+2.585 =4.4805比特 I(Y;Z)=H(Z)-H(Z/Y) =H(Z)- H(X 3)= 3.5993-2.585 =1.0143比特 I(X;Z)=H(Z)-H(Z/X)=3.5993- 3.2744 =0.3249比特 I(XY ;Z)=H(Z)-H(Z/XY) =H(Z)-H(Z/Y)=1.0143比特 I(Y;Z/X)=H(Z/X)-H(Z/XY) = H(X 2+X 3)-H(X 3) =3.2744-2.585 =0.6894比特 I(X;Z/Y)=H(Z/Y)-H(Z/XY) =H(Z/Y)-H(Z/Y) =02.10 解:设系统输出10个数字X 等概,接收数字为Y,显然101)(101)()()(919===∑∑==i j p i j p i Q j w i iH(Y)=log10比特奇奇奇奇偶18log 81101452log 211015)(log)()()(log )()(0)(log ),()(log ),()(22,2222=⨯⨯⨯⨯+⨯⨯⨯=--=--=∑∑∑∑∑∑∑≠====x y p x y p x p x x p x x p x p x y p y x p x y p y x p X Y H x y x i y x y x所以I(X;Y)= 3219.2110log 2=-比特2.11 解:(a )接收前一个数字为0的概率 2180)0()()0(==∑=i i i u p u q wbits p pw u p u I )1(log 11log )0()0(log )0;(2212121-+=-==(b )同理 418)00()()00(==∑=ii iu p u q wbits p p w u p u I )1(log 22)1(log )00()00(log )00;(24122121-+=-== (c )同理 818)000()()000(==∑=ii iu p u q wbits p p w u p u I )1(log 33)1(log )000()000(log )000;(28132121-+=-== (d )同理 ))1(6)1(()0000()()0000(4226818p p p p u p u q w ii i+-+-==∑=bitsp p p p p p p p p p w u p u I 42264242268142121)1(6)1()1(8log ))1(6)1(()1(log )0000()0000(log )0000;(+-+--=+-+--==2.12 解:见2.9 2.13 解: (b))/()/()/(1log)()/(1log)()/()/(1log)()/(1log)()/(XY Z H X Y H xy z p xyz p x y p xyz p xy z p x y p xyz p x yz p xyz p X YZ H x y z xyzxyzxyz+=+===∑∑∑∑∑∑∑∑∑∑∑∑(c))/()/(1log)/()()/(1log)/()()/(X Z H x z p xy z p xy p xy z p xy z p xy p XY Z H xyzxyz=≤=∑∑∑∑∑∑(由第二基本不等式) 或)1)/()/((log )/()()/()/(log)/()()/(1log)/()()/(1log)/()()/()/(=-⨯≤=-=-∑∑∑∑∑∑∑∑∑∑∑∑xy z p x z p e xy z p xy p xy z p x z p xy z p xy p x z p xy z p xy p xy z p xy z p xy p X Z H XY Z H xyzxyzxyzxyz(由第一基本不等式)所以)/()/(X Z H XY Z H ≤(a))/()/()/()/()/(X YZ H XY Z H X Y H X Z H X Y H =+≥+等号成立的条件为)/()/(x z p xy z p =,对所有Z z Y y X x ∈∈∈,,,即在给定X 条件下Y 与Z 相互独立。
信息熵越大我们说换位思考是成功者的必备品质之一,但是,换位一定要完整地换位,也就是不能在一个思考过程中,前面部分的主语是你,后面部分的主语又变成了他。
用一句简单的话来总结——不能搞精神分裂,否则你得到的只是精神病似的混乱,离成功越来越远。
——坤鹏论在坤鹏论看来,许多人对于信息熵的不理解,主要是因为:第一,概率,概率是信息熵的核心,偏偏大多数人不懂、不理解概率。
第二,有数学公式,尽管只是中学时学的数学公式,但我们早把它们还给了老师。
第三,概率和信息熵是反比关系,概率越高,信息熵越低;概率越低,信息熵越高,理解它需要在脑子里面先转个弯。
第四,讨论信息熵的人多、文章更多,但是人们理解的层次不同,于是正错纠缠,让人难以分辨。
今天和明天,坤鹏论根据自身学习过程中的从疑惑到解惑,讲几个信息熵学习中最常见的迷惑。
今天先讲最经典的——到底是信息熵越大,信息量越多?还是信息熵越大,信息量越少?很多人很难理解的是——信息熵越大,信息量越多。
坤鹏论发现,网上对此有相当多的错误说法。
今天就来细细掰饬一下它。
理解了它,对信息熵的科普级学习也基本算是圆满了。
第一,信息、信息熵、信息量都是针对接收者而言。
有个词叫:立场坚定。
坤鹏论觉得“立场”这个词很好,我们在分析问题,看待事物时,一定要分清立场,也就是你此时此刻是站立在谁的位置上的。
我们经常犯晕乎,或者是被别人说晕乎,其中关键之一就是其中掺杂了立场变化,我们却没有意识到。
这就是《官场现形记》中的那句名言:见人说人话,见鬼说鬼话,见了官场说官场上的话,见了生意人说生意场中的话。
这就是讲话者的立场不断随着他的谈话对象而改变,见风使舵,左右逢源,应变能力极强。
但是,要相信的是,人只要一开口,背后都带着利益诉求。
所以,看待事物以及听别人对它的评论,一定要先找到主语(立场)是谁。
这很重要,就像坤鹏论之前所说的,看评论听建议,一定多长个心眼,要思考判断如果实施下来,谁是最大受益者,这样才能透过语言的迷雾看透背后的利益纠葛,最大限度保你不会“被别人卖,还替人家数钱”。
信息为什么还有单位,熵为什么用log来计算?前言学习观10里大家一定会有不少疑惑,其中之一就是那些信息到底是怎么计算出来的。
在该视频中得以解答。
不过最少还仍然有两个问题:•为什么网上有那么多说”熵是描述混乱或无序的?•为什么做题消耗了那么多能量,小明最后只获得了2 bits 的信息?第一个问题:牵扯到热力学熵的一种应用,然而不管考虑的是不是热力学熵,这种描述都是非常具有误导性的。
因为热力学熵就是信息熵的特例,如果不能想明白二者的关系,意味着还没搞明白。
接下来的视频会详细解释。
题外话,很多人会觉得这个概念非常难的原因是因为它们反常识,违背你日常生活经验所构建出的模型。
多数人都会根据自己已有的经验进行判断,从而产生抵触。
但是不要认为自己很笨,因为信息和热力学熵的关系困扰科学家们都足足一百年之久。
第二个问题:牵扯到信息与知识的关系。
是最主要想讲的内容。
视频正文01—“不科学啊”上个视频学习了如何定性的判断什么是熵和信息,其中有个例子:当小明不知道选择题是 ABCD 哪个选项时:•小红告小明“D 选项是错的”,提供了 0.415 bits 的信息•再告诉小明“A选项是错的”,提供了 0.585 bits 的信息•再告诉小明“B选项是错的”,提供了 1 bit 的信息可明明每次都是告诉他一个错误选项,为什么三次提供给小明的信息量却都不相同?信息量到底是怎么计算的?信息为什么还有单位?02—“以此类推”回想一下,什么东西有单位?质量,温度等物理量。
没错,信息也是一个物理量。
要测量这个物理量,不妨回想一下我们是怎么测量质量的,“千克”最初又是怎么被定义出来的?其实最初我们并不知道千克的质量,而是选择了一个参照物,把这个物体的质量就称为千克。
当想要测量其他物体的质量时,就看这个物体的质量相当于多少个参照物体的质量。
这里的”多少个“便是千克。
如果换另一个参照物体,那么单位就会变化,比如斤。
测量信息是也是一样,既然信息消除的是不确定性,那么就选择另一个事件的不确定性作为参照事件。
第二章信息量和熵一、离散变量的非平均信息量1、离散变量的非平均自信息量集合{X;p(x)}中某个事件x的自信息量定义为:=—log p(x) ——表达式是唯一的;I(x)=log1()p x其中,p(x)为事件x发生的概率。
含义:完全确定事件x所必需的信息量;事件x中固有(包含)的信息量;事件x出现的先验不确定性大小。
2、联合概率事件的非平均自信息量联合空间{XY,p(xy)}中任一事件xy,x∈X和y∈Y的联合自信息量定义为:I(xy)=—log p(xy)同理:I(xyz)=—log p(xyz) 。
3、离散变量的非平均条件信息量联合空间{XY,p(xy)}中,事件x∈X和y∈Y,事件x在事件y 给定(已知)时的条件信息量定义为:I(x/y)=—log(/)p x y含义:已知y时事件x所具有的不确定性;给定y时事件x中还剩余的信息量;给定y条件下完全确定事件x所必需的信息量。
4、离散事件的非平均互信息量两个离散事件集{X ,p(x)}和{Y ,p(y)}中,事件y ∈Y 的出现给出关于事件x ∈X 的信息量定义为: I (x ;y )=log(/)()p x y p x 含义:事件x 和y 之间的互信息量;从事件y 中可获得关于事件x 的信息量。
5、离散事件的非平均条件互信息量对于三个离散事件集的联合概率空间{XYZ ,p(xyz )},给定事件z Z ∈条件下,事件x X ∈和事件y Y ∈之间的条件互信息量定义为:I (x ;y /z )=log(/)(/)p x yz p x z =log (/)(/)(/)p xy z p x z p y z 注:I (x ;y /z )应理解为:I{(x ;y )/z}含义:已知事件z 的条件下,从事件y 中可获得关于事件x 的信息量。
6、离散事件非平均信息量的性质 ● 非平均自信息量非负; I (x )=—log p(x)≥0; I (x/y )=—log (/)p x y ≥0 。
信息熵和信息量的关系嘿,朋友们,今天我们来聊聊信息熵和信息量。
别担心,不会是枯燥的数学课,我们轻松聊聊,大家也可以从中得到点乐趣。
你知道吗?信息熵这个词听起来就像是高深莫测的黑科技,但其实它跟我们的生活息息相关,就像那杯咖啡,早上没有它我可是没法睁开眼睛的。
信息熵,简单来说,就是衡量信息不确定性的一个概念。
想象一下,你在一个派对上,大家都在聊天,突然有个人走过来,带着一张神秘的纸条。
你一看,哦,原来是今晚的惊喜嘉宾是谁。
你能想象那种兴奋吗?这就是信息量的感觉,越少的人知道的事,越让人感到新鲜和刺激。
反过来,信息熵就像是派对上的气氛,越混乱,大家越不知道接下来会发生什么,嘿,那可真是个谜。
再说说生活中的信息熵。
比如说,早上起床,打开冰箱,发现里面什么都有,也什么都没有。
各种瓶瓶罐罐,看得你眼花缭乱,想要做个早餐,可又不知道先从哪开始。
那就是信息熵高,选择多得让人头疼。
相反,冰箱里如果就剩一瓶酱油和一块豆腐,哎呀,这信息量可是少得可怜,决定晚饭吃啥就简单多了。
你看,信息量多的时候,选择多,但有时候反而让人烦。
人生就像一场博弈,有时候信息多得让人喘不过气,有时候却又觉得无从下手。
还有个有趣的点,信息熵其实跟概率有关。
就像买彩票一样,中奖的概率可小得像针尖上的蚊子。
越多人买彩票,中奖的可能性就越低,信息量就越少。
可是,等你真的中奖了,那份惊喜就像天上掉下来的馅饼,简直让人心花怒放。
相反,如果你天天都中小奖,虽然信息量多,但你也习惯了这种“幸运”。
慢慢地,那种刺激感就会降低,反而觉得无趣。
这就像生活中的小确幸,平平淡淡才是真,有时候反而能更让人开心。
说到这里,你可能会问,怎么把这些抽象的概念用在我们的日常生活里呢?很简单,咱们要学会把生活中的信息熵调低。
比如说,简化你的选择。
每当你打开衣柜,面对满满一柜子的衣服时,不妨试试把衣服分类,挑出你最喜欢的那几件。
哎,少即是多,选择少了,心情自然也会好些。
这就像在书店里,书架上摆满了各种书籍,最后你只会拿起一本你熟悉的,没错,信息量的选择让你失去了热情。