第二章信息的统计度量
- 格式:ppt
- 大小:931.50 KB
- 文档页数:46
信息统计量求法
信息统计量是用来描述或度量数据集中信息内容的指标。
常见的信息统计量包括平均值、中位数、众数、方差、标准差、四分位数等。
下面是一些常见的信息统计量求法:
1. 平均值(均值):将所有数据值相加,再除以数据的个数即可得到平均值。
2. 中位数:将数据按照从小到大的顺序排列,如果数据个数是奇数,则中间位置上的数据即为中位数;如果数据个数是偶数,则中间两个位置上的数据的平均值即为中位数。
3. 众数:指在数据集中出现次数最多的数值。
一个数据集可以有一个或多个众数,也有可能没有众数。
4. 方差:反映了数据离散程度的大小。
计算方法是将每个数据与平均值的差的平方进行求和,并除以数据个数。
5. 标准差:方差的平方根,用来度量数据的离散程度。
6. 四分位数:将数据按照从小到大的顺序排列,将数据分为四个等份。
第一四分位数是中间位置左侧一半数据的中位数,第二四分位数
即为中位数,第三四分位数是中间位置右侧一半数据的中位数。
以上只是常见的信息统计量之一,根据需要还可以使用其他的统计量来描述数据集的特征。
(有问题请更正并通知xiezg@ )第二章 信息的度量1. 一珍珠养殖场收获240颗外观及重量完全相同的特大珍珠,但不幸被人用外观相同但重量仅有微小差异的假珠换掉1颗。
(1)一人随手取出3颗,经测量恰好找出了假珠,问这一事件大约给出了多少比特的信息量;(2)不巧假珠又滑落进去,那人找了许久却未找到,但另一人说他用天平最多6次能找出,结果确是如此,问后一事件给出多少信息量;(3)对上述结果作出解释。
解:(1)从240颗珠子中取3颗,含1颗假珠的概率为80132402239==C C P)(32.680log log 22bit P I ==-=(2)240颗中含1颗假珠,用天平等分法最多6次即可找到假珠,是必然事件,因此信息量为0。
(3)按照shannon 对信息量的定义,只有事件含有不确知成分,才有信息量,且不确知成分越大,信息量越大,必然事件则没有信息量。
但从广义信息论来说,如果那人不知用天平二分法找假珠,另一人告之此事,使他由不知到知,也应该含有一定的信息量。
2.每帧电视图像可以认为是由3105个象素组成,所有象素均独立变化,且每一象素又取128个不同的亮度电平,并设亮度电平等概率出现。
问每帧图像含有多少信息量?如果一个广播员在约10000个汉字的字汇中选取1000个字来口述此电视图像,试问广播员描述此图像所广播的信息量是多少(假设汉字字汇是等概率分布,且彼此独立)?若要恰当地描述此图像,广播员在口述中至少需用多少汉字?解:设电视图像每个像素取128个不同的亮度电平,并设电平等概率出现,则每个像素亮度含有的信息量为7128)(H ==lb X 比特/像素一帧中像素均是独立变化的,则每帧图像信源就是离散亮度信源的无记忆N 次扩展信源。
得每帧会图像含有的信息量为6101.2)()(⨯==X NH X H N比特/每帧广播口述时,广播员是从10000个汉字字汇中选取的,假设汉字字汇是等概率分布的,则汉字字汇中每个汉字含有的信息量29.131000)(==lb Y H 比特/字广播员口述电视图像是从此汉字字汇信源中独立地选取1000个字来描述的。
1第2章 信息的度量2.1 同时扔一对质地均匀的骰子,当得知“两骰子面朝上点数之和为5”或“面朝上点数之和为8”或“两骰子面朝上点数是3和6”时,试问这三种情况分别获得多少信息量?解:某一骰子扔得某一点数面朝上的概率是相等的,均为1/6,两骰子面朝上点数的状态共有36种,其中任一状态出现都是等概率的,出现概率为1/36。
设两骰子面朝上点数之和为事件a ,有:⑴ a=5时,有1+4,4+1,2+3,3+2,共4种,则该事件发生概率为4/36=1/9,则信息量为I(a)=-logp(a=5)=-log1/9≈3.17(bit)⑵ a=8时,有2+6,6+2,4+4,3+5,5+3,共5种,则p(a)=5/36,则I(a)= -log5/36≈2.85(bit) ⑶ p(a)=2/36=1/18,则I(a)=-log1/18≈4.17(bit)2.2 如果你在不知道今天是星期几的情况下问你的朋友“明天是星期几”,则答案中含有多少信息量?如果你在已知今天是星期三的情况下提出同样的问题,则答案中你能获得多少信息量(假设已知星期一至星期日的排序)?解:设“明天是星期几”为事件a :⑴ 不知道今天是星期几:I(a)=-log1/7≈2.81(bit) ⑵ 知道今天是星期几:I(a)=-log1=0 (bit)2.3 居住某地区的女孩中有20%是大学生,在女大学生中有80%是身高1米6以上的,而女孩中身高1米6以上的占总数的一半。
假如我们得知“身高1米6以上的某女孩是大学生”的消息,求获得多少信息量?解:设“居住某地区的女孩是大学生”为事件a ,“身高1米6以上的女孩”为事件b ,则有: p(a)= 0.2,p(b|a)=0.8,p(b)=0.5,则“身高1米6以上的某女孩是大学生”的概率为:32.05.08.02.0)()|()()|(=⨯==b p a b p a p b a p信息量为:I=-logp(a|b)=-log0.32≈1.64(bit)2.4 从大量统计资料知道,男性中红绿色盲的发病率为7%,女性发病率为0.5%,如果你问一位男同志:“你是否是红绿色盲?”,他回答“是”或“否”,问这两个回答中各含有多少信息量?平均每个回答中含有多少信息量?如果你问一位女同志,则答案中含有的平均自信息量是多少?解:⑴ 男同志回答“是”的概率为7%=0.07,则信息量I=-log0.07≈3.84(bit) 男同志回答“否”的概率为1-7%=0.93,则信息量I=-log0.93≈0.10(bit) 平均信息量为:H 1=-(0.07×log0.07+0.93×log0.93) ≈0.37(bit/符号) ⑵ 问女同志的平均自信息量:H 2=-[0.05×log0.05+(1-0.05) ×log(1-0.05)] ≈0.045(bit/符号)2.5 如有7行9列的棋型方格,若有两个质点A 和B ,分别以等概率落入任一方格内,2且它们的坐标分别为(X A ,Y A )、(X B ,Y B ),但A 、B 不能落入同一方格内。