信息论与编码
- 格式:doc
- 大小:2.05 MB
- 文档页数:50
信息论与编码
信息论是一门研究信息传输、存储和处理的学科。
它的基本概念是由克劳德·香农于20世纪40年代提出的。
信息论涉及了许多重要的概念和原理,其中之一是编码。
编码是将信息从一种形式转换为另一种形式的过程。
在信息论中,主要有两种编码方式:源编码和信道编码。
1. 源编码(Source Coding):源编码是将信息源中的符号序列转换为较为紧凑的编码序列的过程。
它的目标是减少信息的冗余度,实现信息的高效表示和传输。
著名的源编码算法有霍夫曼编码和算术编码等。
2. 信道编码(Channel Coding):信道编码是为了提高信息在信道传输过程中的可靠性而进行的编码处理。
信道编码可以通过添加冗余信息来使原始信息转换为冗余编码序列,以增加错误检测和纠正的能力。
常见的信道编码算法有海明码、卷积码和LDPC码等。
编码在通信中起着重要的作用,它可以实现对信息的压缩、保护和传输的控制。
通过合理地选择编码方式和算法,可以在信息传输过程中提高传输效率和可靠性。
信息论和编码理论为信息传输和存储领域的发展提供了理论基础和数学工具,广泛应用于通信系统、数据压缩、加密解密等领域。
《信息论与编码》课程教学大纲一、课程基本信息课程代码:16052603课程名称:信息论与编码英文名称:Information Theory and Coding课程类别:专业课学时:48学分:3适用对象:信息与计算科学考核方式:考试先修课程:数学分析、高等代数、概率论二、课程简介《信息论与编码》是信息科学类专业本科生必修的专业理论课程。
通过本课程的学习,学生将了解和掌握信息度量和信道容量的基本概念、信源和信道特性、编码理论等,为以后深入学习信息与通信类课程、为将来从事信息处理方面的实际工作打下基础。
本课程的主要内容包括:信息的度量、信源和信源熵、信道及信道容量、无失真信源编码、有噪信道编码等。
Information Theory and Coding is a compulsory professional theory course for undergraduates in information science. Through this course, students will understand and master the basic concepts of information measurement and channel capacity, source and channel characteristics, coding theory, etc., lay the foundation for the future in-depth study of information and communication courses, for the future to engage in information processing in the actual work.The main contents of this course include: information measurement, source and source entropy, channel and channel capacity, distortion-free source coding, noisy channel coding, etc。
信息论与编码第⼀章1、信息,信号,消息的区别信息:是事物运动状态或存在⽅式的不确定性的描述消息是信息的载体,信号是消息的运载⼯具。
2、1948年以“通信的数学理论”(A mathematical theory of communication )为题公开发表,标志着信息论的正式诞⽣。
信息论创始⼈:C.E.Shannon(⾹农)第⼆章1、⾃信息量:⼀个随机事件发⽣某⼀结果后所带来的信息量称为⾃信息量,简称⾃信息。
单位:⽐特(2为底)、奈特、笛特(哈特)2、⾃信息量的性质(1)是⾮负值(2) =1时, =0, =1说明该事件是必然事件。
(3) =0时, = , =0说明该事件是不可能事件。
(4)是的单调递减函数。
3、信源熵:各离散消息⾃信息量的数学期望,即信源的平均信息量。
)(log )(])(1[log )]([)( 212i ni i i i a p a p a p E a I E X H ∑=-===单位:⽐特/符号。
(底数不同,单位不同)信源的信息熵;⾹农熵;⽆条件熵;熵函数;熵。
4、信源熵与信息量的⽐较(书14页例2.2.2)()log () 2.1.3 i i I a p a =-()5、信源熵的意义(含义):(1)信源熵H(X)表⽰信源输出后,离散消息所提供的平均信息量。
(2)信源熵H(X)表⽰信源输出前,信源的平均不确定度。
(3)信源熵H(X)反映了变量X 的随机性。
6、条件熵:(书15页例2.2.3) 7、联合熵:8、信源熵,条件熵,联合熵三者之间的关系:H(XY)= H(X)+H(Y/X) H(XY)= H(Y)+H(X/Y)条件熵⼩于⽆条件熵,H(Y/X)≤H(Y)。
当且仅当y 和x 相互独⽴p(y/x)=p(y),H(Y/X)=H(Y)。
两个条件下的条件熵⼩于⼀个条件下的条件熵H(Z/X,Y)≤H(Z/Y)。
当且仅当p(z/x,y)=p(z/y)时取等号。
联合熵⼩于信源熵之和, H(YX)≤H(Y)+H(X)当两个集合相互独⽴时得联合熵的最⼤值 H(XY)max =H(X)+H(Y) 9、信息熵的基本性质:(1)⾮负性;(2)确定性;(3)对称性;(4)扩展性(5)可加性 ( H(XY) = H(X)+ H(Y) X 和Y 独⽴ H (XY )=H (X )+ H (Y/X )H (XY )=H (Y )+ H (X/Y ) )(6)(重点)极值性(最⼤离散熵定理):信源中包含n 个不同离散消息时,信源熵H(X)有当且仅当X 中各个消息出现的概率全相等时,上式取等号。
信息论与编码实验报告一、实验目的信息论与编码是一门涉及信息的度量、传输和处理的学科,通过实验,旨在深入理解信息论的基本概念和编码原理,掌握常见的编码方法及其性能评估,提高对信息处理和通信系统的分析与设计能力。
二、实验原理(一)信息论基础信息熵是信息论中用于度量信息量的重要概念。
对于一个离散随机变量 X,其概率分布为 P(X) ={p(x1), p(x2),, p(xn)},则信息熵H(X) 的定义为:H(X) =∑p(xi)log2(p(xi))。
(二)编码原理1、无失真信源编码:通过去除信源中的冗余信息,实现用尽可能少的比特数来表示信源符号,常见的方法有香农编码、哈夫曼编码等。
2、有噪信道编码:为了提高信息在有噪声信道中传输的可靠性,通过添加冗余信息进行纠错编码,如线性分组码、卷积码等。
三、实验内容及步骤(一)信息熵的计算1、生成一个离散信源,例如信源符号集为{A, B, C, D},对应的概率分布为{02, 03, 01, 04}。
2、根据信息熵的定义,使用编程语言计算该信源的信息熵。
(二)香农编码1、按照香农编码的步骤,首先计算信源符号的概率,并根据概率计算每个符号的编码长度。
2、确定编码值,生成香农编码表。
(三)哈夫曼编码1、构建哈夫曼树,根据信源符号的概率确定树的结构。
2、为每个信源符号分配编码,生成哈夫曼编码表。
(四)线性分组码1、选择一种线性分组码,如(7, 4)汉明码。
2、生成编码矩阵,对输入信息进行编码。
3、在接收端进行纠错译码。
四、实验结果与分析(一)信息熵计算结果对于上述生成的离散信源,计算得到的信息熵约为 184 比特/符号。
这表明该信源存在一定的不确定性,需要一定的信息量来准确描述。
(二)香农编码结果香农编码表如下:|信源符号|概率|编码长度|编码值|||||||A|02|232|00||B|03|174|10||C|01|332|110||D|04|132|111|香农编码的平均码长较长,编码效率相对较低。
信息论与编码实验报告一、实验目的1.了解信息论与编码的基本概念和原理。
2.学习如何通过信息论与编码方法实现对数据的压缩和传输。
3.掌握信息论与编码实验的实验方法和实验技能。
4.提高实验设计、数据分析和报告撰写的能力。
二、实验内容1.通过对输入信源进行编码,实现对数据的压缩。
2. 比较不同编码方法的压缩效果,包括Shannon-Fano编码和霍夫曼编码。
3.通过传输信道对编码后的数据进行解码,还原原始信源。
4.分析并比较不同编码方法的传输效果,包括码率和传输质量。
三、实验原理1.信息论:熵是信息论中衡量信源不确定性的指标,熵越小表示信源的可预测性越高,在编码过程中可以压缩数据。
2. 编码方法:Shannon-Fano编码通过分治的方法将输入信源划分为不同的子集,分别进行编码;霍夫曼编码则通过构建最佳二叉树的方式,将较常出现的信源符号编码为较短的二进制码,较少出现的信源符号编码为较长的二进制码。
3.传输信道:信道可能存在误码和噪声,通过差错控制编码可以在一定程度上保障传输数据的正确性和完整性。
四、实验步骤1. 对给定的输入信源进行Shannon-Fano编码和霍夫曼编码。
2.计算编码后的码率,分析不同编码方法的压缩效果。
3.将编码后的数据传输到信道,模拟信道中的误码和噪声。
4.对传输后的数据进行解码,还原原始信源。
5.比较不同编码方法的传输质量,计算误码率和信噪比。
五、实验结果与分析1. 编码结果:通过对输入信源进行编码,得到了Shannon-Fano编码和霍夫曼编码的码表。
2.压缩效果:计算了不同编码方法的码率,比较了压缩效果。
3.传输结果:模拟信道传输后的数据,对数据进行解码,还原原始信源。
4.传输质量:计算了误码率和信噪比,分析了不同编码方法的传输质量。
六、实验总结通过本次实验,我深刻理解了信息论与编码的基本概念和原理,并掌握了信息论与编码实验的实验方法和实验技能。
在实验过程中,我遇到了一些困难,比如对编码方法的理解和实验数据的处理。
教案信息论与编码课程目标:本课程旨在帮助学生理解信息论的基本原理,掌握编码技术的基本概念和方法,并能够应用这些知识解决实际问题。
教学内容:1.信息论的基本概念:信息、熵、信源、信道、编码等。
2.熵的概念及其计算方法:条件熵、联合熵、互信息等。
3.信源编码:无失真编码、有失真编码、哈夫曼编码等。
4.信道编码:分组码、卷积码、汉明码等。
5.编码技术的应用:数字通信、数据压缩、密码学等。
教学方法:1.讲授:通过讲解和示例,向学生介绍信息论与编码的基本概念和原理。
2.案例分析:通过分析实际问题,让学生了解信息论与编码的应用。
3.实践操作:通过实验和练习,让学生掌握编码技术的具体应用。
1.引入:介绍信息论与编码的基本概念和重要性,激发学生的学习兴趣。
2.讲解:详细讲解信息论的基本原理和编码技术的基本方法,包括信源编码和信道编码。
3.案例分析:通过分析实际问题,让学生了解信息论与编码的应用,如数字通信、数据压缩等。
4.实践操作:通过实验和练习,让学生亲自动手实现编码过程,加深对知识点的理解。
5.总结:回顾本课程的内容,强调重点和难点,提供进一步学习的建议。
教学评估:1.课堂参与度:观察学生在课堂上的表现,包括提问、回答问题、参与讨论等。
2.作业完成情况:评估学生对作业的完成情况,包括正确性、规范性和创新性。
3.实验报告:评估学生的实验报告,包括实验结果的正确性、实验分析的深度和实验报告的写作质量。
1.教材:选用一本适合初学者的教材,如《信息论与编码》。
2.参考文献:提供一些参考文献,如《信息论基础》、《编码理论》等。
3.在线资源:提供一些在线资源,如教学视频、学术论文等。
教学建议:1.鼓励学生积极参与课堂讨论和提问,提高他们的学习兴趣和主动性。
2.在讲解过程中,尽量使用简单的语言和生动的例子,帮助学生更好地理解复杂的概念。
3.鼓励学生进行实践操作,通过实验和练习,加深对知识点的理解。
4.提供一些实际问题,让学生运用所学知识解决,培养他们的应用能力。
第一章绪论(第一讲)(2课时)主要内容:(1)教学目标(2)教学计划(3)参考书(4)考试问题(5)信息论的基本概念(6)信息论发展简史和现状(7)通信系统的基本模型重点:通信系统的基本模型难点:通信系统的基本模型特别提示:运用说明:本堂课作为整本书的开篇,要交待清楚课程开设的目的,研究的内容,对学习的要求;在讲解过程中要注意结合一些具体的应用实例,避免空洞地叙述,以此激发同学的学习兴趣,适当地加入课堂提问,加强同学的学习主动性。
信息论与编码(Informatic s & Coding)开场白教学目标:本课程主要讲解香农信息论的基本理论、基本概念和基本方法,以及编码的理论和实现原理。
介绍信息的统计度量,离散信源,离散信道和信道容量;然后介绍无失真信源编码、有噪信道编码,以及限失真信源编码等,然后介绍信道编码理论,最后也简单介绍了密码学的一些知识。
教学重点:信息度量、无失真信源编码、限失真信源编码、信道编码的基本理论及实现原理。
教学计划:信息论:约20学时信道编码:约19学时*密码学:约8学时参考书:1.信息论与编码,曹雪虹张宗橙编,北京邮电大学出版社,20012.信息论—基础理论与应用,傅祖芸编著,电子工业出版社,20013.信息理论与编码,姜丹钱玉美编著4.信息论与编码,吴伯修归绍升祝宗泰俞槐铨编著,1987考试问题:第一章绪论信息论的基本概念信息论发展简史和现状通信系统的基本模型§1.1 信息论的基本概念信息论是一门应用近代数理统计方法来研究信息的传输和处理的科学。
在涉及这门课程的具体内容之前,很有必要在引言中,首先放宽视野,从一般意义上描述、阐明信息的基本含意。
然后,再把眼光收缩到信息论的特定的研究范围中,指明信息论的假设前提,和解决问题的基本思路。
这样,就有可能帮助读者,在学习、研究这门课程之前,建立起一个正确的思维方式,有一个正确的思路,以便深刻理解、准确把握以下各章节的具体内容。
信息论与编码《信息论与编码》复习提纲第1章绪论1、信息的概念,通俗、⼴义、狭义的概念2、信息、消息、信号3、通信系统模型4、通信系统的技术指标,有效性、可靠性第2章信源与信息熵1、信源的分类2、信源的数学模型3、马尔克夫信源4、离散信源的⾃信息、信息熵5、条件熵和联合熵6、互信息及其性质7、条件熵之间的关系,维拉图8、信息熵的性质9、信息熵的计算,各种概率的计算、各种熵的计算(例2-9, p.21)10、连续信源的熵,绝对熵和相对熵11、最⼤熵定理,峰值功率受限、平均功率受限12、离散序列信源的熵,平均符号熵、条件熵、极限熵13、信源冗余度及产⽣的原因第3章信道与信道容量1、信道模型,转移矩阵、2、信道种类:BSC、DMC、离散时间⽆记忆信道、波形信道3、信道容量的定义4、⼏种特殊信道的信道容量、BSC信道C~ε曲线5、离散序列信道及其容量(BSC⼆次扩展信道)6、连续信道及其容量,Shannon公式7、信源与信道的匹配,信道冗余度第4章信息率失真函数1、失真函数、失真矩阵、平均失真2、信息率失真函数,定义、物理意义,保真度准则3、信息率失真函数的性质,信息率失真函数曲线4、信息率失真函数与信道容量的⽐较5、某些特殊情况下R(D) 的表⽰式第5章信源编码1、信源编码的基本概念(主要任务、基本途径)2、码的基本概念、分类3、唯⼀可译码的含义,充要条件4、码树图及即时码的判别5、定长编码定理,编码信息率,编码效率6、变长编码定理(Shannon第⼀定理),编码剩余度,紧致码7、Shannon编码,⾃信息与码长的联系8、Fano编码,与码树图的联系、是否是紧致码9、Huffman编码,计算平均码长、信息传输率、编码效率(例5-7, p.96)10、Shannon第三定理(限失真编码定理)及逆定理11、游程编码,基本原理、特性、主要应⽤12、算术编码,基本思想第6章信道编码1、差错,差错符号,差错⽐特,差错图样类型2、纠错码分类,差错控制系统分类3、随机编码,Shannon第⼆定理(信道编码定理),差错概率、译码规则、平均差错概率4、可靠性函数曲线5、差错控制途径、措施,噪声均化、交错(交织)6、码距与纠、检错能⼒7、最优译码、最⼤似然译码、最⼩汉明距离译码8、线性分组码,基本概念,码重9、⽣成矩阵和校验矩阵,系统形式(例6-2, p.137)10、伴随式与标准阵列译码11、循环码及其特征,⼏种常⽤循环码12、卷积码,基本概念、编码原理、编码器结构、卷积码描述⽅法、Viterbi译码第7章加密编码1、加密编码中的基本概念2、安全性,保密性,真实性3、对称(单密钥)体制与⾮对称(双密钥)体制1.信息论研究的⽬的是提⾼信息系统的___可靠性___,____有效性____,____安全性___,以便达到系统的最优化。
信息论与编码技术简介信息论与编码技术是计算机科学与通信工程领域中非常重要的研究方向,对于数字通信、数据压缩、错误检测与纠正等问题具有重要意义。
信息论是研究信息传输、存储和处理的数学理论,而编码技术则是利用信息论的基本原理设计和实现高效的编码方案。
本文将对信息论和编码技术进行介绍,并介绍其中的一位杰出研究者朱春华的贡献。
信息论信息论是由克劳德·香农于1948年提出的,他在论文《通信的数学原理》中系统地提出了信息论的基本概念和理论框架。
信息论主要研究信息传输的性质和限制,以及如何通过编码和解码来实现有效地信息传输。
在信息论中,最基本的概念是信息量。
信息量的单位是比特(bit),表示一条信息所携带的信息量。
信息量与信息的概率分布有关,对于概率为p的事件,其信息量为-log(p)。
这意味着,概率越小的事件所携带的信息量越大。
除了信息量,信息论还研究了其他重要概念,如熵、条件熵、互信息等。
熵是用来描述信息源的不确定性的度量,而条件熵是在已知一些先验信息的情况下,对信息源的不确定性进行度量的。
信息论的理论框架不仅可以用于描述信息的传输和存储,还可以用于优化通信系统的设计。
通过研究信道容量和编码理论,我们可以设计出高效的数字通信系统,以尽可能地提高通信速率和可靠性。
编码技术编码技术是利用信息论的基本原理设计和实现高效的编码方案。
编码技术在数字通信、数据压缩、错误检测与纠正等领域具有重要应用。
在数字通信中,编码技术用于将消息转化为数字信号,并通过信道进行传输。
常用的编码技术有霍夫曼编码、香农-法诺编码等。
这些编码技术通过将常用的消息用较短的码字表示,来提高信息传输的效率。
在数据压缩中,编码技术可以将冗余的信息进行压缩,以减少数据的存储和传输量。
编码技术可以通过去除冗余信息和利用统计特性来实现数据的高效压缩。
错误检测与纠正是编码技术的另一个重要应用领域。
在数据传输过程中,由于信道噪声或其他原因,可能会导致传输数据中出现错误。
第2章离散信息的度量本章主要内容(1)自信息的概念(2)平均自信息的概念(信源熵的概念)(3)互信息的概念(4)平均互信息的概念(5)相对熵的概念在通信系统中,信源发出的不同消息携带不同的信息量,不同的信源输出信息的能力也不同;同一消息通过载体信号在不同的信道中传输后,接收端获得的信息量不同,不同的信道传递信息的能力也不同。
为了衡量一个通信系统质量好坏,必须有一些评价标准。
例如误码率、接收信噪比、传信率等。
而系统的传信率就是指单位时间内信道所传递的信息量。
为了评价系统的传信率,必须对消息或信源所含有的信息有一个数量上的度量方法。
这就是我们要研究信息度量的目的。
本章将介绍信息度量的一些基础概念。
2.1自信息信源发出的消息的形式可以是语言、文字、公式、数据、声音、图像等等。
信源发出信息,通过信道传送信息。
假如学生上课时,教师在全部时间内仅反复说一句同样的话。
显然,从后面教师(信源)发出的同一句话(消息)中,学生(信宿)得不到任何信息。
同样的,把“2008年在北京召开了奥运会”这样一则消息告诉大家,那么大家也不会从中获得任何信息。
从这些例子我们可以看出,学生要想再课堂上获得信息,必须要从教师那里学到事先不知道的知识。
也就是说,对于信宿来说,使其获得解惑的是消息中的未知部分,借助通信,信宿明确了原来不明确的一些事情,获得了一些信息。
一则消息包含有多少信息量,通过理想信道传输后信宿就可以获得多少信息量(或说消除了多少不确定性)。
2.1.1 自信息的定义绪论中我们给出了香农对于信息的定义:信息是客观事物存在方式或运动状态的不确定性的描述。
一般地说,信源要发出的消息的状态应该存在着某种程度的不确定性,通过通信,将信息传给了收信者,收信者得到信息之后,消除了不确定性。
这里所说的不确定性,也就是随机性,不确定性程度可以直观地看成是猜测某些随机事件是否会发生的难易程度。
我们可以用概率统计方法来描述随机事件发生后提供信息的大小。
即概率大的事件,出现的可能性大,不确定性小,事件发生后带给我们的信息量就少。
反之,小概率事件出现的可能性小,不确定性大,事件发生后带给我们的信息量就多。
定义2.1 随机事件i x 的自信息量定义为()log ()=-i r i I x p x(2.1)由定义可以看出,随机事件所含信息量的多少用消息出现概率的对数的负值来表示。
下面我们借助通信过程的研究来分析自信息量的含义。
对应在通信系统中,信源发出消息(符号)i x 的概率为()i p x ,则i x 含有的自信息量即为)(i x I ,正确传输,收信者就可以获得)(i x I 这么多的信息量。
而通信过程发生前,信源发出的消息存在某种不确定性,借助通信,信宿明确了原来不明确的一些事情,获得了一些信息。
通信过程消除掉的不确定性越多,信宿获得信息量就越大。
所以通信系统中,自信息量)(i x I 的含义可以由两方面来理解:(1) 表示信源发出符号i x 前,发出符号i x 的不确定性的大小;(2) 表示信源发出符号i x 后,符号i x 提供的信息量的多少。
由定义我们可以绘制出自信息量的函数曲线如图2.1所示。
图2.1 自信息量由图中我们可以看出(1) 自信息量非负,即()0i I x ≥。
(2) 消息i x 的自信息量是消息i x 出现概率()i p x 的单调递减函数,即若12()()p x p x <,则有12()()I x I x >。
(3) 当()0i p x =,()i I x →∞;当()1i p x =,()0i I x =。
自信息量的单位与所用对数的底有关,常用的底数有2、e (自然对数)和10,相应的单位分别为比特(bit ,binary unit)、奈特(nat ,natural unit )和哈特莱(Hart ,Hartley )。
三个信息单位之间的转换关系如下:1nat=2log e ≈1.433 bit1Hart 2log 10=≈3.322 bit同理有1 r 进制单位2=log r bit如果使用底为r 的对数,自信息量的单位就是r 进制单位。
本书如无特殊说明,一般选用对数底为2,因而自信息的量纲一般用比特表示。
若取底数为2时,对数的底常省略。
【例2.1】一副充分洗乱了的扑克牌(52张),问:(1) 任一特定排列所给出的信息量是多少?(2) 若从中抽出4张牌,花色各不相同时得到的信息量是多少?解 (1) 设任一特定排列为事件i x ,则有221()log ()log 52!=-=-=i i I x p x 225.6 bit 加入底数2 (2) 设抽出4张花色各不相同的牌为事件b ,则有 42245213()log ()log =-=-=j j I y p y C 3.5 bit 加入底数2 2.1.2 条件自信息的定义通信系统中,人们关心的是发送符号i x 经传输输出符号j y 的概率多大?或反之,在接收端收到符号j y 后,能以多大概率判断发送的符号为i x ?也就是说我们还要关心条件概率问题以及相应的条件自信息问题。
定义2.2 事件j y 在事件i x 给定的条件下的条件自信息量为(/)log (/)j i j i I y x p y x =- (2.2)通信系统中,设信源发出符号i x 后,信宿收到符号j y 的概率为(/)j i p y x ,则已知发端发送符号i x 的条件下,收端收到符号j y 的条件事件的信息量即为条件自信息量(/)j i I y x 。
通信系统中,条件自信息量(/)j i I y x 的含义可以由两方面来理解:(1) 表示在信源发出符号i x 条件下,信宿收到符号j y 的不确定性的大小;(2) 表示在信源发出符号i x 条件下,信宿收到符号j y 后获得的信息量的多少。
【例2.2】一副充分洗乱了的扑克牌(52张),问:(1) 第一次取出一张牌为红桃,求第二次取出一张牌仍为红桃的事件所给出的信息量是多少?(2) 第一次取出一张牌为红桃,求第二次取出一张牌仍为梅花的事件所给出的信息量是多少?解 (1) 设第一次取出一张红桃的事件为a ,第二次取出一张红桃的事件为b ,则有2212(/)log (/)log 2.0951I b a p b a bit =-=-= (2) 设第一次取出一张红桃的事件为a ,第二次取出一张梅花的事件为c ,则有2213(/)log (/)log 1.9751I c a p c a bit =-=-= 2.1.3 联合自信息的定义定义2.3 事件i x 和事件j y 的联合概率为()i j p x y ,则定义i x 和j y 的联合自信息量为()log ()i j i j I x y p x y =- (2.3)通信系统中,若信源发出符号i x 后,信宿收到符号j y 的联合概率为()i j p x y ,则发端发送符号为i x ,同时信宿所收符号为j y 的联合事件的信息量即为联合自信息量()i j I x y 。
【例2.3】一副充分洗乱了的扑克牌(52张),问:(1) 求“第一次取出一张红桃,第二次取出一张红桃”的事件所给出的信息量是多少?(2) 求“第一次取出一张红桃,第二次取出一张梅花”的事件所给出的信息量是多少? 解 (1) 设第一次取出一张红桃的事件为a ,第二次取出一张红桃的事件为b ,则有221312()log ()log 5251I ab p ab =-=-⨯= 4.09 bit (2) 设第一次取出一张红桃的事件为a ,第二次取出一张梅花的事件为c ,则有221313()log ()log 5251I ac p ac =-=-⨯= 3.97 bit 我们对自信息、条件自信息和联合自信息的关系进行简单分析。
第一次取出一张红桃的事件a 发生的概率为41,那么1()log 4I a =- bit = 2 bit ,由例题2.2和例题2.3可知(/)I b a = 2.09 bit ,()I ab = 4.09 bit ,因此我们可以得到如下关系)/()()(a b I a I ab I += (2.4)利用联合概率和条件概率之间的关系可以很容易得到式(2.4)的结论,即两个相关事件a 和b 共同给出的联合自信息量等于事件a 提供的自信息量与已知a 后b 再发生提供的条件自信息量之和。
同理)/()()(b a I b I ab I +=。
当事件a 和b 相互独立时,有)()()(b I a I ab I += (2.5)2.2平均自信息2.2.1 平均自信息的定义通过前面分析我们知道信源发出消息时含有不确定性,例如天气预报作为信源,它具体给出未来的天气情况是有多样性的,可以是阴晴雨雪等等情况,信源究竟要选出哪一种天气情况作为发出的消息存在不确定性。
对于某个消息,它的不确定性可以用前面学习的自信息来度量,那么信源的不确定性如何度量呢?或者说信源它输出信息能力的大小如何 度量呢?这就是我们要介绍的平均自信息,又称信息熵或信源熵。
为了便于说明问题,我们举个例子:有一个布袋,装有对人手的感觉完全一样的球,但颜色不同,每种颜色球的数量也不同。
现在要问在下面三种情况下不确定程度的大小:(1)布袋中装有99个红球,1个白球,随意从布袋中拿出一个球,猜测是红球还是白球。
首先我们可以肯定:这样的一个信源发出消息具有不确定性,因为拿出一个球可能是红的,也可能是白的。
但我们很容易猜测出它大概是红球,因为红球多,所以猜测的难度不大,当然不确定程度也不大。
(2)布袋中装有红球白球各50个,这时猜测从布袋中随意拿出一球是红球还是白球的难度就要比第一种情况大。
因为这时红球、白球一样多,不好猜,所以这种情况下信源发出的消息不确定程度较大。
(3)布袋中装有红、白、黑、黄四种颜色的球各25个,这时猜测从布袋中随意拿出一球的颜色的难度就更大,因为这时更难猜测。
所以此种情况下的不确定性更大。
从这个简单的例子中,我们可以很容易看出信源的不确定程度与信源所包含的随机事件的可能状态数目和每种状态的概率有关。
由于信源具有不确定性,所以把信源用随机变量来表示,用随机变量的概率分布来描述信源的不确定性。
而信源的不确定程度可以用这个概率空间的可能状态数目及其概率来描述。
设离散信源X ,其概率空间为⎥⎦⎤⎢⎣⎡====⎥⎦⎤⎢⎣⎡)(,),(),(,,,)(2121q q x p x p x p x X x X x X X P X ΛΛ 1)(1=∑=q i i x p 定义 2.4 随机变量X 的每一个可能取值的自信息的数学期望定义为信源的平均自信息量,即1()[()]()log ()qi i i i H X E I x p x p x ===-∑ (2.6)对于q 元信源,其熵常简记为12()(,,,)()q H X H p p p H P ==u r L ,当2q =时,若令一个概率为p ,则另一个概率为1p -,熵函数可以简记为()H p 。