信息论无失真信源编码
- 格式:docx
- 大小:381.11 KB
- 文档页数:18
《信息论基础》题目:常用无失真信源编码程序设计目录1. 引言 (2)2. 香农编码 (2)2.1 编码步骤 (3)2.2 程序设计 (3)2.3 运行结果 (3)3. 费诺编码 (4)3.1 编码步骤 (5)3.2 程序设计 (5)3.3 运行结果 (5)4. 哈夫曼编码 (6)4.1 编码步骤 (7)4.2 程序设计 (7)4.3 运行结果 (8)5. 结论 (9)6. 参考文献 (10)7. 附录 (11)7.1 香农编码Matlab程序 (11)7.2 费诺编码Matlab程序 (12)7.3 哈夫曼编码Matlab程序 (14)1. 引言信息论(Information Theory)是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。
信息系统就是广义的通信系统,泛指某种信息从一处传送到另一处所需的全部设备所构成的系统。
信息论是关于信息的理论,应有自己明确的研究对象和适用范围[1]。
信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。
信息传输和信息压缩是信息论研究中的两大领域。
这两个方面又由信息传输定理、信源-信道隔离定理相互联系。
信源编码是一种以提高通信有效性为目的而对信源符号进行的变换,或者说为了减少或消除信源冗余度而进行的信源符号变换。
具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列[2]。
在通信中,传送信源信息只需要具有信源极限熵大小的信息率,但在实际的通信系统中用来传送信息的信息率远大于信源极限熵。
为了能够得到或接近信源熵的最小信息率,必须解决编码的问题,而编码分为信源编码和信道编码,其中的信源编码又分为无失真信源编码和限失真信源编码。
由于无失真信源编码只适用于离散信源,所以本次作业讨论无失真离散信源的三种简单编码,即香农(Shannon)编码、费诺(Fano) 编码和哈夫曼(Huffman) 编码[3]。
第5章无失真信源编码定理●通信的实质是信息的传输。
高效率、高质量地传送信息又是信息传输的基本问题。
●信源信息通过信道传送给信宿,需要解决两个问题:第一,在不失真或允许一定失真条件下,如何用尽可能少的符号来传送信源信息,以提高信息传输率。
第二,在信道受干扰的情况下,如何增强信号的抗干扰能力,提高信息传输的可靠性同时又使得信息传输率最大。
●为了解决以上两个问题,引入了信源编码和信道编码。
●提高抗干扰能力(降低失真或错误概率)往往是增加剩余度以降低信息传输率为代价的;反之,要提高信息传输率往往通过压缩信源的剩余度来实现,常常又会使抗干扰能力减弱。
●上面两者是有矛盾的,然而在信息论的编码定理中,已从理论上证明,至少存在某种最佳的编码或信息处理方法,能够解决上述矛盾,做到既可靠又有效地传输信息。
●第5章着重讨论对离散信源进行无失真信源编码的要求、方法及理论极限,得出极为重要的极限定理——香农第一定理。
5.1编码器●编码实质上是对信源的原始符号按一定的数学规则进行的一种变换。
●图5.1就是一个编码器,它的输入是信源符号集S={s 1,s 2,…,s q }。
同时存在另一符号集X={x 1,x 2, …,x r },一般元素x j 是适合信道传输的,称为码符号(或称为码元)。
编码器是将信源符号集中的符号s i (或者长为N 的信源符号序列a i )变换成由x j(j=1,2, …,r )组成的长度为l i的一一对应序列。
●这种码符号序列W i 称为码字。
长度l i称为码字长度或简称码长。
所有这些码字的集合C 称为码。
●编码就是从信源符号到码符号的一种映射,若要实现无失真编码,必须这种映射是一一对应的、可逆的。
编码器S :{s 1,s 2,…s q }X :{x 1,x 2,…x r }C :{w 1,w 2,…w q }(w i 是由l i 个x j (x j 属于X ))组成的序列,并于s i 一一对应一些码的定义●二元码:若码符号集为X={0,1},所得码字都是一些二元序列,则称为二元码。
可变长无失真信源编码定理一、概述可变长无失真信源编码定理是信息论的核心概念之一,它是由美国数学家香农(Claude Shannon)于1948年首次提出。
该定理主要探讨了信源编码的极限性能,为无失真编码提供了理论基础。
可变长无失真信源编码定理不仅在理论上有重要意义,而且在数据压缩、网络传输和存储系统等领域有着广泛的应用价值。
二、定理内容可变长无失真信源编码定理的主要内容是:对于任意给定的离散无记忆信源,存在一种可变长编码方式,使得编码后的平均码长小于或等于信源的熵,从而实现无失真编码。
换句话说,如果信源的熵为H,那么存在一种编码方式,使得编码后的平均码长L满足L ≤ H。
三、证明过程证明可变长无失真信源编码定理的过程较为复杂,涉及到概率论和信息论的基本知识。
以下是证明过程的大致步骤:1.定义信源的熵:信源的熵是信源输出随机变量的不确定性度量,定义为所有可能符号的概率加权和。
如果信源有n个符号,每个符号出现的概率为p1, p2, ..., pn,则信源的熵H定义为H = - Σ (pi * log2(pi)),其中i=1,2,...,n。
2.构造一个可变长度编码表:根据信源的概率分布,构造一个可变长度编码表,使得出现概率较大的符号对应较短的码字,反之亦然。
假设码字长度按照字典序排列,第i个码字的长度为log2(1/pi),其中i=1,2,...,n。
3.计算平均码长:根据可变长度编码表,计算所有可能符号的平均码长。
平均码长等于所有码字长度的概率加权和,即L = Σ(log2(1/pi) * pi),其中i=1,2,...,n。
4.证明平均码长小于或等于信源熵:利用不等式性质和概率分布的性质,推导出平均码长L满足L ≤H。
关键在于利用概率分布的不均匀性,通过调整码字长度来最小化平均码长。
5.构造一个解码函数:为了实现无失真解码,需要构造一个解码函数,使得每个码字能够唯一地还原为原始符号。
解码函数可以采用查表法或类似算法实现。
第4章无失真信源编码习题及其参考答案4-1 有一信源,它有六个可能的输出,其概率分布如下表所示,表中给出了对应的码A、B、C、D、E和F(1)求这些码中哪些是唯一可译码;(2)求哪些码是及时码;(3)对所有唯一可译码求出其平均码长l。
4-2 设信源61261126()1()()()()iis s sXp sp s p s p sP X=⎡⎤⎡⎤==⎢⎥⎢⎥⎣⎦⎣⎦∑。
对此次能源进行m元唯一可译编码,其对应的码长为(l1,l2,…,l6)=(1,1,2,3,2,3),求m值的最好下限。
(提示:用kraft不等式)4-3设信源为1234567811111111()248163264128128s s s s s s s sXp X⎡⎤⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦,编成这样的码:(000,001,010,011,100,101,110,111)。
求(1)信源的符号熵;(2)这种码的编码效率;(3)相应的仙农码和费诺码。
4-4求概率分布为11122(,,,,)3551515信源的二元霍夫曼编码。
讨论此码对于概率分布为11111(,,,,)55555的信源也是最佳二元码。
4-5有两个信源X和Y如下:121234567()0.200.190.180.170.150.100.01X s s s s s s s p X ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦123456789()0.490.140.140.070.070.040.020.020.01Y s s s s s s s s s p Y ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦(1)用二元霍夫曼编码、仙农编码以及费诺编码对信源X 和Y 进行编码,并计算其平均码长和编码效率;(2)从X ,Y 两种不同信源来比较三种编码方法的优缺点。
4-6设二元霍夫曼码为(00,01,10,11)和(0,10,110,111),求出可以编得这样 霍夫曼码的信源的所有概率分布。
4-7设信源为12345678()0.40.20.10.10.050.050.050.05X s s s s s s s s p X ⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦,求其三元霍夫曼编码。
信息,例如霍夫曼编码。
它相对简单,是 本章的重点。
信息有一定的差别,例如JPEG 、MPEG
■无失真信源编码:解码之后可以得到原始 jlll ■有失真信源编码:解码之后的信息与原始 jlll
■其中X 称为码符号集,X 中的元素“称为码元或者 码符号。
输岀符号叱•称为码字,植字的集合C 称 为代码组或者码。
码字比•的长度厶称为码字长度, 简称码长。
■要实现无失真编码,编码器的映射必须是一一对 应、可逆的。
码的分类
5.1编码器
编码器
C=(W1,W2,…,W 几
■信源编码器表示为: X=(QK2,…对
■例如:
S=(ACD) r A B C D C=(OOJOJl)r
00,01,10,11
r X=(o ,l)
S=(A ,CQ) AB C D C=(0,001,lip
* 0,01,001,111
X=(0J)
■根据码长
□固定长度码(定长码):所有码字的长度相同。
□可变长度码(变长码):码字长短不一。
■码字是否相同
□非奇异码:所有码字都不相同。
□奇异码:存在相同的码字。
5.2分组码
■象稱蛊轟凋11映射
■通常在接收端收到的码字之间并没有明显的间隔, 表现为皿叫…巴的形式,把这种形式称为g阶扩展码。
例如前面的两个例子,ACD编码成另 001011/0001111的形式,均为3阶扩展码。
■码字之间缺少间隔,给译码造成了一定的困难□定长码:不存在困难,001011必定译码成为ACD □变长码:存在困难,0001111可以译码成为ACD(0 001 111),也可以译码成为AABD(0 0 01 lll)o
唯一可译性
■定义524 —个分组码若对于任意有限的整 数N,其N 阶扩展码均为非奇异的,则称之 为唯一可译码。
■含义:无论码由多少个码字组成,总是能 够正确译码,不存在二义性。
10110 010 ^BACB 10110 0 Ol^ABAD
■无需知道下一个码字的码符号,即可译码, 这样的唯一可译码成为即时码。
■命题521 —个唯一可译码成为即时码的充 要条件是其中任何一个码字都不是其他码 字的前缀。
即时码
5.3定长码
■编码速率: ~1T,其中/是码字长度,厂是码符号的个数,N代表N次扩展信源。
■编码效率:rj=H(S)R其中H(S)是扩展之前信源的爛。
■例如:S={ABC},等概率出现,N=2,SN={AA,・・・,CC},对SN进行二元编码,则心2,编码方式如下,则上4。
■那么,S"的编码速率为R=(41og2)/2=2, S"的编码效率为
7=H(S)//?=log3/2=0.7925
5.4变长码
■匹配编码:根据概率进行编码,概率大的所给的代码短,概率小的所给的代码长。
例如哈夫曼编码。
■变换编码:将信号从一个空间变换到另一个空间,在新的空间里对信号进行编码。
例如JPEG
■识别编码:主要用于印刷或奢打字机等有标准形状的符号的编码。
0 2 4 6 8 10 12 14 16 18 20
5.4.2两个不等式
■定理5.4.1即时码爭在的充要条件是茁a
Z = 1
克拉夫特(Kraft)不等式。
■定理5.4.2唯一可译码存在的充要条件是
q
y
麦克米伦(McMillanS不等式。
5.4.3唯一可译码判别准则
■命题541 —种码是唯一可译码的充要条件是S], S”…中没有一个含有So中的码字。
5.4.4码平均长度 /八一…]…么 ....................
0 g 。
对唯一可译桐,则这个码的平 q 厶二£卩(训
i=l
■定义5.4.2对应一给定的信源和一给定的码符号
集,若有一种唯一可译码,其平均长度小于所有 其他
[;]
■定义5.4.1设信源
编码后的码字分别为W]W?…巴,各码字相应的码 长分别为仏••丿 均长度为
的唯一可译码,则称这种码为紧致码,或最佳码。
精品课件
V
1 •
•r
精品课件
V
1 •
•r
5.4.5变长码的编码方法:霍夫曼编码
■ {^5.4.4
$1$3$5
10 11 01 001 000
L = 2 x 0.4 + 2x 0.2 + 2x 0.2 + 3x0.1+3x0.! =
2.2
■定理5.4.6霍夫曼码是紧致码。