第10讲 信源编码的性能指标
- 格式:docx
- 大小:111.99 KB
- 文档页数:6
信源编码技术为什么要进行信源编码通信系统就是将产生的信息传输到目的地。
信源有各种不同的形式,如广播的信源是语音或音乐,电视的信源是活动图像,这些信源的输出都是模拟信号,称为模拟信源。
计算机和存储器件(磁盘或光盘)输出的是离散信号,称为数字信源。
在数字系统中传输的都是数字信息,不论是模拟信源还是离散信源其输出都必须转化为可以传输的数字信息,这种转化通常是由信源编码器来完成的。
信源编码在移动通信中也称语音编码。
Ø信源编码的作用是用信道能传输的符号来表示信源发出的信息,在不失真或一定失真的条件下用尽可能少的符号传送信源消息,提高信息传输率。
信源编码(如语音)对数字传输非常重要,而且对无线通信来说显得尤其重要。
Ø随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。
Ø在移动通信中,稀少而又昂贵的无线信道更一定要和必须要对传输的各种信号源进行压缩,以提高通信容量。
模拟信源(语音)编码的种类波形编码、参量编码、混合编码一般来说,波形编码器的话音质量高,但数据率也很高;参量编码器的数据率很低,产生的合成话音的音质有待提高;混合编码器同时使用参量编译码技术和波形编译码技术,数据率和音质介于它们之间。
(1)波形编码波形编码比较简单,编码前采样定理对模拟语音信号进行量化,然后进行幅度量化,再进行二进制编码。
解码器作数/模变换后再由低通滤波器恢复出现原始的模拟语音波形,这就是最简单的脉冲编码调制(PCM),也称为线性PCM。
可以通过非线性量化,前后样值的差分、自适应预测等方法实现数据压缩。
波形编码的目标是让解码器恢复出的模拟信号在波形上尽量与编码前原始波形相一致,也即失真要最小。
波形编码的方法简单,数码率较高,在64kbit/s至32kbit/s之间音质优良,当数码率低于32kbit/s的时候音质明显降低,16 kbit/s时音质非常差。
信源编码和信源解码信源编码和信源解码字、符号、图形、图像、音频、视频、动画等各种数据本身的编码通常称为信源编码,信源编码标准是信息领域的基础性标准。
无论是数字电视、激光视盘机,还是多媒体通信和各种视听消费电子产品,都需要音视频信源编码这个基础性标准。
大家用电脑打字一定很熟悉,当你用WORD编辑软件把文章(DOC文件)写完,存好盘后,再用PCTOOLS工具软件把你的DOC 文件打开,你一定能看到你想象不到的东西,内容全是一些16进制的数字,这些数字叫代码,它与文章中的字符一一对应。
现在我们换一种方法,用小画板软件来写同样内容的文章。
你又会发现,用小画板软件写出来的BMP文件,占的内存(文件容量)是DOC文件的好几十倍,你知道这是为什么?原来WORD编辑软件使用的是字库和代码技术,而小画板软件使用的是点阵技术,即文字是由一些与坐标位置决定的点来组成,没有使用字库,因此,两者在工作效率上相差几十倍。
[信源]->[信源编码]->[信道编码]->[信道传输+噪声]->[信道解码]->[信源解码]->[信宿]目前模拟信号电视机图像信号处理技术就很类似小画板软件使用的点阵技术,而全数字电视机的图像信号处理技术就很类似WORD编辑软件使用的字库和代码技术。
实际上这种代码传输技术在图文电视中很早就已用过,在图文电视机中一般都安装有一个带有图文字库的译码器,对方发送图文信号的时候只需发送图文代码信息,这样可以大大地提高数据传输效率。
对于电视机,显示内容是活动图像信息,它哪来的“字库”或“图库”呢?这个就是电视图像特有的“相关性”技术问题。
原来在电视图像信号中,90%以上的图像信息是互相相关的,我们在模拟电视机中使用的Y/C(亮度信号/彩色信号)分离技术,就是利用两行图像信号的相关性,来进行Y/C分离。
如果它们之间内容不相关,Y/C 信号则无法进行分离。
全数字信号电视也一样,如果图像内容不相关,则图像信号压缩也就要免谈。
第10讲 信源编码的性能指标1. 无失真信源编码的冗余度压缩原理为了压缩冗余度,必须改造信源输出符号的统计特性。
一方面要尽量提高任一时刻输出符号的概率分布的均匀性,另一方面要尽量消除前后输出符号的统计相关性。
因此,无失真信源编码的实质是将信源尽可能地改造为均匀分布的无记忆信源。
这种信源的通信效率是最大的。
改造后的新信源是由原信源和编码器共同组成的,称为编码后的信源。
设f 是信源S 的一个编码,X 是编码后的信源,则三者之间的关系表示如下f S X −−→信源编码f 所用的码元可以与信源S 的符号不同,一般是某个信道的输入符号。
从数据处理这个角度来看,编码f 是一个数据处理器,输入信源S 的数据,输出信源X 的数据。
从通信的角度看,编码f 是一个信道,输入信源S 的数据,输出信源X 的数据。
无失真信源编码的目的是无损压缩,即用尽可能少的数据表示数据中的所有信息,不能破坏数据原有信息。
这相当于提高信息传输效率,使之接近于1。
因此,度量无失真编码的压缩性能可以看编码后信息传输效率,称为编码效率。
编码效率越接近于1,无损压缩性能越好。
下面介绍信源编码的5个性能指标,包括平均码长、码率、编码效率、编码冗余度和压缩率。
2. 平均码长平均码长是信源编码的一个关键的性能指标。
在已知信源熵的前提下,根据平均码长,可以计算出无损压缩编码的码率和编码效率。
定义2.1 设f 是一个N-分组码,各码字的码长分别记为,1i l i q ≤≤,对应的N 长分组的概率为i p ,则f 的平均码长定义为11(/ qi ii L p l N ==∑码元信源)注:在有的教材中,当平均码长的单位转化为“比特/信源”时,称为编码速率。
本课程用不到这个概念。
讨论:用平均码长估计编码后的数据长度设S 是一个离散无记忆信源,:f S C →是信源S 的一个编码,其平均码长为L 。
令12n s s s s =⋯是一个信源序列。
假设用f 对该数据进行编码,试估计编码后码元序列的长度。
对于信源数据12n s s s s =⋯,我们令L i 表示信源符号s i 所对应的码字f (s i )的长度,则编码后的数据长度为12+++n L L L 。
我们把L i 视为随机变量,则对于任何i ,我们有[]i E L L =。
因为S 是离散无记忆的,所以{L i }是独立同分布随机序列。
根据辛钦大数定理,我们有121+++)P n L L L L n −−→( 这表明,编码后的数据长度可以估计为nL ,并且n 越大,这个估计的越精确、可信。
我们把上述结论推广如下。
定理2.2 (无失真编码的数据长度定理)设S 是具有AEP 性质的信源,f 是S 的一个平均码长为L 的无失真N -分组码。
假设在编码f 下,某数据在编码前的长度为n 信源,在编码后的长度为m 码元,则()P m L n n−−→→∞ 意义:信源序列长度n 越大,编码后所得的码元序列的长度越有可能近似于 ()nL 码元。
3. 码率和编码效率定义3.1 码率(code rate ):编码后的信息传输率H ∞(X ),记为R ,单位是“比特/码元”。
下列定理给出了无失真编码的码率计算公式。
定理3.2 设S 是具有AEP 性质的信源,f 是信源S 的无失真编码。
若S 的熵率为H ∞,f 的平均码长为L ,则f 的码率为H R L∞= 证明:记编码后的信源为X 。
根据定义,X 的熵率为码率R 。
用S k , X k 分别表示信源S 和X 所产生的信源序列中的第k 个符号。
根据渐近等分性定理,121() (1)P n I S S S H n ∞−−→由于S 具有渐近等分割性,易知X 也具有渐近等分割性。
于是我们有121() (2)P m R I X X X m−−→ 其中12m X X X 为12n S S S 经编码后的码元序列,故有1212()()n m I S S S I X X X =. 根据依概率收敛的性质,由(1)和(2)得P H m n R ∞−−→码.再由前面的编码后数据长度定理,P m L n−−→. 于是我们得L R H ∞=码,即R H L∞=码。
证毕定义3.2 编码效率(code efficiency ):对于编码f 来说,编码后信源X 的信息传输效率称为f 的编码效率,记为f η。
因此,()()0f X H X H X ηη∞==码率和编码效率是信源编码的两个重要性能指标,其值越大,则编码的数据压缩能力越强。
注意,对于无失真信源编码来说,提高编码效率与数据压缩是一回事。
而对于限失真信源编码来说,除了通过提高编码效率来实现数据压缩之外,还通过量化方法缩小信源熵率,为后面的无失真压缩提高更大的压缩空间。
提问:(1)码率与编码效率的的最大值分别是多少?(2)试确定码率与编码效率的之间的数量关系。
答:(1)码率最大值=码元最大熵H 0(X ),从而最大编码效率= H 0(X ) /H 0(X )=1。
(2)编码效率=码率/码元最大熵。
定义3.3编码冗余度:度量信源编码与理想编码之间的差距,定义为编码冗余度=最大码率-码率编码相对冗余度=编码冗余度 / 最大码率=1-编码效率4. 压缩率根据第8讲的渐近等分割性定理,对于足够长的的数据,我们有如下近似关系:≈数据信息量数据长度信源熵率数据越长,该近似关系越准确和可信。
根据该近似关系,读者可以看出,在信息量不变的前提下,熵率越大,数据越短。
因此,提高熵率所带来的结果就是数据压缩。
压缩效果用压缩率来度量,定义为=编码后的数据长度压缩率编码前的数据长度(1)数据压缩率:对于一个数据x ,其以比特为单位的长度称为x 的比特数,记为l (x )。
x经过编码后的比特数记为L (x )。
x 的在此编码下的压缩率(也称压缩比)定义为()()()L x x l x ρ= (2)无失真信源编码压缩率:教材上都没有定义。
能否给出一个合理的定义?设f 是信源S 的无失真编码,s 是S 的一个信源序列,x 是在编码f 下所得的码元序列。
令s 的长度是n ,即nH 0(S )比特。
令x 的长度是m ,即mH 0(X )比特。
则s 在f 下的压缩率为()()00mH X nH S根据渐近等分割性,我们有()()P I s H S n ∞−−→和()()P I x H X m∞−−→ 由于编码是无失真的,故I (s )=I (x )。
因此,()()P H S m n H X ∞∞−−→ 0000()()()()()()P mH X H S H X nH S H X H S ∞∞−−→ 即00()()P S XmH X nH S ηη−−→ 其中S η是信源S 的信息传输效率, X η是编码后信源X 的信息传输效率,即编码效率。
这个收敛关系表明,当信源序列足够长时,其数据压缩率很有可能近似于信源效率比上编码效率。
因此,这个常数可以度量编码f 的压缩效果。
因此,我们定义无失真信源编码的压缩效率如下:无失真信源的压缩效率=信源效率/编码效率因此,编码效率越大,则压缩能力越强。
(3)信源的极限压缩率:数据是不可能被无限压缩下去的,总存在各自的极限。
我们讨论信源数据的压缩极限。
假设信源S 的熵率H ∞在某编码下被提高到了最大值H 0,则该编码的压缩性能达到理论允许的极限。
此时压缩率为00H I I H H H ∞∞≈=编码后的数据长度数据的信息量数据的信息量编码后的信息速率编码前的信息速率编码前的数据长度 因此,信源的相通信效率0H H ∞是信源数据的压缩率期望的极限。
我们把这个极限称为信源极限压缩率。
5.信源的最优无失真编码根据上面的计算公式,编码效率与平均码长是反比例关系。
这表明,缩短平均码长与提高编码效率是同一回事。
因此,对于无失真编码来说,数据压缩与提高编码效率是同一回事。
编码效率越接近于1,编码的压缩能力越强。
因此,在某信源的所有无失真编码中,我们把其中编码效率达到1的编码称为该信源的最优无失真编码。
这为无失真编码的设计工作指明了努力的目标。
一般来说,由于编码的离散性,这个目标是永远达不到的,但是可以无限地接近。
因此,一般来说,信源编码没有最好,但有更好。
(当编码效率=1时,编码后的信源是均匀分布的无记忆信源。
要做到这一点,信源编码必须消除原信源的记忆性,即前后输出符号之间的统计相关性,并且要让编码后的信源在任何时刻输出符号的概率分布是均匀的。
对于一般的信源来说,其任何编码都不可能完全做到这一点,绝对最优的信源编码是不存在的。
)如果把上述最优编码称为绝对最优编码的话,还有一种相对最优编码,其定义如下。
定义5.1在信源S的所有r-元N-分组无失真编码中,平均码长最小的称为S的最优r-元N-分组无失真编码。
注:(1)一个信源的r-元N-分组码是有限多的,所以其中一定存在最优码。
(2)比较两个不同元数的编码的平均码长时,其单位要化为相同的单位后才可以比较。
无失真信源编码理论的核心问题就是寻找最优无失真编码。
根据编码效率与平均码长的反比关系,要提高编码效率只需缩短平均码长即可,这是实现无失真编码的数据压缩功能的唯一途径。
下一讲我们将重点讨论这个问题。
这里我们先了解最优编码的两个简单性质。
命题5.2 最优编码是概率匹配编码,即信源符号的概率越小,对应的码字长越大。
证明设f是信源U的最优的1-分组编码。
令U的n个符号的分别为a i,对应的概率为p i,在某编码下,对应码字长为l i。
假设存在两个符号a i,a j,有p i >p j且l i > l j, 则p i l i + p j l j > p i l j+ p j l i 。
因此,对调a i与a j的码字后,可以得到平均码长更小的编码。
这与f的最优性矛盾。
证毕命题5.3最优编码充分用短字符串作为码字。
设f是某信源的最优编码,最大码字长为L,则任何长度小于L的串一定是f的某个码字的前缀。
证明留给读者。
证毕6.本讲要点小结1)平均码长的定义和物理意义。
2)平均码长的应用:(1)估计无失真编码的码元序列长度≈信源序列长度×平均码长这表明,无失真编码的平均码长越小,压缩能力越强。
(2)计算无失真编码的码率=信源熵/平均码长(3)计算无失真编码的效率=码率/码元最大熵=信源熵/(平均码长×码元最大熵)这表明,编码效率与平均码长是反比关系,从而无失真编码的数据压缩功能与提高信息传输率的功能是一致的。
3)无失真编码的绝对最优性和相对最优性:(1)绝对最优性:编码效率=1的无失真编码是该信源的绝对最优无失真编码。
一般不存在,是可以逼近的理想目标。
(2)相对最优性:在所有元数固定且分组长度也固定的无失真编码中,编码效率最大或者平均码长最小的码是相对最优无失真编码。