当前位置:文档之家› 【最新版】论文通信工程毕业论文

【最新版】论文通信工程毕业论文

编号:

审定成绩:

重庆邮电大学移通学院

毕业设计(论文)

设计(论文)题目:图像有损压缩技术的研究

单位(系别):通信工程系

学生姓名:刘骏翔

专业:通信工程

班级:

学号:

指导教师:高飞

答辩组负责人:

填表时间:2013年06月

重庆邮电大学移通学院教务处制

重庆邮电大学移通学院毕业设计(论文)任务书

设计(论文)题目图像有损压缩技术的研究

学生姓名刘骏翔系别通信工程专业通信工程班级12

指导教师高飞职称讲师联系电话

教师单位重庆邮电大学移通学院下任务日期 2013年1 月 5 日

摘要

有损压缩技术是利用了人类对图像或声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全回复原始数据,但是所损失的部分对理解原始图像的影响缩小,却换来了大得多的压缩比。常见的声音、图像、视频压缩基本都是有损的。在多媒体应用中,常见的压缩方法有:预测编码,变换编码,矢量量化编码,分形编码等,混合编码是近年来广泛采用的方法。

有损数据压缩方法是经过压缩、解压的数据与原始数据不同但是非常接近的压缩方法。有损数据压缩又称破坏型压缩,即将次要的信息数据压缩掉,牺牲一些质量来减少数据量,使压缩比提高。它是与无损数据压缩对应的压缩方法。根据各种格式设计的不同,有损数据压缩都会产生丢失:压缩与解压文件都会带来渐进的质量下降。

本文首先论述了数字图像压缩技术的概况及发展趋势,详细介绍了现代图像压缩技术的标准、分类及主要算法。其次着重就图像的有损压缩技术进行了研究和讨论。通过查阅大量文献,系统的分析了有损压缩技术,介绍了主要有损压缩的方法:预测编码、变换编码、基于模型编码等有损压缩的主要技术,最后通过结合无损压缩从精确度及压缩比率等方面与损压缩进行详细比较,更深层次的对损压缩技术进行了解。并得出图像有损压缩技术的特点和优势,以及在未来压缩领域中的应用方向。

【关键词】有损压缩无损压缩压缩编码技术比较变换编码

ABSTRACT

Lossy compression is to use the is not sensitive to image or sound waves of certain frequency components of the features that allow compression loss in the process of certain information; Although not fully recover the raw data, but the loss of part of understanding the influence of the original image is narrow, but the much larger compression ratio. Common voice, image and video compression are multimedia applications, the common compression method are: predictive coding, transform coding, vector quantization coding and fractal coding, etc., recent years.

Lossy data compression method is compressed and decompressed data with different but very close to the original data compression method. Lossy data compression is also called destructiveness compression, data compression is of secondary importance, sacrifice some quality to reduce the amount of data, to improve the compression ratio. It is corresponding compression and lose data compression method. According to different various format design, the lost can produce lossy data compression: compress and decompress files brings with it a gradual decline in the quality.

This paper first discusses the general situation and development trend of digital image compression technology, introduced the modern standards, classification and main algorithm of image compression technology. Secondly emphasize image lossy compression techniques are studied and discussed. Through consulting a large number of literature, systematic analysis of lossy compression technology, introduces the main lossy compression methods: predictive coding, transform coding, based on the lossy compression of main technology such as model code, finally through a combination of loss compression from precision and compression ratio compared with loss of compression in detail, at a deeper level to understand loss compression technology. And conclude the characteristics of image lossy compression technique and advantages, as well as compression applications in the field of direction in the future.

【Key words】Lossy compression Lossless compression Coding and compressing technology Compare transform coding

目录

前言 (1)

第一章图像压缩技术的研究及进展 (2)

第一节图像压缩技术概述 (2)

第二节图像压缩技术标准 (2)

一、静止图像压缩标准 (2)

二、运动图像压缩标准 (3)

第三节图像压缩技术分类 (6)

第四节图像压缩技术的发展趋势 (7)

第五节本章小结 (7)

第二章图像有损压缩技术 (8)

第一节有损压缩概述 (8)

第二节有损压缩机制 (9)

第三节本章小结 (10)

第三章图像有损压缩的主要编码技术 (11)

第一节预测编码 (11)

一、脉冲编码调制 (11)

二、差分脉冲编码调制 (12)

三、自适应差分脉冲编码调制 (13)

第二节变换编码 (14)

第三节基于模型编码 (15)

一、基于语义编码 (16)

二、基于物体编码 (17)

第四节分形编码 (18)

一、分形编码的思路 (18)

二、分形编码的方法和步骤 (19)

三、分形编码的特点 (19)

第五节其它编码 (20)

一、子带编码 (20)

二、矢量量化编码 (21)

三、感知编码 (22)

第六节本章小结 (23)

第四章图像有损压缩与无损压缩比较 (25)

第一节有损压缩技术的优缺点 (25)

一、有损压缩的优点 (25)

二、有损压缩的缺点 (25)

第二节无损压缩技术的优缺点 (26)

一、无损压缩的优点 (26)

二、无损压缩的缺点 (26)

第三节两种不同图像压缩方式的综合比较 (27)

一、两种压缩方式在精确度上的比较 (27)

二、两种压缩方式拥有不同的压缩比率 (27)

三、两种压缩方式可逆性的差别 (27)

第四节本章小结 (28)

结论 (29)

致谢 (30)

参考文献 (31)

附录 (33)

一、英文原文 (33)

二、英文翻译 (36)

前言

在我们的生活中无论是普通人还是一些工作在科研领域的科技工作者,都会对数据信息进行传输与存储有所接触。随着数字时代的到来,影像的制作、处理和存储都脱离了传统的介质,相比传统方式,数字图像有着传统方式无法比拟的优越性。而对大量图像数据进行传输要保证其传输的质量、速度等,对其进行存储也要考虑其大小容量等。所以,要解决大量图像数据的传输与存储,在当前传输媒介中,存在传输带宽的限制,故在一些限制条件下传输尽可能多的活动图像,如何能对图像数据进行最大限度的压缩,并且保证压缩后的重建图像能够被用户所接受等问题,就成为研究图像压缩技术的问题之源。

图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。利用图像压缩可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。图像数据之所以可以进行压缩,主要是因为一般原始图像数据是高度相关的,都含有大量的冗余信息。图像压缩编码的目的就是消除各种冗余,并在给定的畸变下用尽量少的比特数来表征和重建图像,使它符合预定应用场合的要求。

虽然人们总是期望无损压缩,但冗余度很少的信息对象,用无损压缩技术并不能得到可接受的结果。当使用的压缩方法会造成一些信息损失时,关键的问题是看这种损失的影响。有损压缩经常用于压缩音频、灰度或彩色图像和视频对象等,因为它们并不要求精确的数据。在由音频、彩色图像、视频以及其他专门数据组成的多媒体对象中,可以单独使用有损压缩技术,也可与无损压缩技术共同使用。有损压缩编码不具有可恢复性和可逆性,该编码在压缩时舍弃冗余的数据。所以有损压缩技术也走进了人们的视野。

第一章图像压缩技术的研究及进展

第一节图像压缩技术概述

图像压缩就是减少表示数字图像时需要的数据量。是指以较少的比特有损或无损地表示原来的像素矩阵的技术,也称图像编码[1]。

在我们的生活中无论是普通人还是一些工作在科研领域的科技工作者,都会对数据信息进行传输与存储有所接触。随着数字时代的到来,影像的制作、处理和存储都脱离了传统的介质(纸、胶片等),相比传统方式,数字图像有着传统方式无法比拟的优越性。但是每种技术出现的同时,都有制约其发展的一面。比如数字电视、遥感照片、由雷达、飞机等提供的军事侦察图像、可视电话、会议电视和传真照片,在教育、商业、管理等领域的图文资料、CT机、X射线机等设备的医用图像、天气云图等等,无论是利用哪种传输媒介进行传输的信息,都会遇到需要对大量图像数据进行传输与存储的问题。而对大量图像数据进行传输要保证其传输的质量、速度等,对其进行存储也要考虑其大小容量等。所以,要解决大量图像数据的传输与存储,在当前传输媒介中,存在传输带宽的限制,故在一些限制条件下传输尽可能多的活动图像,如何能对图像数据进行最大限度的压缩,并且保证压缩后的重建图像能够被用户所接受等问题,就成为研究图像压缩技术的问题之源。

图像数据之所以可以进行压缩,主要是因为一般原始图像数据是高度相关的,都含有大量的冗余信息。图像压缩编码的目的就是消除各种冗余[2],并在给定的畸变下用尽量少的比特数来表征和重建图像,使它符合预定应用场合的要求。

第二节图像压缩技术标准

一、静止图像压缩标准

①JPEG标准:JPEG全名为Joint Photographic Experts Group,是一个在国际标准组织(ISO)下从事静止图像压缩标准制定的委员会。JPEG标准从1986年正式开始制订,1988年决定采用以图像质量最好的ADCT(Adaptive Discrete Cosine Transform)方式为基础的算法作标准,于1991年3月提出10918号标准“连续色调静止图像的数字压缩编码”,即JPEG 标准。它在较低的计算复杂度下,能提供较高的压缩比与保真度[3]。

JPEG采用4种编解码方式:串行DCT[4](Discrete Cosine Transform)方式、渐进浮现式DCT方式、无失真方式和分层方式。由于JPEG优良的品质,使它在短短几年内就获得极

大的成功。随着多媒体应用领域激增,传统的JPEG压缩技术已无法满足人们对多媒体影像资料的要求。因此,更高压缩率以及更多功能的新一代静止影像压缩技术JPEG2000就诞生了。

②JPEG2000:JPEG2000[5],正式名称为“ISO 15444”,亦是由JPEG组织负责制定。自1997年3月开始筹划,2000年规定基本编码系统的最终协议草案才提出。JPEG2000与JPEG最大的不同,在于它放弃了JPEG所采用的以DCT为主的区块编码方式,而改用以DWT(Discrete Wavelet Transform)为主的多分辨率编码方式。JPEG2000的新特征有:JPEG2000作为JPEG的升级版,具有良好的低比特率性能,特别是对细节丰富的图像以0.25bpp的比特率进行压缩时,总体上其压缩率比JPEG高约30%左右;

JPEG2000同时支持有损和无损压缩;而JPEG只支持有损压缩;

JPEG2000能实现渐进传送。它先传输图像的轮廓,然后逐步传输图像数据的细节,接收端重构图像时让图像由朦胧到清晰显示,而不像JPEG那样由上到下由左到右的显示;

JPEG2000支持所谓的“感兴趣区域”编码(Region of interest coding)。可任意指定图像上感兴趣区域的压缩质量,亦可以选择指定的部分先解压缩以突出重点。

二、运动图像压缩标准

(一)MPEG系列

MPEG(Moving Picture Experts Group)运动图像专家组成立于1988年,专门从事运动图像和伴音编码的标准制定。MPEG最初的三个任务是制定1.5Mbs,10Mbs,40Mbs的压缩编码标准,即MPEG-1、MPEG-2、MPEG-3,后因MPEG-2的功能使MPEG-3多余,故MPEG-3被撤消。MPEG-4于1994年开始制定,其目的是实现甚低码率的音视频压缩编码。

MPEG-1是1991年11月提出草案,1992年11月通过,1993年8月公布的。它适用于1.5Mbs速率的数字存储媒体的运动图像及伴音的压缩编码。MPEG-1追求高的压缩比,去除图像序列的时间冗余度,同时满足多媒体等随机存取的要求。它的图像类型有三种:I 图像,采用内部编码,不参照其他图像,亦称内部编码图像[6];P图像,采用预测编码,参照前一幅I或P图像作运动补偿编码,亦称预测编码;B图像,采用双向预测编码,参照前一幅和后一幅I或P图像作双向运动补偿编码,亦称双向预测图像。

MPEG-2制定于1994年,其设计目标是高级工业标准的图像质量以及更高的传输率。它进一步提高了压缩比,改善了音频、视频质量,采用的核心技术是分块DCT和帧间运

动补偿预测技术。MPEG-2所能提供的传输率在3~10Mbs间,在NTSC制下的分辨率可达720×486;可提供广播级的视像和CD级的音质;向下兼容MPEG-1,使得大多数MPEG-2解码器可播放MPEG-1格式的数据,如VCD;MPEG-2除了作为DVD的指定标准外,还可以用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频;MPEG-2可提供一个较广范围的压缩比,以适应不同画面质量、存储容量以及带宽的要求。

MPEG-4是对数字音视频数据进行压缩、通信、存取和操作管理等的新标准,并为各种通信环境提供一种通用的技术解决方案。MPEG专家组深入分析了信息领域中计算机、通信以及以电视为代表的消费电器即3C交叉融合的方式后,认为MPEG-4应提供用于通信的新方式,其中心是基于内容的A V信息存储、处理与操作,支持交互性、高压缩比以及通用存储性等功能。在其结构上应具有适应性与可扩张性,以适应软、硬件技术的不断发展,及时融合新的技术。由于MPEG-4的中心是基于内容与交互性的,它就不再对低码率范围做出特别要求。

MPEG-4在通信信息描述中,首次提出了对象的概念,如视频对象VO(Video Object)、音频对象AO(Audio Object)等,这是一个新的飞跃。在编码方案上,MPEG-4仍是以块为基础的混合编码。MPEG-4标准主要应用于视频电话、视频电子邮件和电子新闻等,其传输速率要求较低,在4.8~64kbs之间,分辨率为176144。MPEG-4利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求以最少数据获得最佳图像质量。MPEG-4更适用于交互A V服务以及远程监控。

MPEG-7由MPEG委员会于1998年10月提出提议,2001年9月正式成为国际标准,又称为“多媒体内容描述接口(Multimedia Content Description Interface)”,其目标是建立对多媒体信息内容的标准化描述,试图规范不同种类多媒体信息的描述而不受表达形式的限制。这些描述要与信息内容直接相关以便用来快速有效的查询、访问各种多媒体信息。

MPEG-7的应用范围广泛,既可以应用于存储,也可用于流式应用(如广播、将模型加入Internet等)。它可以在实时或非实时环境下应用,如数字图书馆、多媒体编辑等。另外,MPEG-7在教育、新闻、导游信息、娱乐、研究业务、地理信息系统、医学、购物、建筑等各方面均有较深的应用潜力。

MPEG-21是基于“多媒体框架(Multimedia Framework)标准”的,其最终目的是建立一个多媒体框架,以通过预购网络和设备使多媒体资源在用户之间透明方便的使用。MPEG-21的基本框架要素包括数字项目说明、内容表示、数字项目的识别和描述、内容管理和使用、知识产权管理和保护、终端和网络、事件报告等。它支持的功能有:通过网络

存储,使用并交互操作多媒体对象;实现多种业务模型,包括对版权和交易的自动管理;对内容进行隐私的尊重等。目前,这一标准仍处于开发当中。

(二)H.26X系列

1984年国际电报电话咨询委员会的第23研究组建立了一个专家组专门研究电视电话的编码问题。经过研究与努力,1988年形成草案,1990年12月通过ITU-T的H.261[7]建议。

H.261是ITU-T针对可视电话和会议、窄带ISDN等要求实时编码和低延时应用提出的一个编码标准。它允许“采用p64kbit的图像业务的图像编解码”,因而H.261简称p64。其中p是一个整数,取值范围为1~30,对应比特率为64kbs~1.92Mbs。它建议采用中间格式CIF(Common Intermediate Format)和QCIF(Quarter CIF)解决不同制式通信的矛盾;解决了编码算法问题。H.261采用了运动补偿预测和离散余弦变换相结合的混合编码方案,获得很好的图像压缩效果。

1995年,在H.261的基础上,ITU-T总结当时国际上视频图像压缩编码的最新进展,针对低比特率视频应用制定了H.263标准。它提高了运动补偿的精度,常用于超低速率的图像传输,被公认为是以像素为基础的采用第一代编码技术的混合编码方案所能达到的最佳结果。之后,ITU-T又对其进行了补充,以提高编码效率,增强编码功能。补充修订的版本有1998年的H.263+,2000年的H.263++。H.263采用第一代编码技术,在低速率视频传输质量,抗误码能力方面有明显提高,在视频业务传输中得到广泛应用。

与H.261只能工作在CIF、QCIF两种格式不同,H.263的信源编码器可以工作于5种图像格式:QCIF、Sub-QCIF、CIF、4CIF、16CIF。另外,H.263还在H.261基本编码算法的基础上提供了四种可选编码模式:非限制运动矢量模式、基于语法的算术编码模式、高级预测模式以及PB帧模式。由于仅限于五种固定图像大小、形状和时钟频率,它应用的灵活性较低。

H.263+[8]即ITU-T在1998年通过的H.263第二版,增加了12个新的高级模式,修正了第一版中的非限制运动矢量模式。修订版首先在视频格式多样性上做了改进,还提出一些新技术:如附加增强信息模式和增强参考帧再采样模式,进一步扩大适用范围,支持图像冻结和快照,以及多分辨率视频的应用,同时还增加了一些新技术来增强抗误码的能力:如分片结构模式、增强参考帧选择模式等,使视频信号经过压缩编码后能够在具有较大噪声干扰的窄带信道PSTN(Integrate Services Digital Network)和无限移动信道等上传输。通过使用去方块效应滤波器,降低分辨率更新模式和修正量化模式等新技术,重建图像的

主观质量显著提高。由于H.263+的高级模式有些不能同时使用,有些需结合使用,如何选择合适的编码模式结合,对使用者来说很困难,因此ITU-T于2000年11月提出了H.263++,称为H.263的第三版。它在H.263+的基础上增加了三个高级模式。

H.26L[9]标准是ITU-T和ISOIEC联合制定的最新的图像压缩编码标准,它最先由ITU-T的VCEG于1997年提出的,它的目标是提出一种更高性能的视频质量有实质性提高的视频编码标准。该标准于2003年3月完成,在ITU-T中被称为Recommendation H .264而在

H.26L的一个基本概念是引入了两个不同的层次:视频编码层(VCL:Video Coding Layer)以及网络适配层(NAL:Network Adapter Layer),前者负责对视频进行高效的压缩,后者则负责根据网络的传输需要进行编码数据的打包。H.26L相对于其他标准有以下的特点:低码率、高质量、可达到比H.263+提高一倍以上的编码效率;广阔的应用范围,既可用于严格时延限制的实时通信,可用于对时延要求不高的其他应用;稳健性,在网络中传输时,有较强的抗误码性能;对各种网络的友好性,提供了友好的网络接口。

第三节图像压缩技术分类

图像压缩的优点在于,如抗干扰、处理精度高、灵活性好等,其中主要缺点是数据量太大,传输中占频带太宽。数字图像数据量的压缩按应用不同可分为以下三类:

①信息保持型数据压缩(无损压缩):它要求压缩图像的比特数而不丢失任何信息。主要用在图像信息保存中,要求图像存储能保持信息并能快速存取图像。例如短时随机存取主要用于处理过程中的各个环节的存储,它要求经过不同存储介质多次重复不变质、不失真。又如遥感图像,摄取地球上许多地区,因来不及处理,可暂时保存以便以后处理。

②保真度型数据压缩:传送的图像应该能够适应通信的通道限制,若接收端是人观看的情况,由于人眼的生理特性不需要过高的空间分辨率和灰度分辨率,因此在压缩过程中允许丢失一些人感觉不到的信息,这就是一种允许微量失真的图像压缩。数字电视、图像传输和多媒体中常用这种压缩。

③特征保持型数据压缩(有损压缩):许多图像处理的目的是为了计算机的识别、分析、控制,这时并不需要图像的全部细节及灰度细节。只要能保存图像中的感兴趣的特征信息,无用信息都可丢掉。例如识别军舰类型、巡航导弹地形识别等只要轮廓信息就可以了。又如在机场跑道的识别中农田、房屋信息皆可丢掉,只保留跑道的图像信息即可。这些图像信号可以进行特征保持型数据压缩。图像编码也可以根据编码所在数据域划分为空

间域编码和变换域编码。

第四节图像压缩技术的发展趋势

从国际数据压缩技术的发展尤其是MPEG的发展可以看出,基于内容的图像压缩编码方法是未来编码的发展趋势。它不仅能满足进一步获得更大的图像数据压缩比的要求,而且能够实现人机对话的功能。另外,任意形状物体的模型建立的关键问题还没有解决,这严重影响其应用的广泛性。

通过元数据进行编码也是今后编码的发展方向。元数据是指详细的描述音视频信息的基本元素,利用元数据来描述音视频对象的同时也就完成了编码,因为此时编码的对象是图像的一种描述而不再是图像本身。从另一个角度来说,进一步提高压缩比,提高码流的附属功能(码流内容的可访问性、抗误码能力、可伸缩性等)也将是未来的编码的两个发展方向。

第五节本章小结

图像压缩技术已经为开拓全新的应用领域打下了坚实的基础。图像压缩技术的基本应用在更深更广层次上的应用就成为我们研究的热点。本章重点对现代图像压缩技术进行概括性介绍。图像压缩就是减少表示数字图像时需要的数据量。是指以较少的比特有损或无损地表示原来的像素矩阵的技术,也称图像编码。其次介绍了静态与动态图像的压缩标准。最后分别介绍了图像压缩技术的分类。

第二章图像有损压缩技术

随着多媒体技术和通讯技术的不断发展,多媒体娱乐、信息高速公路等不断对信息数据的存储和传输提出了更高的要求,也给现有的有限带宽以严峻的考验,特别是具有庞大数据量的数字图像通信,更难以传输和存储,极大地制约了图像通信的发展,因此图像压缩技术受到了越来越多的关注。图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。利用图像压缩可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。

第一节有损压缩概述

有损压缩[10]是对利用了人类是绝对图像或声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;虽然不能完全回复原始数据,但是所损失的部分对理解原始图像的影响缩小有损压缩,却换来了大得多的压缩比。有损压缩广泛应用于语音,图像和视频数据的压缩。常见的声音、图像、视频压缩基本都是有损的。

有损压缩可以减少图像在内存和磁盘中占用的空间,在屏幕上观看图像时,不会发现它对图像的外观产生太大的不利影响。因为人的眼睛对光线比较敏感,光线对景物的作用比颜色的作用更为重要,这就是有损压缩技术的基本依据。

有损压缩的特点是保持颜色的逐渐变化,删除图像中颜色的突然变化。生物学中的大量实验证明,人类大脑会利用与附近最接近的颜色来填补所丢失的颜色。例如,对于蓝色天空背景上的一朵白云,有损压缩的方法就是删除图像中景物边缘的某些颜色部分。当在·屏幕上看这幅图时,大脑会利用在景物上看到的颜色填补所丢失的颜色部分。利用有损压缩技术,某些数据被有意地删除了,而被取消的数据也不再恢复。

无可否认,利用有损压缩技术可以大大地压缩文件的数据,但是会影响图像质量。如果使用了有损压缩的图像仅在屏幕上显示,可能对图像质量影响不太大,至少对于人类眼睛的识别程度来说区别不大。可是,如果要把一幅经过有损压缩技术处理的图像用高分辨率打印机打印出来,那么图像质量就会有明显的受损痕迹。

在多媒体应用中,常见的压缩方法[11]有:PCM(脉冲编码调制),预测编码,变换编码,插值和外推法,统计编码,矢量量化和子带编码等,混合编码是近年来广泛采用的方法。mp3、divX、Xvid、jpeg、rm、rmvb、wma、wmv等都是有损压缩。有损数据压缩

方法是经过压缩、解压的数据与原始数据不同但是非常接近的压缩方法。有损数据压缩又称破坏型压缩,即将次要的信息数据压缩掉,牺牲一些质量来减少数据量,使压缩比提高。这种方法经常用于因特网尤其是流媒体以及电话领域。在这篇文章中经常成为编解码。它是与无损数据压缩对应的压缩方法。根据各种格式设计的不同,有损数据压缩都会有generation loss:压缩与解压文件都会带来渐进的质量下降。

第二节有损压缩机制

由于图像数据之间存在这一定的冗余,所以使得数据的压缩成为可能。信息论的创始人Shannon 提出把数据看作是信息和冗余度[12](redundancy)的组合。所谓冗余度是由于一副图像的各像素之间存在着很大的相关性,可利用一些编码的方法删去它们,从而达到减少冗余压缩数据的目的。为了去掉数据中的冗余,常常要考虑信号源的统计特性,或建立信号源的统计模型。

图像的冗余包括以下几种:

①空间冗余:像素点之间的相关性;

②时间冗余:活动图像两个连续帧之间的冗余;

③信息熵冗余:单位信息量大于其熵;

④结构冗余:区域上存在非常强的纹理结构;

⑤知识冗余:有固定的结构,如人的头像;

⑥视觉冗余:某些图像的失真是人眼不易觉察的。

对数字图像进行有损压缩通常利用两个基本原理:

一是数字图像的相关性。在图像的同一行相邻像素之间,相邻像素之间,活动图像的相邻帧的对应像素之间往往存在很强的相关性,去除或减少这些相关性,也即去除或减少图像信息中的冗余度也就实现了对数字图像的有损压缩。帧内像素的相关称为空域相关性。相邻帧间对应像素之间的相关性称为时域相关性。

二是人的视觉心理特征。人的视觉对于边缘急剧变化不敏感(视觉掩盖效应),对颜色分辨力弱,利用这些特征可以在相应部分,适当降低编码精度而使人从视觉上并不感觉到图像质量的下降,从而达到对数字图像有损压缩的目的。有损压缩有两种压缩机制[13]:

①有损变换编解码:首先对图像或者声音进行采样、切成小块、变换到一个新的空间、量化,然后对量化值进行熵编码。

②预测编解码:先前的数据以及随后解码数据用来预测当前的声音采样或者图像帧,预测数据与实际数据之间的误差以及其它一些重现预测的信息进行量化与编码。有些系统中同时使用这两种技术,变换编解码用于压缩预测步骤产生的误差信号。

第三节本章小结

在上一章的基础上,本章则是介绍了图像压缩技术中的一个重要成员,图像有损压缩技术。有损压缩是对利用了人类是绝对图像或声波中的某些频率成分不敏感的特性,允许压缩过程中损失一定的信息;并从实际应用角度说明了有损压缩技术的特点和应用方向;并简单的介绍了其主流的压缩方法,这一点将在后一章节中详细介绍。最后对有损压缩的机制进行介绍。压缩可以是有损压缩也可以是无损压缩,对于如绘制的技术图、图表或者漫画优先使用无损压缩。

第三章图像有损压缩的主要编码技术虽然人们总是期望无损压缩,但冗余度很少的信息对象用无损压缩技术并不能得到可接受的结果。当使用的压缩方法会造成一些信息损失时,关键的问题是看这种损失的影响。有损压缩经常用于压缩音频、灰度或彩色图像和视频对象等,因为它们并不要求精确的数据。在由音频、彩色图像、视频以及其他专门数据组成的多媒体对象中,可以单独使用有损压缩技术,也可与无损压缩技术共同使用。有损压缩编码不具有可恢复性和可逆性,该编码在压缩时舍弃冗余的数据。有损压缩技术逐渐走进了人们的视野。

第一节预测编码

预测编码[14]是根据离散信号之间存在着一定关联性的特点,利用前面一个或多个信号预测下一个信号进行,然后对实际值和预测值的差(预测误差)进行编码。如果预测比较准确,误差就会很小。在同等精度要求的条件下,就可以用比较少的比特进行编码,达到压缩数据的目的。

预测编码中典型的压缩方法有脉冲编码调制(PCM,Pulse Code Modulation)、差分脉冲编码调制(DPCM,Differential Pulse Code Modulation)、自适应差分脉冲编码调制(ADPCM,Adaptive Differential Pulse Code Modulation)等,它们较适合于声音、图像数据的压缩,因为这些数据由采样得到,相邻样值之间的差相差不会很大,可以用较少位来表示。

一、脉冲编码调制

脉冲编码调制[15](PCM,pulse code modulation)是概念上最简单、理论上最完善的编码系统。它是最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。PCM的编码原理比较直观和简单,原理框图如图3.1所示。在这个框图中,它的输入是模拟信号,首先经过时间采样,然后对每一样值都进行量化,作为数字信号的输出,即PCM样本序列x(0),x(1),...x(n)。图中的“量化,编码”可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器。

量化[16]有多种方法。最简单的是只应用于数值,称为标量量化,另一种是对矢量(又称为向量)量化。标量量化可归纳成两类:一类称为均匀量化,另一类称为非均匀量化。理论上,标量量化也是矢量量化的一种特殊形式。采用的量化方法不同,量化后的数据量也就不同。因此,可以说量化也是一种压缩数据的方法。

图3.1 PCM编码框图

二、差分脉冲编码调制

在PCM系统中,原始的模拟信号经过采样后得到的每一个样值都被量化成为数字信号。为了压缩数据,可以不对每一样值都进行量化,而是预测下一样值,并量化实际值与预测值之间的差值,这就是DPCM(Differential Pulse Code Modulation,差分脉冲编码调制)。

1952年贝尔(Bell)实验室的C.C.Cutler取得了差分脉冲编码调制系统的专利,奠定了真正实用的预测编码系统的基础。DPCM的组成如图3.2,其中编码器和解码器分别完成对预测误差量化值的熵编码和解码。

图3.2 DPCM系统原理框图

DPCM的优点是算法简单,容易硬件实现,缺点是对信道噪声很敏感,会产生误差扩散。即某一位码出错,对图像一维预测来说,将使该像素以后的同一行各个像素都产生误差;而对二维预测,该码引起的误差还将扩散到以下的各行。这样,将使图像质量大大下降。同时,DPCM的压缩率也比较低。随着变换编码的广泛应用,DPCM的作用已很有限。

三、自适应差分脉冲编码调制

进一步改善量化性能或压缩数据率的方法是采用自适应量化或自适应预测,即自适应差分脉冲编码调制(ADPCM)。它的核心想法是:

利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值。

使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图3.3所示。

图3.3 ADPCM方框图

①自适应量化:在一定量化级数下减少量化误差或在同样的误差条件下压缩数据,根据信号分布不均匀的特点,希望系统具有随输入信号的变化区间足以保持输入量化器的信号基本均匀的能力,这种能力叫自适应量化。

自适应量化必须有对输入信号的幅值进行估值的能力,有了估值才能确定相应的改变量。若估值在信号的输入端进行,称前馈自适应;若在量化输出端进行,称反馈自适应。信号的估值必须简单,占用时间短,才能达到实时处理的目的。

②自适应预测:预测参数的最佳化依赖信源的特征,要得到最佳预测参数显然是一件繁琐的工作。而采用固定的预测参数往往又得不到较好的性能。为了能使性能较佳,又不致于有太大的工作量,可以采用自适应预测。

为了减少计算工作量,预测参数仍采用固定的,但此时有多组预测参数可供选择,这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数需根据特征来自适应地确定。为了自适应地选择最佳参数,通常将信源数据分区间编码,编码时自动地选择一组预测参数,使该实际值与预测值的均方误差最小。随着编码区间的不同,预测参数自适应地变化,以达到准最佳预测。

第二节变换编码

预测编码的压缩能力是有限的。以DPCM为例,一般只能压缩到每样值2~4比特。20世纪70年代后,科学家们开始探索比预测编码效率更高的编码方法。人们首先讨论了KL 变换(Karhunen-Loeve Transform)、傅立叶变换等正交变换,得到了比预测编码效率高得多的结果,但苦于算法的计算复杂性太高,进行科学研究可以,实际使用起来很困难。直到20世纪70年代后期,研究者发现离散余弦变换DCT与KL变换在某一特定相关函数条件下具有相似的基向量,而用DCT的变换矩阵来做正交变换就可以节省大量的求解特征向量的计算,因而大大简化了算法的计算复杂性。DCT的使用使变换编码压缩进入了实用阶段。小波变换是继DCT之后科学家们找到的又一个可以实用的正交变换,它与DCT各有千秋,因而分别被不同的研究群体所推崇。

变换的基本原理:变换编码是指先对信号进行某种函数变换,从一种信号(空间)变换到另一种(空间),然后再对信号进行编码。如将时域信号变换到频域,因为声音、图像大部分信号都是低频信号,在频域中信号的能量较集中,再进行采样、编码,那么可以肯定能够压缩数据。

变换编码[17]系统中压缩数据有变换、变换域采样和量化三个步骤。变换本身并不进行数据压缩,它只把信号映射到另一个域,使信号在变换域里容易进行压缩,变换后的样值更独立和有序。这样,量化操作通过比特分配可以有效地压缩数据。

在变换编码系统中,用于量化一组变换样值的比特总数是固定的,它总是小于对所有变换样值用固定长度均匀量化进行编码所需的总数,所以量化使数据得到压缩,是变换编码中不可缺少的一步。在对量化后的变换样值进行比特分配时,要考虑使整个量化失真最小。变换编码是一种间接编码方法。它是将原始信号经过数学上的正交变换后,得到一系列的变换系数,再对这些系数进行量化、编码、传输。图3.4是变换编码系统方框图。

图中接收端输出信号与输入信号的误差是因为输入端采用量化器的量化误差所致。当经过正交变换后的协方差矩阵为一对角矩阵,且具有最小均方误差时,该变换称为最佳变换,也称Karhunen-Loeve变换[18](K-L变换)。如果变换后的协方差矩阵接近对角矩阵,该类变换称为准最佳变换,典型的有DCT(离散余弦变换)、DFT(离散傅立叶变换)、WHT等。

图3.4 变换编码、解码原理框图

第三节基于模型编码

从80年代中后期开始,科学家们开始探讨基于模型的编码,并在包括人脸图像的编码等应用中使用。如果把以预测编码和变换编码为核心的基于波形的编码作为第一代编码技术,则基于模型的编码就是第二代编码技术。N.Jayant指出,压缩编码的极限结果原则上可通过那些能够反映信号产生过程最早阶段的模型而得到。这就是基于模型编码的思想。一个例子是人类发音的“清晰声带—声道模型”(The Articulatory Vocal Cord-Vocal Tract Model),它把注意焦点从线性预测编码(LPC,Linear Predictive Coding)分析扩展到声道区分析,原则上为很低码率矢量量化提供了强得多的定义域,并允许更好地处理声带-声道的相互作用。另一个例子是人脸的线框(wire-frame)模型,它为压缩可视电话这类以人脸为主要景物的序列图像提供了一个强有力的手段。

基于模型图像编码首先由瑞典Forchheimer等人于1983年提出。基于模型方法的基本思

想是:在发送端,利用图像分析模块对输入图像提取紧凑和必要的描述信息,得到一些数据量不大的模型参数;在接收端,利用图像综合模块重建原图像,是对图像信息的合成过程。基本原理如图3.5所示。

与经典方法中的预测编码方法类似,基于模型编码在发送端既有分析用的编码器,同时又有综合用的解码器。只有这样,在发送端才能获得与接收端相同的综合后的重建图像,并将后者与原始图像进行“比较”,以确定图像失真是否低于“某种阈值”,以便修正模型参数。同经典方法比较,基于模型编码还有两点显著不同:

编码失真。基于模型编码所引起的失真已从传统方法的量化误差转化为几何失真,并可能进一步转化为物理失真或行为失真。

图3.5 基于模型的图像编码基本原理框图

如何评价重建图像质量。传统的以像素为单位计算原始图像与重建图像之间“逼真度”(如均方误差、信噪比)不能测量几何失真和物理失真等,从原理上讲根本不适用于基于模型编码。下面分别介绍基于模型的图像编码有两种技术:一种是基于语义编码,一种是基于物体编码。

一、基于语义编码

基于语义[19](semantic-based)编码采用显示模型(如人物的头肩部分)去分析和合成运动图像,景物里的物体三维模型为严格已知。瑞典Forchheimer等人于1983年提出的就是基于语义图像编码。由于物体模型的有效性,景物中的物体能够在语义水平描述。它可以有效地利用景物中已知物体的知识,实现非常高的压缩比。但它仅能够处理已知物体,并需要较复杂的图像分析与识别技术。

为了实现基于语义的图像编码,需要根据景物中特定的一些物体,预先建立它们的通用3D模型,最常用的是3D线框模型。3D线框模型由顶点在3D空间运动的互连多角形复合而成,将色彩信息映射到该模型上就能实现合成。例如,人物头部3D线框模型不仅给出面部的几何形状,而且提供了面部表情的描述。面部表情的变化(例如眨眼、张嘴)可用面部动作编码系统(FACS,Facial Action Coding System)中的动作单元(AU,Action Unit)来描述。FACS给出一个包含了人脸可能产生的全部基本动作(即AU)的集合,而AU是无法分成更小动作的最小动作。把许多AU按照不同的组合方式一起发生,就形成了脸上的丰富表情。

下面以视频电话为例说明。在开始通信时,首先把双方的基本特征(例如3D模型、

相关主题
文本预览
相关文档 最新文档