语音编码和图像编码的分类及特点
- 格式:doc
- 大小:33.50 KB
- 文档页数:5
音频编码解码基本概念介绍对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。
音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。
语音编码技术又分为三类:波形编码、参数编码以及混合编码。
波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。
该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。
非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。
我们最常用的G.711标准用的就是这个技术。
自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。
自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。
G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。
参数编码:广泛应用于军事领域。
利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。
它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。
这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。
美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。
MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。
语音压缩编码与图像压缩编码语音压缩编码语音压缩编码可分为三类:波形编码、参量编码和混合编码。
这些都属于有损压缩编码。
1.波形编码(1)波形编码的定义波形编码是指对利用调制信号的波形对语音信号进行调制编码的方式。
(2)波形编码的性能要求保持语音波形不变,或使波形失真尽量小。
2.语音参量编码(1)语音参量编码的定义语音参量编码是将语音的主要参量提取出来编码的方式。
(2)语音参量编码的基本原理首先分析语音的短时频谱特性,提取出语音的频谱参量,然后再用这些参量合成语音波形。
(3)语音参量编码的性能要求保持语音的可懂度和清晰度尽量高。
3.混合编码(1)混合编码的定义混合编码是既采用了语音参量又包括了部分语音波形信息的编码方式。
(2)混合编码的基本原理混合编码除了采用时变线性滤波器作为核心外,还在激励源中加入了语音波形的某种信息,从而改进其合成语音的质量。
(3)混合编码的性能要求保持语音的可懂度和清晰度尽量高。
图像压缩编码图像压缩按照图像是否有失真,可分为有损压缩和无损压缩;按照静止图像和动态图像,又可分为静止图像压缩和动态图像压缩。
1.静止图像压缩编码的特点(1)静止数字图像信号是由二维的许多像素构成的;(2)在各邻近像素之间都有相关性;(3)所以可以用差分编码(DPCM)或其他预测方法,仅传输预测误差从而压缩数据率。
2.动态图像压缩编码的特点(1)动态数字图像是由许多帧静止图像构成的,可看成是三维的图像;(2)在邻近帧的像素之间有相关性;(3)动态图像的压缩可看作是在静止图像压缩基础上再设法减小邻近帧之间的相关性。
语音编码和图像编码的分类及特点一、语音编码一般而言,语音编码分三大类:波形编码、参数编码及混合编码。
<1>、波形编码波形编码将时域模拟话音的波形信号进过采样、量化和编码形成数字语音信号,是将语音信号作为一般的波形信号来处理,力图使重建的波形保持原语音信号的波形形状。
具有适应能力强、合成质量高的优点。
但所需编码速率较高,通常在16KB/S以上,并且编码质量随着编码速率的降低显著下降,且占用的较高的带宽。
波形编码又可以分为时域上和频域上的波形编码,频域上有子带编码和自适应变换域编码,时域上PCM、DPCM、ADPCM、APC和DM增量调制等。
①、子带编码它首先用一组带通滤波器将输入信号按频谱分开,然后让每路子信号通过各自的自适应PCM编码器(ADPCM)编码,经过分接和解码再复合成原始信号。
特点:1、每个子带独立自适应,可按每个子带的能量调节量化阶;2、可根据各个子带对听觉的作用大小共设计最佳的比特数;3、量化噪声都限制在子带内某一频带的量化噪声串到另一频带中去。
②、自适应变换域编码利用正交变换将信号有时域变换到另外的一个域,使变换域系数密集化,从而使信号相邻样本间冗余度得到降低。
特点:对变换域系数进行量化编码,可以降低数码率。
③、PCM(Pulse-code modulation),脉冲编码调制对连续变化的模拟信号进行进行抽样、量化和编码产生。
特点是保真度高,解码速度快,缺点是编码后的数据量大。
④、DPCM(Differential Pulse Code Modulation)差分脉冲编码调制是对模拟信号幅度抽样的差值进行量化编码的调制方式,是用已经过去的抽样值来预测当前的抽样值,对它们的差值进行编码。
特点:对于有些信号瞬时斜率比较大,很容易引起过载;而且瞬时斜率较大的信号也没有像话音信号那种音节特性,因而也不能采用像音节压扩那样的方法,只能采用瞬时压扩的方法;传输的比特率要比PCM低;一个典型的缺点就是易受到传输线路上噪声的干扰。
各种音视频编解码学习详解编解码学习笔记(一):基本概念媒体业务是网络的主要业务之间。
尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。
最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。
所以豆丁上看不出所以然,从wiki上查。
中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。
我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。
wiki的中文还是很不错的,但是阅读后建议再阅读英文。
我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。
网友资料我们将给出来源。
如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。
基本概念编解码编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。
这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。
编解码器经常用在视频会议和流媒体等应用中。
容器很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。
这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。
通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。
FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。
GSM语音编码方案1. 引言GSM(Global System for Mobile Communications,全球移动通信系统)是目前全球主流的第二代数字移动通信标准。
GSM网络提供低功率的无线通信服务,被广泛应用于手机通信、无线数据传输、短信及多媒体信息传递等领域。
在GSM网络中,语音编码方案是非常关键的部分。
本文将介绍GSM语音编码方案的基本原理,主要特点和应用。
2. 基本原理GSM语音编码方案基于线性预测编码(Linear Predictive Coding,简称LPC)和自适应多速率编码(Adaptive Multi-Rate,简称AMR)技术。
LPC是一种基于信号采样的编码技术,通过对语音信号进行分析和压缩,实现对语音信号的传输和存储。
它利用线性预测模型对语音信号进行建模,然后通过削减模型中的冗余信息,降低信号的冗余度,以达到压缩数据的目的。
LPC编码主要分为分帧、预加重、自相关和线性预测系数计算等几个步骤。
AMR则是一种自适应多速率编码技术,它根据通信环境的质量要求自动选择合适的压缩比率。
AMR提供了多个不同比特率的编码模式,从4.75 kbps到12.2 kbps不等。
低比特率提供的音质较差,但传输开销较低,适用于网络带宽较低的环境,而高比特率则提供更好的音质和更高的保真度。
3. 主要特点GSM语音编码方案具有以下几个主要特点:3.1 低比特率GSM语音编码方案的比特率通常在8 kbps左右,远低于CD音质的128 kbps。
这使得GSM网络在有限的频谱资源下能够支持更多的用户同时通信,有效提高了系统的容量。
3.2 低延迟GSM语音编码方案具有较低的编解码延迟,通常在20毫秒左右。
这使得用户在通话中感觉到的延迟较小,提供了良好的实时通话体验。
3.3 压缩效率高GSM语音编码方案通过LPC技术对语音信号进行压缩,实现了较高的压缩效率。
相同比特率下,GSM语音编码方案相比其他编码方案具有更好的音质和保真度。
编码器实验报告编码器实验报告引言在现代信息技术的发展中,编码器扮演着至关重要的角色。
编码器是一种将输入信息转换为特定格式的设备或程序,它可以将信息从一种形式转换为另一种形式,以便于存储、传输或处理。
本实验旨在探索不同类型的编码器以及它们在实际应用中的作用和效果。
一、数字编码器数字编码器是将模拟信号转换为数字信号的设备。
在本次实验中,我们使用了一种常见的数字编码器——脉冲编码器。
脉冲编码器通过将连续的模拟信号转换为离散的数字脉冲信号来实现。
在实验中,我们使用了编码器将音频信号转换为数字信号,并通过计算机进行处理和分析。
实验结果表明,数字编码器能够准确地捕捉到原始音频信号的细微变化,并将其转换为数字形式,方便后续的存储和处理。
二、图像编码器图像编码器是将图像信号转换为特定格式的设备或程序。
在本次实验中,我们使用了一种常见的图像编码器——JPEG编码器。
JPEG编码器通过对图像进行压缩,减少冗余信息的存储空间,从而实现图像的高效传输和存储。
实验结果表明,JPEG编码器能够在保持图像质量的同时,大幅度减少图像文件的大小,提高图像传输和存储的效率。
三、视频编码器视频编码器是将视频信号转换为特定格式的设备或程序。
在本次实验中,我们使用了一种常见的视频编码器——H.264编码器。
H.264编码器是一种高效的视频压缩技术,通过对视频信号进行压缩,减少冗余信息的存储空间,从而实现高质量视频的传输和存储。
实验结果表明,H.264编码器能够在保持视频质量的同时,大幅度减少视频文件的大小,提高视频传输和存储的效率。
四、语音编码器语音编码器是将语音信号转换为特定格式的设备或程序。
在本次实验中,我们使用了一种常见的语音编码器——MP3编码器。
MP3编码器通过对语音信号进行压缩,减少冗余信息的存储空间,从而实现高质量语音的传输和存储。
实验结果表明,MP3编码器能够在保持语音质量的同时,大幅度减少语音文件的大小,提高语音传输和存储的效率。
兰州理工大学作业题目:语音编码和图像编码的分类和特点学院名称:专业名称:学号:学生姓名:一语音编码语音编码是将模拟语音信号转换为数字语音信号,以便在数字信道中传输。
语音编码的技术在数字移动通信中具有相当关键的作用。
语音编码技术可以分为波形编码、参量编码和混合编码等类型。
波形编码是将时间域信号直接变换为数字代码,目标是尽可能精确地再现原来语音波形。
波形编码的基本方法是抽样、量化,编码速率较高时,语音质量好。
波形编码广泛应用与有线通信,在频率受限的移动通信中,单纯的波形编码已经不适合。
波形编码技术包括脉冲编码调制(PCM)和增量调制( M)及它们的各种改进型。
将信源信号在频率域或其他正交变换域中提取特征参量,并将其变换为数字代码进行传输。
解码是从接收信号中恢复特征参量,然后根据这些特征参量重建语音信号。
可实现低速率语音编码,可压缩到2~4.8 Kb/s,甚至更低,但语音质量只能达到中等。
线性预测编码(LPC)及其各种改进型都属于。
混合编码力图保持波形编码的高质量及参量编码的低速率的优点。
混合编码语音信号中既包括若干语音特征参量又包括部分波形编码信息。
可将比特速率压缩到4~16 Kb/s,并且在8~16 Kb/s范围内能达到良好的语音质量。
规则码激励长期预测编码(RPE- LPT)就是一种混合编码方案。
显然,混合编码是适合于在数字移动通信中采用。
在数字通信发展的推动下,语音编码的研究进展迅速。
研究方向有两个:一是降低语音编码速率,这主要针对语音质量好但速率高的波形编码;二是提高语音质量,这主要针对速率低但语音质量较差的参量编码。
波形编码的改进主要有自适应差分PCM(ADPCM)、子带编码(SBC)、自适应变换域编码(ATC)和时域谐波压扩(TDHS)等。
编码速率9600 bit/s~32 Kb/s,语音质量较好。
提取某些语音特征参量来传输,以达到压缩速率的目的,已不是单纯的波形编码。
参量编码的一项突出进展提出了矢量量化编码,可进一步压缩速率。
目录第一章模拟通信和数字通信 (2)第二章数字通信的特点及性能指标 (3)第三章语音信号数字化编码 (4)3.1 语音信号编码的基本概念及分类 (4)3.2 脉冲编码调制——PCM (4)3.3 差值脉冲编码调制——DPCM (5)第四章时分多路复用 (6)4.1 时分多路复用的概念即构成 (6)4.2 PCM30/32路系统 (7)第五章高群次数字复接 (7)5.1数字复接系统的构成 (7)5.2 数字复接的实现和同步 (7)结论 (7)参考文献 (8)第一章模拟通信和数字通信根据信号方式的不同,通信可分为模拟通信和数字通信。
什么是模拟通信呢?比如在电话通信中,用户线上传送的电信号是随着用户声音大小的变化而变化的。
这个变化的电信号无论在时间上或是在幅度上都是连续的,这种信号称为模拟信号。
在用户线上传输模拟信号的通信方式称为“模拟通信”。
数字信号与模拟信号不同,它是一种离散的、脉冲有无的组合形式,是负载数字信息的信号。
电报信号就属于数字信号。
现在最常见的数字信号是幅度取值只有两种(用0和1代表)的波形,称为“二进制信号”。
“数字通信”是指用数字信号作为载体来传输信息,或者用数字信号对载波进行数字调制后再传输的通信方式。
数字通信与模拟通信相比具有明显的优点:首先是抗干扰能力强。
模拟信号在传输过程中和叠加的噪声很难分离,噪声会随着信号被传输、放大、严重影响通信质量。
数字通信中的信息是包含在脉冲的有无之中的,只要噪声绝对值不超过某一门限值,接收端便可判别脉冲的有无,以保证通信的可靠性。
其次是远距离传输仍能保证质量。
因为数字通信是采用再生中继方式,能够消除噪音,再生的数字信号和原来的数字信号一样,可继续传输下去,这样通信质量便不受距离的影响,可高质量地进行远距离通信。
此外,它还具有适应各种通信业务要求(如电话、电报、图像、数据等),便于实现统一的综合业务数字网,便于采用大规模集成电路,便于实现加密处理,便于实现通信网的计算机管理等优点。
AI语音和图像处理的最佳实践在AI技术的快速发展中,语音和图像处理是其中两个非常重要的领域。
随着人工智能的越来越普及,AI语音和图像处理的应用越来越广泛,同时发挥的作用也越来越大。
今天,我们就来探讨一下AI语音和图像处理的最佳实践。
一、AI语音处理的最佳实践1. 实时识别AI语音处理的一大特点就是可以实现实时识别。
一些智能语音助手如Siri、小度、天猫精灵等,就是通过AI技术实现了实时语音识别。
在实现实时语音识别时,需要考虑到网络延迟、掉包率等因素,同时也需要确定好合理的音频采样率和编码方式。
2. 转写技术除了实时语音识别外,AI语音处理还可以通过转写技术将语音转换成文字。
这种技术广泛应用于电话客服、视频会议等场景中。
AI技术可以识别出每一个发音,然后将它们转换成文字形式。
在这个过程中,我们需要考虑到各种语言的基本发音、口音等因素,从而保证语音转写的准确性。
3. 语音合成语音合成是一种通过计算机合成语音的技术。
通过语音合成技术,可以让计算机通过文本输入输出相应的语音,这种技术可以应用于在收音机、广播电台等场所播报新闻、信息等需要听的场合。
在语音合成技术中,需要考虑到各种语言、口音和基本发音等因素。
二、AI图像处理的最佳实践1. 图像识别图像识别是AI图像处理技术的基础,也是应用非常广泛的一下领域。
图像的识别性能直接决定了AI技术的可靠性和效果。
在图像识别技术中,需要考虑到图像分辨率、光照、噪声等因素,同时还需要根据不同的应用场景确定好合理的算法模型。
2. 图像分类在图像识别技术的基础上,我们可以利用AI技术实现图像分类。
通过图像分类技术,可以将图像分为不同的分类,从而实现对图片的智能分析和处理。
在图像分类过程中,需要考虑到各种图像特征、质量和分辨率等因素。
3. 人脸识别人脸识别是AI技术中非常重要的一个应用领域。
通过AI技术实现人脸识别可以有效地提高人工智能在安防、金融、物流等领域的应用价值。
在人脸识别技术中,需要考虑到各种肤色、年龄段等因素,同时还需要通过算法模型来实现准确的人脸识别。
语音编码和图像编码的分类及特点一、语音编码一般而言,语音编码分三大类:波形编码、参数编码及混合编码。
<1>、波形编码波形编码将时域模拟话音的波形信号进过采样、量化和编码形成数字语音信号,是将语音信号作为一般的波形信号来处理,力图使重建的波形保持原语音信号的波形形状。
具有适应能力强、合成质量高的优点。
但所需编码速率较高,通常在16KB/S以上,并且编码质量随着编码速率的降低显著下降,且占用的较高的带宽。
波形编码又可以分为时域上和频域上的波形编码,频域上有子带编码和自适应变换域编码,时域上PCM、DPCM、ADPCM、APC和DM增量调制等。
①、子带编码它首先用一组带通滤波器将输入信号按频谱分开,然后让每路子信号通过各自的自适应PCM编码器(ADPCM)编码,经过分接和解码再复合成原始信号。
特点:1、每个子带独立自适应,可按每个子带的能量调节量化阶;2、可根据各个子带对听觉的作用大小共设计最佳的比特数;3、量化噪声都限制在子带内某一频带的量化噪声串到另一频带中去。
②、自适应变换域编码利用正交变换将信号有时域变换到另外的一个域,使变换域系数密集化,从而使信号相邻样本间冗余度得到降低。
特点:对变换域系数进行量化编码,可以降低数码率。
③、PCM(Pulse-code modulation),脉冲编码调制对连续变化的模拟信号进行进行抽样、量化和编码产生。
特点是保真度高,解码速度快,缺点是编码后的数据量大。
④、DPCM(Differential Pulse Code Modulation)差分脉冲编码调制是对模拟信号幅度抽样的差值进行量化编码的调制方式,是用已经过去的抽样值来预测当前的抽样值,对它们的差值进行编码。
特点:对于有些信号瞬时斜率比较大,很容易引起过载;而且瞬时斜率较大的信号也没有像话音信号那种音节特性,因而也不能采用像音节压扩那样的方法,只能采用瞬时压扩的方法;传输的比特率要比PCM低;一个典型的缺点就是易受到传输线路上噪声的干扰。
⑤、ADPCM(adaptive differential pulse code modulation),自适应差分脉冲编码调制是DPCM的扩展,区别在于较DPCM在实现上预测器和量化器会随着相关的参数自适应的变化,达到较好的编码效果。
特点:优点在算法复杂度低,压缩比小,编解码延时最短,压缩/解压缩算法非常的简单,低空间消耗。
缺点是声音的质量一般。
⑥、DM增量调制只保留每一信号样值与其预测值之差的符号,并用一位二进制数编码的差分脉冲编码调制。
特点:1、电路简单,而脉码调制编码器需要较多逻辑电路;2、数据率低于40千比特/秒时,话音质量比脉码调制的好;3、抗信道误码性能好,能工作于误码率为10-3的信道,而脉码调制要求信道误码率低于10-5~10-6。
<2>、参数编码利用人类发声系统的特性来压缩信号,对语音信号的产生赋予特点的声学模型,通过对模型参数的提取和编码,力图使重建的语音信号具有尽可能高的自然度和可懂度。
参数编码主要有两大类:线性预测编码和声码器。
线性预测编码包括多脉冲激励LPC、码本激励LPC和矢量和激励LPC编码方式,声码器有四种:信道声码器、共振峰声码器、倒频谱声码器和语音激励声码器。
①、多脉冲激励LPC激励源一律采用多脉冲序列在给定的一项N个激励样本中,保留M个,其幅度和位置是确定的。
使合成语音和原始输入语言之间的感加权误差最小。
特点:MPLPC必须进行量化编码,它传输的内容包括多脉冲激励的脉冲位置和幅度,长时和短时预测器系数,音调周期,MPLPC产生的语音质量和数码率取决于脉冲的数目。
一般认为在9.6kbit/s的数码率上,有较高的语音质量。
它可以尖用于数字动通信、数字保密通信。
②、码本激励LPC它是一种用码本作为激励源的编码方式,以N样值为一组,构成一个含N维磁量的码字。
若以上码字又组成了一套码本,并且收发端的码本设置是相同的,而传送的是码字序号而不是N维样值序列本身,从而压缩了数据率。
特点:建立码本和搜索码字的运算量很大。
③、矢量和激励LPC其码本(CODE BOOK)仅含少量n个基本矢量的加减组合,得到2n个码字的码本。
是码本激励LPC编码的一种类型。
特点:使得VSELP与CELP相比,大大地降低了运算量,VSELP已成为北美和日本数字蜂窝移动通信系统的话音编码标准。
④、声码器声码器在发送端对语言信号进行分析,提取出语言信号的特征参量加以编码和加密,以取得和信道的匹配,经信息道传递到接受端,再根据收到的特征参量恢复原始语言波形。
分析可在频域中进行,对语言信号作频谱分析,鉴别清浊音,测定浊音基频,进而选取清-浊判断、浊音基频和频谱包络作为特征参量加以传送。
分析也可在时域中进行,利用其周期性提取一些参数进行线性预测,或对语言信号作相关分析。
根据工作原理,声码器可以分成:通道式声码器、共振峰声码器、图案声码器、线性预测声码器、相关声码器、正交函数声码器。
特点:声码器的明显优点是数码率低,因而适合于窄带、昂贵和劣质信道条件下的数字电话通信,能满足节约频带、节省功率和抗干扰编码的要求。
低数码率对话音存储和话音加密处理也都很有利。
声码器的缺点是音质不如普通数字电话好,而且工作过程较复杂,造价较高。
<2>、混合编码是将波形编码和参数编码相结合而得到的,综合了参数编码低比特率与波形编码高语音质量优点。
应用最广泛的是LPAS(基于线性预测技术的分析-合成编码方式)LPAS(基于线性预测技术的分析-合成编码方式)通过线性预测确定系数参数,并通过闭环和分析-合成方法来确定激励序列。
二、图像编码图像编码是指在满足一定质量(信噪比的要求或主观评价得分)的条件下,以较少比特数表示图像或图像中所包含信息的技术。
图像编码方案分成预测编码和变换域编码两大类。
<1>、变换域编码用一维、二维或三维正交变换对一维n、二维n×n、三维n×n×n块中的图像样本的集合去相关,得到能量分布比较集中的变换域;在再码化时,图像编码根据变换域中变换系数能量大小分配数码,就能压缩频带。
主要是利用像素之间的相关性或是变换域的参数分布特征来进行编码。
下面介绍几种常见的现代信号处理上的函数变换①、DFT离散傅里叶变换离散傅里叶变换(DFT),是连续傅里叶变换在时域和频域上都离散的形式,将时域信号的采样变换为在离散时间傅里叶变换(DTFT)频域的采样。
在形式上,变换两端(时域和频域上)的序列是有限长的,而实际上这两组序列都应当被认为是离散周期信号的主值序列。
即使对有限长的离散信号作DFT,也应当将其看作经过周期延拓成为周期信号再作变换。
在实际应用中通常采用快速傅里叶变换以高效计算DFT。
②、DCT离散余弦变换离散余弦变换是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换,但是只使用实数。
离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换,这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数),在有些变形里面需要将输入或者输出的位置移动半个单位。
③、WT小波变换小波变换是时间(空间)频率的局部化分析,它通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,解决了Fourier变换不能解决的许多困难问题。
④、WT沃尔什变换在矢量空间用沃尔什函数对图像阵列进行的变换。
沃尔什变换主要用于图像变换,属于正交变换。
这种变换压缩效率低,所以实际使用并不多。
但它快速,因为计算只需加减和偶尔的右移操作。
⑤、HT哈达玛变换是按Hadamard取序的walsh变换,本质上两者没有区别。
HT与WT小波变换之间最大的区别就是变换矩阵的行列排列次序不同,且它的高阶矩阵可以有两个低阶矩阵推出,可参阅③WT小波变换。
⑥、Slant倾斜变换可参阅《Slant变换与图象数据压缩》张正寅<2>、预测编码预测编码是从相邻像素之间的强的相关性特点出发,当前的像素的灰度或颜色信号的数值可用前面的已出现的像素的值进行预测,得到一个预测值,然后将其与实际值求差,对这个差值信号进行编码、传送。
可分为两大类:帧内预测编码和帧间预测编码。
①、帧间预测编码对于序列图像,把几帧图像存储,使用帧间相关性进一步消除图像信号的冗余度,提高压缩比。
帧间预测编码方法有帧间预测、条件补充、条件次取样和运动补偿。
帧间预测:采用DPCM,只传差值。
条件补充法:条件像素补充法规定,若帧间各对应像素的亮度差超过阈值,则把这些像素存到缓存区中,并以恒定的传输速率传输,而阈值以下的像素则不传送,在接收端用上一帧相应的像素代替。
条件次取样:条件补充与内插相结合,在时间轴采用次取样(二个取一),对于未取样的当前场的某点可以采用隔场的四邻点亮度的均值,作为改点亮度的预测值。
运动补偿:运动补偿是一种描述相邻帧(相邻在这里表示在编码关系上相邻,在播放顺序上两帧未必相邻)差别的方法,具体来说是描述前面一帧(相邻在这里表示在编码关系上的前面,在播放顺序上未必在当前帧前面)的每个小块怎样移动到当前帧中的某个位置去。
这种方法经常被视频压缩/视频编解码器用来减少视频序列中的空域冗余。
它也可以用来进行去交织(deinterlacing)的操作。
②、帧内预测编码在H.264中,当编码Intra图像时可用帧内预测。
对于每个4×4块(除了边缘块特别处置以外),每个像素都可用17个最接近的先前已编码的像素的不同加权和(有的权值可为0)来预测,即此像素所在块的左上角的17个像素。
显然,这种帧内预测不是在时间上,而是在空间域上进行的预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效的压缩。
(注:专业文档是经验性极强的领域,无法思考和涵盖全面,素材和资料部分来自网络,供参考。
可复制、编制,期待你的好评与关注)。