当前位置:文档之家› 973项目:基于视觉特性的视频编码理论与方法研究

973项目:基于视觉特性的视频编码理论与方法研究

973项目:基于视觉特性的视频编码理论与方法研究
973项目:基于视觉特性的视频编码理论与方法研究

项目名称:基于视觉特性的视频编码理论与方法研

首席科学家:高文北京大学

起止年限:2009.1至2013.8

依托部门:教育部

一、研究内容

由于可以有效节省通信带宽和存储容量,高效率的视频编码技术已经成为数字视频广播(广播网)、数字媒体存储与网络传输(计算机网络)、以及多媒体通讯(通信网)等数字媒体产业的共性关键技术。特别是近年来,我国的数字媒体产业迅猛发展,年均产值已近万亿元,使得音视频编解码标准技术的地位越来越重要。经过多年努力,2006年中国终于有了自己的视频编码国家标准AVS。但我们仍需未雨绸缪,从模型、理论、方法和技术上为下一代视频编码国家标准和国际标准的制定早做准备,确保在下一轮的标准竞争中立于不败之地。

从视频编码的需求角度看,编码的主要动机是在尽量保证高质量视觉效果的前提下最大限度地降低码率,达到压缩的目的。众所周知,人类视觉系统的信息处理能力远远超过目前的视频处理系统,因此,从方法论上借鉴人类视觉系统的视觉信息处理基本神经机制和心理机理,构建统一的图像/视频基本结构与表示模型及其相应的视觉计算方法,发展将香农信息论与人类视觉系统信息处理原理相结合的高效视觉信息编码理论与方法,就成为了本项目的基本出发点和立项依据。

视频编码处理的核心环节要对视频中包含的视觉信息进行高效的表达和准确的重建,其本质是视觉信息的基本结构和有效表示问题。为此,我们需要探讨以下关键科学问题:

(1)视频编码可以借鉴的视觉信息处理机理是什么?

作为长期进化的结果,人类视觉信息处理系统是至为精致的生物系统之

一。但遗憾的是,其基本神经机制、知觉和认知机理目前尚不完全清晰。

本项目将从多学科交叉的角度出发,探索视觉信息处理的基本神经机制

和认知机理,研究相应的理论和模型,对其进行实验验证与计算仿真,

以期能够用以指导建立更加有效的视觉计算模型。

(2)视频编码可以利用的符合视觉信息处理机理的计算模型是什么?

尽管人类视觉系统的信息处理机理尚不完全明了,但随着技术手段的提

高,脑科学、神经科学和认知心理学专家已经掌握了越来越多的规律并

提出了很多假说和模型。如何基于这些发现构建相应的、可计算的视觉

信息处理数学模型就成为一个重要的基础科学问题。其解决不仅可以有

效促进视觉编码技术的发展,还可以从计算模拟的角度反过来推动视觉

基本机理的研究。

(3)与人类视觉系统特性相吻合的视频表示及编码的理论是什么?

香农信息论虽然从理论上给出了编码效率的上界和失真的关系,但并未

考虑编码的符号(事件)集,因而对视频中高阶相关缺乏有效的描述手段。

视觉信息论试图借鉴神经生理学在不同感知阶段对感知对象的抽象,建

立对应的符号(事件)集,使之能够方便地描述高阶相关性,体现语义结构,从而丰富信息论理论。符号(事件)是借鉴稀疏编码理论通过采用贝叶斯计

算视觉感知的后验概率建立的。这将为高效视频编码提供指导性的理论

基础。

上述三个关键科学问题紧紧围绕视觉信息处理系统中最核心的表示与编码问题,分别从生理/心理基本机理、视觉信息处理计算模型、视频编码基础理论三个层面展开。其中,视觉基本机理既是基本出发点也是落脚点,计算模型是桥梁和纽带,视觉信息论则是设计和实现下一代视频编码方法和技术的理论基础。

围绕上述三个关键科学问题,我们提出的总体研究内容框架如图2所示,以期建立解决这些问题的模型、理论和方法,构建相应的验证平台和原型系统。如图所示,对应三个关键科学问题,本项目的主要研究内容自底向上分别建立在三个层面,即:机理与模型层,理论与方法层,关键技术与验证层。下面我们分别从这三个层面对本项目的主要研究内容进行阐述。

2.1视觉基本机理与模型层

该层面的研究内容面向的科学问题主要是前两个:视觉信息处理的基本机理和符合这些基本机理的计算模型。不难理解,二者有天然的紧密联系:一方面,视觉信息处理基本机理为视觉信息处理的计算仿真、计算模型建立等提供了良好的生理学和心理学参照系,对其基本规律的认识为计算模型的建立提供了良好的技术可能性和努力方向。另一方面,计算模型也为基本机理的正确性和模型的有效性提供了验证机会,有利于推动视觉基本机理的研究。下面分别叙述本项目在视觉基本机理和计算模型方面拟开展的研究。

2.1.1视觉信息处理基本机理研究

在视知觉机理方面,将主要从生理、心理角度,通过神经电生理学、视觉行为学、药物学等研究手段,在灵长类动物上采用包括微电极矩阵记录方法、高时间分辨率的事件相关电位(ERP)、功能核磁共振(fMRI)等技术手段从初级视觉皮层V1神经元群体反应特性入手,研究V1神经元经典和非经典感受野与上级视觉皮层区域神经元正向和反向联系、V1神经元之间的横向联系,以及视觉学习过程中神经元群视觉编码模式的变化特性,探索初级和高级皮层中的神经元群在视觉处理中对简单和复杂视觉刺激的编码模式以及动态反应模式,各级皮层神经元群对不同视觉模式识别的贡献,考察视觉注意和知觉组织之间相互影响和交互作用,以验证或改进现有假说或理论模型(如稀疏编码、群组编码、视觉注意、

增量成组假说等),乃至提出有关视觉模式识别的神经机制及编码机理的新假说、新模型,为后续的计算模型的研究提供神经机制和心理机理方面的基础。图3给出了本项目在视知觉基本机理方面拟开展的主要研究内容,涉及的主要关键问题,机理模型/假说,以及拟采用的技术手段。

视知觉基本机理的研究成果为实现人工视觉提供了一条可行的道路,利用基本视觉机理如稀疏编码、群组编码、增量成组等,根据人类视觉系统在平移、旋转、尺度下的不变性以及对数据缺失、噪声等问题的自适应性,从计算仿真的角度研究相应的视觉信息处理计算结构,探讨视知觉的计算机理,建立相应的表示和计算模型。

我们将在这一框架下研究包括视觉信息的稀疏表示、初级视觉皮层(V1区)、V2区、V4区和IT区的各个层次、不同复杂度下特征形成的计算模型和实现算法。具体研究内容包括:在视皮层网络结构第一层上研究视觉信息稀疏表示的机器学习算法、超完备表示对实现鲁棒图像编码的作用以及基于超完备表示的特征提取方法等。在第二网络层次上将研究视觉特征成组(Feature Grouping)机理以及神经网络拓扑结构和学习算法。在皮层型网络的第三层上则研究整体特征形成机理及计算模拟算法,在最高层则研究基于整体特征的物体识别模型与算法。

2.1.2面向视频编码的视觉计算模型研究

在上述视知觉机理研究基础上,我们将从功能模拟的角度,采用统计学习方法,研究从图像和视频中学习与视觉感知相对应的视觉信息表示基本粒子结构,建立形式化数学描述的有关理论和方法。特别要重点研究稀疏编码、增量成组和视觉注意机制所遵循的基本规律及其可能的计算模型,进而建立与视觉信息处理相关的统计模型和计算方法。

在本项目的研究中,我们将基于静态要素图模型,提出一个针对视觉运动的、统一的视觉表示模型——时空要素图(Spatial Temporal prImal skeTCh graph —STITCH)系统。该系统包含了运动图像序列中每一帧的要素图表示。这些要素图比以往从静态图像中所获得的要素图显示出更强的语义信息。这些语义信息主要来源于运动所提供的丰富线索——考虑到运动的时空相关性以及整体运动的一致性(coherence),我们可以对每帧静态要素图做进一步的分析处理,如层次化连接不同粒度的基元和模式等。图与图之间元素的对应关系表示了这些元素在时间上的动态对应关系。此外,STITCH系统还包括驱使这些要素图产生变化的动力学模型,如:要素图或其子图的运动、几何变形、以及拓扑结构的变化模型等。我们认为时空要素图模型是对运动图像序列的一种内在本质表示,它将为编码提供稀疏、高效的表示,从而有望使得新一代编码技术获得本质性的飞跃。

本项目将通过提出上述针对视频信息的“时空要素图”表示模型和计算方法,研究将视频分解为层次化基元结构的可行性,探讨视频表示及编码的基本数学模型问题,进而探索视频的内在基本结构,为后续的“视知觉熵”、“视觉信息论”、基于视觉特性的高效视频压缩、多维度可伸缩编码、分布式多视点编码和面向智能监控的视频编码等研究内容提供基础性的视觉表示和计算模型。

在视觉注意计算方面,项目将基于前面讨论的STITCH表示,研究视频的注意选择计算模型。将视频分解成基元结构后,根据视觉机理中的“中心-环绕”机制,视频中的注意区域可定义为运动基元的时空特征拐点,如飞翔的小鸟、飘落的雪花可能会因其空间特征与周围区域有显著差异而显著性高,而快速行走的人突然停下来可能会引起运动特征与周围(时间轴)有变化而被关注。

显著性可以用特征与中心/环绕类别标记之间的互信息来描述,特征与类别标记关联越紧密,该特征越能将中心和环绕区域分离开,即中心与环绕区域之间的特征分布差异越大,则显著性越高

这种定义在运动基元上的显著性与现有的基于低级特征(如颜色、亮度、方向和光流)的显著性相比更加符合人类的视觉特性,可以为后续基于注意的视频编码和内容监控提供更多信息。

2.2视频编码理论与方法层

上述视觉基本机理与模型层研究的核心内容是视觉信息的有效表示问题,而视频编码的根本目标则是要使用尽可能少的比特来编码表达原始视频中包含的视觉信息,因此,上述基本机理和数学模型恰可以利用以进行高效的视频编码,而且这为突破现有技术框架提出了新思路,即基于视觉特性的高效视频编码理论。

从视频编码领域自身技术发展趋势来看,除了提高编码效率这一核心目标之外,也需要在其他角度上发展。首先,需要适应不同的传输带宽、存储和检索目的,实现多个维度上的可伸缩编码。传统的可伸缩编码重点在时间、空间和质量上进行伸缩,我们则提出了更多的维度,包括注意可伸缩、动态范围可伸缩等。其次,分布式系统、立体视系统(尤其是三维电视)等应用需求越来越强烈,因此也特别有必要针对这类多视频源编码问题进行探讨,即所谓分布式多视点编码。最后,在视频监控领域,对智能视频监控的需求日益强烈。目前的监控系统均直接采用面向广播或通信业务的视频编码方法,而没有针对监控任务本身进行特殊的编码,因此编码和后端的智能分析功能是割裂开的。为此本项目提出一种新的解决思路,试图将二者更加紧密地联系起来,即在前端编码阶段就尽量多地考虑后端

的智能分析需求。

在视频编码理论与方法层面,我们将重点开展四个方面的研究,即:基于视觉模型的高效视频编码理论、多维度可伸缩编码方法、分布式多视点视频编码方法和面向智能监控的视频编码方法。它们之间的关系如表1所示:

表1 编码理论与方法主要研究内容之间的关系

四个主要研究内容各自具体描述如下:

2.2.1基于视觉模型的高效视频编码理论

结合视知觉机理和视觉计算模型,研究符合人类视知觉机理的视频压缩理论与方法。本部分研究内容将从基础理论、算法与框架以及应用三个方面开展。

在基础理论方面,研究基于视知觉熵的视觉信息论,探讨视知觉机理中给出的视觉基本组成单元与视觉信息论中基本信源符号的关系,定义合理的基本信源符号,进而提出视知觉熵的概念;研究视知觉熵的测度和数量化方法,特别是视知觉熵的动态测度特性,探索鲁棒、易行的视知觉质量评价方法,及其基于视知觉熵的率失真理论,进而提出视觉信息论,为基于视知觉的视频压缩提供理论依据。

在算法及系统方面,以视觉信息论为指导,研究基于视知觉的视频压缩算法及系统,设计理论上最优的压缩系统,寻找基于视知觉率失真理论的系统优化方法。具体而言,就是从人的视觉特性出发,对视频内容进行分析,从中提取出视频的关键特征,如边缘、纹理、运动等人眼所关注的局部特征,探索针对这些局部特征的参数化算法、根据局部特征参数的视觉掩蔽模型的动态调整方法、以及相应的量化算法和编码算法,建立空域、时域、局部特征的相关性模型。在这里如何进行局部特征的提取,以及利用这些局部特征对视觉模型的调整与具体编码模块间的联系成为整个编码系统的关键问题,因此,找出这些特征的规律,并用其指导压缩成为提高压缩效率的关键,为此项目研究还将对基于模型的图像/视

频局部特征提取进行深入研究,从而可以通过学习训练适应性地进行特征提取与编码。

在应用方面,我们拟研究基于视觉的动画压缩和基于视觉的超高清视频编码以及超分辨率视频编码。动画本身的产生机制非常有利于采用基于视觉的编码方法,和自然视频相比,动画一般有着较明显的边缘特征、纹理特征、或色彩一致的区域,运动模型也相对较容易建立,因此我们拟结合动画制作的基本原理,对基于视觉特征的动画编码进行研究,搭建基于视觉的动画压缩系统,提高动画的压缩效率,为推动基于视觉的视频压缩应用迈出关键的一步。

对于超高清分辨率视频,目前的压缩效率还难以满足应用需求,本项目拟研究基于视觉的超分辨率视频编码技术,提高超高清视频的编码效率。我们拟在原始分辨率视频上提取边缘、纹理等视觉特征并进行编码,然后对原始分辨率视频进行下采样编码,在解码端通过超分辨率插值技术重构高分辨率视频。

随着硬件技术的快速发展,高分辨率的逐行显示设备越来越普及,但在许多应用场合由于历史的原因隔行视频还将长期存在一段时间,对此我们拟研究基于超分辨率技术的去隔行效应研究,实现低分辨率、低帧率的隔行视频到高分辨率、高帧率的视频转换,取得更好的主观效果。

2.2.2多维度可伸缩编码方法

对此问题将从理论层和算法层分别展开。理论部分主要结合香农传统信息论和视觉信息论,根据视知觉熵的定义、测度及相关率失真理论,探求可伸缩编码的视知觉率失真曲线,及其与传统率失真曲线的关系。在此理论研究基础上我们将探索基于视觉信息论的SVC编码框架及算法。通过在传统三维SVC框架上引入注意度,进一步提高SVC编码的性能;引入针对高动态范围视频输入的动态范围这一自由度,支持高动态范围图像的编码显示。

对于这一问题重点研究注意模型的建立及基于注意模型的感兴趣区域的提取、表达和编码,力图寻求具有最高率失真性能的可伸缩编码;研究具有强容错能力并且能够适应各种动态变化网络和不同的用户终端设备的可伸缩视频编码方法,主要基于视频内容的视知觉熵,为视频要素提供不同级别的纠错保护,尽可能提高重建视频的主观满意度;研究基于注意度的码流优化截取方法,其目标即为最大化重建视频的视知觉率失真性能,同时兼顾复杂度。

2.2.3分布式多视点视频编码方法

在资源受限的分布式视频应用中,鉴于现有分布式视频编码的低效性,需要

利用视觉特性,研究分布式多视点编码理论,从而提高编码效率。同时,必须充分利用分布式信源之间的相关性,去除分布式信源的视间冗余,达到分布式视频信息高效解码。在立体视编码方面,需要利用深度辅助信息来精确描述真实的三维世界。根据立体视觉成像的原理, 利用多个视点图像的空间几何关系以及图示线索知识获取深度信息是立体视点视频处理的重点研究内容;同时,需要研究利用多视点视频编码对大量的视频原始数据和辅助信息进行压缩并且通过网络进行有效传输;通过自由视点切换保证用户的交互功能,使用户可以根据自己的兴趣选择不同的视角

具体的研究内容包括:

(1) 基于视觉特性的视频源分割

在视觉模型的指导下,研究基于视觉特性与统计特性的信源分割准则。根据这种分割准则,将视频源划分为若干个视觉特性、统计特性相异的子视频源。然后对每个子视频源使用相应的高效编码方法,以期获取好的主观质量。(2) 基于多视频源相关模型的分布式编码

根据视频序列的具体分割形式,利用多视点信源的相关特性、视点间的几何位置以及采集参数,研究其相应的相关模型以及参数估计方法,指导编码器进行高效的分布式编码。

(3) 研究多视频源时间、视间联合相关性,实现高效解码

分布式编码理论要求独立编码的信源码流必须在解码端联合解码,通过充分挖掘信源间的相关性来高质量地重建源数据。利用基于视间运动的边信息导出、数据融合等技术,研究高效的边信息生成、信道解码以及源数据重建等方法。

(4) 面向视觉质量的自适应解码

将主观视觉质量评价模型嵌入到分布式解码器中,当目标视频区域解码质量达到主观质量要求时,即终止解码过程。这样既可以达到更优的码率与视觉质量平衡,还可以控制解码器的计算复杂度。

(5) 基于立体视觉机理的多视编码

研究利用多个视点图像的空间几何关系以及图示线索知识生成深度序列,用以精确表达真实世界的立体视觉信息。基于立体视觉机理,进一步研究深度序列与彩色视频的联合高效压缩,重构出最优的三维视频。为了支持多视点切换,研究高效灵活的低延迟视点切换,同时使压缩效率和视点切换代价之间达到最优的平衡。

(6) 三维显示技术

研究高效虚拟视合成技术,可使用户按照深度感知能力选择合适的欣赏视点;研究多视点的三维显示器,使观察者具有更加广阔的视域。

2.2.4面向智能监控的视频编码方法

虽然视频监控部署规模已经比较庞大,而且发挥着重要作用,但是目前系统的应用模式比较落后,主要靠人工监视多路视频和事发后的人工搜检,其中实时现场人工监视耗费大量人力,而且监视人员易疲劳、漏检风险大,亟待半自动乃至全自动预警的支持。这需要我们从视频编码层次进行基础性创新,从而构建新一代的智能化、高效能视频监控体系。

针对视频监控的特点与需求,研究三层码流结构(基本层、对象层和索引层)的新一代监控视频编码方法与标准,拟利用本项目研究的视频编码方法进行基本层编码,通过在视频码流中增加对象层和索引层,将满足视频监控智能化和高效率的需要。

基本层编码方法采用本项目研究的基于视觉特性的视频编码方法,针对监控视频的特点和需求,提出适合监控需要的视频编码方案并进行标准化。针对重要场合监控中可获得多摄像源的特点,通过多源视频融合获得广视角、高清晰的监控效果。

对象层编码面向监控智能化的需要,基于基本层码流中的视觉基元、运动向量等要素,研究监控背景、场景、物体、人物等对象模型,分析异常行为和异常事件,形成描述监控目标及其关系的对象层码流,发挥基于视觉特性的编码理论与方法的优越性,提高视频监控系统的效率。

索引层以提高海量监控视频的检索和存储效率为目标,基于基本层中的感兴趣区域、视觉基元和对象层中的对象描述信息,研究监控场景变化的检测方法,提出评价视频片段重要性的计量方法,获得场景变换位置、视频片段重要程度等描述信息,形成描述视频结构的索引,支持对监控视频的提纲携领式检索、摘要和存储容量缩减。

2.3原型研究与验证层

上述两个层面所研究的基础性的模型、理论和方法还需要通过设计原型系统或者应用平台进行验证。我们重点考虑在宽带移动多媒体应用中进行原型研究和系统验证,构建相应的验证平台。具体研究内容如下:

(1) 面向远程医疗的高动态视频采集技术:高动态范围视频采集通过多个摄像头协同采集同一场景不同动态范围的图像,生成高保真的高动态范围视频源。

(2) 视频转码技术研究:主要解决流媒体系统平移过程中的转码关键问题,特别是多种其它编码格式到AVS等视频格式的转码技术,在此基础上突破解决

转码的一些共性的关键技术,例如新的转码结构的设计、视频图像的滤波预处理、转码运动矢量的预测等。同时在转码过程中研究编码的率失真属性,为视频的有效调度打下基础。

(3) 多流封装技术:针对网络传输介质误码率高、带宽差异等问题,本项目基于可伸缩编码方法研究多流封装技术,将一个视频源分拆为多个独立的视频流单独传输,从而确保传输的健壮性。研究基于传输通道的冗余编码技术,减少传输过程对误码率的影响,适应不同带宽。

(4) 面向远程医疗的视频编码应用技术研究:根据基于视觉特性的视频编码理论和远程医疗业务应用需求,针对远程医疗的视频编码技术应用场景进行分析和研究,主要包括:感兴趣区域编码的远程医疗会诊技术应用研究,高动态范围视频手术监测技术应用研究等。

(5) 高清IPTV和固定移动融合(FMC)视频应用验证平台实现技术:研究面向远程医疗的高清IPTV网络流媒体系统架构,固定移动融合(FMC)环境下的网络流媒体系统架构,搭建相应的宽带移动多媒体传输验证平台,对新一代基于视觉特性的视频编码理论和方法进行验证。

二、预期目标

3.1总体目标

本项目针对高效视频编码所涉及的视觉信息处理基础科学问题开展多学科交叉的共同研究,借鉴神经科学的最新研究成果,以探索视觉信息表示和编码的基本神经机制和心理机理为出发点,构建视频内容表示的时空要素图模型及其统一的计算模型。在这些研究的基础上,针对视觉信息编码与传输问题,将香农信息论与人类视觉系统信息处理原理相结合,并以此作为视频编码的理论基础,从而提出新的基于视觉模型的下一代高效视频编码框架,并扩展研究包括视觉注意和高动态范围在内的多维度可伸缩编码方法、面向多视频源的分布式多视点编码方法以及面向智能监控的视频编码方法,从而构建一套基于视觉特性的高效视频编码理论、模型和方法体系——这即是本项目在理论方面的总体目标。

本项目在解决国家重大需求和产业创新方面的总体目标包括两方面。首先,以此为基础衍生出的视频编码技术可为下一代视频编码国家标准做出不可替代的贡献,并深度参与未来视频编码国际标准的制订工作,从而提高我国信息通信产业的国际竞争力。其次,本项目面向智能监控的编码方法等研究成果预期可以改变传统视频监控的应用模式,从而服务于国家公共安全、重大事件应急管理等国家重大需求;通用编码方法则还可以为下一代宽带移动多媒体应用技术提供理论与核心技术基础,并为航天遥现遥控等国家重大工程提供技术储备。

3.2五年预期目标

根据上述总体目标,未来五年内本项目预期在理论与方法、解决国家重大需求、科研成果和人才培养方面达到如下目标:

1、预期在理论与方法方面取得的进展、突破及其科学价值

如前所述,理论层面我们的总体目标是构建一套高效的基于视觉特性的视频编码理论、模型和方法体系,具体的五年目标主要体现在以下几个方面:

(1) 在视觉基本机理层面,探索视觉信息处理的基本神经机制和认知机理并对

其进行计算仿真。特别要采用先进的多电极矩阵技术手段,为揭示视知觉的神经机制提供经验和第一手实验证据。期望能探明稀疏编码与群组编码这两类编码方式的区别与联系、转化机制及相应的心理机理;探明基本成组和增量成组两种成组方式之间的相互作用以及视觉注意在其中的调节机制,从而为建立视觉计算模型提供基本机理基础。

(2) 在视觉计算模型层面,建立统一的统计视觉表示与计算模型。提出并完成

面向视频处理的“时空要素图”模型,建立视频内容基本要素的数学统计模型及其符号化的形式化描述以及相应的计算推理方法。

(3) 在视频编码理论层面,提出与视觉感知一致的视频编码与传输理论。建立

视觉信息量、视知觉熵等概念的形式化描述,从而构建符合视觉特性的视频编码理论。

(4) 在视频编码方法层面,构建包括基于视觉模型的新型编码方法、多维度可

伸缩编码方法、分布式多视点编码方法和面向智能监控的视频编码方法等在内的下一代高效视频编码理论与方法体系。

2、预期在解决国家重大需求方面的研究目标

(1) 突破数字视频编解码核心技术,为制定下一代自主知识产权的高效视频压

缩国际/国家标准提供理论、方法和关键技术上的支持,实现5年内视频压缩率再提高1倍的目标(即从目前的约1:100提高到1:200)。预期能够为下一代视频编码国家标准(AVS阶段2)做出不可替代的贡献(预期本项目组成员贡献率不低于40%)。同时,至少申请10项以上具有我国自主知识产权的国际专利,扭转中国视频产业核心技术长期受制于人的被动局面,推动我国数字视音频产业的战略转型。

(2) 突破面向智能监控的视频编码关键技术,通过在编码过程中引入局部视觉

模型和视觉注意等新要素,从而有效支持自动异常发现和报警、目标检索等功能,从而改变智能视频监控的应用模式,满足国家在公共安全和重大应急事件管理中,对智能视频监控系统的重大需求。

(3) 突破宽带移动多媒体应用系统涉及的关键技术,本项目在视频编码方面的

研究成果可以有效支持面向高清的IPTV、具有三维和高动态范围视频属性的远程医疗系统等,提高我国在宽带移动多媒体应用方面的技术水平并得到产业应用。

3、在科研产出、优秀人才培养等方面的预期目标

(1) 预期在视频编码领域的部分研究成果达到国际领先水平,促进相关学科的

发展。预期五年内发表SCI、EI收录学术论文300篇以上,其中国际期刊论文100篇以上,出版专著2本以上,申请专利40项以上,争取获得1~2项国家级科技奖励。

(2) 在相关领域形成一支思维活跃、创新能力强的国际知名研究团队,培养高

水平学术人才,造就一批在国内外相关领域有相当影响力的学术带头人。

培养博士60人、硕士100人。

三、研究方案

4.1总体学术思路与技术路线

如前所述,传统的视频编码技术建立在香农信息论基础上,只能在信号层面上采用统计处理的手段对视频进行压缩,所以,基于传统信息论的方法流行多年,形成了延续至今的基于变换与预测的混合编码框架,基于此的编码效率已遭遇瓶颈。我们可以认为,这种传统的编码方法主要停留在以像素或图像块为基本表示单元的层次上,,这在某种意义上对应着人类“眼脑”视觉信息处理通路的视网膜层面,至多部分延伸至侧膝体。

因此,本项目的总体研究思路就是(如图12中间虚线右侧部分):借鉴人类视觉系统的信息处理过程,将编码的理论基础向视觉通路的后端延伸,即延伸至视觉皮层的V1区,V2区,V3区,V4区,乃至IT/MT区。从视觉信息表示的基本对象角度来看,该思路主要采用视觉基元作为视觉内容的基本单元,而不再是传统方法中的像素或者图像块。这种信息表示机制变化的意义在于:通过将编码符号集合定义在具有视觉意义的基元上,传统的信息论就可以被扩展,我们称之为“视觉信息论”,以区分一般意义上的信息论。为此,我们就需要探讨符合视觉感知的视觉基元与视觉信息论中基本信源符号的关系,寻找基本信源符号的合理定义,进而提出并形式化视觉信息量、视知觉熵等概念,研究其测度和数量化方法,寻找并借助客观、鲁棒、易行的视觉质量评价方法,探索基于视知觉熵的率失真关系,进而形成新的率失真理论。从而以视知觉熵和视知觉率失真理论为基础,建立视觉信息论,为基于视觉模型的新型高效视频编码技术奠定坚实的理论基础。

本项目研究将基于上述总体思路展开,分别在视觉信息处理基本机理、视觉表示与计算模型、视频编码理论与方法以及系统验证等几个层面展开。

具体的,在视觉基本机理方面,我们将采用多电极矩阵植入猴脑和计算仿真两种方法,重点探讨稀疏编码、群组编码、增量成组、运动感知、视觉注意等主要内容。这些机理可以指导我们研究新的视频内容表示与计算模型,具体的,我们拟沿着对视觉信息进行统计学习的思路,学习图像/视频的基本要素,建立时空要素图模型,并在此基础上对视觉注意进行建模分析。最后则可以基于这些计算模型研究基于局部视觉模型的高效视频编码、包含注意机制的多维度可伸缩编码、分布式多视编码和面向智能监控的视频编码等理论与方法。

需要指出的是,本项目的上述研究方案强调了神经科学、生理学、心理学、数学、计算科学和电子学等多学科的交叉从而有效地促进我国科学与技术研究在

上述领域中的进一步发展。

4.2各主要研究内容的研究方案

基于上述总体学术思路和技术路线,本项目各个主要研究内容的研究方案概述如下:

4.2.1视觉信息处理基本机理方面

这部分的研究将采用包括清醒动物神经电生理学、视觉行为学和药物学方法以及ERP、fMRI等技术手段研究生物视觉系统知觉组织主要环节的神经机制和心理机理。

对视皮层神经元群反应特性等问题的研究方案,简述如下:采用不同的视觉刺激模式(刺激-背景和自然景物图像)对灵长类动物进行视觉行为学训练;在动物V1 区植入多电极矩阵;采用神经电生理学记录研究动物作视觉识别和视觉学习时V1区神经元群反应模式;在各级皮层采用物理或化学药品手段改变纵向神经输入对V1区的作用;研究当动物作视觉识别时记录V1区神经元群反应特征。

视觉注意的生理心理基础及在视觉认知组织中的作用则将主要采用ERP和fMRI技术,对被测试人的脑电活动进行测量,研究知觉组织和视觉信息处理过程中,基本成组和增量成组过程在时序和脑区上的差异,以及注意等认知过程对其之间的相互影响的差异以加工及相应的脑机制。具体方案为:向被试呈现不同的刺激图片(背景和图像容易分离或不易分离,自然图像或刺激-背景图形),考察在给不同线索(cue)情况下,ERP的波形,反应时间以及激活脑区的差异。

在模型研究方面,考虑图像在不同感觉、知觉层面上的不同表示,对于视觉信息的稀疏表示、视觉皮层V2区、V4区和IT区的各个层次采用前馈联接,采用无监督和有监督两种不同学习方式解决局部特征和整体特征的学习任务。总体上采用阶层、模块化网络结构。其中,第一层对应稀疏表示,目标是建立视觉信息的超完备表示,模拟视觉初始皮层的功能,该层的学习算法采用自适应的视觉信息稀疏表示算法,在神经信息内部编码方面,研究基于神经元信号独立分解机理的内部稀疏表示的统计模型,使得该层的神经元具有超完备稀疏响应特征。

第二层的功能是局部特征成组(Feature Grouping),该层的学习准则是使得具有相近响应特征的神经元尽可能集群到相近的邻域,我们拟引入邻域神经元之间的能量变化极小化实现局部特征成组和无监督学习机制。

第三层的功能是视觉整体特征的形成,该层依赖于具体的视觉处理任务。我

们将针对某些特定的典型任务设计相应的整体特征形成与学习方法,研究如何将任务的先验知识或领域知识融入到整体特征的表示与学习中。

在最高的识别层,考虑到不可预测的信息包含更多信息量的情况,试图对给定的图像计算其不可预测信息。拟采用局部谱能量对数的残余量来定义感兴趣区域。残差值越大,该区域的可预测性越差,因此我们把局部图像谱能量对数值残差超过一定阀值的区域定义为感兴趣的区域。通过大量的计算机实验,利用该残差定义的感兴趣区域与人类视知觉的注意区域相吻合。在定义感兴趣区域的基础上,我们将利用Itti的贝叶斯模型,定义视觉注意区域,并且给出计算算法。

4.2.2面向视频编码的视觉计算模型与方法

概括来说,我们拟采用产生式的、多层结构时空要素图(STITCH)系统作为视频运动的统一表示,并采用贝叶斯理论框架下的最大似然估计(Maximum likelihood estimation)方法实现推理计算。具体地我们拟定以下研究方案:

1.运动的统一视觉表示

首先,我们提出“时空要素图系统”来统一地表示视频中复杂的运动内容。作为一种产生式系统,它包括三层结构,:(i)系统的底层为图像层,是我们观察到的视频序列。(ii)系统的中层为要素图层。为静态图像表示提出的要素图模型,其本质上是一种属性图表示。本层是我们需要推理演算出的隐变量(hidden variable)层,是以产生式要素图模型生成底层的图像。(iii)系统的上层也是隐变量层,它代表使要素图在运动过程中发生结构变化的因素,拟采用图语法表示。

2.针对视频的时空要素图系统表示的计算方法

我们将在贝叶斯理论框架下通过最大似然估计的方法学习时空要素图系统中的最优参数(包括以上提到的各方面内容),从而实现对要素图的整合、分割、与组合,并实现对运动基元(或子图)的提取、跟踪,以及对图语法规则的学习。

具体研究方案如下:

(1) 基元在不同子空间中的动态特性分析

在确立了以时空要素图系统作为运动图像序列的表示模型后,我们将运动基元定义为时空要素图中的子图,如飘落着的雪花、飞翔的小鸟等。运动基元也可以按粒度近一步的分解,如一个行走的人作为某一层上的运动基元可被进一步分解成为头、躯干、四肢等具有不同运动特性却又相互关联的不同运动基元。

由于运动的物体处于不同的熵域中,所以对不同类型的静态图像基元有不同的表示,如表示低熵结构“可勾画”部分(sketchable)的简约图模型和表示高熵“不可勾画”部分(non-sketchable) 的纹理模型。这些不同熵域中的静态基元在时空中的动态特性很不一样。因此,

(a) 我们首先要定义各种图像基元在时空中的“可跟踪性”(trackability)及其度量。我们将借鉴对一般跟踪系统的分析方法,在贝叶斯推理理论框架下用信息论的方法(information theoretic approach),将物体状态的“不可跟踪性”度量定义为其后验条件熵。它体现了状态估计或跟踪过程中的状态的不确定性。由此我们可以导出可跟踪性度量。

为了获得视频的最优的时空要素图表示,我们将可跟踪性度量作为此优化问题的一个重要参量置于系统动态模型中,使系统能够通过计算,在不同基元优化自身可跟踪性度量的同时,能够自动地选择适应不同视频内容的基元表示方法,从而获得最优的表示。我们称之为基元对视频的“竞争解释机制”。这里我们所说的“最优”或者定义在对视频内容的最小描述长度(Minimum descriptive length)理论框架下,或者定义在贝叶斯推理理论下的最大后验概率(Maximum a posteriori)估计意义下。

(b) 我们将通过基于采样的学习(learning by sampling)方法,以及可跟踪性与不可跟踪性基元对视频的竞争解释机制,实现对运动图像序列的全面分析,得到不同粒度上的基元、运动层次(layer)或物体,以及它们在时空中的对应关系,并可以对运动基元进行自动分类(可跟踪与不可跟踪)。在此统计学习过程中,我们不断地学习、更新可跟踪运动基元在光度、几何、运动、以及拓扑等不同维度上的动态特性。同时,对于不可跟踪运动基元,我们将在其特征空间(如PCA、Fourier空间)研究其光度和运动等动态特性。

(2) 运动基元的时空依赖及相互作用关系

在运动过程中,物体与物体之间、基元与基元之间存在着相互作用,如鸟群在飞行的自组合状态,即:个体间的运动轨迹基本相互平行,同时保持一定距离;人在行走过程中,手臂与腿之间保持一定的协调性;小船随着波浪上下浮动;车辆经过时会遮挡背景物体等等。在分别研究了不同类型运动基元的动态特性后,我们将通过回归式数学模型来描述物体以及基元之间在运动轨迹方面的相互影响;通过学习上下文相关的随机图语法来描述在运动过程中物体或基元之间在拓扑结构上产生的相互影响与作用关系。

(3) 运动基元在不同熵域间的转换

同一物体或基元由于运动可能穿梭于不同的熵域。例如,一辆汽车由远及近地驶来:它在很远的地方由于相机分辨率有限,成像后可以简单地用一个尺度很

小的点(blob)来表示,这时它处在高熵纹理区;随着汽车的驶近,它会经过中熵以及低熵图像表示区。在此过程中,如果仅仅用一个blob将不足以表示汽车不断涌现的细节,这时我们要不断选择合适的视觉“词汇集”(visual vocabulary)来描述它在不同熵域中的表观。所以,对于这种感知转换机制(perceptual transition mechanism)的研究将在理论上指导我们如何针对不同情况采用适合的视觉“词汇集”来表示运动的物体并通过解释其中的变化来实现对复杂运动的鲁棒分析。在本项目的研究中,我们将采用统计学习的方法,通过上下文相关的随机图语法来描述物体或基元在穿越不同熵域时发生的结构变化。

4.2.3基于视觉模型的高效视频编码理论

以往视频压缩技术的主要理论基础是香农信息论,但目前遇到了效率瓶颈,这表现在压缩效率进一步提升将以不可承受的复杂度增加为代价。基于此,本项目研究基于视知觉的视频压缩。人类视觉系统提取外界信息是一个从底层像素到高层物体边缘、结构、颜色、纹理、运动的一个层级、渐进抽象的过程。人类视觉系统会忽略视知觉感受不到的内容,而关注于有实际物理意义的感兴趣对象。因此,人类视觉系统对有意义信息的提取,也即对视频数据知觉冗余的压缩,是相当高效的。目前,传统的视频压缩技术与人类视觉系统的视频处理过程有着本质区别。两者效率上的差距正是基于视觉的视频压缩技术发展的空间。本项目的研究内容包括理论基础研究、算法及系统研究,具体的研究思路如下。

(1) 基于视知觉熵的视觉信息论

结合视知觉机理和视觉计算模型,我们认为“视频要素”是符合人类视觉处理机制的视频信息的基本组成单元。因此,本项目拟将“视频要素”作为所提视觉信息论中的基本信源符号,通过“视频要素”的视知觉信息量的定义,即视知觉熵,以及“视频要素”有损表示下率失真关系的明确,完成视觉信息论的建立。

视知觉熵的定义及其数量化测度,特别是视知觉熵的动态测度,是视觉信息论可应用的关键。本项目拟采用一组无冗余视频要素对视频序列进行表示,则视频要素的视知觉熵可通过要素组合视频与原始视频的主观视觉无差异性来测试获得。测试方法、视知觉熵的数量化方法以及高阶视觉熵的定义需要深入研究。

视知觉率失真理论可在视知觉熵数量化的基础上,通过视觉要素有损表示下组合视频与原始视频的主观视觉差异性测试,来确定率失真关系,从而完成视知觉率失真理论。

主观视觉评价是上述方法中的关键步骤,因此对鲁棒的主观视觉评价方法也需要进行深入研究。本项目会对以上设想及测试方法的正确性、鲁棒性进行分析、实验、论证,对具有更一般性的方法开展研究。

(2) 基于视知觉的视频压缩算法及框架

基于视知觉的视频压缩算法及其系统要求具有高效、功能完备、可实现的特点。主要是从两个方面进行研究:

首先,在混合编码框架内结合所提取的视觉特征,提高传统编码框架下的编码效率,对此我们将研究基于局部特征的动态量化,即针对人的对比敏感度函数、纹理掩蔽效应、频率掩蔽效应、速度掩蔽效应等动态视觉特性,研究在视觉失真的最大容忍程度下的优化量化编码方法;

其次,视频信息可由一组“视频要素”来进行符合视知觉机理的高效表示,则压缩算法需要以视频要素为处理对象。这些视频要素可以具体地由边缘、纹理、运动等图像/视频的局部特征来表示。基于所提取的图像特征,提出新的编码框架,建立一个基于局部特征的压缩系统。为了保证所提出的基于视觉的编码系统具有很好的适应性,在各类型的视频序列上都能取得较高的编码效率,我们将首先将自然图像中的局部结构分为几个最基本的特征参数来描述,如:轮廓形状、方向,空间周期性,时间周期性等。然后用最基本的参数建立特征的基本集。之后通过学习大量的自然图片,获得基本特征的变体,同时对基本集进行扩充。最终形成一个基本覆盖所有自然图片局部特征类型的集合,并建立模型,实现对这个特征类型集合的模型表示。这个特征类型集将是超完备并且恒定更新的,将会采用增量学习的办法来保证编码器和解码器的内容同步,并进行模型更新,

(3) 基于视觉的动画压缩

我们拟结合动画制作的基本原理,提取有效的动画特征,包括边缘,纹理,运动、或色彩等,建立起动画中对象的模型表示,搭建基于视觉的动画压缩系统,提高动画的压缩效率。

(4) 基于视觉的超分辨率视频压缩

我们拟研究基于超分辨率技术的超高清视频编码方法,首先在原始分辨率视频上提取边缘或纹理等视觉特征信息,并对视觉特征信息进行编码,然后对原始图像进行降分辨率编码,在解码端,根据解码得到的视觉特征信息和低分辨率图像,通过超分辨率插值技术进行视频重构。我们拟对图像中的高频信息和低频信息分别考虑,对高频信息进行建模表示,研究基于多参考帧的超分辨率插值技术,提高超分辨率视频的重构质量。

(5) 多光谱视频压缩

我们拟根据多光谱图像的平移和光谱分布特点,研究多光谱图像的像素亮度对比度量化编码,依据人眼视觉系统在不同光照条件下的对比度阈值调节量化误差,提高多光谱视频的压缩效率。

4.2.4多维度可伸缩编码

现有的SVC编码标准主要从空间、时间、质量三个维度上实现可伸缩性,对HVS的考虑还非常少,因此在性能上仍有很大提升空间。基于以上现状,本项目主要研究如何在SVC技术中引入新的维度:注意度和动态范围,从而利用人眼视知觉的特性进一步提高压缩视频的主观质量。主要从如下四方面展开:

(1) 基于注意模型的感兴趣区域提取、表达及编码

根据视知觉的敏感特性和视频中各视觉要素的统计特性,对视频内容进行区域划分,建立对各注意区域的模型表示,并根据注意程度对感兴趣的级别进行编码表示。模型的建立还要考虑与应用类型的结合,如针对视频监控的应用的注意模型等。

基于所建立的注意模型,提取感兴趣区域。为提高视觉效果,在感兴趣区域与非感兴趣区域之间设置梯度过渡区域,组织合理的码流结构表示感兴趣区域参数以及内容,并同时考虑感兴趣区域的重叠等情况,最大程度地减少比特开支,提高码流组织方法的鲁棒性。

(2) 融合时域、空域、质量、注意、动态范围等多维度的可伸缩编码方法

以传统三维可伸缩编码方法为基础框架,融入注意度,。注意度的可伸缩性可以根据人眼对不同区域或视频要素的感兴趣程度,设置相应的重要性参数,该参数应包含在图像头定义中。在组织码流时,给感兴趣区域一定优先,例如降低其量化参数或者在增强层提升其变换系数的位平面,从而保证该部分区域更高的重建质量;同时还可根据重要性参数,在必要时丢弃非感兴趣区域部分。

此外我们还可以在这个可伸缩编码框架中增加其他的可变自由度,如针对高动态视频的动态范围可伸缩编码,用以支持高动态范围图像的编码显示。对此需要研究相应的量化编码策略,以达到高效的可伸缩编码。

(3) 基于注意度的码流优化截取方法

码流截断须以重建视频的视知觉率失真最优为目标。在增强层率失真建模时要考虑到图像组内的误差漂移问题,平衡准确性和复杂度,寻求快速实用且接近于理论最优的码流截取方法。

(4) 基于视觉容错模型的可伸缩编码

根据人眼视觉对不同区域、不同空间分辨率和不同时间分辨率的敏感特性,构造视觉容错模型(Vision Error Resilience Model,VERM),并指导容错算法,通过对造成视觉损失大的部位进行强容错编码,对造成视觉损失小的部位进行弱容错编码,在码率增加不大的情况下,达到视频鲁棒编码的目的。

4.2.5分布式多视点视频编码方法

针对分布式视频编码,以Wyner-Ziv理论为指导,研究基于视知觉质量评价准则的信源分割方法以及相应的信源相关模型,同时在分布式多视频解码过程中,为了有效利用多视频信源之间的冗余信息,需要研究如何建立高效的时间视间联合相关模型以及面向视觉的自适应解码。在立体视编码方面,为了精确地描述真实三维视频,需要生成精确的深度信息;同时为了进一步实现高效传输,深度图像与彩色图像的联合压缩必须满足立体视觉质量最优。具体技术路线如下:(1) 基于视觉特性的视频源分割

在视觉模型的指导下,考虑分布式编解码的特点,可通过统计分析等手段建立视频源的视觉特性与统计特性的关联模型。在视觉特性与统计特性的关联模型的指导下,结合边缘检测、感兴趣区域检测等技术将视频源划分为若干个视觉特性,统计特性相异的子视频源区域。在分布式编解码环中,考虑视觉特性与统计特性的差异,分别对各子视频源采用与其视觉特性与统计特性相适应的编解码方法。如拟采用Canny算子,考虑运动的剧烈程度,可将一帧图像分割为运动区域、过渡区域和背景区域。对于运动区域采用Intra编码,对背景区域这类可以获得高质量边信息的区域采用分布式编码,而对过渡区域等视觉不敏感的区域则采用主要以主观效果为评价准则的分布式编码。

(2) 多视频源相关模型的分布式视频编码

多视频信源不仅每个视频信源本身具有高度的时空相关性,而且不同视频信源之间也具有很强的视间相关性。一种有效的方式是在编码端获取相关模型,从而估计边信息的相关性强弱,以指导编码端的码率分配。单视点视频的相关性可以进行独立估计,而对于多视点视频的视间相关性我们拟采用以下两种方案:

1) 通过多视点视频系统中视点间的几何位置以及采集参数估计视间相关性,指导视频数据的分割,实现高效的分布式编码。这种方法不需要传感器之间进行大量的数据通信以及复杂的视差估计,不过其获取的视差信息不够精确。

常见的视频编码详解

常见的视频编码详解 A VI所采用的压缩算法并无统一的标准。也就是说,同样是以A VI为后缀的视频文件,其采用的压缩算法可能不同,需要相应的解压软件才能识别和回放该A VI文件。除了Microsoft 公司之外,其他公司也推出了自己的压缩算法,只要把该算法的驱动(Codec)加到Windows 系统中,就可以播放用该算法压缩的A VI文件。最新流行的MPEG-4视频也借用A VI的名称,只要机器安装了它的编码解码,也能够实现正常的播放。这些A VI都能够在用Authorware 或PowerPiont开发的作品当中正常放映。各种编码Codec所生成的A VI文件的大小和质量是不同的,对系统和硬件要求也不同。 因此在压缩A VI时,必须根据计算机的软硬件情况,来考虑采用什么Codec算法,否则你的作品中视频放映是难以令人满意的。下面就是对各种常见编码解码Codec的说明。 常见的视频编码 1、Cinepak Codec by Radius 它最初发布的时候是用在386的电脑上看小电影,在高数据压缩率下,有很高的播放速度。利用这种压缩方案可以取得较高的压缩比和较快的回放速度,但是它的压缩时间相对较长。 2、Microsoft Video 1 用于对模拟视频进行压缩,是一种有损压缩方案,最高仅达到256色,它的品质就可想而知,一般还是不要使用它来编码A VI。 3、Microsoft RLE 一种8位的编码方式,只能支持到256色。压缩动画或者是计算机合成的图像等具有大面积色块的素材可以使用它来编码,是一种无损压缩方案。 4、Microsoft H.261和H.263 Video Codec 用于视频会议的Codec,其中H.261适用于ISDN、DDN线路,H.263适用于局域网,不过一般机器上这种Codec是用来播放的,不能用于编码。 5、Intel Indeo Video R3.2 所有的Windows版本都能用Indeo video 3.2播放A VI编码。它压缩率比Cinepak大,但需要回放的计算机要比Cinepak的快。 6、Intel Indeo Video 4和5

高清视频编码器中文说明书H265-H264汇总

H.265/H.264高清视频编码器 上海禾鸟电子科技有限公司荣誉出品

一、产品简介 H.265/H.264高清视频编码器有HDMI\SDI\VGA三种高清接口产品,是由上海禾鸟电子自主研发的用于高清视频信号编码及网络传输直播的硬件设备,采用最新高效 H.265/H.264高清数字视频压缩技术,具备稳定可靠、高清晰度、低码率、低延时等特点。输入高清HDMI、SDI、VGA高清视频、音频信号,进行编码处理,经过DSP芯片压缩处理,输出标准的TS网络流,直接取代了传统的采集卡或软件编码的方式,采用硬编码方式,系统更加稳定,图像效果更加完美,广泛用于各种需要对高清视频信号及高分辨率、高帧率进行采集并基于IP 网络传送的场合,强大的扩展性更可轻易应对不同的行业及需求,可作为视频直播编码器,录像,传输等应用。采用工业控制精密设计,体积小,方便安装,功率小于5W,更节能,更稳定。 特点: ●高性能硬件编码压缩 ●支持H.265高效视频编码 ●支持H.264 BP/MP/HP ●支持AAC/G.711高级音频质编码格式 ●CBR/VBR码率控制,16Kbps~12Mbps ●网络接口采用100M、1000M 全双工模式 ●主流,副流可推流不同的服务器 ●支持高达720P,1080P@60HZ的高清视频输入 ●支持图像参数设置 ●HDMI编码支持HDCP协议,支持蓝光高清 ●支持HTTP,UTP,RTSP,RTMP,ONVIF 协议 ●主流与副流采用不同的网络协议进行传输 ●WEB操作界面,中英文配置界面可选 ●WEB操作界面权限管理 ●支持广域网远程管理(WEB) ●支持流分辨率自定义输出设置 ●支持码流插入中英文字功能,字体背景、颜色可选 ●支持码流插入3幅透明图像水印功能,XY轴可设置 ●支持一键恢复出厂配置 二、产品应用: 1、4G移动直播高清前端采集 2、高清视频直播服务器 3、视频会议系统视频服务器 4、数字标牌高清流服务器 5、教学直播录像系统前端采集 6、IPTV电视系统前端采集

视频文件格式和视频编码方式区别

目前网上的各种视频格式可以说就是泛滥成灾,加上各个PMP(Portable Media Player,便携式媒体播放器)生产厂家的对自己产品在功能方面的炒作,使得很多人对视频格式的名称 都就是一头的雾水。 经常有些童鞋问我类似下面的问题。 A问我说:“我的MP4分明写着能播放AVI不?为什么这一个AVI文件就播放不了?” B问:“我的MP4支持Mpeg-4啊,为什么Mp4文件不能播放呢?” 好的,下面我从最基本的概念给大家解释一下,顺便回答这两个问题 首先大家要清楚两个概念,视频文件格式与视频编码方式。 视频文件格式一般情况下从视频文件的后缀名就能瞧出来,比如AVI,Mp4,3gp,mov,rmvb 等等。这些格式又叫做容器格式(container format),顾名思义就就是用来装东西的,您可以把它想象成为一个便当盒,或者野餐篮(兄弟,您没吃早饭吧)。 通常我们从网上下载的电影都就是有声音的(废话,难道您只瞧默片!众人扔香蕉皮),所以容器格式中一般至少包含有两个数据流(stream),一个视频流,一个音频流,就好比就是一个便当盒里装着的配菜与米饭。 视频编码方式则就是指容器格式中视频流数据的压缩编码方式,例如Mpeg-4,H、264,H、263,等等。而视频数据采用了何种编码方式就是无法单单从文件格式的后缀上瞧出来的。就就是说您无法从一个盖着盖子的便当盒外面瞧出里面装了什么配菜。 如果您想播放一个视频文件,第一步您的播放器(不论就是软件的还就是硬件的)要能够 解析相应的容器格式,这一步也叫做解复用(demux),第二步您的播放器要能够解码其中所包 含视频流与音频流。这样影片才能播放出来。 打个不太恰当的比方,播放器好比您雇用的一个试菜员,由她来品尝便当(视频文件),然 后告诉您便当里装了什么东西。(没天理阿!我想自己吃,好的当然可以,0x00 00 01 B6 05 FF 36 1A 50 …… ……, 俄~) 所以试菜员首先要懂得如何打开便当盒,还要知道吃的出来便当盒里装了什么配菜,这样您才能获得您想要的信息。 回过头来瞧前面的两个问题,用以上的比喻翻译一下。 问题A,我的试菜员能打开AVI这种便当的,为什么我不能知道里面装了什么? 回答很简单,虽然她能够打开便当,但就是吃不出里面的东西就是什么。理论上没有一个播放器能够播放所有的AVI格式的电影,因为您不知道我会往里面放什么配菜。 问题B,我的试菜员吃过Mpeg-4这种牛排阿,为什么不能打开Mp4这种便当盒呢? 这个问题通过翻译之后瞧起来已经不就是问题了,Mpeg-4就是视频编码方式,而Mp4就是容器格式,两者本来就不就是一个范畴里的东西。 好了下面简单介绍一下流行的视频格式。

常见的几种高清视频编码格式

高清视频的编码格式有五种,即H.264、MPEG-4、MPEG-2、WMA-HD以及VC-1。事实上,现在网络上流传的高清视频主要以两类文件的方式存在:一类是经过MPEG-2标准压缩,以tp和ts为后缀的视频流文件;一类是经过WMV-HD(Windows Media Video High Definition)标准压缩过的wmv文件,还有少数文件后缀为avi或mpg,其性质与wmv是一样的。真正效果好的高清视频更多地以H.264与VC-1这两种主流的编码格式流传。 H.264编码 H.264编码高清视频 H.264是由国际电信联盟(iTU-T)所制定的新一代的视频压缩格式。H.264 最具价值的部分是更高的数据压缩比,在同等的图像质量,H.264的数据压缩比能比当前DVD系统中使用的 MPEG-2高2~3倍,比MPEG-4高1.5~2倍。正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。在 MPEG-2需要6Mbps的传输速率匹配时,H.264只需要1Mbps~2Mbps 的传输速率,目前H.264已经获得DVD Forum与Blu-ray Disc Association采纳,成为新一代HD DVD的标准,不过H.264解码算法更复杂,计算要求比WMA-HD 还要高。 从ATI的Radeon X1000系列显卡、NVIDIA的GeForce 6/7系列显卡开始,它们均加入对H.264硬解码的支持。与MPEG-4一样,经过H.264压缩的视频文件一般也是采用avi 作为其后缀名,同样不容易辨认,只能通过解码器来自己识别。 总的来说,常见的几种高清视频编码格式的特点是能够以更低的码率得到更高的画质,相同效果的MPEG2与H.264影片做比较,后者在容量上仅需前者的一半左右。这也就意味着,H.264不仅能够节省HDTV的存储空间,而且还可以

音视频技术基本知识一

https://www.doczj.com/doc/9e9378561.html, 音视频技术基本知识一 网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在,网易视频云总结网络上的知识,与大家分享一下音视频技术基本知识。 与画质、音质等有关的术语 这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧 一般来说,帧是影像常用的最小单位,简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的,现在大多数视频也类似,下面说说帧速率和帧大小。 帧速率,有的转换器也叫帧率,或者是每秒帧数一类的,这可以理解为每一秒的播放中有多少张图片,一般来说,我们的眼睛在看到东西时,那些东西的影像会在眼睛中停留大约十六分之一秒,也就是视频中只要每秒超过15帧,人眼就会认为画面是连续不断的,事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况,当视频中有较快的动作时,帧速率过小,动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上,这24帧是电影的帧速率。 帧大小,有的转换器也叫画面大小或屏幕大小等,是组成视频的每一帧的大小,直观表现为转换出来的视频的分辨率的大小。一般来说,软件都会预置几个分辨率,一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等,当然很多转换器提供自定义选项,这里,不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率,如果是转换到普通手机、PSP等设备上,视频分辨率选择与设备分辨率相同,否则某些设备可能会播放不流畅,设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率 比特率,又叫码率或数据速率,是指每秒传输的视频数据量的大小,音视频中的比特率,是指由模拟信号转换为数字信号的采样率;采样率越高,还原后的音质和画质就越好;音视频文件的体积就越大,对系统配置的要求也越高。 在音频中,1M以上比特率的音乐一般只能在正版CD中找到,500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式,一般的MP3是在96K到320K之间。目前,对大多数人而言,对一般人而言192K就足够了。 在视频中,蓝光高清的比特率一般在40M以上,DVD一般在5M以上,VCD一般是在1M 以上。(这些均是指正版原盘,即未经视频压缩的版本)。常见的视频文件中,1080P的码率一般在2到5M之间,720P的一般在1到3M,其他分辨率的多在一M一下。 视频文件的比特率与帧大小、帧速率直接相关,一般帧越大、速率越高,比特率也就越大。当然某些转换器也可以强制调低比特率,但这样一般都会导致画面失真,如产生色块、色位不正、出现锯齿等情况。

973项目申报书——2009CB930100-纳米生物材料的合成、组装及在生物医学领域的应用

项目名称:纳米生物材料的合成、组装及在生物医 学领域的应用 首席科学家:李峻柏国家纳米科学中心 起止年限:2009.1至2013.8 依托部门:中国科学院

一、研究内容 拟解决的关键科学问题 本项目研究的主要关键科学问题是:通过模拟生物膜的结构与功能,利用分子组装技术制备具有纳米孔隙的生物材料,研究它们在生物体中的兼容性,作为药物支架如何担载和释放药物及在体外的稳定性,确定其作用机理和影响因素;探索组装的生物材料在生物体中的状态与排除功能,建立合成体系与生物体之间的联系与作用机制,研究其代谢过程,具体地: 1.通过模拟生物膜(生物相容的磷脂/蛋白质复合双层囊泡)研究和揭示细胞膜 和其它生物膜的精细结构、生物功能及其相互关系; 2.分子组装,纳米模板合成和气/液界面相分离等组装单元的结构特征、组装过 程、驱动力、影响因素和调控技术; 3.处于这些组装体中的生物活性物质的状态和功能评价,它们与组装体之间的 相互作用和影响,寻求保持其生物活性的措施; 4.这些具有生物功能的组装体进入人体后的有益效果、作用机制、代谢过程和 可能危害。 考虑到各课题研究的具体对象、问题和目标不同,除上述共同的关键科学问题外,还各有其特殊的科学和技术问题要解决: 1.纳米孔隙的药物载体:构造生物兼容、生物降解的多功能化胶囊,包裹不同 类型药物的最佳方法及药物的缓释;生物界面化胶囊及包裹药物胶囊的靶向释放,不同的类型中空胶囊作为药物和基因载体;智能化微胶囊的构造以及可控性研究;负载药物微胶囊的体外细胞试验及动物试验;多功能微胶囊用于药物载体的包裹和释放机理研究。 2.红血球替代物 聚合物/血红蛋白纳米胶束(胶囊):官能化乳酸共聚物的 设计与合成,保证在水环境中实现自组装形成纳米胶束或胶囊;引入含有易与血红蛋白反应的官能团,保证反应不影响血红蛋白中的血红素活性中心; 反应基团有足够数量,保证组装体中有足够的血红蛋白浓度;构筑聚合物/

视频封装格式详解

视频封装格式详解 所谓封装格式就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中,也 就是说仅仅是一个外壳,或者大家把它当成一个放视频轨和音频轨的文件夹也可以。说得通 俗点,视频轨相当于饭,而音频轨相当于菜,封装格式就是一个碗,或者一个锅,用来盛放 饭菜的容器。 比较常用的有以下封装格式 1 AVI AVI 容器-成熟的老技术 AVI是微软1992年推出用于对抗苹果Quicktime的技术,尽管国际学术界公认AVI已经属于 被淘汰的技术,但是由于windows的通用性,和简单易懂的开发API,还在被广泛使用。 AVI的文件结构、分为头部, 主体和索引三部分. 主体中图像数据和声音数据是交互存 放的。从尾部的索引可以索引跳到自己想放的位置。 AVI本身只是提供了这么一个框架,内部的图像数据和声音顺据格式可以是任意的编 码形式。因为索引放在了文件尾部,所以在播internet流媒体时已属力不从心。很简单的例 子,从网络上下载的片子,如果没有下载完成,是很难正常播放出来。另外一个问题是AVI 对高码率VBR音频文件支持不好。

VBR全称是Variable BitRate,就是动态比特率,可以根据当前的需要定义不同的比 特率,避免了浪费,并且提高了利用率。随之问题也就来了,因为容器里的图像和声音是分 开的,所以播放时需要一个图像和声音的同步过程,如果CBR音轨的话因为码率是定值,同 步不成为问题,可是VBR音轨是不断的在变换,而AVI没有时间戳去让VBR音轨和图像同 步,这样就会产生图像声音不同步的问题。后来VirtualDub提出了一种新的方法扩充了AVI 对VBR音频的兼容,但是在高码率时会产生丢失数据的问题,从而导致有损音效,这一点问 题到现在都没有比较完美的解决方法。并且更加令人遗憾的是,对TrueHD, DTS-HD等音 效更是完全不能支持。 2 ts和ps封装 因为HDDVD以及BD之争,尽管两家在编码上都统一采用MPEG2/VC-1/H.264,可在封装 格式上又有所分岐。DVD论坛官方所认可的HDDVD 使用的是PS封装,即Program Stream(程序流),这和之前DVD所采用的MPEG2 Program Stream封装是一样的,PS流 的后缀名是VOB以及EVO等。而BD在没有DVD论坛官方认证的情况下,自然不是PS封装, 而是使用了MPEG2的另一封装TS封装,即Transport Stream(传输流),TS流的后缀名为 TS。它们都是MPEG2系统部分的两个不同的语法结构,而在现在仅仅在作为封装使用。 TS流对于PS流来说更易传输,不过由于其性质,也更易出错,所以在以前一般存储方面都

国家重大科学研究计划项目申请书编写提纲

国家重大科学研究计划项目申请书编写提纲 项目摘要(1,000字左右) 简述项目所针对的指南方向、国家重大战略需求、拟解决的关键科学问题、主要研究内容和目标、课题设置、研究队伍、经费概算。 申请书正文(30,000字左右) 一、立项依据 项目针对的指南方向,项目所面向的我国经济、社会、国家安全和科学技术自身发展等的重大战略需求,项目研究的科学意义,在解决国家重大战略需求问题、引领未来科学和技术发展方面的预期贡献。 二、国内外研究现状和发展趋势 国内研究现状和水平,国际最新研究进展和发展趋势,相关研究领域取得突破的可能性。 三、拟解决的关键科学问题和主要研究内容 详细阐述围绕国家重大战略需求、引领未来科学和技术发展所要解决的关键科学问题的内涵。主要研究内容要围绕关键科学问题,系统、有机地形成一个整体来详细阐述,重点要突出,避免分散或拼盘现象。 四、预期目标 从对解决国家重大战略需求、引领未来科学和技术发展的预期贡献,在理论、方法等方面预期取得的进展、突破及其科学价值,优秀人才培养和基地建设等方面分别论述。 五、总体研究方案 结合主要研究内容阐述学术思路、技术途径及其创新性,与国内外同类研究相比的特色和取得重大突破的可行性分析等。 六、课题设置 应围绕项目所要解决的关键科学问题、主要研究内容和预期目标合理设置课题。需说明课题设置的思路、各课题间的有机联系以及与项目预期目标的关系;详细、具体叙述各课题的名称、主要研究内容和目标、承担单位、课题负责人及主要学术骨干和经费比例等。

七、研究队伍 1.研究队伍的规模和结构 研究队伍的规模,以及年龄、专业、职称等方面的结构,实验技术人员概况等。研究队伍规模要适度,人均资助强度应在20万元/人年以上。 2.推荐项目首席科学家和课题负责人 分别介绍推荐项目首席科学家和课题负责人的研究背景。包括:工作简历、主要学术业绩,近五年主持的与申请项目相关的各类国家科技计划项目情况(格式见下表),与申请项目相关的代表性论文(不超过5篇)、获得国家和省部级 3.其他中青年学术带头人概况 八、现有工作基础和条件 1.项目承担单位在所申报项目相关研究方面的工作基础和取得的主要研究成果。 2.项目实施所具备的工作条件,包括实验平台和大型仪器设备、国家实验室、国家重点实验室和重大科学工程等重要研究基地参与情况。 3.项目申报单位近五年承担的与所申报项目直接相关的国家科技计划项目、课题的完成情况,与所申报项目的关联和衔接。 九、经费概算 金额单位:万元

常见的几种高清视频编码格式

常见的几种高清视频编码 格式 The Standardization Office was revised on the afternoon of December 13, 2020

高清视频的编码格式有五种,即、MPEG-4、MPEG-2、WMA-HD以及VC-1。事实上,现在网络上流传的高清视频主要以两类文件的方式存在:一类是经过MPEG-2标准压缩,以tp和ts为后缀的视频流文件;一类是经过WMV- HD(Windows Media Video High Definition)标准压缩过的wmv文件,还有少数文件后缀为avi或mpg,其性质与wmv是一样的。真正效果好的高清视频更多地以与VC-1这两种主流的编码格式流传。 编码 编码高清视频 是由国际电信联盟(iTU-T)所制定的新一代的视频压缩格式。最具价值的部分是更高的数据压缩比,在同等的图像质量,的数据压缩比能比当前DVD系统中使用的 MPEG-2高2~3倍,比MPEG-4高~2倍。正因为如此,经过压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。在 MPEG-2需要6Mbps的传输速率匹配时,只需要1Mbps~2Mbps的传输速率,目前已经获得DVD Forum与Blu-ray Disc Association采纳,成为新一代HD DVD的标准,不过解码算法更复杂,计算要求比WMA-HD还要高。 从ATI的Radeon X1000系列显卡、NVIDIA的GeForce 6/7系列显卡开始,它们均加入对硬解码的支持。与MPEG-4一样,经过压缩的视频文件一般也是采用avi 作为其后缀名,同样不容易辨认,只能通过解码器来自己识别。 总的来说,常见的几种高清视频编码格式的特点是能够以更低的码率得到更高的画质,相同效果的MPEG2与影片做比较,后者在容量上仅需前者的一半左右。这也就意味着,不仅能够节省HDTV的存储空间,而且还可以在手机等带

数字视频基础知识

第三章 数字视频基础知识 3.1 视频的基础知识 在人类接受的信息中,有70%来自视觉,其中视频是最直观、最具体、信息量最丰富的。我们在日常生活中看到的电视、电影、VCD、DVD以及用摄像机、手机等拍摄的活动图像等都属于视频的范畴。 摄影机是指用胶片拍摄电影的机器,摄像机是用磁带、光盘、硬盘等作为界质记录活动影像的机器,广泛用于电视节目制作、家庭及其他各个方面。 摄影机使用胶片和机械装置记录活动影像,所采用的是光学和化学记录方式,摄象机是采用电子记录方式。 1 视频的定义 ?视频(Video)就其本质而言,是内容随时间变化的一组动态图像(25或30帧/秒),所以视频又叫作运动图像或活动图像。 ?一帧就是一幅静态画面,快速连续地显示帧,便能形运动的图像,每秒钟显示帧数越多,即帧频越高,所显示的动作就会越流畅。 『视觉暂留现象』 ?人眼在观察景物时,光信号传人大脑神经,需经过一段短暂的时间,光的作用结束后,视觉形象并不立即消失,这种残留的视觉称“后像”,视觉的这一现象则被称为“视觉暂留现象”。 ?具体应用是电影的拍摄和放映。 ?根据实验人们发现要想看到连续不闪烁的画面,帧与帧之间的时间间隔最少要达到是二十四分之一秒。 ?视频信号具有以下特点: ?内容随时间而变化 ?有与画面动作同步的声音(伴音) ?图像与视频是两个既有联系又有区别的概念:静止的图片称为图像(Image),运动的图像称为视频(Video)。 ?图像与视频两者的信源方式不同,图像的输入靠扫描仪、数字照相机等设备;视频的输入是电视接收机、

摄象机、录象机、影碟机以及可以输出连续图像信号的设备。 2.视频的分类 ?按照处理方式的不同,视频分为模拟视频和数字视频。 ?模拟视频(Analog Video) ?模拟视频是用于传输图像和声音的随时间连续变化的电信号。早期视频的记录、存储和传输都采用模拟方式,如在电视上所见到的视频图像是以一种模拟电信号的形式来记录的,并依靠模拟调幅的手段在空间传播,再用盒式磁带录像机将其作为模拟信号存放在磁带上。 ?模拟视频的特点: ?以模拟电信号的形式来记录 ?依靠模拟调幅的手段在空间传播 ?使用磁带录象机将视频作为模拟信号存放在磁带上 ?传统视频信号以模拟方式进行存储和传送然而模拟视频不适合网络传输,在传输效率方面先天不足,而且图像随时间和频道的衰减较大,不便于分类、检索和编辑。 ?要使计算机能对视频进行处理,必须把视频源即来自于电视机、模拟摄像机、录像机、影碟机等设备的模拟视频信号转换成计算机要求的数字视频形式,这个过程称为视频的数字化过程。 ?数字视频可大大降低视频的传输和存储费用、增加交互性、带来精确稳定的图像。 ?如今,数字视频的应用已非常广泛。包括直接广播卫星(DBS)、有线电视(如图5.2)、数字电视在内的各种通信应用均需要采用数字视频。 ?一些消费产品,如VCD和DVD,数字式便携摄像机,都是以MPEG视频压缩为基础的。 数字化视频的优点 ?适合于网络应用 ?在网络环境中,视频信息可方便地实现资源共享。视频数字信号便于长距离传输。 ?再现性好 ?模拟信号由于是连续变化的,所以不管复制时精确度多高,失真不可避免,经多次复制后,误差就很大。

高清视频编码封装格式知多少

高清视频编码方式何其多 今天我们就为大家普及一下关于购买高清播放机之前需要了解的关于视频文件的知识,了解了视频文件的解码格式以及封装格式,相信大家就会对高清有进一步的了解,也有可能爱上他,知道自己也需要一个。为自己去买一个抱回家。下篇文章也会介绍一下关于音频方面的相关知识,请大家继续关注。 当我们去观察一个视频的文件时候,我们会发现在后缀名上即:“.***”,发现各不相同,许多人就迷迷糊糊了,为了让大家有一个清晰的思路,话不多少,笔者尽力借助各种资料以让每个人都明白的方式来阐述给大家。 普及了O(∩_∩)O~ 编码方式: 在高清视频编码格式方面,我们可以经常会见到以下这几个命名:MPEG-2 TS、Divx、Xvid、H.264、WMV-HD和VC-1。目前发展过程中,MPEG-2、H.264、VC-1是其中最为关注的。由于在高清视频格式后来发展过程中,由于两家公司,东芝与sony的竞争中,就是HD-DVD 与蓝光的较量中,虽然最后HD-DVD退出了竞争,以蓝光的胜利结束,但是他们都选择支持这三种编码格式,也说明了他们的有很大的竞争优势。也是后来被关注最多的格式。

各种格式的发展历程 ■ MPEG编码 首先我们先介绍一下MPEG。MPEG是英文Moving Picture Experts Group的简称,翻译过来也就是运动图像专家组。该专家组建于1988年,可以说很早,他们专门负责建立视频和音频标准,而成员都是为视频、音频及系统领域的技术专家。简单讲就是个行业里的组织,专门对数字内容做出业界规范的组织。 MPEG 大家现时泛指的MPEG-X版本,就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。ISO是国际标准制定组织,我们喝的牛奶或者用的什么产品上经常看的的ISO9000之类的就是一个意思。 MPEG发展的很早,目前也分类很多,了解了他对大家帮助很大。 ● MPEG1:MPEG1是最早出现的,这时候我们就广泛认识到这个组织和他们的标准了。还记得VCD吗?VCD 就是其中最主要的代表。VCD这个具体的格式是从日本而来的,并遵守MPEG1规格。 ● MPEG2:其代表是DVD。一般为480P(640*480)。DVD当时都符合这个标准。 ● MPEG4:Xvid 和H.264(下文重点提到)同属于MPEG4格式,是高于MPEG1、2的新一代数字媒体格式。 ● MPEG-2是由MPEG和ITU-T双方合作开发的。因此MPEG-2在ITU-T的命名规范中被称之为H.262。有时候我们还会看到“MPEG2-HD”或“MPEG2-TS”字样,其实这都是在说MPEG-2(为我们普通消费者增加了多少麻烦啊!!)。 之所以叫做MPEG2-HD是为了区别DVD常采用的MPEG2而做的区分。因为480P格式的

各种主流视频格式介绍

3GP: 3GP是一种3G流媒体的视频编码格式,主要是为了配合3G网络的高传输速度而开发的,也是目前手机中最为常见的一种视频格式。 3GP是新的移动设备标准格式,应用在手机、PSP等移动设备上,优点是文件体积小,移动性强,适合移动设备使用,缺点是在PC机上兼容性差,支持软件少,且播放质量差,帧数低,较AVI等传统格式相差很多。诺基亚提供的PC套件可以很好的支持3GP文件,暴风影音也可播放。 : (MPEG的全名为[Moving Pictures Experts Group],中文译名是动态图像专家组。 MPEG标准 MPEG标准主要有以下五个,MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。(注意,没有MPEG-3,大家熟悉的MP3 只是MPEG Layeur 3)该专家组建于1988年,专门负责为CD建立视和音频标准,而成员都是为视频、音频及系统领域的技术专家。及后,他们成功将声音和影像的记录脱离了传统的模拟方式,建立了ISO IEC1172压缩编码标准,并制定出MPEG-格式,令视听传播方面进入了数码化时代。因此,大家现时泛指的MPEG-X版本,就是由 ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。 MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩 编码技术以减小时间冗余度,利用DCT技术以减小图像的空间冗余度,利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用,大大增强了压缩性能。 MPEG-1 MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。 MPEG-2标准于1994年公布,包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。 MPEG-2 MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准,MPEG-2

国家973项目申请书 超高压下凝聚态物质的新结构与新性质

项目名称:超高压下凝聚态物质的新结构与新性质首席科学家:崔田吉林大学 起止年限:2011.1至2015.8 依托部门:教育部

二、预期目标 本项目的总体目标: 在超高压下凝聚态物质的新结构与新性质前沿领域做出重要原创性的工作,获得一批国际水平的研究成果,形成我国有特色的高压科学研究体系,造就一支具有创新思维的中青年高压研究队伍,使中国高压研究的总体水平进入国际先进行列,进一步提升在国际高压界地位。 五年预期目标: 为完成总体目标,集中进行以下几个方面的研究工作:1)超高压下凝聚体系的金属化与奇异性能,2)超高压下强关联体系中价电子的行为,3)超高压下纳米限域体系的结构演化,4)超高压下的化合物半导体的电输运与新效应,5)超高压下亚稳相的截获与材料的微结构及性能调控。 揭示超高压下纯氢以及富氢体系中分子的解离机制,探索可能产生金属氢的新途径,实现压制金属化;获得不同压力-温度-组分空间中,新型含3d、4d、5d关联体系的结构特征和奇异物性,揭示超高压关联体系材料磁、电和介电的物理机制和晶体及电子结构起源;总结在纳米尺度、空间受限条件下压致分子体系的键合规律;揭示高压下准一维纳米体系的结构演化以及力学、电学等性质随压力的变化规律;揭示化合物半导体的结构、电输运行为与其特殊功能性质之间的内在联系,诠释高压下电子驰豫、平均自由程、有效质量的新内涵以及各物理量之间的内在联系及其规律;在新型材料的超高压合成方面,由唯象研究上升到注重内在物理本质的探索,获取截获高压亚稳相的新方法及规律性认识。合成出3d、4d、5d族3种以上Mott有序化和Stoner型磁电新材料、3-5种有代表性高致密化超细微结构的高性能块体材料。 预期的科学研究成果: 拟在SCI收录的国内外著名学术刊物上发表论文300篇以上,撰写1-3部专著,申报高水平的奖励3-5项,申请发明专利15-25项。同时培养高压领域的拔尖人才以及学术带头人,培养博士研究生50名、硕士研究生200名。

常见的几种高清视频编码格式

高清视频的编码格式有五种,即H、264、MPEG-4、MPEG-2、WMA-HD以及VC-1。事实上,现在网络上流传的高清视频主要以两类文件的方式存在:一类就是经过MPEG-2标准压缩,以tp与ts为后缀的视频流文件;一类就是经过 WMV-HD(Windows Media Video High Definition)标准压缩过的wmv文件,还有少数文件后缀为avi或mpg,其性质与wmv就是一样的。真正效果好的高清视频更多地以H、264与VC-1这两种主流的编码格式流传。 H、264编码 H、264编码高清视频 H、264就是由国际电信联盟(iTU-T)所制定的新一代的视频压缩格式。H、264最具价值的部分就是更高的数据压缩比,在同等的图像质量,H、264的数据压缩比能比当前DVD系统中使用的 MPEG-2高2~3倍,比MPEG-4高1、5~2倍。正因为如此,经过H、264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。在 MPEG-2需要6Mbps的传输速率匹配时,H、264只需要1Mbps~2Mbps的传输速率,目前H、264已经获得DVD Forum与Blu-ray Disc Association 采纳,成为新一代HD DVD的标准,不过H、264解码算法更复杂,计算要求比WMA-HD 还要高。 从ATI的Radeon X1000系列显卡、NVIDIA的GeForce 6/7系列显卡开始,它们均加入对H、264硬解码的支持。与MPEG-4一样,经过H、264压缩的视频文件一般也就是采用avi 作为其后缀名,同样不容易辨认,只能通过解码器来自己识别。 总的来说,常见的几种高清视频编码格式的特点就是能够以更低的码率得到更高的画质,相同效果的MPEG2与H、264影片做比较,后者在容量上仅需前者的一半左右。这也就意味着,H、264不仅能够节省HDTV的存储空间,而且还可以

常见视频格式、转换器及编码

常见视频格式 MPEG / MPG / DAT MPEG(运动图像专家组)是Motion Picture Experts Group 的缩写。这类格式包括了MPEG-1,MPEG-2和MPEG-4在内的多种视频格式。MPEG-1相信是大家接触得最多的了,因为其正在被广泛地应用在VCD 的制作和一些视频片段下载的网络应用上面,大部分的VCD 都是用MPEG1 格式压缩的( 刻录软件自动将MPEG1转换为DA T格式) ,使用MPEG-1 的压缩算法,可以把一部120 分钟长的电影压缩到1.2 GB 左右大小。MPEG-2 则是应用在DVD 的制作,同时在一些HDTV(高清晰电视广播)和一些高要求视频编辑、处理上面也有相当多的应用。使用MPEG-2 的压缩算法压缩一部120 分钟长的电影可以压缩到5-8 GB 的大小(MPEG2的图像质量是MPEG-1 无法比拟的)。MPEG系列标准已成为国际上影响最大的多媒体技术标准,其中MPEG-1和MPEG-2是采用相同原理为基础的预测编码、变换编码、熵编码及运动补偿等第一代数据压缩编码技术;MPEG-4(ISO/IEC 14496)则是基于第二代压缩编码技术制定的国际标准,它以视听媒体对象为基本单元,采用基于内容的压缩编码,以实现数字视音频、图形合成应用及交互式多媒体的集成。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨大而深远的影响。 A VI A VI,音频视频交错(Audio Video Interleaved)的英文缩写。A VI这个由微软公司发表的视频格式,在视频领域可以说是最悠久的格式之一。A VI格式调用方便、图像质量好,压缩标准可任意选择,是应用最广泛、也是应用时间最长的格式之一。 MOV 使用过Mac机的朋友应该多少接触过QuickTime。QuickTime原本是Apple公司用于Mac计算机上的一种图像视频处理软件。Quick-Time提供了两种标准图像和数字视频格式, 即可以支持静态的*.PIC和*.JPG图像格式,动态的基于Indeo压缩法的*.MOV和基于MPEG 压缩法的*.MPG视频格式。 ASF ASF(Advanced Streaming format高级流格式)。ASF 是MICROSOFT 为了和的Real player 竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。ASF使用了MPEG4 的压缩算法,压缩率和图像的质量都很不错。因为ASF 是以一个可以在网上即时观赏的视频“流”格式存在的,所以它的图像质量比VCD 差一点点并不出奇,但比同是视频“流”格式的RAM 格式要好。 WMV 一种独立于编码方式的在Internet上实时传播多媒体的技术标准,Microsoft公司希望用其取代QuickTime之类的技术标准以及W A V、A VI之类的文件扩展名。WMV的主要优点在于:可扩充的媒体类型、本地或网络回放、可伸缩的媒体类型、流的优先级化、多语言支持、扩展性等。

973项目申报书——2009CB623200-环境友好现代混凝土的基础研究

项目名称:环境友好现代混凝土的基础研究首席科学家:李宗津东南大学 起止年限:2009.1至2013.8 依托部门:江苏省科技厅教育部

973项目申报书——2009CB623200-环境友好现代混凝土的基础 研究 一、研究内容 环境友好建筑材料的基本要求是低污染、低能耗及高性能。现代混凝土的发展实现了辅料(主要是工业废渣)的充分和高效利用,降低了环境污染,节约了能源和资源,同时大幅度的提高了抗压强度与流动性。从这一观点出发,现代混凝土属环境友好的建筑材料。但是现代混凝土又具有胶凝材料用量大,组分复杂,水胶比低的特点,早期易开裂,为有害物质侵入创造了条件,导致了其性能的严重衰减,甚至过早地退出服役,造成大量的经济损失、能源与资源的严重浪费及大量废弃物的污染。因此,要真正实现现代混凝土的环境友好,必须有效地提高现代混凝土的服役寿命。 关键科学问题一:现代混凝土微观结构形成机理及其与宏观性能的关系 现代混凝土结构的服役性衰退是一由材料到结构的渐进过程。对这一过程的正确描述依赖于对现代混凝土从微观到宏观的科学认识。在现代混凝土的组分中,水泥基胶凝材料起着将其它组分固结在一起的重要作用。胶凝材料在水化过程中形成的微结构是现代混凝土的基因,其分布与组合影响着现代混凝土的各项宏观性能。因此,探讨现代混凝土复杂的硬化浆体微观结构形成机理并提炼其微结构模型是本项目的重大科学问题。围绕这一科学问题,本项目将展开水泥熟料组成与水化活性关系的研究,水泥熟料组成与结构优化的研究,特别要研究高胶凝性水泥熟料与辅料复合优化,各组分对微结构形成的影响,组分之间的交互作用,水化速率与水化度对微结构的影响,提炼现代混凝土的微结构模型,研究微结构形成的诱导与控制途径。总之,通过先进测试技术及高效计算机模拟等研究手段,探索现代混凝土材料微结构形成机理。通过掌握微结构形成机理,研究微结构的优化理论,实现按终端用途对现代混凝土进行材料设计的飞跃。 建立现代混凝土的微结构模型之后,我们需要将其与宏观性能有机的联 系起来。围绕这一目标,我们将探讨微结构对现代混凝土弹性系数的影响,确 定典型的代表性体积单元,通过多尺度过渡途径,确定微结构与宏观本构之间 的联系,建立力学宏观本构关系及基于多孔介质力学的混凝土传输本构关系。

高清视频格式详解

你好,mkv、rmvb、avi、MP4、flv、wmv这些指的都是文件格式,也就是封装格式,而不是真正的数据压缩格式,至于他们的特点,下面分别来说。 首先纠正一下上面说的一个观点,其实mkv和avi并不能说成是高清格式,所谓的高清(High Definition )指的是分辨率达到一定水平之上才称之为高清,像720p、1080i、1080p、a1080、a720、816p 。进行高清视频编码时一般使用的编码格式为H.264、VC-1,而进行封装时可以使用mkv、mp4、avi这类文件格式进行封装。所以mkv、avi只是一种封装格式,里面装的视频如果是一个320x240分辨率的,那这个视频就不是一个高清视频。下面说说这几种格式的特点。 1、mkv:mkv不等同于音频或视频编码格式,它只是为这些进行过音视频编码 的数据提供了一个封装的格式,简单的说就是指定音视频数据在文件中如何排列放置。 MKV最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流,俗称万能媒体容器。 MKV加入AVI所没有的EDC错误检测代码,这意味着即使是没有下载完毕的MKV 文件也可以顺利回放,这些对AVI来说完全是不可想象的。虽然MKV加入了错 误检测代码,但由于采用了新的更高效的组织结构,用MKV封装后的电影还是 比AVI源文件要小了约1%,这就是说即使加上了多个字幕,MKV文件的体积也 不可能比AVI文件大。 MKV支持可变帧率,它可在动态画面中使用较大的帧率,而在静态画面中使用较小的帧率,这样可以有效的减少视频文件的体积,并改善动态画面的质量。它的作用比目前广泛使用的VBR(可变码率)更为明显。 2、avi 可容纳多种类型的音频和视频流,他的封装格式比较老了,在功能上不能像mkv那样满足更多的需求

视频文件格式和视频编码方式区别

目前网上的各种视频格式可以说是泛滥成灾,加上各个PMP(Portable Media Player,便携式媒体播放器)生产厂家的对自己产品在功能方面的炒作,使得很多人对视频格式的名称都是一头的雾水。 经常有些童鞋问我类似下面的问题。 A问我说:“我的MP4分明写着能播放AVI吗?为什么这一个AVI文件就播放不了?” B问:“我的MP4支持Mpeg-4啊,为什么Mp4文件不能播放呢?” 好的,下面我从最基本的概念给大家解释一下,顺便回答这两个问题 首先大家要清楚两个概念,视频文件格式和视频编码方式。 视频文件格式一般情况下从视频文件的后缀名就能看出来,比如AVI,Mp4,3gp,mov,rmvb等等。这些格式又叫做容器格式(container format),顾名思义就是用来装东西的,你可以把它想象成为一个便当盒,或者野餐篮(兄弟,你没吃早饭吧)。 通常我们从网上下载的电影都是有声音的(废话,难道你只看默片!众人扔香蕉皮),所以容器格式中一般至少包含有两个数据流(stream),一个视频流,一个音频流,就好比是一个便当盒里装着的配菜和米饭。 视频编码方式则是指容器格式中视频流数据的压缩编码方式,例如Mpeg-4,,,等等。而视频数据采用了何种编码方式是无法单单从文件格式的后缀上看出来的。就是说你无法从一个盖着盖子的便当盒外面看出里面装了什么配菜。 如果你想播放一个视频文件,第一步你的播放器(不论是软件的还是硬件的)要能够解析相应的容器格式,这一步也叫做解复用(demux),第二步你的播放器要能够解码其中所包含视频流和音频流。这样影片才能播放出来。 打个不太恰当的比方,播放器好比你雇用的一个试菜员,由他来品尝便当(视频文件),然后告诉你便当里装了什么东西。(没天理阿!我想自己吃,好的当然可以,0x00 00 01 B6 05 FF 36 1A 50 …… ……,俄~) 所以试菜员首先要懂得如何打开便当盒,还要知道吃的出来便当盒里装了什么配菜,这样你才能获得你想要的信息。 回过头来看前面的两个问题,用以上的比喻翻译一下。 问题A,我的试菜员能打开AVI这种便当的,为什么我不能知道里面装了什么? 回答很简单,虽然他能够打开便当,但是吃不出里面的东西是什么。理论上没有一个播放器能够播放所有的AVI格式的电影,因为你不知道我会往里面放什么配菜。 问题B,我的试菜员吃过Mpeg-4这种牛排阿,为什么不能打开Mp4这种便当盒呢? 这个问题通过翻译之后看起来已经不是问题了,Mpeg-4是视频编码方式,而Mp4是容器格式,两者本来就不是一个范畴里的东西。 好了下面简单介绍一下流行的视频格式。 AVI是音频视频交错(Audio Video Interleaved)的英文缩写,它是Microsoft公司开发的一种数字音频与视频文件格式,允许视频和音频交错在一起同步播放。 AVI文件的格式是公开并且免费的,大量的视频爱好者在使用这种文件格式。很多PMP 唯一能支持的格式就是AVI格式,一般的PMP都带有可以转换其他格式视频成为AVI格式的软件。 AVI文件采用的是RIFF(Resource Interchange File Format,资源互换文件格式)文件结构,RIFF是Microsoft公司定义的一种用于管理windows环境中多媒体数据的文件格

相关主题
文本预览
相关文档 最新文档