基于内容的多媒体检索
- 格式:doc
- 大小:298.00 KB
- 文档页数:9
基于内容的多媒体检索技术综述摘要本文通过分析基于内容的多媒体信息检索技术的特点,阐述了基于内容的多媒体信息检索的图像检索技术、视频检索技术以及其发展趋势。
关键词多媒体信息检索技术;图像检索;视频检索1关于基于内容的多媒体信息检索技术所谓基于内容的信息检索,是对文本、图像、音频、视频等媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的信息检索技术。
它与传统数据库基于关键词的检索方式相比,具有如下特点:1)突破了关键词检索基于文本特征的局限,直接从媒体内容中提取特征线索,使检索更加接近媒体对象。
2)提取特征的方法多种多样。
3)人机交互式检索。
通过人机交互的方式来捕捉和建立多媒体信息低层特征和高层语义之间的关联,即所谓相关反馈技术。
其目的是在检索过程中根据用户的查询要求返回一组检索结果,用户可以对检索结果进行评价和标记,然后反馈给系统,系统根据这些反馈信息进行学习,再返回新的查询结果,从而使检索结果更接近用户的要求。
4)相似性匹配检索。
基于内容的检索是按照一定的匹配算法将需求特征与特征库中的特征元数据进行相似性匹配,满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。
这与关键词的精确匹配算法有明显不同。
5)逐步求精的检索过程。
用户通过浏览初始结果,可以从中挑选相似结果,或者选择其中一个结果作为示例,进行特征的调整,并重新进行相似性匹配,经过多次循环后不断缩小查询范围,做到逐步求精,最终得到较为理想的查询结果。
2基于内容的图像检索基于内容的图像检索技术是通过分析图像的内容,提取其颜色、形状、纹理等可视特征,建立特征索引,存储于特征库中;在检索时,用户只需把自己对图像的模糊印象描述出来,就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。
2.1基于颜色特征的检索基于颜色特征的检索算法中通常用颜色直方图来表示图像的颜色特征。
直方图能较好地反映图像中各颜色的频率分布,横轴表示颜色等级,纵轴表示在一个颜色等级上,具有该颜色的像素在整幅图像中所占的比例。
基于内容的多媒体检索技术摘要:基于内容检索是多媒体研究中的新兴热点,会逐渐在很多领域中得到广泛的应用,本文主要介绍了基于内容的多媒体信息检索的概念、特点、查询和检索过程、基于内容的检索、基于视频的检索以及基于内容的多媒体信息检索的研究方向。
关键词:基于内容的检索;多媒体;图像检索;视频检索1.引言多媒体技术和Internet的发展将人们带入巨大的多媒体信息海洋,并进一步导致了超大型多媒体信息库的产生,光凭关键词是很难做到对多媒体信息的描述和检索的,这就需要有一种针对多媒体的有效的检索方式。
如何有效的帮助人们快速、准确地找到所需要的多媒体信息,成了多媒体信息库所要解决的核心问题。
2.多媒体检索技术原理与方法多多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval)。
所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。
基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。
在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。
与传统的信息检索相比,CBR有如下特点:(1)相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。
(2)直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。
(3)满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。
媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。
多媒体数据库及基于内容检索在当今数字化信息爆炸的时代,多媒体数据如图片、音频、视频等在我们的日常生活和工作中无处不在。
为了有效地管理和利用这些海量的多媒体信息,多媒体数据库应运而生。
同时,基于内容的检索技术也成为了从多媒体数据库中快速准确获取所需信息的关键手段。
多媒体数据库是一种能够存储、管理和处理多媒体数据的数据库系统。
与传统的关系型数据库不同,多媒体数据库需要处理的数据类型更为复杂多样,包括图像、音频、视频、文本等。
这些数据不仅具有大容量、高维度的特点,还存在着语义丰富、结构复杂等问题。
因此,多媒体数据库在数据模型、存储结构、索引机制等方面都有着独特的设计和实现方式。
在数据模型方面,多媒体数据库通常采用面向对象的数据模型或者扩展的关系模型来描述多媒体数据的复杂结构和语义关系。
例如,对于图像数据,可以将其表示为对象,包含图像的属性(如分辨率、色彩模式等)、图像的内容特征(如颜色直方图、纹理特征等)以及与其他数据的关联关系。
存储结构方面,由于多媒体数据的大容量特点,传统的磁盘存储方式可能无法满足性能要求。
因此,多媒体数据库常常采用分布式存储、缓存技术、数据压缩等手段来提高数据的存储和访问效率。
索引机制对于多媒体数据库的性能至关重要。
针对不同类型的多媒体数据,需要设计专门的索引结构。
例如,对于图像数据,可以基于颜色、形状、纹理等特征建立索引;对于音频数据,可以基于频率、时长、节奏等特征建立索引;对于视频数据,可以基于关键帧、镜头切换、运动轨迹等特征建立索引。
基于内容的检索是多媒体数据库中的核心技术之一,它允许用户根据多媒体数据的内容特征而非仅仅是元数据(如文件名、创建时间等)来进行检索。
基于内容检索的基本思想是首先对多媒体数据进行特征提取,然后将提取的特征与用户输入的查询特征进行匹配,从而找到相关的多媒体数据。
在特征提取方面,需要根据不同类型的多媒体数据采用不同的方法。
对于图像数据,可以提取颜色、形状、纹理等特征;对于音频数据,可以提取频谱、音色、节奏等特征;对于视频数据,可以提取关键帧特征、镜头特征、运动特征等。
基于内容的多媒体检索技术在当今数字化信息爆炸的时代,多媒体数据呈现出海量增长的态势。
图像、音频、视频等多媒体内容充斥着我们的生活,如何从这庞大的信息海洋中快速、准确地找到我们所需的内容,成为了一个迫切需要解决的问题。
基于内容的多媒体检索技术应运而生,它为我们提供了一种高效、智能的解决方案。
多媒体检索,简单来说,就是根据多媒体对象的内容特征来进行搜索和查找。
传统的基于文本的检索方式,往往依赖于人工对多媒体内容进行标注和描述,这种方式不仅费时费力,而且容易出现主观性和不准确的问题。
基于内容的多媒体检索技术则直接从多媒体数据本身提取特征,如颜色、形状、纹理、音频的频率、音色,视频的镜头、场景等,然后根据这些特征进行匹配和检索。
在图像检索方面,颜色是一个重要的特征。
比如,我们要查找一张以蓝色为主色调的图片,系统会分析图像中像素的颜色分布,将那些蓝色占比较大的图片筛选出来。
形状特征也是常用的,像圆形、方形、三角形等几何形状,或者更复杂的物体轮廓。
纹理特征则可以帮助区分具有不同材质或表面特性的图像,比如光滑的、粗糙的、有规律的、无规律的纹理。
音频检索中,频率特征起着关键作用。
不同的声音具有不同的频率分布,比如高音和低音。
音色特征能反映出声音的特质,像钢琴声和小提琴声就有明显不同的音色。
此外,音频的节奏、时长等也是重要的检索依据。
视频检索相对更为复杂,因为它融合了图像和音频的特征。
视频中的镜头切换、场景变化、人物动作等都可以作为检索的特征。
比如,我们要查找一个篮球比赛中投篮的镜头,系统会分析视频中的画面和动作,找出符合条件的片段。
基于内容的多媒体检索技术的实现离不开一系列的关键技术。
特征提取是第一步,这就好比从海量的数据中提取出关键的“指纹”。
特征的表示和存储也至关重要,要以一种高效、便于比较和计算的方式来保存这些特征。
相似性度量则用于判断两个多媒体对象的特征是否相似,从而确定是否匹配。
为了提高检索的准确性和效率,索引结构的设计也非常重要。
关于基于内容的多媒体信息检索的认识钟雨祺(14图书情报硕士 2014281040147)多媒体技术、网络技术和信息数字化处理等高新技术的飞速发展,使得多媒体数量激增,特别在网络上信息不再只是单纯的文本信息,图形图像、视频、声音等多媒体信息逐渐占有越来越大的比重,一种基于内容的多媒体数据库查询与检索技术———CBR (Content Based Retrieval)应运而生。
1 基于内容的多媒体信息检索1.1基于内容的图像检索图像检索一般是基于图像的颜色特征、纹理特征、形状特征和空间关系特征四种特征。
颜色特征是图像检索中应用最为广泛的视觉特征。
纹理特征是一种不依赖于颜色或亮色的反映图像中同质现象的视觉特征,它包含了物体表面结构组织排列的重要信息以及它们与周围环境的联系。
形状特征有两种表示方法:一种是轮廓特征的,一种是区域特征的。
图像中对象的所在位置和对象之间的空间关系同样是图像检索中非常重要的特征。
空间关系特征有两种检索方法:一是首先对图像进行自动分割,划分出其中所含的对象或颜色区域,然后根据这些区域对图像索引;二是简单地将图像均匀划分若干规则小块,对每个图像小块提取特征建立索引。
1.2基于内容的视频检索视频检索实际上属于图像的范畴。
视频除了具有一般静态图像的特征外,还具有动态性,所以视频又称动态图像。
视频检索的方法主要有三种:①基于关键帧的检索。
关键帧通常是一幅图像,因而可以采用与图像检索相似的方法。
一旦检索到目标关键帧,用户就可以利用播放器观看它所代表的视频片段。
②基于运动的检索。
它基于镜头和视频对象的时间特征来检索,包括检索摄像机的移动操作和场景移动,以及用运动方向和运动幅度等特征来检索运动的主体对象。
③浏览。
一般采用分层结构和集束分类技术。
1.3基于内容的音频检索音频检索是以波形声音为对象的检索。
波形声音是对模拟声音数字化而得到的数字音频信号,这里的音频可以代表语音、音乐、自然界和合成的音响。
基于内容的多媒体检索摘要对基于内容的多媒体检索的有关概念、特点进行介绍,基于内容的分析方法的提出,在压缩域上直接对MPEG音频信号进行分析,达到多媒体实时分析检索目的。
算法分为三步:首先利用压缩域特征对音频信号进行分割,然后应用分层方法把分割出来的音频片段粗分成音乐、语音和其它三个基本类别;由于话者身份是语音信号中的重要检索线索,最后利用隐马尔可夫链实现了与文本无关的话者识别,并用识别出来的话者身份对语音信号和其相应的视频进行标注。
关键词音频检索概念多媒体基于内容的检索压缩域隐马尔可夫链话者识别多媒体检索引言随着计算机应用技术的发展与互联网速度的提高,用户可以访问到的文本、音频和视频等多媒体信息不断增加。
这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理检索出需要信息。
于是,从90年代初开始,基于内容的图像(视频)检索成为多媒体领域研究的热点之一[1][2]。
在基于内容的图像(视频)检索中,颜色、纹理、形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。
基于内容的多媒体检索原理与特点多媒体检索是一种基于内容特征的检索(CBR:content-based retrieval)。
所谓基于内容的检索是对媒体对象的内容及上下文语义环境进行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、响度、音色等。
基于内容的检索突破了传统的基于文本检索技术的局限,直接对图像、视频、音频内容进行分析,抽取特征和语义,利用这些内容特征建立索引并进行检索。
在这一检索过程中,它主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术,是多种技术的合成。
与传统的信息检索相比,CBR有如下特点:(1) 相似性检索:CBR采用一种近似匹配(或局部匹配)的方法和技术逐步求精来获得查询和检索结果,摒弃了传统的精确匹配技术,避免了因采用传统检索方法所带来的不确定性。
(2) 直接从内容中提取信息线索:CBR直接对文本、图像、视频、音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索。
(3) 满足用户多层次的检索要求:CBR检索系统通常由媒体库、特征库和知识库组成。
媒体库包含多媒体数据,如文本、图像、音频、视频等;特征库包含用户输入的特征和预处理自动提取的内容特征;知识库包含领域知识和通用知识,其中的知识表达可以更换,以适应各种不同领域的应用要求。
(4) 大型数据库(集)的快速检索:CBR往往拥有数量巨大、种类繁多的多媒体数据库,能够实现对多媒体信息的快速检索。
基于内容分析方法的提出我们知道视频、音频都是按时间顺序来组织的,传统方法查找其中某个片断都是通过快进或快到等顺序来浏览内容查找,这种方法不仅要求用户注意力高度集中,而且特别浪费时间。
由于视频、音频内容包含复杂丰富的信息数据,对视频、音频检索已成为实际应用中一个难题,而基于内容分析方法是目前视频、音频检索主要发展趋势。
如何解决多媒体信息内容描述问题,目前主要是采用基于内容分析视频处理与检索方法,这种方法是近年来随着多媒体数据处理技术发展而提出的。
基于内容分析的方法是从另一个角度来认识多媒体信息,从早期基本颜色检索,到综合利用多种多媒体特征进行检索。
如:颜色、纹理、形状、场景、镜头、帧等特征信息。
目前该技术已经发展到实用阶段,其中多媒体内容描述接口MPEG-7是目前被广泛接受的一种国际标准,其核心就是基于多媒体内容分析。
MPEG序列媒体标准是目前最为广泛应用的视/音频媒体标准,目前广泛应用的主要有MPEG-I、MPEG-II、MPEG-4等,它们都是对数字运动图像及伴音编码进行压缩的一种国际标准,其中MPEG-4采用按照具有一定时间关系和空间关系的对象来进行视、音频编码的处理方式。
而MPEG-7是在MPEG-4基础上发展起来,MPEG-7重点是对视音频信息内容进行不同程度描述与定义,而与多媒体信息的编码和存储方式无关。
由于音频也蕴含了大量的语义信息,近年来,基于内容的音频检索[3]也受到越来越多的关注,其主要思想是通过提取音频流中的时域(频域)特征来描述音频内容。
由于多媒体本质是由文本,视频和音频等多种媒质交互融合而成的,它们之间存在或多或少的语义关联,一种媒质和另外一种媒质可以表示同一语义,媒质之间可以相互索引,如[4]中通过音频分类实现为视频数据建立索引。
但是,无论是基于内容的图像(视频)检索或是基于内容的音频检索,目前还是基于视觉或听觉感知特征相似度比较的检索,而我们对多媒体内容的描述是基于其所蕴涵的语义信息的。
因此,将多媒体数据流分类成预先定义的语义模型是多媒体检索面临的挑战[5]。
语义概念模型可以分为三类:一是高级语义,这种语义是不同时间和空间几个多媒体事件高度抽象概念化的结果,如“厄尔尼诺气候的形成”,它需要探讨人脑的思维机制;二是中级语义,这种语义是高级语义中所涉及的人或事件的分别描述,不涉及几个事件的交叉,如“某个主持人某类新闻报导”或“某场足球比赛”;最后是低级语义,它是利用视觉或听觉信息对多媒体数据进行初步分类,如“音乐”、“语音”或“海滩”等。
对多媒体数据进行语义标注实现了多媒体从无结构到结构化的过程,可以有效组织多媒体数据流,方便检索。
另外,随着网络技术的普及,对多媒体数据(特别是音频数据)进行实时分析也成为了需要[6]。
传统多媒体检索中提取的特征基本上是基于非压缩域的,随着多媒体应用技术的发展,MPEG凭借其易于传输存储的优点而成为多媒体数据压缩通用标准[7]。
用非压缩域方法来对MPEG数据流进行语义标注时,必须先解码,才能提取特征和对特征分析,造成运算量无谓增大,不能保证实时效果。
同时,MPEG对音频部分的编码结合了听觉心理学,编码时就考虑了人的听觉感知特性,所以直接在MPEG压缩域上提取特征,可以使这些感知特性不会丢失,保证对音频信息的正确理解。
在音频数据流中,说话人是非常重要的语义信息,如不同的节目主持人会报导不同内容的新闻节目(体育,天气预报和时事等)。
通过对讲话人语音的分析,自动确认出话者身份,既可以用话者身份对音频进行中级语义标注,也可以对其相应的视频信息流进行分类,实现不同媒质之间的索引。
基于此,本文提出了一种直接在压缩域上进行多媒体分析的方法:首先,MPEG数据流被分成视频和音频两部分,然后对压缩域音频流进行分割与粗分,并且对识别出来的语音片段中的话者身份进行确认;最后用确认出来的话者身份对相应的语音音频和视频进行标注(如图一)。
图一压缩域特征多媒体检索分类流程压缩域音频特征提取所谓音频特征就是用来表征原始音频信息的数据。
根据特征空间的不同,音频特征可以分为时域、频域和时频三类:时域特征包括短时能量、过零率和线性预测系数等;频域特征包括线性预测(LPC)倒谱系数和MFCC 等;时频特征包括短时傅立叶变换和小波系数等。
近年来,为了更真实反映原始音频数据流首先被耳蜗处理,然后才在大脑处形成“音频场景”的事实[10],仿照人的听觉感知模型[11],一些特征被提取出来。
于是,根据是否使用感知模型,音频特征可以分为物理和感知两类。
物理特征包括短时能量、过零率、基本频率等,它来源于音频信号本身;感知特征包括音调和音高等,它依赖于人的听觉模型。
要指出的是,有些时频特征也属于感知特征,如小波变换每层分解相当于一个恒Q 滤波器,符合人耳听觉感知特性。
MPEG 音频压缩利用了“心理声学模型(psychoacoustics model )”,在MPEG 压缩领域上直接提取特征,可以保留这些感知特性,更好象人的听觉感知系统一样,实现对音频语义内容的理解。
首先把MPEG 数据流分解成视频和音频两部分。
其中音频流数据是MPEG -2 Layer III ,采样频率为22050Hz 。
按照传统语音处理中对信号处理分成短时“帧”的要求,音频数据被分割成大约为20毫秒的帧序列(每一帧有576个采样值)。
32,..2,1,18)][(][1812==∑=i i S i M t t对于每一帧,首先求出每一个子带矢量值的均方根 ,其中 是32维的子带矢量, 也是一个32维的矢量。
表征了这一帧的特性,由此可以得到以下的具体特征:(1)质心(Centroid ):∑∑===321321][][i i i M i iM C ,指一个矢量的平衡点,质心反映了在压缩域上音频信号的基本频率带;(2)衰减截止频率(Rolloff ):)][85.0][arg(3211∑∑====i R i i M i M R ,指音频信号能量衰减3分贝时的截止频率。
由于人耳对音频信号强弱变化相当敏感,衰减截止频率其实就是自适应的听觉阈值,它体现了心理声学中的听觉掩饰特性;(3)频谱流量(Spectral Flux ):指相邻两帧的 矢量正规化后以2为模的差分,频谱流量体现了音频信号的动态特征;(4)均方根( ):32)][(3212∑==i i M RMS ,用来衡量这一帧音频信号强度。
音频场景的切换通常伴随着音量变化,因此 在分割中是十分重要的一个指标。
由于音频信号的非平稳特性,为了更好表征音频的时序变化,上述四个特征的统计信息也被提取出来作为音频特征:实验中,使用40帧为一个窗口(大约1秒),对每一帧,计算其前一个窗口中所有帧的质心,衰减截止频率和频谱流量的均值和方差,并且计算均方根低于某一阈值的比例,得到七个具有统计意义的特征。
这样,对于每一帧,总共提取了11个特征。
每个音频数据流的前40帧统计特征值是这个音频流所有对应统计特征的平均值。
这11个特征反映了音频的静态和动态特性,符合心理声学模型,构成了压缩域上音频信号的描述算子,被用来进行音频的分割、粗分和识别。
音频信号分割与粗分研究表明,虽然音频信号特征随时间变化剧烈,但是对于同一音频类而言,其特征之间的距离变化大致有一定规律的,通过选取好的窗口距离可以体现出这种规律性来[12][13]。
利用前面提取的11个特征,实验中实现了如下的音频分割算法:(1)读入MPEG 音频流,对每一帧求出特征矢量 , 是11维, 表示时间(帧数);(2)求出前后相邻特征向量 和 之间的对数化欧氏距离))(log(1112)1(∑=+-=i i t ti t f fd ,其中 表示第 帧中的第 个特征;(3)对于得到的 序列,求出时刻 前后窗口长度为 的 均值的差||11∑∑+=-=-+=k t ti i t k t i i t d d k df ;这个过程叫窗口化(4)如果 在某一时刻值大于阈值 ,则判定在该时刻特征矢量发生了跃变,因此发生了音频信号的转换,于是音频流从此处分割。