基于语义匹配的交互式视频检索框架(精)
- 格式:pdf
- 大小:1.91 MB
- 文档页数:7
基于人工智能的多媒体数据交互式检索技术随着数据摄影、智能手机、云计算、计算机视觉等技术的不断发展,我们所产生的数据量越来越大。
多媒体数据与传统数据的一个显著区别在于其包含更多的信息类型,如图像、音频、视频等。
在这个信息的海洋中找到自己所需的信息变得越来越困难。
虽然我们可以通过手动输入关键词来搜索所需的信息,但是这样做的效率很低,且很可能会漏掉某些重要的信息。
因此,基于人工智能的多媒体数据交互式检索技术应运而生。
一、基础技术人工智能的算法可以分为无监督学习和监督学习两类。
无监督学习是指从未标记的数据中学习,不引用其他信息。
这些算法通常用于聚类分析和降维分析等任务。
监督学习是指使用来自已知的/已标注的训练数据的算法。
这些算法用于分类,回归和其他任务。
对于基于人工智能的多媒体数据检索,人们主要采用以下两种算法:1. 特征提取和描述符匹配这种算法使用图像或视频的特征提取工具来分析图像,以获得能够描述它的一组特征。
这些特征可以是像素特征,如颜色,形状,纹理等,也可以是不带语义的低级特征,如边缘检测和兴趣点检测等。
根据图像的特征,我们可以创建一个特征向量来描述图像。
然后可以使用描述符匹配技术来找到已知图像库中最匹配查询图像描述的图像。
2. 基于深度学习的检索深度学习是一种监督学习方法,它利用神经网络体系结构来自动获取图像表示形式,不需要固定规则或说明。
深度学习方法旨在发现图像的抽象特征,以便于较高的泛化能力和自然的图像变化。
用于基于深度学习的多媒体数据检索的方法包括卷积神经网络、循环神经网络等。
二、应用领域随着计算机视觉和人工智能的不断进步,基于人工智能的多媒体数据交互式检索技术在许多应用领域中得到了广泛应用。
1. 电子商务基于人工智能的多媒体数据交互式检索技术为电子商务提供了极大的帮助。
例如,当一位顾客想要购买某件衣服时,只需通过手持智能手机拍摄一张其所喜欢的衣服的图片,然后基于人工智能的多媒体数据检索技术便会在相关数据库中寻找相似的衣服,使顾客得以方便快捷的查找到他们需要的商品。
基于语义的视频检索技术综述作者:杨洋来源:《软件导刊》2015年第12期摘要:随着网络技术的发展,越来越多的人选择在互联网上观看各类视频信息。
在如此庞大的视频信息库面前,如何精准地搜索到用户需要的视频信息成为科研人员关注的课题。
目前流行的视频检索系统中,时常会出现检索出来的内容与用户需求不相符的现象。
针对用户与机器的这种“语义鸿沟”现象,综合国内外研究成果,阐述了基于语义的视频检索发展现状,介绍了几种基于语义的视频检索技术,对语义视频检索的发展前景作了展望。
关键词:语义;视频检索;关键帧;语义鸿沟DOIDOI:10.11907/rjdk.1511295中图分类号:TP302文献标识码:A 文章编号文章编号:16727800(2015)0120031020 引言在大数据技术逐渐成熟的宏观环境下,如何合理有效地存储和搜索视频信息成为时下学术界的研究热点之一。
当前用户对搜索引擎的体验是:在搜索中需要一定的技巧,否则很难得到一个满意的结果。
比如,搜索“天空中翱翔的鸟”,得到的可能是视频检索系统通过切分语句匹配标签得到的搜索结果,可能呈现出来的并不是语义中表达的一只在天空中翱翔的鸟儿,很有可能是一部动漫或者一首歌曲,这种搜索结果势必产生一些歧义。
造成这种现象的原因是现有的视频检索技术大多没有基于语义,即人和计算机对于一句话的理解存在着差异,也就是所谓的“语义鸿沟”。
解决这种“语义鸿沟”的办法是依靠相关的语义视频检索技术。
基于语义的视频检索技术,研究的主要内容是如何获得视频的高层语义信息,如何高效率以及高精确度地对其语义信息进行检索[1]。
这种方法的关键是将人脑所想的内容中的高层语义提取出来,即对视频内容加以分析和理解,使计算机能够检索到人的思维所表达的正确语义。
1 研究现状1.1 视频检索系统例证由IBM公司开发研制的QBIC系统,是基于视频内容检索的一个典型系统。
由美国哥伦比亚大学开发的Visual Seek,是基于图像的空间信息原理进行检索;Video Q 视频检索系统基于用户的视觉特征和时空关系原理检索。
基于概念的视频检索中概念语义匹配算法研究张皓翔;尚麟宇【期刊名称】《泰山学院学报》【年(卷),期】2011(000)006【摘要】为了实现基于概念视频检索中从底层内容到查询的语义贯通,应用基于WordNet词典的语义相似度算法,通过对三种不同原理的算法对比应用,得出基于信息量算法在本应用中更有优势,语义匹配可以提高检索精度,最优映射数目为2至3个,以及在目前发展水平下,映射到合适的概念比检测器精度更合适四个重要结论.%In order to run semantic linking through the bottom content to users' query in concept-based video retrieval, we apply semantic similarity algorithm based on WordNet to video retrieval. By comparing the effects of three different principles algorithm, we get four important conclusions. Algorithm based on information entropy is better for use here than others, semantic matching can improve retrieval precision, the optimal number of maps is 2 to 3, and in the current development level, mapping to the appropriate detector is important than the detector accuracy.【总页数】6页(P34-39)【作者】张皓翔;尚麟宇【作者单位】北京交通大学轨道交通控制与安全国家重点实验室,北京100044;北京交通大学轨道交通控制与安全国家重点实验室,北京100044【正文语种】中文【中图分类】TP391【相关文献】1.语义Web中本体概念的语义匹配分离方法 [J], 唐郑熠;韦立;李均涛;万良2.基于内容的静态语义概念视频检索方法研究 [J], 张聪;张瑞;杨小康3.基于语义匹配的交互式视频检索框架 [J], 李华北;胡卫明;罗冠4.基于领域本体的概念格语义匹配 [J], 陈红红;李辉;李新春5.基于含权概念图的中文语句语义匹配方法的研究 [J], 刘培奇;曹东川;刘阳因版权原因,仅展示原文概要,查看原文内容请购买。
基于语义的视频检索关键技术研究的开题报告一、研究背景与意义视频数据是当今互联网中不可或缺的一部分,视频数量不断增加,这给视频检索和管理带来了挑战。
当前,大多数的视频检索系统都是基于文本检索或基于关键帧的检索技术,它们的检索结果往往与用户的需求不完全匹配。
因此,建立一个基于语义的视频检索系统是非常必要的。
基于语义的视频检索是通过从视频中提取语义信息,可以更好地满足用户需求,提高检索质量。
通过深度学习、机器学习、图像识别等技术,可以自动地从视频数据中提取语义信息。
这些技术不仅可以实现对视频主题、场景、物体、动作等信息的自动提取,还可以根据用户的意图和需求,提供更加个性化和精准的检索结果,提高用户的使用体验。
二、研究目标本课题的目标是研究基于语义的视频检索关键技术,设计并实现一个基于语义的视频检索系统。
主要研究内容包括:1.视频语义特征提取:通过深度学习和机器学习等技术,从视频数据中提取语义特征,例如场景、物体、动作等信息。
2.视频语义特征建模和表示:将视频语义特征进行建模和表示,以便快速检索。
3.视频检索算法:开发基于语义的视频检索算法,实现对视频内容的高效检索,提高检索效率。
4.系统实现:设计并实现一个基于语义的视频检索系统,提供友好的用户界面和高效的检索功能。
三、研究方法本课题将采用以下方法实现:1.深度学习和机器学习等技术:通过这些技术,从视频数据中提取语义特征,并进行建模和表示。
2.基于计算机视觉的图像检索技术:将计算机视觉和图像检索技术应用于视频检索,提高检索效率和准确性。
3.数据集:采用公开数据集,例如YouTube-8M和ImageNet等,进行数据训练和测试,实现算法验证和改进。
4.系统实现:采用Java或Python语言设计并实现一个基于语义的视频检索系统,进行系统测试和评估。
四、研究内容1.视频语义特征提取方法的研究;2.视频语义特征建模和表示方法的研究;3.基于语义的视频检索算法的研究;4.基于语义的视频检索系统的设计和实现。
基于人工智能的音视频内容检索系统的架构设计摘要:音视频检索系统可以为用户提供文本检索、视频检索、音频检索等多形式的检索查询服务。
音视频检索系统以数据库为基础,通过建立包含关键字、视频样例、音频片断、说话人、文本说话内容等在内的多模态检索方式,从而实现对各类信息的综合检索功能。
本文详细论述了多模态检索方式的基本原理,并给出了信息综合检索系统的实现方法。
关键词:音视频检索;多模态检索方式;综合检索基于人工智能的音视频内容检索系统的技术架构和整体结构都由下图展现出来。
系统的整体结构由数据层、服务层、展示层三个层次组成,其中每个层次都有各自的功能部分和实现功能部分所需的底层工具。
系统主要划分为阿森纳个模块,分别是音视频内容采集模块、音视频内容预处理模块、人工智能分析模块每个功能模块又根据其内部功能的现实性需求不同而包含了不同的子模块。
1音视频采集模块音视频采集模块是系统的数据源头模块,为整个系统获取处理所需的音视频内容数据,将这些音视频内容存放在系统的集中服务存储空间中的同时还要构建结构化的数据库信息存储。
整个项目所需的音视频内容来源主要是由音视频内容监管平台提供。
包括全国2000多个卫视每天播出的电视节目内容、某几家自媒体平台接受音视频内容监管平台监管的部分自媒体视频内容以及国内十家持证音视频内容门户网站接受音视频内容监管平台监管的部分音视频内容。
其中2000多个卫视中约有1000个卫视每天的电视节目时长只有12小时左右,其余时间的音视频内容均为黑屏或者无节目播出。
这里从视频源头对卫视及平台的音视频内容进行敏感程度分级,分为极其敏感、较为敏感、普通三个等级。
以便对人工智能分析模块对不同重要程度的音视频内容动态分配智能识别资源。
其中最为重要的音视频内容类型包括中央电视台的所有卫视频道、全国三十一个省级电视台的综合卫视频道以及自媒体平台和持证音视频门户网站的音视频内容;重要的音视频内容类型包括全国三十一个省级电视台的所有卫视频道和全国所有地级市电视台的综合卫视频道中的音视频播放内容;剩余的卫视视频被分作一般类别。
第34卷第10期自动化学报Vol.34,No.10 2008年10月ACTA AUTOMATICA SINICA October,2008基于语义匹配的交互式视频检索框架李华北1胡卫明1罗冠1摘要近年来基于内容的视频检索技术受到人们越来越多的关注.本文提出了一套基于语义匹配的交互式视频检索框架,其贡献主要为以下三方面:1)定义新型的视频高层特征—语义直方图用以描述视频的高层语义信息;2)使用主导集聚类算法建立基于非监督学习的检索机制,用以降低在线计算复杂度和提高检索效率;3)提出新型的相关反馈机制—基于语义的分支反馈,该机制采用分支反馈结构和分支更新策略实现检索性能的提升.实验结果表明了本框架的有效性.关键词语义匹配直方图,基于非监督学习的检索机制,基于语义的分支反馈中图分类号TP391.3A New Interactive Video Retrieval Framework Using Semantic MatchingLI Hua-Bei1HU Wei-Ming1LUO Guan1Abstract Content-based video retrieval(CBVR)has attracted increasing interest in recent years.In this paper,we propose a new interactive video retrieval framework using semantic matching.The main contributions are three-fold:1) We define a novel high-level feature named semantic-matching histogram(SMH)to reflect videos semantic information.2)We set up an unsupervised learning-based retrieval mechanism using the dominant set clustering for the sake of low on-line complexity and high retrieval efficiency.3)We establish a new interactive mechanism called semantic-based relevance feedback(SBRF)working together with SMHs to improve retrieval performances.Experimental results on a database of sports videos show the effectiveness and efficiency of the proposed framework.Key words Semantic-matching histogram(SMH),unsupervised learning-based retrieval,semantic-based relevance feedback(SBRF)基于内容的视频检索(Content-based video re-trieval,CBVR)已成为多媒体分析领域中最热门的课题之一.其摆脱了依赖人工文本标注的传统方式,直接对视频数据所蕴涵的物理和语义内容进行分析和理解,以期达到快速准确的检索效果.典型的CBVR系统通常包含以下三个关键问题:视频表征、检索机制和相关反馈.视频表征是指提取对象特征并定义对象间的相似度.从结构上讲,视频不仅是由图像帧组成的简单序列,更是由关键帧、镜头、组和场景构成的层次结构[1−2].从内容上看,视频的内容主要由如下三种信息表达,即底层视觉信息、中层序列信息和高层语义信息.因此,在哪个信息层次提取视频特征又在哪个结构层次定义相似度便成为视频表征阶段首要解决的问题.Chang等[3]使用个体关键帧代表一段视频,该方法依赖单一图像的视觉信息而完全忽略了视频收稿日期2007-06-12收修改稿日期2008-04-07Received June12,2007;in revised form April7,2008国家自然科学基金(60520120099,60672040,60705003),国家高技术研究发展计划(863计划)(2006AA01Z453)资助Supported by National Natural Science Foundation of China (60520120099,60672040,60705003)and National High Technol-ogy Research and Deveopment Program of China(863Program) (2006AA01Z453)1.中国科学院自动化研究所模式识别国家重点实验室北京1001901.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing100190 DOI:10.3724/SP.J.1004.2008.01243的序列信息.Dimitiova等[4]将两段视频对应帧之间的平均逆距离定义为他们的相似度.这种方法利用更多的图像试图部分反映序列信息,然而如何确定视频间图像帧的对应关系成为又一难题.吴翌等[5]为每一镜头提取关键帧而后定义镜头质心向量以代表整个镜头,该方法大大减少了关键帧特征的存储量但是仍然损失了大部分序列信息.Muneesawang 等[6]使用基于模型的方法提出“iARM”系统,该系统定义了T-bin直方图(T-bin histogram,TBH)对视频序列信息进行精确建模.此外,文献[7]进一步挖掘图像高层语义特征以期改进图像检索的性能.然而,上述方法的共同问题就是它们对描述视频高层语义信息无能为力.对于给定查询请求,检索机制决定着返回相关视频的策略和过程.传统的检索机制按照视频相似度对数据库进行直接地全排序,因此又称为直接检索机制.直接检索机制由于其实施简单灵活得以广泛使用.然而,对于每一查询请求,该机制要求所有相似度计算和比较操作都要在线进行,势必导致很高的在线计算复杂度和较低的检索效率.图像检索相关反馈为视频检索提供了基本思想及技术.然而,视频检索相关反馈技术发展仍然较为有限.视频的序列特性决定了用户不得不花费更多的时间来理解输出视频并给出反馈意见.因此,视频检索相关反馈技术更加强调交互的效率.基于底层1244自动化学报34卷内容的交互技术[8−9]似乎并不能满足视频检索的这一要求,语义相关反馈技术已成为当前研究的热点.He 等[10]根据用户的反馈信息推导出语义空间,并通过积累用户意见改进检索性能.然而该方法过度依赖反馈正例而没有充分利用反馈负例所携带的有用信息.Heisterkamp [11]将数据库和反馈输出分别看作“词汇表”和“文档”,采用潜在语义索引捕捉隐藏在查询间的语义信息.该方法引入新视角来解决相关反馈问题,但其本质上仍然是一个查询点移动的方法且依赖于大量反馈历史数据.文献[12]使用语义关键词关联的方法建立了基于语义网络的相关反馈.该方法的主要问题在于如何在缺少适当高层特征的情况下获得初始的语义关联.针对以上提到的视频检索系统的三个关键问题,本文提出了一套基于语义匹配的交互式视频检索框架.首先,定义新型的高层视频特征—语义直方图(Semantic-matching histogram,SMH)以描述视频的基本语义内容;其次,采用主导集聚类算法,建立基于非监督学习的检索机制用以降低在线计算复杂度;最后,提出新型的交互机制—基于语义的分支反馈结构(Semantic-based relevance feedback,SBRF)以校正SMH 所标记的错误主题,提高检索的性能.第1节详细介绍交互式视频检索框架;第2节给出实验过程及结果;第3节对本文进行总结.1交互式视频检索框架本文致力于通过定义新的视频特征、制定新的检索机制和交互机制来建立一套新型的基于内容的视频检索框架.如图1所示,该框架由离线操作和在线操作两部分组成.离线操作包括特征提取和非监督学习两个环节.首先,对视频对象提取高层语义特征即语义直方图(SMH).随后,使用SMH 对整个数据库进行非监督学习.在线操作包括检索和交互.检索环节提供直接检索和基于非监督学习的检索两种模式.最后,基于语义的分支反馈与SMH 配合使用,校正SMH 标记的不恰当主题,提升系统的检索性能.图1交互式视频检索框架结构图Fig.1Interactive video retrieval framework1.1语义直方图视频表征是视频检索系统的首要环节.其中,高层语义特征能够部分反映视频的语义内容,更加接近人类的认知习惯.考虑到同类视频的语义共性,我们可以简单地使用视频主题对其进行索引,例如使用“篮球”、“足球”、“网球”等体育主题来索引体育视频.此类主题可以理解为视频的基本语义内容.具有相似语义内容的两段视频通常包含相似的图像,视频内容的相似程度往往取决于相似图像的重合程度,即各段视频引用某一特定典型图像集合的频率.如果此典型图像集合中的每帧图像都承载着某一预先标定的主题,那么就可以设法计算出这段视频属于各个主题的概率.根据这一思路,我们定义了一种新型的高层语义特征—语义直方图用以反映视频的主题.该特征根据语义匹配策略生成,具体提取过程分为如下四个阶段:训练集生成,模型集生成,语义匹配和语义直方图提取.1.1.1训练集生成训练集是生成模型集的基础并为整个语义匹配过程提供监督信息,因此应具备如下条件:1)训练样本的主题需要人工标注;2)训练样本应为数据库的一个规模相对较小的子集;3)在当前底层特征描述能力允许的前提下,训练集应涵盖尽可能多的主题.由于底层特征的描述能力有限,主题对于同种运动的不同场景并不鲁棒.这就意味着,如果要使用户能够检索任意体育查询,那么对应于每种运动的每类场景,训练集都应该至少包含一个此类样本.然而,本节所关注的并不是底层特征,而是一种学习语义信息的通用方法.所以,我们对一种体育主题暂时只选取单一场景的视频来构建数据库,使得当前底层特征工作良好.构造语义集SS 来涵盖数据库中的全部语义主题;再从数据库中为SS 中的每一主题选择少量典型视频;最后提取所有选定视频的每帧图像的底层特征组成训练集TSSS ={Topic t },t =1,···,L (1)TS ={x i ,Topic x i },i =1,···,V(2)其中,Topic t 表示一个主题,L 表示数据库中的主题总数,x i 表示承载主题Topic x i ∈SS 的图像帧的底层特征向量,V 是训练样本数.显然,属于同一段视频的不同帧特征x i 具有的主题Topic x i 是相同的,所以V 远大于L .1.1.2模型集生成训练集TS 涵盖了数据库中所有的主题,每一主题又包含大量的图像帧作为训练样本.此时我们希望找到一个更加简洁的集合,在该集合中的每一主题只由少量典型图像来代表.模型集就是这样的10期李华北等:基于语义匹配的交互式视频检索框架1245一个集合,其中每个模型表示一个从TS中提炼出的具有代表性的底层特征向量同时承载某一特定主题.所以模型集MS可视为对训练集甚至整个数据库的精炼,作为后续语义匹配的模版MS={m i,Topic m i},i=1,···,T(3)其中,m i表示第i个模型,Topic m i∈SS表示该模型的主题,T为模型总数.由于某一主题由若干模型表征,显然T也大于L.我们改进了竞争学习算法[13],通过如下步骤生成模型集.步骤1.初始化.设定模型数远远小于训练样本数,即T V;模型初始为零向量.步骤2.选择目标模型.每次迭代时,从TS中随机选择一个训练样本x k,根据下式从当前模型集MS中找到与x k最匹配的模型m i∗x k−m i∗ < x k−m i ,i=1,···,T,i=i∗(4)步骤3.更新主题.m i∗和x k之间具有最大的相似度表明它们很可能具有相同的主题.因此,将目标模型m i∗的主题直接更新为Topic m∗i=Topic x k(5)步骤5.更新模型.根据下式更新选定的目标模型m i∗m i∗(j+1)=m i∗(j)+l(j)(x k−m i∗(j))(6)其中,j表示当前迭代次数;J和l(0)分别表示最大迭代次数和初始学习步长;l(j)为当前的学习步长,按下式单调下降l(j+1)=l(0)1−jJ(7)1.1.3语义匹配语义匹配是将给定视频的每帧图像映射到模型集上,从而得到最佳匹配主题序列.如图2(N=3)所示,匹配过程分为三个步骤.首先,为给定视频的每帧图像提取底层特征,将视频帧序列转化为底层特征序列;然后,从模型集中为每帧图像找出与其底层特征向量最匹配的N个特定模型,这样又将一条底层特征序列转化为N条最佳匹配模型序列;最后,根据每个模型的主题将N条最佳匹配模型序列映射为N条最佳匹配主题序列,从中即可提取语义直方图.1.1.4语义直方图从N条最佳匹配主题序列中,定义语义直方图(SMH)的特征向量如下SMH=[(Topict ,p t)],t=1,···,L(8)图2语义匹配过程,N=3Fig.2Process of semantic matching,when N=3其中,Topict表示语义集SS中的一个主题,p t表示该视频属于主题Topict的概率.S M H具有如下优点:1)较低的特征维度.S M H的维度等于主题数L,通常不大;2)明确的物理意义.S M H的每一维表示该视频属于相应主题的概率,因此对应于S M H峰值的主题即可作为该视频的最相关主题标记;3)稀疏性.一段视频通常只与有限数目的主题有关,因此S M H通常是稀疏的.其稀疏性节约了存储空间同时降低了匹配的计算复杂度.1.2基于非监督学习的检索机制本节中,我们采用主导集聚类算法[14]建立基于非监督学习的检索机制.通过离线聚类,该机制能够达到较低的在线计算复杂度,同时实现对数据库更为有效的管理.主导集聚类算法是一种新型的基于图理论的聚类方法,可以获得较高的聚类质量并且自动确定聚类个数.主导集聚类的实现主要分为以下两个阶段:邻接矩阵表示和二次优化问题求解.1.2.1邻接矩阵表示将视频数据库看作一个无向边权图G=(V,E),V中的一个节点表示一段视频,E中的一条边连接一组视频对.将一组视频对间的相似度定义为这条边的权值.计算邻接矩阵A=[Sim ij]来代表整个边权图G,其中Sim ij表示视频对的相似度.邻接矩阵计算是一个相当耗时的过程,正是该过程的离线执行有效地减少了在线计算的复杂度.1.2.2二次优化问题求解主导集聚类算法等价于如下二次问题max f(u)=u T Au u(9)s.t.u∈∆=u∈R N|u i≥0andNi=1u i=11246自动化学报34卷式(9)的局部最优解u∗可由如下方程得到u i(p+1)=u i(p)(Au u(p))iu(p)T Au(p)(10)其中,p是当前迭代次数.主导集定义为局部最优解u∗中正分量的标号集:将属于已有主导集的节点从当前图中删除得到新图G ,重新生成邻接矩阵的子矩阵A ;重复求解二次优化问题直至图为空.对整个数据库进行离线聚类后,基于非监督学习的查询策略包括以下步骤:计算每个聚类的聚类中心及方差;将方差较小的聚类标记为可靠聚类,将方差较大的聚类重新拆分为自由样本;计算查询向量与各可靠聚类中心的相似度,并找到若干相关聚类;将相关聚类和自由样本组成目标子库;重新计算查询向量和目标子库中样本的相似度;对目标子库排序并返回结果.该策略大大减少了相似度计算和比较的次数,从而达到降低在线计算复杂度的目的.1.3基于语义的分支反馈机制传统的相关反馈技术[8−9]往往独立于具体的特征提取,具有单一的反馈结构,并且较少考虑对象的高层语义内容.针对上述问题,本节建立了新型的交互机制—基于语义的分支反馈(Semantic-based relevance feedback,SBRF).该机制与语义直方图(SMH)配合使用,具有独特的分支结构,通过在线补偿监督信息来校正SMH所标记的不恰当的语义主题,进而提升系统的检索性能.1.3.1分支反馈结构使用语义直方图进行检索时,查询向量SMH Q 能否给出正确的主题标记至关重要.错误的查询向量主题,可能导致很差的检索结果.因此,本节设计了分支反馈结构用于处理不同的查询主题情况.图3对用户的反馈信息进行分析,图中每个立方体代表一段视频,其中的文字表示该视频的真实主题,视频上方带箭头的方框表示其SMH给出的主题列表.显然,检索新查询请求时,系统只能依靠方框中SMH所提供的信息,而并不知道视频的真实主题.因此在交互过程中,用户在标记反馈正负样本的同时,还应该告知检索系统查询向量的初始主题和其真实主题是否一致.在图3(a)中,一段“足球”查询具有正确的主题“Soccer”.所以用户标记的反馈正例必定是一组带有“Soccer”主题标记的“足球”视频,而被错误标记为“Soccer”的“非足球”视频成为反馈负例.图3(b)给出了“足球”查询被错误标记为“Golf”的情况.此时的正例就是同样被错误标记为“Golf”的“足球”视频,而负例为具有“Golf”主题的“非足球”视频.图4为分支反馈结构,其中查询向量是否具有正确的主题决定了迭代更新的过程.更新过程包括修改操作和加强操作两部分.正确的查询主题,意味着反馈正例的SMH向量较为可靠,而负例的SMH不可靠,例如图3(a)中的情况.此时,我们就应该修改不可靠的负例向量同时加强可靠的查询向量和正例向量.相反情况时,修改查询向量和正例向量同时适当加强负例向量.(a)正确的查询主题(a)Good querytopic(b)错误的查询主题(b)Bad query topic图3对于用户反馈信息的分析Fig.3Analyses of users feedback for a“Soccer”query图4分支反馈结构Fig.4Branched structure for relevance feedback1.3.2分支更新策略根据上述更新原则,本节给出具体的分支更新策略如算法1所示.其中V Q、V P和V N分别表示查询请求、反馈正例和反馈负例的SMH向量.设Size为向量的维度,Inc1∼Inc3为增量常数.由于图3(a)中查询向量和正例向量的峰值主题(Soccer)得到了用户充分肯定,所以可以将Inc1和Inc2设为较大值,使得算法1(a)中的V Q[P eak P osition]10期李华北等:基于语义匹配的交互式视频检索框架1247和V P[P eak P osition]在加强操作和归一化后趋近于1;相比之下,图3(b)中负例向量的峰值主题(Golf)仅得到用户的间接肯定,因此设置相对小的Inc3使得算法1(b)中的V N[P eak P osition]缓慢增大.算法1分支更新策略(Branched updating strategies)(a)对于正确查询主题的更新策略1(Strategy1for a goodquery topic)1)定位:找到查询向量V Q的主题位置P eak P osition,使得对于任意i=P eak P osition有V Q[P eak P osition]≥V Q[i].2)修改:V N.V N[P eak P osition]=0;3)加强:V Q,V P.a)V Q[P eak P osition]=V Q[P eak P osition]+Inc1;b)V P[P eak P osition]=V P[P eak P osition]+Inc2.4)归一化并保存更新后的V Q,V P和V N.(b)对于错误查询主题的更新策略2(Strategy2for a badquery topic)1)定位:同上.2)修改:V Q,V P.a)V Q=V Q+PV Pb)V Q[P eak P osition]=V P[P eak P osition]=0;3)加强:V N.V N[P eak P osition]=V N[P eak P osition]+Inc3.4)归一化并保存.图4的分支反馈结构和算法1的分支更新策略构成了基于语义的分支反馈机制(SBRF),其具备如下特点:1)具有独特的分支结构用于处理不同的查询情况;2)充分利用了反馈正例和反馈负例,并同时更新反馈样本和查询向量;3)与视频高层特征SMH相互配合,从SMH中获得视频初始主题并对错误主题进行更新;4)随着越来越多的用户参与交互,SBRF能够不断积累交互所带来的性能提升而无需记录完整的反馈历史数据;5)经过足够多次交互,算法最终收敛于正确的查询主题.2实验结果及分析本节通过实验程序—“CBVR System”来实现上述检索框架.实验时我们构建了自己的体育视频数据库.该数据库目前包括1024段视频对象,分为32类体育运动主题,每类主题包含32段视频.每段视频长度大约10秒钟,可视为一个镜头.整个数据库总共包含大约200000帧图像,在这个数据库上我们成功进行了如下实验内容.实验数据均在Pentium IV2.80G的微机上测量.2.1使用语义直方图的检索效果底层特征是语义直方图提取的基础,实验中我们暂时选用颜色相关图[15],后续工作会加入更多图像描述子如(纹理、形状等)以丰富底层帧特征的描述能力.另外,提取视频序列特征T-bin直方图(TBH)[6]用于对比实验.表1给出了各类特征的维度和提取时间.语义直方图的维度为数据库中主题数,远小于T-bin直方图的维度.特征提取为离线操作,所以提取时间并不影响在线检索的实时性.表2给出了使用TBH和SMH检索的平均性能对比.查全率、查准率根据前16段返回结果进行计算(此时最高查全率为50%).结果数据为处理50段查询的平均值.使用TBH检索的查准率仅为66.83%,平均耗时1.237s;相比之下,SMH将初始查准率提高到了86.35%,而平均检索时间仅为0.1s.实验结果表明语义直方图具有良好的检索性能.表1特征提取参数Table1Parameters of feature extraction 层次底层特征序列特征语义特征特征颜色相关图T-bin直方图语义直方图维数19240032提取时间约10h64s93s表2使用TBH和SMH检索的平均性能比较Table2Comparison of average precision for retrievalusing SMHs and TBHs平均查准率(%)平均查全率(%)检索时间(s)使用TBH检索66.8333.42 1.237使用SMH检索86.3543.180.1002.2非监督学习检索机制的性能采用主导集聚类算法进行非监督学习时,需要注意以下两个实际阈值问题,迭代终止阈值(IeT)和分离阈值(SoT).2.2.1迭代终止阈值求解式(9)的二次优化问题时,式(10)迭代终止当且仅当u i(p+1)=u i(p)对每个i成立.实际上,满足此条件是相当耗时甚至是不可能的.实验中,我们设定迭代终止阈值IeT,定义了如下基于阈值的终止条件:error(p+1)=|u i(p+1)−u i(p)|表示p+1次迭代后的误差和;Error error(p+1)= |error(p+1)−error(p)|表示两次迭代间误差和的减少量.当误差和减少量小于IeT时,则迭代终止.2.2.2分离阈值主导集定义为局部最优解正分量的标号集,即DS u∗={i:u∗i>0}.然而实验中发现,局部最优解u∗中存在三类分量:零分量,不属于本聚类;较大分量,构成真实的聚类;极小分量,通常为被误分类的类外无关点.因此,我们引入分离阈值代替上式中的“0”,用来滤除极小的类外无关点.这样,主导集的定义修改为:DSu∗={i:u∗i>SoT}.1248自动化学报34卷确定适当的阈值之后,使用TBH和SMH对整个数据库进行非监督学习.表3给出了聚类结果.其中,迭代终止阈值IeT决定聚类质量和聚类时间,而聚类数目主要受分离阈值SoT影响.随着IeT的减小聚类时间延长;随着SoT的增大聚类数目增多.表3聚类结果Table3Clustering resultsIeT SoT聚类时间聚类数目编号使用TBH的聚类结果10−1110−603min24s191 10−1110−2012min16s572 10−1410−603min35s113 10−1410−2014min24s1114使用SMH的聚类结果10−810−2061s235 10−810−102min11s726 10−1110−208min7s347 10−1110−1024min5s1328表4为直接检索和非监督学习检索性能比较(非监督学习检索选用4号和8号聚类结果).相比于直接检索,基于非监督学习的检索在不影响检索效果的情况下,可将检索时间缩短到原来的40%左右,大大提高了检索效率.表4直接检索和非监督学习检索性能比较Table4Comparison between direct retrieval and unsupervised-learning-based retrieval 检索机制特征查准率(%)查全率(%)检索时间(s)直接检索使用TBH66.8333.42 1.237使用SMH86.3543.180.100非监督学习检索使用TBH66.5233.260.542使用SMH86.8043.400.0392.3基于语义的分支反馈机制的效果每次交互中,用户需要完成两项操作:1)通过选择界面中的“Right Topic”或“Wrong Topic”来评估查询向量的主题;2)通过拖动视频下方的滑动条来标记反馈样本.图5给出了SBRF对于一个错误查询主题的反馈效果.在图5(a)中,一段“体操”查询被错误的标记为“American Football”,导致了极差的检索效果.即使前两段视频为相关结果,也是因为它们具有同样的错误标记.通过SBRF后如图5(b)所示,查询主题得以校正,检索结果得到显著提高.表5给出反馈前后的性能比较,其中当返回16段结果时SBRF将查准率提高到95.83%;当返回48段时,将查全率提高到91.25%.图6为使用SMH检索经过SBRF前后的查全率—查准率曲线.图中每条曲线包含12个坐标点,分别表示返回视频数量从4增大到48时的查全率和查准率.如表5和图6所示,SBRF通过较少次交互就达到了显著的性能提升.(a)反馈前检索结果(a)Initial retrievalresult(b)反馈后检索结果(b)Result after SBRF图5SBRF对于错误查询主题的反馈效果Fig.5Effect of SBRF for a wrong query topic表5反馈前后的性能比较Table5Comparison before and after SBRF结果数反馈前(%)反馈后(%)查准率查全率查准率查全率492.5011.5610012.50 1686.3543.1895.8347.92 3279.0679.0684.6984.69 4856.6785.0160.8391.25图6使用SMH检索经过SBRF前后的P-R曲线Fig.6Precision-recall graph for retrieval using SMHsbefore and after SBRF10期李华北等:基于语义匹配的交互式视频检索框架12493结论本文提出基于语义匹配的交互式视频检索框架,主要贡献在于将新的视频特征、检索机制和反馈技术集成为一套新型的基于内容的视频检索框架.其中,语义直方图依据监督信息通过语义匹配策略,标记视频可能所属的主题,挖掘视频的基本语义内容;基于非监督学习的检索机制可获得较低的在线计算复杂度和较高的检索效率;基于语义的分支反馈技术采用分支反馈结构和分支更新策略来校正不恰当的视频主题,提高检索性能.以上结论均已得到实验验证,并为我们今后进一步工作铺平了道路.References1Zhang S H,Zhang Y F,Chen T,Hall P M,Ralph Martin.Video structure analysis.Tsinghua Science and Technology, 2007,12(6):714−7182Shi L,King I,Lyu M R.Video summarization by video structure analysis and graph optimization.In:Proceedings of IEEE International Conference on Multimedia and Expo-sition.Taipei,Taiwan:IEEE,2004.1959−19623Chang H S,Sull S,Lee S U.Efficient video indexing scheme for content based retrieval.IEEE Transactions on Circuits and Systems for Video Technology,1999,9(8):1269−1279 4Dimitrova N,Abdel M M.Content-based video retrieval by example video clip.In:Proceedings of International Society for Optical Engineering.New York,USA:SPIE,1997.59−70 5Wu Yi,Zhuang Yue-Ting,Pan Yun-He.Video similarity measurement.Journal of Computer-Aided Design and Com-puter Graphics,2001,13(3):284−288(吴翌,庄越挺,潘云鹤.计算机辅助设计与图形学学报,2001, 13(3):284−288)6Muneesawang P,Guan L.iARM:an interactive video re-trieval system.In:Proceedings of IEEE International Con-ference on Multimedia and Exposition.Taipei,Taiwan: IEEE,2004.285−2887Eidenberger H,Breiteneder C.Semantic feature layers in content-based image retrieval:implementation of human world features.In:Proceedings of the7th International Conference on Control,Automation,Robotics and Vision.Washington D.C.,USA:IEEE,2002.174−1798Kim D H,Chung C W.Qcluster:relevance feedback us-ing adaptive clustering for content-based image retrieval.In: Proceedings of the2003ACM SIGMOD International Con-ference on Management of Data.San Diego,USA:ACM, 2003.599−6109Rui Y,Huang T S.Optimizing learning in image retrieval.In:Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Hitton Head Island,USA:IEEE, 2000.236−24310He X F,King O,Ma W Y,Li M J,Zhang H J.Learninga semantic space from user s relevance feedback for imageretrieval.IEEE Transactions on Circuits and Systems for Video Technology,2003,13(1):39−4811Heisterkamp D R.Building a latent semantic index of an im-age database from patterns of relevance feedback.In:Pro-ceedings of the16th International Conference on Pattern Recognition.Washington D.C.,USA:IEEE,2002.134−137 12Lu Y,Hu C H,Zhu X Q,Zhang H J,Yang Q.A unified framework for semantics and feature based relevance feed-back in image retrieval system.In:Proceedings of the8thACM International Conference on Multimedia.California, USA:ACM,2000.31−3713Kohonen T.Self-Organizing Maps.Berlin:Springer-Verlag, 199714Pavan M,Pelillo M.A new graph-theoretic approach to clus-tering and segmentation.In:Proceedings of IEEE Com-puter Society Conference on Computer Vision and Pattern Recognition.Los Alamitos,USA:IEEE,2003.145−15215Huang J,Kumar S R,Mitra M,Zhu W J,Zabih R.Image indexing using color correlograms.In:Proceedings of IEEE International Conference on Computer Vision and Patten Recognition.Washington D.C.,USA:IEEE,1997.245−268李华北中国科学院自动化研究所硕士研究生.2005年获得浙江大学控制系自动化专业学士学位.主要研究方向为多媒体信息检索技术.本文通信作者.E-mail:hbli@(LI Hua-Bei Master student at Na-tional Laboratory of Pattern Recogni-tion,Institute of Automation,Chinese Academy of Sciences.He received his bachelor degree from Zhejiang University in2005.His research interest covers multimedia information processing and retrieval.Corre-sponding author of this paper.)胡卫明博士.中国科学院自动化研究所模式识别国家重点实验室研究员.主要研究方向为视频信息处理与网络信息安全识别.E-mail:wmhu@(HU Wei-Ming Professor at Na-tional Laboratory of Pattern Recogni-tion,Institute of Automation,ChineseAcademy of Sciences.His research in-terest covers video information processing and recognition of network information security.)罗冠博士,中国科学院自动化研究所模式识别国家重点实验室助理研究员.分别于1998年、2001年及2004年在西北工业大学电子与信息学院获得工学学士、硕士及博士学位.2004年6月赴香港城市大学创意媒体学院从事博士后研究工作.主要研究方向为互联网内容安全视频数据挖掘模式识别和机器学习. E-mail:gluo@(LUO Guan Assistant professor at National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences.He received his bachelor,master,and Ph.D.degrees from Northwestern Polytechnical University in1998,2001,and2004,respectively.He worked as a senior research associate in City University of Hong Kong from June2004to August2005.His research interest covers web content analysis,video data mining,pattern recognition, and machine learning.)。