当前位置：文档之家› 基于内容的视频镜头边界检测与关键帧提取研究

基于内容的视频镜头边界检测与关键帧提取研究

第一章绪论 (1)

1.1研究背景及意义 (1)

1.2国内外研究现状 (2)

1.3论文的研究内容及结构安排 (4)

第二章基于内容的数字视频检索关键技术 (7)

2.1视频数据分析 (7)

2.1.1视频数据内容特点 (7)

2.1.2视频数据的结构化分析 (7)

2.2视频检索中的关键技术 (8)

2.2.1系统框架 (8)

2.2.2特征提取及相似度计算 (9)

2.2.3镜头边界检测技术 (11)

2.2.4关键帧提取技术 (14)

2.3本章小结 (18)

第三章改进的双阈值镜头边界检测方法研究 (19)

3.1非压缩域内的镜头边界检测方法 (19)

3.2压缩域内的镜头边界检测方法 (24)

3.3改进的双阈值镜头边界检测方法 (26)

3.3.1特征提取 (26)

3.3.2帧间差的计算 (26)

3.3.3改进的双阈值镜头边界检测方法 (27)

3.3.4实验结果及分析 (28)

3.4本章小结 (32)

第四章分块直方图和全局直方图相结合的关键帧提取方法研究 (35)

4.1颜色直方图 (35)

4.1.1分块颜色直方图 (36)

4.1.2全局颜色直方图 (36)

4.2关键帧提取步骤 (37)

4.3实验结果及分析 (38)

4.4本章小结 (41)

第五章基于颜色特征和轮廓特征相结合的关键帧提取方法研究 (43)

5.1视频特征提取 (43)

5.1.1基于区域分割的特征提取 (43)

5.1.2颜色特征提取 (44)

5.1.2轮廓特征提取 (46)

5.2特征结合及相邻帧间相似度的计算 (46)

5.2.1特征向量结合及其归一化 (46)

5.2.2帧间相似度的计算 (47)

5.3阈值的计算 (48)

5.4本文特征提取方法的主要流程 (48)

5.5实验结果及分析 (49)

5.6本章小结 (54)

第六章总结和展望 (55)

参考文献 (57)

攻读学位期间所取得的相关科研成果 (61)

致谢 (63)

第一章绪论

1.1研究背景及意义

近年来，随着多媒体技术以及互联网技术的不断发展、推广和应用，人们正在快速进入信息化时代，从文本、图像到广播、视频，越来越多的信息发布方式正在逐步走进人们的生活[1]。尤其在多媒体信息存储、传输技术取得突破性进展下，人们可以随时随地进行如新闻浏览、视频点播、网络购物、在线教育等活动。然而，人们在享受这些丰富多彩的多媒体信息同时，还体会到信息爆炸问题带来的诸多烦恼[2]。在繁杂的多媒体信息中，视频数据不仅包含很大信息量，而且直观生动，在多媒体数据中所占比重日渐凸显。

视频检索就是从海量视频数据中检索到用户所需的视频片段[3]，体现了视频数据库最基本的功能，如若忽视视频数据的有效组织管理，将会造成大量有效信息淹没于视频数据库内，从而导致资源浪费情况的出现[4]，所以说有关视频检索技术的探求不可或缺。如何快速且高效的管理、检索这些海量的视频数据逐渐成为科研人员的研究热点。

视频数据承载了丰富的信息内容，通常它包含了文本、图像、声音等信息[5]。最初的信息检索是基于人工注释的文本检索方法，主要针对单纯的文本进行操作，而并没有将图像、音频、视频等多媒体数据考虑在内。这种基于文本数据库的检索方法不仅有很强的主观性，难以准确表达视频信息，同时还会消耗大量的人力物力，很难应用于大规模视频数据集合中[6]。面对日益增多的抽象性视频数据，传统的基于人工注释的文本方法根本无法满足人们对视频数据的检索需求，这使得针对视频数据的检索和管理系统的研究成为一个具有重要意义的研究课题。

科研人员在不断寻一种可以方便快捷的处理视频数据并产生数据摘要的信息检索方法，从而灵活有效的组织、查询视频数据。计算机技术的飞速发展为克服传统方法带来的问题提供了可能，基于内容的视频检索(CBVR)技术应运而生[7]。它有效利用视频数据中的各类动态及静态特征等信息，成为解决视频检索难题的有效方案[8]。

基于内容的视频检索技术适用领域广泛，支持用户自由操纵、处理各类多媒体数据信息，如今已渗透至军事科技、医疗卫生、农业生产、娱乐教育、交通管理、公共事业管理、机械制造加工等诸多领域[9]。在医疗卫生业，用于诊断的医学病理图像日趋增多，利用基于内容的视频检索技术对其进行管理检索，可以有效辅助医生进行诊

-1-