基于马尔可夫随机场的运动目标检测
- 格式:pdf
- 大小:317.45 KB
- 文档页数:3
基于条件随机场的目标检测与识别技术研究目标检测与识别技术是计算机视觉领域中的重要研究方向,其在实际应用中具有广泛的应用前景。
基于条件随机场的目标检测与识别技术是近年来受到广泛关注的一种方法。
本文将对基于条件随机场的目标检测与识别技术进行深入研究,探讨其在实际应用中的优势和挑战。
一、引言近年来,随着计算机视觉领域的快速发展和深度学习技术的兴起,目标检测与识别技术在图像处理、视频分析、自动驾驶等领域得到了广泛应用。
目标检测与识别是计算机视觉中最基础和关键的任务之一,其主要任务是在图像或视频中准确地定位和识别出感兴趣物体。
二、条件随机场概述条件随机场(Conditional Random Fields, CRF)是一种概率图模型,常用于对序列数据进行建模和分析。
CRF通过对输入数据建立联合概率分布模型来实现对序列数据进行建模,并通过学习得到最优参数以提高模型性能。
三、基于条件随机场的目标检测与识别技术基于条件随机场的目标检测与识别技术主要包括以下几个步骤:特征提取、特征选择、模型训练和目标检测与识别。
特征提取是目标检测与识别技术中的关键步骤,其主要任务是从原始图像中提取出能够表征目标特征的高维特征向量。
常用的特征包括颜色、纹理、形状等。
在基于条件随机场的目标检测与识别技术中,通常采用卷积神经网络(Convolutional Neural Network, CNN)等深度学习方法进行特征提取。
特征选择是为了减少维度和消除冗余信息,从所有可能的特征中选择出最具有区分度和代表性的一组特征。
常用的方法包括信息增益、互信息等。
模型训练是指根据已有数据集,通过学习得到最优参数以提高模型性能。
在基于条件随机场的目标检测与识别技术中,通常采用最大似然估计(Maximum Likelihood Estimation, MLE)或最大后验概率估计(Maximum A Posteriori Estimation, MAP)等方法进行模型训练。
对码本模型中码字结构的改进李文辉;李慧春;王莹;姜园媛;孙明玉【摘要】针对码本结构,提出一种简化算法.该算法通过将码字元组中判断该码字是否冗余的元素——最大未使用时间改为由元组的其他变量直接计算而不存储在码字中,去除了该变量所占用的空间,将6元组替换为5元组.实验结果表明,该改进不会对运动目标检测增加额外计算,准确性和实时性不受影响,并可减少码本模型占用的内存.%The codeword space was reduced according to calculating the longest interval so that codeword is never recurred by other variable in tuple, and the interval is not stored in codeword, thus 6-tuple based codeword is replaced by 5-tuple. The experimental result shows that the new codebook model is as fast and accurate as the original model. Moreover, the memory space demanded is reduced.【期刊名称】《吉林大学学报(理学版)》【年(卷),期】2012(050)003【总页数】6页(P517-522)【关键词】运动目标检测;码本模型;码字结构;5元组码字【作者】李文辉;李慧春;王莹;姜园媛;孙明玉【作者单位】吉林大学计算机科学与技术学院,长春130012;吉林大学计算机科学与技术学院,长春130012;吉林大学计算机科学与技术学院,长春130012;吉林大学计算机科学与技术学院,长春130012;吉林大学计算机科学与技术学院,长春130012【正文语种】中文【中图分类】TP391.4视频图像的运动目标检测是智能视频监控系统中最基本、最重要的技术. 提取运动目标较普遍的方法是背景相减法. 该方法的原理是将当前帧与背景模型做比较, 如果同位置的像素特征、像素区域特征或其他特征存在一定程度的相似性, 则当前帧这些位置的像素点或区域是背景, 其他区域构成前景运动目标区域[1].码本算法是Chalidabhongse和Kim等[2-3]提出的建立背景模型的方法. 码本的思想是:根据每个像素点连续采样值的颜色距离和亮度范围将背景像素值量化后用码本表示, 然后利用背景相减法的思想把新输入像素值与该点对应的码本做比较判断, 从而提取出前景运动目标.由于码本方法具有对复杂环境适应性强, 实时性好的优点, 因此在智能视频监控中作为运动目标检测方法得到广泛应用. 进一步, Kim等[4]又在码本算法中加入了两个重要改进----层次建模和自适应码本的更新, 增强了码本模型适应光线缓慢变化、场景物体运动等动态变化环境的能力. 在改善检测性能方面, 引入Markov随机场的码本模型在动态背景中能更有效地提取前景[5]. 把码本方法和HSV阴影去除方法相结合的“锥体-柱体混合”码本模型, 能消除阴影和强光对前景提取的影响[6]. 文献[7]提出的块均值码本模型(BMCB)和文献[8]提出的块和像素级连的码本模型都考虑了像素与其邻近像素的关系, 在复杂环境中可获得更准确的运动目标. 在提高码本算法的实时性方面, 文献[9]根据经验值设置每个码字长度的上限, 可减小码本算法对内存的需求; 文献[10]提出基于“盒子”的码本模型, 比Kim等[3]的码本算法计算量更少, 实时性更好.目前, 多数对码本算法的改进都关注于改善码本模型的检测效果和提高算法实时性两方面, 对于码字结构的改进却很少关注. 本文在不改变Kim等所提出约束条件的前提下, 对码字结构进行改进, 去除了码字中表示最大未使用时间的元素. 对码字结构的简化可减少码本模型的内存开销, 且不影响运动目标检测的准确性与实时性.1 码本背景模型描述1.1 构建像素码本假设训练阶段单个像素的采样值序列为X={x1,x2,…,xN}, X中的每个元素都是RGB向量, 训练帧数为N. 设C={c1,c2,…,cL}为该像素的码本, 码本中含有L个码字. 每个像素码本中的码字个数由采样值的变化情况决定. Kim等[3]提出的码字ci(i=1,2,…,L)包括两部分: RGB向量和6元组其中:和分别表示码字中的最小和最大亮度值; fi表示码字出现的频率;λi表示该码字没有出现的最大时间间隔;pi和qi分别表示码字第一次出现和最后一次出现的时间.训练阶段每个采样值xt(1≤t≤N)都和已有的码字进行比较. 找到(如果存在)最匹配的码字cm, 并对该码字进行更新;如果找不到匹配码字, 则为其创建一个新的码字存入码本中. 码本提取过程如下.算法1 构建像素码本.1) C ← Ø, L ← 0;在集合C={ci,1≤i≤L}中根据以下条件找到与xt匹配的码字cm:为采样阈值;如果C=Ø或无匹配, L ← L+1, 产生一个新的码字cL:vL←(R,G,B), auxL←〈I,I,1,t-1,t,t〉;(1)否则更新匹配的码字cm:end for;3) 消除冗余的码字. 对于ci(i=1,2,…,L):temp λi←max{λi,N-qi+pi-1};(4)初始码本为:M←{ckck∈C∧temp λk<Tλ}, k为码字的索引 //阈值Tλ常取训练帧数的一半, 即Tλ=N/2.1.2 颜色和亮度计算颜色距离和亮度范围的公式如下:其中α(α<1)和β(β>1)是限定亮度变化范围的因子, 通常取0.4≤α≤0.7, 1.1≤β≤1.5.1.3 用码本检测运动目标码本背景模型建立后, 可直接使用背景相减法获得运动目标. 利用码本方法检测x是否属于运动目标的算法过程BGS(x)如下.算法2 运动目标提取.2) 在M中根据以下条件寻找与x匹配的码字:colordist(x,vi)≤ε2,算法2中, ε2是检测阈值, 通常ε2>ε1.1.4 码本模型的更新初始训练后, 场景可能会发生变化. 如在街道上, 交通工具会进入或离开停车场. 此外, 光照变化也会导致背景的变化. 为了码本模型的更新, Kim等[3]引入了缓存码本, 缓存码本中的码字和背景码本中的码字结构相同. 码本的动态更新过程如下.算法3 码本模型更新.1) 训练结束后, 获得背景码本M, 建立缓存码本M′;2) 对于新像素, 在M中寻找匹配码字, 如果找到, 更新该码字;3) 如果没有找到, 在M′中寻找匹配码字并更新. 如果M′中没有匹配, 则建立新码字h, 并插入到M′中;4) 根据TM′精简M′, 即M′←M′-{hk′hk′∈M′, λk′>TM′};(7)5) 将在M′中停留足够时间的码字移到M中, 即M←M+{hk′hk′∈M′, fk′>Tadd};(8)6) 从M中删除超过一定时间未被匹配的码字, 即M←M-{ckck∈M, λk>TM}.(9)2 对码字结构的改进2.1 理论分析元素λi的作用是在训练结束和码本更新时作为删除冗余码字的依据. 训练过程中, λi的更新公式如下:λi=max{λi,t-qi}.(10)令λ′=t-qi,(11)则λ′表示码字再出现时未使用的时间, 由式(10)可见, λi是训练过程中最大的λ′. 精简码本时, 如果码字最后的λi≥Tλ, 则为冗余码字, 需要删除. 事实上, 并不需要找到λ′的最大值. 如果码字在t时刻, 已有λ′≥Tλ, 即可认为该码字为冗余的.同理, 在码本模型的更新中, 也不需要根据码字的最大未使用时间删除冗余码字. 如果背景码本M中码字的未使用时间超过TM, 或缓存码本M′中码字的未使用时间超过TM′, 则认为该码字可被删除.2.2 算法实现在去除表示码字最大未使用时间所占用的空间后, 还可以进一步减少训练过程所用时间:背景码本中的码字一定是在前Tλ帧中第一次出现的, 在后Tλ帧中才出现的码字一定不会是背景码本中的码字. 这是因为新码字建立时, 按式(1), λ=t-1, t为当前的时间, 即码字最大未使用时间λ的初值为码字第一次出现的时间减1, 在以后的训练过程中, λ的值不会小于该初值. 如果λ≥Tλ, 则训练结束后, 该码字也会被当作冗余码字去除.因此, 设码字结构中auxi为五元组:算法步骤如下.算法4 改进后的算法过程.1) for t=1 to Tλdo寻找和xt匹配的码字, 如果存在更新该码字;如果不存在建立新的码字;end for;2) for t=Tλ+1 to N do寻找与xt匹配的码字cm, 如果t-qm≥Tλ, 删除该码字;否则更新该码字;不为新出现的像素建立码字;end for;3) 训练结束后, 精简码本M←{ckck∈C∧(N-qk+pk-1)<Tλ},(12)k为码字的索引;4) for t>N to end do检测运动目标, 更新匹配的码字;更新码本:M′←M′{hk′hk′∈M′, t-qk′>TM′},M←M+{hk′hk′∈M′, fk′>Tadd},M←M-{ckck∈M, t-qk>TM}.算法4中k和k′为码字的索引. 为了提高码本算法的效率, 步骤4)中更新码本时可以隔一定帧数进行一次码本的更新, 如10帧, 即不必每帧都更新码本.3 实验结果与分析为了验证应用本文方法所建的模型占用内存空间少、并能有效地检测运动目标、实时性较Kim等[3]提出的方法好, 本文在微软公司及IBM公司提供的测试视频库上进行了测试, 所用机器配置为:双核CPU, 频率2.8 GHz, 1 G内存, 环境为VC++. 实验分为三部分:检测精度、处理时间及存储空间的对比. 实验中使用的相关数据如下:α=0.6, β=1.3, ε1=20, ε2=23.图1 运动目标检测实验效果Fig.1 Experimental results of motion detection 3.1 检测精度的对比图1为从两个视频中捕获的帧图像检测实验结果, 分别为人物视频和车辆视频.由图1可见, 本文方法和Kim等[3]提出的码本算法检测结果基本一致. 为了定量比较本文算法和码本算法的性能差异, 分别计算了图1中两帧图像的错误前景点率(FP rate)、正确前景点率(TP rate)和精度(Precision)[11-13], 各项指标计算方法如下:FP rate=, TP rate =, Precision=,(13)其中: fp表示错误前景点数; tp表示正确前景点数; fn表示错误背景点数; tn表示正确背景点数; (fp+tn)表示真实前景图像中的背景点总数; (tp+fn)表示真实前景图像中的前景点总数. 计算结果列于表1.表1 性能参数对比Table 1 Performance parameters comparison视频FP rate 码本算法本文算法TP rate码本算法本文算法Precision码本算法本文算法人物视频0.079 20.072 70.990 80.990 60.846 00.856 7车辆视频0.006 20.003 70.849 10.849 10.566 80.689 3由表1可见, 本文方法和Kim等[3]码本算法的检测结果存在一定的差异, 这是因为在码本算法中, 新像素与码本中各个码字进行匹配时, 只需找到第一个满足条件的码字即可, 并不需要遍历整个码本链表后找到最佳匹配的码字, 而各个码字之间存在交集是可能的. 排在前面的码字被匹配的机会大, 精简码本时, 留在码本背景模型中的机会也大;排在后面的码字被匹配的机会小, 所以更容易被当成冗余码字从码本中删除. 此外, 对匹配上的码字更新过程也会使码字表示的范围发生改变. 因为本文方法不为训练后半阶段出现的新像素建立码字, 并及时删除冗余码字, 所以“准冗余码字”在训练阶段不会参与匹配, 给码本中其他码字更多匹配和更新的机会.3.2 处理时间的对比针对样本视频分别计算应用本文方法和码本方法平均每帧的处理时间, 结果列于表2.表2 处理时间的对比(ms)Table 2 Processing time comparison(ms)视频训练阶段码本算法本文算法检测阶段码本算法本文算法人物视频22.752 921.521 525.883 225.189 9车辆视频18.578 317.695 921.585 319.622 0由表2可见, 本文方法的处理时间较少.3.3 存储空间的对比因为本文对码字结构改进的目的是减少码本模型所占用的内存空间, 所以分别测试了本文算法和码本算法应用在所选视频上时, 模型所占用内存的情况, 结果列于表3. 表3 内存的对比(Kb)Table 3 Memory comparison(Kb)视频码本算法本文算法人物视频4 6424 180车辆视频3 1242 812由表3可见, 改进后码本模型所占用的内存空间约减少了1/9. 实验中按浮点型占用4个字节, 整型占用2个字节计算, 导致内存使用量改变的原因是:码本算法每个码字包括5个浮点型数据和4个整型数据(f,λ,p,q), 平均每个像素处的码本包括4个码字, 所以模型所占用的空间是112个字节[4]. 本文算法的码字结构相比于Kim等[3]提出的码本算法节省了一个整型数据的空间, 每个码字所占用的空间是104个字节.综上所述, 本文改进了码本结构, 提出了一种减小码本模型所需要内存开销的方法. 该方法具有广泛的实用性, 可作为有关码本模型各种算法的补充, 在不影响其背景建模结果的前提下, 减少了内存需求.参考文献【相关文献】[1] ZHANG Jun, DAI Ke-xue, LI Guo-hui. HSV Color-Space and Codebook Model Based Moving Objects Detection [J]. Systems Engineering and Electronics, 2008, 30(3): 423-427. (张军, 代科学, 李国辉. 基于HSV颜色空间和码本模型的运动目标检测 [J]. 系统工程与电子技术, 2008, 30(3): 423-427.)[2] Chalidabhongse T H, Kim K, Harwood D, et al. A Perturbation Method for Evaluating Background Subtraction Algorithms [C]//Joint IEEE International Workshop on Visual Surveillance and Performance Evaluation of Tracking and Surveillance. Nice, France: [s.n.], 2003, 10: 11-12.[3] Kim K, Chalidabhongse T H, Harwood D, et al. Background Modeling and Subtraction by Codebook Construction [C]//2004 International Conference on Image Processing. New York: IEEE Press, 2004: 3061-3064.[4] Kim K, Chalidabhongse T H, Harwood D, et al. Real-Time Foreground-Background Segmentation Using Codebook Model [J]. Real-Time Imaging, 2005, 11(3): 172-185. [5] WU Ming-jun, PENG Xian-rong. Spatio-Temporal Context for Codebook-Based Dynamic Background Subtraction [J]. AEU-International Journal of Electronics and Communications, 2010, 64(8): 739-747.[6] Doshi A, Trivedi M. “Hybrid Cone-Cylinder” Codebook Model for Foreground Detection with Shadow and Highlight Suppression [C]//Proc IEEE International Conference on Video and Signal Based Surveillance. Washington DC: IEEE Computer Society, 2006: 19.[7] LI Qi, SHAO Chun-fu, YUE Hao, et al. Real-Time Foreground-Background Segmentation Based on Improved Codebook Model [C]//2010 3rd International Congress on Image and Signal Processing. Yantai: IEEE Xplore, 2010: 269-273.[8] GUO Jing-ming, HSO Chih-sheng. Cascaded Background Subtraction Using Block-Based and Pixel-Based Codebooks [C]//2010 International Conference on Pattern Recognition. Washington DC: IEEE Computer Society, 2010: 1373-1376.[9] ZHANG Zhao-hui, CHEN Rui-qing, LU Han-qing, et al. Moving Foreground Detection Based on Modified Codebook [C]//2009 2nd International Congress on Image and Signal Processing. Washington DC: IEEE Computer Society, 2009: 1-5.[10] TU Qiu, XU Yi-ping, ZHOU Man-li. Box-Based Codebook Model for Real-Time Objects Detection [C]//7th World Congress on Intelligent Control and Automation. Washington DC: IEEE Computer Society, 2008: 7621-7625.[11] Maddalena L, Petrosino A. A Self-organizing Approach to Background Subtraction for Visual Surveillance Applications [J]. IEEE Transaction on Image Processing, 2008, 17(7): 1168-1177.[12] LIU Yang-yang, SHEN Xuan-jing, WANG Yi-qi, et al. Design and Implementation of Embedded Intelligent Monitor System Based on ARM [J]. Journal of Jilin University: Information Science Edition, 2011, 29(2): 158-163. (刘阳阳, 申铉京, 王一棋, 等. 基于ARM的智能监控系统的设计与实现 [J]. 吉林大学学报: 信息科学版, 2011, 29(2): 158-163.)[13] DING Ying, LI Wen-hui, FAN Jing-tao, et al. Fuzzy Integral Feature Based Algorithm for Moving Infrared Object Detection [J]. Journal of Jilin University: Engineering and Technology Edition, 2010, 40(5): 1330-1335. (丁莹, 李文辉, 范静涛, 等. 基于模糊积分特征的红外图像运动目标检测算法 [J]. 吉林大学学报: 工学版, 2010, 40(5): 1330-1335.)。
19 无向图模型(马尔科夫随机场)19.1 介绍在第十章,我们讨论了图形化模型(DGMs),通常称为贝叶斯网。
然而,对于某些域,需要选择一个方向的边即(DGM), 例如,考虑建模一个图像。
我们可能会假设相邻像素的强度值是相关的。
我们可以创建一个DAG模型的2D拓扑如图19.1所示。
这就是所谓的因果MRF或马尔可夫网。
然而,它的条件独立性通常不好。
另一种方法是使用anundirected图形化模型(UGM),也称为马尔可夫随机场(MRF)或马尔可夫网络。
这些不需要我们指定边缘方向,在处理一些问题,如图像分析和空间统计数据时显得更自然。
例如,一个无向二维点阵显示(如图19.1(b));现在每个节点的马尔科夫Blanket只是最近邻节点,正如我们在19.2节所示的那样。
粗略地讲,在建立在DGMs上的UGMs的主要优点是:(1)它们是对称的,因此对某些领域更“自然”,如空间或关系数据;(2)Discriminativel UGMs(又名条件随机域,或CRFs),它定义了条件概率密度p(y|x),要比Discriminativel UGMs更好,我们在19.6.1节中解释原因。
相比于DGMs,UGMs的主要缺点是:(1)参数是可很难解释及模块化程度较差,我们在19.3节解释原因;(2)参数估计计算代价更高,原因我们在19.5节解释。
19.2 UGMs的条件独立性19.2.1UGMs通过简单的图分离定义CI关系如下:对于节点集的A,B,C,我们说X A ⊥G X B | X C,如果从在图G中把A从B中分离出来。
这意味着,当我们删除所有C 中的节,如果在A上没有任何连接的路径到B,那么CI 属性holds。
这就是所谓的UGMs的全局马尔可夫性质。
例如,在图19.2(b),有{ 1,2 }⊥{ 6、7 } | { 3、4、5 }。
图19.1节点的节点集呈现t有条件地独立于所有其他节点图为t的马尔科夫blanket;我们将表示通过mb(t)。
基于条件随机场的目标检测与识别技术研究摘要:目标检测与识别在计算机视觉领域具有重要的应用价值。
近年来,随着深度学习的快速发展,基于深度学习的目标检测与识别技术取得了显著的进展。
然而,由于深度学习方法对大量标注数据的依赖性和计算资源的消耗,基于深度学习的目标检测与识别技术在实际应用中仍然存在一些限制。
为了克服这些限制,本文提出了基于条件随机场(CRF)的目标检测与识别技术研究。
首先,介绍了条件随机场的相关理论基础。
然后,详细介绍了基于条件随机场的目标检测与识别方法。
最后,通过实验证明了该方法的有效性和优越性。
1.引言目标检测与识别是计算机视觉领域中的重要研究方向,其在图像分类、人脸识别、自动驾驶等领域有着广泛的应用。
目前,基于深度学习的目标检测与识别技术已经取得了令人瞩目的成果。
深度学习方法通过多层神经网络的组合学习和特征提取,能够在大规模数据集上取得较好的性能。
然而,深度学习方法在实际应用中存在一些问题,如对大量标注数据的依赖性、计算资源的高消耗等。
为了解决这些问题,本文提出了基于条件随机场的目标检测与识别技术。
2.条件随机场的相关理论基础条件随机场是一种概率图模型,可以用于描述随机变量之间的条件依赖关系。
它具有图像分割、目标检测和序列标注等问题中的广泛应用。
条件随机场的基本原理是,给定观测变量,通过最大化条件概率来推测属于不同类别的目标。
3.基于条件随机场的目标检测与识别方法基于条件随机场的目标检测与识别方法主要分为两个步骤:目标区域提取和目标分类。
首先,采用图像分割算法对图像进行目标区域提取,得到候选目标区域。
然后,通过条件随机场模型对候选目标区域进行分类,并得到最优的目标识别结果。
3.1 目标区域提取目标区域提取是目标检测与识别的第一步,决定了后续目标分类的效果。
图像分割算法常用的有基于颜色、纹理和形状等特征的方法,如K-means算法、GrabCut算法等。
这些算法能够有效地将图像分割为不同的区域,以便后续的目标分类。
图像分割技术中的常见难题及解决手段图像分割是计算机视觉领域的重要研究方向,旨在将图像分解为具有语义连续性的区域。
它在许多应用中都发挥着关键作用,如医学图像分析、目标检测和场景理解等。
然而,在实际应用中,图像分割技术仍面临许多挑战。
本文将讨论图像分割技术中的常见难题,并介绍一些解决手段。
一、图像边缘模糊在图像分割过程中,往往需要根据图像的边缘进行分割,但图像中的边缘常常受到噪声、模糊和低对比度等因素的影响,导致边缘信息难以准确提取。
针对这个问题,可以采用以下解决手段:1.使用滤波器对图像进行预处理,去除噪声和模糊,以增强边缘信息。
2.结合图像的梯度信息,通过边缘检测算法(如Canny算法)提取出清晰的边缘。
二、图像内部区域的颜色一致性图像内部的颜色一致性问题是图像分割中的另一个常见难题。
当图像中的目标物体与背景颜色相近时,会导致分割结果不准确或不完整。
为解决这个问题,可以采取以下方法:1.使用基于颜色特征的分割方法,如K均值聚类算法,将图像中的像素分成具有相似颜色的聚类。
2.结合纹理信息,通过纹理特征提取和纹理分割算法,将具有相似纹理的区域合并或分割。
三、目标物体的复杂形状目标物体的复杂形状是图像分割中常见的挑战之一。
当目标物体具有复杂的形状或纹理时,传统的分割方法往往难以精确地将其分割出来。
为解决这个问题,可以尝试以下方法:1.使用基于边缘的分割方法,如边缘连接算法,通过检测目标物体的边缘并连接边缘点以实现分割。
2.结合形状先验知识,通过形状模型和曲线演化等方法,对目标物体进行形状约束和优化,实现精确的分割。
四、图像中的遮挡问题在实际场景中,目标物体常常被其他物体或者自身的部分遮挡,导致分割结果不完整或混杂。
为解决这个问题,可以考虑以下解决手段:1.使用基于深度信息的分割方法,通过深度相机或双目相机获取目标物体的深度信息,从而有效解决遮挡问题。
2.基于马尔可夫随机场(MRF)的分割方法,通过建模目标物体的空间关系和颜色特征,对遮挡进行建模和推断。