基于GPGPU的并行影像匹配算法_肖汉
- 格式:pdf
- 大小:307.16 KB
- 文档页数:6
基于GPGPU的数字图像并行化预处理
宋晓丽;王庆
【期刊名称】《计算机测量与控制》
【年(卷),期】2009(017)006
【摘要】首先简要介绍了统一设备架构CUDA(Compute Unified Device Architecture)技术的背景、特点、内存模型,利用通用计算图形处理单元GPGPU(General Purpose GPU)及CUDA技术,实现了图像直方图均衡化和薄云去除的并行化处理,与传统的基于CPU的方法相比,两个基于GPGPU的图像预处理操作的执行效率分别提高了40倍与80倍左右,在大规模实时性图像处理操作中,有很大的实用价值.
【总页数】3页(P1169-1171)
【作者】宋晓丽;王庆
【作者单位】西北工业大学,计算机学院,陕西,西安,710072;西北工业大学,计算机学院,陕西,西安,710072
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于MPI的LEDAPS遥感影像预处理并行化方法研究 [J], 陈雄华;张旭;郭颖;马勇;杨彦臣
2.基于数字图像处理的条形码识别预处理算法研究 [J], 陈超;杨柳
3.基于 CUDA 的图像预处理并行化研究 [J], 占正锋;李戈;张学贺;尹旭悦
4.探究以GPGPU为基础的数字图像并行化预处理 [J], 李廷凯;龚俊;赖文娟
5.基于OpenVX的图像预处理算法的并行化研究 [J], 黄灿
因版权原因,仅展示原文概要,查看原文内容请购买。
面向GPU的直方图统计图像增强并行算法肖汉;孙陆鹏;李彩林;周清雷【期刊名称】《计算机科学与探索》【年(卷),期】2022(16)10【摘要】直方图统计在图像增强和目标检测等领域有着重要的应用。
然而,随着图像规模不断增大、实时性要求越来越高,直方图统计局部增强算法的处理过程较慢,达不到预期满意的速度。
针对这一不足,在图形处理器(GPU)平台上实现了直方图统计图像增强算法的并行处理,提升了处理大幅面数字图像的处理速度。
首先,通过充分利用统一计算设备架构(CUDA)活动线程块和活动线程来并行处理不同的子图像块和像素点,提升了数据访问的效率。
然后,采用内核配置参数优化和数据并行计算技术,实现了直方图统计图像增强算法在GPU平台上的并行化。
最后,采用主机端和设备端间高效的数据传输模式,进一步缩短了系统在异构计算平台上的执行时间。
研究表明,对于像幅大小不同的图像,图像直方图统计并行算法的处理速度相比CPU串行算法均有两个数量级的提高,处理一幅像幅大小为3241×3685的图像需要787.11 ms,并行算法的处理速度提高了261.35倍,为实现实时大规模图像处理奠定了良好基础。
【总页数】13页(P2273-2285)【作者】肖汉;孙陆鹏;李彩林;周清雷【作者单位】郑州师范学院信息科学与技术学院;山东理工大学建筑工程学院;郑州大学计算机与人工智能学院【正文语种】中文【中图分类】TP311【相关文献】1.模糊统计耦合子直方图加权均衡化的图像增强2.基于Chan-Vese模型的面向多核CPU和GPU的人脸轮廓提取并行算法3.面向CPU+GPU异构计算的SIFT特征匹配并行算法4.面向CPU+GPU异构平台的模板匹配目标识别并行算法5.基于图像信息熵统计直方图的图像增强算法因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于GPU的DEM并行插值算法
何泓宇;张锦明;李凤英;周雪倩
【期刊名称】《测绘科学技术学报》
【年(卷),期】2015(032)004
【摘要】采用OpenCL框架下的CPU/GPU平台,借助GPU在并行浮点运算方面的巨大优势,提出了DEM并行插值算法;同时以反距离加权插值算法为例,分析了传统插值算法和并行插值算法之间的优缺点与适应性.最后,通过对比实验对两类算法进行了比较.实验表明,当插值点数较少时,GPU并行插值算法效率低于传统算法;然而,当插值点数很高时,并行插值算法的计算效率较传统插值算法有了显著提高,加速的效果甚至高达137倍.实验证明GPU并行插值算法具有很强的可行性.
【总页数】6页(P427-432)
【作者】何泓宇;张锦明;李凤英;周雪倩
【作者单位】61287部队,四川成都610036;信息工程大学,河南郑州 450001;中国科学院遥感与数字地球研究所,北京100081;61287部队,四川成都610036;61287部队,四川成都610036
【正文语种】中文
【中图分类】P208
【相关文献】
1.基于GPU的DEM并行克里格插值算法 [J], 赵磊;李珂
2.一种基于格子玻尔兹曼前向模型的GPU并行加速荧光扩散断层成像的方法 [J],
吴焕迪; 严壮志; 岑星星
3.一种基于GPU的枚举排序算法及其并行化 [J], 谷国太;孙陆鹏;张红艳;肖汉
4.基于GPU的海量离散点高程并行插值算法 [J], 王智广;张腾畅;吴相锦;鲁强
5.基于GPU并行的锥体导管架平台结构冰激振动DEM-FEM耦合分析 [J], 王帅霖;刘社文;季顺迎
因版权原因,仅展示原文概要,查看原文内容请购买。
设计与应用计算机测量与控制.2009.17(6) Computer Measurement &Control ・1169・收稿日期:2008211208; 修回日期:2008212210。
基金项目:“十一五”国防预研项目(70271029);国家863项目(2007AA01Z314)。
作者简介:宋晓丽(19832),女,黑龙江省嫩江县人,硕士研究生,主要从事图像处理,模式识别方向的研究。
王 庆(19692),男,教授,博士,主要从事图像处理、结构模式识别方向的研究。
文章编号:167124598(2009)0621169203 中图分类号:TP391文献标识码:A基于GPGPU 的数字图像并行化预处理宋晓丽,王 庆(西北工业大学计算机学院,陕西西安 710072)摘要:首先简要介绍了统一设备架构CUDA (Compute Unified Device Architecture )技术的背景、特点、内存模型,利用通用计算图形处理单元GP GPU (General Purpose GPU )及CUDA 技术,实现了图像直方图均衡化和薄云去除的并行化处理,与传统的基于CPU 的方法相比,两个基于GP GPU 的图像预处理操作的执行效率分别提高了40倍与80倍左右,在大规模实时性图像处理操作中,有很大的实用价值。
关键词:GP GPU ;CUDA ;直方图均衡;薄云去除;并行计算Digital Image Parallel Pre -Processing B ased on GPGPUSong Xiaoli ,Wang Qing(School of Computer Science ,Northwestern Polytechnical University ,Xi ’an 710072,China )Abstract :Parallel processing of histogram equalization and removal of light cloud for gray scale images are implemented by GP GPU and CUDA technique.The efficiencies of two image pre -processing operations simulated on GP GPU can be improved up to 40and 80times compared to t he sequential met hods based on CPU ,respectively.This approach can be redounded to real -time applications for large scale image processing and analysis.K ey w ords :GP GPU ;CUDA ;histogram equalization ;removal of light cloud ;parallel computing0 前言在过去的几十年里,人们一直在寻找各种加速图像处理的方法,然而受到CPU 本身在浮点计算能力上的限制,对于那些需要高密度计算的图像处理操作,过去传统的在CPU 上实现的方法,并没有在处理性能与效率上有很大的进步。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201911302686.9(22)申请日 2019.12.17(71)申请人 北京航空航天大学杭州创新研究院地址 310051 浙江省杭州市滨江区长河街道创慧街18号(72)发明人 金晨 罗喜伶 李云波 罗亨 (74)专利代理机构 杭州求是专利事务所有限公司 33200代理人 郑海峰(51)Int.Cl.G06T 1/20(2006.01)G06N 3/12(2006.01)G06N 3/00(2006.01)G06F 7/483(2006.01)G06F 7/58(2006.01)(54)发明名称一种基于GPU的并行进化算法的可靠性评估方法(57)摘要本发明公开了一种基于GPU的并行进化算法的可靠性评估方法。
针对现有可靠性分析和验证方法无法对GPU并行进化算法带来的精度误差进行分析和可靠性进行评估的问题。
本发明综合考虑CPU与GPU截然不同的编程方式和代码运行模式,首先设计全面的测试问题集以收集算法在不同场景下的数据;其次对基于GPU的并行进化算法的进行可靠性计算建模以量化分析GPU并行化所带来的精度偏差;最后结合测试集和可靠性计算模型,设计完整的可靠性验证流程对基于GPU的并行进化算法进行可靠性评估。
权利要求书2页 说明书6页 附图1页CN 111161126 A 2020.05.15C N 111161126A1.一种基于GPU的并行进化算法的可靠性评估方法,其特征在于包括如下步骤:S01:设置测试问题维度和可靠性阈值参数;S02:在测试问题上独立重复采样并评估可靠性对测试问题集中的每个问题和维度使用不同的随机数发生种子独立重复运行基于CPU 和GPU的进化算法各N次;收集两者最终的最优解;根据可靠性计算模型和可靠性阈值参数,判断基于GPU的进化算法是否可靠;S03:若计算的可靠性高于可靠性阈值参数则可靠性得到验证;否则进行误差校准操作,若经任何一个误差校准操作后,计算的可靠性高于可靠性阈值参数,则可靠性得到验证,结束流程;若所有误差校准操作执行以后仍然无法验证可靠性,则待测的基于GPU的进化算法的可靠性无法得到验证。
基于GPU并行计算的海量图像快速匹配技术研究随着计算机技术的日新月异,图像处理技术也在不断地发展进步。
而图像匹配在图像处理中占据着非常重要的位置,因为图像匹配是在解决如何查找和鉴别不同图像中物体的新方法。
既然如此,我们不得不思考:如何快速地匹配海量的图像呢?首先,在讨论针对海量图像的快速匹配技术之前,我们需要思考一下:海量图像的特征是什么?如何通过图像特征去匹配这些图像呢?海量图像的特征是所含物体产生的不同神经元组合,而每个神经元都有一个具体的参数,并形成一种特征。
在图像处理中,人们通常会根据“特征”这个概念来对图像进行描述和匹配。
常见的图像处理(包括图像匹配)普遍采用CPU的计算,但是在遇到海量图像的时候,这样的方法很难实现高效率的匹配。
此时,为了提高匹配速度,人们需要采用GPU技术来优化这个问题。
GPU是由大量比CPU更小、更快的处理器组成的计算机装置。
GPU的并行计算能力远超CPU,这使得海量数据的处理变得更加快速、更加高效。
快速处理图像接着,我们就可以开始探讨如何通过GPU实现快速的海量图像匹配技术了。
虽然我们通常都用像素点或物体关键点(SIFT、SURF、ORB)等,来对图像进行描述和匹配,但是这样的特征处理方法很难对海量数据进行处理,GPU并行计算为我们解决了这个问题。
首先,为了实现GPU并行优化,我们需要先将海量图像特征数据存储到显存中。
然后,通过GPU计算特征向量与其他向量之间的匹配度(例如点到点的距离或特定的匹配函数),在此过程中,可将每张图片的特征提取出来,再利用GPU 并行算法,来快速地完成每对图片之间的相似度计算。
最后,通过结果排序或者其他策略,筛选出匹配效果较好的图像。
这样看来,利用GPU进行匹配处理的效率果然提高许多。
但是,如何保证匹配准确度呢?准确度的提升在GPU计算过程中,如果我们仅使用简单的点匹配,可能会遗漏一些特殊的相似性。
因此,我们需要在海量数据的处理中引入一些监督学习的方法。
GPU并行在匹配追踪算法中的应用王聪;巫南克;王世锋【摘要】匹配追踪算法( Matching Pursuit,MP)通过在过完备原子库中寻找与给定地震信号匹配最佳的原子,将地震信号分解为一系列原子的和.该算法实现了对地震信号的重构,突出了使地震剖面的有效信息特征更加突出.在实际资料应用中,传统匹配追踪算法( Matching Pursuit,MP)由于采样时间长度和剖面过大,存在计算速度慢的问题.为了进一步提高计算效率,通过GPU(Graphic Processing Unit)进行多原子并行匹配,并采用拟合差代替内积来寻找最佳原子,在传统算法的基础上改进得到一种匹配追踪GPU并行算法.将该算法应用于合成数据和实际资料,结果均表明本文的改进算法具有更高的计算效率.【期刊名称】《工程地球物理学报》【年(卷),期】2018(015)005【总页数】6页(P567-572)【关键词】匹配追踪;GPU;效率【作者】王聪;巫南克;王世锋【作者单位】成都理工大学地球物理学院,四川成都610051;成都理工大学地球物理学院,四川成都610051;中国地质科学院地质力学研究所,北京100089【正文语种】中文【中图分类】P631.41 引言随着陆上油气勘探的日趋成熟,海洋油气资源的勘探与开发已逐步成为全球油气利用的热点[1]。
经过综合勘探发现,我国海洋的石油储量巨大,有很好的发展前景[2]。
因此,海洋石油勘探开发受到了越来越大的关注。
然而在海上地震勘探中,由于海水覆盖以及海浪干扰,地震剖面很难正确反映实际地层信息[3]。
因此,高分辨率的研究显得十分必要[4]。
高分辨率地震勘探较常规地震勘探具有更高的地层分辨率,可识别出常规地震方法无法反映的薄层、小构造及年轻的新构造痕迹,在海洋勘探中有十分重要的应用。
匹配追踪(Matching Pursuit, MP)被视为高分辨率地震勘探的一种有效的处理手段。
匹配追踪算法由Mallat和Zhang于1993年首先提出,之后很快被应用于地震信号处理[5]。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910327088.0(22)申请日 2019.04.23(71)申请人 北京吉威时代软件股份有限公司地址 100043 北京市石景山区石景山路22号万商大厦16楼(72)发明人 黎珂 陈伯斌 张建凯 (74)专利代理机构 北京纽乐康知识产权代理事务所(普通合伙) 11210代理人 白明珠(51)Int.Cl.G06F 9/48(2006.01)G06F 9/50(2006.01)G06T 1/20(2006.01)(54)发明名称一种GPU并行与零IO模式下遥感影像实时处理方法及系统(57)摘要本发明公开了一种GPU并行与零IO模式下遥感影像实时处理方法及系统,包括以下步骤:对输入数据进行实时建模;将实时建模后数据利用GPU并行以及零IO模式下进行影像处理;将实时建模和影像处理利用实时处理框架进行运行。
本发明有益效果:颠覆传统处理模式,处理链中当前处理节点不依赖于上一步处理节点的完整影像处理结果,实现实时处理效果,以上过程不需要中间成果生成而直接跨级生产,从而提高了常规正射影像生产的生产效率,节省生产成本,且该模式使用简单,极大的提高了软件的DOM的生产能力。
权利要求书2页 说明书7页 附图3页CN 110083446 A 2019.08.02C N 110083446A权 利 要 求 书1/2页CN 110083446 A1.一种GPU并行与零IO模式下遥感影像实时处理方法,其特征在于,包括以下步骤:对输入数据进行实时建模;将实时建模后数据利用GPU并行以及零IO模式下进行影像处理;将实时建模和影像处理利用实时处理框架进行运行。
2.根据权利要求1所述的GPU并行与零IO模式下遥感影像实时处理方法,其特征在于,所述实时处理框架具体包括:将多任务提交并行触发;利用CPU并行处理,将输入影像读入内存;利用CPU将单个任务划分子任务,CPU进行数据调度及任务派发;利用CPU进行内存至显存的数据流转,GPU接收多指令并行化触发,并同时读入多任务的子任务影像块;利用GPU进行像素级并行化操作,计算子任务的影像块;利用CPU进行内存至硬盘的数据流转。
第39卷第1期测绘学报Vol.39,No.1 2010年2月Acta Geoda etica et Ca rtographica Sinica Feb.,2010文章编号:1001-1595(2010)01-0046-06基于GPG PU的并行影像匹配算法肖汉1,2,张祖勋11.武汉大学遥感信息工程学院,湖北武汉430079;2.郑州师范高等专科学校,河南郑州450044Parallel Im age M atching Algorithm Based on GPGPUXIAO Ha n1,2,ZHAN G Z uxun11.School of R emote Sensing a nd Informa tion Engi neering,Wuha n University,W uha n430079,China;2.Zhengzh ou Tea chers College,Zhengzhou450044,ChinaAbstract:W i th the devel opment of sa tel li te remote sensi ng technol ogy,i t is the key i ssue i n remote sensing fi eld to transform m a ssi ve data i nto user inform a tion i n short t ime.The tradi tional i m a ge mat ching a lgori thms for optimi za-ti on a nd implementa tion whi ch were desi gned for common processor CPU,coul d not be effecti vely a ppl ied on graph-i cs processi ng uni t(GPU).A fast ima ge matchi ng para llel a lgorithm i s presented based on genera-l purpose compu-ti ng on graphics processi ng units(GPGPU)w hich support Compute Unified Device Ar chitecture(CUDA).The algo-ri thm can execute hi gh performance para ll el computi ng i n Single Instruct ion M ul tipl e Threa d(SIM T)Pattern.On the basi s of the para llel a rchitect ure and hardware cha racteristi c of GPU,the pa rall el al gori thm introduces three speedup m ethods to improve the implementa tion performa nce:execution confi gura tion t echnology,hi gh-speed stor-a ge technol ogy a nd gl obal stora ge technology opti mizes the data storage structure a nd improves t he data access efficiency.T he experi ment resul t show s that GPU ca n with high effi ci ency impl ement the para ll el a lgori thm and pro-cessing effi ci ency of8-bi t1280@1024pictures ca n be up to the hi ghest M ul tiprocessor Warp Occupa ncy,process-i ng speed i s7times faster than CPU-based implementa tion.The compari son between CUDA and CPU i n i mage m a tching a lgori thms show s the advance of the CUDA in high a rithmeti c intensi ty rea-l time processing a nd comput ing data processing and thi s provi des new methods a nd ideas to optimi ze i mage matchi ng performa nce and GPGPU. Key words:fi ne-gra ined pa rall el computing;GPGPU;CUDA;ima ge ma tching;SIM T摘要:提出一种基于GPGPU的CUDA架构快速影像匹配并行算法,它能够在SIM T模式下完成高性能并行计算。
并行算法根据GPU的并行结构和硬件特点,采用执行配置技术、高速存储技术和全局存储技术三种加速技术,优化数据存储结构,提高数据访问效率。
实验结果表明,并行算法充分利用GPU的并行处理能力,在处理1280@1024分辨率的8位灰度图像时可达到最高多处理器warp占有率,速度是基于CPU实现的7倍。
CUDA在高运算强度数据处理中呈现出的实时处理能力和计算能力,为进一步加速影像匹配性能和GPU通用计算提供了新的方法和思路。
关键词:细粒度并行计算;图形处理器的通用计算;统一计算设备架构;影像匹配;单指令多线程中图分类号:T P338.6;P237文献标识码:A基金项目:国家自然科学基金(40771177);国家863计划(2006AA12Z136);河南省重点科技攻关项目(072102360026)1引言GPU(g raphics pr ocessing unit)就是为了图形计算而生,现代的GPU计算能力已经远远地超过了CPU和其他的处理器。
为了能够在图形计算之外的更多领域发挥GPU强大的计算功能,在2003年,SIGGRAPH美国计算机绘图专业组率先提出了一个名为GPGPU(genera-l purpose computing on graphics processing units)的概念,能够利用GPU完成通常意义上的数据运算。
这是GPU发展最具历史意义的里程碑[1]。
采用图形硬件来做通用计算的主要目的是为了加速。
加速的动力来自这些新硬件所具有的以下主要优势:强大的并行性,支撑高密集的运算,具有很高的浮点运算速度,GPU中大部分晶体管被用来进行数据处理,只有少量的被用做数据缓存和指令流控制[2]。
影像匹配在数字摄影测量、计算机视觉、遥感、医学图像等领域具有广泛的应用。
目前,影像匹配算法很多,基于特征的匹配方法计算量小,对灰度变化、形变及遮挡等都有较好的适应性,但它取决于特征提取的质量,匹配精度不是很理想。
第1期肖汉,等:基于GPGPU的并行影像匹配算法基于灰度相关匹配算法具有简单、匹配精度高、易于硬件实现,但计算量大、速度慢等特点。
现今针对灰度相关匹配改进的算法较多,但CPU的物理限制已经不能支持其进一步提高速度。
虽然基于神经网络、遗传算法以及各种利用集群系统的改进算法具有了一定的并行性处理,但计算代价高,数据规模较大时容易出现传输瓶颈,造成计算时间较长,进而限制了效率提升[3]。
为了实现快速的影像匹配,这里使用了CUDA(compute un-i fied device architectur e)技术对影像匹配方法进行并行改进,充分发挥了GPU的并行处理和浮点运算能力,从而完成快速影像匹配。
2GPGPU通用编程模型及CUDA新摩尔定律:未来计算机硬件不会更快,但会更/宽0。
必须重新设计算法,利用并行才能获得性能。
GPU计算需要一个编程模型,能有效地表达这种并行。
需要有一种灵活的开发方式,能够直接使用GPU的计算能力,而CUDA实现了这样一个并行编程模型。
提供了硬件细粒度的数据并行化和线程并行化,嵌套于粗粒度的数据并行化和任务并行化之中。
CUDA的基本思想是将应用程序映射到GPU以获得较大的性能提升。
尽量地开发线程级并行,这些线程能够在硬件中被动态的调度和执行。
这里是将CPU作为终端,而GPU作为超大规模数据并行协处理器,从而构成一个异构运算环境,让GPU来运行一些能够被高度线程化的程序[4]。
CUDA是一种串)并行混杂的编程模式。
当GPU计算程序运行时,CUDA驱动程序会将并行数据映射、加载到GPU中。
CUDA程序则把要处理的数据细分成更小的区块,然后并行处理。
主机端程序可以通过高速的PCI Express总线与GPU 进行信息交互。
数据的传输、GPU运算功能的启动以及其他一些CPU和GPU的交互都可以通过调用运行时驱动程序中的专门操作来完成[5]。
3影像匹配并行性算法分析3.1粗粒度并行性分析通常的影像匹配算法,从程序设计的角度可以看成一个局部算子$作用于两个2维数组left、rig ht的过程,匹配算子$每次在2维数组left、rig ht上的作用域是一个小局部范围。
在数组Left对应的左片上的作用域为目标区,如图1中的正方形区域M,在数组Right对应的右片上的作用域为搜索区,如图1中的正方形区域S;一般情况下搜索区S的范围比目标区M大,匹配算子$在搜索区S内逐个比较两个正方形区域内(如图1中M,N)图像特征的相似度,以确定目标区M在搜索区S内相应像点的位置。
这一过程非常适合于用/块分解0实现粗粒度并行[6]。
图1影像匹配数据操作F ig.1D at a operatio n fo r image matching如图2所示,将按行和列把搜索区S分成许多子图像块和Blocks建立映射关系,GPU的任务分配单元将线程块一级的粗粒度并行分配到整个芯片上,进行并行匹配计算[7]。
3.2细粒度并行性分析离散灰度数据对相关系数的实用公式为[8]Q(c,r)=E mi=1E nj=1g i,j g ci+r,j+c-1mn(E m i=1E n j=1g i,j)(E m i=1E n j=1g c i+r,j+c)E mi=1E nj=1g2i,j-1mn(Emi=1E nj=1g i,j)2Emi=1E nj=1g c2i+r,j+c-1mn(Emi=1E nj=1g c i+r,j+c)2(1)从公式(1)中可以看出所有求和的部分是计算最为密集的部分,对这些部分的并行计算是在算法中进行细粒度并行的关键。