字符图像的分割与识别(刘万春)
- 格式:pdf
- 大小:1.13 MB
- 文档页数:70
㊀收稿日期:2022-11-08基金项目:安徽省教育厅高等学校科学研究项目(自然科学类)(2022AH052920)作者简介:王玉堂(1983-)ꎬ男ꎬ安徽涡阳人ꎬ硕士ꎬ副教授ꎬ研究方向:大数据及人工智能.㊀㊀辽宁大学学报㊀㊀㊀自然科学版第50卷㊀第3期㊀2023年JOURNALOFLIAONINGUNIVERSITYNaturalSciencesEditionVol.50㊀No.3㊀2023基于深度学习的车辆前方障碍物距离估测王玉堂(安徽信息工程学院大数据与人工智能学院ꎬ安徽芜湖241199)摘㊀要:随着科技进步ꎬ自动驾驶系统的应用在未来必形成一种趋势ꎬ而车辆与障碍物之间的距离估测是自动驾驶系统中一个非常重要的技术.为了达到距离估测的目的ꎬ目前开发的自动驾驶系统大都需要依靠各式各样的距离传感器ꎬ例如激光雷达㊁雷达及超音波等ꎬ这些传感器在距离量测上通常具有高精度ꎬ但同时也伴随着高昂价格ꎬ这使自动驾驶系统的推广及普及变得越来越困难.本文提出了一个结合语义分割与深度估测的深度神经网络模型ꎬ其包含有相同卷积层数的编码器与解码器网络ꎬ将本文所提之网络架构在KITTI及Cityscapes资料集上进行训练ꎬ并在最后结合语义分割与深度估测等方法进行距离估测ꎬ实验结果证实ꎬ本文所提方法具有可行性.关键词:人工智能ꎻ深度估测ꎻ语义分割ꎻ深度学习中图分类号:TP311㊀㊀㊀文献标志码:A㊀㊀㊀文章编号:1000-5846(2023)03-0248-10DistanceEstimationofObstaclesinFrontofVehiclesBasedonDeepLearningWANGYu ̄tang(DepartmentofBigDataandArtificialIntelligenceꎬAnhuiInstituteofInformationTechnologyꎬWuhu241199ꎬChina)Abstract:㊀Autonomousdrivingsystemsarethewaveofthefutureꎻforsuchsystemsꎬtheestimationofthedistancebetweenthevehicleandsurroundingobstaclesiskey.MostcurrentdistanceestimationmethodsrelyonavarietyofdistancesensorsꎬsuchasLiDARꎬradarꎬorultrasonicsensors.Althoughthesesensorsmeasuredistanceaccuratelyꎬtheirhighcosthindersthepopularizationofautonomousdrivingsystems.Toremedythisproblemꎬthispaperproposesadeepneuralnetwork(DNN)thatcombinessemanticsegmentationanddepthestimation.TheDNNincludesanencoderandadecoderꎬbothofwhichhavethesamenumberofconvolutionallayers.TheproposednetworkarchitecturewastrainedonboththeKITTIandCityscapesdatasets.Theproposedmethodprovidedaccuratedistanceestimationinevaluationtestsꎬdemonstratingits㊀㊀feasibility.Keywords:㊀artificialintelligenceꎻdepthestimationꎻsemanticsegmentationꎻdeeplearning0㊀引言人工智能一直是人类向往的终极目标ꎬ而深度学习则是大家公认最接近人工智能的一种技术.近年来ꎬ深度学习在影像辨识㊁语音识别㊁医疗诊断和自动机器翻译等领域都有出色的表现ꎬ这都要归因于类神经网络的深度结构[1].计算机视觉常见的应用有:影像分类[2-3]㊁物体侦测[4-6]以及语义分割[7-10]等.其中语义分割的任务是在像素等级上对整个影像进行实例分类ꎬ每个实例(或是类别)对应于影像中的物体或表示影像的一部分ꎬ例如人㊁车㊁道路及天空等.该任务也称为密集预测ꎬ该任务目标是用影像中的相应类别标记影像中的每个像素.语义分割对于场景理解非常的关键ꎬ可让深度学习模型更好地学习到环境中的全域视觉背景.对于机器人[11]㊁自动驾驶[12]㊁3D环境重建及增强现实[13]等ꎬ深度感测是必要的技术.传统上ꎬ有关于道路前方障碍物的侦测与距离的判断ꎬ为了达到更可靠的感知能力ꎬ除了摄影机外ꎬ还需仰赖大量的传感器ꎬ其中包含超音波㊁雷达及激光雷达等.本文认为在这些传感器中ꎬ基于视觉感知的摄影机可提供车辆周遭环境最丰富的信息ꎬ其中包含颜色㊁纹理㊁物体形状以及外观等.这些都是其他形态的传感器所无法提供的.基于这个原因ꎬ本文提出一种基于行车记录仪摄影机的影像感知系统ꎬ利用摄影机所获取的影像来进行车辆前方的障碍物侦测与距离估算.由Long等[14]所提出的全卷积网络是第一个端到端(End ̄to ̄end)语义分割的网络架构.全卷积神经网络(FCN)可使用任何大小的影像作为输入ꎬ并输出具有相同大小的分割影像.Long等首先修改了当前流行的卷积神经网络(CNN)架构ꎬ例如AlexNet㊁VGG16和GoogLeNet[15]等.在文献[14]中ꎬ他们采用卷积层替换所有的完全链接层ꎬ借以产生多个特征映射图ꎬ因此需要上采样(Upsampling)来让输入的特征图产生与输入相同大小的输出.通常上采样是由具有大于1的行跨度(Stride)的卷积层所组成.这种方式通常又称为反卷积或转置卷积ꎬ因为它产生的特征图大小大于输入.在FCN中ꎬ为了优化训练器ꎬ文中采用逐像素交叉熵损失来训练网络.此外ꎬ他们还在网络中添加了跳跃式连接的结构以产生更好的输出结果.在文献[14]中ꎬ他们使用ImageNet资料集来训练语义分割模型ꎬ在2011年PascalVOC分类挑战中获得62.2%平均交并比(MeanintersectionoverunionꎬmIoU)的评分.FCN虽然具有较高的mIoUꎬ但同时伴随着庞大的计算量.近年来ꎬ语义分割任务的成功有赖于大型标记资料集的开源ꎬ其中较知名的有Camvid资料集[16]㊁Cityscapes资料集[17]㊁MSCOCO资料集与PascalVOC2012资料集[18]等.在国内ꎬ百度独创的资料集训练方法ꎬ被广泛应用在自动驾驶系统中ꎬ在一定程度上弥补了数据里程不足的问题.942㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测㊀㊀语义分割研究基本上可分成以下几个类型.1)基于编码器-解码器的结构ꎬ其中比较著名的语义分割网络有FCN㊁SegNet与Fast-SCNN[19]等ꎬ其在PaperWithCodeBenchmarks上有关Cityscapes资料集的mIoU分别为65.3%㊁57.0%与68.0%等.2)基于注意力机制的结构ꎬ比较著名的方法有PSANet[20]㊁CAA(Channelizedaxialattention)[21]与MultiScaleSpatialAttention[22]等ꎬ其在前述Benchmarks上有关Cityscapes数据库mIoU分别为81.4%㊁82.6%与86.2%ꎬ其中文献[22]结合多尺度架构ꎬ目前取得第一的佳绩.由此可见ꎬ基于注意力机制与多尺度架构成为未来语义分割研究的趋势.在单目深度估计(Monoculardepthestimation)的研究上ꎬ比较重要的数据集包含有KITTI[23-24]㊁Make3D[25]与NYU-DepthV2[26]等.近年来ꎬ有关深度估计方法ꎬ如运动结构恢复(StructurefrommotionꎬSfM)[27]以及立体视觉匹配(Stereovisionmatching)[28]ꎬ都是建立在多视点的特征对应(Featurecorrespondences)上.深度估测方法基本上可分成以下几类:1)基于几何的方法:通过几何约束ꎬ从几幅影像中恢复场景3D结构ꎬ代表的方法有SfM[29]ꎬ可通过影像序列间的特征对应及几何约束来处理稀疏特征的深度估测问题.因此ꎬ前述方法在深度估测的准确性方面ꎬ很大程度上与精确的特征匹配和高质量的影像序列有关.2)基于传感器的方法:关于深度传感器ꎬ如RGB-D相机和激光雷达ꎬ能够直接撷取影像的深度信息.RGB-D相机能够直接撷取RGB影像的像素级密集深度图ꎬ其缺点为有限的测量范围与光照敏感性.在自动驾驶应用上ꎬ激光雷达是比较常用的方法ꎬ但仅能产生稀疏的三维地图.3)基于深度学习的方法:这是目前最流行的深度估测方法ꎬ在KITTIBenchmarks的评分排行榜上ꎬViP-DeepLab[30]在SILog的评分指标上排行第2.ViP-DeepLab是一个深度模型ꎬ其提出主要用来解决视觉中长期存在且具挑战性的反投影问题(Inverseprojectiveproblem)ꎬ透过建模可从透视影像序列中恢复点云ꎬ同时为每个点提供深度信息.1㊀研究方法本文所提的深度神经网络如图1所示ꎬ在所提的网络架构中总共包含有6个主要的卷积区块ꎬ文中用Stage来表示.对于同一个Stageꎬ每个卷积层输出的特征图具有相同的大小和通道数.在1-6的Stage中ꎬ它们包含2-2-2-2-2-1层的卷积区块(Conv2Dblock)ꎬ输出通道的数量分别是32-64-128-256-512-1024.在本文中ꎬ所有卷积层都使用带有可学习加权参数的卷积核.池化层使用MaxPooling来缩小输出特征图的大小.在卷积层之后ꎬ应用批次正规化(BatchnormalizationꎬBN)来归一化卷积层输出的数据ꎬ以避免在反向传播中出现梯度消失的现象ꎬ然后再使用ReLU(Rectifiedlinearunit)活化函数ꎬ其可以保持正值不变ꎬ但会将负值设为0.现在ꎬ将注意力转向Decoder网络的细节ꎬ其中每个Stage对应于Encoder网络的相同Stage.在052㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀㊀㊀Decoder网络中ꎬ每个卷积层表示为DC-Conv-m-nꎬ其中DCꎬm和n分别表示Decoder㊁Stage和Layer.对于语义分割结构的设计ꎬ大多数编码器网络都是相同的.唯一的区别在于解码器网络架构.在本文中ꎬ修改SegNet的Decoder网络ꎬ同时引入跳跃连接的构架.这个想法的灵感主要来自Lin等[31]提出的特征金字塔网络ꎬ该文确认了使用跳跃式连接结构时像素准确度(Pixelaccuracy)ꎬ具有较好的结果.为了更清楚描述本文所提跳跃连接的细部结构ꎬ以第4个Stage为例来进行说明.首先ꎬ在Encoder网络中选择第4个Stage的最后一个卷积层ꎬ亦即EC-Conv-4-3ꎬ因为在同一个Stage中最深的卷积层可以提取最具辨识度的特征ꎻ然后ꎬ在Decoder网络中选择相应的卷积层ꎬ亦即DC-Conv-4-3ꎻ最后ꎬ再将这两个层进行跳跃连接ꎬ如图2所示.最后ꎬ再进行特征图放大以产生Upsampling-3层.图1㊀本文所提具有对称Encoder和Decoder语义分割的网络构架152㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测㊀图2㊀本文解码器跳跃连接结构示意图(a)串接方法ꎻ(b)相加方法.㊀㊀本文在语义分割解码器的跳跃连接处加入注意力机制ꎬ如图3所示.在图中ꎬ特征图影像X(维度:BSꎬHꎬWꎬC)为主干网络Stage-3Layer-3或Stage-4Layer-3的输出特征图.Y(维度:BSꎬHꎬWꎬC)为经注意力机制区块转换后之输出图ꎬ其大小与X相同ꎬ其中BS为批次量大小ꎬH与W分别为特征图的高与宽ꎬC为特征图之通道数量.注意力机制的设计理念:变异数与共变异数是统计学与机器学习中常用的统计量ꎬ其中变异数用来衡量随机变量与平均值间的平方偏差量ꎬ然而共变异数则是用来衡量两个随机变量间的相似性.基于此ꎬ随机变量间的分布愈相似ꎬ共变异数就愈大ꎻ相反ꎬ两者间的相似性愈低ꎬ共变异数就愈小.在本文中ꎬ可将特征图中的每一个像素点视为一个随机变量.因此ꎬ针对任一像素点(令为目标点)与所有其他像素点可计算其配对共变异数ꎬ如(x1ꎬx2)的配对共变异数为(x1-μ)(x2-μ).图3㊀本文在编㊁解码器的跳跃连接中加入注意力机制内存块㊀㊀设X为输入特征图ꎬ先将XɪRHˑW的形状重新调整为aɪRNˑ1ꎬ其中N=HˑWꎬH与W分别表示特征图的高与宽.令a=b=c=[x1ꎬx2ꎬ ꎬxn]Tꎬ并令μ为平均值ꎬ因此共异变数CovNˑ1=(a-μ)(b-μ)Tꎬ进一步可计算注意力机制特征图为dNˑ1=CovNˑN cNˑ1⇒YHˑWꎬ最终特征图为原特征图与注意力机制特征图相加.252㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀㊀㊀㊀2㊀结果与讨论本文实验系统采用LinuxUbuntu18.04ꎬ开发环境为Python3.7.0ꎬ安装的函数库TensorFlow2.3.0和Opencv-python3.2.0.8.本文在Cityscapes资料集上进行所提深度神经网络在语义分割上的性能评估.而深度估测方面则在KITTI资料集上进行训练及评估.本数据集有大量的道路行车记录数据且包含大量的传感器记录的真实数据.在语义分割方面ꎬ本文采用mIoU指标评估影像中各个类别的分割效能.而深度估测评估度量则是采用RMSE(Rootmeansquareerror)及准确性.在本文中ꎬ使用TensorFlow来实现本文所提的深度神经网络架构.本文所提架构在Cityscapes资料集上进行及mIoU评分分别定义如公式(1)和(2)所示.PA=ðCi=0PiiðCi=0ðCj=0Pij(1)mIoU=1C+1ðCi=0PiiðCj=0Pij+ðCj=0Pji-Pii(2)式中:C是要预测的总类别数ꎬ由于背景也需要考虑进来ꎬ因此总类别数将增加为C+1ꎻPii表示该像素属于第i个类别ꎬ且被识别为第i类ꎬ因此它是真阳性ꎻPij表示像素属于第i个类别ꎬ但却被错误地辨识为第j个类别ꎬ故其属于伪阴性ꎻPji则是将第j个类别错误地标示为第i个类别ꎬ故其属于伪阳性.为了评价深度估测网络的性能ꎬ本文采用CNN估计单目图像深度[32]的评价方法ꎬ该评价方法有以下5个评价指标:RMSE㊁RMSElog㊁AbsRel㊁SqRel及Accuracyꎬ其定义分别如下:RMSE=1NðiɪI di-d∗i 2(3)RMSElog=1NðiɪI log(di+1)-log(d∗i-1) 2(4)AbsRel=1NðiɪI|di-d∗i|d∗i(5)SqRel=1NðiɪI di-d∗i 2d∗i(6)Accuracy=%ofdis.tmaxdid∗iꎬd∗idiæèçöø÷=δ<thr(7)式中:di与d∗i分别表示图像深度的预测值与真值ꎻI为图像ꎻN是图像的总点数ꎻthr分别采用1.25㊁1.252及1.253.以上指标主要用于评价图像深度真实值(Groundtruth)与预测值(Predictedvalues)间接近的程度ꎬ其中RMSE㊁RMSElog㊁AbsRel及SqRel等指标的值愈小代表深度网络的估测性能愈好ꎻ反之ꎬAccuracy指标是愈大愈好.表1为在深度神经网络是否加入注意力机制对于语义分割性能的影响.由表可知ꎬ加入一层注352㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测㊀㊀意力机制内存块优于不加入注意力机制的内存块.同样ꎬ从图4(b)与图4(c)中看出ꎬ加入注意力机制内存块的语义分割性能是优于没有加入注意力内存块的.同时ꎬ由表1中亦可看出ꎬ当加入更多层的注意力机制内存块反而会劣化语义分割性能.表1㊀针对深度神经网络构架中跳跃连接层是否加入注意力机制在Cityscapes数据集的mIoU和Pixelaccuracy的评分结果MethodmIoUPixelaccuracyNoattention0.79580.8856Attention/Stage40.79610.8884Attention/Stage3&40.68570.8115图4㊀本文所提构架在解码器增加注意力机制在语义分割方面的视觉结果比较(a)原图ꎻ(b)加入注意力机制之语义分割图ꎻ(c)无注意力机制之语义分割图.㊀㊀在语义分割方面ꎬ本文所提出的构架在Cityscapes数据集上进行了训练与测试ꎬ并对本文提出的深度网络估测结果与文献[7]㊁[14]和[19]中相应的数据进行了比较.从表2中可以看出ꎬ本方法的mIoU值为79.6ꎬ优于SegNet的57.0ꎬFNC的65.3以及Fast-SCNN的68.0.表2㊀本文所提方法与现代语义分割方法的mIoU评分比较ApproachmloU/%Fast-SCNN[19]68.0FCN[14]65.3SegNet[7]57.0Proposed(Attention/Stage4)79.6㊀㊀在深度估测方面ꎬ本文所提出的构架在KITTI数据集上进行了训练与测试ꎬ评价图像深度真实值(Groundtruth)与预测值(Predictedvalues)间接近的程度.将本文提出的深度网络估测结果与相关文献进行了比较ꎬ其中ꎬ在选用相同Depth的基础上ꎬ452㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀㊀㊀RMSEꎬRMSElog指标小于参考文献[31-32]中的数据ꎬARD(Averagerelativedeviations)ꎬRSD(Relativestandarddeviations)等指标均高于参考文献[31-32]中的数据.由表3可看出本文所提出的深度神经网络架构在深度估测的各项评价结果都优于参考文献[31-32].表3㊀本文所提方法与相关文献在深度估测性能方面比较LowerisbetterHigherisbetterApproachDepth/mRMSERMSElogARDRSDδ<1.25δ<1.252δ<1.253Coarse[32]0~807.2160.2730.1941.5310.6790.8970.967Coars+Fine[32]0~807.1560.2700.1901.5150.6920.8990.967DCNF-FCSP[31]0~807.046 0.217 0.6560.8810.958Proposed0~804.8790.2310.1581.1010.7840.9330.973㊀㊀注:测试的数据集为KITTIDataset㊀㊀最后本文在车辆与前方障碍物距离估测方面ꎬ从语义分割图像中取得分割目标物ꎬ再对深度图像中取得相应位置的深度数值由小到大进行排序ꎬ取得前20%深度数值作为该物体的距离估测数值ꎬ如图5所示ꎬ从图5(a)中可以看到本文所提方法能有效地估测出本车与前方障碍物间的距离.图5㊀车辆与前方目标物间的距离估测图(a)原图ꎻ(b)深度图像图ꎻ(c)目标分割二值图像图.3㊀结论本文提出了一种对称式Encoder和Decoder的深度神经网络架构ꎬ并在深度估测方面采用KITTI资料集进行训练ꎬ在语义分割方面则是采用Cityscapes资料集[33]来进行训练.实验结果显示ꎬ本文所提障碍物距离估测方法具有可行性.本文所提出的网络架构与其他相似的深度估测网络架构ꎬ在相同的训练及测试条件下ꎬ前者在准确率方面也有不错的表现.在未来的工作中ꎬ将研究不同的解码器架构以及更强健的障碍物侦测方法ꎬ以达成目标物的距离估测ꎬ同时持续改善本文所提深度估测网络的准确度.552㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测㊀㊀参考文献:[1]㊀HochreiterSꎬSchmidhuberJ.Longshort ̄termmemory[J].NeuralComputationꎬ1997ꎬ9(8):1735-1780.[2]㊀KrizhevskyAꎬSutskeverIꎬHintonGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C]//NIPSᶄ12:Proceedingsofthe25thInternationalConferenceonNeuralInformationProcessingSystems.NewYork:CurranAssociatesInc.ꎬ2012:1097-1105.[3]㊀SimonyanKꎬZissermanA.Verydeepconvolutionalnetworksforlarge ̄scaleimagerecognition[EB/OL].(2014-09-04)[2022-12-15].https://arxiv.org/abs/1409.1556.[4]㊀RedmonJꎬDivvalaSꎬGirshickRꎬetal.Youonlylookonce:Unifiedꎬreal ̄timeobjectdetection[C]//2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEEꎬ2016:779-788.[5]㊀RenSQꎬHeKMꎬGirshickRꎬetal.FasterR ̄CNN:Towardsreal ̄timeobjectdetectionwithregionproposalnetworks[EB/OL].(2015-06-04)[2022-12-15].https://arxiv.org/abs/1506.01497.[6]㊀SermanetPꎬEigenDꎬZhangXꎬetal.OverFeat:Integratedrecognitionꎬlocalizationanddetectionusingconvolutionalnetworks[EB/OL].(2013-12-21)[2022-12-15].https://arxiv.org/abs/1312.6229.[7]㊀BadrinarayananVꎬKendallAꎬCipollaR.SegNet:Adeepconvolutionalencoder ̄decoderarchitectureforimagesegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligenceꎬ2017ꎬ39(12):2481-2495.[8]㊀HariharanBꎬArbelaezPꎬGirshickRꎬetal.Hypercolumnsforobjectsegmentationandfine ̄grainedlocalization[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Boston:IEEEꎬ2015:447-456.[9]㊀HeKMꎬGkioxariGꎬDollárPꎬetal.MaskR ̄CNN[C]//2017IEEEInternationalConferenceonComputerVision(ICCV).Venice:IEEEꎬ2017:2980-2988.[10]㊀KuhnertKDꎬStommelM.Fusionofstereo ̄cameraandPMD ̄cameradataforreal ̄timesuitedprecise3Denvironmentreconstruction[C]//2006IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems.Beijing:IEEEꎬ2006:4780-4785.[11]㊀HornBKP.Robotvision[M].Boston:TheMITPressꎬ1986.[12]㊀RiblerRLꎬVetterJSꎬSimitciHꎬetal.Autopilot:Adaptivecontrolofdistributedapplications[C]//ProceedingsoftheSeventhInternationalSymposiumonHighPerformanceDistributedComputing(Cat.No.98TB100244).Chicago:IEEEꎬ1998:172-179.[13]㊀MilgramPꎬTakemuraHꎬUtsumiAꎬetal.Augmentedreality:Aclassofdisplaysonthereality ̄virtualitycontinuum[C]//ProcSPIE2351ꎬTelemanipulatorandTelepresenceTechnologies.Boston:SPIEꎬ1995ꎬ2351:282-292.[14]㊀LongJꎬShelhamerEꎬDarrellTꎬetal.Fullyconvolutionalnetworksforsemanticsegmentation[C]//2015IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Boston:IEEEꎬ2015:3431-3440.[15]㊀SzegedyCꎬLiuWꎬJiaYQꎬetal.Goingdeeperwithconvolutions[C]//2015IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Boston:IEEEꎬ2015:1-9.[16]㊀BrostowGꎬFauqueurJꎬCipollaR.Semanticobjectclassesinvideo:Ahigh ̄definitiongroundtruthdatabase[J].PatternRecognitionLettersꎬ2009ꎬ30(2):88-97.[17]㊀LinTYꎬMaireMꎬBelongieSꎬetal.MicrosoftCOCO:Commonobjectsincontext[C]//ComputerVision–ECCV2014.Zurich:SpringerꎬChamꎬ2014:740-755.[18]㊀EveringhamM.ThePascalVisualObjectClassesChallenge2012(VOC2012)[R/OL].(2012-04-01)[2022-12-15].https://pjreddie.com/media/files/VOC2012_doc.pdf.652㊀㊀㊀辽宁大学学报㊀㊀自然科学版2023年㊀㊀㊀㊀[19]㊀PoudelRPKꎬLiwickiSꎬCipollaR.Fast ̄SCNN:Fastsemanticsegmentationnetwork[EB/OL].(2019-02-12)[2022-12-15].https://arxiv.org/abs/1902.04502.[20]㊀ZhaoHSꎬZhangYꎬLiuSꎬetal.PSANet:Point ̄wisespatialattentionnetworkforsceneparsing[C]//EuropeanConferenceonComputerVision.Munich:Chamꎬ2018:270-286.[21]㊀HuangYꎬKangDꎬJiaWJꎬetal.Channelizedaxialattention ̄consideringchannelrelationwithinspatialattentionforsemanticsegmentation[EB/OL].(2021-01-19)[2022-12-15].https://arxiv.org/abs/2101.07434.[22]㊀SagarꎬAꎬSoundrapandiyanRK.Semanticsegmentationwithmultiscalespatialattentionforselfdrivingcars[EB/OL].(2020-06-30)[2022-12-15].https://arxiv.org/abs/2007.12685.[23]㊀GeigerAꎬLenzP.Arewereadyforautonomousdriving?TheKITTIvisionbenchmarksuite[C]//ProceedingsofIEEEConferenceonComputerVisionandPatternRecognition.NewYork:IEEEꎬ2012:3354-3361.[24]㊀GeigerAꎬLenzPꎬStillerCꎬetal.Visionmeetsrobotics:TheKITTIdataset[J].TheInternationalJournalofRoboticsResearchꎬ2013ꎬ32(11):1231-1237.[25]㊀SaxenaAꎬSunMꎬNgAY.Make3D:Learning3Dscenestructurefromasinglestillimage[J].IEEETransactionsonPatternAnalysisandMachineIntelligenceꎬ2009ꎬ31(5):824-840.[26]㊀SilbermanNꎬHoiemDꎬKohliPꎬetal.IndoorsegmentationandsupportinferencefromRGBDimages[C]//ECCVᶄ12:Proceedingsofthe12thEuropeanConferenceonComputerVision.Florence:Springerꎬ2012:746-760.[27]㊀LiuFYꎬShenCHꎬLinGSꎬetal.Learningdepthfromsinglemonocularimagesusingdeepconvolutionalneuralfields[J].IEEETransactionsonPatternAnalysisandMachineIntelligenceꎬ2016ꎬ38(10):2024-2039.[28]㊀YonedaKꎬTehraniHꎬOgawaTꎬetal.Lidarscanfeatureforlocalizationwithhighlyprecise3 ̄Dmap[C]//2014IEEEIntelligentVehiclesSymposiumProceedings.Dearborn:IEEEꎬ2014:1345-1350.[29]㊀VijayanarasimhanSꎬRiccoSꎬSchmidCꎬetal.SfM ̄net:Learningofstructureandmotionfromvideo[EB/OL].(2017-04-25)[2022-12-15].https://arxiv.org/abs/1704.07804.[30]㊀QiaoSYꎬZhuYKꎬAdamHꎬetal.ViP ̄DeepLab:Learningvisualperceptionwithdepth ̄awarevideopanopticsegmentation[EB/OL].(2020-12-09)[2022-12-15].https://arxiv.org/abs/2012.05258.[31]㊀LinTYꎬDollárPꎬSergeJ.etal.FeaturepyramidNetworksforobjectdetection[C]//2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR).Honolulu:IEEEꎬ2016:936-944.[32]㊀EigenDꎬPuhrschCꎬFergusR.Depthmappredictionfromasingleimageusingamulti ̄scaledeepnetwork[EB/OL].(2014-07-09)[2022-12-15].https://arxiv.org/abs/1406.2283.[33]㊀CordtsMꎬOmranMꎬRamosSꎬetal.Thecityscapesdatasetforsemanticurbansceneunderstanding[C]//2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEEꎬ2016:3213-3223.(责任编辑㊀郭兴华)752㊀第3期㊀㊀㊀㊀㊀㊀王玉堂:基于深度学习的车辆前方障碍物距离估测。
长沙学院课程设计说明书题目车牌提取系统设计系(部) 电子与通信工程系专业(班级) 10电子二班姓名学号指导教师起止日期 2013.12.16-2013.12.20长沙学院课程设计鉴定表10级数字图像处理课程设计与仿真课题任务书系(部):电子与通信工程系专业:电子信息指导教师: 2013-9-6目录摘要 (1)1 MATLAB简介 (1)2字符分割的基本原理 (2)1、基本原理 (2)2 车辆图像预处理 (3)2.1 图像灰度化 (3)2.2 图像边缘检测 (3)2.3 图像腐蚀 (3)2.4 删除小面积对象 (4)2.5 车牌定位 (4)2.6 字符分割 (4)3字符分割的仿真 (4)4字符分割源程序 (6)5心得体会 (9)6参考文献 (10)摘要20世纪20年代,图像处理首次得到应用。
20世纪60年代中期,随电子计算机的发展得到普遍应用。
60年代末,图像处理技术不断完善,逐渐成为一个新兴的学科。
利用数字图像处理主要是为了修改图形,改善图像质量,或是从图像中提起有效信息,还有利用数字图像处理可以对图像进行体积压缩,便于传输和保存。
数字图像处理主要研究以下内容:傅立叶变换、小波变换等各种图像变换;对图像进行编码和压缩;采用各种方法对图像进行复原和增强;对图像进行分割、描述和识别等。
随着技术的发展,数字图像处理主要应用于通讯技术、宇宙探索遥感技术和生物工程等领域。
数字图像处理因易于实现非线性处理,处理程序和处理参数可变,故是一项通用性强,精度高,处理方法灵活,信息保存、传送可靠的图像处理技术。
主要用于图像变换、量测、模式识别、模拟以及图像产生。
广泛应用在遥感、宇宙观测、影像医学、通信、刑侦及多种工业领域。
本文针对车牌自动识别系统中关键技术之一的车牌字符分割部分做了深入的研究。
要想将车牌图像正确地分割,必须得到车牌的二值图像,因此本文对车牌字符分割前的预处理进行了较深入研究,尤其是车牌图像二值化后的去噪处理,包括开闭运算、去除边缘等。
Photoshop CS4数码照片处理进修考核大纲刘万春 编兵器工程师进修大学2010年7月《Photoshop CS4数码照片处理》进修考核大纲一、课程性质与基本要求随着数码相机的普及,摄像也变得大众化,由于各种自然因素需要对图像进行处理。
本课程全面介绍了Photoshop CS4的基本功能和图像处理时Photoshop CS4的使用方法。
课程分别介绍了Photoshop CS4特点、界面组成与基本使用方法,在Photoshop CS4中进行对图像的编辑方法,数码照片的色彩调整,数模照片的修补,数模照片的润色,数模照片的特效制作等。
在Photoshop CS4中高手修复和纹理处理高级技巧,数模照片的抠图与合成应用,数模照片的特殊处理等。
通过本课程的学习,学员应掌握如下知识:(1) Photoshop CS4的基本操作和图像处理功能、对象的操作和位图的应用、图像编辑制作的基础知识和操作方法、使用Photoshop CS4高级编辑导出和发布。
高级图像的制作方法,声音的导入与设置,视频的优化与发布。
(2) 使学生掌握Photoshop CS4的基本功能和使用方法。
重点掌握图像编辑制作的交互功能实现、为图像添加声音及输出和发布方法。
课程旨在教授学生基本的设计原理和思路,并能发挥学生的个人创意能力,运用目前最常用的图像编辑制作软件和辅助软件,设计制作网络作品。
(3) 强调学生的创新能力和动手能力。
本课程要求学生在接受课堂理论知识学习之后,能熟练利用相关的动画制作软件和网页设计软件,创作富有表现力的个性化的照片。
本课程对学员的要求:(1)了解:Photoshop CS4的界面介绍、菜单、获取照片、照片分类,批量照片处理。
照片的筛选,复制,移动等(2)熟练掌握: ACDSee使用方法、Adobe Bridge使用方法(3)掌握:Photoshop CS4的基本知识,象素,分辨率,图像文件的文件格式,色差校正,色调调整,对比度调整,曝光度,饱和度,阴影的设定等等,以及各种图像处理工具,(4)加强上机操作的练习及时间二、课程的基本内容和具体要求本课程以中国科学出版集团出版的《Photoshop CS4数码照片处理从新受到高手》作教材,下面分别提出各章中要求掌握和了解的内容。
大连外国语大学翻译专业本科毕业论文(翻译实践报告类)写作规范2016年12月修订目录一、毕业论文的全套材料 (3)二、毕业论文的基本结构 (3)三、论文的字体和字号要求 (3)四、纸张打印格式 (4)五、论文前置部分的格式要求 (4)六、论文主体部分的格式要求 (5)七、英语封面样本 (7)八、英语摘要样本 (9)九、汉语摘要样本 (11)十、英语致谢样本 (1) (2) (12)十一、英语提纲样本 (14)十二、论文的标题标注样本 [含参考文献样本(1)(2)] (16)十三、网上参考文献格式说明 (27)十四、中文参考文献格式说明 (34)十五、MLA论文写作规范简略说明 (36)十六、附录样本 (53)一、毕业论文的全套材料1.论文袋2.《大连外国语大学本科毕业论文(设计)指导手册》(学生用,用黑色签字笔填写)3.表1 中期检查表(教师用,打印签字版)4.表2 指导教师评语表(教师用,打印签字版)5.表3 评阅人评语表(教师用,打印签字版)6.表4答辩记录表(教师用,打印签字版,表格中评语及以下部分用黑色签字笔填写)7.论文打印文本(一式一份,左侧装订)二、毕业论文的基本结构1.前置部分(按以下顺序排列):中文封面、诚信承诺书、英文封面、英语摘要、汉语摘要、英语致谢、英语目录(以上各项均单独成页)。
2.主体部分:引言、正文、结论、参考文献(以上各项均单独成页)。
3.附录部分:原文和译文、术语表或人名地名表等(以上各项均单独成页,有或无视情况而定)。
三、论文的字体和字号要求1.英语的字体为Times New Roman, 汉语的字体为宋体。
2.英语和汉语的字号均为小四,且不必加粗。
四、纸张打印格式1.论文要求使用激光打印,纸张尺寸为A4,打印1份。
2.行间距:英语为2倍行距,汉语为1.5倍行距。
3.页边距:上2.5厘米,下2.5厘米,左3.5厘米,右2厘米。
4.页脚插入页码,居中。
页码从封面至提纲的最后一页采用罗马字母排列,即i,ii,iii...,封面作为i页,页码不显示。
验证码字符图像分割技术研究作者:兰伟来源:《软件导刊》2014年第10期摘要:验证码字符图像分割质量很大程度上决定机器能否正确识别出验证码。
针对验证码字符图像分割策略不同,通过研究投影分割法、连通域分割法、最短路径分割法3种验证码字符图像分割技术,分别探讨其特点和应用范围,给出了Web验证码3种分割技术的综合应用方法。
关键词:验证码;字符图像;图像分割DOIDOI:10.11907/rjdk.143334中图分类号:TP317.4文献标识码:A 文章编号文章编号:16727800(2014)010013002基金项目基金项目:重庆市职业教育学会立项科研课题(2013-ZJXH-8721)作者简介作者简介:兰伟(1974-),男,重庆荣昌人,重庆科创职业学院信息学院副教授,研究方向为Java应用开发、人工智能。
0 引言验证码技术是一种网络安全技术,是为了防止攻击者编写恶意代码对网站进行自动注册、自动重复登录、暴力破解密码、发广告等攻击。
验证码识别研究能及时发现验证码的安全漏洞。
验证码识别的一般步骤包括:先获取验证码原图,对彩色图像进行灰度化,然后进行二值化,再通过去噪之后,将图像中的单个字符分割出来,进行逐个识别后输出结果[1]。
字符图像分割是将图像划分成若干个互不相交的小区域的过程,每一个小区域是单个的字符图像。
图像字符分割质量直接影响单个字符信息的完整性,影响字符最终能否被正确识别[2]。
对目前常见的3种验证码字符图像分割技术进行研究,探讨各种技术的特点和应用范围,最终给出3种分割技术的综合应用方法。
1 投影分割法投影分割法是利用各行字符之间存在行空白和行内字符之间存在列空白的特征来分割字符[3]。
因此,投影分割法分为垂直投影和水平投影两部分。
在开始投影分割前必须先将字符图像进行灰度化、二值化和去噪处理,图像中灰度值为0的黑色像素点是与字符有关的点,而灰度值为255的白色像素点是与字符无关的背景点。
第8章 图象的检测及模板匹配图象的分割与检测(识别)实际上是一项非常困难的工作。
很难说清楚为什么图象应该分割成这样而不是那样。
人类的视觉系统是非常优越的,它不仅包含了双眼,还包括了大脑,可以从很复杂的景物中分开并识别每个物体,甚至可以毫不费力地跟上每秒好几十帧变化的图象。
举两个例子来说明一下人类视觉系统的优越性。
图8.1 单词THE图8.2 看不见的三角 图8.1是单词THE ,这一点很容易看出来,但仔细观察一下,就会发现,图中少了很多线条。
在我们人类看来很简单的一件事,让计算机来做就很困难了。
图8.2中尽管没有任何线条,但我们还是可以很容易的看出中间存在着一个白色三角形。
计算机却很难发现。
由于人类在观察图象时适用了大量的知识,所以没有任何一台计算机在分割和检测真实图象时,能达到人类视觉系统的水平。
正因为如此,对于大部分图象应用来说,自动分割与检测还是一个将来时。
目前只有少数的几个领域(如印刷体识别OCR)自动识别达到了实用的水平。
也许算是题外话,我们可以憧憬这样一种应用:基于内容的搜索。
在一场足球比赛的录象中,用户可以输入命令,由计算机自动搜索出所有射门的镜头并显示在屏幕上。
目前,我们能从一幅图象中获得的信息只是每个象素的颜色或灰度值,除此以外别无其它,完成上述功能实在是太困难了。
所以说解决图象分割和检测最根本的方法是在编码(成象)时就给予考虑。
这也正是MPEG4及未来的视频压缩编码标准的主要工作。
正因为有上述的困难,所以我们今天要介绍的只是一些最基本,最简单的算法和思想,针对也只能是一些具体(而不是通用)的应用。
算法共有三个:投影法、差影法和模板匹配。
8.1 投影法在介绍投影法之前,我先出一道题目,下面的这幅照片是著名的华盛顿纪念碑(我记得在“阿甘正传”中曾经看到过它),怎样从图中自动检测到水平方向上纪念碑的位置。
仔细观察,不难发现,纪念碑上象素的灰度都差不多而且与众不同,如果我们选取合适的阈值,做削波处理(这里选175到220),将该图二值化,如图8.3所示:图8.3 华盛顿纪念碑图8.4 削波处理,将图8.3二值化 由于纪念碑所在的那几列的白色点比起其他列多很多,如果把该图在垂直方向做投影,如图8.5所示。
一种低码率彩色人脸图像编码方法
李倩;朱玉文;刘万春
【期刊名称】《计算机应用》
【年(卷),期】2005(025)003
【摘要】提出了一种适合低码率信道传输的嵌入式彩色人脸图像编码方法,不仅把握了人脸图像的特点,而且充分利用了彩色图像小波变换后的多种相关性.该方法将联合色彩分量矢量量化和零块、零树编码方法巧妙结合,把彩色图像的三个色彩分量单独扫描,单独编码的过程简化为联合扫描和联合编码的过程.实验结果表明该算法在低码率下,相比JPEG,获得了在视觉效果和峰值信噪比方面更好的恢复图像质量.
【总页数】3页(P589-591)
【作者】李倩;朱玉文;刘万春
【作者单位】北京理工大学,计算机科学与工程系,北京100081;北京理工大学,计算机科学与工程系,北京100081;北京理工大学,计算机科学与工程系,北京100081【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.一种基于HSI空间的红外测量图像伪彩色编码方法 [J], 李晓冰
2.基于低码率传输的红外视频编码方法研究 [J], 陈青华;董锋;谢晓方;齐玉东;乔勇军
3.一种彩色图象信号高压缩低码率编码的方案 [J], 梁金山
4.极低码率的图象压缩编码方法 [J], 刘富强
5.一种适合低码率无线视频传输的容错编码方法 [J], 胡振;张正华
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于支持向量机的专业中文网页分类器
李亮;刘万春;徐泉清;朱玉文
【期刊名称】《计算机应用》
【年(卷),期】2004(024)004
【摘要】文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对分类好的专业网页进行多类分类.在构造支持向量机的过程中,为了提高分类的召回率,采用了一种偏移因子.该算法只需要计算二类SVM分类器,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率和召回率.
【总页数】4页(P58-61)
【作者】李亮;刘万春;徐泉清;朱玉文
【作者单位】北京理工大学,视觉与智能实验室,北京,100081;北京理工大学,视觉与智能实验室,北京,100081;北京理工大学,视觉与智能实验室,北京,100081;北京理工大学,视觉与智能实验室,北京,100081
【正文语种】中文
【中图分类】TP181
【相关文献】
1.一种基于反馈学习机制的支持向量机网页分类方法 [J], 张琼;封化民;何文才
2.基于决策支持向量机的中文网页分类器 [J], 贺海军;王建芬;周青;曹元大
3.一种基于预分类的高效SVM中文网页分类器 [J], 许世明;武波;马翠;邸思;徐洪
奎;杜如虚
4.基于支持向量机与无监督聚类相结合的中文网页分类器 [J], 李晓黎;刘继敏;史忠植
5.基于支持向量机与主成分相结合的网页分类器 [J], 陆新根
因版权原因,仅展示原文概要,查看原文内容请购买。