3基于交比的单幅图像平面几何信息提取算法
- 格式:pdf
- 大小:918.77 KB
- 文档页数:5
图像处理中常用的特征抽取算法介绍图像处理是计算机视觉领域的重要研究方向,而特征抽取是图像处理中的关键步骤之一。
特征抽取算法能够从原始图像中提取出具有代表性的特征,为后续的图像分析和识别任务提供有价值的信息。
本文将介绍几种常用的特征抽取算法。
一、颜色特征提取算法颜色是图像中最直观的特征之一,常用的颜色特征提取算法有颜色直方图和颜色矩。
颜色直方图统计了图像中不同颜色的像素数量分布,通过对颜色直方图的分析,可以得到图像的颜色分布特征。
而颜色矩则通过对图像中像素的颜色值进行统计,得到图像的颜色矩阵,从而描述图像的颜色分布和色彩信息。
二、纹理特征提取算法纹理是图像中的一种重要特征,可以描述图像中物体的表面细节和结构。
常用的纹理特征提取算法有灰度共生矩阵和小波变换。
灰度共生矩阵通过统计图像中像素灰度级别之间的关系,得到图像的纹理特征。
而小波变换则通过将图像分解成不同尺度和方向的子图像,提取出图像的纹理信息。
三、形状特征提取算法形状是图像中物体的外部轮廓和内部结构,常用的形状特征提取算法有边缘检测和轮廓描述。
边缘检测算法通过检测图像中像素灰度级别的变化,找到物体的轮廓。
而轮廓描述算法则通过对图像中物体轮廓的几何形状进行描述,提取出物体的形状特征。
四、局部特征提取算法局部特征是图像中局部区域的特征,常用的局部特征提取算法有SIFT和SURF。
SIFT算法通过检测图像中的关键点,并提取关键点周围的局部特征描述子,从而得到图像的局部特征。
而SURF算法则通过对图像中的兴趣点进行检测,并提取兴趣点周围的局部特征,用于图像匹配和识别任务。
五、深度学习特征提取算法深度学习是近年来图像处理领域的热门技术,深度学习特征提取算法通过使用深度神经网络模型,自动学习图像中的特征表示。
常用的深度学习特征提取算法有卷积神经网络(CNN)和循环神经网络(RNN)。
CNN通过多层卷积和池化操作,提取图像的局部特征和全局特征。
而RNN则适用于序列数据的特征提取,可以用于处理图像序列和视频数据。
摄影测量学:摄影测量学是对研究的对象进行摄影,根据所获得的构像信息,从几何方面和物理方面加以分析研究,从而对所摄对象的本质提供各种资料的一门学科。
数字摄影测量:数字摄影测量是基于数字影像与摄影测量的基本原理,应用计算机技术、数字影像处理、影像匹配、模式识别等多学科的理论与方法,提取所摄对象用数字方式表达的几何与物理信息的摄影测量学的分支学科。
空中三角测量:是立体摄影测量中,根据少量的野外控制点,在室内进行控制点加密,求得加密点的高程和平面位置的测量方法。
内方位元素:描述摄影中心与相片之间相互位置关系的参数空间后方交会:利用航摄像片上三个以上不在一条直线上的控制点按共线方程计算该像片外方位元素的方法空间前方交会(立体像对前方交会):由立体像对中两张像片的内、外方位元素和像点坐标来确定相应地面点的地面坐标的方法。
像点位移:一个地面点在地面水平的水平像片上的构象与地面有起伏时或倾斜像片上构象的点位不同,这种点位的差异称为像点位移。
数字影像重采样:由于数字影响是个规则的灰度格序列,当对数字影像进行处理时,所求得的点位恰好落在原始像片上像素中心,要获得该点灰度值,就要在原采样基础上再一次采样。
内定向:根据像片的框标和相应的摄影机检定参数,恢复像片与摄影机的相关位置,即建立像片坐标系。
外方位元素:用于描述摄影中心的空间坐标值和姿态的参数。
内方位元素:用来表示摄影中心与像片之间相关位臵的参数,即摄影中心到像片的垂距(主距)f及像主点o在像框标坐标系中的坐标x0,y0,。
内方位元素确定摄影时光束的形状。
绝对定向元素:确定相对定向所建立的几何模型比例尺和恢复模型空间方位的元素。
像主点:像片主光轴与像平面的交点。
主合点:地面上一组平行于摄影方向线的光束在像片上的构像。
金字塔影像:对二维影像进行低通滤波,并逐渐增大采样间隔,形成的影像像素依此减少的影像序列。
影像匹配:通过一定的匹配算法在两幅或多幅影像之间识别同名点的过程。
图像处理中的特征提取和匹配算法图像处理在日益热门的人工智能技术中扮演着一种重要的角色。
在图像处理中,特征提取和匹配算法是两个至关重要的步骤。
特征提取是通过分析图像的局部特点来创建描述图像内容的向量,而匹配是将不同图像的特征或特征向量进行比较,以确定它们是否相似。
本文将介绍几种常用的特征提取和匹配算法。
一、特征提取算法1.尺度不变特征变换(SIFT)SIFT是一种特征提取算法,它能够从不同的尺度和方向上提取图像的局部特征。
这种算法在检索和匹配图像中特别有用。
SIFT算法的基本思想是通过高斯差分算子得到一组尺度空间图像,通过高斯图像之间的差异来确定关键点,然后计算每个关键点的局部梯度的幅值和方向,最后形成一个基于梯度方向的特征描述符。
2.速度增强型稀疏编码(SLEEC)SLEEC是一种新型的高效特征提取算法。
与其他算法不同的是,SLEEC只需扫描一次训练数据即可获得最具代表性的特征。
该算法通过运用具有多个分辨率的降采样、随机稀疏和加速度分析三种技术提取特征,从而实现了比其他算法更高的准确性和速度。
二、特征匹配算法1.暴力匹配算法暴力匹配算法是一种基本的匹配算法,它实现了图像特征之间的精确匹配。
该算法通过比较两个图像之间的每个可能的匹配,来确定匹配的好坏。
虽然该算法的准确性很高,但是它非常耗时,因此只适用于小图像匹配。
2.基于Flann树的匹配算法基于Flann树的匹配算法通过对特征向量进行一系列分割和聚类,以快速找到大量数据中的相似匹配。
该算法不仅适用于大规模数据集,而且具有高效和稳定性。
3.随机抽样一致性算法(RANSAC)随机抽样一致性算法是一种常见的特征匹配算法。
该算法通过随机采样一对点来确定匹配,在这个过程中,通过迭代重复采样和检测结果,不断提高匹配模型的准确度。
结论:在图像处理和计算机视觉中,特征提取和匹配是核心算法。
不同的特征提取和匹配算法适用于不同的应用场合。
在实际应用中,为了达到对图像的快速识别和匹配,我们需要根据具体的需求,选择合适的特征提取和匹配算法。
摄影测量考试试题及详细答案1摄影测量学 2航向重叠3单像空间后⽅交会 4相对⾏⾼5像⽚纠正 6解析空中三⾓测量7透视平⾯旋转定律 8外⽅位元素9核⾯ 10绝对定向元素⼀、填空1摄影测量的基本问题,就是将_________转换为__________。
2物体的⾊是随着__________的光谱成分和物体对光谱成分固有不变的________、__________、和__________的能⼒⽽定的。
3⼈眼产⽣天然⽴体视觉的原因是由于_________的存在。
4相对定向完成的标志是__________。
5光束法区域⽹平差时,若像⽚按垂直于航带⽅向编号,则改化法⽅程系数阵带宽为_______,若按平⾏于航带⽅向编号,则带宽为_________。
三、简答题1两种常⽤的相对定向元素系统的特点及相对定向元素。
2倾斜位移的特性。
3单⾏带法相对定向后,为何要进⾏⽐例尺归化?为何进⾏?4独⽴模型法区域⽹平差基本思想。
5何谓正形变换?有何特点?四、论述题1空间后⽅交会的结算步骤。
2有三条航线,每条航线六像⽚组成⼀个区域,采⽤光束法区域⽹平差。
(1)写出整体平差的误差⽅程式的⼀般式。
(2)将像⽚进⾏合理编号,并计算带宽,存容量。
(3)请画出改化法⽅程系数阵结构简图。
A卷答案:⼀、1是对研究的对象进⾏摄影,根据所获得的构想信息,从⼏何⽅⾯和物理⽅⾯加以分析研究,从⽽对所摄影的对象本质提供各种资料的⼀门学科。
2供测图⽤的航测相⽚沿飞⾏⽅向上相邻像⽚的重叠。
3知道像⽚的⽅位元素,以及三个地⾯点坐标和量测出的相应像点的坐标,就可以根据共线⽅程求出六个外⽅位元素的⽅法。
4摄影瞬间航摄飞机相对于某⼀索取基准⾯的⾼度。
5将中⼼投影转换成正射投影时,经过投影变换来消除相⽚倾斜所引起的像点位移,使它相当于⽔平相⽚的构象,并符合所规定的⽐例尺的变换过程。
6是将建⽴的投影光束,单元模型或航带模型以及区域模型的数字模型,根据少数地⾯控制点,按最⼩⼆乘法原理进⾏平差计算,并求加密点地⾯坐标的⽅法。
测绘技术中的数据匹配与配准方法详解引言:测绘技术是现代空间信息技术不可或缺的一部分,它在城市规划、土地利用管理、交通规划等领域都起着重要作用。
在测绘技术中,数据匹配与配准是至关重要的步骤,它们决定了测绘结果的准确性和可靠性。
本文将详细介绍测绘技术中的数据匹配与配准方法。
一、数据匹配方法1. 特征点匹配特征点匹配是一种常见的数据匹配方法,它通过提取图像或地物的特征点,并将其与参考图像或地物的特征点进行匹配,从而实现图像或地物之间的匹配。
常用的特征点提取算法包括SIFT、SURF等。
特征点匹配方法适用于单幅图像匹配,例如航空摄影中的正射影像与DEM数据的匹配。
2. 区域匹配区域匹配是一种基于区域的数据匹配方法,它通过将图像或地物分割成不同的区域,然后将待匹配区域与参考区域进行匹配。
区域匹配方法适用于多波段或多尺度的图像匹配,例如遥感图像的多光谱数据匹配。
3. 点匹配点匹配是一种简单而常用的数据匹配方法,它通过将待匹配点与参考点进行比较,从而实现点之间的匹配。
点匹配方法适用于地面测量数据的匹配,例如全球定位系统(GPS)数据的配准。
二、配准方法1. 基于几何变换的配准基于几何变换的配准是一种常用的配准方法,它通过将待配准数据与参考数据进行几何变换,从而实现两者之间的空间一致性。
常用的几何变换包括平移、旋转、缩放和仿射变换等。
基于几何变换的配准方法适用于相似物体或图像之间的配准。
2. 基于特征变换的配准基于特征变换的配准是一种基于特征点匹配的配准方法,它通过将待配准数据的特征点与参考数据的特征点进行匹配,并根据匹配结果进行变换,从而实现两者之间的配准。
常用的特征变换方法包括RANSAC算法和最小二乘法等。
基于特征变换的配准方法适用于复杂地物或图像之间的配准。
3. 基于图形模型的配准基于图形模型的配准是一种基于图论的配准方法,它通过将待配准数据和参考数据建模成图形模型,并利用图论算法求解最优配准结果。
常用的图形模型方法包括最大似然估计和最大后验概率等。
图像分割水平集方法图像分割是计算机视觉中的重要任务之一,它旨在将一幅图像分割成若干个具有相似特征的区域。
水平集方法是一种常用的图像分割方法,它通过曲线演化的方式来实现分割过程。
本文将介绍图像分割的基本概念,并详细介绍水平集方法的原理及应用。
一、图像分割的基本概念图像分割是指将一幅图像划分成若干个区域,使得每个区域内的像素具有相似的属性。
图像分割在计算机视觉中具有广泛的应用,如目标检测、边缘提取、图像识别等。
常用的图像分割方法包括基于阈值、基于边缘和基于区域的方法。
基于阈值的图像分割方法是指通过设定一定的阈值,将图像中像素的灰度值与阈值进行比较,将灰度值大于或小于阈值的像素分别划分到不同的区域。
这种方法简单快速,适用于对比度较明显的图像分割任务。
基于边缘的图像分割方法是指通过检测图像中的边缘信息来进行分割。
边缘是指图像中颜色、亮度等属性发生突变的位置。
常用的边缘检测算法包括Sobel、Canny等,通过提取图像中的边缘信息,可以将图像划分成若干个相邻的区域。
基于区域的图像分割方法是指将图像中的像素根据其属性进行区域合并或划分。
这种方法通常包括生长式算法、切割式算法等。
生长式算法从种子点出发,逐步将与其相邻且具有相似属性的像素合并到同一区域;切割式算法通过对图像进行分割树构建,然后再进行自底向上的切割操作。
二、水平集方法的原理水平集方法是一种基于曲线演化的图像分割方法,它通过对图像中的曲线进行演化,并利用曲率等特征来进行分割。
水平集方法常用的表达形式是一个函数,称为水平集函数,它可以表示曲线或曲面在图像中的变化。
水平集方法的核心思想是对水平集函数进行演化,使其能够逐渐收敛到目标分割结果。
演化过程中,水平集函数会受到图像梯度、曲率等信息的作用,从而逐渐改变其形状,并最终达到分割的目标。
水平集方法的演化过程通常由以下几个步骤组成:1. 初始化水平集函数:通过设定起始曲线或曲面来初始化水平集函数,起始曲线通常在图像中具有明显的特征。
SIFT特征提取算法SIFT(Scale-Invariant Feature Transform)特征提取算法是一种用于图像的局部特征分析的算法。
它能够提取出图像中的关键点,并对这些关键点进行描述,从而可以用于图像匹配、物体识别等应用领域。
本文将详细介绍SIFT算法的原理和过程。
1.尺度空间构建SIFT算法首先通过使用高斯滤波器来构建图像的尺度空间,以便在不同尺度下检测关键点。
高斯滤波器可以通过一系列的高斯卷积操作实现,每次卷积之后对图像进行下采样(降低分辨率),得到不同尺度的图像。
2.关键点检测在尺度空间构建完成后,SIFT算法使用差分运算来检测关键点。
差分运算可以通过对图像进行高斯平滑操作来实现,然后计算相邻尺度之间的差分图像。
对差分图像进行极值检测,即寻找局部最大和最小值的像素点,这些像素点就是图像中的关键点。
3.关键点精确定位关键点的精确定位是通过拟合关键点周围的局部图像来实现的。
SIFT算法使用了一种高度鲁棒的方法,即利用关键点周围梯度的方向和大小来进行拟合。
具体来说,SIFT算法在关键点周围计算图像的梯度幅值和方向,并构建梯度直方图。
然后通过在梯度直方图中寻找局部极值来确定关键点的方向。
4.关键点描述关键点的描述是为了提取关键点周围的特征向量,用于后续的匹配和识别。
SIFT算法使用了一种局部特征描述算法,即将关键点周围的图像区域划分为小的子区域,并计算每个子区域的梯度方向直方图。
然后将这些直方图组合起来,构成一个维度较高的特征向量。
5.特征向量匹配在完成关键点描述之后,SIFT算法使用一种近似的最近邻方法来进行特征向量的匹配。
具体来说,使用KD树或者暴力匹配的方法来寻找两幅图像中最相似的特征向量。
通过计算特征向量之间的距离,可以找到最相似的匹配对。
6.尺度不变性SIFT算法具有尺度不变性的特点,即对于图像的缩放、旋转和视角变化等变换具有较好的鲁棒性。
这是因为在特征提取的过程中,SIFT算法对图像进行了多尺度的分析,并利用了关键点周围的梯度信息进行描述。
传感技术学报CHINESE JOURNAL OF SENSORS AND ACTUATORS Vol.34No.3 Mar.2021第34卷第3期2021年3月Piecewise Planar3D Reconstruction for Indoor Scenes from a Single Image Based on Atrous Convolution and Multi-Scale Features Fusion*SUN Keqiang,MIAO Jun*9JIANG Ruixiang,HUANG Shizhong,ZHANG Guimei (Computer Vision Institute of Nanchang Hongkong University,Nanchang Jiangxi33Q063f China)Abstract:It is hard for pixel-level and regional-level3D reconstruction algorithms to recover details of indoor scenes due to luminous changes and lack of texture.A piecewise planar3D reconstruction method is proposed based on the convolution residual connection of the holes and the multi-scale feature fusion network.This model uses the shallow high-resolution detail features generated by the ResNet-101network with the added hole convolution to reduce the loss impact of spatial information as network structure deepens on the detail reconstruction,so that this model can learn more abundant features and by coupling positioning accuracy optimized by the fiilly connected conditional random field(CRF)with the recognition ability of deep convolutional neural network,which keeps better boundary smoothness and details・Experimental results show that the proposed method is robust to the plane prediction of indoor scenes with complex backgrounds,the plane segmentation results are accurate,and the depth prediction accuracy can reach92.27%on average.Key words:3D reconstruction of indoor scene;deep convolutional neural network;conditional random field;atrous convolution;multi-scale feature fusionEEACC:6135;6135E doi:10.3969/j.issn.l004-1699.2021.03.012基于空洞卷积与多尺度特征融合的室内场景单图像分段平面三维重建*孙克强,缪君*,江瑞祥,黄仕中,张桂梅(南昌航空大学计算机视觉研究所,江西南昌330063)摘要:受光照变化和纹理缺乏等因素的影响,基于单幅室内场景图像的像素级和区域级三维重建算法很难恢复场景结构细节。
第22卷第4期2023年7月杭州师范大学学报(自然科学版)JournalofHangzhouNormalUniversity(NaturalScienceEdition)Vol.22No.4Jul.2023收稿日期:2022 07 03 修回日期:2022 07 27基金项目:国家自然科学基金项目(61972458,61801159);浙江省自然科学基金项目(LZ23F020002).通信作者:缪永伟(1971—),男,教授,博士生导师,主要从事计算机图形学、点云建模与处理、计算机三维视觉、机器学习与深度学习等研究.E mail:ywmiao@hznu.edu.cn犱狅犻:10.19926/j.cnki.issn.1674 232X.2023.04.009基于深度学习的单幅图像三维重建李秀梅,何鑫睿,白 煌,孙军梅,缪永伟(杭州师范大学信息科学与技术学院,浙江杭州311121)摘 要:随着深度学习技术的发展,深度神经网络在图像处理和三维重建中得到广泛应用,为探究目前深度学习框架下的单幅图像三维重建研究现状,该文对近年的相关研究工作进行综述.首先介绍深度学习框架下基于图像的不同三维重建方法的分类;其次梳理图像三维重建中不同神经网络方法的研究进展;并根据重建三维模型表示方式的不同,分别讨论针对体素、点云、网格、隐式等不同表示方式的单幅图像三维重建网络和方法;然后给出单幅图像三维重建中的常用评价指标与数据集,并对公开数据集下针对不同表示方式的各类三维重建方法的结果进行比较与分析;最后对单幅图像三维重建所面临的困难和挑战进行讨论,并给出未来的研究方向.关键词:深度学习;单幅图像;三维重建;体素;点云;网格;隐式表示中图分类号:TP391.41 文献标志码:A文章编号:1674 232X(2023)04 0397 140 引言三维重建是计算机视觉与图形学领域的重要研究方向,其应用领域相当广泛,涉及工业辅助设计、城市数字化建模、文物数字化保护、医学CT器官重建、三维影视动漫制作等行业[1].现有三维物体或三维场景的建模方式之一是借助三维设计软件(如3DMax、Maya、Unity3D等)进行手动建模,但是由于手动建模效率相对较低,需要由专业人士才能完成.另一种方式是通过对真实物体或三维场景进行结构扫描并完成数字化三维重建,但由于专业设备价格昂贵,导致其应用场景受到限制.然而,由于图像(或照片)数据通常较易获取,其具有低成本、海量数据等特点,从而基于图像的三维重建逐渐成为当前研究热点,更适合于需要便捷式三维重建的应用场合.一般来说,传统基于图像的三维重建方法主要依赖于单视图或多视图几何计算,并通过图像的阴影、纹理、运动视差等信息恢复三维形状[2].但是,由于传统方法对图像自遮挡不可见部分的结构推测通常较困难,其对视图纹理明暗等信息要求较高,同时求解重建参数的算法较复杂,重建方法效率低、难以达到实用水平.近年来,随着深度学习技术的发展,深度学习框架下的图像三维重建方法的研究得到了普遍重视.具体来说,深度学习框架下基于图像的三维重建旨在通过构建相应神经网络,利用已有的大量图像数据与三维模型数据进行训练,通过学习图像数据与三维模型之间的映射关系,最终实现基于图像的三维重建.深度学习框架下基于图像的三维重建研究可以根据输入图像类型、网络学习方式、输入图像数量或重建模型的表示方式等角度进行分类,如图1所示.图1 基于图像的重建方法分类犉犻犵.1 犆犾犪狊狊犻犳犻犮犪狋犻狅狀狅犳犻犿犪犵犲犫犪狊犲犱狉犲犮狅狀狊狋狉狌犮狋犻狅狀犿犲狋犺狅犱狊根据输入图像的类型不同,基于图像的三维重建可以分为基于草图图像的重建[3 4],基于深度图像的重建[5 6]和基于RGB图像的重建[7].根据重建神经网络所采用学习方式的不同,基于图像的三维重建可以分为基于二维监督学习[8]、三维监督学习[9]、二维三维联合监督学习的图像三维重建[10].根据输入图像数量的不同,图像三维重建可以分为基于单幅图像的重建[9]和基于多幅图像的重建[11]两类.根据三维重建中模型表示方式的不同,图像三维重建可以分为基于体素表示、基于点云表示、基于网格表示和基于隐式表示的三维重建[12].由于基于深度学习的图像三维重建具有不同的分类标准,并且不同分类标准下的重建方法通常有所重叠与交叉,因此本文主要根据三维重建模型的表示方式不同作为分类标准,着重对近年基于深度学习的单幅图像三维重建方法进行分析和讨论.需要指出的是,虽然Fu等[13]和Fahim等[14]对深度学习背景下基于图像的三维重建进行了分析与讨论,但内容以讨论经典网络框架为主.龙霄潇等[15]主要介绍了三维视觉领域的当前研究进展,但对单幅图像重建方向的探讨较少.然而,由于深度学习和神经网络研究的不断深入,大量具有创新性的重建方法研究相继涌现,本文将在回顾经典重建方法的同时,重点对近年提出的基于深度学习的单幅图像三维重建方法进行分析、讨论和展望.1 图像三维重建中的网络结构一般来说,常见适用于图像三维重建的神经网络包括卷积神经网络(convolutionalneuralnetwork,CNN)、循环神经网络(recurrentneuralnetwork,RNN)和图卷积网络(graphneuralnetwork,GNN)[16 18].基于深度学习的图像三维重建网络普遍基于卷积神经网络CNN[18].基础卷积网络的发展不断推动着三维重建网络的进步,如Krizhevsky等[18]提出的AlexNet深度卷积神经网络由5个卷积层、3个池化层和3个全连接层构成,该网络在ImageNet大赛中获得冠军,同时在各项计算机视觉任务中均表现出色.随后Girdhar等[19]提出的TL Net重建网络中的图像编码器便以AlexNet网络结构为基础进行微调.而作为ILSVRC2014比赛分类项目第2名的VGGNet网络[20],其基于3 3轻量级卷积核的网络模块同样被Pix2Vox[21]网络作为编码器引入.针对图像生成任务,Goodfellow等[22]提出一种对抗生成网络GAN(generativeadversarialnets)结构,该网络分为生成器与鉴别器两部分,网络学习中通过两者的对抗训练和优化最终获得出色的图像生成效果.GAN网络结构同样被应用于三维重建任务中,例如Wu等[23]和Smith等[24].通过引入残差结构,He等[25]提出了一种针对图像识别任务的ResNet卷积网络,该网络将卷积层进行跳跃连接,其构建的残差结构引起大量关注,并影响了ResMeshNet[26]、Pix2vox++[27]等一系列包含残差结构的三维重建网络的结构设计.在残差结构的基础上,Huang等[28]提出了一种包含密893杭州师范大学学报(自然科学版)2023年 集连接结构的DenseNet网络结构,该网络结构被引入Peng等[29]提出的IMVD图像重建网络.Howard等[30]基于深度可分离卷积结构提出了MobileNet网络结构,该网络被Jack等[31]用于变形重建网络中进行图像信息处理以获得模型形变估计参数.获得ILSCRV2017冠军的缩聚激发网络SENet[32]则提出了一种通过特征压缩激励实现权重分配的注意力思想,并在图像三维重建网络的中间层特征处理中得到了应用.Sun等[33]提出的图像多尺度特征融合网络HRNet在METRO[34]等图像三维重建网络中作为编码器使用,取得较好的效果.除CNN网络外,根据重建任务侧重点不同,不同类型的深度学习网络框架也对三维重建网络发展产生重要影响,如主要应用于语音、文本等序列化数据处理发展的循环神经网络RNN,其经典的长短期记忆(longshort termmemory,LSTM)单元[16]、门控循环单元(gatedrecurrentunit,GRU)[35]应用于三维重建网络中能够很好地处理序列化模型视图与模型部件,如Zou等[36]提出基于单幅深度图像重建的3DPRNN网络,该网络首先将图像输入到由卷积网络构成的编码器中,然后编码成深度特征向量,最后利用LSTM预测图元序列.Choy等[9]提出了基于编码解码结构并嵌入LSTM单元的经典重建网络3D R2N2,该网络在编解码网络之间利用LSTM单元与GRU单元有效地实现图像隐藏特征的融合.基于RNN序列处理思想,Wu等[37]提出基于Seq2Seq自编码器,实现了顺序部件组装和三维物体表征的重建.图卷积网络GNN结构则擅长处理关系型数据,其在知识图谱、推荐系统等方面已取得较好的应用,在三维重建任务中则适用于三维模型节点特征的处理.例如,Wang等[38]提出了一种结合GNN的图像三维网格模型重建网络Pixel2Mesh,该网络很好地利用GNN进行三维模型顶点位置预测.Lin等[39]则将GNN与经典模块Transfomer有效融合,提出了一种重建网格模型的神经网络Graphormer,其在利用GNN进行局部信息交互的基础上进一步增强了信息的全局交互.2 不同模型表示下的单幅图像三维重建现有三维重建中的模型表示类型主要包括体素、点云、网格和隐式4类[12],如图2所示. (a)体素 (b)点云 (c)网格 (d)隐式图2 三维模型的不同表示形式犉犻犵.2 犇犻犳犳犲狉犲狀狋狉犲狆狉犲狊犲狀狋犪狋犻狅狀狊狅犳3犇犿狅犱犲犾狊体素模型受到单一立方体块表达能力限制,其存在细节缺乏以及难以表示出平滑的分界面等问题;然而,体素模型数据结构由三维矩阵表示,其表示简单并适应于卷积神经网络的矩阵运算,因而体素表示成为基于深度学习的图像三维重建的主流模型表示方式.点云则是一种离散的模型结构表示,其利用物体表面的离散采样点表示物体三维形状,点云表示难以表示连续的三维形状(如曲线曲面);然而,点云表示方式简单,无须编码多个不同的基本体素,使得三维重建网络能够更容易训练学习采样点空间分布.此外,当涉及到几何变换和形状变形时,点云表示具有的无序特性通常可以有效减小编码过程中的排序约束,使得其在大规模场景重建中具有很好的应用.网格表示通常由顶点、边、面组成,其在表示三维形状时993 第4期李秀梅,等:基于深度学习的单幅图像三维重建具有轻量级、形状表面细节丰富等特点;然而,由于表征顶点之间拓扑连接关系中各个顶点的相邻顶点数目通常并不一致,并且数据处理中要保持顶点的有序性使得常见卷积神经网络难以直接处理这种非欧几里得结构的数据,因而基于深度学习的网格模型表示三维重建工作具有一定的挑战.虽然上述不同的模型显式表示研究应用广泛,然而这些显式结构易受计算和存储效率的限制,难以表示任意拓扑形状的高分辨率三维模型.而基于隐式表示的三维重建通过建立隐式函数能够输入高分辨率查询点获得模型参数曲面,其所重建得到的三维模型在分辨率、精细程度方面获得了有效提升.2.1 基于体素表示的重建网络表1所示给出了基于体素模型表示的单幅图像三维重建方法一览表.表1 基于体素表示的单幅图像三维重建方法一览表犜犪犫.1 犔犻狊狋狅犳3犇狉犲犮狅狀狊狋狉狌犮狋犻狅狀犿犲狋犺狅犱狊狅犳狊犻狀犵犾犲犻犿犪犵犲犫犪狊犲犱狅狀狏狅狓犲犾狉犲狆狉犲狊犲狀狋犪狋犻狅狀网络年份技术特点数据集PTNet[40]2016基于自编码器结构,训练同时输入二维图像和体素模型IKEAShapeNet3D R2N2[9]2016编解码器中,嵌入LSTM,GRU模块融合特征Pascal3D+ShapeNetV LSM[41]2016在编码器后,使用了反投影将二维特征图恢复至三维结构ShapeNet3D VAE GAN[23]2016将变分自编码器与对抗生成网络结合ModelNetIKEA3D VAE IWGAN[24]2017在3D VAE GAN基础上增加Wasserstein正则项ModelNetIKEA3DensiNet[42]2017堆叠了两个自编码器,中间生成密度热图作为过渡Pascal3D+ShapeNetMarrNet[43]2017将图像首先进行2.5D估计获得法线、深度和轮廓图像然后进行三维重建Pascal3D+ShapeNet,IKEADRC[44]2017提出微分光线一致性公式,可从任意视角计算给定观测值的三维形状的梯度Pascal3D+ShapeNetOGN[45]2017提出基于八叉树数据结构的卷积解码器ShapeNetBlendSwapMatryoshka[46]2018解码器直接不生成体素模型,而是生成形状层嵌套构成模型ShapeNetIm2Avatar[47]2018设计形状编解码与颜色编解码并行网络重建彩色模型ShapeNetMakeHuman1DAREC[48]2019在自然和合成图像的图像隐空间中增加特征域混淆,以加强真实图片重建Pascal3D+Pix3DAttSets[11]2019在编解码网络中添加注意力聚集模块ShapeNetModelNet,BlobbyPix2Vox[21]2019堆叠了两个自编码器,在两者之间设置感知融合模块加权融合多视图重建模型ShapeNetPix3DPix2Vox++[27]2020将卷积层替换为残差连接模块ShapeNetPix3D,Things3DIMVD[29]2020编码端对特征图进行多特征融合,解码端将多个低分辨率体积堆叠构成高分辨率模型ShapeNetEVolT[49]2021利用Transfomer模型处理图像特征ShapeNetMem3D[50]2021通过图像检索先验形状模型,结合图像信息进行重建ShapeNetPix3D2.2 基于点云表示的重建网络表2所示给出了基于点云表示的单幅图像三维重建方法一览表.004杭州师范大学学报(自然科学版)2023年 表2 基于点云表示的单幅图像三维重建方法一览表犜犪犫.2 犔犻狊狋狅犳3犇狉犲犮狅狀狊狋狉狌犮狋犻狅狀犿犲狋犺狅犱狊狅犳狊犻狀犵犾犲犻犿犪犵犲犫犪狊犲犱狅狀狆狅犻狀狋犮犾狅狌犱狉犲狆狉犲狊犲狀狋犪狋犻狅狀网络年份技术特点数据集PSGN[51]2017针对点云模型采用了CD和EMD等距离作为损失ShapeNetLin等[52]2017使用二维卷积运算从多个视点预测三维结构,并联合应用几何推理和二维投影优化ShapeNet3D LMNet[53]2019训练点云自编码器以及图像至点云自编解码,在隐空间对两个网络进行匹配ShapeNetPix3DRealPoint3D[54]2019根据图像信息进行点云模型检索,补充了先验点云形状ShapeNetObjectNet3DSSl Net[55]2019基于自监督学习包括了图像监督与点云监督ShapeNetPGNet[56]2020对图像所表示物体按部件进行语义分割,然后根据部件重建并组合ShapeNet3D ReConstnet[57]2020将图像所提取特征映射至正态分布,以处理对象自遮挡部分的不确定性ShapeNetPix3DTDPNet[58]2021使用聚类算法获取3D特征与二维特征融合构建隐藏向量ShapeNetModelNet3D Arnet[59]2021图像编码器融合了注意力机制ShapeNetPix3DChen等[60]2021针对多目标物体重建增加裁剪、检索预处理方法ShapeNet2.3 基于网格表示的重建网络表3所示给出了基于网格表示的单幅图像三维重建方法一览表.表3 基于网格表示的单幅图像三维重建方法一览表犜犪犫.1 犔犻狊狋狅犳3犇狉犲犮狅狀狊狋狉狌犮狋犻狅狀犿犲狋犺狅犱狊狅犳狊犻狀犵犾犲犻犿犪犵犲犫犪狊犲犱狅狀犵狉犻犱狉犲狆狉犲狊犲狀狋犪狋犻狅狀网络年份技术特点数据集Pontes等[61]2017基于FFD变形基础网格模板,利用CNN估计形变参数,计算投影顶点与轮廓损失ShapeNetPascal3D+Image2Mesh[62]2017基于ESH3D方法舍弃了顶点与轮廓损失ShapeNetN3MR[63]2017针对光栅化导致梯度难以反向传播问题,提出了一种近似梯度计算方法ShapeNetMesh2Donly[64]2018使用可微渲染器进行非监督学习ShapeNetResMeshNet[26]2018使用多层MLP变形初始10 10网格,输出2500节点网格模型ShapeNetPixel2Mesh[38]2018利用残差图卷积网络处理节点信息ShapeNetSoftRasterizer[65]2019相比于近似可微渲染,提出一种真正可微渲染器ShapeNePixel2Mesh++[66]2019基于Pixel2Mesh生成模型,并进一步变形优化ShapeNetGEOMetrics[67]2019采用不完全聚合邻接节点信息策略,以及仅在高曲率面添加节点策略ShapeNetMeshR CNN[68]2019针对真实图像,结合MaskR CNN图像分割网络,体素重建网络以及图卷积网络进行重建ShapeNetPix3DPavllo等[69]2020结合可微渲染,对抗训练重建具有纹理信息的网格模型Pascal3D+CUBFront2Back[70]2020根据输入图像对背部视角图像信息进行估计,然后将二者信息结合进行重建ShapeNetPavllo等[71]2021利用重建投影的自监督方法来学习姿态,解决视角不同的姿态纠缠问题ShapeNetPascal3D+2.4 基于隐式表示的重建网络表4所示给出了基于隐式表示的单幅图像三维重建方法一览表.104 第4期李秀梅,等:基于深度学习的单幅图像三维重建表4 基于隐式表示的单幅图像三维重建方法一览表犜犪犫.4 犔犻狊狋狅犳3犇狉犲犮狅狀狊狋狉狌犮狋犻狅狀犿犲狋犺狅犱狊狅犳狊犻狀犵犾犲犻犿犪犵犲犫犪狊犲犱狅狀犻犿狆犾犻犮犻狋狉犲狆狉犲狊犲狀狋犪狋犻狅狀网络年份技术特点数据集OccNet[72]2019将初始分辨率下体素标记为占用与非占用,对占用体素进一步细分至目标分辨率,然后利用立方体算法获得网格模型并用快速二次网格简化算法优化ShapeNetDeepSDF[73]2019网络以一个潜在编码和一个三维位置作为输入,并产生相应的有符号距离值,符号为区别模型的内部(-)与外部(+),值表示距模型边界距离ShapeNetSDF SRN[74]2020将可微渲染与隐式三维形状表示学习相结合ShapeNetPascal3D+Niemeyer[75]2020直接从RGB图像中学习隐式形状和纹理ShapeNetDIST[76]2020在神经网络的隐式符号距离函数上实现有效的可微绘制,将隐式SDF渲染如深度图像、表面法线、轮廓等二维观测值进行损失计算ShapeNetPMOYang等[77]2020在重建中添加物理约束项联合优化潜在代码和形状先验ShapeNet3D43D[78]2020用查询点的占用与非占用表示模型,查询点的预测,结合了基于相机坐标进行投影采样的信息ShapeNetDuggal[79]2021利用深度编码器预测初始化编码,并利用深度鉴别器进行正则化ShapeNet,KITTINorthAmerica3 数据集、评价指标与实验分析3.1 数据集近年来,受益于深度学习与神经网络技术的快速发展,使得基于图像(包括单幅图像或多幅图像)的三维重建研究取得了长足进步,这些研究进步很大程度上需要依赖于众多丰富的三维模型数据集的研制和提出.目前常用的三维模型数据集如表5所示.表5 常用三维模型数据集犜犪犫.5 犆狅犿犿狅狀3犇犿狅犱犲犾犱犪狋犪狊犲狋狊数据集年份模型类别图片主题IKEA[80]201322511800家具ModelNet[81]2015151128660-综合物体ShapeNetSem[82]201512000270-综合物体ShapeNetCore[82]20155130055-综合物体Pix3D[83]2018395910069家居物品3D Future[84]202099213420240家具3.1.1 IKEA数据集以日常家具为主体的小规模三维模型IKEA数据集[80],由麻省理工学院计算机科学和人工智能实验室于2013年发布.研究者通过在谷歌三维仓库中收集的三维模型以及在Flickr图像网站中收集图像建立数据集,其中包括225个家具模型以及800张图像,这些图像为真实模型图像,并有对应注释图像.3.1.2 ModelNet数据集ModelNet数据集[81]是大规模家具类型数据集,其中涉及660个类别,151128个模型.ModelNet数据集同时发布了两个分别包含40类物体与10类物体的子数据集,命名为ModelNet40与ModelNet10.由于原数据集规模庞大导致网络训练较困难,三维视觉领域通常采用子数据集ModelNet40作为研究对象.数据集的发布初期主要应用于三维模型的分类、识别、检索任务,随着基于深度学习的三维重建方向研究的兴起,该数据集同样也可应用于三维重建和形状分割等任务.204杭州师范大学学报(自然科学版)2023年 3.1.3 ShapeNet数据集ShapeNet数据集[82]由斯坦福大学、普林斯顿大学以及丰田芝加哥研究中心于2015年联合发布,其为三维重建领域所普遍使用的基础性数据集.该数据集作为大型综合性的3DCAD模型数据集,提供了类别丰富、注释完整的三维模型,但不包含图像数据,图像则由所提供的可视化及模型渲染工具自助生成.该数据集分为ShapeNetCore、ShapeNetSem两个子集,Core中包含模型类别55类共51300个模型,Sem包含更加细分的270类共12000个模型.ShapeNet类别涵盖汽车、飞机、桌椅、台灯等各类日常物体.3.1.4 Pix3D数据集Pix3D数据集[83]是由IKEA数据集扩展构成,包含三维模型与相匹配的真实场景下物体二维图像,其中涉及9个常见家居物品类别,总模型数量为395个,二维图像10069张.在图像中的形状及其轮廓之间提供像素级对齐,且拥有较为准确的注释信息.该数据集的提出弥补了此前ShapeNet数据集缺失现实图像,以及IKEA数据集模型数据量相对较少等缺点.Pix3D数据集被广泛应用于与三维形状相关的计算机视觉任务中,如模型重建、模型检索等.3.1.5 3D Future数据集3D Future数据集[84]是由阿里巴巴躺平平台于2020年发布且主要以室内家具为主题的三维模型数据集.该数据集包含桌椅、床柜、灯具等34种类别家具模型,拥有模型数量9921个,对应高质量图像20240张.其中所提供图像包括相应家具模型的实际场景图像以及12个不同视角的单个家具图像,同时为所有图像提供相匹配的Mask图像.该数据集弥补了现有数据集中家具模型细节较少、纹理信息量低等缺陷,所提供模型具有高品质、风格丰富的特点,可应用于模型分割、检索、重建等任务.3.2 评价指标由于三维模型表示形式的不同,其所对应的评价指标通常也有所不同.这里将对现有常用的用于三维模型重建的评价指标分别进行介绍.3.2.1 IoU值IoU值[85]为一种计算体素表示下重建模型与真实模型之间拟合程度的评价指标.该指标计算公式如式(1)所示,其中S为重建模型,G为真实模型,其二者具有相同的分辨率.IoU值可以计算为逐体素计算二者相交区域除以相并区域,其结果取值范围为[0,1],IoU值越高表示重建效果越好.IoU=犛∩犌犛∪犌.(1)3.2.2 F Score值F Score值[86]是机器学习与深度学习分类分割任务中主流的评价指标,定义为精度和召回率之间的调和平均值,其可用于全面评估模型的有效性.Tatarchenko等[87]提出在三维重建任务中同样可以作为模型重建效果的评判标准.F Score计算公式如式(2)所示:犉=(1+β2)·犘s(犱)·犚r(犱)β2·犘s(犱)+犚r(犱).(2)其中β为调和系数,犘s(犱)和犚狉(犱)分别表示重建模型点集S与真实模型点集G之间自身节点在对方点集中存在近似节点数与自身点集节点总数的比例.犘s(犱)和犚狉(犱)计算如式(3)和(4)所示:犘s(犱)=100犛.∑狓∈犛min狔∈犌‖狓-狔‖<[]犱,(3)犚r(犱)=100犌.∑狔∈犌min狓∈犛‖狓-狔‖<[]犱.(4)其中犛为重建点集,犌为真实点集,狓,狔为所在点集中任意一点,犱为距离阈值,节点距离小于阈值犱则被视为近似节点.3.2.3 Chamferdistance误差度量Chamferdistance(CD)[88]是一种度量两个不同点集之间相似性的评价指标,在三维重建任务中被用304 第4期李秀梅,等:基于深度学习的单幅图像三维重建于针对点云和网格两类表示的重建准确性评价.其计算公式如式(5)所示,其中犘,犙为所比较的两个点集,狓,狔表示相应点集中的单位点.计算方法为对两个点集分别计算所有单位点到另一点集中最近点的平方欧式距离,然后分别求得点集间最近平均距离并相加.犱CD=1犘∑狆∈犘min狔∈犙‖狆-狇‖22+1犙∑狇∈犙min狓∈犘‖狆-狇‖22.(5)3.2.4 EarthMover sdistance误差度量EarthMover sdistance[89](EMD)表示重建点集到真实点集变化的最短距离,同样在三维模型重建领域用于评价点集间的相似性.计算公式如(6)所示:犱EMD=min :犛1→犛2∑狓∈犛1‖狓- (狓)‖2.(6)其中犛1,犛2为所比较的计算点集,其存在要求两者点数量相同的约束, 表示双线性映射.3.2.5 MeanSquaredError误差度量MeanSquaredError(MSE)在三维重建中计算重建模型和真实模型之间的对称表面距离,见式(7).犱MSE(^犡,犡)=1狀狓∑狆∈犡犱(狆,^犡)+1狀^狓∑狆∈^犡犱(狆,犡).(7)其中狀^狓和狀狓表示重建模型^犡和真实模型犡中的采样点数量,犱()表示点直接的距离,可以为犔1或犔2等.其计算距离越低,重建结果则越好.3.3 基于犛犺犪狆犲犖犲狋数据集的重建实验与讨论分别针对基于体素表示、点云表示、网格表示及隐式表示下的图像三维重建网络的重建效果进行比较和讨论[82].数据集模型类别均来自于Choy等[9]所选取的13类物体,包括沙发、车、船、飞机、台灯等,其重建结果如表6所示,其中体素与隐式重建评价指标为IoU,点云与网格重建评价指标为CD误差.在体素表示的模型重建实验中,这里比较32×32×32分辨率下的体素模型三维重建结果.早期提出的3D R2N2[9]与V LSM[41]均采用RNN网络进行图像中间特征处理,由于RNN为按顺序处理,并没有并行化处理从而导致重建耗时较高.同时3D R2N2仅基于语言线索,其IoU为0.560,重建准确率较低,而V LSM在结构上添加投影模块补充几何线索,相对提升了重建准确率.OGN网络[45]和Matryoshka网络[46]在模型分辨率32×32×32下的体素重建中IoU的提升并不明显,但其优势在于可以实现256×256×256的高分辨率模型三维重建.AttSets网络[11]、Pix2Vox网络[21]与Pix2Vox++网络[27]采用并行的特征图加权融合方式,消除了输入图像顺序的影响,加快了计算速度、提升了重建准确率.近年提出的IMVD[29]与Mem3D网络[50]采用新的重建模式,通过构建先验的模型存储网络,在网络的模型检索基础上进行模型重建,其IoU分别达到0.714与0.729.在网格模型的三维重建实验中,AtlasNet网络[63]与ResMeshNet网络[26]均通过变形二维网格实现三维模型的重建,虽然如ResMeshNet网络等其重建结果的CD指标较低为0.320,但仍存在曲面片不闭合、不同网格面片可能重叠等缺陷.然而,例如Pixel2Mesh网络[38]、Pixel2Mesh++网络[66]和GEOMet rics网络[67]均采用变形三维椭圆网格重建,其所重建模型具有连续网格曲面、具有较好的模型完整性.MeshR CNN[68]网络为基于Pixel2Mesh发展得到的网络,但其不同于变形三维椭圆网格重建方式,MeshR CNN网络采取两阶段方式进行三维重建,第一阶段重建体素化网格,第二阶段为形状变形,改进了Pixel2Mesh网络[38]等基于变形三维网格孔洞部位难以重建问题并提升了重建效果.在点云模型的三维重建实验中,PSGN网络[51]是早期提出的经典重建网络,在合成图像与真实图像中均有较好的重建效果,但其重建得到的点云较为稀疏,之后提出的3D LMNet网络[53]其重建得到的点云模型较为稠密.同时,3D LMNet网络[53]、SSl net网络[55]与3D Arnet网络[59]等均为多阶段网络,其图像编码器与点云自编码器分开训练,但跨网络传输机制存在特征丢失问题;而3D ReConstnet网络[57]则采用端到端结构,其重建结果的CD值达到0.409,取得了较好的重建效果.此外,与体素重建网络相同,Chen等[60]所提出的点云重建网络同样引入图像检索方法辅助重建,其重建CD相比于PSGN网络[52]得404杭州师范大学学报(自然科学版)2023年 。
改进相似性度量模型的单幅图像自学习超分辨算法赵丽玲;孙权森【摘要】在自学习超分辨算法中,高低分辨率图像块匹配是否准确是算法的关键.在高低分辨率图像块匹配过程中,考虑图像块纹理结构的重要性,提出了一种基于纹理约束的图像块相似性度量模型,应用该模型完成了高低分辨率图像块更为准确的匹配,使超分辨结果图像的细节更加丰富,进一步提高了图像质量.该算法仅使用了单幅低分辨率图像自身的相关先验信息,有效提升了图像的空间分辨率.实验结果表明,与双三次插值算法、自相似学习超分辨算法相比,本文提出的算法超分辨视觉效果更好,并且在客观评价指标中同样表现良好.%The accurate matching of high and low resolution image blocks is the key of self-examples super resolution algorithm.In the process of blocks matching of high and low resolution images,considering the importance of texture image block structure,a similarity metric model based on constrained texture image patch is proposed in this paper.By using this exact matching model,the detail of super-resolution result image is further enriched,and the image quality is improved also.The new algorithm has the particular advantage of improving spatial resolution of image only using prior information of single low-resolution image itself.The experimental results show that the proposed algorithm has a better super-resolution visual effect compared with the bicubic interpolation algorithm and the local self-examples super-resolution algorithm,and it also has a good performance in the objective evaluation index.【期刊名称】《数据采集与处理》【年(卷),期】2018(033)002【总页数】8页(P240-247)【关键词】相似性度量;方差;自学习;单幅图像;超分辨率【作者】赵丽玲;孙权森【作者单位】南京理工大学计算机科学与工程学院,南京,210094;南京信息工程大学信息与控制学院,南京,210044;南京理工大学计算机科学与工程学院,南京,210094【正文语种】中文【中图分类】TP391.4引言高分辨率数字图像在遥感图像分析、医学检测、交通监控及公共安全等领域具有重要应用研究价值,有利于对感兴趣目标的提取、分析、检测和识别等。