Light-Front Realization of Chiral Symmetry Breaking
- 格式:pdf
- 大小:359.61 KB
- 文档页数:26
视网膜功能启发的边缘检测层级模型郑程驰 1范影乐1摘 要 基于视网膜对视觉信息的处理方式, 提出一种视网膜功能启发的边缘检测层级模型. 针对视网膜神经元在周期性光刺激下产生适应的特性, 构建具有自适应阈值的Izhikevich 神经元模型; 模拟光感受器中视锥细胞、视杆细胞对亮度的感知能力, 构建亮度感知编码层; 引入双极细胞对给光−撤光刺激的分离能力, 并结合神经节细胞对运动方向敏感的特性, 构建双通路边缘提取层; 另外根据神经节细胞神经元在多特征调控下延迟激活的现象, 构建具有脉冲延时特性的纹理抑制层; 最后将双通路边缘提取的结果与延时抑制量相融合, 得到最终边缘检测结果. 以150张来自实验室采集和AGAR 数据集中的菌落图像为实验对象对所提方法进行验证, 检测结果的重建图像相似度、边缘置信度、边缘连续性和综合指标分别达到0.9629、0.3111、0.9159和0.7870, 表明所提方法能更有效地进行边缘定位、抑制冗余纹理、保持主体边缘完整性. 本文面向边缘检测任务, 构建了模拟视网膜对视觉信息处理方式的边缘检测模型, 也为后续构建由视觉机制启发的图像计算模型提供了新思路.关键词 边缘检测, 视网膜, Izhikevich 模型, 神经编码, 方向选择性神经节细胞引用格式 郑程驰, 范影乐. 视网膜功能启发的边缘检测层级模型. 自动化学报, 2023, 49(8): 1771−1784DOI 10.16383/j.aas.c220574Multi-layer Edge Detection Model Inspired by Retinal FunctionZHENG Cheng-Chi 1 FAN Ying-Le 1Abstract Based on the processing of visual information by the retina, this paper proposes a multi-layer model of edge detection inspired by retinal functions. Aiming at the adaptive characteristics of retinal neurons under periodic light stimulation, an Izhikevich neuron model with adaptive threshold is established; By simulating the perception ability of cones and rods for luminance and color in photoreceptors, the luminance perception coding layer is con-structed; By introducing the ability of bipolar cells for separating light stimulation, and combining with the charac-teristics of ganglion cells sensitive to the direction of movement, a multi-pathway edge extraction layer is constructed;In addition, according to the phenomenon of delayed activation of ganglion cell neurons under multi-feature regula-tion, a texture inhibition layer with pulse delay characteristics is constructed; Finally, by fusing the result of multi-pathway edge extraction with the delay suppression amount, the final edge detection result is obtained. The 150colony images from laboratory collection and AGAR dataset are used as experimental objects to test the proposed method. The reconstruction image similarity, edge confidence, edge continuity and comprehensive indicators of the detection results are 0.9629, 0.3111, 0.9159 and 0.7870, respectively. The results show that the proposed method can better localize edges, suppress redundant textures, and maintain the integrity of subject edges. This research is oriented to the task of edge detection, constructs an edge detection model that simulates the processing of visual information by the retina, and also provides new ideas for the construction of image computing model inspired by visual mechanism.Key words Edge detection, retina, Izhikevich model, neural coding, direction-selective ganglion cells (DSGCs)Citation Zheng Cheng-Chi, Fan Ying-Le. Multi-layer edge detection model inspired by retinal function. Acta Automatica Sinica , 2023, 49(8): 1771−1784边缘检测作为目标分析和识别等高级视觉任务的前级环节, 在图像处理和工程应用领域中有重要地位. 以Sobel 和Canny 为代表的传统方法大多根据相邻像素间的灰度跃变进行边缘定位, 再设定阈值调整边缘强度和冗余细节[1]. 虽然易于计算且快速, 但无法兼顾弱边缘感知与纹理抑制之间的有效性, 难以满足复杂环境下的应用需要. 随着对生物视觉系统研究的进展, 人们对视觉认知的过程和视觉组织的功能有了更深刻的了解. 许多国内外学者在这些视觉组织宏观作用的基础上, 进一步考虑神经编码方式与神经元之间的相互作用, 并应用于边缘检测中. 这些检测方法大多首先会选择合适的神经元模型模拟视觉组织细胞的群体放电特性, 再关联例如视觉感受野和方向选择性等视觉机制, 以不收稿日期 2022-07-14 录用日期 2022-11-29Manuscript received July 14, 2022; accepted November 29,2022国家自然科学基金(61501154)资助Supported by National Natural Science Foundation of China (61501154)本文责任编委 张道强Recommended by Associate Editor ZHANG Dao-Qiang1. 杭州电子科技大学模式识别与图像处理实验室 杭州 3100181. Laboratory of Pattern Recognition and Image Processing,Hangzhou Dianzi University, Hangzhou 310018第 49 卷 第 8 期自 动 化 学 报Vol. 49, No. 82023 年 8 月ACTA AUTOMATICA SINICAAugust, 2023同的编码方式将输入的图像转化为脉冲信号, 经过多级功能区块处理和传递后提取出图像的边缘. 其中, 频率编码和时间编码是视觉系统编码光刺激的重要方式, 在一些计算模型中被广泛使用. 例如,文献[2]以HH (Hodgkin-Huxley)神经元模型为基础, 使用多方向Gabor滤波器模拟神经元感受野的方向选择性, 实现神经元间连接强度关联边缘方向,将每个神经元的脉冲发放频率作为边缘检测的结果输出, 实验结果表明其比传统方法更有效; 文献[3]在 LIF (Leaky integrate-and-fire) 神经元模型的基础上进行改进, 引入根据神经元响应对外界输入进行调整的权值, 在编码的过程中将空间的脉冲发放转化为时序上的激励强度, 实现强弱边缘分类, 对梯度变化幅度小的弱边缘具有良好的检测能力. 除此之外, 也有关注神经元突触间的相互作用, 通过引入使突触的连接权值产生自适应调节的机制来提取边缘信息的计算方法. 例如, 文献 [4] 构建具有STDP (Spike-timing-dependent plasticity) 性质的神经元模型, 根据突触前后神经元首次脉冲发放时间顺序来增强或减弱突触连接, 对真伪边缘具有较强的辨别能力; 文献 [5] 则在构建神经元模型时考虑了具有时间不对称性的STDP机制, 再融合方向特征和侧抑制机制重建图像的主要边缘信息, 其计算过程对神经元突触间的动态特性描述更加准确.更进一步, 神经编码也被应用于实际的工程需要.例如, 文献 [6]针对现有的红外图像边缘检测算法中存在的缺陷, 构建一种新式的脉冲神经网络, 增强了对红外图像中弱边缘的感知; 文献 [7] 则通过模拟视皮层的处理机制, 使用包含左侧、右侧和前向3条并行处理支路的脉冲神经网络模型提取脑核磁共振图像的边缘, 并将提取的结果用于异常检测,同样具有较好的效果. 上述方法都在一定程度上考虑了视觉组织中神经元的编码特性以及视觉机制,与传统方法相比, 在对复杂环境的适应性更强的同时也有较高的计算效率. 但这些方法都未能考虑到神经元自身也会随着外界刺激产生适应, 从而使活动特性发生改变. 此外, 上述方法大多也只选择了频率编码、时间编码等编码方式中的一种, 并不能完整地体现视觉组织中多种编码方式的共同作用.事实上, 在对神经生理实验和理论的持续探索中发现, 视觉组织(以视网膜为例)在对视觉刺激的加工中就存在着丰富的动态特性和编码机制[8−9]. 视网膜作为视觉系统中的初级组织结构, 由多种不同类型的细胞构成, 共同组成一个纵横相连、具有层级结构的复杂网络, 能够针对不同类型的刺激性选择相应的编码方式进行有效处理. 因此, 本文面向图像的边缘检测任务, 以菌落图像处理为例, 模拟视网膜中各成分对视觉信息的处理方式, 构建基于视网膜动态编码机制的多层边缘检测模型, 以适应具有多种形态结构差异的菌落图像边缘检测任务.1 材料和方法本文提出的算法流程如图1所示. 首先, 根据视网膜神经元在周期性光刺激下脉冲发放频率发生改变的特性, 构建具有自适应阈值特性的Izhikevich 神经元模型, 改善神经元的同步发放能力; 其次, 考虑光感受器对强弱光和颜色信息的不同处理方式编码亮度信息, 实现不同亮度水平目标与背景的区分;然后, 引入固视微动机制, 结合神经节细胞的方向选择性和给光−撤光通路的传递特性, 将首发脉冲时间编码的结果作为双通路的初级边缘响应输出;随后, 模拟神经节细胞的延迟发放特性, 融入对比度和突触前后偏好方向差异, 计算各神经元的延时抑制量, 对双通路的计算结果进行纹理抑制; 最后,整合双通路边缘信息, 将二者融合为最终的边缘检测结果.1.1 亮度感知编码层构建神经元模型时, 本文综合考虑对神经元生理特性模拟的合理性和进行仿真计算的高效性, 以Izhikevich模型[10]为基础构建神经元模型. Izhike-vich模型由Izhikevich在HH模型的基础上简化而来, 在保留原模型对神经元放电模式描述的准确性的同时, 也具有较低的时间复杂度, 适合神经元群体计算时应用, 其表达式如下式所示v thv th 其中, v为神经元的膜电位, 其初始值设置为 −70; u为细胞膜恢复变量, 设置为14; I为接收的图像亮度刺激; 为神经元脉冲发放的阈值, 设置为30; a描述恢复变量u的时间尺度, b描述恢复变量u 对膜电位在阈值下波动的敏感性, c和d分别描述产生脉冲发放后膜电位v的重置值和恢复变量u的增加程度, a, b, c, d这4个模型参数的典型值分别为0.02、0.2、−65和6. 若某时刻膜电位v达到,则进行一次脉冲发放, 同时该神经元对应的v被重置为c, u被重置为u + d.适应是神经系统中广泛存在的现象, 具体表现为神经元会根据外界的刺激不断地调节自身的性质. 其中, 视网膜能够适应昼夜环境中万亿倍范围的光照变化, 这种适应能够帮助其在避免饱和的同时保持对光照的敏感性[11]. 研究表明, 视网膜持续1772自 动 化 学 报49 卷接受外界周期性光刺激时, 光感受器会使神经元细胞的活动特性发生改变, 导致单个神经元的发放阈值上升, 放电频率下降; 没有脉冲发放时, 对应阈值又会以指数形式衰减, 同时放电频率逐渐恢复[12].因此, 本文在Izhikevich 模型的基础上作出改进,加入根据脉冲发放频率对阈值进行自适应调节的机制, 如下式所示τ1τ2τ1τ2v th τ1v th τ2其中, 和 分别为脉冲发放和未发放时阈值变化的时间常数, 其值越小, 阈值变化的幅度越大, 神经元敏感性变化的过程越快; 反之, 则表示阈值变化的幅度越小, 神经元敏感性变化的过程也就越慢.生理学实验表明, 在外界持续光刺激下, 神经元对刺激产生适应导致放电频率降低后, 这种适应衰退的过程比产生适应的过程通常要长数倍[13]. 因此,为了在准确模拟生理特性的同时保证计算模型的性能, 本文将 和 分别设置为20和40. 这样, 当某时刻某个神经元产生脉冲发放时, 则对应阈值 根据 的值升高, 神经元产生适应, 活跃度降低; 反之, 对应阈值 根据 的值下降, 神经元的适应衰退, 活跃度提升. 实现限制活跃神经元的脉冲发放频率, 促进不活跃神经元的脉冲发放, 改善神经元群体的同步发放能力, 减少检测目标内部冗余. 图2边缘检测结果图 1 边缘检测算法原理图Fig. 1 Principle of edge detection algorithm8 期郑程驰等: 视网膜功能启发的边缘检测层级模型1773显示了改进前后的Izhikevich 模型对图像进行处理后目标内部冗余情况.0∼255为了规范检测目标图像的亮度范围, 本文将输入的彩色图像Img 各通路的亮度映射到 区间内, 如下式所示Img (;i )I (;i )其中, 和 表示经亮度映射前和映射后的R 、G 、B 三种颜色分量图像; max(·) 和min(·)分别计算对应分量图像中的最大和最小像素值.光感受器分两类, 分别为视锥细胞和视杆细胞[14], 都能将接收到的视觉刺激转化为电信号, 实现信息的编码和传递. 其中, 视锥细胞能够根据外界光刺激的波长来分解为三个不同的颜色通道[15].考虑到人眼对颜色信息的敏感性能有效区分离散目标与背景, 令图像中的每个像素点对应一个神经元,将R 、G 、B 三种颜色分量图像分别输入上文构建的神经元模型中, 在一定时间范围内进行脉冲发放,如下式所示fires (x,y ;i )其中, 为每个神经元的脉冲发放次数,函数Izhikevich(·)表示式(2)给出的神经元模型.视杆细胞对光线敏感, 主要负责弱光环境下的外界刺激感知. 当光刺激足够强时, 视杆细胞的感知能力达到饱和, 视觉系统转为使用视锥细胞负责亮度信息的处理[16]. 因此, 除了对颜色信息敏感外,视锥细胞对强光也有高度辨别能力. 考虑到作为检测对象的图像中, 目标与背景具有不同的亮度水平,本文构建一种综合视锥细胞和视杆细胞亮度感知能力的编码方法, 以适应目标与背景不同亮度对比的多种情况, 如下式所示I base I base (x,y )fires Res (x,y )其中, var(·) 计算图像亮度方差; ave(·) 计算图像亮度均值. 本文取三种颜色分量图像中方差最大的一幅作为基准图像 , 对于其中的像素值 ,将其中亮度低于平均亮度的部分设置为三种颜色分量脉冲发放结果的最小值, 反之设置为最大值, 最终得到模型的亮度编码结果 , 实现在图像局部亮度相对较低的区域由视杆细胞进行弱光感知, 亮度较高区域由视锥细胞处理, 强化计算模型对不同亮度目标和背景的区分能力, 凸显具有弱边缘的对象. 图3显示了亮度感知编码对存在弱边缘的对象的感知能力.1.2 基于固视微动的多方向双通路边缘提取层Img gray 人眼注视目标时, 接收的图像并非是静止的,而是眼球以每秒2至3次的微动使投射在视网膜上的图像发生持续运动, 不断地改变照射在光感受器上的光刺激[17]. 本文考虑人眼的固视微动机制,在原图像的灰度图像 上构建大小为3×3的微动作用窗口temp , 使窗口接收到的亮度信息朝8个方向进行微动, 如下式所示p i q i θi temp θi d x d y 其中, 和 是用于决定微动方向 的参数, 其值被设置为 −1、0或1, 通过计算反正切函数能够得到以45° 为单位、从0° 到315° 的8个角度的微动方向, 对应8个微动结果窗口 ; 和 分别表示水平和竖直方向的微动尺度; Dir 为计算得到(a) 原图(a) Original image (b) Izhikevich 模型(b) Izhikevich model (c) 改进的 Izhikevich 模型(c) Improved Izhikevich model图 2 改进前后的Izhikevich 模型对图像进行脉冲发放的结果对比图Fig. 2 Comparison of the image processing results of the Izhikevich model before and after improvement1774自 动 化 学 报49 卷Dir (x,y )的微动方向矩阵, 其中每个像素点的值为 ;sum(·) 计算窗口中像素值的和. 本文取每个微动窗口前后差异最大的方向作为该点的偏好方向, 分别用数字1 ~ 8表示.视网膜存在一类负责对运动刺激编码、具有方向选择性的神经节细胞 (Direction-selective gangli-on cells, DSGCs)[18]. 经过光感受器处理, 转化为电信号的视觉信息, 通过双极细胞处理后传递给神经节细胞. 双极细胞可分为由光照增强 (ON) 激发的细胞和由光照减弱 (OFF) 激发的细胞[19], 分别将信号输入给光通路 (ON-pathway)和撤光通路 (OFF-pathways) 两条并行通路[20], 传递给光运动和撤光运动产生的刺激. 而神经节细胞同样包括ON 和OFF 两种, 会对给光和撤光所产生的运动方向做出反应[21]. 因此, 本文构造5×5大小的对特定方向微动敏感的神经节细胞感受野窗口, 将其对偏好方向和反方向微动所产生的响应分别作为给光通路和撤光通路的输入. 以偏好方向为45° 的方向选择性神θi fires Res S xy ∗通过上述定义, 可以形成以45° 为单位、从0°到315° 的8个方向的感受野窗口, 与上文 的8个方向对应. 之后本文在亮度编码结果 上构筑与感受野相同大小的局部窗口 , 根据最优方向矩阵Dir 对应窗口中心点的方向, 取与其相同和相反方向的感受野窗口和亮度编码结果进行卷积运算 (本文用符号 表示卷积运算), 分别作为ON 和OFF 通道的输入, 如下式所示T ON T OFF 考虑到眼球微动能够将静止的空间场景转变为视网膜上的时间信息流, 激活视网膜神经元的发放,同时ON 和OFF 两通路也只在光刺激的呈现和撤去的瞬时产生电位发放, 因此本文采用首发脉冲时间作为编码方式, 将 和 定义为两通路首次脉冲发放时间构成的时间矩阵, 并作为初级边缘响应的结果. 将1个单位的发放时间设置为0.25, 当总发放时间大于30时停止计算, 此时还未进行发放的神经元即被判断为非边缘.1.3 多特征脉冲延时纹理抑制层视网膜神经节细胞在对光刺激编码的过程中,外界刺激特征的变化会显著影响神经元的反应时间. 研究发现, 当刺激对比度增大时, 神经元反应延时会减小, 更快速地进行脉冲发放; 反之, 则反应延时增大, 抑制神经元的活性[22]. 除此之外, 方向差异也会影响神经元活动, 突触前后偏好方向相似的神经元更倾向于优先连接, 在受到外界刺激时能够更快被同步激活[23]. 因此, 本文引入视网膜的神经元延时发放机制, 考虑方向和对比度对神经元敏感性的影响, 构造脉冲延时抑制模型. 首先结合局部窗口权重函数计算图像对比度, 如下式所示ω(x i ,y i )其中, 为窗口权重函数, L 为亮度图像, Con(a) 原图(a) Original image (b) Izhikevich 模型(b) Izhikevich model (c) 改进的 Izhikevich 模型(c) Improved Izhikevich model (d) 亮度感知编码(d) Luminance perception coding图 3 不同方式对存在弱边缘的菌落图像的处理结果Fig. 3 Different ways to process the image of colonies with weak edges8 期郑程驰等: 视网膜功能启发的边缘检测层级模型1775S xy x i y i µ=∑x i ,y i ∈S xy ω(x i ,y i )为对比度图像, 为以(x , y )为中心的局部窗口,( , ) 为方窗中除中心外的周边像素, ws 为局部方窗的窗长, . 之后考虑局部方窗中心神经元和周边神经元方向差异, 同时用高斯函数模拟对比度大小与延时作用强度之间的关系, 构建脉冲延时抑制模型, 如下式所示D Dir (x,y )D Con (x,y )D (x,y )∆Dir (x i ,y i )min {|θ(x i ,y i )−θ(x,y )|,2π−|θ(x i ,y i )−θ(x,y )|}δ其中, 和 分别表示方向延时抑制量和对比度延时抑制量; 为计算得到的综合延时抑制量; 为突触前后神经元微动方向的差异, 被定义为 ; 用于调节对比度延时抑制量.T ON T OFFRes ON Res OFF 将上文计算得到的两个时间矩阵 和 中进行过脉冲发放的神经元与综合延时抑制量相加, 同样设置1个单位的发放时间为0.25, 将经延时作用后总发放时间大于30的神经元设置为不发放, 即判定为非边缘, 反之则判定为边缘. 根据式(19)和式(20) 得到两通道边缘检测结果 和. 最后, 将两通道得到的结果融合, 得到最终边缘响应结果Res ,如下式所示2 算法流程基于视网膜对视觉信息的处理顺序和编码特性, 本文构建图4所示的算法流程, 具体步骤如下:1) 根据视网膜在外界持续周期性光刺激下产生的适应现象, 在式(1)所示的Izhikevich 模型上作出改进, 构建如式(2)所示的具有自适应阈值的Izhikevich 模型.2) 根据式(3)将作为检测目标的图像映射到0 ~ 255区间规范亮度范围, 接着分离3种通道的颜色分量, 根据式(4)输入到改进的Izhikevich 模型中进行脉冲发放.3) 根据式(5)的方差计算提取出基准图像, 再结合基准图像根据式(6)对三通道脉冲发放的结果进行亮度感知编码, 得到亮度编码结果.4) 考虑人眼的固视微动机制, 根据式(7)和式(8)通过原图的灰度图像提取每个神经元的偏好方向, 得到微动方向矩阵, 接着根据式(9)和式(10)构筑8个方向的方向选择性神经节细胞感受野窗口.5) 根据式(11)和式(12), 将感受野窗口与亮度编码图像作卷积运算, 并输入Izhikevich 模型中得到ON 和OFF 通路的首发脉冲时间矩阵, 作为两通道的初级边缘响应.6) 根据式(13) ~ 式 (15), 结合局部窗口权重计算图像对比度.7) 考虑对比度和突触前后偏好方向对脉冲发放的延时作用, 根据式(16) ~ 式 (18)构建延时纹理抑制模型, 并根据式(19)和式(20)将纹理抑制模型和两通道的初级边缘响应相融合.8) 根据式(21)将两通路纹理抑制后的结果在神经节细胞处进行整合, 得到最终边缘响应结果.3 结果为了验证本文方法用于菌落边缘检测的有效性, 本文选择Canny 方法和其他3种同样基于神经元编码的边缘检测方法作为横向对比, 并进行定性、定量分析. 首先, 选择文献[4]提出的基于神经元突触可塑性的边缘检测方法(Synaptic plasticity model, SPM), 用于对比本文方法对弱边缘的增强效果; 其次, 选择文献[24]提出的基于抑制性突触的多层神经元群放电编码的边缘检测方法 (Inhibit-ory synapse model, ISM), 验证本文的延时抑制层在抑制冗余纹理方面的有效性; 然后, 选择文献[25]提出的基于突触连接视通路方向敏感的分级边缘检测方法(Orientation sensitivity model, OSM), 对比本文方法在抑制冗余纹理的同时保持边缘提取完整性上的优势; 最后, 还以本文方法为基础, 选择去除亮度感知编码后的方法(No luminance coding,NLC)作为消融实验, 以验证本文方法模拟光感受器功能的亮度感知编码模块的有效性.本文使用实验室在微生物学实验中采集的菌落图像和AGAR 数据集[26]作为实验对象. 前者具有丰富的颜色和形态结构, 用于检验算法对复杂检测环境的适应性; 后者则存在更多层次强度的边缘信息, 菌落本身与背景的颜色和亮度水平也较为相近,用于检测算法对颜色、亮度特征和弱边缘的敏感性.本文通过局部采样生成150张512×512像素大小的测试图像, 其中38张来自实验室采集, 112张来自AGAR 数据集. 然后分别使用上文的6种边缘1776自 动 化 学 报49 卷检测算法提取图像边缘, 使每种算法得到150张边缘检测结果, 其中部分检测结果如图5所示.定性分析图5可知, Canny 、SPM 和ISM 方法在Colony4和Colony5等存在弱边缘的图像中往往会出现大面积的边缘丢失. OSM 方法对弱边缘的敏感性强于以上3种方法, 但仍然会出现不同程度的边缘断裂, 且在调整阈值时难以均衡边缘连续性和目标菌落内部冗余. NLC 方法同样丢失了Colony4和Colony5中几乎所有的边缘, 对于Colony3也只能检出其中亮度较低的菌落内部, 对于梯度变化不明显的边缘辨别力差. 与其他方法相比, 本文方法检出的边缘更加显著且完整性更高, 对于弱边缘也有很强的检测能力, 在Colony3、Colony4和Colony5等存在多层次水平强弱边缘的菌落图像中能够取得较好的检测结果. 为了对检测结果进行定量分析并客观评价各方法的优劣, 计算边缘图像重建相似度MSSIM [27]对检测结果进行重建, 并计算重建图像与原图像的相似度作为边缘定位的准确性RGfires (R)fires (G)亮度编码结果Luminance codingresult方差计算Variance1 2 3ON-result对比度Contrast脉冲延时抑制量Neuron spiking delay感受野窗口感受野窗口DSGC templateOFF-通路输出OFF-result 5)6)7)图 4 边缘检测算法流程图Fig. 4 The procedure of edge detection algorithm8 期郑程驰等: 视网膜功能启发的边缘检测层级模型1777图 5 Colony1 ~ Colony5的边缘检测结果(第1行为原图; 第2行为Canny 检测的结果; 第3行为SPM 检测的结果; 第4行为ISM 检测的结果; 第5行为OSM 检测的结果; 第6行为NLC 检测的结果; 第7行为本文方法检测的结果)Fig. 5 Edge detection results of Colony1 to Colony5 (The first line is original images; The second line is the results of Canny; The third line is the results of SPM; The fourth line is the results of ISM; The fifth line is the results of OSM;The sixth line is the results of NLC; The seventh line is the results of the proposed method)1778自 动 化 学 报49 卷指标. 首先对检测出的边缘图像做膨胀处理, 之后将原图像上的像素值赋给膨胀后边缘的对应位置,得到的图像记为ET , 则边缘重建如下式所示T k ET d k 其中, 为图像 上3×3窗口中8个方向的周边像素, 为窗口中心像素点与周边像素的距离, 计算得到重建图像R . 重建图像的相似度指标如下式所示µA µB σA σB σAB 其中, 和 为原图像和重建图像的灰度均值, 和 为其各自的标准差, 为原图像与重建图像之间的协方差. 将原图像和重建图像各自分为N 个子图, 并分别计算相似度指标SSIM , 得到平均相似度指标MSSIM . 除此之外, 为了验证边缘检测方法检出边缘的真实性和对菌落内部冗余纹理的抑制能力, 本文计算边缘置信度BIdx [28], 根据边缘两侧灰度值的跃变程度判断边缘的真伪. 边缘置信度指标如下式所示σij E (x i k ,y ik )(x i ,y i )d i其中, 为边缘像素在原图像对应位置的邻域标准差, EdgeNum 为边缘像素数量. 另外, 本文进一步计算边缘连续性 CIdx [29]来验证检出目标的边缘完整性. 首先将得到的边缘图像E 分割为m 个区域, 分别计算每个区域中的边缘像素 到其空间中心 的距离 ,则连续性指标如下式所示c i k C i n i 其中, 为边缘连续性的贡献值, D 为阈值, 为第i 个区域的像素点的连续性贡献值之和,为第i 个区域边缘像素点数量. 最后, 将计算得到的3个指标根据下式融合, 得到综合评价指标EIdx [21]其中, row 和col 分别为原图像的行数和列数. 于是, 检测图像的各项性能指标如表1 ~ 表5所示, 图像重建的结果如图6所示.表 1 不同检测方法下的重建相似度MSSIM Table 1 MSSIM of different methodsSerial number MSSIMCanny SPMISMOSMNLC本文方法Colony10.74520.77250.83570.92650.91750.9371Colony20.79510.79710.84900.95280.94470.9725Colony30.85760.86620.83140.91490.83370.9278Colony40.96900.98270.98380.98870.98930.9972Colony50.96340.97580.97800.97710.98830.9933表 2 不同检测方法下的边缘置信度BIdx Table 2 BIdx of different methodsSerial number BIdxCanny SPMISMOSMNLC本文方法Colony10.49880.46180.43070.58010.50580.6026Colony20.18210.15370.15530.33650.46150.4479Colony30.19830.15100.16100.26340.12630.3257Colony40.16310.14880.19060.14370.15210.2016Colony50.16200.18960.19020.18820.17350.1654表 3 不同检测方法下的边缘连续性CIdxTable 3 CIdx of different methodsSerial numberCIdxCanny SPMISMOSMNLC本文方法Colony10.83770.85300.86010.86760.97490.9652Colony20.80690.86550.85330.82930.91770.9518Colony30.80640.74080.72930.82690.77640.9406Colony40.81430.86110.90440.84300.90150.9776Colony50.90470.84480.86320.85920.87090.95718 期郑程驰等: 视网膜功能启发的边缘检测层级模型1779。
《近红外给体-受体AIE分子设计合成及光诊疗研究》篇一近红外给体-受体E分子设计合成及光诊疗研究一、引言随着科技的飞速发展,光诊疗技术已成为现代医学领域的重要研究方向。
其中,近红外给体-受体E(聚集诱导发光)分子因其独特的发光性能和生物相容性,在生物成像、光动力治疗等领域展现出巨大的应用潜力。
本文旨在探讨近红外给体-受体E分子的设计合成方法,以及其在光诊疗领域的应用研究。
二、近红外给体-受体E分子的设计原理近红外给体-受体E分子的设计主要基于分子内电荷转移(ICT)理论和聚集诱导发光(E)效应。
设计过程中,需考虑分子的给体和受体部分、分子结构中的共轭体系、以及分子内的电子云分布等因素。
近红外区域的光子能量较低,能够深入组织内部,具有较低的背景噪声和较高的组织穿透力,因此,设计合成近红外发光的E分子具有重要意义。
三、分子合成方法近红外给体-受体E分子的合成主要采用有机合成方法。
首先,根据设计原理,选择合适的给体和受体部分,通过化学反应将它们连接起来。
在合成过程中,需要严格控制反应条件,如温度、时间、溶剂等,以保证分子结构的稳定性和纯度。
此外,还需对合成得到的分子进行表征,如核磁共振、紫外-可见吸收光谱、荧光光谱等,以验证其结构和性能。
四、光诊疗应用研究1. 生物成像近红外给体-受体E分子在生物成像领域具有广泛的应用。
由于其发光强度高、背景噪声低、组织穿透力强等特点,使得其在细胞成像、组织成像等方面具有显著优势。
通过将E分子与生物分子或细胞标记物结合,可以实现高分辨率、高灵敏度的生物成像。
2. 光动力治疗光动力治疗是一种利用光敏剂和光照治疗肿瘤的方法。
近红外给体-受体E分子可作为光敏剂,在光照下产生单线态氧等活性氧物质,对肿瘤细胞产生杀伤作用。
此外,E分子的近红外发光性能有助于实时监测光动力治疗过程,为临床治疗提供有力支持。
五、实验结果与讨论通过合成不同结构的近红外给体-受体E分子,并对其在生物成像和光动力治疗中的应用进行研究。
基于鬼成像技术的光谱增强研究
闫凌浩;王晓茜;邵嘉琪;高超;刘娜
【期刊名称】《长春理工大学学报:自然科学版》
【年(卷),期】2022(45)5
【摘要】鬼成像是一种新兴的非局域成像技术,由于它具有较高的抗噪能力和超高分辨率,成为学者们竞相研究的热门问题。
该技术将获取的光强信息进行二阶关联运算,从而重构待测物体的空间信息。
考虑利用鬼成像技术增强某些特定波长的光谱图像,通过分析鬼成像的关联函数,发现可以通过两个宽带的滤波片进行滤波,会增强某些特定频宽的光谱图像,从而获取相应的光谱信息。
首先给出了理论分析,然后进行了数值模拟和实验验证,发现鬼成像技术可以增强某些特定光谱的信息并且提高光谱图像的成像质量。
【总页数】6页(P14-19)
【作者】闫凌浩;王晓茜;邵嘉琪;高超;刘娜
【作者单位】长春理工大学物理学院
【正文语种】中文
【中图分类】O431.2
【相关文献】
1.应用光谱成像技术显现和增强指纹的研究
2.基于偏振干涉成像光谱仪的视场增强和相位热漂移补偿关键技术的研究
3.基于谱线匹配技术的星载成像光谱仪星上光
谱定标方法研究4.基于大气吸收带的超光谱成像仪光谱定标技术研究5.基于HF-Net光谱特征重定位的三维光谱成像技术研究
因版权原因,仅展示原文概要,查看原文内容请购买。
光子学前沿成果无论是人类的认知、生活还是工作,都已经离不开光子学。
近年来,光子学前沿研究在全球领导地位愈加显著,涉及到领域和学科也日益扩大。
下面就来看看光子学前沿研究的成果。
1、面向未来的半导体激光器集成的半导体激光器是现代光电子技术的核心元件,数字通信、激光雷达、材料加工和医疗领域都需要这类器件。
目前主流的半导体激光器多采用直接调制器(DFB)和外腔反射激光器(ECL)模式,虽能满足市场需求,但其功率效验、光谱带宽、噪音和可靠性等方面仍有提高空间。
美国加州大学旧金山分校的Tyler et al. 提出了两种新型半导体激光器,即整合微环谐振器的ECL和超缩短光腔谐振器激光器,分别解决了光谱带宽和功率效验两个核心问题。
2、改善内窥镜成像的新技术内窥镜在临床诊断治疗领域发挥重要作用,其影像质量是决定临床诊断的关键因素。
现有内窥镜的图像质量有限,特别是在低光量条件下。
研究人员利用光子学技术开发了一种新型内窥镜,采用多波长反射的全息成像技术。
这种技术可以同时收集多种波长的光线,以获得准确、清晰的图像。
3、有效消除光线扰动的新方法光学通信是目前最快的信息传输方式,而光线的传输必然会受到环境因素的影响,如大气湍流、振动和杂散光等。
近年来,研究人员通过使用电子计算机反馈控制,成功开发出一种有效消除光线扰动的新方法。
该技术通过沿用自适应光学方法,采用差分测量和自适应矩形窗口,能够更准确地检测到环境扰动,并对其进行反馈控制。
该方法可以有效消除光线的波动和湍流,从而提高光学通信的传输质量。
4、新型探测器提高太阳光能利用率太阳能发电是清洁能源的代表。
其中一种有效的途径是利用半导体材料将太阳光转换成电能。
但现有的太阳能电池转换效率相对较低,需要进一步提高。
美国阿拉巴马大学的Liu et al. 提出了一种新型能够直接转换太阳能电池的探测器。
这种探测器采用了层状二维材料与纳米颗粒的复合结构,能够高效地吸收太阳光,进而产生阳光电荷对,并最终出现光电转换。
· 论著·肝移植术后严重门静脉狭窄的三维可视化成像与门静脉支架植入术疗效分析赵洪强 刘影 马建明 李昂 于里涵 童翾 吴广东 卢倩 张跃伟 汤睿【摘要】 目的 分析肝移植术后严重门静脉狭窄的三维成像特征与优势,评估门静脉支架植入术效果。
方法 回顾性分析10例肝移植术后因严重门静脉狭窄接受门静脉支架植入的患者的临床资料,分析严重门静脉狭窄的影像学特征、三维重建的成像优势及介入治疗效果。
结果 10例患者中狭窄类型包括向心性缩窄3例,曲折成角致狭窄2例,受压狭窄2例,长段狭窄和(或)血管闭塞3例。
三维重建图像在狭窄的准确判断、狭窄类型的辨别和狭窄累及长度判断方面具有优势。
所有患者均成功接受门静脉支架植入术,支架植入后门静脉最狭窄处直径较治疗前增加[(6.2±0.9)mm 比(2.6±1.7)mm ,P <0.05],吻合口流速较治疗前下降[(57±19)cm/s 比(128±27)cm/s ,P <0.05],近肝处门静脉主干流速较治疗前增加[(41±6)cm/s 比(18±6)cm/s ,P <0.05]。
1例患者因介入穿刺引起肝内血肿,经保守观察治疗后好转,其余患者均未出现相关并发症。
结论 三维可视化技术可以立体直观展示狭窄部位、特征与严重程度,有利于临床医师进行治疗决策和辅助介入操作。
及时的门静脉支架植入术可以有效逆转病变进程并改善门静脉血流。
【关键词】 肝移植;血管并发症;门静脉狭窄;介入治疗;三维可视化成像;门静脉支架;血流加速;门静脉高压【中图分类号】 R617, R543 【文献标志码】 A 【文章编号】 1674-7445(2024)01-0011-08Analysis of three-dimensional visualization imaging of severe portal vein stenosis after liver transplantation and clinical efficacy of portal vein stent implantation Zhao Hongqiang *, Liu Ying, Ma Jianming, Li Ang, Yu Lihan, Tong Xuan, Wu Guangdong,Lu Qian, Zhang Yuewei, Tang Rui. *Hepatopancreatobiliary Center , Beijing Tsinghua Changgung Hospital Affiliatal to Tsinghua University , Key Laboratory of Digital Intelligence Hepatology of Ministry of Education , School of Clinical Medicine , Tsinghua University , Beijing 102218, ChinaCorresponding author: Tang Rui, Email: ******************【Abstract 】 Objective To analyze three-dimensional imaging characteristics and advantages for severe portal vein stenosis after liver transplantation, and to evaluate clinical efficacy of portal vein stent implantation. Methods Clinical data of 10 patients who received portal vein stent implantation for severe portal vein stenosis after liver transplantation were retrospectively analyzed. Imaging characteristics of severe portal vein stenosis, and advantages of three-dimensional reconstruction imaging and interventional treatment efficacy for severe portal vein stenosis were analyzed.DOI: 10.3969/j.issn.1674-7445.2023201基金项目:国家自然科学基金重点项目(81930119);中国医学科学院医学与健康科技创新工程创新单元(2019-I2M-5-056);北京清华长庚医院青年启动基金资助项目(12019C1012)作者单位: 102218 北京,清华大学附属北京清华长庚医院肝胆胰中心 数智肝胆病学教育部重点实验室 清华大学临床医学院(赵洪强、刘影、李昂、于里涵、童翾、吴广东、卢倩、张跃伟、汤睿);拉萨市人民医院普外科(马建明、汤睿)作者简介:赵洪强(ORCID 0000-0002-8544-2865),博士,住院医师,研究方向为肝脏移植的临床与基础研究,Email :*************************通信作者:汤睿(ORCID 0000-0003-3118-3842),博士,副主任医师,研究方向为肝脏移植的临床与基础研究,Email :******************第 15 卷 第 1 期器官移植Vol. 15 No.1 2024 年 1 月Organ Transplantation Jan. 2024 Results Among 10 patients, 3 cases were diagnosed with centripetal stenosis, tortuosity angulation-induced stenosis in 2 cases, compression-induced stenosis in 2 cases, long-segment stenosis and/or vascular occlusion in 3 cases. Three-dimensional reconstruction images possessed advantages in accurate identification of stenosis, identification of stenosis types and measurement of stenosis length. All patients were successfully implanted with portal vein stents. After stent implantation, the diameter of the minimum diameter of portal vein was increased [(6.2±0.9) mm vs. (2.6±1.7) mm, P<0.05], the flow velocity at anastomotic site was decreased [(57±19) cm/s vs. (128±27) cm/s, P<0.05], and the flow velocity at the portal vein adjacent to the liver was increased [(41±6) cm/s vs. (18±6) cm/s, P<0.05]. One patient suffered from intrahepatic hematoma caused by interventional puncture, which was mitigated after conservative observation and treatment. The remaining patients did not experience relevant complications. Conclusions Three-dimensional visualization technique may visually display the location, characteristics and severity of stenosis, which is beneficial for clinicians to make treatment decisions and assist interventional procedures. Timely implantation of portal vein stent may effectively reverse pathological process and improve portal vein blood flow.【Key words】Liver transplantation; Vascular complication; Portal vein stenosis; Interventional therapy; Three-dimensional visualization imaging; Portal vein stent; Accelerated blood flow; Portal hypertension术后门静脉狭窄是肝移植主要的血管并发症之一,尽管发生率低,但可能造成移植物丢失、患者死亡等严重后果[1]。
成都理工大学学生毕业设计(论文)外文译文极,(b)光电子是后来ηNph,(c)这些∝ηNph电子在第一倍增极和到达(d)倍增极的k(k = 1,2…)放大后为δk 并且我们假设δ1=δ2=δ3=δk=δ的,并且δ/δ1≈1的。
我们可以得出:R2=Rlid2=5.56δ/[∝ηNph(δ-1)] ≈5.56/Nel (3)Nel表示第一次到达光电倍增管的数目。
在试验中,δ1≈10>δ2=δ3=δk,因此,在实际情况下,我们可以通过(3)看出R2的值比实际测得大。
请注意,对于一个半导体二极管(不倍增极结构)(3)也适用。
那么Nel就是是在二极管产生电子空穴对的数目。
在物质不均匀,光收集不完整,不相称和偏差的影响从光电子生产过程中的二项式分布及电子收集在第一倍增极不理想的情况下,例如由于阴极不均匀性和不完善的重点,我们有:R2=Rsci2+Rlid2≈5.56[(νN-1/Nel)+1/Nel] (4)νN光子的产生包括所有非理想情况下的收集和1/Nel的理想情况。
为了说明,我们在图上显示,如图1所示。
ΔE/E的作为伽玛射线能量E的函数,为碘化钠:铊闪烁耦合到光电倍增管图。
1。
对ΔE/E的示意图(全曲线)作为伽玛射线能量E功能的碘化钠:铊晶体耦合到光电倍增管。
虚线/虚线代表了主要贡献。
例如见[9,10]。
对于Rsci除了1/(Nel)1/2的组成部分,我们看到有两个组成部分,代表在0-4%的不均匀性,不完整的光收集水平线,等等,并与在0-400代表非相称keV的最大曲线。
表1给出了E=662Kev时的数值(137Cs)在传统的闪烁体资料可见。
从图一我们可以清楚的看到在低能量E<100Kev,如果Nel,也就是Nph增大的话,是可以提高能量分辨率的。
这是很难达到的,因为光额产量已经很高了(见表1)在能量E>300Kev时,Rsci主要由能量支配其能量分辨率,这是没办法减小Rsci 的。
然而,在下一节我们将会讲到,可以用闪烁体在高能量一样有高的分辨率。
Univ. Chem. 2023, 38 (7), 267–273 267收稿:2023-04-24;录用:2023-06-12;网络发表:2023-07-03*通讯作者,Emails:*****************.cn(蒋俊);****************.cn(刘红瑜)基金资助:中国科学技术大学本科质量工程项目(2022xjyxm046, 2020xjyxm021)•科普• doi: 10.3866/PKU.DXHX202304082 将“幻想植物”带入现实——纳米材料功能化的“植物光容器”黄俊铭1,龚骁儒1,葛兴祥1,刘红瑜1,2,*,蒋俊1,2,*1中国科学技术大学化学与材料科学学院,合肥 2300262化学国家级实验教学示范中心(中国科学技术大学),合肥 230026摘要:随着城市的进一步发展,对土地利用效率的要求提高,我们将植物与纳米功能材料结合,赋予了植物神奇的功能,实现了植物的高效利用。
通过对文献方案的优化与植物功能的拓展,我们成功设计出“植物光容器”。
这些功能化植物便于展示,绿色安全,具有很强的趣味性。
本实验开展梯度科普:对象包括从幼儿园小朋友到高中生、本科生及社会大众等不同知识储备的人群。
此外,我们还就公众关心的纳米、纳米粒子等前沿概念进行科学解读。
通过生动直观的实验,为青少年埋下科学探究的种子,帮助大众体会化学之美和化学之趣,阐释化学使生活更美好的理念。
关键词:纳米材料;功能化植物;植物光容器;梯度科普中图分类号:G64;O6Bring “Plants in Fantasy” into Reality: Functionalized “Living Plant Photonic Capacitor” by NanomaterialJunming Huang 1, Xiaoru Gong 1, Xingxiang Ge 1, Hongyu Liu 1,2,*, Jun Jiang 1,2,*1 School of Chemistry and Materials Science, University of Science and Technology of China, Hefei 230026, China.2 National Demonstration Center for Experimental Chemistry Education (University of Science and Technology of China), Hefei 230026, China.Abstract: With the fast urbanization and the improved requirements for land use efficiency, we combine plants with nano-functional materials, endow plants with magical functions, and achieve the efficient use of plants. Through the optimization of the literature and expanding the plant functions, we successfully designed the “living plant photonic capacitor”. These functional plants are easy to display, green and safe. This topic carries out multilevel science popularization. In addition, we make a scientific interpretation of the concepts of nanometers and nanoparticles of public concern. Through vivid and intuitive experiments, this project lays the seeds of scientific inquiry for kids and helps the public feel the beauty and the interest of chemistry.Key Words: Nanomaterial; Functionalized plant; Living plant photonic capacitor;Multilevel science popularization1 引言植物在现代城市中承担着举足轻重的责任。
碳量子点在活体光学成像Sheng-Tao Yang,†,‡ Li Cao,† Pengju G. Luo,† Fushen Lu,† Xin Wang,† Haifang Wang,*,‡,§Mohammed J. Meziani,† Yuanfang Liu,‡,§ Gang Qi,† and Ya-Ping Sun*,†新型材料和技术化学系实验室,克莱姆森大学,南卡罗来纳州克莱姆森,29634 - 0973,北京分子科学国家实验室,化学生物学部门,化学与分子工程学院,北京大学,北京100871,中国,以及纳米化学方面前沿研究所,上海大学,上海200444,中国Received June 13, 2009; E-mail: haifangw@;syaping@最近在高荧光纳米材料作为光造影剂在体内成像的发展中有了显著的发现。
1理想的显像剂应该是明亮的、无毒的、生物相容的,并且对漂白稳定。
其中这些广泛的研究是基于半导体量子点(QDS),例如CdSe|ZnS。
2对于传统的有机染料量子点使用的基本原理是现在普遍接受的文献。
3在肿瘤血管,肿瘤特异性膜上抗原、前哨淋巴结等的研究中已经有成功的量子点体内成像演示。
2.4 含有镉或其他重金属的半导体量子点因为具有显著的毒性而闻名于世,即使在相对低浓度下依旧如此,5.6这可能证明了它们被禁止于任何病人的研究。
因此,寻找良性的替代品仍在继续。
最近的新发现特别令人感兴趣也很有意义,即小的碳纳米颗粒通过有机或生物分子可能会表面钝化进而成为强荧光。
7这些荧光碳纳米颗粒7.8被称为“碳点”(C-dots,图解1),被认为是物理化学和光化学稳定的、无闪烁的。
碳粒子芯也可以与无机盐掺杂如表面功能化前的ZnS以显著提升荧光亮度(CZnS-Dots,图解1)。
9这些碳点已经成功用于体外细胞成像和双光子激励。
7,9,10图解1碳几乎不会被认为是一种本质有毒元素。
第42卷 第1期吉林大学学报(信息科学版)Vol.42 No.12024年1月Journal of Jilin University (Information Science Edition)Jan.2024文章编号:1671⁃5896(2024)01⁃0137⁃06泛化迁移深度学习下的跨模态图像行人识别算法收稿日期:2022⁃10⁃13基金项目:西安明德理工学院科研基金资助项目(2021XY01L09)作者简介:蔡现龙(1976 ),男,陕西渭南人,西安明德理工学院讲师,主要从事计算机科学与技术研究,(Tel)86⁃189****7386(E⁃mail)2631069053@㊂蔡现龙,李 阳,陈 曦(西安明德理工学院信息工程学院,西安710124)摘要:针对由于受光照条件变化㊁行人身高差异等影响,致使监控视频图像在不同时刻的成像存在较大的跨模态差异问题,为准确识别跨模态图像中的行人,提出基于泛化迁移深度学习的跨模态图像行人识别算法㊂通过循环生成对抗网络(Cyele GAN:Cycle Generative Adversarial Network)形成跨模态图像,采用单目标图像处理对基准图分割处理,得到人体候选区域,在匹配图中搜索和其匹配的区域,得到人体区域的视差,通过视差提取人体区域的深度和透视特征㊂将注意力机制和跨模态行人识别相结合,分析两种不同类型图像的差异,将两个子空间映射到同一个特征空间,同时引入泛化迁移深度学习算法对损失函数度量学习,自动筛选跨模态图像的行人特征,最终通过模态融合模块将筛选的特征融合处理完成行人识别㊂实验结果表明,所提算法可以快速㊁准确地提取不同模态图像中的行人,识别效果较好㊂关键词:泛化迁移深度学习;跨模态图像;行人识别;特征提取中图分类号:TP311文献标志码:APedestrian Recognition Algorithm of Cross⁃Modal Image under Generalized Transfer Deep LearningCAI Xianlong,LI Yang,CHEN Xi(School of Information Engineering,Xi’an Mingde Institute of Technology,Xi’an 710124,China)Abstract :Due to the influence of changes in lighting conditions and pedestrian height differences,there are large cross modal differences in surveillance video images at different times.In order to accurately identify pedestrians in cross modal images,a pedestrian recognition algorithm based on generalized transfer depth learning is proposed.The cross modal image is formed through Cyele GAN(Cycle Generative Adversarial Network),and the reference map is segmented using single object image processing to obtain candidate human body regions.The matching regions are searched in the matching map to obtain the disparity of human body regions,and the depth and perspective features of human body regions are extracted through the disparity.The attention mechanism and cross modal pedestrian recognition are combined to analyze the differences between the two types of images.The two subspaces are mapped to the same feature space.And the generalized migration depth learning algorithm is introduced to learn the loss function measurement,automatically screen the pedestrian features of the cross modal images,and finally complete pedestrian recognition through the modal fusion module to fuse the filtered features.The experimental results show that the proposed algorithm can quickly and accurately extract pedestrians from different modal images,and the recognition effect is good.Key words :generalization transfer deep learning;cross⁃modal images;pedestrian recognition;feature extraction0 引 言由于在光照条件较差的环境中对单模态行人识别,无法满足相关领域对行人识别效果的预期要求,因此人们将深度学习技术应用于行人识别[1⁃2]中,并在对应的数据集中取得了较高的识别率㊂由于昼夜光照差异比较明显,导致跨模态的行人识别面临巨大挑战㊂目前人们针对跨模态行人识别方面的研究已有许多报道,如王留洋等[3]优先组建双模态特征提取网络,通过构建的网络对图像深度特征实行提取操作,增强处理全部特征后融合图像的全部像素信息,完成行人识别㊂Oh 等[4]利用多个图像区域(头部㊁身体等)的convnet 特征构建了行人识别框架,从时间和视点两方面分析了不同特征的重要性,利用人脸识别器实现了行人人脸识别㊂郑爱华等[5]采用双路模型提取不同模态下的全局特征,对其实行局部精细化处理,挖掘行人的结构化局部信息;通过标签和预测信息构建跨模态局部信息之间的关联,完成跨模态融合处理,确保各个特征之间相互补充,最终实现行人识别㊂为降低光照等因素引起的图像模态差异对行人识别效果的影响,笔者引入泛化迁移深度学习,提出一种跨模态图像行人识别算法㊂经实验测试结果表明,所提算法能有效降低行人识别时间,提升行人识别结果的准确性㊂1 跨模态图像行人识别模型设计1.1 跨模态图像行人特征提取由于受摄像机角度㊁外部环境等因素影响,使行人视频监控图像产生了较大的模态差异,为此需要将识别的行人视频设定为一个图像集,利用Cyele GAN 生成跨模态图像㊂由于人体的轮廓在图像集中近似为矩形,所以可借助矩形目标检测方法得到人体候选区域㊂优先采用Hough变换方法提取行人的主要图1 人体候选区域获取流程图Fig.1 Flow chart of human body candidate region acquisition 特征信息,通过视知觉分组的灰度分类器和共圆分类器将人体候选区域虚假信息剔除㊂图1给出了人体候选区域获取的详细操作流程图㊂为得到人体候选区域不同区域的特征信息,优先需要获取不同区域的视差㊂在实际操作过程中,采用基于局部约束的像素点区域匹配算法㊂以基准图中待匹配像素点为中心构建一个窗口,通过窗口内相邻像素的灰度值描述图像中的像素特征㊂将基准图中随机一个像素点设定为中心,同时创建多个大小完全一致的滑动窗口,引入搜索策略获取像点图在对准图中对应的像素点,两者之间的差值即为视差㊂块匹配方法[6⁃7]的核心是将基准图待匹配的窗口设定为模板图像,对准图像作为目标图像,对两者实行模板匹配㊂在匹配过程中,主要通过人体候选区域每个灰度间的相关测度描述不同视图间的相关性,如下:D p SSD (h )=∑(u ,w )∈R p R (u ,v )-I m R (u ,v ),(1)其中D p SSD (h )表示视图之间的相关性;R (u ,v )表示跨模态图像的水平偏移量;I m 表示基准图像;R p 表示随机像素对应的块状邻域㊂由于每个候选区域的相关性保持不变,所以需要将目标区域中区域相关性设定为式(1)的形式,进而获取目标区域对应的距离测度,如下:D T SAD (h )=∑(u ,w )∈R p 1R (u ,v )-I m R (u ,v ),(2)其中D T SAD (h )表示各个目标区域之间的距离测度㊂在实际应用过程中,需要消除左右两个视图之间由于光照亮度产生的差异,为此引入零均值方法,将其应用目标匹配过程中,进而获取零均值视图相关性D T ZSAD (h ),如下:831吉林大学学报(信息科学版)第42卷D T ZSAD (h )=∑(u ,w )∈R p R (u ,v )-I m -1R (u ,v )-I m R (u ,v )㊂(3) 通过候选人体区域取代式(2)和式(3)中的目标区域,而候选人体区域的视差可根据外极线约束在经过校正处理后的左右视图中,沿外极线方向搜索目标最小视图相关性D T ZSAD (h ),如下:[D T SAD (h )]min =arg min (u ,w )∈R p [D p SSD (h )-D T ZSAD (h )]㊂(4) 在跨模态图像中,人体和其他物体之间存在明显差异,则跨模态图像可能出现的行人身高最小值为h min ,如下:h min =H -b D T ZSAD (h ),(5)其中H 表示人体候选区域内的深度特征㊂设定人体区域在空间中的真实长度为l ,在采集人体图像的过程中,可通过小孔透视比例得到不同轮廓的特征提取结果:W (u ,v )=(z -h )h 1R (u ,v ),(6)其中z 表示人体候选区域的深度㊂由于跨模态图像中人体候选区域的视差半径和真实人体身高之间存在密切关联,而人体的真实身高可看做是行人的固有特征,设定行人身高的变化范围,则有h min ≤h ≤h max ㊂通过上述分析,利用图2给出跨模态图像行人特征提取流程图㊂图2 跨模态图像行人特征提取流程Fig.2 Flow chart of pedestrian feature extraction from cross⁃modal images 通过人体视觉[8⁃9]可得到人体区域的深度和透视特征,如下:S (u ,v )=1[D T SAD (h )]min R (u ,v )I m ,T (u ,v )={W (u ,v )(z -h )}2I m ìîíïïï,(7)其中S (u ,v )和T (u ,v )分别表示人体区域的深度特征和透视特征㊂1.2 泛化迁移深度学习下的跨模态图像行人识别深度学习中的注意力机制是指重点关注图像的细节信息,忽略没有利用价值的信息,使其在图像领域得到广泛应用,取得了十分显著的成果㊂将通道域思想应用于跨模态图像行人识别中,可以快速获取红绿蓝(RGB:Red,Green and Blue)和相对照度(RI:Relative Illumination)图像两者之间的差异性,进而准确区分不同类型的行人㊂通过SeNet 网络的思想全面引入压缩激活神经网络,其中压缩激活模块主要是利用每个通道之间的关系,学习特征权重,有效增强特征图关键信息的权重比例㊂设定输入特征为F ={f 1,f 2, ,f n },大小为F ∈E (h ,w ,c ),优先对1.1小节得到的特征压缩处理,通过全局池化的方式,将特征图转换为大小完全相同的向量,即全局通道描述符b (u ,v ),如下:b (u ,v )=F (sp )(u ,v ),1W (u ,v )∑m =1∑n =1f n (i ,j {),(8)931第1期蔡现龙,等:泛化迁移深度学习下的跨模态图像行人识别算法其中F (sp )(㊃)表示压缩操作;f n (i ,j )表示通道总数㊂通过两个全连接层得到特征向量u 的计算如下:u =H (u ,v )(i ,j ),β(g (u ,v {)),(9)其中H (u ,v )(㊃)表示激励操作;β表示激活函数;g (u ,v )表示两个全连接层对应的权值矩阵㊂将注意力机制应用于跨模态图像行人识别中,构建基于压缩激活机制的双路径跨模态模型,模型中融入了压缩激活模块,方便后续学习更加具有鲁棒性的特征㊂学习不同模态下的特征,将其映射到对应的子空间中㊂通过上述分析,优先计算行人各个特征之间的欧氏距离,并基于其再次计算即可获取三元组损失函数,如下:K chtri =1F (sp )(u ,v )∑m =1∑n =1f n (i ,j )[max(D (u ,v )-min D (u ,v ))+β],(10)其中K chtri 表示三元组损失函数;D (u ,v )表示相同跨模态图像之间的特征距离㊂将三元组损失函数和身份损失函数两者结合,最终获取综合损失函数如下:K tocal =K chtri +K id ,(11)其中K tocal 表示综合损失函数;K id 表示身份损失函数㊂经上述分析,引入泛化迁移深度学习算法对综合损失函数度量学习,则有:K tocal (u ,v )=(k a ,p -β)K chtri +K id ,(12)其中K tocal (u ,v )表示综合损失函数的度量学习结果;k a ,p 表示超参数㊂对输入的原始图像,通过测试集形成的跨模态图像集并没有得到充分应用,所以需要借助模态融合模块将两种筛选后的特征融合处理,同时将融合后的结果输入到全连接层中,采用SoftMax 损失展开有监督的训练㊂模态融合[10]模块的主要目的是将原始图像和跨模态图像两者有效融合,在设定条件下可利用RGB 图得到丰富的颜色特征,采用RI 图像可得到丰富的纹理特征,如下:L lsr =(1-β)lg{p (k )}-1/K chtri (k a ,p -β),(13)其中L lsr 表示跨模态图像的纹理特征;p (k )表示平滑参数㊂采用模态融合模块融合处理上述提取的特征和式(13)提取的纹理特征,以实现跨模态图像行人识别,如下:Q (u ,v )=1/(1-β){(k a ,p -β)K tocal (u ,v )}f n (i ,j ),(14)其中Q (u ,v )表示跨模态图像的行人识别结果㊂至此,实现跨模态图像行人识别㊂2 实验分析为验证所提泛化迁移深度学习下的跨模态图像行人识别算法的有效性,实验在INRIA Person Dataset 图像库(http:∥pascal.inrialpes.fr /data /human /)中随机选择200幅跨模态图像作为测试图像集,设定图像的大小为256×256像素,优先利用图3给出部分测试图像㊂图3 部分行人测试图像集Fig.3 Part of the pedestrian test image set 041吉林大学学报(信息科学版)第42卷将文献[3⁃4]算法作为所提方法的对比方法,从不同角度对图3所示的行人图像进行测试㊂2.1 实验流程实验计算机配备IntelXeon 6230(2.10GHz)CPU 和32GByte 视频内存的NVIDIA Tesla V100视频卡㊂实验中,文献[3⁃4]算法行人识别流程和参数设置依照其实验最佳参数进行设定㊂笔者算法具体的实验流程如图4所示㊂图4 所提算法识别流程Fig.4 Identification process of the proposed algorithm 2.2 实验结果分析在图3所示的测试图像集上进行实验测试,分析不同算法的识别效果,实验测试结果如图5所示㊂图5 不同算法的跨模态图像行人识别结果对比Fig.5 Comparison of pedestrian recognition results incross⁃modal images by different algorithms 从图5可看出,无论白天还是夜晚,采用所提算法均可准确识别行人,而另外两种算法在比较复杂的场景下只能识别出行人的局部特征信息,出现了漏识和误识现象㊂由此可见,所提算法利用模态融合模块能更好地完成行人识别,且受光照差异造成的模态差异影响较小㊂以相同数据集中不同光照强度的图像作为测试对象,将识别时间作为测试指标,表1给出了具体实验分析结果㊂表1 不同算法的跨模态图像行人识别时间测试结果对比 平均识别时间为1.732s,分别低于另外两种算法的1.79s 和1.85s,全面验证了笔者算法的优势,同时可以更快的速度完成行人识别,受光照影响较小㊂141第1期蔡现龙,等:泛化迁移深度学习下的跨模态图像行人识别算法图6 图像不同视差距离下峰值信噪比数值Fig.6 Peak signal to noise ratio values of images at different parallax distances 以峰值信噪比(PSNR:Peak Singal⁃Noise Ratio)为指标,测试在图像不同视差距离下行人识别的峰值信噪比数值,结果如图6所示㊂从图6可看出,随着视差距离的增大,行人识别图像峰值信噪比数值虽然呈现降低趋势,但降低幅度很小㊂其中笔者方法的峰值信噪比数值始终高于两种对比算法㊂上述结果说明笔者方法将泛化迁移深度学习引入到行人识别中,获取的行人识别结果较完整,表明识别能力较好㊂3 结 语针对行人识别方法受光照㊁视差距离影响产生的模态差异造成识别时间较长以及识别结果不准确的问题,笔者提出一种泛化迁移深度学习下的跨模态图像行人识别算法㊂通过和另外两种算法对比可知,笔者算法可以全面降低行人识别所用时间,同时还能增加识别结果准确性,为后续开展此方面研究提供了重要的策略和理论依据㊂参考文献:[1]祁磊,于沛泽,高阳.弱监督场景下的行人重识别研究综述[J].软件学报,2020,31(9):2883⁃2902.QI L,YU P Z,GAO Y.Research on Weak⁃Supervised Person Re⁃Identification [J].Journal of Software,2020,31(9):2883⁃2902.[2]韩光,葛亚鸣,张城玮.基于去相关高精度分类网络与重排序的行人再识别[J].计算机应用研究,2020,37(5):1587⁃1591,1596.HAN G,GE Y M,ZHANG C W.Person Re⁃Identification by Decorrelated High⁃Precision Classification Network and Re⁃Ranking [J].Application Research of Computers,2020,37(5):1587⁃1591,1596.[3]王留洋,芮挺,郑南,等.基于跨模态特征增强的RGB⁃T 行人检测算法研究[J].兵器装备工程学报,2022,43(5):254⁃260.WANG L Y,RUI T,ZHENG N,et al.Research on RGB⁃T Pedestrian Detection Algorithm Based on Cross⁃Modal Feature Enhancement [J].Journal of Ordnance Equipment Engineering,2022,43(5):254⁃260.[4]OH S J,BENENSON R,FRITZ M,et al.Person Recognition in Personal Photo Collections [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(1):203⁃220.[5]郑爱华,曾小强,江波,等.基于局部异质协同双路网络的跨模态行人重识别[J].模式识别与人工智能,2020,33(10):867⁃878.ZHENG A H,ZENG X Q,JIANG B,et al.Cross⁃Modal Person Re⁃Identification Based on Local Heterogeneous CollaborativeDual⁃Path Network [J].Pattern Recognition and Artificial Intelligence,2020,33(10):867⁃878.[6]AGARWAL R,VERMA O P.Robust Copy⁃Move Forgery Detection Using Modified Superpixel Based FCM Clustering withEmperor Penguin Optimization and Block Feature Matching [J].Evolving Systems,2022,13(1):27⁃41.[7]JAVDANI D,RAHMANI H,WEISS G.SeMBlock:A Semantic⁃Aware Meta⁃Blocking Approach for Entity Resolution [J].Intelligent Decision Technologies:An International Journal,2021,15(3):461⁃468.[8]WU J Y,LU C H,LO H H,et al.P⁃23:Image Adaptation to Human Vision (Eyeglasses Free):Full Visual⁃CorrectedFunction in Light⁃Field Near⁃to⁃Eye Displays [J].SID International Symposium:Digest of Technology Papers,2021,52(3):1143⁃1145.[9]ANNAMALAI R,DORNEICH M,TOKADLI G.Evaluating the Effect of Poor Contrast Ratio in Simulated Sensor⁃Based VisionSystems on Performance [J].IEEE Transactions on Human⁃Machine Systems,2021,51(6):632⁃640.[10]邓佳桐,程志江,叶浩劼.改进YOLOv3的多模态融合行人检测算法[J].中国测试,2022,48(5):108⁃115.DENG J T,CHENG Z J,YE H J.Multimodal Fusion Pedestrian Detection Algorithm Based on Improved YOLOv3[J].China Measurement &Testing Technology,2022,48(5):108⁃115.(责任编辑:刘东亮)241吉林大学学报(信息科学版)第42卷。
光学纯对映体英文## Enantiomers and Optical Purity.In the realm of chemistry, chirality refers to the property of a molecule that lacks mirror symmetry, muchlike our left and right hands. Chiral molecules exist in two distinct forms known as enantiomers, which are mirror images of each other but cannot be superimposed. Enantiomers are like two non-identical twins, sharing the same molecular formula and connectivity but differing in their spatial arrangement.Optical purity, a crucial concept in stereochemistry, quantifies the enantiomeric excess of a chiral compound. It measures the proportion of one enantiomer relative to the other in a mixture. A mixture containing equal amounts of both enantiomers is considered racemic and has an optical purity of 0%. Conversely, a mixture containing only one enantiomer is optically pure and has an optical purity of 100%.### Separation of Enantiomers.The separation of enantiomers is a challenging yet essential task in many fields, including pharmaceuticals, agrochemicals, and fragrances. Various techniques can be employed to achieve this, including:Chiral chromatography: This technique utilizes achiral stationary phase that interacts differently with different enantiomers, allowing for their separation.Chiral resolution: This involves converting a racemic mixture into a pair of diastereomers, which can then be separated by conventional methods.Enzymatic resolution: Enzymes, being chiral themselves, can selectively catalyze reactions with one enantiomer over the other, leading to the formation of optically pure products.### Optical Purity Measurement.Optical purity can be determined using various methods, such as:Polarimetry: This technique measures the rotation of plane-polarized light as it passes through a chiral sample. The magnitude and direction of rotation depend on the enantiomeric composition of the sample.NMR spectroscopy: Chiral solvents or chiral shift reagents can be used in NMR spectroscopy to differentiate between enantiomers based on their different chemical shifts.Chromatographic methods: Chiral chromatography or capillary electrophoresis can be used to separate enantiomers and determine their relative abundance.### Significance of Optical Purity.Optical purity is of paramount importance in several areas:Pharmacology: Many drugs are chiral, and their enantiomers can have different pharmacological properties, including efficacy, toxicity, and metabolism. Enantiopure drugs offer advantages in terms of safety and effectiveness.Agrochemicals: Herbicides and pesticides can be chiral, and their enantiomers may differ in their selectivity and environmental impact. Optical purity ensures the targeted control of pests and weeds.Fragrances and flavors: The fragrance and flavor of chiral compounds can depend on their enantiomeric composition. Optical purity control allows for the creation of specific scents and tastes.### Applications of Chiral Compounds.Chiral compounds find widespread applications invarious industries:Pharmaceuticals: Enantiopure drugs include ibuprofen,naproxen, and thalidomide.Agrochemicals: Herbicides such as glyphosate and pesticides like cypermethrin are chiral.Fragrances and flavors: Enantiopure compounds like menthol, camphor, and limonene contribute to thedistinctive scents and tastes of products.Materials science: Chiral polymers, liquid crystals, and self-assembling systems have unique properties and applications in optics, electronics, and nanotechnology.### Conclusion.The concept of enantiomers and optical purity is crucial for understanding the stereochemistry of chiral compounds. The ability to separate and determine the optical purity of enantiomers is essential in numerous fields, including pharmaceuticals, agrochemicals, and fragrances. The significance of optical purity lies in itsimplications for the safety, efficacy, and properties of chiral compounds in various applications.。
2021年4月Journal on Communications April 2021 第42卷第4期通信学报V ol.42No.4高带外抑制特性微波陶瓷波导滤波器的设计梁飞,蒙顺良,吕文中(华中科技大学光学与电子信息学院,湖北武汉 430074)摘 要:介绍了陶瓷波导滤波器的设计理论,采用耦合通槽分别与浅、深耦合盲孔的组合结构来满足正、负耦合带宽要求,通过调整3~6腔体的交叉耦合来改善滤波器传输曲线的对称性,同时实现滤波器近端和远端的带外抑制,在此基础上设计了一款5G基站用六腔陶瓷波导滤波器。
在该滤波器的优化过程中,详细讨论了3~6腔体交叉耦合通槽的相对位置偏移量和交叉耦合通槽的长度对滤波器传输零点位置、近端和远端带外抑制特性的影响,并给出了相关的变化规律。
经优化后滤波器性能指标如下:中心频率为3.5 GHz,工作带宽为200 MHz,插入损耗≤1.2 dB,回波损耗≥17 dB,近端带外抑制≥25 dB,远端带外抑制≥51 dB。
根据仿真模型结构参数制备得到的样品,其性能测试结果与仿真结果吻合良好。
关键词:陶瓷波导滤波器;负耦合结构;交叉耦合通槽;带外抑制中图分类号:TN713文献标识码:ADOI: 10.11959/j.issn.1000−436x.2021029Design of microwave ceramic waveguide filter withhigh out-of-band suppression characteristicsLIANG Fei, MENG Shunliang, LYU WenzhongSchool of Optical and Electronic Information, Huazhong University of Science and Technology, Wuhan 430074, China Abstract: The design theory of ceramic waveguide filter was introduced, and then the combination structure of coupling through slot with shallow or deep coupling blind hole was designed, which could meet the requirements of positive and negative coupling bandwidth. By adjusting the cross coupling between 3~6 cavities, the symmetry of the filter transmis-sion curve was improved, and the near and far end band suppression of the filter was realized. Finally, a six-cavity ce-ramic waveguide filter for 5G base station was designed. In the process of optimizing the filter, the influences of the rela-tive position offset of the cross-coupling through slot and the length of the cross-coupling through slot on the transmis-sion zero position, the near end and far end out of band suppression characteristics of the filter were discussed in detail, and the relevant change rules were given. The performance indexes of the optimized filter were as follows, center fre-quency was 3.5 GHz, working bandwidth was 200 MHz, insertion loss ≤ 1.2 dB, return loss ≥ 17 dB, near end out of band rejection ≥ 25 dB, far end out of band rejection ≥ 51 dB. According to the structural parameters of the simulation model, the performance test results of the samples are in good agreement with the simulation results.Keywords: ceramic waveguide filter, negative coupling structure, cross-coupling through slot, out-of-band suppression1引言随着5G通信时代的来临,大规模天线技术和有限的频谱资源对微波器件的尺寸、工作性能等各项指标都提出了更高的要求。
第40卷第12期2023年12月控制理论与应用Control Theory&ApplicationsV ol.40No.12Dec.2023物体级语义视觉SLAM研究综述田瑞,张云洲†,杨凌昊,曹振中(东北大学信息科学与工程学院,辽宁沈阳110819)摘要:视觉同时定位与地图构建(Visual simultaneous localization and mapping,VSLAM)是自主移动机器人、自动驾驶、增强现实(AR)等领域的关键技术.随着深度学习的发展,准确高效的图像语义信息在VSLAM领域得到了广泛的应用.与传统SLAM相比,语义VSLAM利用语义信息提升了定位精度和鲁棒性,并通过物体级重建提高了环境感知能力,成为当前VSLAM领域的研究热点.本文对近年来优秀的物体级语义SLAM工作进行了阐述归纳和对比梳理,总结了该领域的4个关键问题,包括物体表达形式、物体初始化方法、融合语义信息的数据关联算法和融合物体级语义信息的后端优化方法.同时,对代表性方法进行了优缺点分析.最后,在现有技术成果和研究基础上,对物体级语义VSLAM面临的挑战和未来研究方向进行了展望和分析.当前物体级语义SLAM仍面临着物体关联不准确、物体优化框架不完善等问题.如何有效使用和维护语义地图以应用于决策规划等任务,以及融合多源信息以丰富视觉感知是未来的研究热点.关键词:视觉SLAM;数据关联;语义分割;物体级地图引用格式:田瑞,张云洲,杨凌昊,等.物体级语义视觉SLAM研究综述.控制理论与应用,2023,40(12):2160–2171DOI:10.7641/CTA.2023.30338Survey of object-oriented semantic visual SLAMTIAN Rui,ZHANG Yun-zhou†,YANG Ling-hao,CAO Zhen-zhong(College of Information Science and Technology,Shenyang Liaoning110819,China) Abstract:Visual simultaneous localization and mapping(VSLAM)is a key technology for autonomous robots,au-tonomous navigation,and AR applications.With the development of deep learning,accurate and efficient semantic infor-mation has been widely used in pared with traditional SLAM,semantic SLAM leverages semantic informa-tion to improve the accuracy and robustness of localization,and enhances environmental perception ability by object-level reconstruction,which has became the trend in VSLAM research.In this survey,we provide an overview of semantic SLAM techniques with state-of-the-art object SLAM systems.Four key issues of semantic SLAM are summarized,including ob-ject representation,object initialization methods,data association methods,and back-end optimization methods integrating semantic objects.The advantages and disadvantages of the comparison methods are provided.Finally,we propose the future work and challenges of object-level SLAM technology.Currently,semantic SLAM still faces problems such as inaccurate object association and an unified optimization framework has not yet been proposed.How to effectively use and maintain semantic maps for the application of decision and planning tasks,as well as integrate multi-source information to enrich visual perception,will be future research hotspots.Key words:visual SLAM;data association;semantic information;Semantic mappingCitation:TIAN Rui,ZHANG Yunzhou,YANG Linghao,et.al.Survey of Object-oriented Semantic visual SLAM. Control Theory&Applications,2023,40(12):2160–21711引言视觉同时定位与建图(visual simultaneous locali-zation and mapping,VSLAM)技术通过相机实现自主定位与地图构建,相较于激光雷达,相机具有低成本、低功耗、强感知等特点,且二维图像的语义信息更容易通过深度学习技术获取.结合语义信息对环境中的物体进行建模,并利用物体的语义不变性约束提升VSLAM的定位精度和鲁棒性成为当前研究的热点.本文着重对物体级语义VSLAM的发展和关键技术进行讨论:首先,阐述了物体级语义信息在SLAM中的收稿日期:2023−05−19;录用日期:2023−11−21.†通信作者.E-mail:*********************;Tel.:+86139****1976.本文责任编委:胡德文.国家自然科学基金项目(61973066,61471110)资助.Supported by the National Natural Science Foundation of China(61973066,61471110).第12期田瑞等:物体级语义视觉SLAM 研究综述2161重要作用;其次,归纳了物体级语义SLAM 技术的4个关键的问题(模型表达、物体初始化、数据关联、后端优化);最后,对语义SLAM 面临的挑战和未来发展方向进行了展望.本文结构框图如图1所示.图1本文结构框图Fig.1Structure of the survey2物体级语义VSLAM 系统架构物体级语义VSLAM 一般采用多线程的算法架构,分为前端和后端.前端主要由跟踪线程和检测线程构成:跟踪线程负责图像特征提取,并通过帧间特征匹配和局部BA(bundle adjustment)优化求解相机位姿;检测线程使用深度网络对输入图像进行语义信息提取,并将其送入到跟踪线程中.图像语义信息是基于当前帧的检测结果,因此,使用物体数据关联对不同帧的检测信息进行处理,并进行物体初始化.后端优化线程负责相机和物体位姿优化,以及对物体建模的参数进行调整.最终,系统构建了物体级的语义地图,实现环境的语义感知.语义信息的获取形式可以分为:目标检测[1–3]、语义分割[4–8]、实例分割[9–10].不同的语义信息获取方式会影响算法的实时性,通常,语义分割网络耗时更长,且语义分割得到的像素级分割结果存在信息冗余和误检,目标检测网络效率更高,但在复杂场景下容易出现漏检和误检的现象.后端优化方式可以分为独立优化和联合优化策略,例如,OA-SLAM(object assisted SLAM)[11]使用独立的线程来优化二次曲面参数,QuadricSLAM [12]则将物体和相机放在局部BA 的统一框架下优化.近年来,融合目标检测和实例分割的物体级SL-AM 成为研究的热点,该类方法通过多视图几何约束,利用物体检测框重建物体模型.重建模型可以分为二次曲面[13–20]、立方框[21]等.实例分割可以获得更准确的物体实例掩码,通常用于辅助物体特征提取和数据关联,实现更准确的目标跟踪[22].常见的物体级VSLAM 结构如图2所示.3物体级语义VSLAM 优势和应用传统的VSLAM 一般通过点、线、面等几何元素构建地图,例如,稀疏点云地图[23]、稠密点云地图[24]、网格地图[25–26]、TSDF(truncated signed distance field)地图[27]等.这些地图为自身定位和环境感知提供基础,使得VSLAM 技术得以广泛应用.随着应用场景的增加,人们发现传统VSLAM 方法在定位精度和算法鲁棒性上具有局限性,主要有如下原因:1)动态干扰,当前VSLAM 算法大多基于环境静态假设,特征匹配和优化容易受到外点干扰,导致跟踪精度变差或者丢失.2)光照变换,传统的视觉特征在光照变化或者暗光条件下,特征匹配和图像光度误差匹配失败,导致无法实现位姿估计,算法鲁棒性降低.3)高层次的语义感知需求,传统的VSLAM 在表征物体上具有局限性,不具有语义信息,无法满足人机交互等复杂任务的需求.深度学习技术的引入为VSLAM 定位和环境感知带了新的解决方法.基于深度学习的特征提取技术为VSLAM 在复杂光照条件下提供更稳定的匹配效2162控制理论与应用第40卷果[28–30],实例分割或目标检测为物体的运动属性判断提供可能,减少了VSLAM 在复杂环境中受动态干扰的影响[31–32].通过构建的物体级地图和模型表达,丰富了系统的环境感知能力[11,14–19].图2物体级语义VSLAM 结构图Fig.2Architecture of object VSLAM3.1利用物体信息提升定位精度当前,室内外场景下的VSLAM 算法已经得到了长足的发展,一些SLAM 算法能够准确地构建环境地图,并在一定程度上克服噪声、动态干扰和光照变化的影响.例如,ORB-SLAM [33]、RGBD-SLAM [34]、LS-D-SLAM [35]等.然而,在实际应用部署中,算法仍面临着场景动态干扰的影响.早期的解决方案中[23],使用运动一致性和基于外点剔除的RANSAC(random sample consensus)策略对由噪声干扰导致的错误特征匹配进行筛选,或者在优化中引入鲁棒核函数来降低动态特征的优化权重,例如,ORB-SLAM2[23]使用特征均匀提取和鲁棒核函数来降低错误匹配干扰.近年来,一些工作将物体检测结果的语义属性引入VSLAM 中,对场景中物体的动静态进行判断,并剔除动态物体的干扰[36–40].Detect-SLAM [41]通过目标检测剔除动态点,并通过特征匹配和扩展区域进行运动概率传播,在提升定位精度的同时提升了目标检测的稳定性.DS-SLAM [39]使用实例分割结果和运动一致性判断物体的运动属性,并将动态特征进行剔除以提升定位精度.Dyna-SLAM [40]将落在运动物体掩码内的特征作为外点剔除,从而提升其在动态场景下的定位鲁棒性.类似的,Kaveti 和Singh [42]提出了Light Field SLAM,通过合成孔径成像技术重建被遮挡的静态场景,不同于Bescos 等人[43]的算法,其进一步利用了重建背景的特征进行位姿跟踪以实现更好的定位性能.针对基于深度学习的动态物体检测通常存在漏检和错检问题,Ballester 等人[44]提出了DOT-SLAM,结合实例分割和多视图几何来生成动态物体掩码,并通过最小化光度误差进行跟踪.这种方法不仅提高了定位精度,还提高了语义分割的精度.上述工作的重点是通过剔除动态信息来提升自身定位的鲁棒和准确性,但忽略了对场景中移动物体状态的感知.作为VSLAM 对动态场景理解的扩展,结合运动跟踪的VSLAM 成为当前研究的热点.Wang 等人[45]首先提出了带有运动物体跟踪的SLAM,将自身位姿估计和动态物体位姿估计分解为两个独立的状态估计问题.Kundu 等人[46]结合SfM(structure from motion)和运动物体跟踪来解决运动场景下的SLAM 问题,该方法将系统输出统一到包含静态结构和运动物体轨迹的三维动态地图中.Huang 等人[47]提出了Cluster-VO,能够进行多个物体的运动估计.该方法提出了一种多层概率关联机制来高效地跟踪物体特征,利用异构条件随机场(conditional random filed,CRF)聚类方法进行物体关联,最后在滑动窗口内优化物体的运动轨迹.Bescos 等人[43]将运动物体与自身状态估计问题紧耦合到统一框架中,对跟踪点集使用主成分分析(principal component analysis,PCA)聚类和立方框建模,并使用动态路标点对自身位姿进行约束.第12期田瑞等:物体级语义视觉SLAM研究综述2163考虑到场景的先验约束,Twist SLAM[48]使用机械关节约束来限制物体在特定场景位姿估计的自由度,结合3D目标检测获得先验物体估计,使用语义信息来构建物体点簇地图,并利用静态簇(道路和房屋)来估计相机位姿.动态簇则通过速度的变化进行跟踪和约束.VDO-SLAM[49]使用聚类点的形式对物体进行状态估计,使用实例分割和稠密场景流,提高了动态物体观测的数量和关联质量,该方法将动态和静态结构集成到统一的估计框架中,实现了对相机位姿和物体位姿的联合估计.3.2利用物体信息提升定位鲁棒性传统的视觉定位大多采用手工描述了,如OR-B[50],SIFT[51]等特征,并使用基于视觉词袋(bag of words,BOW)进行定位,当图像视角变化或者光照发生明显改变时,该方案的视觉定位会失效.物体语义信息能有效克服大视角变换以及光照变换等情况,为VSLAM提供更鲁棒的定位.实时的物体级单目SLAM算法SLAM++[52]利用了一个大型物体数据库,使用单词袋来识别对象,实现鲁棒定位.Zins等[11]提出的OA-SLAM利用重建的物体级语义地图进行相机重定位.该方案结合了特征描述子和场景物体的重投影观测,利用物体的相对位置关系约束,在视角变化剧烈的场景下实现定位,提升了视觉定位的鲁棒性.Liu等[53]提出基于物体级描述符的定位方法.文献[54]提出基于深度网络的物体描述符定位方法.CubeSLAM[55]利用物体立方框和当前帧的目标检测约束,提升系统在无纹理场景下的定位鲁棒性. QuadricSLAM[12]提出基于二次曲面的物体观测约束,首次使用3D椭球作为路标,同时使用一个联合优化框架,将相机位姿和二次曲面联合优化.文献[56]利用单目视觉构建的物体级路标和物体先验大小约束,减少了单目定位的尺度漂移,提升了单目视觉的定位精度和鲁棒性.类似的方案如文献[57–58],采用物体先验尺度约束单目定位漂移.EAO-SLAM[21]则使用物体立方框约束构建观测误差,减少了定位漂移.可以看出,融合物体语义信息已经成为了提高视觉定位精度和鲁棒性的有效途径之一.语义信息已经广泛应用于SLAM系统的初始化、后端优化、重定位和闭环检测等阶段.因此,有效地处理和利用语义信息是提高定位精度的关键.3.3利用物体信息提升系统环境感知能力VSLAM构建的地图可以分为:稀疏点云地图[23]、稠密地图[27]、半稠密地图[24]、结构地图[59–60]、平面地图[61–65]、物体级地图[13–19,52]等.点云地图中仅具有点云结构信息,通常用于为SLAM提供定位约束.半稠密和稠密地图可以更精细地表达环境.结构地图和平面地图通过抽象的场景点线面的结构,为场景提供轻量级的地图表达.然而,上述的地图表达形式缺少对环境的高层次语义感知能力.近年来,随着自动驾驶、人机交互等领域的兴起,环境的语义感知越来越受到研究者的重视.语义信息的融入为SLAM的地图提供更为丰富的感知信息.早期的物体SLAM,例如,SLAM++[52]利用物体CAD模型构建语义地图,通过目标检测和识别,将先验物体数据库的物体加载在地图中.文献[37]将语义标签信息融合到稠密点云地图中,构建了稠密语义地图.CubeSLAM[55]和EAO-SLAM[21]通过立方框构建物体级地图.文献[13–19]构建了物体的二次曲面地图,同时估计了物体的大小、旋转和位置.相比于二次曲面和立方体的包络,超二次曲面可以通过调节二次模型参数适应不同形状的物体,丰富环境物体的表达.文献[66]使用超二次曲面构建室内场景的物体级地图.一些工作将抽象的语义标识加入到地图表达中,A VP-SL-AM[67]通过检测道路的车道线,交通标识等信息构建了轻量级的语义地图,用于实现准确的室外场景定位.另外,一些研究者将运动物体的感知信息加入到SLAM中,提出了SLAM-MOT[22,47,68],在构建场景稀疏点云地图的同时,表达物体的运动轨迹,构建包含运动信息的物体地图.例如,VDO-SLAM[49]提出利用语义信息构建环境结构,跟踪刚性物体的运动并估计其三维运动轨迹,其地图表示如图3所示.图3VDO-SLAM系统可视化地图[49],包含运动物体跟踪和三维轨迹Fig.3Visualization of Object tracking and trajectory estima tion of VDO-SLAM[49]可以看出,融合语义信息后,VSLAM的地图表达形式更加丰富.构建的物体级地图包含场景的高层次2164控制理论与应用第40卷语义信息,而且通过动态跟踪和联合位姿估计,可以获得动态物体的速度和运动轨迹估计,使得VSLAM 可以实时估计环境物体的运动轨迹,具有更丰富的环境感知能力.4物体语义的表达形式和初始化方法物体表达形式是物体级语义SLAM 进行环境感知的重要环节,传统的SLAM 算法使用几何特征,例如点、线、面等元素构建环境地图.这些几何特征能为SLAM 提供定位约束,并在一定程度上表征场景的感知信息,但缺少语义信息.SIFT [51],SURF [50]和ORB [50]是最常用的特征.利用稀疏点表达环境的视觉SLAM 方法[23,33]已经在三维场景重建领域取得了巨大的成功.然而,这类地图由三维空间中稀疏分布的点集构成,缺乏对物体位姿和边界的准确描述.因此,稀疏点云地图不能应用于复杂的任务,如路径规划、避障等.近年来,得益于深度学习检测技术的发展,SLAM 的地图构建已经由传统的几何表征转为语义描述,特别是物体级的描述.在物体表达上,可以分为:先验模型、几何模型、深度学习表征等.这些物体表达提升了SLAM 的语义感知能力,不同物体的表达如图4所示[12,52,55,69–71].图4物体语义的表达形式Fig.4Object representation method of object VSLAM4.1先验模型表达先验模型表达使用预先建立的先验数据库,通过检测–匹配的方式加载物体.如图4(a)所示,先验模型表达的代表为SLAM++[52].文献[72]提出使用检测立方框与先验CAD 模型进行ICP 匹配,通过物体路标约束,实现缺乏纹理的地下停车场定位.文献[73]使用预先集成或预定义的模型来进行对象跟踪,该工作的目标是建立一个具有物体标识的环境地图,并使用预集成的对象模型辅助定位,其结合了两种不同的深度网络输出结果来联合物体检测和对象的姿态估计.4.2几何模型表达几何模型通过参数化的二次曲面或者立方框实现,如图4(b)–4(c)所示.Nicholson 等人[12]提出了Quadric-SLAM,首次将二次曲面作为路标引入到SLAM 中,详细推导了如何利用多帧不同视角的目标检测观测数据构建约束,求解物体的二次曲面参数.并提出二次曲面投影观测模型,使得二次曲面参与位姿优化成为可能.后续的大多数基于二次曲面的SLAM 方案都是基于这个思路的延续[74].Hosseinzadeh 等人[75]提出了Structure Aware SLAM,在二次曲面路标的基础上加入了平面约束,使得二次曲面的建模精度进一步提高.Ok 等人[14]使用室外物体前向运动假设,提出了一种利用目标检测框、图像纹理以及语义尺度先验估计二次曲面参数的方法,降低了二次曲面初始化的难度,然而,该方法只能对车辆进行建模.Liao 等人[76]引入对称性假设,提出了物体感知S-LAM,利用物体对称性补全物体点云,进而根据物体点云拟合二次曲面.Chen 等人[77]针对物体前向平移运动假设,提出了一种基于物体凸包和目标检测的二次曲面初始化方法,为二次曲面初始化提供了新的思路.为了解决二次曲面初始化对噪声敏感的问题,Ti-第12期田瑞等:物体级语义视觉SLAM研究综述2165an等人[19]提出了一种参数分离的二次曲面初始化方法,将旋转和平移估计解耦估计,提升了初始化对检测框噪声的鲁棒性.利用物体对称性可以实现快速二次曲面初始化,Liao等人[78]提出的SO-SLAM是一种新颖的单目物体级语义SLAM,该方法使用三种具有代表性的空间约束,包括比例比例约束、对称纹理约束和平面支撑约束实现单帧视角下的二次曲面初始化.立方框表达的代表作是CubeSLAM[55],将物体模型参数化为三维立方框.EAO-SLAM[21]使用立方框和椭球对室内物体进行空间描述.然而,相比于立方框,二次曲面具有完备的数学模型表达和射影几何描述,更易于通过二次曲面重投影约束融合到SLAM的后端优化框架中,因此受到研究者的青睐.另外,一些物体模型表达方案采用物体聚类点描述,Cluster-SLAM[69]及后续的ClusterVO[47]均使用物体聚类点簇进行物体位姿估计和表达,如图4(d)所示.4.3深度学习表征粗略的几何模型往往不能表示物体的精确体积,而稠密点云需要大量的内存占用来存储地图.最近一些工作使用基于深度学习的特征进行模型表达,结合学习表征的物体级路标实现室外定位[79].DSP-SLAM[70]使用DeepSDF(signed distance fun-ction)网络[80]提取物体特征,并通过网络参数和表面重建损失函数进行物体表面恢复,构建场景的物体地图,如图4(e)所示.SceneCode[81]和Node-SLAM[71]则使用了深度网络中间层特征来表征物体.利用这些深度提取的特征和表面渲染误差函数,可以恢复物体的几何形状,如图4(f)所示.以上可知,物体的初始化表征方法决定了物体SLAM的地图表达形式,深度学习需要高算力的计算设备,且系统的实时性无法保证,几何模型可以准确描述物体的大小、旋转和位置,能完整表达物体的占据信息,且地图占用小,已经成为当前研究的热点.5物体级语义信息的数据关联方法基于深度学习的语义提取方法大多关注于单帧检测,而VSLAM在定位和建图环节均需要考虑时间和空间上的数据关联.针对物体级语义SLAM,解决不同帧之间的语义观测关联问题,确定同一语义对象在连续帧的关联性,是后续实现多帧优化的前提条件.当前数据关联方法可以分为两类:基于概率关联的方法和基于分配算法的关联方法.5.1基于概率关联方法该方法将属于物体的观测约束建模为概率分布模型,根据模型分布关系来确定帧间物体关联.Beipeng Mu等人[82]使用实例分割掩码的中心深度表征物体观测,并利用Dirichlet分布对观测进行建模,通过DP m-eans算法和最大似然估计(maximum likelihood estim-ation,MLE)迭代结果确定物体的数据关联.Bowm-an等人[83]使用期望最大化(expectation-maximization, EM)算法对物体路标进行软关联,并将物体路标作为约束因子与几何观测进行融合.文献[84]使用概率数据关联的方式解决动态环境下的物体关联.Iqbal和Gans等人[85]分析了不同物体点云深度分布之间的区别,使用层次密度聚类算法和非参数检验方法对物体进行关联.5.2基于分配算法的关联方法基于分配算法的关联方法能利用多帧观测解决帧间漏检等问题,为系统提供稳定的物体关联结果.文献[86]使用物体词袋方法构建成本矩阵,通过分配算法实现关联.OA-SLAM[11]使用目标检测结果和物体路标重投影的交并比(intersection over union,IoU)构建成本矩阵,并使用KM(kuhn-munkres,KM)算法进行分配.然而,由于有限的观测视角以及观测帧数,上述方法对于动态场景下的物体数据关联表现并不理想.为了解决上述问题,一些工作采用检测跟踪算法(track-by-detection)实现物体数据关联.Bewley等人[87]使用卡尔曼滤波器对检测框进行状态预测和更新,通过计算预测和检测结果的2D IoU 来度量匹配相似度,并使用匈牙利算法求解指派问题.针对单源相似度的局限性,Deep SORT(deep simple online and realtime tracking)[88]融入了外观信息,使用重识别网络提取的特征,增强了匹配性能,同时,其在匹配策略上增加了级联匹配模块,根据轨迹相似性进行关联,降低了遮挡目标ID切换的频率.Hosseinzadeh 等人[89]采用检测框内特征点投影匹配数量作为度量,该方法能够在一定程度上克服跟踪时的遮挡问题.可以看到,当前数据关联方法主要通过融合多源特征构建成本矩阵,并通过分配算法求解实现.然而,数据关联结果依赖于语义提取模块精度,当检测精度降低时会对关联结果产生影响,进而影系统的定位精度和鲁棒性.稳定可靠的数据关联方法是提升系统表现的有效途径之一.6融合物体级语义信息的后端优化方法在物体完成初始化后,需要利用后续观测信息对地图中的重建物体进行优化,根据物体是否参与相机位姿优化,后端优化策略可以分为独立优化策略和联合优化策略.根据是否需要跟踪场景中的动态物体,联合优化策略的因子图也有不同的形式.后端优化策略示意图如图5所示.2166控制理论与应用第40卷图5融合物体信息的语义VSLAM后端优化方法Fig.5Back-end of object VSLAM with object observations6.1独立优化策略如图5(a)所示,独立优化策略下,物体的位姿和模型参数单独进行优化,物体模型利用跟踪线程中提供的相机初始位姿进行优化.OA-SLAM[11]使用连续帧的目标检测结果对椭球参数单独优化,并在后端优化中使用优化后的物体路标对相机位姿进行优化.CubeSLAM[55]使用采样得分初始化立方框,并独立估计相机位姿和立方框参数,从而确保相机位姿估计的准确性.独立优化关注于物体重建,在进行物体位姿优化调整时无法对相机定位结果进行修正,当相机定位失败时,系统无法实现准确的自身定位和语义地图构建,没有充分利用语义信息辅助定位.6.2联合优化策略1)联合因子图,该方案将物体参数和位姿估计放在统一因子图中进行优化,并根据是否需要对动态物体进行位姿估计分别采用不同的因子图.静态场景的联合优化因子图如图5(b)所示,该方法通常适用于静态场景或采用动态特征剔除策略的SLAM算法.QuadricSLAM[12]将二次曲面参数和相机位姿优化优化放在联合优化中,构建了室内场景的语义地图.Tian等[19]提出的方法将初始化椭球和关键帧位姿放在统一优化因子图中进行优化,提升了室外场景下的定位精度和二次曲面建图准确性.动态场景的因子图如图5(c)所示,引入了动态物体位姿估计和模型参数优化的误差因子.VDO-SL-AM[49]使用物体语义信息和基于场景光流的特征关联,实现刚性物体位姿估计,将动态和静态结构放在统一的后端优化框架中.后续研究如[14–15,17,20]也将物体位姿优化放在局部建图线程中以实现联合优化.近年来,融合二次曲面路标观测的VSLAM成为了研究的热点[12,19,75,78].2)滑动窗口优化策略.相比于静态场景,动态场景下的物体观测容易受到漏检、遮挡等因素的干扰,基于关键帧的关联方案不能为动态物体提供准确的数据关联信息.为了克服这些问题,一些基于滑窗的优化方式被提出[43,47–48].滑动窗口由固定帧数的观测队列组成,当新的帧观测加入队列时,位于时序最早的帧观测被移出,同时,其维护的状态也通过滑窗边缘化的方式进行求解,如图6所示.图6滑动窗口优化结构示意图Fig.6Sliding window based optimization method滑动窗口优化将物体位姿和相机位姿放在统一优化框架中,由于运动物体的特点,使用滑窗优化可以有效利用连续帧的特征信息.DynaSLAM2[43]将场景静态结构,相机位姿以及动态物体运动轨迹维护在一个紧耦合的局部BA进行优化,通过目标检测的二维检测框构建物体位姿约束,使用舒尔补加速稀疏矩阵边缘化求解,解决滑窗优化的计算效率问题.Cluster-VO[47]使用点聚类的方式,将物体点和背景点放在滑窗内进行优化.该方法使用时间和空间双通道的关键帧管理策略保证计算效率,同时对遮挡的运动物体进行预测和跟踪.可以看出,滑窗的方式具有快速响应、参数优化更准确的特点,适用于动态物体的跟踪和位姿估计.基于因子图的联合优化可以有效利用关键帧信息,对室内场景的物体优化更准确.7未来发展和展望利用语义信息,SLAM可以适应动态和复杂环境下的定位,并通过物体级语义地图提升系统的环境感知能力.其技术可以应用于无人驾驶、机器人导航、智慧城市等领域.未来,融合语义信息的高层次信息可以为增强现实(AR)和虚拟现实(VR)提供更丰富的。