一种各向异性虚拟人脑图像分割模型
- 格式:pdf
- 大小:359.31 KB
- 文档页数:5
请务必阅读正文之后的免责声明及其项下所有内容证券研究报告|2023年04月10日超配
1人工智能行业点评
SAM模型带来图像分割的GPT-3时刻,机器视觉和多模态AI迎突破
行业研究·行业快评计算机投资评级:超配(维持评级)证券分析师:熊莉*******************************.cn执证编码:S0980519030002证券分析师:胡剑******************************.cn执证编码:S0980521080001证券分析师:库宏垚********************************.cn执证编码:S0980520010001
事项:2023年4月6日Meta宣布推出SegmentAnythingModel工具,可准确识别图像中的对象。该项目包括模型、数据集,并以较为宽松的Apache2.0许可下允许他人使用。该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一键抠图,有望对人工智能CV领域产生重大影响。
国信计算机观点:1)Meta推出SAM模型,图像分割效果卓群,SAM允许用户以灵活的方式进行图像分割。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比ChatGPT在语言领域的应用和突破。2)Meta发布有史以来最大的分割数据集SA-1B,得益于基础模型中prompt的引入,SAM模型数据集的收集速度和体量均有大幅提升。3)SAM开源将大幅提升CV产业能力,机器视觉产业将全面受益于SAM模型发展;同时结合大语言模型的快速发展,多模态AI应用有望加速。5)投资建议:建议关注机器视觉、多模态AI产业,包括视觉内容生成、VR、AR等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。5)风险提示:国内AI技术和应用发展不及预期;宏观经济下滑影响IT支出;AI应用相关政策和法律推进缓慢。
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910233567.6(22)申请日 2019.03.26(71)申请人 电子科技大学地址 611731 四川省成都市高新区(西区)西源大道2006号(72)发明人 高婧婧 (74)专利代理机构 成都正华专利代理事务所(普通合伙) 51229代理人 何凡(51)Int.Cl.G06T 7/11(2017.01)G06N 3/04(2006.01)(54)发明名称基于三维Unet网络的脑部核磁共振图像组织分割方法(57)摘要本发明公开了一种基于三维Unet网络的脑部核磁共振图像组织分割方法,其包括将脑部核磁共振图像导入训练后的三维Unet网络中,并输出三维Unet网络倒数第二层获得的64个三维特征;采用高维矢量非局部均值注意力模型对64个三维特征的特征值进行重新分布;将重新分布特征值的三维特征输入至三维Unet网络最后一层的softmax层进行图像分割处理,得到脑部三个组织的分割结果。
本方案通过三维Unet网络和高维矢量非局部均值注意力模型的相互结合,可以使映射后的组织类别完全不受噪声的干扰,从而获得不受噪声影响的全脑组织分割结果。
权利要求书2页 说明书5页 附图2页CN 109949321 A 2019.06.28C N 109949321A1.基于三维Unet网络的脑部核磁共振图像组织分割方法,其特征在于,包括:将脑部核磁共振图像导入训练后的三维Unet网络中,并输出三维Unet网络倒数第二层获得的64个三维特征;采用高维矢量非局部均值注意力模型对64个三维特征的特征值进行重新分布;将重新分布特征值的三维特征输入至三维Unet网络最后一层的softmax层进行图像分割处理,得到脑部三个组织的分割结果。
2.根据权利要求1所述的脑部核磁共振图像组织分割方法,其特征在于,所述采用高维矢量非局部均值注意力模型对64个三维特征的特征值进行重新分布进一步包括:对三维Unet网络倒数第二层输出的64个三维特征进行归一化处理:其中,为归一化后的第i个三维特征;X i 为三维Unet网络倒数第二层输出第i个三维特征;采用归一化后的三维特征形成四维特征矢量:采用高维矢量非局部均值注意力模型对归一化后三维特征的特征值进行重新分布:其中,为特征值重新分布后的第i个三维特征;C为归一化因子;Ω为整副图像的前景区域;为常数e为底数的对数;为以体素x为中心的邻域灰度值;为以体素y为中心的邻域灰度值;h为滤波参数;F(·)为卷积函数;|.|2为模的平方;为经过归一化后第i个三维特征中位于体素y处的取值,G ρ(y)是四维高斯核函数;对特征值重新分布后的三维特征进行归一化处理,得到最终的重新分布特征值的三维特征:其中,为最终的重新分布特征值的三维特征。
一种改进的各向异性扩散模型刘彪【摘要】各项异性扩散方程是一种经典的图像去噪方法,但该方法在去除噪声的过程中会造成一定程度的模糊边缘.对此文中提出了一种基于改进的各向异性扩散方程的图像去噪方法,通过在其能量泛函的目标函数中添加残差项,使能量泛函的极小解更加接近原始的函数,可取得比其更好的去噪效果.文中方法可看作是各项异性扩散方程和全变差模型的结合.实验表明,新提出的方程相对经典的方程有较好的边界处理效果和更高的信噪比.【期刊名称】《电子科技》【年(卷),期】2016(029)008【总页数】3页(P130-132)【关键词】各项异性扩散;图像光滑化;能量泛函;偏微分方程【作者】刘彪【作者单位】西安电子科技大学数学与统计学院,陕西西安710126【正文语种】中文【中图分类】TP391.41;O24图像是人类社会有力的通讯媒介之一,在生活和研究中占据很大的重要性。
但是图像在传递过程中,不可避免地会受到噪声的干扰。
图像去噪作为图像处理领域[1-2]重要的问题之一,主要目的是在去除噪声的同时保护图像本身的细节边界等信息。
目前已经有多种图像去噪的方法,主要有基于变分和偏微分方程的方法,经典的方法有热方程[3],各向异性扩散方程[4],TV模型[5-6],且在其的基础上发展出了诸多的模型[7]。
这些方法可去除噪声,但仍会一定程度的造成图像的边缘的模糊。
本文在经典的各向异性扩散方程P-M[8]方程(Perona-Malik)的基础上,对其进行改进。
经典的P-M方程可看作一个特殊的能量泛函的欧拉方程,求欧拉方程的过程就是一个求能量泛函极小的过程。
本文在P-M模型的能量泛函中添加残差项(忠诚项),这是为了使其能量泛函的极小解更加接近原始的图像。
当然,全变差模型TV模型[7](Total Variation Model)的能量泛函本来含有残差项与正则项的。
因此这种改进方法也可以看作是P-M方程和TV模型的结合。
并且在本文中给出了数值算法流程,并对比了改进算法与原始P-M模型。
各向异性扩散滤波各向异性扩散滤波(Anisotropic Diffusion Filter)是一种在图像处理中常用的非线性滤波算法,用于去噪和边缘增强。
与其他线性滤波算法相比,各向异性扩散滤波能够更好地保持图像的边缘细节,因此被广泛应用于图像增强、图像分割等领域。
该算法的核心思想是根据像素的梯度大小来控制邻域像素的扩散程度。
梯度大小可以反映像素间的强度变化,因此边缘处的梯度较大,说明在该区域内像素的变化较剧烈。
而对于相似的区域,像素值的变化较小,导致梯度较低。
因此,为了保持边缘细节,各向异性扩散滤波根据梯度大小调整每个像素的更新强度。
具体而言,各向异性扩散滤波的更新模型可以表示为:\[\frac{{\partial I}}{{\partial t}} = c(\,\nabla I\,)\nabla^2 I\]其中,\(\frac{{\partial I}}{{\partial t}}\)表示图像强度在时间上的变化率,\(\nabla I\)表示图像梯度,\(\nabla^2 I\)表示图像的二阶导数,负责传播强度变化。
函数\(c(\,\nabla I\,)\)表示更新强度,它是梯度的函数,用于控制不同梯度大小下的扩散程度。
常用的更新强度函数有多种,其中一种常用的形式是:\[c(\,\nabla I\,) = \exp(-\frac{{\,\nabla I\,^2}}{{k^2}})\]其中,\(\,\nabla I\,\)表示梯度的大小,可以使用Sobel算子等计算得到。
参数\(k\)用于控制扩散强度,较小的\(k\)值可以增强边缘,而较大的\(k\)值则会更强化平滑效果。
\[I^{n+1}(x,y) = I^n(x,y) + \lambda \nabla \cdot (c(\,\nabla I^n(x,y)\,) \nabla I^n(x,y))\]其中,\(I^{n+1}(x,y)\)表示第\(n+1\)次迭代后,像素点\((x,y)\)的数值;\(I^n(x,y)\)表示第\(n\)次迭代的像素点\((x,y)\)的数值;\(\nabla\)表示梯度算子;\(\lambda\)表示时间步长,用于控制每次迭代更新的强度。
文章编号:1674-7070(2010)02-0113-05一种各向异性虚拟人脑图像分割模型王顺凤1 罗春燕2
摘要虚拟人脑部组织脑的提取已经成为虚拟人脑数据分析的一个重要环节,但由于图像噪声、下层数据等因素的影响,传统方法得不到较好结果.首先利用RGB,HSL,HSV空间信息构造新的信息场,该信息场可以降低下层数据的影响;再利用结构张量信息构造各向异性Gibbs场,降低噪声的影响;利用各向异性Gibbs场改进的FCM模型对图像进行分割,以降低颜色强度不均匀现象导致的误差.实验表明,该方法可以得到较好的分割结果.关键词模糊C均值模型;结构张量;各向异性;图像分割
中图分类号TP391.41文献标志码A
收稿日期2010-01-23资助项目江苏省教育厅“青蓝工程”项目(2006);国家自然科学基金(60973157)作者简介 王顺凤,女,副教授,硕士生导师,研究方向为数字图像处理.wsfnuist@yahoo.com.cn
1南京信息工程大学滨江学院,南京,2100442南京信息工程大学数理学院,南京,210044
0 引言Introduction
数字化虚拟人的研究是医学与信息科学相互交叉的前沿性研究领域,它利用数字化技术实现人体结构和机能的可视化,最终达到人体的整体模拟,为以人体研究有关的各个领域提供研究平台与技术支撑.虚拟人第一阶段的可视人体就是利用断层影像学和人体连续切片的方法获取人体解剖结构数据,然后利用计算机重建三维模型.虚拟人图像所包含的组织信息量较大,可以用于人体组织解剖结构、组织定量化测定的辅助研究等.人脑具有非常复杂的结构且与许多精神疾病相关,随着世界人口老龄化加剧,脑疾病越来越被重视.虚拟人脑部图像可提供人脑最直观的信息,将脑部组织分割出来可以方便后继的脑组织的分析[1]、
脑组织表皮部分的测绘[2]、体积的测量和功能成像[3]的研究等.然而,由于图像中非脑组织以及背景部分占据较大比例,对灰质等成分的分析具有一定的影响[4].因此如何快速准确地将脑部组织从图像
中分割出来是目前脑部图像研究的一个重要环节.目前常见的脑分割模型都针对磁共振(MagneticResonance,MR)图像,通常可分为人工分割、计算机辅助半自动分割以及全自动分割3种方法.人工分割往往需要较专业的知识,分割过程单调乏味,且消耗大量时间与精力,近年来,已有很多学者对计算机辅助分割技术进行研究并改进[5-9].MR图像通常为256像素×256像素的灰度图,而
中国虚拟人图像为彩色图,大小为3872像素×2048像素,图1为虚拟人脑图像中的一层,为了显示方便,本文仅截取其中的目标部分.可以看出,图中除了脑组织外还有脑壳、脂肪等其它组织,且所占比例也较大,将其它组织剔除可方便后继的脑功能分析;此外,由于下层数据的影响,使得图中存在伪目标,影响目标的分割,而且由于人体组织自身的因素,虚拟人图像中通常存在强度不均匀现象,传统的基于MR图像的分割方法很难将虚拟人图像中的目标分割出来.在虚拟人脑图像中,由于下层数据的影响,使得当前图像中含有伪灰质,该类组织的颜色与灰质的颜色相近,本文使用RGB(Red-Green-Blue)、HSL(Hue-Saturation-Lightness)、HSV(Hue-Saturation-Value)空间信息构造新的信息场,该信息场可以降低下层数据的影响.本文使用改进的模糊C均值(FuzzyC-Means,FCM)模型对图像进 行分割,以降低颜色强度不均匀现象导致的误差.图1 虚拟人脑图像Fig.1 Virtualhumanbrainimage
1 基于颜色空间的下层数据处理Lowerlayerdataanalyzingbasedoncolorspacein-formation
因为图像中含有下层数据,本文首先分析颜色空间信息,以降低下层数据的影响.记图像为I,尺寸为m像素×n像素.在RGB颜色空间中,每个点W(x,y)表示为W(x,y)=[IR(x,y),IG(x,y),IB(x,y)].RGB空间中各像素值由红色(R)、绿色(G)和蓝色(B)3种颜色的亮度值叠加来表示,且3种颜色间相互联系,因而RGB颜色空间与人眼的感知差异很大.例如:距离为50的(0,0,0)与(50,0,0)2种RGB颜色被认为是同一颜色,而距离为50的(200,150,0)和(200,200,0)则是差别很大的2种颜色.目前已有很多颜色空间以降低该影响,如:CIEXYZ,CIELUV,YUV,YIQ,HSV,HSL等.本文使用RGB、HSL、HSV颜色空间信息构造新的信息场:W(x,y)=0.4IRGB-B(x,y)+0.6IHSL-L(x,y)-0.4IHSV-V(x,y).(1)
式(1)中参数为经验所得,在该范围内小幅度变化对结果影响不大,RGB-B为RGB颜色空间中的B信息,HSL-L为HSL中的L信息,HSV-V为HSV中的V信息.图2为转换后的信息场,将数值转化成8位,则此时构成灰度图像W.可以看出此时图像中灰质与下层数据差别较为明显.2 各向异性FCM算法Anisotropicfuzzyclustermethod2.1 Markov随机场与Gibbs随机场理论在Markov随机场理论中,图像指标集X的像素点的空间关系通过其邻域N={Ni,i∈X}来表示.邻域Ni为与点i相邻的点的集合,Ni中不包括点i;且图2 图像转换Fig.2 Imageconversion若i∈Nj,则j∈Ni.设随机场F,则当且仅当每个点在随机场中的概率P(x)>0, x∈F,且PxixX-i=PxixNi时,才是X上关于其邻域中的Markov随机场.MRF有效地表达了当前像素标记仅与邻域中像素的标记有关,而与其它位置像素的情况无关.根据Hamersley-Clifford定理,设随机场F可分为K类,MRF可以等效地用Gibbs随机场表示:P(x)=exp(-U(x))∑x∈Fexp(-U(x)).(2)其中,U(x)是当前点的能量函数,其表达式为U(x)=∑c∈KVc(x),Vc(x)为点x在第c类上的势函数,本文设V(xi-xj)=β1-δ(xi-xj),β为常量,δ为dirac函数.传统的Gibbs理论构造邻域通常为各向同性区域,即:Ni=xjxj-xi≤R,j≠i,R为半径.当目标区域具有细长拓扑结构或角点区域时,Gibbs理论易将该类区域误分为其它类别,降低了准确度.为了减小其对细长拓扑结构区域与角点区域的影响,本文引入结构信息,构造基于各向异性Gibbs场.结构张量定义为
J=I2xIxIyIxIyI2y.(3)J为一半正定矩阵,用于描述线形结构方向信息,其特征值为
λ1=12J11+J22+(J11-J22)2+4J212;
λ2=12J11+J22-(J11-J22)2+4J212.
对应的特征向量为μ1=[cosθ sinθ]T; μ2=[-sinθ cosθ]T.
114王顺凤,等.一种各向异性虚拟人脑图像分割模型.WANGShunfeng,etal.Ananisotropicvirtualhumanbrainimagesegmentationmodel.cosθ=(2J12)/Jnor;sinθ=J22-J11+(J11-J22)2+4J212Jnor;
Jnor=(2J12)2+J22-J11+(J11-J22)2+4J2122.结构张量和梯度算子一样,易受噪声影响,因此用非线性结构张量解决之.首先,使用小尺度高斯核对结构张量进行高斯平滑,使其具有鲁棒性,即抗噪声能力强.对结构张量4个通道分别做高斯平滑
J′=Gσ*J11Gσ*J12Gσ*J21Gσ*J22.(4)其中:Gσ是尺度为σ的高斯核,*为卷积.为方便起见,将此时的J′仍记为J.其次,对每个通道进行各向异性扩散,即: tJij=divg∑2k,l Jk,l JTk,l Ji,j;g(x)=1/(1+x2)i, j=1,2.(5)此时得到的J是一个非线性结构张量,可看作一个正定矩阵,可以描述二维结构方向信息.该结构张量更能够保持边界的方向一致性,此时的μ1,μ2分别为法线和切线方向,λ1,λ2为对应的特征值,其切线方向上的特征值为0,该信息被忽略,因此定义新的特征值为λ′1=α;λ′2=α, λ1=λ2;α(1-exp(-1/(λ1-λ2)2)).利用结构信息构造邻域范围Ni=xjxj∈Ψj, j≠i,其中,Ψj为以xi为圆心的椭圆.设点xi的坐标为(ai,bi),xj的坐标为(aj,bj),若满足方程((aj-ai)cosθ+(bj-bi)sinθ)2(λ′1)2+(-(aj-ai)sinθ+(bj-bi)cosθ)2(λ′2)2≤1,(6)则说明点xj属于邻域Ni.当点位于图像内部区域时,能量较小,方向一致性较差;位于目标边缘时,方向一致性较好;角点区域局部能量较大,方向一致性较弱.用特征值表示:当点处于目标内部区域时,λ1≈λ2≈0;处于目标边界区域时λ1 λ2≈0;处于角点区域时λ1≥λ2>0.因此,当点属于目标内部时,等价于各向同性Gibbs场,而当点属于目标边界时,为各向异性Gibbs场.2.2 各向异性FCM算法将图像中每个像素逐一归类到对应类别的算法中,一般采用各个样本与所在类均值的误差平方和最小判别准则.FCM算法亦利用这一聚类思想,该算法与模糊隶属度相关,并要求通过迭代寻找聚类中心与隶属度值,使得目标函数T=∑i,j∑Kk=1uk(i,j)2I(i,j)-vk2(7)取得最小值,以实现图像的优化分类.式(7)中:I(i,j)为在位置(i,j)的图像灰度值;vk为第k类的均值,即第k类的聚类中心;uk(i,j)为像素点(i,j)归属于第k类的隶属度;类别总数K已知;·为欧氏距离.由于灰度不均匀现象的作用过程可以写成I=I′·B,其中,I′为没有干扰下的理想图像,I为观测得到的图像,B为图像不均匀场,·为点乘.对图像进行log转换log(I)=log(I′·B)=log(I′)+log(B).(8)
为方便,将log(I)记为I,log(I′)记为I′,log(B)记为B,则得到I=I′+B.设点xi的邻域为Ni,如果点xi上某一标记发生
的概率为P(xi),则其邻域Ni对其标记的拒绝接受
度为1-P(xi).由此,将式(7)修改为
T=∑i,j∑Kk=1(1-Pk(i,j))uk(i,j)2I(i,j)-B(i,j)-vk2.(9)其中,Pk(i,j)为在邻域N(i,j)作用下,将点(i,j)标记
为第k类的概率,该函数中,I(i,j)-vk使用了灰
度信息,而(1-Pk(i,j))使用了区域信息,可以有效