基于SVM_RFE_SFS的基因选择方法
- 格式:pdf
- 大小:275.87 KB
- 文档页数:7
115智能交通NO.17 2020智能城市 INTELLIGENT CITY 基于SVM-RFE算法的道路交通事故严重程度分析冷 荣(重庆交通大学交通运输学院,重庆 400074)摘 要:为分析影响道路交通事故严重程度的因素,量化事故影响因素,根据支持向量机递归特征消除法(SVM-RFE)选择合适的特征,并量化特征的重要度,再以选择之后的特征作为输入,结合随机森林模型进行预测。
最后应用于具体交通事故数据,将筛选之后的影响因素作为输入,分别使用KNN(K最近邻)、随机森林、支持向量机模型进行预测分析,相比较于全部特征值,预测精度分别提高了2.64%、2.72%、1.45%,对比结果表明模型提高了预测的识别精度与算法效率。
关键词:交通事故;SVM-RFE;特征工程由于交通系统的复杂性,导致交通事故的因素具有随机性、动态性及复杂性等特点,以交通事故为因变量的研究,目前还没有完全统一的模型方法来分析引发道路交通事故的原因,本文从微观方面分析问题,研究道路交通事故诱因的严重程度,并根据数据结果提出相应的改进措施[1]。
道路交通诱因影响程度分析研究与道路交通安全息息相关,并且需要综合考虑分析人、车、路和环境的影响。
近年来,很多学者已经对道路交通事故诱因进行了大量研究[2-6]。
敖谷昌等[7]探讨了驾驶员人为因素对于道路事故的影响,单一从驾驶员的因素进行分析。
杨京帅等[8]研究了道路交通碰撞的影响因素,量化了影响因素;陈艳艳[9]运用logistics回归,从道路环境因素对事故严重度进行研究;马壮林等[10]运用logistics模型针对公路隧道交通事故严重程度进行研究,建立事故严重程度预测模型;陈春[11]运用结构方程模型来研究交通事故影响因素;马符铭等[12]对于降雪天气对快速路交通特征的影响进行了研究。
戢小辉[13]提出基于灰色关联的LS-SVM模型,从宏观上利用国内生产总值、居民消费水平、机动车保有量进行影响因素的相关性分析;石学怀等[14]结合卷积神经网络提取时空维度中的特征,建立组合模型来预测交通事故严重程度,很大程度上提高了预测精度,但是并未对于事故诱因做深度分析。
一、介绍MATLAB是一种流行的技术计算软件,广泛应用于工程、科学和其他领域。
在MATLAB的工具箱中,包含了许多函数和工具,可以帮助用户解决各种问题。
其中,SVMRFE函数是MATLAB中的一个重要功能,用于支持向量机分类问题中的特征选择。
二、SVMRFE函数的作用SVMRFE函数的全称为Support Vector Machines Recursive Feature Elimination,它的作用是利用支持向量机进行特征选择。
在机器学习和模式识别领域,特征选择是一项重要的任务,通过选择最重要的特征,可以提高分类器的性能,并且减少计算和存储的开销。
特征选择问题在实际应用中经常遇到,例如在生物信息学中,选择基因表达数据中最相关的基因;在图像处理中,选择最相关的像素特征。
SVMRFE函数可以自动化地解决这些问题,帮助用户找到最佳的特征子集。
三、使用SVMRFE函数使用SVMRFE函数,用户需要准备好特征矩阵X和目标变量y,其中X是大小为m×n的矩阵,表示m个样本的n个特征;y是大小为m×1的向量,表示m个样本的类别标签。
用户还需要设置支持向量机的参数,如惩罚参数C和核函数类型等。
接下来,用户可以调用SVMRFE函数,设置特征选择的方法、评价指标以及其他参数。
SVMRFE函数将自动进行特征选择,并返回最佳的特征子集,以及相应的评价指标。
用户可以根据返回的结果,进行后续的分类器训练和预测。
四、SVMRFE函数的优点SVMRFE函数具有以下几个优点:1. 自动化:SVMRFE函数可以自动选择最佳的特征子集,减少了用户手工试验的时间和精力。
2. 高性能:SVMRFE函数采用支持向量机作为分类器,具有较高的分类精度和泛化能力。
3. 灵活性:SVMRFE函数支持多种特征选择方法和评价指标,用户可以根据自己的需求进行灵活调整。
五、SVMRFE函数的示例以下是一个简单的示例,演示了如何使用SVMRFE函数进行特征选择:```matlab准备数据load fisheririsX = meas;y = species;设置参数opts.method = 'rfe';opts.nf = 2;调用SVMRFE函数[selected, evals] = svmrfe(X, y, opts);```在这个示例中,我们使用了鸢尾花数据集,设置了特征选择的方法为递归特征消除(RFE),并且要选择2个特征。
一种改进的基于小波分析的假指纹检测方法方珊珊;金亦挺;朱叶骏;陈婉君【摘要】假指纹检测技术用于检测假指纹对生物系统的攻击,笔者提出了一种改进的基于小波分析的假指纹检测算法.在原始小波分析方法对图像进行去噪处理后,将去噪图像和残留噪声图像用于计算局部二值模式直方图,从而提取得到指纹特征,该方法比原始小波分析方法可得到更多的纹理信息.随后用SVM-RFE方法进行特征选择.最后,支持向量机SVM 用于分类.在第二届假指纹检测竞赛提供的数据库和第三届假指纹检测竞赛提供的数据库上的测试得到,此方法的分类准确率分别为88.75%和89.37%,而第二届假指纹检测竞赛优胜者的分类准确率为74.41%,第三届假指纹检测竞赛优胜者的分类准确率为86.63%.%Fake fingerprint detection is a way to identify whether a fingerprint is from a live finger or not.This paper proposes an improved wavelet analysis based fake fingerprint detection method.After image denoising processing,wavelet analysis can be used to get noised image and de-noised image.LBP features are extracted from these images and be chosen by SVM-RFE feature selection method.Finally,support vector machine(SVM)is applied to train and classify.T he algorithm has been tested on the datasets provided by the second edition of the fingerprint liveness detectioncompetition(LivDet2011)and the third edition of the Fingerprint Liveness Detection Competition(LivDet2013).T he results show that the proposed method has better classification effect than those winners.The classification accuracy is 88.75%tested on LivDet2011 and 89.37%on LivDet2013.【期刊名称】《浙江工业大学学报》【年(卷),期】2018(046)004【总页数】5页(P382-386)【关键词】小波分析;局部二值模式;支持向量机;假指纹检测技术【作者】方珊珊;金亦挺;朱叶骏;陈婉君【作者单位】浙江工业大学计算机科学与技术学院,浙江杭州 310023;浙江工业大学计算机科学与技术学院,浙江杭州 310023;浙江工业大学计算机科学与技术学院,浙江杭州 310023;浙江工业大学计算机科学与技术学院,浙江杭州 310023【正文语种】中文【中图分类】TP391近年来,生物识别系统得到了越来越广泛的运用.其中指纹是人们最熟悉,也是应用最广泛的生物特征之一[1].但由廉价材料制成的假指纹,及其制作工艺的提高,对指纹识别系统造成了很大的威胁,确定指纹图像是否来自于活体指纹的假指纹检测方法因此产生.目前,普遍存在的假指纹检测方法可以分为:1) 基于硬件的假指纹检测方法,即用脉搏血氧量、手指表面的温度和手指皮肤的导电性等特性,这些特性需要在指纹采集仪中装入特殊的硬件设备来进行检测,因此会提高采集仪的制作成本;2) 基于软件的方法,即对指纹图像进行一定的图像处理,从而检测指纹的活性,进而判断指纹图像是否来自活体指纹.这种方法相对比较经济实用,且能用于现存的指纹采集仪[2].因此,对第二类假指纹检测方法的研究具有更大的推广意义和实用价值.在目前的研究中,多类特征用于检测指纹真伪.基于皮肤形变的方法主要用真假指纹弹性变化的区别来辨别真伪,但是若假指纹的材质与真指纹相似,便会影响算法性能[3];基于小波的分析方法主要通过计算指纹图片中残留噪声的标准来比较手指标明粗糙度,从而区分真假指纹[4],但是此方法对指纹采集仪的分辨率要求比较高(1 000 dpi,目前商用的指纹采集仪分辨率一般为500 dpi).基于空间表面粗糙度分析的方法(Patial surface coarseness analysis,简称SSCA),将空间特征引入小波分析模型[5].在第二届假指纹检测竞赛(LivDet2011)所用的Sagem数据库上实验证明,该方法不仅适用于分辨率为500 dpi的指纹图像,且有更高的识别率.但是此方法只用了残留噪声图像,且只提取标准差作为特征,该特征用于描述指纹纹理特征时可能存在不完整的情况.1 小波分析方法小波分析方法是一种对指纹图像做表面纹理分析的方法[6].由于小波分析可以对输入信号在不同的尺度下进行分析,因此可以将指纹图像谷线/脊线模式对表面粗糙度的影响最小化[7].一般将指纹表面粗糙度设为高斯白噪声,则残留噪声可以表示为η(x,y)=I(x,y)-I′(x,y)(1)式中:I(x,y)为原图像;I′(x,y)为去噪后的图像.指纹图像去噪步骤如下:1) 对指纹图像进行2层静态小波分解,得到一个近似值和6个细节值fv(x,y),v=1,2, (6)2) 对6个细节值分别用软阈值进行小波收缩,即(2)(3)式中:sgn(c)为c的信号;(c)+代表比较c和0得到的较大值;M为细节值的长度;σ为第1层分解得到的3个细节值计算所得的标准方差.3) 将一个近似值和所有的细节值重构,最终得到I′(x,y).原图像、去噪后的图像和相对应的残留噪声图像如图1所示.图1 图像去噪Fig.1 Image denoising2 局部二值模式局部二值模式是一种有效的图像纹理运算符,最早由Ojala等[8]提出.它是一种有效的旋转不变纹理分类方法,将中心像素值作为阈值,比较相邻像素点的值,从而得到一个二值序列.如果相邻像素值小于阈值,相应位置上的二值序列设置为0,大于阈值则设为1.将二值序列与相应权重相乘后相加,即为中心像素点的LBP值. 原始的局部二值模式用3×3的算子,如图2所示,但是它可能获取不到中心纹理特征.Ojala等[8]将原始LBP邻域做了改变,扩展至不同大小,使用了环状邻域,并对图像中的灰度值进行双线性插值.如图3所示,(Q,R)表示在半径为R的圆上的Q个点.对于灰度值的单调变化,LBPQ,R算子都是不变的.LBPQ,R计算公式为(4)其中(5)式中gq(q=0,…,Q-1)为环形对称领域.图2 原始LBP计算步骤Fig.2 An example of original LBP operator图3 环形邻域实例Fig.3 Examples of circular neighborhoods3 新算法指纹活性可以由提取到的特征训练得到模式分类器表述,这些分类器可以用来计算指纹图像的活性概率,从而判断图像来源于活体指纹或假指纹.算法对预处理后的指纹图像用小波分析得到去噪后的图像和噪声图像,从图像中提取得到局部二值模式特征,并用SVM-RFE方法进行特征选择.支持向量机(SVM)用于得到分类准则,从而得到最终值.算法步骤如图4所示.图4 算法步骤Fig.4 The steps of the proposed method3.1 特征提取图片预处理完成后,用小波分析来得到去噪后图像和噪声图像.首先,原图片用离散小波变换分解成两层,得到1个近似值和6个细节值.每1个细节值用软阈值方法进行去噪,通过近似值和去噪后的细节值进行小波重构得到去噪图像.原图像与去噪图像的差值即为噪声图像.由于从整幅图像中提取得到的特征主要反映全局信息,而不是局部信息.为了得到更多的局部信息,可以将去噪图像和残留噪声图像分为PxPy部分,Px和Py的最佳值可通过交叉验证得到.去噪图像和残留噪声图像的每一部分都用来计算局部二值模式直方图,从而得到特征值.局部二值模式直方图比文献[4]中的标准差方法能得到更多的局部信息.Q和R的值可以通过交叉验证方法得到.统一模式和旋转不变可以用来减少特征的维度,其定义如下:1) 统一模式.如果序列中的二进制数空间变换次数U(LBPQ,R)小于2,那么其局部二值模式即为统一模式.其公式定义为U(LBPQ,R)=|s(gQ-1-gc)-s(g0-gc)|+(6)2) 旋转不变.由于当图像旋转时,灰度值gq会根据g0所在圆的周长做相应变化.为了去除旋转所产生的影响,将指纹图像旋转从而得到一系列局部二值模式,中心点的局部二值模式值即为(7)式中ROR(e,i)表示对P位数e进行i次的环形右移操作.3)对所有提取到的特征进行归一化处理.其表达式为(8)式中:Xi为原始的特征向量;为归一化的特征向量.从整幅图像各个部分中提取到的特征可构成指纹图像的特征向量.3.2 特征选择SVM-RFE特征选择方法在文献[9]中用于肿瘤分类中的基因选择,这也是SVM-RFE首次被提出.嵌套的特征子集用后续去除法从所有特征变量中逐次去除一个特征变量的方式选择得到[10].每一步中,线性SVM的权重向量w的系数可以用来计算得到特征排序分值,排序分值ti=(wi)2最小的第特征就会被删除,wi代表权重向量w中相对应的组成部分.把ti=(wi)2作为排序准则,去除其中产生的最小目标函数变化的特征.在SVM-RFE特征选择中,目标函数为J=‖w‖2/2.最佳脑损坏算法(Optimal brain damage,简称OBD)可以解释这一点,删除给定特征后引起目标函数的变化可以近似的表示为对目标函数的二阶泰勒级数,即(9)在J取最优值时,一阶项就可以被忽略,令J=‖w‖2/2,式(9)可以表示为ΔJ(i)=(Δw i)2(10)Δwi=wi即为去除第i个特征.另外一种将(wi)2作为排序准则的解释是,对某个变量的目标函数J=‖w‖2/2进行敏感性分析.加入虚拟比例因子到核函数中计算梯度值,使k(xi,xj)变为k(v·x1,v·xj).对于线性SVM(线性核函数),因为vk=1,敏感度计算公式为(11)SVM-RFE递归消除步骤如下:1) 设R={ }为排完序的特征集,S为特征选择后的集合.2) 所有特征排序完成前重复如下步骤:用特征集合中的特征量作为输入变量训练线性SVM;得到权重向量;计算特征集合S中的排序分值ti=(wi)2;查找具有最小排序分值的特征e=argminiei;对2个集合进行更新R=[e,R],S=S-[e].3) 输出,排完序的特征序列R.在指纹特征提取后加入SVM-RFE特征选择步骤,可以去除冗余特征、减少无关特征,从而提高假指纹检测方法的有效性.用交叉验证方法对各特征子集进行训练测试,得到分类准确率最高的特征子集.3.3 分类提取得到所有特征量后,支持向量机SVM用于分辨真假指纹[11].针对训练集,多项式内核SVM用来得到分类准则,核函数通过交叉验证得到.对于测试集,SVM 用于得到分类结果.4 实验结果新算法在第二届假指纹检测竞赛(LivDet2011)和第三届假指纹检测竞赛(LivDet2013)的指纹图像数据库上进行了检测.LivDet2011数据库包括Biometrika, Digital persona,Italdata和Sagem指纹仪采集到的指纹图像,每种采集仪4 000枚图像,包括真指纹图像和假指纹图像各2 000枚(假指纹分别用5 种材料制作得到,每种材料采集400枚)[12].LivDet2013数据库包括了Biometrika,Crossmatch,Italdata和Swipe[13],指纹图像信息见表1.表1 LivDet2013数据库指纹图像(样本数量/指纹数量)Table 1 Training and testing set in LivDet2013(samples/numbers of fingers)数据库真指纹训练样本真指纹测试样本假指纹训练样本假指纹测试样本Biometrika1 000/2001000/1001 000/501 000/50Italdata1 000/2001 000/1001 000/501000/50Crossmatch1 250/5001 250/4401 000/1251 000/100Swipe1250/5001 250/5001 000/1251 000/100FerrLive,FerrFake和ACE可用于评价假指纹检测算法,FerrLive为据真率,即算法拒绝真指纹的概率,FerrFake为认假率,即算法接受假指纹的概率.平均分类错误率ACE=(FerrLive+FerrFake)/2计算得到,平均准确率则为1-ACE.表2为新算法提出的方法得到的据真率,认假率和平均准确率与LivDet2011竞赛获胜者的算法、文献[5]提出的空间表面粗糙度分析算法(SSCA)的对比.表3为新算法提出的方法得到的据真率,认假率和平均准确率与LivDet2013竞赛获胜者的算法的对比.在LivDet2011竞赛的Sagem数据库上的实验结果表明,新算法提出的算法比SSCA算法能更有效地区分真假指纹.新算法在LivDet2011竞赛、LivDet2013竞赛数据库上的算法平均准确率分别为88.75%和89.37%,比LivDet2011竞赛和LivDet2013竞赛优胜者的算法识别率更高.同时,新算法也对未用SVM-RFE特征选择的算法进行了测试,分类准确率为88.53%和88.98%.实验证明,特征选择也提高了分类准确率.新算法提出的算法能得到更高的分类准确率,主要在于将局部二值模式特征用于纹理分类时,其分类性能不会受到指纹质量的影响,且在此基础上将SVM-RFE用于特征选择,去除冗余特征,在提高算法效率的同时,也在一定程度上能提高算法的分类准确率.表2 各算法在LivDet2011数据库上的据真率、认假率和平均分类准确率Table 2 Comparison of FerrLive, FerrFakeand average rate of accuracy onLivDet2011 %算法类型据真率/认假率/平均分类准确率BiometrikaDigital PersonaItalDataSagemAverageLivDet2011竞赛获胜者38.00/42.00/60.006.20/11.60/91.1015.10/40.10/60.0013.80/13.10/86.5526.6 0/24.50/74.41文献[5]中SSCA算法───14.40/11.30/87.20─未用特征选择的新算法12.40/8.00/89.803.30/16.60/90.0517.00/15.30/83.856.10/13.10/90.409.70/1 3.25/88.53新算法12.25/7.70/90.033.10/16.60/90.2316.50/15.10/84.206.00/12.90/90.559.46/1 3.04/88.75表3 各算法在LivDet2013数据库上的据真率、认假率和平均分类准确率Table 3 Comparison of FerrLive, FerrFakeand average rate of accuracy onLivDet2013 %算法类型据真率/认假率/平均分类准确率BiometrikaCrossmatchItalDataSwipeAverageLivDet2013竞赛获胜者3.00/6.40/95.3031.28/31.10/68.802.10/4.90/96.5011.45/16.10/85.9311.96/14.62/86.63未用特征选择的新算法2.2/2.6/97.641.12/16.9/69.640.10/9.8/95.053.99/9.1/93.6411.85/9.6/88.98新算法2.15/2.55/97.6541.00/16.72/71.140.10/9.65/95.133.85/9.05/93.5511.78/9.49 /89.375 结论新算法提出了一种改进的基于小波分析的假指纹检测算法,改进了文献[5]中提出的算法,通过小波分析得到残留噪声图像和去噪图像,将两幅图像分成PxPy的区域计算局部二值模式直方图,替代标准差得到更多的局部纹理特征,并用SVM-RFE方法进行特征选择.Px和Py通过交叉验证方法获得,SVM用于做最终的决策.该方法可以适用于一般商用的分辨率为500 dpi的指纹采集仪.在LivDet2011数据库和LivDet2013数据库上的测试结果表明:笔者提出的算法比LivDet2011竞赛、LivDet2013竞赛获胜者以及SSCA算法更能有效地区分真假指纹,在LivDet2011数据库上的分类准确率为88.75%,LivDet2013数据库上的分类准确率为89.37%.本文得到了浙江工业大学校级自然科学基金(2014XY006)的资助.参考文献:[1] MARCIALIS G L, COLI P, ROLI F. Fingerprint liveness detection based on fake finger characteristics[J]. International journal of digital crime & forensics,2013,4(3):1-19.[2] GALBALLY J J, ALONSO-FERNANDEZ F, FIERREZ J, et al. A high performance fingerprint liveness detection method based on quality related features[J]. Future generation computer systems,2012,28(1):311-321.[3] SHEETS H D, BUSH P J, BUSH M A. Bitemarks: distortion and covariation of the maxillary and mandibular dentition as impressed in human skin[J]. Forensic science international,2012,223(1/2/3):202-207.[4] MOON Y S, CHEN J S, CHAN K C, et al. Wavelet based fingerprint liveness detection[J]. Electronics letters,2005,41(20):1112-1113.[5] PEREIRA L F A, PINHEIRO H N B, CAVALCANTI G D C, et al. Spatial surface coarseness analysis: technique for fingerprint spoof detection[J].Electronics letters,2013,49(4):260-261.[6] 兰秀菊,张丽霞,鲁建厦,等.基于小波分析和PSO-SVM的控制图混合模式识别[J].浙江工业大学学报,2012,40(5):532-536.[7] KUMAR S, MELKANI N, AWASTHI N, et al. Texture analysis and classification of polarimetric SAR images using histogrammeasures[C]∥International Conference on Signal Processing and Integrated Networks. Noida, India:IEEE,2015:506-511.[8] OJALA T, PIETIKINEN M, MENP T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE transactions on pattern analysis & machine intelligence,2000,24(7):971-987.[9] VAPNIK V N. The nature of statistical learning theory[M]. New York: Springer,1995:988-999.[10] 郑莉莉,黄鲜萍,梁荣华.基于支持向量机的人体姿态识别[J].浙江工业大学学报,2012,40(6):670-675.[11] 王方红,黄文彪.孪生支持向量机的特征选择研究[J].浙江工业大学学报,2016,44(2):146-149.[12] YAMBAY D, GHIANI L, DENTI P, et al. LivDet 2011-Fingerprint liveness detection competition 2011[C]∥IAPR International Conference on Biometrics. New Delhi, India:IEEE,2012:208-215.[13] MURA V, GHIANI L, MARCIALIS G L, et al. LivDet 2015 fingerprint liveness detection competition 2015[C]//IEEE 7th International Conference on Biometrics Theory, Applications and Systems. Paris, France: IEEE,2015:1-6.。
基于SVR-RFE的作战方案评估指标选择方法丁晓剑;丁冉【摘要】针对作战方案评价指标权值确定过程存在不确定和主观性的问题,本文提出了基于支持向量回归机的线性和非线性递归特征消除法(SVR-RFE).该方法利用权值向量和函数值作为SVR-RFE的特征选择标准,采用支持向量回归机(SVR)对特征选择前后的回归能力进行了分析比较.在某作战方案样本集上的仿真实验表明,线性和非线性SVR-RFE在作战方案数据集上的特征选择效果是一致的,在特征维度为50%左右时,SVR算法达到最优泛化性能.【期刊名称】《广西师范大学学报(自然科学版)》【年(卷),期】2015(033)004【总页数】6页(P43-48)【关键词】支持向量回归;递归特征消除法;评估指标【作者】丁晓剑;丁冉【作者单位】信息系统工程重点实验室,江苏南京210007;信息系统工程重点实验室,江苏南京210007【正文语种】中文【中图分类】E917;P18作战决策是指挥员进行作战指挥的重要依据,制定合理可行的备选作战方案是指挥员进行指挥决策的重要环节。
现代复杂对抗环境下作战指挥的核心是指挥员定下决心和实现决心,正确的作战决心以合理可行的作战方案为依据。
作战方案评估是对作战方案中评估指标体系进行评析和估量,判断其符合作战目的的程度。
为了适应高时效作战的需求,必须做到对作战方案进行高效评估,为指挥员提供决策支持。
评估指标体系的构建比较复杂,需要从多方面考虑影响作战效果的因素。
为了保证评估结果的全面性和鲁棒性,有必要从多个方面评估作战方案的作战效能,例如可行性、应变性和风险性等。
针对不同的作战效能,评估指标体系中各指标所占的权重是不同的。
有些指标对某种作战效能的评估起促进作用,对其他作战效能的评估可能起相反的作用。
在对每种作战效能评估时,需将具有负作用的指标从指标体系中删除以获得最佳评估结果。
在确定评价指标的权重时,一般多采用主观确定权重的方法,如层次分析法(AHP)[1-2]等。
㊀㊀[摘要]㊀目的㊀基于机器学习筛选类风湿关节炎(RA)的诊断标志基因,并分析可能的免疫浸润机制,为RA的临床治疗提供参考㊂方法㊀从基因表达综合(GEO)数据库下载RA基因表达谱芯片数据集,将GSE55235和GSE77298作为联合芯片训练集,GSE55457作为独立验证数据集㊂使用R软件进行差异表达基因(DEGs)的筛选,并对这些DEGs进行基因本体论(GO)富集分析及京都基因与基因组百科全书(KEGG)富集分析㊂进一步应用三种机器学习算法筛选诊断基因,并进行外部验证和受试者工作特征(ROC)曲线分析㊂通过xCell算法分析免疫细胞在RA中的浸润情况㊂结果㊀筛选出RA的DEGs共704个㊂富集分析发现这些DEGs主要涉及白细胞介导的免疫㊁免疫应答的激活㊁白细胞迁移等相关免疫功能,以及趋化因子信号通路㊁利什曼病㊁类风湿关节炎等相关炎症通路㊂通过机器学习筛选出4个诊断基因,包括趋化因子CXC配体13(CXCL13)㊁富含亮氨酸重复序列结构域15(LRRC15)㊁多配体蛋白聚糖⁃1(SDC⁃1)和核酸结合蛋白3(YBX3)㊂免疫浸润分析结果显示,在RA中B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞的水平显著上调(P<0 05)㊂结论㊀RA的发生发展是多基因㊁多通路共同参与的结果,CXCL13㊁LRRC15㊁SDC⁃1和YBX3可能是诊断RA的潜在生物标志物㊂B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞可能在RA的发生中具有重要意义㊂㊀㊀[关键词]㊀类风湿关节炎;㊀机器学习;㊀生物信息学;㊀免疫浸润㊀㊀[中图分类号]㊀R593 22㊀[文献标识码]㊀A㊀[文章编号]㊀1674-3806(2023)12-1240-07㊀㊀doi:10.3969/j.issn.1674-3806.2023.12.07Machinelearning⁃basedscreeningofdiagnosticmarkergenesforrheumatoidarthritisandanalysisofimmuneinfiltration㊀LILing⁃qin,ZHOURui⁃jiao,ZHANGYan⁃ni,etal.DepartmentofRheumatology,AffiliatedHospitalofNorthSichuanMedicalCollege,Nanchong637000,China㊀㊀[Abstract]㊀Objective㊀Toscreenthediagnosticmarkergenesofrheumatoidarthritis(RA)andanalyzethepos⁃sibleimmuneinfiltrationmechanismbasedonbioinformaticsandmachinelearning,andtoprovidereferencefortheclinicaltreatmentofRA.Methods㊀ThegeneexpressionprofilesweredownloadedfromtheGeneExpressionOmnibus(GEO)data⁃base.GSE55235andGSE77298wereusedasthecombinedchiptrainingset,andGSE55457wasusedastheindependentvalidationdataset.Thedifferentiallyexpressedgenes(DEGs)werescreenedusingRsoftware,andGeneOntology(GO)enrichmentanalysisandKyotoEncyclopediaofGenesandGenomes(KEGG)enrichmentanalysiswereperformedfortheseDEGs.Threemachinelearningalgorithmswerefurtherappliedtoscreenthediagnosticgenesandperformtheexternalvalidationandreceiveroperatingcharacteristic(ROC)curveanalysis.Finally,thexCellmethodwasusedtocalculatetheinfiltrationofimmunecelltypesintheRA.TheinfiltrationofimmunecellsinRAwasanalyzedbyusingxCellalgo⁃rithm.Results㊀Atotalof704DEGsofRAwerescreened.TheresultsofenrichmentanalysisrevealedthattheseDEGsweremainlyinvolvedinsomerelatedimmunefunctions,suchasleukocyte⁃mediatedimmunity,activationofimmuneresponse,andleukocytemigration,andsomeinflammatorypathways,suchaschemokinesignalingpathway,Leishmani⁃asisandRheumatoidarthritis.Fourdiagnosticgenes,includingC⁃X⁃Cmotifchemokineligand13(CXCL13),leucinerichrepeatcontaining15(LRRC15),syndecan1(SDC⁃1)andY⁃boxbindingprotein3(YBX3),werescreenedusingmachinelearning.TheresultsoftheimmuneinfiltrationanalysisshowedthattheexpressionlevelsofBcells,CD4+Tcells,dendriticcellsandmonocytesweresignificantlyup⁃regulatedinRA.Conclusion㊀Multiplegenesandpath⁃waysareinvolvedintheoccurrenceanddevelopmentofRA.CXCL13,LRRC15,SDC⁃1andYBX3maybethepoten⁃tialbiomarkersforthediagnosisofRA.Moreover,Bcells,CD4+Tcells,dendriticcellsandmonocytesmayplayanimportantroleintheoccurrenceofRA.㊀㊀[Keywords]㊀Rheumatoidarthritis(RA);㊀Machinelearning;㊀Bioinformatics;㊀Immuneinfiltration㊀㊀类风湿关节炎(rheumatoidarthritis,RA)是一种慢性炎症性自身免疫疾病[1],主要影响滑膜关节,表现为滑膜微血管生成㊁滑膜衬里细胞增生,滑膜间质有大量免疫细胞浸润刺激局部炎症,若不及时治疗,可能会导致永久性关节损伤和残疾[2]㊂全世界大约每200名成年人中就有1人受RA的影响,且女性的发病率是男性的2 3倍,发病高峰期为50 59岁㊂据统计,RA患者的寿命较无RA者少6 11年[3]㊂虽然目前RA仍无法治愈,但早期诊断和及时治疗有助于减缓关节损害的进展,提高患者的生活质量[4]㊂RA的潜在发病机制尚未完全阐明,寻找与RA相关的发病关键基因并阐明其免疫机制有助于临床提高疾病的早期诊断能力[5]㊂目前,基于机器学习算法的免疫浸润和生物信息学分析可以挖掘新的诊断标志物,最近已应用于许多免疫相关疾病,包括溃疡性结肠炎㊁白癜风㊁骨关节炎和银屑病等[6]㊂鉴此,本研究通过生物信息学方法从RA数据集中筛选出差异表达基因(differentiallyexpressedgenes,DEGs),并进一步联合机器学习算法寻找最佳的RA诊断基因,并对RA可能的发病机制及免疫浸润机制进行探索,为RA的早期诊断以及靶向治疗研发提供参考㊂1㊀资料与方法1 1㊀数据资料检索㊀在基因表达综合(GeneExpres⁃sionOmnibus,GEO)数据库(https://www.ncbi.nlm.nih.gov/geo/)以 rheumatoidarthritis 为检索词进行检索㊂纳入标准:(1)包含RA患者和健康对照数据;(2)样本类别为关节滑膜组织;(3)芯片的平台信息明确㊂排除标准:(1)芯片平台上的基因探针ID无法转化为基因名称;(2)下载文件中的数据不完整或无效㊂根据上述纳入㊁排除标准从GEO数据库中选择了3个基因数据集:GSE55235㊁GSE77298和GSE55457㊂将GSE55457作为独立验证数据集,将GSE55235和GSE77298作为联合芯片训练集㊂各芯片数据文件以及相应的平台信息见表1㊂表1㊀数据集信息数据集平台种属样本类别来源文献RA患者例数健康对照者例数发表年份GSE55235GPL96人关节滑膜组织PMID:2469041410102014GSE77298GPL570人关节滑膜组织PMID:267115337162016GSE55457GPL96人关节滑膜组织PMID:24690414101320141 2㊀数据预处理㊀使用 Limma R包(版本)中的 normalizeBetweenArrays 函数来标准化GSE55235㊁GSE77298和GSE55457数据集,箱线图用于规范化处理后的可视化㊂1 3㊀DEGs的筛选㊀使用R统计软件中的Limma包研究联合芯片训练集的DEGs㊂筛选DEGs的截止值:adjustedP<0 05且|logFC|ȡ1㊂1 4㊀DEGs富集分析㊀应用R软件的ClusterProfiler数据包对DEGs进行基因本体论(GeneOntology,GO)富集分析和京都基因与基因组百科全书(KyotoEncy⁃clopediaofGenesandGenomes,KEGG)富集分析,以P<0 05为标准筛选㊂1 5㊀机器学习筛选诊断基因㊀使用支持向量机⁃递归特征消除(supportvectormachines⁃recursivefeatureelimination,SVM⁃RFE)㊁最小绝对值收敛和选择算子(leastabsoluteshrinkageandselectionoperator,LASSO)和随机森林(randomforest,RF)三种机器学习算法筛选诊断基因,最后取三种方法获得诊断基因的交集㊂1 6㊀诊断基因的验证以及诊断效能分析㊀将GSE55457作为独立的验证数据集,采用成组t检验,以P<0 05判定差异有统计学意义,建立受试者工作特征(receiveroperatingcharacteristic,ROC)曲线,计算曲线下面积(areaunderthecurve,AUC)值,评估研究指标诊断RA的效能㊂1 7㊀诊断模型的构建㊀整合诊断基因在验证集数据集中的表达矩阵,使用logistic回归分析构建诊断模型,应用R软件构建可视化的列线图来诊断RA患者,采用ROC曲线评估模型性能㊂1 8㊀免疫细胞浸润分析㊀应用xCell算法[7]计算淋巴细胞㊁髓系细胞㊁基质细胞㊁干细胞以及其他免疫细胞的相对表达量,并采用秩和检验比较RA组与健康对照组(HC组)的表达差异,以P<0 05为差异有统计学意义㊂2㊀结果2 1㊀数据预处理结果㊀应用R软件Limma包对数据集GSE55235㊁GSE77298和GSE55457进行标化处理,批次校正后各数据集间的数据分布趋于一致㊂见图1㊂GSE55235数据集(ⓐ标化前,ⓑ标化后);GSE77298数据集(ⓒ标化前,ⓓ标化后);GSE55457数据集(ⓔ标化前,ⓕ标化后)图1㊀芯片数据的标化处理结果图2 2㊀DEGs分析结果㊀通过分析联合芯片训练集中的数据,总共筛选出RA组和HC组的DEGs共704个,其中上调476个,下调228个,并将结果可视化为火山图(图2ⓐ)和热图(图2ⓑ)㊂图2㊀DEGs筛选结果图2 3㊀DEGs的GO富集分析和KEGG富集分析结果GO富集分析结果显示,DEGs主要富集于白细胞介导的免疫㊁免疫应答的激活㊁白细胞迁移㊁淋巴细胞介导的免疫㊂见图3ⓐ㊂KEGG富集分析结果显示,DEGs主要富集于趋化因子信号通路㊁利什曼病㊁RA㊁金黄色葡萄球菌感染等㊂见图3ⓑ㊂2 4㊀机器学习筛选诊断基因结果㊀SVM⁃RFE算法挑选出27个诊断基因(见图4ⓐⓑ),构建LASSO回归模型并进行交叉验证,误差最小值对应17个特征基因(见图4ⓒⓓ)㊂RF算法鉴定了39个特征基因(见图4ⓔⓕ)㊂取交集得到4个诊断基因:趋化因子CXC配体13(C⁃X⁃Cmotifchemokineligand13,CXCL13)㊁富含亮氨酸重复序列结构域15(leucinerichrepeatcontaining15,LRRC15)㊁多配体蛋白聚糖⁃1(syndecan1,SDC⁃1)和核酸结合蛋白3(Y⁃boxbindingprotein3,YBX3)㊂见图4ⓖ㊂图3㊀DEGs的GO富集分析和KEGG富集分析结果图图4㊀机器学习筛选RA的诊断基因结果图2 5㊀诊断基因的验证以及诊断效能分析㊀使用GSE55457芯片数据集对筛选出的4个诊断基因进行外部验证,结果显示,相对于HC组,YBX3基因表达在RA患者中显著下调(P<0 05),而CXCL13㊁LRRC15和SDC⁃1基因表达在RA患者中显著上调(P<0 05)㊂见图5㊂这与训练集中的基因表达趋势相同㊂ROC曲线分析结果显示,机器算法筛选得到的4个诊断基因在验证数据集中对RA具有较高的诊断效能(AUC>0 8)㊂见图6㊂2 6㊀诊断RA的列线图模型构建结果㊀基于验证数据集的诊断基因表达矩阵,使用logistic回归方法构建诊断预测模型,并通过列线图对模型进行可视化㊂见图7ⓐ㊂ROC曲线分析结果显示,相对于任意一个单独的诊断基因,组合模型对RA的诊断性能更高(AUC=0 985)㊂见图7ⓑ㊂2 7㊀免疫浸润分析结果㊀与HC组相比,RA组B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞水平显著上调(P<0 05)㊂见图8㊂图5㊀4个诊断基因在验证数据集中表达水平比较图图6㊀验证数据集中4个诊断基因ROC曲线图图7㊀诊断RA的列线图模型构建结果图ⓐ淋巴细胞;ⓑ髓系细胞;ⓒ基质细胞;ⓓ干细胞和其他细胞㊂蓝色为HC组,红色为RA组;∗P<0 05图8㊀免疫细胞在HC组和RA组免疫细胞表达水平比较结果图3㊀讨论在本研究中,笔者对RA的基因表达芯片数据进行了生物信息学分析,共鉴定出了704个DEGs㊂GO和KEGG富集分析结果表明,DEGs在与免疫反应有关的生物过程中明显富集㊂随后联合机器学习筛选出RA的诊断基因,最后得到4个诊断基因,即CXCL13㊁LRRC15㊁SDC⁃1和YBX3㊂在验证数据集中,ROC曲线分析结果显示这些基因对RA的诊断效能较高,具有较好的临床应用前景㊂3 1㊀RA是一种以滑膜炎症和进行性关节破坏为特征的慢性全身免疫介导疾病[8]㊂B细胞在RA发生中发挥了重要作用㊂自身反应性B细胞可产生直接参与关节损伤的IgG自身抗体[9]㊂CXCL13是B细胞一种关键的趋化因子,可通过调节局部免疫反应和抗体产生而参与疾病发生㊂研究表明,在RA患者中CXCL13水平显著升高[10]㊂不仅如此,CXCL13还可反映RA疾病的严重程度㊂Meeuwisse等[11]研究表明,RA患者CXCL13基线水平越高,其关节破坏率越高㊂使用阿达木单抗控制RA病情后,CXCL13水平显著下降,而在治疗中断时,CXCL13的水平上升至治疗前水平[12]㊂动物实验显示,使用抗CXCL13的多克隆抗体治疗可以降低小鼠关节疾病的严重程度并抑制生发中心的形成[13]㊂3 2㊀LRRC15目前被认为是一个有应用前景的抗癌靶点㊂而在RA方面,LRRC15在RA患者的滑膜组织中存在过表达,并与滑膜细胞的增殖㊁迁移㊁侵袭和血管生成能力增加以及促炎细胞因子的加速释放有关㊂动物实验显示,关节炎的发展导致平衡型滑膜成纤维细胞萎缩,出现以LRRC15表达为标志的滑膜成纤维细胞轮廓,其功能是增强炎症反应和基质分解过程[14]㊂敲低LRRC15表达不仅能够在体外抑制滑膜细胞的侵袭性表型,而且在体内也能显著抑制胶原诱导的关节炎小鼠的滑膜增殖,减少骨侵袭和破坏[2]㊂He等[5]也证实了LRRC15在RA模型大鼠滑膜组织中表达显著增加㊂本研究结果也显示LRRC15是参与RA微环境动态平衡失调的关键因子㊂3 3㊀SDC⁃1也被称为CD138,它可与许多配体相互作用,引发与细胞黏附㊁血管生成㊁炎症和组织修复相关的生物事件[15]㊂血清SDC⁃1被认为是炎症活动的潜在标志物[16]㊂阻断白介素(interleukin,IL)⁃34/SDC⁃1通路可减轻胶原诱导的关节炎症和骨破坏,并加剧血管生成[17]㊂Deyab等[18]研究表明,RA患者血清C反应蛋白水平与SDC⁃1水平呈显著正相关,当RA患者病情得到控制后,血清SDC⁃1水平显著降低㊂在其他风湿性疾病中也观察到相似的现象,如SDC⁃1水平与系统性红斑狼疮活动指数及抗dsDNA抗体水平呈正相关,活动性狼疮肾炎患者的血清SDC⁃1水平也高于非活动性狼疮肾炎患者及非肾炎患者[19]㊂3 4㊀YBX3是一个转录因子,参与调节上皮形态发生和稳态调节[20]㊂尤其在肿瘤性疾病方面的研究较为集中㊂YBX3通过调节胆汁酸生物合成途径导致肝细胞癌转移[21]㊂此外,YBX3高表达与直肠癌的深度浸润相关,抑制YBX3表达可以减少体内肿瘤生长[22]㊂另外,抑制YBX3表达也可以提高结直肠癌细胞对化疗药物的敏感性[23]㊂然而,尽管YBX3的上调增加了癌细胞侵袭和肿瘤化疗耐药,但在某些肿瘤中也显示出抗癌作用㊂有学者发现YBX3在低级别肾透明细胞癌中的表达水平较高,而在高级别肾透明细胞癌中表达降低[24]㊂本研究发现YBX3在RA中扮演重要角色,值得进一步通过基础实验开展研究㊂3 5㊀RA是一种全身炎症性自身免疫性疾病,理想的治疗策略应该是在组织损伤之前重新诱导自我耐受[25]㊂因此,明确疾病的免疫机制可为治疗提供重要帮助㊂本研究通过xCell算法探讨了RA的免疫特征,发现B细胞㊁CD4+T细胞㊁树突状细胞和单核细胞呈高表达,这可能是RA发生发展的关键免疫细胞㊂在RA中,B细胞主要向CD4+T辅助细胞呈递自身抗原,外周血中的B细胞可分泌多种不同的细胞因子参与骨破坏,包括肿瘤坏死因子⁃α(tumornecrosisfactor⁃α,TNF⁃α)㊁IL⁃6和IL⁃1β等[26]㊂目前,B细胞抑制剂利妥昔单抗在治疗RA中取得良好效果㊂滑膜组织中的特殊成分和体内产生的内源性物质可由树突状细胞作为自身抗原呈现,激活CD4+T细胞并导致炎症㊂Inamo等[27]认为可使用CD4+T细胞中的转录组数据对RA缓解和非缓解情况进行分类㊂T滤泡辅助细胞是CD4+T细胞的一种亚型,可以帮助B细胞调节抗体产生,从而进一步参与RA的发生[28]㊂在RA中,单核细胞离开血液并浸润发炎的滑膜组织时,可以分化成外周血来源树突状细胞,通过促进IL⁃17的产生和向强效破骨细胞的转化参与骨关节破坏;反之,用于控制RA炎症的生物疗法可调节单核细胞向树突状细胞的转化过程㊂识别和控制外周血来源树突状细胞分化的环境介质以及潜在的分子信号通路,这可能是RA新疗法开发的突破关键[29]㊂综上所述,本研究基于机器学习方法筛选出CXCL13㊁LRRC15㊁SDC⁃1和YBX3等对RA诊断具有应用前景的因子,阐释了相关标志基因在RA中的生物学意义及可能的免疫机制,为RA的诊断和治疗靶点开发提供了参考㊂但本研究由于数据资料的限制,无法评估生物标志物或免疫细胞与RA患者临床特征的关联性,还需要更多的临床研究数据来进一步探索标志基因和相关免疫细胞在RA中的作用㊂参考文献[1]廖㊀霞,姚㊀婷,谢泓源,等.自噬相关基因在Janus蛋白酪氨酸激酶抑制剂治疗类风湿关节炎前后患者外周血单个核细胞中的表达及其临床意义[J].川北医学院学报,2023,38(6):736-740,744.[2]DingH,MeiX,LiL,etal.RUNX1amelioratesrheumatoidarthritisprogressionthroughepigeneticinhibitionofLRRC15[J].MolCells,2023,46(4):231-244.[3]SmithMH,BermanJR.Whatisrheumatoidarthritis?[J].JAMA,2022,327(12):1194.[4]CushJJ.Rheumatoidarthritis:earlydiagnosisandtreatment[J].MedClinNorthAm,2021,105(2):355-365.[5]HeX,YinJ,YuM,etal.Identificationandvalidationofhubgenesforpredictingtreatmenttargetsandimmunelandscapeinrheumatoidarthritis[J].BiomedResInt,2022,2022:8023779.[6]罗永金,胡晓霞,王㊀丹,等.基于生物信息学筛选与宫颈癌免疫相关的分子标志物[J].中国临床新医学,2022,15(4):325-331.[7]AranD,HuZ,ButteAJ.xCell:digitallyportrayingthetissuecellularheterogeneitylandscape[J].GenomeBiol,2017,18(1):220.[8]PrasadP,VermaS,Surbhi,etal.Rheumatoidarthritis:advancesintreatmentstrategies[J].MolCellBiochem,2023,478(1):69-88.[9]BechmanK,DalrympleA,Southey⁃BassolsC,etal.AsystematicreviewofCXCL13asabiomarkerofdiseaseandtreatmentresponseinrheu⁃matoidarthritis[J].BMCRheumatol,2020,4(1):70.[10]CooperDL,MartinSG,RobinsonJI,etal.FcγRⅢaexpressiononmonocytesinrheumatoidarthritis:roleinimmune⁃complexstimulatedTNFproductionandnon⁃responsetomethotrexatetherapy[J].PLoSOne,2012,7(1):e28918.[11]MeeuwisseCM,vanderLindenMP,RullmannTA,etal.Identifi⁃cationofCXCL13asamarkerforrheumatoidarthritisoutcomeusinganinsilicomodeloftherheumaticjoint[J].ArthritisRheum,2011,63(5):1265-1273.[12]KennedyWP,SimonJA,OffuttC,etal.Efficacyandsafetyofpate⁃clizumab(anti⁃lymphotoxin⁃α)comparedtoadalimumabinrheumatoidarthritis:ahead⁃to⁃headphase2randomizedcontrolledstudy(theALTARAStudy)[J].ArthritisResTher,2014,16(5):467.[13]KlimatchevaE,PandinaT,ReillyC,etal.CXCL13antibodyforthetreatmentofautoimmunedisorders[J].BMCImmunol,2015,16(1):6.[14]ArmakaM,KonstantopoulosD,TzaferisC,etal.Single⁃cellmul⁃timodalanalysisidentifiescommonregulatoryprogramsinsynovialfibroblastsofrheumatoidarthritispatientsandmodeledTNF⁃drivenarthritis[J].GenomeMed,2022,14(1):78.[15]XianX,GopalS,CouchmanJR.Syndecansasreceptorsandorgan⁃izersoftheextracellularmatrix[J].CellTissueRes,2010,339(1):31-46.[16]GopalS.Syndecansininflammationataglance[J].FrontImmu⁃nol,2020,11:227.[17]MeyerA,SienesR,ZanottiB,etal.DysregulationofIL⁃34ligationtoSDC⁃1mitigatescollagen⁃inducedarthritis[J].CellMolImmunol,2022,19(9):1070-1072.[18]DeyabG,ReineTM,VuongTT,etal.Antirheumatictreatmentisasso⁃ciatedwithreducedserumsyndecan⁃1inrheumatoidarthritis[J].PLoSOne,2021,16(7):e0253247.[19]KimKJ,KimJY,BaekIW,etal.Elevatedserumlevelsofsyndecan⁃1areassociatedwithrenalinvolvementinpatientswithsystemiclupuserythematosus[J].JRheumatol,2015,42(2):202-209.[20]MastrangeloMA,KleeneKC.DevelopmentalexpressionofY⁃boxprotein1mRNAandalternativelysplicedY⁃boxprotein3mRNAsinspermatogeniccellsinmice[J].MolHumReprod,2000,6(9):779-788.[21]HuangR,YanG,SunH,etal.Identificationofprognosticandmetastasis⁃relatedalternativesplicingsignaturesinhepatocellularcarcinoma[J].BiosciRep,2020,40(7):BSR20201001.[22]LiuRT,WangGR,LiuC,etal.RNAi⁃mediateddownregulationofDNAbindingproteinAinhibitstumorigenesisincolorectalcancer[J].IntJMolMed,2016,38(3):703-712.[23]TongC,QuK,WangG,etal.KnockdownofDNA⁃bindingproteinAenhancesthechemotherapysensitivityofcolorectalcancerviasup⁃pressingtheWnt/β⁃catenin/Chk1pathway[J].CellBiolInt,2020,44(10):2075-2085.[24]DupasquierS,DelmarcelleAS,MarbaixE,etal.Validationofhouse⁃keepinggeneandimpactonnormalizedgeneexpressioninclearcellrenalcellcarcinoma:criticalreassessmentofYBX3/ZONAB/CSDAexpression[J].BMCMolBiol,2014,15:9.[25]JiangQ,YangG,LiuQ,etal.FunctionandroleofregulatoryTcellsinrheumatoidarthritis[J].FrontImmunol,2021,12:626193.[26]WuF,GaoJ,KangJ,etal.Bcellsinrheumatoidarthritis:patho⁃genicmechanismsandtreatmentprospects[J].FrontImmunol,2021,12:750753.[27]InamoJ,SuzukiK,TakeshitaM,etal.MolecularremissionatTcelllevelinpatientswithrheumatoidarthritis[J].SciRep,2021,11(1):16691.[28]WangJ,XueY,ZhouL.Comparisonofimmunecellsanddiagnosticmarkersbetweenspondyloarthritisandrheumatoidarthritisbybioin⁃formaticsanalysis[J].JTranslMed,2022,20(1):196.[29]CoutantF.Shapingofmonocyte⁃deriveddendriticcelldevelopmentandfunctionbyenvironmentalfactorsinrheumatoidarthritis[J].IntJMolSci,2021,22(24):13670.[收稿日期㊀2023-05-12][本文编辑㊀余㊀军㊀韦㊀颖]本文引用格式李玲琴,周睿姣,张燕妮,等.基于机器学习筛选类风湿关节炎的诊断标志基因和免疫浸润分析[J].中国临床新医学,2023,16(12):1240-1246.。
㊃消化专栏㊃[收稿日期]2023-03-16[基金项目]广西壮族自治区卫生与健康委员会自筹经费科研课题(Z 20210082㊁Z -B 20231296);柳州市人民医院院内立项科研项目(l r y 202311㊁l r y202309)[作者简介]莫双阳(1986-),男,壮族,广西柳州人,广西医科大学附属柳州市人民医院副主任医师,医学博士研究生,从事消化内科疾病诊治研究㊂*通信作者㊂E -m a i l :l z r y ji a x i m o d u o 2016@163.c o m 综合生物信息学与机器学习筛选非酒精性脂肪性肝炎的趋化因子相关核心基因莫双阳1,伍文红1,韦海小1,覃海燕1,李 俩2*(1.广西医科大学附属柳州市人民医院消化内科,广西柳州545006;2.广西医科大学附属柳州市人民医院感染科,广西柳州545006) [摘要] 目的综合运用生物信息学方法及机器学习算法筛选与非酒精性脂肪性肝炎相关的趋化因子核心基因㊂方法公共数据库G E O 下载非酒精性脂肪性肝病芯片数据集G S E 49541,采用Rs t u d i o 软件进行差异分析筛选差异基因,对差异基因进行G O 功能注释和K E G G 信号通路富集分析,将差异基因与趋化因子通路相关基因集取交集获取趋化因子相关差异基因,然后采用机器学习L A S S O 回归及S VM -R F E 算法筛选核心基因,通过G e n e m a n i a 数据库构建核心基因互作网络图,构建核心基因列线图预测模型,并通过R O C 曲线验证列线图效能㊂结果共筛选获取差异基因148个,G O 及K E G G 富集分析提示差异基因富集于脂质代谢㊁趋化因子㊁细胞外基质等㊂最后筛选获得核心基因C C L 19㊁C D 24㊁R O B O 1㊁S L C 12A 2,构建核心基因互作网络图,基于核心基因建立N A S H 列线图预测模型,该模型R O C 曲线的A U C =0.997,95%置信区间(c o n f i d e n c e i n t e r v a l ,C I )为0.988~1.000㊂结论C C L 19㊁C D 24㊁R O B O 1㊁S L C 12A 2可能与非酒精性脂肪性肝炎发生与进展密切相关,有望成为诊断和精准治疗的潜在靶点㊂[关键词] 非酒精性脂肪性肝炎;生物信息学;机器学习;趋化因子 d o i :10.3969/j .i s s n .1007-3205.2024.02.008 [中图分类号] R 575.5 [文献标志码] A [文章编号] 1007-3205(2024)02-0165-07I n t e g r a t e d i d e n t i f i c a t i o no f t h e c h e m o k i n e -r e l a t e dk e y g e n e s u n d e r l y i n g t h e p r o g r e s s i o no f n o n a l c o h o l i c s t e a t o h e p a t i t i s v i ab i o i n f o r m a t i c s a n dm a c h i n e l e a r n i n gMOS h u a n g -y a n g 1,WU W e n -h o n g 1,W E IH a i -x i a o 1,Q I N H a i -y a n 1,L IL i a n g2*(1.D e p a r t m e n t o f G a s t r o e n t e r o l o g y ,L i u z h o uP e o p l e 'sH o s p i t a lA f f i l i a t e d t oG u a n gx iM e d i c a l U n i v e r s i t y ,L i u z h o u 545006,C h i n a ;2.D e p a r t m e n t o f I n f e c t i o u sD i s e a s e s ,L i u z h o uP e o pl e 's H o s p i t a lA f f i l i a t e d t oG u a n g x iM e d i c a lU n i v e r s i t y ,L i u z h o u 545006,C h i n a )[A b s t r a c t ] O b je c t i v e T o i n t e g r a t e d l y i d e n t if y t h e c h e m o k i n e -r e l a t e dk e yg e n e su n d e r l y i n g th e p r o g r e s si o no f n o n a l c o h o l i c s t e a t o h e p a t i t i s (N A S H )v i ab i o i n f o r m a t i c s a n dm a c h i n e l e a r n i n g .M e t h o d s T h e d i f f e r e n t i a l l y e x p r e s s e d g e n e s (D E G s )a f t e r d o w n l o a d o f N A S H d a t a s e t s G S E 49541f r o m p u b l i cd a t a b a s et h e G e n eE x pr e s s i o n O m n i b u s (G E O )w e r ei d e n t i f i e dv i a R s t u d i o s o f t w a r e .F u r t h e r ,t h eG e n eO n t o l o g y (G O )f u n c t i o n a l a n n o t a t i o n a n dK y o t oE n c y c l o p e d i a o fG e n e s a n dG e n o m e s (K E G G )e n r i c h m e n t a n a l ys e sw e r e p e r f o r m e d .T h eD E G s a n d c h e m o k i n e -r e l a t e d g e n e s e t sw e r e i n t e r s e c t e d t o i d e n t i t y t h e d i f f e r e n t i a l l y e x pr e s s e d c h e m o k i n e -r e l a t e d g e n e s .㊃561㊃第45卷第2期2024年2月河北医科大学学报J O U R N A L O F H E B E I M E D I C A L U N I V E R S I T YV o l .45 N o .2F e b . 2024I d e n t i f i c a t i o no f t h ek e yg e n e sw a sa p p l i e dv i am a c h i n e l e a r n i n g L A S S Or e g r e s s i o na n ds u p p o r t v e c t o rm a c h i n e s-r e c u r s i v ef e a t u r ee l i m i n a t i o n(S VM-R F E).T h ek e yg e n ei n t e r a c t i o nn e t w o r k w a s e s t a b l i s h e d v i a t h eG e n e MA N I Ad a t a b a s e.T h e n t h e k e y g e n e n o m o g r a m m o d e l s i n p r e d i c t i o n w e r ec o n s t r u c t e d a n d t h e e f f e c t i v e n e s s o f n o m o g r a m s w a s v a l i d a t e d b y r e c e i v e r o p e r a t o r c h a r a c t e r i s t i c(R O C)c u r v e.R e s u l t s A t o t a lo f148D E G s w e r ei d e n t i f i e d.G O a n d K E G G a n a l y s e s r e v e a l e dt h a tD E G sw e r e m a i n l y e n r i c h e di nf a t t y a c i d m e t a b o l i c p r o c e s s,c h e m o k i n e s i g n a l i n gp a t h w a y,a n d e x t r a c e l l u l a rm a t r i x.M o r e o v e r,f o u r k e y g e n e s,i n c l u d i n g C C L19,C D24, R O B O1,a n d S L C12A2,w e r ei d e n t i f i e d,a n d a k e y g e n ei n t e r a c t i o n n e t w o r k d i a g r a m w a s c o n s t r u c t e d.B a s e do n t h e k e y g e n e s,aN A S Hn o m o g r a m p r e d i c t i o nm o d e l w a s e s t a b l i s h e d,w i t h t h e a r e au n d e r t h eR O Cc u r v e(A U C)o f997a n d95%c o n f i d e n c e i n t e r v a l(C I)o f0.988-1.000.C o n c l u s i o n C C L19,C D24,R O B O1,a n dS L C12A2m i g h tb ec l o s e l y r e l a t e dt ot h eo c c u r r e n c e a n dd e v e l o p m e n t o fN A S H,a n da r ee x p e c t e d t ob e c o m e p o t e n t i a l t a r g e t s f o r i t se a r l y d i a g n o s i s a n d p r e c i s e t r e a t m e n t.[K e y w o r d s]n o n a l c o h o l i c s t e a t o h e p a t i t i s;b i o i n f o r m a t i c s;m a c h i n e l e a r n i n g;c h e m o k i n e非酒精性脂肪性肝病(n o n a l c o h o l i c f a t t y l i v e r d i s e a s e,N A F L D)的疾病谱包括单纯性脂肪性肝病(n o n a l c o h o l i c f a t t y l i v e r,N A F L)㊁非酒精性脂肪性肝炎(n o n a l c o h o l i cs t e a t o h e p a t i t i s,N A S H)及其相关肝硬化㊁肝细胞癌等[1]㊂N A F L很少伴有肝内炎症及纤维化,是N A F L D低风险的可逆性阶段,被认为是轻度N A F L D[2];相反N A S H是N A F L D的疾病进展阶段,可进展为肝纤维化㊁肝硬化及终末期肝功能衰竭[3],被认为是进展期N A F L D[4]㊂N A F L D 的发病机制与代谢综合征的各组分密切相关,尤其是肥胖㊁2型糖尿病和高血压[5]㊂N A F L向N A S H 进展的确切调控机制尚不完全明确,目前N A S H的诊断主要依靠影像学和组织学活检,无可靠的分子诊断标记物[6]㊂与N A F L相比,N A S H具有更强的炎症反应和免疫细胞浸润的特点[7],细胞因子[8]㊁趋化因子[9]及免疫细胞所致的炎症损伤和细胞凋亡在N A S H进展中起着关键作用[10]㊂趋化因子是损伤和炎症组织中炎症细胞运输㊁生长和活化的诱导剂, N A S H肥胖患者肝脏中趋化因子及其受体的表达升高[9]㊂趋化因子可能是N A F L D进展至N A S H 的重要驱动因素㊂生物信息学可对特定疾病分子机制进行高通量研究[6],因此本研究将综合利用生物信息学方法及机器学习,筛选N A F L向N A S H进展的趋化因子通路相关核心基因,为N A S H提供潜在的诊断标志物㊂1材料与方法1.1数据来源与处理从公共数据库G E O(h t t p s://w w w.n c b i.n l m.n i h.g o v/g e o/)中检索并下载数据集G S E49541㊂数据集G S E49541中包含40例轻度N A F L D(m i l d N A F L D)和32例进展期N A F L D(a d v a n c e d N A F L D)肝组织活检标本相关基因芯片数据,上述病例全部纳入研究,并进行基因探针名与基因通用名转换,数据集进行标准化㊂趋化因子通路相关基因集来源于G e n e c a r d s数据库,检索关键词为 c h e m o k i n ea n d p a t h w a y s ,共检索获取396个趋化因子通路相关基因(c h e m o k i n e p a t h w a y r e l a t e d g e n e s,C P R G s)㊂1.2差异分析与富集分析利用Rs t u d i o软件的l i mm aR包对数据集G S E49541中轻度N A F L D组和进展期N A F L D组芯片数据进行基因表达差异分析,筛选出2组间全部差异表达基因(d i f f e r e n t l y e x p r e s s e d g e n e s,D E G s),筛选标准为|l o g2F o l d C h a n g e(F C)|>0.585(F C为差异倍数)(P<0.05),应用g g p l o t2R包绘制差异基因火山图㊁热图㊂然后采用c l u s t e r P r o f i l e rR,对差异基因进行基因本体(g e n e o n t o l o g y,G O)功能富集分析和京都基因及基因组百科全书数据库(k y o t oe n c y l o p e d i ao f g e n e s a n d g e n o m e s,K E G G)信号通路富集分析,以了解其参与调控的生物学功能和信号通路,筛选条件设定为调整后P<0.05,使用在线工具微生信(h t t p s:// w w w.b i o i n f o r m a t i c s.c o m.c n/)绘制桑椹图及弦图㊂1.3筛选差异表达的F A T G s及基因相互作用网络构建将D E G s与396个C P R G s取交集以筛选差异表达的C P R G s,并通过Rs t u d i o软件通过2种机器学习算法L A S S O回归及支持向量机-递归特征消除(s u p p o r tv e c t o r m a c h i n e s-r e c u r s i v e f e a t u r e e l i m i n a t i o n,S VM-R F E)进一步筛选特征基因,最后将两种算法获取的特征基因取交集获取核心基因㊂并通过在线数据库G e n e m a n i a(h t t p://g e n e m a n i a.㊃661㊃河北医科大学学报第45卷第2期o r g/)构建核心基因相互作用网络图,进一步探索核心基因的生物学功能㊂1.4构建预测进展期N A F L D列线图及受试者工作曲线图并通过g g D C A R包,绘制核心基因预测进展期N A F L D的列线图(n o m o g r a m),并通过校准曲线㊁决策曲线(d e c i s i o n c u r v e a n a l y s i s, D C A)㊁临床影响曲线(c l i n i c a l i m p a c t c u r v e,C I C)评估列线图可靠性和临床获益情况,最后绘制相对应的受试者工作曲线(r e c e i v e r o p e r a t i n g c h a r a c t e r i s t i c,R O C),计算曲线下面积(a r e au n d e r t h e c u r v e,A U C),最终评估筛选获取的趋化因子通路核心基因对进展期N A F L D的预测效能㊂2结果2.1筛选差异基因在数据集G S E49541中共筛选获得148个D E G s,其中表达上调基因112个,表达下调基因36个,绘制差异基因火山图(图1A)及热图(图1B)㊂图1差异表达基因火山图与热图A.G S E49541差异基因火山图(红点表示上调基因,绿点表示下调基因,灰点表示无差异基因);B.G S E49541差异基因热图(a d v a n c e d表示进展期N A F L D组,m i l d表示轻度N A F L D组,红色表示上调,蓝色表示下调)F i g u r e1V o l c a n o p l o t a n d h e a t m a p o f d i f f e r e n t i a l l ye x p r e s s e d g e n e s2.2 G O功能注释及K E G G信号通路富集分析将148个D E G s进行G O及K E G G信号通路富集分析㊂G O功能富集分析结果显示,D E G s主要参与脂肪酸代谢㊁三酰甘油代谢及脂质转运等生物学过程(图2A)㊂K E G G信号通路富集分析结果显示, D E G s主要参与细胞外基质受体相互作用㊁趋化因子信号通路㊁细胞因子受体相互作用㊁T o l l样受体信号通路等(图2B)㊂表明进展期N A F L D差异基因主要涉及脂类代谢生物学功能,并参与调控趋化因子㊁细胞因子㊁固有免疫等炎症相关通路和细胞外基质反应,结果与N A S H脂质代谢紊乱㊁炎症失控㊁细胞外基质增多所致肝纤维化的临床病理特征一致,提示炎症反应在N A S H进展过程中扮演重要角色㊂图2G O及K E G G信号通路富集分析A.G O富集分析结果桑椹图;B.K E G G信号通路富集分析结果弦图F i g u r e2G Oa n dK E G G p a t h w a y e n r i c h m e n t a n a l y s e s2.3筛选进展期N A F L D核心基因并构建基因互作网络图采用维恩图展示D E G s与396个C P R G s取交集的结果,共筛选获取7个与趋化因子通路相关的差异基因C X C L6㊁C C L20㊁C C L19㊁S L C12A2㊁R O B O1㊁S I G I R R和C D24(图3A)㊂将上述7个基因纳入机器学习L A S S O回归与S VM-R F E分别筛选特征基因,其中L A S S O回归筛选获得5个特征基因,即C C L19㊁C X C L6㊁S L C12A2㊁R O B O1㊁C D24(图3B㊁3C),S VM-R F E筛选获得4个特征基因,即C D24㊁R O B O1㊁C C L19㊁S L C12A2 (图3D㊁3E)㊂最后将2种机器学习筛选获得的特征基因取交集,其中C D24㊁R O B O1㊁C C L19㊁S L C12A2均被两种算法纳入(图3F),成为进展期N A F L D的趋化因子通路相关核心基因(简称核心基因)㊂2.4核心基因并构建基因互作网络图构建核心基因C C L19㊁C D24㊁R O B O1㊁S L C12A2的基因互作网络图,结果提示核心基因主要参与调控趋化因子反应㊁趋化因子调控通路㊁白细胞迁移㊁白细胞趋化性㊁淋巴细胞迁移等(图4)㊂㊃761㊃河北医科大学学报第45卷第2期图3差异表达的C P R G s维恩图㊁L A S S O回归分析模型图㊁S V M-R F E模型图㊁核心基因维恩图A.差异表达的C P R G s维恩图;B.L A S S O回归特征筛选过程图;C.L A S S O回归各变量的系数变化图;D.S VM-R F E筛选变量的模型图,纳入4个特征变量时,模型准确性最高为0.97;E.S VM-R F E筛选变量的模型图,纳入4个特征变量时,模型的错误率最低为0.03;F.核心基因维恩图F i g u r e3C P RG sV e n nd i a g r a m,L A S S Or e g r e s s i o na n a l y s i s m o d e ld i a g r a m,S V M-R F E m o d e ld i a g r a m,a n dk e yg e n eV e n n d i a g r a mo f d i f e r e n t i a l e x p r e s s i o n图4核心基因互作网络图(连线颜色表示基因间互相作用的类型,饼图不同颜色表示基因调控的不同生物学功能)F i g u r e4K e y g e n e i n t e r a c t i o nn e t w o r k2.5构建预测进展期N A F L D列线图(n o m o g r a m)及R O C曲线利用核心基因C C L19㊁C D24㊁R O B O1㊁S L C12A2构建预测进展期N A F L D列线图模型(图5A),列线图的校准曲线具有极高的拟合度(m e a na b s o l u t ee r r o r=0.014),提示列线图准确性较高(图5B)㊂决策曲线提示联合使用核心基因构建的预测模型(n o m o g r a m)具有最好的临床决策价值(图5C),临床影响曲线提示预测模型与临床实际诊断符合度较高(图5D)㊂R O C曲线提示用于诊断进展期N A F L D时,C C L19的A U C=0.804, C D24的A U C=0.941,R O B O1的A U C=0.865, S L C12A2的A U C=0.884(图5E),而联合使用4个核心基因的n o m o g r a m预测模型时A U C=0.997, 95%置信区间(c o n f i d e n c e i n t e r v a l,C I)为0.988~ 1.000(图4F),提示预测模型具有极高的敏感度及特异度㊂㊃861㊃河北医科大学学报第45卷第2期图5核心基因预测进展期N A F L D列线图及R O C曲线A.核心基因C C L19㊁C D24㊁R O B O1㊁S L C12A2预测进展期N A F L D的列线图(n o m o g r a m);B.列线图模型的校准曲线图(实线表示列线图预测曲线,细虚线表示实际曲线,粗虚线表示理想曲线);C.列线图模型的决策曲线(横坐标表示风险概率阈值及损失获益比,纵坐标表示净收益);D.列线图的临床影响曲线(横坐标表示风险概率阈值及损失获益比,纵坐标表示人数,红色曲线表示在不同的概率阈值下,被模型判定为进展期N A F L D的人数;红色线条表示在不同的概率阈值下,被模型判定为高风险且真的为进展期N A F L D的人数);E.各核心基因预测进展期N A F L D的R O C曲线;F.核心基因n o m o g r a m预测模型的R O C 曲线F i g u r e5N o m o g r a ma n dR O Cc u r v e o f k e y g e n e s i n p r e d i c t i n g t h e p r o g r e s s i v eN A F L D3讨论N A F L D被认为是代谢综合征(m e t a b o l i c s y n d r o m e,M S)的一种肝脏表现形式[11],脂质堆积㊁脂质过氧化㊁氧化应激损伤及炎症反应共同参与了N A F L D的发生与进展,N A S H被认为是一种进展期N A F L D,可导致肝硬化㊁肝细胞癌等终末期肝病[12]㊂N A F L D的发病机制较为复杂,目前最为认可的是 二次打击 学说,其中胰岛素抵抗及肝脏内过量脂质堆积导致的肝细胞脂肪变性为第一次打击[13]㊂持续的肝脏炎症是从N A F L向N A S H进展的关键驱动因素㊂肝细胞脂质过氧化加剧及氧化应激损伤,线粒体功能障碍,免疫细胞浸润,炎症反应失控及细胞因子风暴等为第二次打击,增加肝脏对炎性坏死敏感性,从而加速N A S H过程及肝纤维化,最终导致肝硬化及诱发H C C[14]㊂N A S H和N A F L的关键区别在于炎症和纤维化的存在,而炎症和纤维化的出现与免疫细胞和免疫因子如趋化因子和细胞因子的作用密切相关[15]㊂趋化因子是一类通过趋化和激活白细胞参与免疫和炎症反应的趋化性细胞因子大家族,迄今为止,已鉴定出大约70余种表达于各种细胞类型和组织的趋化因子及趋化因子受体,而参与趋化因子及趋化因子受体调控及效应的基因多达上百种,共同构成了复杂的调控网络[16]㊂趋化因子系统可调控肝脏的炎症,临床和实验研究的证据表明,趋化因子及其受体在N A F L D患者的肝脏中增加,在诱导胰岛素抵抗㊁脂肪变性㊁炎症和肝脏纤维化中起关键作用[17]㊂因此,趋化因子通路相关基因在N A S H发生和进展过程中可能起着关键的调控作用,通过生㊃961㊃河北医科大学学报第45卷第2期物信息学筛选与N A F L D进展密切相关的核心基因,具有重要的研究价值和可行性㊂本研究采用生物信息方法和机器学习算法,通过分析公共数据库数据,进展期N A F L D组与轻度N A F L D组相比,共鉴定出148个表达量显著上调或下调的D G E s,富集分析提示D G E s主要参与细胞外基质受体相互作用㊁趋化因子信号通路㊁细胞因子受体相互作用㊁T o l l样受体信号通路的调控,提示免疫炎症反应及趋化因子与进展期N A F L D的发生发展密切相关㊂经机器学习算法筛选,明确C C L19㊁C D24㊁R O B O1㊁S L C12A2为与N A F L D进展密切相关的核心基因,4个基因均表现为一致性表达上调㊂基因相互作用网络提示核心基因主要参与调控趋化因子调控通路㊁白细胞趋化性㊁淋巴细胞迁移等,并构建了具有高效能的进展期N A F L D列线图(n o m o g r a m)预测模型,该模型具有极高的敏感性与特异度㊂C C L19是趋化因子配体家族的一员,参与炎症反应正常淋巴细胞的再循环和归巢,它特异性地结合趋化因子受体C C R7,并显示了对T淋巴细胞的趋化活性[18]㊂本研究的K E G G富集分析和基因相互作用网络均提示,C C L19参与了趋化因子信号通路与淋巴细胞迁移的调控,与文献报道相一致㊂有研究报道,在N A F L D患者中C C L19的表达与炎症信号通路[如T o l l样受体4(T L R4)和N F-κB]和促炎因子(I L-6和T N F-α)明显正相关,二甲双胍可显著抑制C C L19的高表达并改善肝脏脂肪变性与炎症[19]㊂C C L19/C C R7信号通路可促进高脂饮食诱导的胰岛素抵抗和肥胖[20]㊂因此,C C L19及其信号通路可通过参与调控胰岛素抵抗㊁炎症反应㊁白细胞与淋巴细胞趋化迁移等,影响N A S H的进展,有望成为精准治疗N A S H的潜在靶点㊂C D24编码在成熟粒细胞和B细胞上表达的唾液糖蛋白,并调节向这些细胞发出的生长和分化信号,脂肪细胞祖细胞亚群表达C D24对体内白色脂肪组织功能重建至关重要[21],而外周白色脂肪在胰岛素抵抗状态下的异常脂解,可导致大量游离脂肪酸转运及堆积于肝细胞内,诱发肝细胞脂肪变性[22]㊂此外,C D24的缺失可导致全身脂肪减少,葡萄糖稳态失衡和游离脂肪酸代谢紊乱[21]㊂R O B O1是分泌蛋白S l i t2的受体,可参与调节细胞的生长和迁移㊂肝纤维化患者肝组织中S l i t2㊁R O B O1的表达均显著升高,使用R O B O1的中和抗体拮抗其功能或使用s i R N A抑制R O B O1的表达,均可降低肝星状细胞表达纤维化标志物α-S MA[23]㊂C C N2/ C T G F可通过与S l i t2/R O B O信号通路的互相调控而促进肝纤维化[24]㊂S L C12A2编码一种钠离子依赖的离子转运体,其突变会导致细胞代谢的改变[25]㊂高脂饮食诱导的雄性W i s t a r大鼠N A F LD 模型中S L C12A2表达上调[26]㊂目前尚缺少C D24㊁R O B O1㊁S L C12A2与N A S H进展相关的机制研究报道,从现有文献汇总分析,C D24㊁R O B O1㊁S L C12A2可能通过影响外周脂肪细胞功能㊁脂肪酸代谢㊁细胞外基质调控等多种机制,调控N A S H及其所致肝纤维化的进展,这将为今后N A S H研究提供新的方向㊂综上,通过综合运用生物信息方法和机器学习算法,通过分析数据集G S E49541芯片数据,提示与趋化因子通路相关的核心基因C C L19㊁C D24㊁R O B O1㊁S L C12A2表达上调,可能参与了N A F L D 发生与N A S H进展的调控,上述核心基因对进展期N A F L D具有较高的预测效能,有望成为今后N A S H研究新的方向,并为进一步实验研究提供理论依据㊂[参考文献][1]田爱平,杨永峰.非酒精性脂肪性肝病诊断 病理的重要性[J].临床肝胆志,2023,39(3):491-497.[2] M u r p h y S K,Y a n g H,M o y l a nC A,e t a l.R e l a t i o n s h i p b e t w e e nm e t h y l o m ea n dt r a n s c r i p t o m ei n p a t i e n t s w i t hn o n a l c o h o l i cf a t t y l i v e r d i s e a s e[J].G a s t r o e n t e r o l og y,2013,145(5):1076-1087.[3] C a m i l l e r i M,M a l h i H,A c o s t a A.G a s t r o i n t e s t i n a lc o m p l i c a t i o n s o f o b e s i t y[J].G a s t r o e n t e r o l o g y,2017,152(7):1656-1670.[4] K i m M C,P a r kJ G,J a n g B I,e t a l.L i v e r f i b r o s i s i sa s s o c i a t e dw i t h r i s k f o r c o l o r e c t a l a d e n o m a i n p a t i e n t sw i t hn o n a l c o h o l i cf a t t y l i v e rd i s e a s e[J].M e d i c i n e(B a l t i m o r e),2019,98(6):e14139.[5] H a g e m a n n C A,L e g a r t C,Møl l e r høj M B,e t a l.A l i v e rs e c r e t o m e g e n e s i g n a t u r e-b a s e d a p p r o a c h f o r d e t e r m i n i n gc i r c u l a t i n g b i o m a r k e r so f N A F L D s e v e r i t y[J].P L o S O n e,2022,17(10):e0275901.[6] L i u M J,J i n H,C h e n Y B,e ta l.S c r e e n i n g o fn o n-a l c o h o l i cs t e a t o h e p a t i t i s(N A S H)-r e l a t e dd a t a s e t sa n d i d e n t i f i c a t i o no fN A S H-r e l a t e d g e n e s[J].I n t JC l i nE x p P a t h o l,2021,14(5):567-581.[7] R a j a kS,G u p t a P,A n j u m B,e ta l.R o l eo f A K R1B10a n dA K R1B8i nt h e p a t h o g e n e s i so fn o n-a l c o h o l i cs t e a t o h e p a t i t i s(N A S H)i nm o u s e[J].B i o c h i m B i o p h y sA c t aM o l B a s i sD i s,2022,1868(4):166319.[8] B o c s a n I C,M i l a c i u MV,P o p R M,e ta l.C y t o k i n e s g e n o t y p e-p h e n o t y p e c o r r e l a t i o n i n n o n a l c o h o l i c s t e a t o h e p a t i t i s[J].O x i d㊃071㊃河北医科大学学报第45卷第2期M e dC e l l L o n g e v,2017,2017:4297206.[9] R o hY S,S e k i E.C h e m o k i n e s a n dc h e m o k i n e r e c e p t o r s i nt h ed e v e l o p m e n t o fN A F L D[J].A d vE x p M e dB i o l,2018,1061:45-53.[10] L i S,H a nS,J i nK,e t a l.S O C S2S u p p r e s s e s i n f l a mm a t i o n a n da p o p t o s i s d u r i n g N A S H p r o g r e s s i o nt h r o u g h l i m i t i n g N F-κBa c t i v a t i o n i n m a c r o p h a g e s[J].I n tJB i o lS c i,2021,17(15):4165-4175.[11]陈词.徐可树:脂肪肝与代谢性疾病[J].肝博士,2022,29(5):19-20.[12]张瑞,李荣荣,王腊梅,等.氧化应激在非酒精性脂肪肝发病机制中的作用和潜在治疗靶点[J].动物营养学报,2022,34(12):7602-7615.[13]刘晓燕,高卉.非酒精性脂肪性肝病的研究进展[J].湖北科技学院学报(医学版),2019,33(4):364-368.[14]曹颖,谢雯.非酒精性脂肪性肝病发病机制研究[J].中国临床医生杂志,2020,48(1):4-6.[15] C h u n g KW,C h o Y E,K i m S J,e t a l.I mm u n e-r e l a t e dp a t h o g e n e s i s a n d t h e r a p e u t i c s t r a t e g i e s o f n o n a l c o h o l i c s t e a t o h e p a t i t i s[J].A r c hP h a r m R e s,2022,45(4):229-244.[16] H u g h e sC E,N i b b s R J B.A g u i d et oc h e m o k i n e sa n dt h e i rr e c e p t o r s[J].F e b s J,2018,285:2944-2971. [17] N a g a t aN,C h e nG,X uL,e t a l.A nu p d a t eo nt h e c h e m o k i n es y s t e m i n t h e d e v e l o p m e n t o f N A F L D[J].M e d i c i n a(K a u n a s),2022,58(6):761.[18] Y a nY,C h e nR,W a n g X,e t a l.C C L19a n dC C R7e x p r e s s i o n,s i g n a l i n gp a t h w a y s,a n da d j u v a n t f u n c t i o n s i nv i r a l i n f e c t i o na n d p r e v e n t i o n[J].F r o n tC e l lD e vB i o l,2019,7:212.[19] Z h a o J,W a n g Y,W u X,e ta l.I n h ib i t i o no fC C L19b e n e f i t sn o n-a l c o h o l i c f a t t y l i v e rd i s e a s eb y i n h i b i t i n g T L R4/N F-κB-p65s i g n a l i n g[J].M o lM e dR e p,2018,18(5):4635-4642.[20]S a n oT,I w a s h i t a M,N a g a y a s uS,e t a l.P r o t e c t i o nf r o m d i e t-i n d u c e do b e s i t y a n d i n s u l i n r e s i s t a n c e i nm i c e l a c k i n g C C L19-C C R7s i g n a l i n g[J].O b e s i t y(S i l v e rS p r i n g),2015,23(7):1460-1471.[21] H u a n g S,S u n C,H o u Y,e t a l.A c o m p r e h e n s i v eb i o i n f o r m a t ic s a n a l y s i so n m u l t i p l e g e n ee x p r e s s i o no m n i b u sd a t a se t so fn o n a l c o h o l i cf a t t y l i v e rd i s e a s ea n dn o n a l c o h o l i cs t e a t o h e p a t i t i s[J].S c i R e p,2018,8(1):7630. [22]阎利萍,左吉卉,吴明江,等.脂肪酸代谢与非酒精性脂肪肝疾病关系的研究进展[J].中国医药科学,2020,10(20):35-39,56.[23] C h a n g J,L a n T,L i C,e t a l.A c t i v a t i o n o f S l i t2-R o b o1s i g n a l i n gp r o m o t e s l i v e r f i b r o s i s[J].JH e p a t o l,2015,63(6):1413-1420.[24] P iL,S u nC,J nS i m o nN,e t a l.C C N2/C T G F p r o m o t e s l i v e rf i b r o s i s t h r o ugh c r o s s t a l kwi t h t h e S l i t2/R o b o s i g n a l i n g[J].JC e l l C o mm u nS i g n a l,2023,17(1):137-150.[25] O m e r S,K o u m a n g o y eR,D e l p i r eE.A m u t a t i o n i n t h eN a-K-2C lc o t r a n s p o r t e r-1l e a d st oc h a n g e s i nc e l l u l a r m e t a b o l i s m[J].JC e l l P h y s i o l,2020,235(10):7239-7250.[26] C o n g S,L i Z,Y uL,e t a l.I n t e g r a t i v e p r o t e o m i c a n d l i p i d o m i ca n a l y s i s o fK a i l iS o u rS o u p-m e d i a t e da t t e n u a t i o no fh i g h-f a td ie t-i n d u c e dn o n a l c o h o l i cf a t t y l i v e r d i s e a s e i n a r a tm o d e l[J].N u t rM e t a b(L o n d),2021,18(1):26.(本文编辑:刘斯静)㊃171㊃莫双阳等综合生物信息学与机器学习筛选非酒精性脂肪性肝炎的趋化因子相关核心基因。
基于相似贡献度和SVM-RFE方法的特征基因选取徐妙志;郭龙;刘德浩;徐全智【摘要】利用有限的基因芯片数据识别结肠癌特征基因集合,对该疾病的临床诊断和生物医学研究起到有益的参考和借鉴作用.针对该问题,首先提出一种滤除分类无关基因的新方法——相似贡献度方法,然后采有支持向量机递归特征消去方法(SVM-RFE)得到候选特征基因子集,最后利用支持向量机(SVM)分类方法,以训练集和测试集的错误分类数两个指标为依据,选取得到最优特征基因集.应用此方法于结肠癌数据,分类准确率达到93.55%,有比较好的分类结果,也验证了上述方法的可行性和有效性.【期刊名称】《西南民族大学学报(自然科学版)》【年(卷),期】2012(038)005【总页数】5页(P743-747)【关键词】相似贡献度;支持向量机;基因表达谱;SVM-RFE【作者】徐妙志;郭龙;刘德浩;徐全智【作者单位】电子科技大学数学科学学院,四川成都611731;电子科技大学数学科学学院,四川成都611731;电子科技大学数学科学学院,四川成都611731;电子科技大学数学科学学院,四川成都611731【正文语种】中文【中图分类】Q-3DNA微阵列技术是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术, 其重要意义体现在能够利用对获得的DNA芯片进行量化分析, 比较正常组织与肿瘤组织在基因表达上的差异, 进而发掘出在肿瘤组织中异常表达的基因, 为肿瘤的诊断和治疗提供建设性的参考作用[1]. Golub和Guyon在利用基因表达数据对肿瘤进行分类与诊断中做了大量工作. 1999年, Golub 等提出“信噪比”指标作为衡量基因对样本分类贡献大小的量度, 并对亚型采用加权投票的方法进行识别, 仅仅根据72个样本点数据集, 就从7129个基因中选出了可能的50个与亚型分类相关的信息基因[4]. 2000年, Guyon 等则创造性的利用支持向量机方法再从中选出了8个信息基因[5]. 他们的工作缩小了特征基因的搜索范围, 富有创造性. 本文基于考虑基因表达序列的相关性的变化, 提出一种基因表达谱分析的新方法. 用含有某基因和不含某基因时的基因序列的相关关系的改变来衡量该基因是否异常, 提取出异常的基因, 剔除无关基因, 再利用支持向量机方法, 在相关基因中选出分类性能最好的基因子集.本文数据来源于Alon 1999年公布的结肠癌基因表达谱数据集[6]. 该数据集包含22个正常(Normal)样本和40个结肠癌(Cancer)样本, 每个样本包含2000个基因的表达谱数据.为了便于与其他文献的结果进行比较, 本文将肿瘤样本和正常样本按接近2∶1的比例分配到训练集和测试集中. 其中训练集共40个样本包含26个肿瘤样本和14个正常样本, 测试集共22个样本包含14个肿瘤样本和8个正常样本. 如表1所示: 由于大量基因是无关基因, 对于无关基因, 正常样本和结肠癌样本之间有很强的相关关系, 也就导致了基因序列变化的相似性; 在异常基因处, 这种相关关系则会被打乱. 因而对于无关基因, 包含和不包含该基因, 结肠癌样本和正常样本的基因表达序列的相关关系变化不大; 在异常基因处, 这种变化则会很大. 为此, 提出相似度贡献来定量描述这种现象.定义1 记C表示结肠癌样本基因表达序列, N表示正常样本基因表达序列, 则基因i 的相似度贡献定义为:其中, PN C,include是包含基因i时, 结肠癌样本与正常样本基因表达序列的Pearson相关系数; 类似的, PNC,exclude是不包含基因i时, 结肠癌样本与正常样本基因表达序列的Pearson相关系数.在计算基因i的相似度贡献时, 以40个结肠癌和22个正常样本的均值序列作为序列C、N的估计, 并且只C、N选取以基因i为中心的一定长度基因序列是合理的. 因为, 一方面样本均值是无偏、有效、相合的估计量; 另一方面, 若使用整个基因序列来计算, 由于大量数据计算平滑的效果, 则每个基因相似度贡献变化不大,不利于分析.若某基因相似度贡献 Si为负值, 表明含有该基因时, 序列相似度更低, 此时 Si越小, 其为异常基因的可能性也就越大; Si为正值, 表明含有该基因时, 序列的相似程度更高, 则其不应该是异常基因.由于绝大多数基因是无关基因, 而无关基因的相似度贡献几乎为 0. 因此相似度贡献序列S={S1,S2,L,S2000}表现为均值为 0的平稳序列. 通常从这样的序列S中提取异常值的方法有分位数方法, 3s 原则等, 但这些方法都有主观的假设, 并且对连续非平稳变化趋势的序列, 这些方法就不再适用. 为此, 提出适用性更广, 更行之有效的方法, 即环密度方法来提取S中的异常信息.定义2 相似度贡献序列 S ={S 1,S2,L,S2000}, 以 ( S i,Si+1)方式作图, 称为序列S 散点图. 在散点图中,以(0,0)为圆心, 在半径为R1<R2的两个圆所围环形区域上点的数目与环形区域面积的比值, 称为半径(R1+R2)/2处的环密度.本文选取以基因i为中心前后各取20个基因, 总长度为41的基因序列, 利用(1)式计算基因i的相似贡献度Si. 图1为 ( S i,Si+1)的散点分布图, 图2为其环密度曲线图.图1 所示, 聚集在(0, 0) 点附近的点代表了无关基因, 分布在边缘的点则代表了异常基因. 若所有基因均是无关基因, 则以(0,0)为圆心, 随着半径的增加, 点的聚集会越来越稀疏, 则其分布密度曲面应该是类似于对称钟面, 环密度曲线应该是单调减小的一条曲线. 图2所示, 曲线有波动现象, 也表明存在异常基因. 图2中波动现象发生在半径R=0.06处, 保险起见, 在散点图中, 认为(0,0)为圆心, 半径R=0.05以外区域的散点对应点, 且相似度贡献为负值的基因就是异常基因, 这样就识别得到的30个异常基因.这 30个异常基因, 是通过序列的相似度贡献找出的, 不能反映对样本分类的效果. 所以, 需要从中找出对结肠癌样本和正常样本分类效果最好的基因集合, 作为特征基因.为了进一步减少特征基因数量, 选出对结肠癌样本和正常样本具有最优分类效果的基因组合, 本文采用的是支持向量机方法对样本进行分类识别.3.1 支持向量机方法支持向量机由Corinna Cortes和Vapnik 基于统计学习理论和结构风险最小化原理提出的一种机器学习算法.利用样本点的分类信息, 构造出最佳分类超平面, 以期获得最好的推广能力. 若给定样本集的形式为3.2 SVM-RFE方法生成候选特征基因集合采用相似贡献度方法滤掉无关基因, 得到异样基因的数量是较多的, 若采用穷举法进行组合, 并进行分类检验, 则其计算量是极大了. 故本文先采用SVM-RFE算法生成候选特征基因集合.SVM-RFE算法是由Guyon等人于2002年提出的[5], 该算法是根据SVM在训练时生成的权向量w来构造排序系数, 每次迭代去掉一个排序系数最小的特征属性, 最终得到所有特征属性的递减顺序的排序.本文的SVM-RFE采用的是RBF核函数, 其排序系数为:3.3 特征基因子集的分类能力本文采用的结肠癌数据共 62个样本, 样本数据较少, 为了对候选特征基因子集的分类能力进行评估, 分别在训练集样本和测试集样本上进行SVM分类, 得到各自的分类错误数.在训练集上, 采用“留一法”计算基因集合的错误分类数, 每次保留一个样本作为测试样本, 用剩下的样本作为SVM的训练样本, 对测试样本进行分类, 并判断准确与否. 重复此过程, 当所有40个样本都被用作测试样本进行分类. 统计错误分类发生的总频数即为“留一法”分类错误数.在测试集上, 采用“独立测试实验”计算基因集合的错误分类数, 用训练集上的40个样本训练SVM, 对测试集中22个样本分类, 统计错误分类发生的总频数即为“独立测试实验”的分类错误数.我们就采用训练集留一交叉检验分类错误数和独立测试集分类错误数两个指标来综合判定最佳特征子集.通过SVM-RFE实验, 获得30个特征基因子集 F1, F 2,L ,F30, 并利用这些特征子集做留一交叉检验和测试集独立检验, 记录分类错误个数, 结果如下图. 图3显示30个特征基因子集的分类能力, 总体分类效果都比较好,除 F1(只含有一个特征基因)以外, 其他特征基因子集的分类错误数至多为5, 其中F3(特征基因个数为3)和 F5(特征基因个数为5)的总体分类能力最强: 总错分个数为4, 分类准确率达到93.55%.F3留一法的错分数为2, 独立测试的错分数为2, F5留一法的错分数为1, 独立测试的错分数为3. 我们选取包含基因个数较少的基因集合 F3作为特征基因集合 Fset.图4 列出了特征基因集合 setF 的3个基因在癌症组和正常组中的平均表达水平,从图中可以看出R36977和M26383这2个基因在癌症组样本中的表达水平要比其在正常组中的表达水平高; 而J02854在癌症组样本中的表达水平要比在正常组样本中的表达水平低.本文不同于 Golub的经典方法——信噪比方法和被广泛使用的分类信息指数方法(information index to classification, IIC)提出了一种全新的方法——相似贡献度方法来选取可能的特征基因(异常基因), 然后对有关特征基因采有联合递归特征去除方法(RFE)得到可能的特征基因子集, 再针这些特征基因子集, 利用支持向量机(SVM)进行分类, 得到错误分类数, 选取分类效果做好的集合即为最优特征基因集. 结果显示, 采用该方法的分类效果总体表现比较好, 最优分类效果也表现突出. 表 2列出了采用新方法得到的结果与参考文献结果的比较.从表 2可见, 无论是从分类基因的个数, 还是从分类精度上讲, 本文方法都有比文献[6-9]方法更好的结果,相对于文献[10], 虽然精度稍稍有所降低, 但分类基因数量大大减少, 总体效果更好. 但总体来说该方法用来分析结肠癌基因表达谱, 能够有效地选择肿瘤分类的特征基因集合, 对肿瘤的诊断和生物医学研究能起到有益的参考作用.Key words: similar contribution; support vector machine; gene expression profile; SVM-RFE【相关文献】[1] 刘全金, 李颖新. 基于基因表达谱的结肠癌特征基因选取[J]. 昆明理工大学学报: 理工版, 2006, 31(1): 89-92.[2] GOLUB TR, SLONMI DK, TAMAYO P, et al . Molecular classification of cancer: Class discovery and class prediction by geneexpression monitoring [J]. Science, 1999, 286(5439): 531-537.[3] TIBSHIRANI R, HASTIE T, NARASMIHAN B, et al. Diagnosis of multiple cancer types by shrunken centroids of gene expression[J]. PNAS, 2002, 99(10): 6567-6572.[4] T R GOLUB. Monitoring and Class Prediction by Gene Expression[J]. Science, 1999, 286: 531-537.[5] GUYON WESTON J, BARNHILL S. Gene selection for cancer classification using supportvector machines[J]. Machine Learning, 2000, 46(13): 389-422.[6] ALON U, BARKAI N, NOTTERMAN D A, et al. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays [J]. Proc Natl Acad Sci Usa, 1999, 96: 6745-6750.[7] FUREY T S, CRISTIANINI N, DUFFY N, et al. Support vector machine classification and validation of cancer tissue samples using microarray expression data[J]. Bioinformatics, 2000, 16(10): 906-914.[8] PENG S, XU Q, LING X B, et al. Molecular classification of cancer types from microarray data using the combination of genetic algorithms and support vector machines [J]. FEBS Letter, 2003, 555(2): 358-362.[9] WANG Y, MAKEDON F, FORD J C, et al. Hykgene: a hybrid approach for selecting marker genes for phenotype classification using microarray gene expression data [J]. Bioinformatics, 2005, 21 (8): 1530-1537.[10] 张娅, 饶妮妮. 一种基于基因表达谱的结肠癌特征提取方法[J]. 航天医学与医学工程, 2008,21(4): 357-360.[11] XIN ZHOU, DAVID P. Tuck. MSVM-RFE: extensions of SVM-RFE for multiclass gene selection on DNA microarray data [J]. Bioinformatics, 2007, 23 (9): 1106-1114.[12] 刘全金, 李颖新. 基于SVM的灵敏度分析方法选取肿瘤特征基因[J]. 北京工业大学学报, 2007, 33(9): 954-958.[13] 刘全金, 李颖新. 基于BP神经网络的肿瘤特征基因选取[J]. 计算机工程与应用, 2005, 34: 184-186.Abstract: The paper is focused on identifying feature gene sets of colon cancer from gene expression data which is beneficial to diagnosis and biomedical research. Firstly, the irrelevant genes are filtered out by the similar contribution method. Then, the support vector machine recursive feature elimination (SVM-RFE) method is used to generate the candidate feature subsets. After that, the optimal feature genes sets are selected based on the error of classification in train set and test set by using support vector machine (SVM) as classifier. In the colon cancer database, the classification is 93.55% in accuracy which is better than other methods. This result proposes that the approach is effective and feasible.。