基于CART算法的肺癌微阵列数据的分类_陈磊
- 格式:pdf
- 大小:514.43 KB
- 文档页数:6
经典算法CARTCART(Classification And Regression Trees)是一种经典的算法,用于建立分类和回归树模型。
它是由Leo Breiman在1984年首次提出的,目前被广泛应用于数据挖掘和机器学习领域。
CART算法基于决策树的思想,可以将输入数据集分割成多个小的子集,每个子集代表一个决策树节点。
通过对特征的选择和分割,可以使得每个子集的纯度更高,即同一类别的样本更多。
最终,CART算法会生成一棵满足纯度要求的决策树模型。
CART算法的主要步骤如下:1. 特征选择:CART算法使用其中一种准则来选择最佳的特征。
常用的准则包括基尼指数(Gini index)和信息增益(information gain)。
基尼指数衡量了数据集的不纯度,而信息增益衡量了特征对数据集纯度的贡献程度。
选择具有最大基尼指数或信息增益的特征作为当前节点的划分特征。
2.划分数据集:根据划分特征的取值将数据集分成多个子集。
对于离散特征,每个取值对应一个子集;对于连续特征,可以选择一个划分点将数据集分成两个子集。
3.递归建立子树:对每个子集,重复步骤1和步骤2,递归地建立子树。
直到达到停止条件,例如达到最大深度或纯度要求。
4.剪枝处理:为了避免过拟合,CART算法会对生成的决策树进行剪枝处理。
根据其中一种评估准则,剪去部分子树或合并子树。
CART算法具有一些优点,使得它成为一种经典的算法。
首先,CART算法可以处理离散特征和连续特征,非常灵活。
其次,CART算法生成的决策树易于理解和解释,可以用于预测和决策解释。
此外,CART算法还能处理多分类和回归问题。
然而,CART算法也存在一些限制。
首先,CART算法只能生成二叉树,即每个节点只有两个分支。
这可能会导致决策树过于复杂,需要更多的分支来表示复杂的决策边界。
其次,CART算法在处理高维数据和数据不平衡的情况下可能会遇到困难,需要进行特殊处理。
总结起来,CART算法是一种经典的算法,用于建立分类和回归树模型。
CART算法介绍CART(Classification And Regression Trees)算法是一种机器学习算法,主要用于决策树模型的构建。
CART算法通过递归地将数据集分割成多个子集,直到子集中的数据只属于同一类别或满足一些预定义的条件。
CART算法可以用于分类和回归问题。
1.选择一个初始特征作为根节点,并将数据集分成两个子集。
选择初始特征的方法有很多,常见的方法有基尼指数和信息增益。
2.对每个子集,重复步骤1,选择一个最佳特征并将子集分割成更小的子集。
分割策略可以采用相同的方法,即最小化基尼指数或最大化信息增益。
3.递归地重复上述步骤,生成一棵完整的决策树,其中每个叶子节点代表一个类别。
4.进行剪枝操作,可以通过最小化损失函数或使用交叉验证方法来选择最优的决策树。
1.算法简单易懂,实现较为容易。
CART算法将复杂的决策问题简化为“是”和“否”的问题,其结果容易解释和理解。
2.可以处理多类别问题。
CART算法可以应用于多类别分类问题,并且可以通过增加决策树的深度来提高分类的准确性。
3.能够处理非线性特征。
CART算法对非线性特征没有太强的限制,可以处理多种类型的特征。
4.对缺失值和异常值具有较好的鲁棒性。
CART算法对于缺失值和异常值有一定的容忍程度,不会对模型产生太大的影响。
然而,CART算法也存在一些不足之处:1.对于样本噪声比较敏感。
CART算法对于噪声数据比较敏感,噪声数据容易导致树模型产生过拟合的情况。
2.对于类别不平衡的数据集效果不佳。
CART算法对于类别不平衡的数据集容易出现偏倚现象,导致模型效果下降。
3.容易产生过拟合。
CART算法在构建决策树时采用了贪心策略,很容易产生过拟合问题。
为了避免过拟合,可以进行剪枝操作。
总结来说,CART算法是一种强大且灵活的机器学习算法,适用于分类和回归问题。
它具有较好的鲁棒性和解释性,并且能够处理多类别和非线性特征。
然而,CART算法仍然存在一些限制,如对噪声敏感和对类别不平衡的数据处理能力不足。
微阵列技术在癌症诊断和治疗中的应用微阵列技术,在医学领域中,是一项非常重要的技术。
它可以帮助医生对患者的疾病进行快速的诊断和治疗。
而在癌症的诊断和治疗方面,微阵列技术更是发挥了重要的作用。
一、微阵列技术简介微阵列技术(microarray technology)是一种生物信息学技术,也被称为芯片技术(chip technology)。
它可以同时检测和分析DNA、RNA和蛋白质等生物分子。
微阵列技术通过将不同种类的DNA、RNA片段等固定在微型芯片上,通过激光扫描系统将信号拍摄下来,以此分析生物样品中不同基因表达水平的差异,从而研究基因的调控及其在细胞生理和病理过程中的作用,以期找到疾病的相关基因和分子标志物。
二、微阵列技术在癌症诊断中的应用癌症是目前全球范围内最主要的致死疾病之一。
微阵列技术在癌症诊断中的应用主要是通过对肿瘤基因的检测,来对癌症进行早期诊断和预测患病的风险。
1.早期癌症诊断微阵列技术可以检测出某些特定的癌症相关基因的表达情况,从而对早期癌症进行精确诊断。
例如,乳腺癌早期诊断中,通过微阵列技术检测HE4基因和MUC1基因的表达情况来诊断乳腺癌的早期。
因为这两个基因在乳腺癌组织中的表达水平比正常组织中高得多。
2.预测癌症患者的风险除了早期诊断外,微阵列技术还可以通过检测癌症相关基因的表达水平来预测患者某种癌症的风险。
例如,通过检测结肠癌患者的表观遗传学标记,确定癌症的基因调控机制,从而为癌症早期筛查和风险评估提供一定的依据。
三、微阵列技术在癌症治疗中的应用微阵列技术不仅可以帮助提高癌症的诊断准确性,同时还可以通过对肿瘤基因的检测,来帮助医生选择有效的治疗方案。
1.确定个体化治疗方案由于每个人的基因组和癌细胞类型都不同,微阵列技术可以通过对患者的个体化基因谱的检测,来确定个体化治疗方案。
例如,目前很多胃癌患者都选择了帕妥珠单抗酰胺的治疗方法,这种治疗方法是针对CDH17这个特定基因进行针对性的治疗。
大数据经典算法CART讲解CART(分类与回归树)是一种经典的机器学习算法,用于解决分类和回归问题。
它是由Leo Breiman等人在1984年提出的,是决策树算法的一种改进和扩展。
CART算法的核心思想是通过将输入空间划分为多个区域来构建一棵二叉树,每个区域用于表示一个决策规则。
CART算法的整个过程可以分为两个部分:生成和剪枝。
在生成阶段,CART算法通过递归地将数据集切分为两个子集,直到满足一些停止条件。
在剪枝阶段,CART算法通过剪枝策略对生成的树进行剪枝,以防止过拟合。
生成阶段中,CART算法的切分准则是基于Gini系数的。
Gini系数衡量了将数据集切分为两个子集后的不纯度,即数据集中样本不属于同一类别的程度。
CART算法通过选择Gini系数最小的切分点来进行切分,使得切分后的两个子集的纯度最高。
剪枝阶段中,CART算法通过损失函数来评估子树的贡献。
损失函数考虑了子树的拟合程度和子树的复杂度,以平衡模型的拟合能力和泛化能力。
剪枝阶段的目标是找到一个最优的剪枝点,使得剪枝后的子树的整体损失最小。
CART算法具有许多优点。
首先,CART算法可以处理多类别问题,不需要进行额外的转换。
其次,CART算法能够处理混合类型的数据,比如同时具有连续型和离散型特征的数据。
此外,CART算法能够处理缺失数据,并能够自动选择缺失数据的处理方法。
最后,CART算法生成的模型具有很好的可解释性,可以直观地理解决策过程。
然而,CART算法也存在一些不足之处。
首先,CART算法是一种贪心算法,通过局部最优来构建模型,不能保证全局最优。
其次,CART算法对输入特征的顺序敏感,不同的特征顺序可能会导致不同的模型结果。
此外,CART算法对噪声和异常值很敏感,可能会导致过拟合。
在实际应用中,CART算法广泛应用于分类和回归问题。
在分类问题中,CART算法可以用于构建决策树分类器,对样本进行分类预测。
在回归问题中,CART算法可以用于构建决策树回归器,根据输入特征预测输出值。
cart相关课题思路关于CART(分类与回归树)相关的课题思路,可以包括以下几个方向:1.CART算法优化:CART算法是一种经典的决策树算法,可以用于分类和回归问题。
然而,CART算法在处理大规模数据集和高维特征时可能会遇到性能问题。
因此,可以研究如何优化CART算法,提高其处理大规模数据集和高维特征的能力。
例如,可以研究如何改进CART算法的特征选择和剪枝策略,以提高其预测性能和鲁棒性。
2.基于CART的集成学习:集成学习是一种通过组合多个基学习器来提高预测性能的方法。
CART算法可以作为基学习器之一,与其他基学习器一起构建集成学习模型。
例如,可以将CART与随机森林、梯度提升树等算法进行集成,研究不同集成策略对预测性能的影响。
3.CART在特定领域的应用:CART算法可以应用于各种领域,如金融、医疗、教育等。
可以针对特定领域的数据集和问题,研究如何应用CART算法进行建模和预测。
例如,在金融领域,可以使用CART算法构建信用评分模型,预测借款人的信用风险。
在医疗领域,可以使用CART算法构建疾病诊断模型,辅助医生进行疾病诊断和治疗。
4.CART与其他机器学习算法的比较:CART算法是一种经典的机器学习算法,可以与其他机器学习算法进行比较研究。
例如,可以将CART与逻辑回归、支持向量机、神经网络等算法进行比较,分析它们在分类和回归问题上的性能优劣。
通过比较不同算法的性能和特点,可以更深入地了解各种算法的适用场景和优缺点。
5.基于CART的特征选择和降维:CART算法在进行特征选择时会评估每个特征的重要性,因此可以用于特征选择和降维。
可以研究如何使用CART算法进行特征选择和降维,并探讨其对预测性能的影响。
例如,可以使用CART算法对高维数据集进行特征选择,去除不相关或冗余的特征,降低数据维度并提高预测性能。
[收稿日期]2022-06-29 [修回日期]2023-11-23[基金项目]1.安徽省重点研究与开发计划项目(2022e07020033);2.安徽省高等学校自然科学研究项目(KJ2021A0769);3.蚌埠市科技创新指导类项目(2022037)[作者单位]1.蚌埠医学院研究生院,安徽蚌埠233030;2.蚌埠医学院第一附属医院放射科,安徽蚌埠233004;3.安徽省阜阳市第五人民医院放射科,236035[作者简介]燕翠芳(1990-),女,硕士研究生,主治医师.[通信作者]谢宗玉(1981-),男,硕士研究生导师,主任医师,副教授.E⁃mail:zongyuxie@[文章编号]1000⁃2200(2023)12⁃1714⁃08㊃影像医学㊃基于CT 影像和临床特征的列线图模型预测NSCLC 的EGFR 突变状态燕翠芳1,3,李 阳1,赵楠楠1,张舒妮1,杨静茹1,李淑华2,谢宗玉2[摘要]目的:探讨基于CT 影像和临床特征的预测模型在评估非小细胞肺癌(NSCLC)病人的表皮生长因子受体(EGFR)突变中的价值㊂方法:收集经病理确诊的非小细胞肺癌病人258例(其中训练组182例,验证组76例)㊂采用单因素及多因素logistic 回归分析,分析筛选出独立影响EGFR 突变因素构建CT 影像-临床预测模型㊂绘制列线图使模型可视化,最后利用受试者工作特性曲线㊁校准曲线及决策曲线评价模型的实用性㊂结果:最终筛选出性别㊁吸烟状况㊁毛刺征及胸膜凹陷征为NSCLC EGFR 突变的独立预测因素并建立CT 影像-临床预测模型㊂在训练组和验证组中,预测模型曲线下面积分别为0.799和0.797(P <0.01),预测效能较好㊂校准曲线显示训练组及验证组预测模型与观察结果具有良好的一致性㊂DCA 显示模型预测EGFR 突变取得较好的临床效益㊂结论:CT 影像-临床特征预测模型对NSCLC 病人EGFR 突变预测价值良好,可作为临床术前预测的无创性工具㊂[关键词]非小细胞肺癌;计算机断层扫描;列线图;表皮生长因子受体[中图法分类号]R 734.2 [文献标志码]A DOI :10.13898/ki.issn.1000⁃2200.2023.12.021Prediction of EGFR mutation status in NSCLC usingnomogram model based on CT radiological and clinical featuresYAN Cui⁃fang 1,3,LI Yang 1,ZHAO Nan⁃nan 1,ZHANG Shu⁃ni 1,YANG Jing⁃ru 1,LI Shu⁃hua 2,XIE Zong⁃yu 2(1.School of Graduate ,Bengbu Medical College ,Bengbu Anhui 233030;2.Department of Radiology ,The First Affiliated Hospital ofBengbu Medical College ,Bengbu Anhui 233004;3.Department of Radiology ,Fuyang Fifth People′s Hospital ,Fuyang Anhui 236035,China )[Abstract ]Objective :To investigate the value of constructing a combined CT imaging and clinical features prediction model for evaluating epidermal growth factor receptor (EGFR)mutations in patients with non⁃small cell lung cancer (NSCLC).Methods :A total of 258patients with pathologically confirmed NSCLC (182in the training group and 76in the validation group)were enrolled.Single factor and multiple factor logistic regression analysis were used to analyze and screen out independent factors affecting EGFR mutation to build CT imaging⁃clinical prediction model.A nomogram was drawn to visualize the model.Finally,receiver operating characteristic curve,calibration curve and decision curve were used to evaluate the practicability of the model.Results :Finally,gender,smoking status,burr sign,and pleural indentation sign were screened as independent predictive factors for NSCLC EGFR mutations,and a CTimaging⁃clinical prediction model was established.In the training and validation groups,the predicted area under the curve of the model was 0.799and 0.797,respectively (P <0.01),indicating good predictive performance.The calibration curve showed that the prediction models of the training and validation groups had good consistency with the observed results.Decision curve showed that the model had achieved good clinical benefits in predicting EGFR mutations.Conclusions :The CT imaging⁃clinical feature prediction model has well predictive value for EGFR mutations in NSCLC patients and can be served as noninvasive tool for preoperative clinical prediction.[Key words ]non⁃small cell lung cancer;computed tomography;nomogram;epidermal growth factor receptor 肺癌是全世界癌症死亡的主要原因之一[1]㊂非小细胞肺癌(non⁃small cell lung cancer,NSCLC)是肺癌中一类常见的组织学亚型[2]㊂其中,表皮生长因子受体(EGFR)突变的NSCLC 病人在接受酪氨酸激酶抑制剂(TKI)治疗后,比接受常规化疗的病人表现出更好的无进展生存期和客观缓解率[3],因此,治疗前准确评估EGFR 突变状态对指导治疗具有重要的临床意义㊂目前,组织学活检是临床使用较多的方法,但由于肿瘤的异质性,取样组织不能代表整个肿瘤[4]㊂同时,肿瘤活检是一种有创操作,不仅存在操作的复杂性,同时具有一定的并发症风险[5-6],因此,探究无创㊁简便的评估方法是十分必要的㊂本研究构建了一种基于CT影像和临床特征的列线图预测模型,以期术前准确预测EGFR突变状态,并验证这种模型的应用可行性及临床价值㊂1 资料与方法1.1 一般资料 收集2019-2020年期间在蚌埠医学院第一附属医院进行检查治疗的NSCLC病人,并对其CT影像和临床资料进行分析㊂纳入标准:(1)术后病理结果为肺腺癌㊁肺鳞癌;(2)已做EGFR突变状态检查;(3)术前未进行过治疗或干预;(4)具有可用的CT图像和临床资料㊂排除标准:(1)术后肿瘤复发病人;(2)合并其他肿瘤病变;(3)CT资料及临床资料不完整;(4)多种原因导致的肿瘤边界不清的病人㊂最终入组258例,腺癌199例,鳞癌59例;训练组182例(腺癌141例㊁鳞癌41例, EGFR突变109例㊁非突变73例),验证组76例(腺癌58例㊁鳞癌18例,EGFR突变45例㊁非突变31例)㊂1.2 图像采集 病人取仰卧位,采用GE64排和GE Revolution256排螺旋CT扫描仪行胸部扫描,扫描范围从肺尖到肺底,吸气后屏气完成整个肺部扫描㊂两台CT机扫描参数均保持一致:管电压140 KV,管电流240mA,层厚5mm,螺距为0.992:1,窗宽400HU,窗位40HU㊂1.3 CT影像-临床特征评价 在不知道病理结果的前提下,由2名放射科医生(6年和12年胸部阅片经验)分别独立评估所有CT图像,意见不一致时则询问高年资医生(20年胸部诊断经验),商讨后记录最终结果㊂CT影像-临床特征具体评价标准为(1)TNM 分期:国际上最为通用的肿瘤分期系统,T指肿瘤原发灶的情况,N指区域淋巴结受累情况,M指远处转移;(2)肿瘤大小:横断面的最大直径;(3)形态规则:病灶形态呈圆形㊁椭圆形,包括2或3个波状起伏;(4)形态不规则:病灶形态既不是圆形㊁椭圆形,也不是分叶;(5)分叶:大于3个波状起伏;(6)毛刺:不与胸膜相连㊁呈放射状但无分支㊁可数条㊁长短不一;(7)晕征:结节或肿块周围淡薄的磨玻璃影;(8)磨玻璃结节(ground⁃glass opacity,GGO):在CT 图像上,肺部的纹理是可以清楚地分辨出来的,肺部的密度稍微增高,类似磨玻璃;(9)空泡:病灶内的直径5mm以内的密度减低区及小透亮区,可单个或多个;(10)空洞:具有完整的含气腔隙,洞壁一般厚1mm以上;(11)空气支气管征:病变的肺组织区域中见到透亮的支气管影;(12)胸膜凹陷:脏层胸膜内陷皱缩,似喇叭样凹向肺内;(13)周围肺气肿:终末细支气管远端气腔出现持久异常的扩张,并伴有肺泡和细支气管的破坏㊁无肺纹理的肺透亮区;(14)CT报告淋巴结:淋巴结短径>15mm㊂1.4 CT影像-临床特征列线图模型的构建和验证 首先进行单因素分析,在临床特征㊁CT特征中找出潜在的预测因素㊂然后将与EGFR突变状态相关的因素纳入多变量分析,以确定独立的预测因素㊂在训练数据集中选取独立影响因子构建最终的列线图㊂1.5 统计学方法 采用χ2检验㊁Mann⁃Whitney U 检验㊁t检验㊁单因素和多因素logistic回归分析㊁ROC曲线下面积(area under the ROC curve,AUC)和联合列线图模型㊂2 结果2.1 2组病人CT影像和临床特征比较 训练组和验证组中的EGFR突变病人的年龄㊁女性比例㊁不吸烟比例㊁毛刺征阳性和胸膜凹陷的比例均高于非突变病人(P<0.05~P<0.01);训练组中TNM分期和病变位置分布在有无EGFR突变病人之间差异亦有统计学意义(P<0.05),而验证组中病变边界清晰的比例在有无EGFR突变病人之间差异有统计学意义(P<0.05);其他特征变量的分布不论是训练组还是验证组在有无EGFR突变病人之间差异均无统计学意义(P>0.05)(见表1)㊂2.2 预测EGFR突变状态列线图模型的构建 首先对可能影响EGFR突变状态的因素进行单因素logistic分析,然后将在单因素分析结果中有统计学意义的变量进一步纳入多因素logistic分析,结果发现男性和吸烟病人不易发生EGFR突变(P<0.05和P<0.01),而毛刺征阳性和胸膜凹陷者易发生突变(P<0.01)(见表2~3)㊂EGFR突变型病人和野生型典型病人CT图像见图1~2㊂选取识别出的独立因素在训练数据集中构建最终的列线图㊂本列线图最终纳入了性别㊁吸烟㊁毛刺及胸膜凹陷这四个独立特征(性别:0=女性,1=男性;吸烟状况:0=无吸烟史,1=吸烟史病人;毛刺征:0=毛刺征阴性,1 =毛刺征阳性;胸膜凹陷征:0=胸膜凹陷征阴性,1 =胸膜凹陷征阳性),通过构建多因素回归模型,根据模型中各个影响因素对结局变量的贡献程度,给每个影响因素的每个取值水平进行单项评分,然后将各个评分相加得到总评分㊂本列线图中女性得分为60,男性为0;吸烟史(+)得分为0,吸烟史(-)为83.75;毛刺征(+)得分为100,毛刺征(-)为0;胸膜凹陷征(+)得分为82.5,胸膜凹陷征(-)为0(见图3)㊂表1 NSCLC 病人中EGFR 突变组与非突变组临床资料与CT 征象的比较[n ;百分率(%)]变量训练组(n =182) EGFR(-)(n =73) EGFR(+)(n =109) χ2P验证组(n =76) EGFR(-)(n =31) EGFR(+)(n =45) χ2P年龄(x ±s )/岁63.10±11.34561.95±8.9870.76*>0.0560.58±9.59162.04±9.584-0.65*>0.05性别 女性 男性36(49.3)37(50.7)71(65.1)38(34.9) 4.52<0.0515(48.4)16(51.6)36(80.0)9(20.0)8.31<0.01TNM 分期 Ⅰ53(72.6)94(86.2)19(61.3)33(73.3) Ⅱ Ⅲ8(11.0)8(11.0) 2(1.8)11(10.1)9.42 <0.055(16.1)4(12.9)2(4.4)6(13.3) 1.33>0.05 Ⅳ4(5.4)2(1.8)3(9.7)4(8.9)位置 右肺上叶21(28.8)19(17.4)8(25.8)16(35.6) 右肺中叶8(11.0)11(10.1)4(12.9)3(6.7) 右肺下叶22(30.1)22(20.2)10.26<0.054(12.9)9(20.0) 2.42>0.05 左肺上叶17(23.3)37(33.9)10(32.3)12(26.7) 左肺下叶5(6.8)20(18.3)5(16.1)5(11.1)肿瘤大小[M(P 25~P 75)] 3.20(1.80~5.05)2.90(2.00~4.00)0.78>0.052.80(1.90~4.20) 2.90(1.85~4.00)0.22△>0.05吸烟 无 有28(38.4)45(61.6)72(66.1)37(33.9)13.55<0.0117(54.8)14(45.2)41(91.1)4(8.9)<0.01形态 规则 不规则44(60.3)29(39.7)57(52.3)52(47.7)1.13>0.0520(64.5)11(35.5)27(60.0)18(40.0)0.16>0.05边界 清晰 不清晰64(87.7)9(12.3)100(91.7)9(8.3)0.81>0.0524(77.4)7(22.6)42(93.3)3(6.7)4.07<0.05分叶 无 有13(17.8)60(82.2)18(16.5)91(83.5)0.05>0.056(19.4)25(80.6)7(15.6)38(84.4)0.19>0.05毛刺 无 有51(69.9)22(30.1)31(28.4)78(71.6)30.30<0.0120(64.5)11(35.5)18(40.0)27(60.0)4.41<0.05密度 混合GGO 实性27(37.0)46(63.0)33(30.3)76(69.7)0.89>0.0512(38.7)19(61.3)12(26.7)33(73.3)1.23>0.05晕征 无 有54(74.0)19(26.0)79(72.5)30(27.5)0.05>0.0520(64.5)11(35.5)33(73.3)12(26.7)0.68>0.05钙化 无 有63(86.3)10(13.7)90(82.6)19(17.4)0.46>0.0527(87.1)4(12.9)37(82.2)8(17.8)0.33>0.05续表1变量训练组(n=182) EGFR(-)(n=73) EGFR(+)(n=109) χ2P验证组(n=76) EGFR(-)(n=31) EGFR(+)(n=45) χ2P瘤内坏死 无 有49(67.1)24(32.9)79(72.5)30(27.5)0.60>0.0526(83.9)5(16.1)33(73.3)12(26.7) 1.17>0.05空泡征 无 有60(82.2)13(17.8)89(81.7)20(18.3)0.01>0.0523(74.2)8(25.8)35(77.8)10(22.2)0.13>0.05空洞 无 有70(95.9)3(4.1)104(95.4)5(4.6) >0.0530(96.8)1(3.2)44(97.8)1(2.2)0.07>0.05空气支气管征 无 有62(84.9)11(15.1)93(85.3)16(14.7)0.01>0.0525(80.6)6(19.4)37(82.2)8(17.8)0.03>0.05外围肺气肿 无 有69(94.5)4(5.5)104(95.4)5(4.6) >0.0528(90.3)3(9.7)43(95.6)2(4.4)0.82>0.05周围纤维化 无 有57(78.1)16(21.9)69(63.3)40(36.7) 4.48>0.0525(80.6)6(19.4)34(75.6)11(24.4)0.27>0.05胸膜凹陷 无 有44(60.3)29(39.7)28(25.7)81(74.3)21.87<0.0119(61.3)12(38.7)12(26.7)33(73.3)9.11<0.01胸膜接触 无 有35(47.9)38(52.1)61(56.0)48(44.0) 1.13>0.0521(67.7)10(32.3)25(55.6)20(44.4) 1.14>0.05邻近胸膜增厚 无 有40(54.8)33(45.2)60(55.0)49(45.0)0.00>0.0523(74.2)8(25.8)28(62.2)17(37.8) 1.19>0.05胸腔积液 无 有60(82.2)13(17.8)89(81.7)20(18.3)0.01>0.0526(83.9)5(16.1)36(80.0)9(20.0)0.18>0.05CT报告淋巴结 无 有53(72.6)20(27.4)73(69.7)33(30.3)0.18>0.0521(67.7)10(32.3)34(75.6)11(24.4)0.56>0.05 *示t值;△示z值2.3 预测模型效能及验证 将最终筛选出的NSCLC EGFR突变的独立预测因素性别㊁吸烟状况㊁毛刺征及胸膜凹陷征通过logistic回归,得到CT影像-临床模型㊂采用ROC曲线评价该模型的性能, NSCLC CT影像-临床模型预测EGFR突变在训练组和验证组AUC分别为0.799和0.797,验证队列中具有较好的校正性和稳定性,预测效能较好(见图4)㊂校准曲线显示训练组及验证组的预测模型与观察结果具有良好的一致性(见图5)㊂决策曲线显示CT影像-临床模型预测EGFR突变取得较好得临床效益(见图6)㊂3 讨论 CT是目前最常用于肺癌诊断的影像学技术[7]㊂列线图是目前临床广泛用于临床事件发生概率预测的工具之一,基于CT的放射学特征能够清晰㊁直观地呈现不同风险指标的贡献程度,可读性高,易于理解,具有较强的可操作性和指导意义[8]㊂本研究是基于182例NSCLC病人的CT放射学特征和临床特征,并在一个独立验证队列(76例病人)中进行验证㊂该列线图在训练和验证队列中均显示了较好的预测性能,AUC分别为0.799(95%CI:0.732~0.865)和0.797(95%CI:0.698~0.897),敏感性和特异性分别为84.4%㊁63%和77.8%㊁67.7%㊂本研究中无论是训练组还是验证组的DCA曲线均显示在大部分的阈值范围之内,CT影像-临床模型的临床净收益大于所有病人均接受临床干预和所有病人均不接受临床干预的净收益㊂由此可见联合CT的影像和临床特征的列线图模型对NSCLC病人EGFR突变有良好的预测价值,可应用于临床,作为术前预测的无创工具,指导临床治疗方式选择以及用药情况,有望实现精准医疗的目标㊂表2 预测NSCLC病人EGFR突变的单因素logistic分析变量OR(95%CI)B P年龄/年0.988(0.959~1.019)-0.01>0.05性别 女1 男0.521(0.284~0.953)-0.65<0.05 TNM分期 Ⅰ1 Ⅱ 3.547(0.629~20.017) 1.23>0.05 Ⅲ 0.500(0.050~4.978)-0.69>0.05 Ⅳ 2.750(0.401~18.876) 1.01>0.05位置 右肺上叶1 右肺中叶 1.520(0.505~4.575)0.42>0.05 右肺下叶 1.105(0.469~2.604)0.10>0.05 左肺上叶 2.406(1.033~5.603)0.88<0.05 左肺下叶 4.421(1.386~14.102) 1.49<0.05 肿瘤大小0.938(0.800~1.101)-0.06>0.05吸烟 无1 有0.320(0.173~0.592)-1.14<0.01形态 规则1 不规则 1.384(0.759~2.524)0.33>0.05边界 清晰1 不清晰0.640(0.241~1.698)-0.45>0.05分叶 无1 有 1.095(0.500~2.400)0.09>0.05毛刺 无1 有 5.833(3.044~11.178) 1.76<0.01密度 混合GGO1 实性 1.352(0.722~2.530)0.30>0.05续表2变量OR(95%CI)B P 晕征 无1 有 1.079(0.552~2.111)0.08>0.05钙化 无1 有 1.330(0.580~3.052)0.29>0.05瘤内坏死 无1 有0.775(0.407~1.477)-0.25>0.05空泡征 无1 有 1.037(0.480~2.243)0.04>0.05空洞 无1 有 1.122(0.260~4.845)0.12>0.05空气支气管征 无1 有0.970(0.422~2.229)-0.03>0.05外围肺气肿 无1 有0.829(0.215~3.198)-0.19>0.05周围纤维化 无1 有 2.065(1.049~4.067)0.73<0.05胸膜凹陷 无1 有 4.389(2.324~8.290) 1.48<0.01胸膜接触 无1 有0.725(0.400~1.314)-0.32>0.05邻近胸膜增厚 无1 有0.990(0.546~1.796)-0.01>0.05胸腔积液 无1 有 1.037(0.480~2.243)0.04>0.05 CT报告淋巴结 无1 有 1.151(0.597~2.219)0.14>0.05表3 预测NSCLC病人EGFR突变多因素logistic分析变量OR(95%CI)B P男0.428(0.207~0.886)-0.849<0.05吸烟0.352(0.170~0.729)-1.045<0.01毛刺 3.922(1.897~8.106) 1.367<0.01胸膜凹陷 2.884(1.392~5.974) 1.059<0.01 本研究中多因素分析显示性别㊁吸烟㊁毛刺征㊁胸膜牵拉可以作为EGFR状态的独立预测因素㊂有关报道[9]研究表明性别和吸烟史与EGFR突变状态显著相关,女性和不吸烟病人更有可能发生EGFR突变,本研究结果与之基本相一致㊂本研究训练组中EGFR基因突变阴性病人中非吸烟病人占比(38.4%)低于吸烟病人占比(61.6%),但在验证组中EGFR基因突变阴性病人中非吸烟病人占比(54. 8%)却高于吸烟病人占比(45.2%)㊂本研究中EGFR基因突变在吸烟与不吸烟病人中产生这种实验结果可能跟这些情况有关系:肺腺癌在男性中的发病率低于女性,本研究收集的NSCLC数据大部分病例都是肺腺癌,而且在生活中由于多种因素影响女性对比男性来说吸烟状况阳性的可能性比较小㊂另外这可能也跟ZHANG等[10]研究的几个局限性有关,首先,由于携带EGFR基因突变可能性较高的病人更有可能接受检测,总体患病率可能被高估了㊂然而,许多研究没有提供详细的招募信息,因此无法评估选择偏差的影响㊂其次,由于缺乏相关研究,无法进一步探讨EGFR突变在一些病人亚群中的患病率,如亚洲女性非吸烟者和亚洲女性腺癌病人㊂最后,在所有的分析中,都包含了明显的不同类型的试验,这些试验在对单侧试验进行Meta分析时是很普遍的㊂在符合条件的研究中,病人特征㊁临床环境和研究方法的实质性差异可能导致高水平的异质性㊂遗憾的是,没有个体病人数据,就不可能进一步细分精确病人群体的患病率估计㊂毛刺征也称放射冠,是指结节或肿块边缘向周围肺实质伸展的线条状影,不与胸膜相粘连㊁放射状无分支㊁数条长短不一㊁远近端粗细差异不大[11]㊂本研究表明毛刺征是EGFR 突变的独立预测因子,毛刺征阳性者,EGFR 突变概率大,这可能与毛刺征反映了肿瘤向临近结构浸润[12],造成小血管㊁小支气管阻塞有关㊂胸膜凹陷征为脏层胸膜内陷皱缩,似喇叭样凹向肺内的病变[13]㊂EGFR 突变有利于恶行肿瘤生长增殖的旺盛,组织内的缺氧导致病灶产生纤维化收缩[14],从而提高了胸膜凹陷征的发生概率㊂本研究结果亦表明胸膜凹陷阳性者,EGFR 突变概率大㊂此外本研究同时纳入了肺鳞癌和肺腺癌,使其预测结果更为全面㊁客观㊁准确㊂ 本研究存在一定的局限性:(1)影像学特征来源于放射科医生的分析诊断,可能受观察者主观评价的影响;(2)本研究样本量较少且样本量来自同一机构缺乏外部验证㊂条件允许的情况下,接下来进一步研究会增加样本量及添加外部验证㊂总之,本文构建的联合CT 影像和临床特征的预测模型在临床实践中易于使用,在预测EGFR 突变状态方面具有良好的诊断性能和较高的敏感性,可为临床治疗方案提供有效的参考,有助于制定个体化治疗方案㊂[参考文献][1] 刘德顺,徐鹤,王小雷,等.CT 影像组学在预测非小细胞肺癌淋巴结转移中的价值[J].蚌埠医学院学报,2021,46(9):1239.[2] ZHOU F,YUAN Z,GONG Y,et al .Pharmacological targeting ofMTHFD2suppresses NSCLC via the regulation of ILK signalingpathway[J].Biomed Pharmacother,2023,161:114412.[3] ZHOU F,QIN Y,LIU X,et al .Survival benefit of thoracicradiotherapy plus EGFR⁃TKIs in patients with non⁃oligometastatic advanced non⁃small⁃cell lung cancer:a single⁃center retrospective study[J].Ther Adv Med Oncol,2023,15:17588359231161411.[4] DEBATTISTA J,GRECH L,SCERRI C,et al .Copy numbervariations as determinants of colorectal tumor progression in liquid biopsies[J].Int J Mol Sci,2023,24(2):1738.[5] KUMAR S,DAS A.Peripheral blood mononuclear cell derivedbiomarker detection using eXplainable Artificial Intelligence (XAI)provides better diagnosis of breast cancer [J].Comput Biol and Chem,2023,104:107867.[6] BALIKOV DA,HU K,LIU CJ,et al .Comparative molecularanalysis of primary central nervous system lymphomas and matched vitreoretinal lymphomas by vitreous liquid biopsy [J].Int J Mol Sci,2021,22(18):9992.[7] WU Z,WANG F,CAO W,et al .Lung cancer risk predictionmodels based on pulmonary nodules:a systematic review [J].Thorac Cancer,2022,13(5):664.[8] YU H,LIN C,CHEN X,et al .To explore the prognostic value ofspread through air spaces and develop a nomogram combined with spread through air spaces in lung squamous cell carcinoma[J].J Thorac Dis,2022,14(9):3531.[9] WANG S,MA P,MA G,et al .Value of serum tumor markers forpredicting EGFR mutations and positive ALK expression in 1089Chinese non⁃small⁃cell lung cancer patients:a retrospectiveanalysis[J].Eur J Cancer,2020,124(C):1.[10] ZHANG G,ZHAO Z,CAO Y,et al .Relationship betweenepidermal growth factor receptor mutations and CT features in patients with lung adenocarcinoma [J].Clin Radiol,2021,76(6):473.[11] DENNIE C,BAYANATI H,SOUZA CA,et al .Role of thethoracic radiologist in the evaluation and management of solid and subsolid lung nodules[J].Thorac Surg Clin,2021,31(3):283.[收稿日期]2022-10-29 [修回日期]2023-03-16[作者单位]安徽省安庆市立医院医学影像科,246004[作者简介]陈 平(1979-),男,副主任医师.[文章编号]1000⁃2200(2023)12⁃1721⁃05㊃影像医学㊃基于临床影像学参数构建列线图模型在术前预测胃癌淋巴结转移中的价值陈 平,代国坡,史恒峰[摘要]目的:建立并验证基于临床影像学参数构建列线图模型在术前预测进展期胃癌(AGC)淋巴结转移中的价值㊂方法:回顾性分析216例经病理证实的胃癌病人资料,随机分为训练组158例和验证组58例㊂收集病人临床资料及计算机断层成像(CT)影像学征象进行单因素㊁多因素logistic 回归分析,用验证组进行验证,应用R 3.5.3软件包构建列线图模型,采用受试者工作特征(ROC)曲线评估列线图的预测效能,校准曲线及决策曲线验证模型的临床实用性㊂结果:216例病人中,130例淋巴结转移阳性,86例淋巴结转移阴性㊂在训练组和验证组中,饮酒史㊁瘤周脂肪浸润㊁强化程度㊁CT⁃淋巴结状态和血小板与淋巴细胞比率(PLR)在术前胃癌病人发生淋巴结转移的预测中差异有统计学意义(P <0.05~P <0.01)㊂多因素logistic 回归分析显示,病人饮酒史㊁瘤周脂肪浸润㊁CT 强化程度㊁CT⁃淋巴结状态㊁PLR >161是术前预测胃癌病人发生淋巴结转移的独立影响因素(P <0.05)㊂基于饮酒史㊁瘤周脂肪浸润㊁CT 强化程度㊁CT⁃淋巴结状态及PLR 构建预测胃癌病人发生淋巴结转移的列线图模型,模型ROC 曲线下面积在训练组和验证组分别为0.789(95%CI :0.719~0.860)㊁0.791(95%CI :0.678~0.905)㊂模型的敏感度及特异度在训练组分别为67.4%㊁78.3%,在验证组中分别为62.5%㊁84.6%,校准曲线和决策曲线证实了模型的临床实用性㊂结论:饮酒史㊁瘤周脂肪浸润㊁CT 强化程度㊁CT⁃淋巴结状态及PLR 是胃癌病人发生淋巴结转移的独立影响因素,以此构建的列线图模型预测效能较好,在一定程度上可以协助临床决策㊂[关键词]胃肿瘤;淋巴结转移;计算机断层成像;列线图[中图法分类号]R 735.2 [文献标志码]A DOI :10.13898/ki.issn.1000⁃2200.2023.12.022Value of constructing nomogram model based on clinical⁃radiologicalparameters in preoperative prediction of lymph node metastasis in gastric cancerCHEN Ping,DAI Guo⁃po,SHI Heng⁃feng(Department of Radiology ,The Municipal Hospital of Anqing ,Anqing Anhui 246004,China )[Abstract ]Objective :To construct and validate the value of constructing nomogram model based on clinical⁃radiological parameters in preoperative prediction of lymph node metastasis in advanced gastric cancer (AGC).Methods :A retrospective analysis was conductedon 216gastric cancer patients confirmed by pathology,who were randomly divided into a training group (n =158)and a validation group (n =58).The clinical data and computed tomography (CT)imaging features of patients were collected for univariate and multivariate logistic regression analysis,the validation group was used to validate,the nomogram model was constructed with R 3.5.3software package,the prediction efficacy of the nomogram model was evaluated using receiver operating characteristic (ROC)curve,and the clinical practicality of the model was validated by calibration curve and decision curve.Results :Among the 216patients,130cases were positive for lymph node metastasis and 86cases were negative for lymph node metastasis.In the training group and validationgroup,there were statistically significant differences in alcohol consumption history,peritumoral fat infiltration,degree of enhancement,CT⁃lymph node status,and platelet to lymphocyte ratio (PLR)in preoperative prediction of lymph node metastasis in gastric cancer patients (P <0.05to P <0.01).Multivariate logistic regression analysis showed that alcohol consumption history,peritumoral fat infiltration,CT enhancement degree,CT⁃lymph node status,and PLR >161were independent influencing factors for preoperative prediction of lymph node metastasis in gastric cancer patients(P <0.05).A namogram model was constructed to predict lymph node metastasis in gastric cancer patients based on alcohol consumption history,peritumoral fat infiltration,[12] WU Y,CHEN B,SU L,et al .Diagnostic value of double low⁃dosetargeted perfusion CT imaging for the diagnosis of invasive and preinvasive pulmonary ground⁃glass nodules:systematic review and meta⁃analysis[J].Transl Cancer Res,2022,11(8):2823.[13] HE W,GUO G,DU X,et al .CT imaging indications correlate withthe degree of lung adenocarcinoma infiltration[J].Front Oncol,2023,13:1108758.[14] LE X,NILSSON M,GOLDMAN J,et al .Dual EGFR⁃VEGFpathway inhibition:a promising strategy for patients with EGFR⁃mutant NSCLC[J].J Thorac Oncol,2021,16(2):205.(本文编辑 周洋)。
基于机器学习的肺癌CT影像特征提取及分类诊断肺癌是一种常见的恶性肿瘤,其早期诊断和治疗至关重要。
随着医学影像技术的发展和机器学习的兴起,研究基于机器学习的肺癌CT影像特征提取及分类诊断愈发成为热门话题。
一、CT影像特征提取的意义肺癌CT影像特征提取是一项非常有价值的技术,其主要作用是将肺癌病灶的形态、文本和强度等信息从影像中提取出来,并将其转化为有用的数据特征进行分析。
在医学诊断中,通过分析肺癌CT影像特征,可以判断肿瘤的大小、位置和形态等重要信息,为肺癌的早期诊断和治疗提供支持。
二、机器学习在肺癌CT影像特征提取中的应用机器学习是一种自动从数据中获取规律和知识的技术,其在医学诊断领域具有广泛的应用前景。
在肺癌诊断中,机器学习技术可以通过对大量CT影像数据的学习和分析,从中提取出关键信息并进行分类诊断。
目前,常用的机器学习算法主要包括支持向量机(SVM)、决策树(Decision Tree)、神经网络(Neural Network)等。
这些算法通过对影像中的特征进行提取和分析,可进行肺癌的分类、分期和预后评估等,为医生提供更精确和快速的诊断手段。
三、机器学习在肺癌诊断及治疗中的应用机器学习不仅可以用于肺癌CT影像特征提取和分类诊断,也可以应用于肺癌治疗的个性化设计和优化。
通过机器学习算法对肺癌患者的临床数据进行深度挖掘和分析,可以为治疗方案的制定提供更为科学和准确的指导。
例如,研究者们通过对患者的DNA数据和肿瘤组织学数据进行分析,结合机器学习算法,可以为患者提供针对性更强的个性化治疗,提高治疗效果和生存率。
四、机器学习在肺癌诊断中的挑战及未来发展尽管机器学习在肺癌诊断中取得了一定的成果,但在实际应用中仍存在一定的挑战。
首先,数据的获取和处理是面临的重要问题,需要大量的临床数据和高质量的数据标注才能保证算法的准确性和可靠性。
其次,对于机器学习算法本身,需要进行不断的改进和优化,以提高其在肺癌诊断中的预测能力和鲁棒性。