基于变精度粗糙集的KNN分类改进算法_余鹰
- 格式:pdf
- 大小:375.78 KB
- 文档页数:7
基于邻域粗糙集与鱼群智能的基因选择方法陈玉明;朱清新;曾志强;孙金华;唐朝辉【摘要】Facing the gene expression data with high dimension, small samples and uncertainty, a gene selection method based on neighborhood rough sets and fish swarm intelligence is proposed by fusing a fuzzy tolerance granulation technology and a fish swarm intelligence algorithm with global optimization ability. Firstly, the neighborhood rough sets are used to granulate the gene data and form some neighborhood particles. Secondly, the neighborhood classification accuracy is presented as an uncertainty evaluation function that aims to judge these neighborhood particles and distinguish key genes. Furthermore, a gene selection algorithm based on artificial fish swarm intelligence is designed. Finally, some gene selection experiments are carried out on two tumor gene data sets. The classification experiments of a small number of selected key genes are conducted by using SVM classifier. The experimental results show that the genes selected by our proposed method have a low redundancy and a better classification performance.%针对高维、小样本及不确定性的基因表达数据,融合模糊可容忍性的邻域粒化技术与具有全局寻优能力的鱼群智能算法,提出基于邻域粗糙集与鱼群智能的基因选择方法.首先,采用邻域粗糙集对基因数据进行邻域粒化,形成邻域粒子;其次,提出基于邻域分类精度的不确定性评价函数,用以评价邻域粒子的不确定性,分辨关键性基因;进一步融合鱼群智能方法,设计一种基因选择算法,选取分类性强的少量关键基因;最后,在两个癌症基因数据集中进行基因选择,采用SVM分类器对获取的关键基因组进行分类实验.实验结果表明,采用该方法获取的基因组具有较低的冗余度及较好的分类性能.【期刊名称】《电子科技大学学报》【年(卷),期】2018(047)001【总页数】6页(P99-104)【关键词】鱼群算法;基因选择;粒计算;邻域粗糙集;粗糙集【作者】陈玉明;朱清新;曾志强;孙金华;唐朝辉【作者单位】厦门理工学院计算机与信息工程学院福建厦门 361024;电子科技大学计算机科学与工程学院成都 611731;电子科技大学计算机科学与工程学院成都611731;厦门理工学院计算机与信息工程学院福建厦门 361024;厦门理工学院计算机与信息工程学院福建厦门 361024;厦门理工学院计算机与信息工程学院福建厦门 361024;电子科技大学计算机科学与工程学院成都 611731【正文语种】中文【中图分类】TP181微阵列技术的快速发展积累了大量的基因表达数据。
KNN算法的改进方法K近邻算法是机器学习中常用的一种分类算法。
KNN算法具有简单易懂、易于实现、无需训练等优点,但在处理大量数据时,算法的计算量会变得非常大,同时又会存在维度灾难和样本不平衡等问题。
为了解决这些问题,研究人员提出了许多改进的KNN 算法。
改进方法一:KD-Tree算法K近邻算法基于距离度量来进行分类,传统的KNN算法需要计算每个测试样本与所有已知样本之间的距离,随着样本数量的增加,计算的时间复杂度会呈指数级增长,这样就会导致算法无法简单高效地应用于大规模数据的处理中。
针对这种问题,研究人员提出了KD-Tree算法。
KD-Tree是一种树形数据结构,可以有效地减少样本到测试样本的距离计算量,从而提升算法的分类效率。
具体来说,KD-Tree 算法通过递归的方式将已知样本空间划分成多个区域,每个区域的划分方式采用平行于坐标轴的超平面。
当一个测试样本要被分类时,算法首先确定它在KD-Tree上所处的叶子节点,然后只需要计算测试样本与该叶子节点内的已知样本之间的距离,从而大大减少了计算量。
改进方法二:基于核函数的KNN算法传统的KNN算法只考虑了样本之间的欧几里得距离或曼哈顿距离等常见距离度量,忽略了样本之间的非线性关系。
因此,该算法在处理非线性分类问题时可能会出现一定的局限性。
针对这一问题,研究人员提出了基于核函数的KNN算法。
核函数是一种数学技巧,用于将非线性映射变成线性映射。
基于核函数的KNN算法通过对样本进行非线性映射,将样本从低维空间映射到高维空间,从而使得在高维空间中欧式距离近的样本在低维空间中也保持足够的相似性。
同时,算法还采用加权投票的方式以获得更好的分类结果。
改进方法三:SMOTE算法传统的KNN算法针对样本不平衡问题,在数据预处理阶段通常会采用欠采样或过采样等方法来平衡样本。
欠采样方法常常会丢失重要的信息,而过采样方法则可能会引入噪声或重复样本数据。
为了解决这一问题,研究人员提出了SMOTE算法。
粗糙集理论对于特征选择算法的改进与优化特征选择是数据挖掘和机器学习中的一个重要任务,它的目标是从原始数据集中选择出最具有代表性和区分性的特征,以便用于构建高效的分类器或回归模型。
在特征选择过程中,我们常常面临着特征维度高、样本数量有限、特征之间存在冗余等问题。
为了解决这些问题,粗糙集理论被引入到特征选择算法中,并取得了一定的改进和优化效果。
粗糙集理论是由Pawlak于1982年提出的一种数学工具,它主要用于处理不确定性和不完备性的问题。
在特征选择中,粗糙集理论通过将数据集划分为等价类来处理特征之间的关系,从而实现特征选择的目标。
具体而言,粗糙集理论通过计算下近似和上近似来评估特征的重要性,从而确定哪些特征对于分类或回归任务是最关键的。
与传统的特征选择算法相比,粗糙集理论在以下几个方面进行了改进和优化。
首先,粗糙集理论考虑了特征之间的依赖关系。
在传统的特征选择算法中,通常假设特征之间是相互独立的,但实际上特征之间可能存在一定的依赖关系。
粗糙集理论通过将数据集划分为等价类,可以更好地捕捉到特征之间的依赖关系,从而提高了特征选择的准确性和鲁棒性。
其次,粗糙集理论考虑了特征之间的冗余性。
在特征选择中,冗余特征往往会对分类或回归任务造成干扰,降低模型的性能。
传统的特征选择算法往往只考虑特征的个体重要性,而忽略了特征之间的冗余性。
粗糙集理论通过计算下近似和上近似,可以更好地评估特征的重要性和冗余性,从而实现对特征的精确选择。
此外,粗糙集理论还考虑了样本分布的不均衡性。
在实际的数据集中,不同类别的样本数量往往存在不均衡的情况。
传统的特征选择算法往往无法有效地处理样本分布不均衡的问题,导致选择出的特征具有较大的偏向性。
粗糙集理论通过计算下近似和上近似,可以更好地处理样本分布不均衡的情况,从而提高了特征选择的公平性和稳定性。
综上所述,粗糙集理论在特征选择算法中的应用,对于改进和优化特征选择过程具有重要意义。
通过考虑特征之间的依赖关系、冗余性和样本分布的不均衡性,粗糙集理论可以更准确地评估特征的重要性,从而选择出最具有代表性和区分性的特征。
文本分类中一种基于密度的KNN改进方法
刘海峰;汪泽焱;姚泽清;刘守生
【期刊名称】《情报学报》
【年(卷),期】2009(028)006
【摘要】特征降维与分类算法的性能是文本自动分类的两个主要问题.KNN算法以其简单、有效、非参数特点常用于文本分类,但是训练文本分布的不均匀对KNN 的分类效果产生负面影响,而在实际应用中训练文本分布不均是常见现象.本文针对这种分类环境,首先提出了一种改进的tf-idf赋权方法用于特征降维,在此基础上进一步提出了一种基于密度的改进KNN方法用于文本分类, 使处于样本点分布较密集区域的样本点之间的距离增大.随后的文本分类试验表明,本文提出的方法基于密度的KNN方法具有较好的文本分类效果.
【总页数】5页(P834-838)
【作者】刘海峰;汪泽焱;姚泽清;刘守生
【作者单位】解放军理工大学理学院,南京,210007;解放军理工大学理学院,南京,210007;解放军理工大学理学院,南京,210007;解放军理工大学理学院,南
京,210007
【正文语种】中文
【中图分类】G35
【相关文献】
1.一种基于apiori算法改进的knn文本分类方法 [J], 骆凡;彭艳兵
2.一种基于Canopy和粗糙集的CRS-KNN文本分类算法 [J], 姚彬修;倪建成;于苹苹;曹博;李淋淋
3.基于密度的kNN文本分类器训练样本裁剪方法 [J], 李荣陆;胡运发
4.一种基于改进ML-KNN的微博文本分类方法 [J], 杜亚璞
5.一种基于密度的改进KNN文本分类算法 [J], 茅剑;刘晋明;曹勇
因版权原因,仅展示原文概要,查看原文内容请购买。
基于变精度粗糙集模型的Web文档分类方法
王效岳;白如江
【期刊名称】《现代图书情报技术》
【年(卷),期】2005(000)012
【摘要】针对变精度粗糙集模型进行研究,提出了利用变精度粗糙集模型进行Web文档的算法.通过引入阈值β,使得用户可以通过调整β的值,实现对Web文档的不同级别的分类.试验结果表明,该算法在大大降低关键词向量维数的基础上,在保证分类准确度的前提下,有效的增加了分类的灵活性.
【总页数】4页(P51-54)
【作者】王效岳;白如江
【作者单位】山东理工大学图书馆,淄博,255049;山东理工大学图书馆,淄
博,255049
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于模糊相关的Web文档分类方法 [J], 雷景生
2.基于向量空间模型的多主题Web文本分类方法 [J], 周炎涛;唐剑波;吴正国
3.基于Web挖掘和文档对象模型树的XML网页分类方法 [J], 马勇;郑翔;鲜敏;黎远松
4.一种基于容错粗糙集的Web文档分类方法 [J], 胡和平;易高翔
5.基于概率模型Web服务描述分类方法 [J], 黄聃
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于粗糙集的改进KNN文本分类算法苟和平;景永霞;冯百明;李勇【期刊名称】《科学技术与工程》【年(卷),期】2012(012)020【摘要】KNN algorithm is efficient text categorization algorithm in recall and precision, but the computational overhead of text similarity is higher when the number of texts is larger. Aiming at the problem of the KNN, an improved algorithm named RS-KNN based on rough set theory is proposed. According to the upper approximation space and lower approximation space of sample subsets, the algorithm can classify the part of texts driectly. Results of the experiment indicate the RS-KNN reduce computational overhead of text classification.%K最近邻算法(KNN)被认为是向量空间模型下最好的分类算法之一.在准确率和召回率方面比较出众,但随着样本数量的增加其相似度计算开销很大.提出一种改进算法RS-KNN,主要是利用粗糙集的相关理论,计算训练样本集中各样本子类的上近似空间和下近似空间,根据待分类文本出现在不同的近似空间.以缩减与待分类样本计算相似度的训练样本个数.实验表明此算法能够有效地降低分类计算开销.【总页数】4页(P4926-4929)【作者】苟和平;景永霞;冯百明;李勇【作者单位】琼台师范高等专科学校信息技术系,海口571100;琼台师范高等专科学校信息技术系,海口571100;西北师范大学数学与信息科学学院,兰州730070;西北师范大学数学与信息科学学院,兰州730070【正文语种】中文【中图分类】TP391.75【相关文献】1.基于粗糙集的快速KNN文本分类算法 [J], 孙荣宗;苗夺谦;卫志华;李文2.一种基于Canopy和粗糙集的CRS-KNN文本分类算法 [J], 姚彬修;倪建成;于苹苹;曹博;李淋淋3.一种改进的KNN中文文本分类算法 [J], 杜琳娜;闫光辉;杨霞霞;刘利松4.一种改进的KNN文本分类算法 [J], 刘辉;应培培5.一种基于密度的改进KNN文本分类算法 [J], 茅剑;刘晋明;曹勇因版权原因,仅展示原文概要,查看原文内容请购买。