一种改进的否定选择算法
- 格式:pdf
- 大小:194.25 KB
- 文档页数:2
一种改进的文本特征选择算法朱颢东;蔡乐才;刘忠英【摘要】在文本挖掘中,文档通常以特征向量的形式表示.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,提出一种改进的特征选择算法,该算法对特征进行综合考虑,从而更加准确地选取有效的特征.实验验证了改进算法的可行性和有效性.【期刊名称】《现代电子技术》【年(卷),期】2008(031)008【总页数】4页(P97-99,102)【关键词】文本挖掘;特征选择;特征向量;文档【作者】朱颢东;蔡乐才;刘忠英【作者单位】四川理工学院,四川,自贡,643000;四川理工学院,四川,自贡,643000;西华大学,四川,成都,610036【正文语种】中文【中图分类】TP18;TP393传统数据挖掘所处理的数据是结构化的,其特征通常不超过几百个;而非结构化或半结构化的文本数据转换成特征向量后,特征数可能高达几万甚至几十万。
理论上讲,文本集的特征越多就能越好地表示文本,而实践证明并非总是如此。
过大的特征空间将导致此后的文本挖掘过程耗费更多的时间和空间资源,因此从原始特征集中选取最具代表性的特征是十分必要的。
本文分析几种常见的特征评估方法,提出了一种改进的特征评估方法。
1 一些常用的文本特征评估函数在目前所采用的文档表示方法中,存在一个共同的不合人意的地方是文档特征向量具有惊人的维数,使特征子集的选择成为文本挖掘过程中必不可少的一个环节.特征选择即进行维数压缩的工作,这样做的目的主要有:提高程序效率和运行速度;提高分类精度,快速筛选出针对该类的特征项集合.常用的文本特征评估函数有基于词频法、基于文档频法、信息增益、交叉熵、互信息等。
对于这几种方法下面简单介绍一下。
1.1 信息增益信息增益(Information Gain,IG)表示文本中包含某一特征时文本类的平均信息量,定义为某一特征在文本中出现前后的信息熵之差。
信息增益的不足之处在于他同时考虑了特征出现与未出现两种情况。
一种改进的Apriori算法顾玮【摘要】Association rules algorithm is very much,the most classical algorithm Apriori algorithm is and it is for min-ing Boolean association rules and frequent itemsets algorithm,this algorithm have many defects,so later many scholars are of the algorithm proposed various kinds of improved algorithms.%关联规则的算法非常多,其中最为经典的算法是Apriori 算法,它是挖掘布尔关联规则频繁项目集的算法,这种算法本身有着很多缺陷,因此后来很多学者都对该算法提出了各种改进算法。
【期刊名称】《办公自动化(办公设备与耗材)》【年(卷),期】2016(000)017【总页数】2页(P38-39)【关键词】关联规则;Apriori算法;改进算法【作者】顾玮【作者单位】徐州高等师范学校徐州 221116【正文语种】中文【中图分类】TP312.8;TP311AbstractAssociation rules algorithm is very much,the most classical algorithm Apriori algorithm is and it is for mining Boolean association rules and frequent itemsets algorithm,this algorithm have many defects,solater many scholars are of the algorithm proposed various kinds of improved algorithms.KeywordsAssociation rulesApriori algorithmImproved algorithmApriori算法是首先寻找给定数据集合中的频繁项集,通过频繁项集生成强关联规则。
一种改进的随机选择算法
周鹏
【期刊名称】《三峡大学学报(自然科学版)》
【年(卷),期】2007(029)005
【摘要】在一组数据中寻找第k小元素是一个常见的问题.确定性算法可以在Θ(n)的时间内完成,但是却有一个很大的常数使得算法不太实用.源于Hoare的随机选择算法可以使得算法执行比较的期望次数小于4n.改进算法中随机选择分组元素的方法,将使新算法在数据为均匀分布时执行比较的期望次数小于3n.
【总页数】4页(P470-473)
【作者】周鹏
【作者单位】三峡大学,理学院,湖北,宜昌,443002
【正文语种】中文
【中图分类】TP301.5
【相关文献】
1.一种启发式的局部随机特征选择算法 [J], 刘景华;林梦雷;张佳;林耀进
2.一种基于随机生成树的多维Q选择算法 [J], 靳晓芳;黄祥林;朱允
3.一种改进的大规模MIMO发射天线选择算法 [J], 李国民;李亚如;李新民;张浩雨
4.一种改进的类别区分词特征选择算法 [J], 李富星;蒙祖强
5.一种改进的基于信息熵的半监督特征选择算法 [J], 万琳;夏树进;朱毅;吕泽华因版权原因,仅展示原文概要,查看原文内容请购买。