一种新的基于软集合理论的文本分类方法
- 格式:pdf
- 大小:207.04 KB
- 文档页数:4
基于领域知识的文本分类
朱靖波;陈文亮
【期刊名称】《东北大学学报(自然科学版)》
【年(卷),期】2005(026)008
【摘要】提出了一种基于知识的文本分类方法,其中引入领域知识,利用领域特征作为文本特征,增强文本表示能力,将文本分类过程看作集聚计算过程.文本索引过程采用了改进型特征选取和权重计算方法.提出了一种基于互信息的学习算法,从训练语料中自动学习领域特征集聚计算公式.实验结果显示基于领域知识的文本分类技术总体性能优于传统的贝叶斯分类模型,领域知识的应用能够有效改善对相似主题和相反主题的分类性能.
【总页数】3页(P733-735)
【作者】朱靖波;陈文亮
【作者单位】东北大学,信息科学与工程学院,辽宁,沈阳,110004;东北大学,信息科学与工程学院,辽宁,沈阳,110004
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于文本分类领域中文本分类和主题分析 [J], 郭艳芳;郑金芳;赵连荣
2.领域知识在文本分类中的应用 [J], 吴国祥
3.IT职业培训机构学员领域知识不足的原因探析——基于北大青鸟和安卓越的案
例分析 [J], 董志霞
4.基于CiteSpace的中国客家文化领域知识图谱研究 [J], 曹小琴;陈嘉鸿;许芳婷
5.基于领域知识图谱的短文本实体链接 [J], 黄金杰;赵轩伟;张昕尧;马敬评;史宇奇因版权原因,仅展示原文概要,查看原文内容请购买。
第22卷 第1期2008年1月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.22,No.1Jan.,2008文章编号:1003-0077(2008)01-0044-07知识增益:文本分类中一种新的特征选择方法徐燕,王斌,李锦涛,孙春明(中国科学院计算技术研究所,北京100080)摘 要:特征选择在文本分类中起重要的作用。
文档频率(DF )、信息增益(IG )和互信息(M I )等特征选择方法在文本分类中广泛应用。
已有的实验结果表明,IG 是最有效的特征选择算法之一,该方法基于申农提出的信息论。
本文基于粗糙集理论,提出了一种新的特征选择方法(K G 算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。
在两个通用的语料集OH SU M ED 和New sGro up 上进行分类实验发现:K G 算法均超过IG 的性能,特别是在特征空间的维数降到低维时尤其明显,可见K G 算法有较好的性能;关键词:计算机应用;中文信息处理;文本分类;特征选择;粗糙集;信息检索中图分类号:T P391 文献标识码:AKnowledge Gain:An New Feature Selection Method in Text CategorizationXU Y an,WAN G Bin,LI Jin -t ao,SU N Chun -ming(Institute of Computing T echnolog y,Chinese Academ y of Sciences,Beijing 100080,China)Abstract:Feature selection(F S)plays an impor tant r ole in text categ or izat ion (T C).A utomatic featur e selection met ho ds such as do cument frequency thresholding (DF ),informat ion ga in (IG),mutual info rmation (M I),and so on ar e co mmonly applied in text categ o rizatio n [J].Exist ing ex per iments sho w I G is o ne o f the most effectiv e met ho ds.I n this paper ,a feature selectio n method is pr oposed based on Roug h Set theory.A ccording to Rough set theo ry ,know ledg e about a univer se of objects may be defined as classificat ions based on cer tain pr operties of the objects,i.e.r ough set theo ry assume that kno wledg e is an ability to part itio n objects.We quantify the ability o f classify objects,and call the amount of this ability as kno wledg e quantity and then fo llow ing this quantificat ion,w e put for wa rd a no tio n /kno wledg e Ga in 0and put forw ar d a kno wledg e g ain -based feature select ion method (KG met ho d).Ex per iments o n New sG ro up collectio n and O HSU M ED co llection sho w that K G perfor ms better than the IG method,specially,on extr emely ag g ressive r eduction.Key words:computer applicatio n;Chinese info rmation pr ocessing ;feature selectio n;t ex t catego rization;ro ug h set;informat ion retr ieval收稿日期:2007-05-29 定稿日期:2007-12-02基金项目:国家973资助项目(2004CB318109);国家自然科学基金资金项目(60473002,60603094);北京市自然科学基金资助项目(4051004)作者简介:徐燕(1968)),女,博士,主要研究方向包括数据挖掘和信息检索;王斌(1972)),男,博士,副研究员,主要研究方向为信息检索和自然语言处理;李锦涛(1962)),男,博士,研究员,博导,主要研究方向为跨媒体检索和数字化技术。
知识增益:文本分类中一种新的特征选择方法
徐燕;王斌;李锦涛;孙春明
【期刊名称】《中文信息学报》
【年(卷),期】2008(22)1
【摘要】特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论.本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法.在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现:KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能;
【总页数】7页(P44-50)
【作者】徐燕;王斌;李锦涛;孙春明
【作者单位】中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080;中国科学院,计算技术研究所,北京,100080
【正文语种】中文
【中图分类】TP391
【相关文献】
1.文本分类中一种特征选择方法的改进 [J], 胡改蝶;马建芬
2.文本分类中一种新的特征选择方法 [J], 王秀娟;郭军;郑康锋
3.文本分类中一种基于互信息改进的特征选择方法 [J], 田野;郑伟
4.文本分类中一种特征选择方法研究 [J], 赵婧;邵雄凯;刘建舟;王春枝
5.文本分类中一种改进的特征选择方法 [J], 刘海峰;王元元;张学仁
因版权原因,仅展示原文概要,查看原文内容请购买。
基于PU学习算法的文本分类研究与实现
郭亚玲;徐振明;王亚强
【期刊名称】《信息通信》
【年(卷),期】2016(000)003
【摘要】PU学习文本分类指的是从只包含一类的正例文档(P)和包含很多类别的未标记文档(U)建立文本分类器最终进行文本分类的问题,U包含正例和反例文档.两步策略是解决PU学习问题的一种最常用的方法.实际问题中,当正例P数量太少的时候,这种方法分类的效果并不好.为了解决P代表性不足的问题,文章提出了一种改进方法旨在解决PU学习问题中正例P数量较少的情况,在两步方法中的第二步不断扩大P的数量来提高分类器的效果,实验结果表明与以往方法结果对比,改进的方法F值有将近30%的提高.
【总页数】2页(P27-28)
【作者】郭亚玲;徐振明;王亚强
【作者单位】成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225;成都信息工程大学计算机学院,四川成都610225【正文语种】中文
【中图分类】TP311.1
【相关文献】
1.基于SVM主动学习技术的 PU 文本分类 [J], 富震
2.基于特征词匹配的政策文本分类算法研究与实现 [J], 王丽鹏;张鹏云;和志强
3.基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现 [J], 徐频捷; 王诲喆; 李策; 唐丹; 赵地
4.基于多元线性回归算法的精准ARPU客户价值提升的研究与实现 [J], 袁鸢;付文豪;李成奇
5.GCN-PU:基于图卷积网络的PU文本分类算法 [J], 姚佳奇;徐正国;燕继坤;王科人
因版权原因,仅展示原文概要,查看原文内容请购买。
TCBLSA:一种中文文本聚类新方法
王国勇;徐建锁
【期刊名称】《计算机工程》
【年(卷),期】2004(030)005
【摘要】根据隐含语义分析(LSA)理论,提出了一种文本聚类的新方法.该方法应用LSA理论来构建文本集的向量空间模型,在词条的权重中引入了语义关系,消减了原词条矩阵中包含的"噪声"因素,从而更加突出了词和文本之间的语义关系.通过奇异值分解(SVD),有效地降低了向量空间的维数,从而提高了文本聚类的精度和速度.【总页数】3页(P21-22,37)
【作者】王国勇;徐建锁
【作者单位】天津大学系统工程研究所,天津,300072;天津大学系统工程研究所,天津,300072
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于自组织神经网络的中文文本聚类新方法 [J], 徐建锁;王正欧;王莉
2.一种基于小生境遗传算法的中文文本聚类新方法 [J], 赵亚琴;周献中
3.一种高效中文文本聚类算法 [J], 马甲林;刘金岭;于长辉
4.一种应用于中文文本聚类的适应值函数 [J], 朱征宇;李力沛;罗颖;周智;朱庆生
5.一种新的Web中文文本聚类方法研究 [J], 叶宇飞;安世全;代劲
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于粗糙集的文本分类规则抽取方法X 孟庆春1,2 王汉萍1 魏天滨1 葛 艳1 高 云1(1中国海洋大学计算机系,青岛266071;2清华大学智能技术与系统国家重点实验室,北京100004)摘 要: 随着文本数据库的日益增大,寻找新的文本数据处理方法变得十分紧迫。
本文将粗糙集理论应用于文本自动分类的规则提取,提出了基于粗糙集理论的文本分类方法。
把文本特征项的权值进行离散化处理后,作为规则的条件属性,文本所属的类别用作决策属性,构造决策表,然后通过决策表的知识约简算法提取出文本的分类规则。
实验结果表明,该方法提取规则的分类正确率较高,分类速度较快。
关键词: 文本分类;粗糙集;决策表;属性约简;规则提取中图法分类号: T P 391.6 文章编号: 1001-1862(2003)06-943-070 引言万维网的飞速发展使得网上的文本信息量急剧增长,整个Internet 网可以看作1个庞大的、异构的、互连的动态文本数据库。
但是w eb 上的信息只有很小的一部分是相关的,一般来说99%的w eb 信息对于99%的用户是无用的。
因此对于文本自动分类技术的研究是1项非常有价值的课题。
利用文本分类技术,将文本分配到1个类别结构体系中,可以限定文本的查找范围,使得用户更容易找到所需要的资料,还可以用来整理内部互联网的文本,节省大量的人力物力。
文本的自动分类技术是1种典型的有教师的机器学习问题,一般分为训练和分类2个阶段。
常用的文本分类方法主要有基于向量比较的文本分类技术和基于规则抽取的文本分类技术。
基于向量比较的文本分类技术[1],如:简单中心向量比较算法、K 近邻算法、支持向量机算法等等。
首先将文本用1个特征矢量(V (d )=(t 1,X 1(d );…;t n ,X n (d )),其中t i 为词条项,X i (d )为t i 在d 中的权值来表示,在训练阶段由人工给出分类的类别集合和训练文档的集合,并且每个训练文档被标上所属的类别标志。