向量空间模型中TFIDF权值公式的修正
- 格式:doc
- 大小:23.00 KB
- 文档页数:2
自然语言处理中tf-idf词向量表示模型全文共四篇示例,供读者参考第一篇示例:自然语言处理中的TF-IDF词向量表示模型是一种常用的文本特征提取方法。
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于评估一个词对于一个文档集或一个语料库中的一篇文档的重要性的统计方法。
TF代表词项频率,即某个词在一个文档中出现的次数。
IDF代表逆文档频率,即某个词在整个文档集合中出现的频率的倒数的对数。
通过TF-IDF的计算,可以得到一个词的权重,用来表示该词对于某个文档的重要程度。
TF-IDF词向量表示模型的主要思想是通过计算文档中每个词的TF-IDF值,然后将这些值作为该文档的词向量表示。
在自然语言处理任务中,词向量表示是非常重要的,因为它可以将文本数据转化为向量形式,从而方便后续的机器学习算法处理。
传统的词向量表示方法,如词袋模型和word2vec模型,虽然在一定程度上能够反映词语之间的语义关系,但是却忽略了词的重要性。
而TF-IDF词向量表示模型则可以有效地将词的重要性考虑进去,从而更加准确地表达文本的语义信息。
在TF-IDF词向量表示模型中,词的TF-IDF值是根据它在文档中的出现频率和在整个文档集合中的出现频率来计算的。
具体的计算公式如下:TF(t, d) = count(t, d) / len(d)IDF(t) = log(N / df(t))TF-IDF(t, d) = TF(t, d) * IDF(t)t表示某个词,d表示某个文档,count(t, d)表示词t在文档d中出现的次数,len(d)表示文档d的总词数,N表示文档集合中的总文档数,df(t)表示包含词t的文档数。
通过这个计算公式,我们可以得到每个文档中每个词的TF-IDF值,从而构建出文档的词向量表示。
在实际应用中,通常会将所有文档的词向量拼接在一起,形成一个矩阵,然后通过一些降维算法将其转化为更低维度的词向量表示,以便于后续的机器学习算法处理。
LuceneTFIDFSimilarity 评分公式详解版权声明:本⽂为博主原创⽂章,遵循版权协议,转载请附上原⽂出处链接和本声明。
本⽂链接:⼀、预热TFIDFSimilarity 曾经是Lucene/Solr 默认评分公式,但是从lucene-6.0开始已经改成BM25Similary 了(详见)。
但我们今天看的依然是TFIDFSimilarity ,因为它相对简单⼀些,对我们理解评分过程有好处。
⾸先假定你知道怎么把⼀篇⽂档转化成⼀个空间向量,并且知道空间向量模型。
接下来先来统⼀⼀下术语和记号q : query ,表⽰⼀个查询d : document ,表⽰⼀篇⽂档V(q) : q 表⽰Query 的向量V(d) : d 表⽰Document 的向量|V(q)| : ∣q ∣ 表⽰Query 向量的归⼀化|V(d)| : ∣d ∣ 表⽰Document 向量的归⼀化在看TFIDFSimilarity 之前,我们先看简单复习⼏个简单的公式。
1. 余弦定理cosine_similarity(q,d)=∣V (q)∣×∣V (d)∣V (q)⋅V (q),⽤余弦定理通过计算两向量的夹⾓来表⽰两⽂本的相似,这是⼀切的基础。
这⾥沿*的写法,cosine_similarity(q,d)⽽不是⽤score(q,d)的原因是相似度不是每个最终得分,相似度只是评分过程⽐较重要的⼀个因素⽽已。
*建议你还是先看看,它讲得相当完整也很细**。
2. tf-idf 公式tf-idf 算法是⼀种⾮常常见算法,⽤来计算⽂本每个权重的。
tf-idf 算法的原理如果词条在⽂档出频率越⾼,则词条权重越⾼;如词条在越多篇⽂档出现,⽽词条的权重越低。
具体计算如下:tfidf(t)=tf(t)∗idf(t)tf(t)=frequencyidf(t)=1+log doc_freq+1doc_count+1tfidf(t)=frequency×(1+log doc_freq+1doc_count+1)对于VSM ⽽⾔,tf-idf 算法并不是必须,甚⾄权重的引⼊也不是必须。
文本分类中TF IDF权重计算方法改进作者:隗中杰来源:《软件导刊》2018年第12期摘要:TF;IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。
通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。
实验结果表明,改进后的TF;IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。
关键词:文本分类;密度;TF;IDF;特征权重;分布Improvement of TF;IDF Weight Calculation Method in Text ClassificationWEI Zhong;jie(Information Technology and Network Security, People's Public Security University of China,Beijing 100038,China)Abstract:TF;IDF is a classical method for calculating feature weight calculation in text classification, but it does not consider the distribution of feature words in the document collection itself, which results in less classification. In this paper, the IDF function is improved by calculating the ratio of the intra;class density of the feature words to the overall average density of the feature words evenly distributed in the sample. Experiments show that the improved TF;IDF considers the intra;class distribution of feature words and the distribution of the overall document set, which improves the ability to distinguish categories and effectively improves the text classification effect.Key Words:text classification; density; TF;IDF; feature weight; distribution0;引言随着信息技术的发展与大数据时代的到来,每天都会产生海量数据,信息量呈几何级数增长,而文本数据在其中占据着非常重要的部分。
基于TFIDF的社区问答系统问句相似度改进算法
赵胜辉;李吉月;徐碧;孙博研
【期刊名称】《北京理工大学学报》
【年(卷),期】2017(37)9
【摘要】针对社区问答系统问句相似度计算问题,提出了一种改进的TFIDF算法.按照用户的查询意图对问句进行分类,根据特征词在类别中的分布对权值进行调整;将问句的主题词归入特征项进行TFIDF计算.实验结果表明,本文改进的TFIDF算法的P@3比传统的TFIDF算法提高了7.66%,比TFIDF-IG算法提高了5.31%,而且
P@5和P@10也有不同程度的提高,与传统TFIDF算法和参考改进算法相比,该算法明显提高了检索性能.
【总页数】4页(P982-985)
【关键词】向量空间模型;TFIDF算法;社区问答系统;问句相似度
【作者】赵胜辉;李吉月;徐碧;孙博研
【作者单位】北京理工大学信息与电子学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于余弦距离的中文问答系统中问句相似度计算 [J], 陈仕鸿;刘晓庆
2.基于问句相似度的中文FAQ问答系统 [J], 叶正;林鸿飞;杨志豪
3.应用于问答系统的Lucene相似度检索算法改进 [J], 白菊;何聚厚
4.基于问句相似度的本体问答系统 [J], 刘汉兴;刘财兴;林旭东
5.基于Word2vec和句法规则的自动问答系统问句相似度研究 [J], 刘杰;白尚旺;陆望东;党伟超;潘理虎
因版权原因,仅展示原文概要,查看原文内容请购买。
文本分类中词语权重计算的改进作者:张青,熊前兴来源:《电脑知识与技术》2011年第01期摘要:文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。
向量空间模型(Vector Space Model)中的TF.IDF文本表示是该领域中得到广泛应用并且取得较好效果的一种文本表示方法。
词语在文本集合中的类别分布比例量上的差异是决定词语表达文本内容的重要因素之一。
但现在的TF.IDF方法无法把握这一因素,针对这一缺点,将信息增益公式引入文本集合中并提出TF.IDF.IG文本表示方法,并比较分析了其相较于传统TF.IDF公式的优点,用实验验证了其可行性和有效性。
关键词:文本表示;向量空间模型;词语权重;信息增益中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)01-0204-03Improvement to Weighting Terms in Text ClassificationZHANG Qing, XIONG Qian-xing(Department of Computer Science and Technology,Wuhan University of Technology, Wuhan 430063, China)Abstract: The formalization of text is always a fundamental issue in the area of information retrieval, such as text retrieval, automatic abstract, search engine etc. The TF.IDF text representation in Vector Space Model is an efficiency and widespread used method in this area. The difference in categorical distribution proportion in text aggregate of words is one of the key factors which determine the content of words. But the present TF.IDF method cannot handle this factor. For this shortcoming, this article introduces the text information gain formula to text aggregate and proposes the TF.IDF.IG text representation method, compares and analysis its advantages to the traditional TF.IDF formula, verifies the feasibility and validity with experiments.Key words: text representation; vector space model; weight of words; information gain1 概述随着各种电子形式的文本文档如电子出版物、各种电子文档、电子邮件和万维网等文本数据库等以指数级的速度增长,有效的信息检索、内容管理以及信息过滤等应用也变得越来越重要。
基于互信息的文本特征加权方法樊小超;张重阳;邓雄伟【摘要】特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。
为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。
实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。
%Feature weighting is an important part of the procedure of text categorization, by examining the traditional feature selection function, it finds that the method of mutual information in feature weighting process performs particularly promi-nent. In order to improve the performance of the method of mutual information in feature weighting, the paper adds the term frequency information, document frequency information and categories correlation factor, and proposes a feature weighted based on mutual information method. The experiments show that this method has better classification perfor-mance than the traditional feature weighting method.【期刊名称】《计算机工程与应用》【年(卷),期】2015(000)013【总页数】5页(P145-148,190)【关键词】文本分类;特征选择;特征加权;互信息【作者】樊小超;张重阳;邓雄伟【作者单位】南京理工大学计算机科学与工程学院,南京 210018; 新疆师范大学计算机科学技术学院,乌鲁木齐 830054;南京理工大学计算机科学与工程学院,南京 210018;南京理工大学计算机科学与工程学院,南京 210018【正文语种】中文【中图分类】TP3911 引言随着计算机技术、网络技术、数据库技术的快速发展与普及应用,网络成为人们获取信息最大的资源库。
中⽂⽂本分类本⽂介绍⽂本挖掘与⽂本分类的⼀些基本概念和流程,为后续学习分类算法做好铺垫。
⼀. ⽂本挖掘的概念 ⽂本挖掘(Text Mining)是从⾮结构化⽂本信息中获取⽤户感兴趣或者有⽤的模式的过程。
其中被普遍认可的⽂本挖掘定义如下:⽂本挖掘是指从⼤量⽂本数据中抽取事先未知的、可理解的、最终可⽤的知识的过程,同时运⽤这些知识更好地组织信息以便将来参考。
简⾔之,⽂本挖掘就是从⾮结构化的⽂本中寻找知识的过程。
⽂本挖掘的七个主要领域: (1)搜索和信息检索(IR):存储和⽂本⽂档的检索,包括搜索引擎和关键字搜索。
(2)⽂本聚类:使⽤聚类⽅法,对词汇,⽚段,段落或⽂件进⾏分组和归类。
(3)⽂本分类:对⽚段,段落或⽂件进⾏分组和归类,使⽤数据挖掘分类⽅法的基础上,经过训练的标记⽰例模型。
(4)Web 挖掘:在互联⽹上进⾏数据和⽂本挖掘,并特别关注在⽹络的规模和相互联系。
(5)信息抽取(IE):从⾮结构化⽂本中识别与提取有关的事实和关系;从⾮结构化和半结构化⽂本制作的结构化数据的过程。
(6)⾃然语⾔处理(NLP):将语⾔作为⼀种有意义、有规则的符号系统,在底层解析和理解语⾔的任务(例如,词性标注);⽬前的技术主要从语法、语义的⾓度发现语⾔最本质的结构和所表达的意义。
(7)概念提取:把单词和短语按语义分组成意义相似的组。
在分析机器学习的数据源中最常见的知识发现主题是把数据对象或事件转换为预定的类别,再根据类别进⾏专门的处理,这是分类系统的基本任务。
⽂本分类也如此:其实就是为⽤户给出的每个⽂档找到所属的正确类别(主题或概念)。
想要实现这个任务,⾸先需要给出⼀组类别,然后根据这些类别收集相应的⽂本集合,构成训练数据集,训练集既包括分好类的⽂本⽂件也包括类别信息。
今天,在互联⽹的背景下⾃动化的⽂本分类被⼴泛的应⽤于,包括⽂本检索,垃圾邮件过滤,⽹页分层⽬录,⾃动⽣成元数据,题材检测,以及许多其他的应⽤领域,是⽂本挖掘最基础也是应⽤最⼴范的核⼼技术。
自然语言处理中tf-idf词向量表示模型全文共四篇示例,供读者参考第一篇示例:自然语言处理(Natural Language Processing, NLP) 是人工智能领域的一个重要研究方向,旨在让计算机能够理解和处理人类自然语言。
在NLP中,词向量是一个非常重要的概念,它可以将文本中的单词表示为数值向量,从而方便计算机进行文本处理和理解。
在词向量表示中,一种常用的方法是利用tf-idf(Term Frequency-Inverse Document Frequency)算法来计算每个单词的权重。
本文将介绍自然语言处理中tf-idf词向量表示模型的原理和应用。
tf-idf是一种用于评估一段文本中某个词的重要性的方法。
它基于两个指标:词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)。
TF指的是某个词在文本中出现的频率,而IDF指的是该词在整个语料库中出现的频率。
tf-idf的计算公式如下:tf-idf(w, d) = tf(w, d) * idf(w)\(tf(w, d)\)表示词w在文档d中的词频,\(idf(w)\)表示词w的逆文档频率。
逆文档频率的计算公式为:idf(w) = \log(\frac{N}{n_w})N表示语料库中文档的总数,\(n_w\)表示包含词w的文档数。
tf-idf的值越大,代表该词在文本中越重要。
tf-idf词向量表示模型的主要步骤包括:计算每个单词的tf-idf值、构建词向量和对文本进行表示。
具体步骤如下:1. 计算tf-idf值:需要统计每个单词在文档中的词频,并计算逆文档频率,得到每个单词的tf-idf值。
2. 构建词向量:将每个单词的tf-idf值表示为一个向量,这个向量的维度与词典中单词的数量相同。
3. 对文本进行表示:将文本中的每个单词替换为对应的词向量,得到文本的词向量表示。
tf-idf词向量表示模型的优点在于能够保留单词的语义信息和重要性,适用于文本分类、信息检索等NLP任务。
自动文本分类中权值公式的改进
寇莎莎;魏振军
【期刊名称】《计算机工程与设计》
【年(卷),期】2005(026)006
【摘要】在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF 公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下.通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式.改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度.
【总页数】3页(P1616-1618)
【作者】寇莎莎;魏振军
【作者单位】解放军信息工程大学,信息研究系,河南,郑州,450002;解放军信息工程大学,信息研究系,河南,郑州,450002
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于改进的TFIDF和压缩自动编码器文本分类研究 [J], 靖慧;杨振宇;于敏
2.基于改进的TFIDF和压缩自动编码器文本分类研究 [J], 靖慧;杨振宇;于敏;
3.改进的最大熵权值算法在文本分类中的应用 [J], 李学相
4.文本分类中结合评估函数的TEF-WA权值调整技术 [J], 唐焕玲;孙建涛;陆玉昌
5.深层自动编码机的文本分类算法改进 [J], 胡侯立;魏维;谢青松
因版权原因,仅展示原文概要,查看原文内容请购买。
科技项目查重中特征词TF-IDF值计算方法的改进
方延风
【期刊名称】《情报探索》
【年(卷),期】2012(000)001
【摘要】针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果.
【总页数】3页(P1-3)
【作者】方延风
【作者单位】福建省科学技术信息研究所福州 350003
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于改进的TF-IDF文本特征词提取算法研究 [J], 贾强;冯锡炜;王志峰;朱睿;秦航
2.基于改进TF-IDF的微博短文本特征词提取算法 [J], 邓丹君;姚莉
3.改进的 TF-IDF中文本特征词加权算法研究 [J], 申剑博
4.改进的 TF-IDF中文本特征词加权算法研究 [J], 申剑博
5.基于改进TF-IDF的微博短文本特征词提取算法 [J], 邓丹君;姚莉
因版权原因,仅展示原文概要,查看原文内容请购买。
基于Document Triage的TF-IDF算法的改进李镇君;周竹荣【摘要】针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF.将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分.由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣.因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF.实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高.DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性.【期刊名称】《计算机应用》【年(卷),期】2015(035)012【总页数】6页(P3506-3510,3514)【关键词】TF-IDF;Document Triage;标引;加权【作者】李镇君;周竹荣【作者单位】西南大学计算机与信息科学学院,重庆400715;西南大学计算机与信息科学学院,重庆400715【正文语种】中文【中图分类】TP3910 引言对文本文档的处理和分析是当今数据挖掘和信息检索技术的热点之一。
处理和研究文本文档一个重要的技术就是文本相似度[1]。
Salton[2]提出的向量空间模型(Vector Space Model,VSM)方法是目前运用最为广泛的文本相似度计算方法。
向量空间模型在特征词加权时,常用的是TF-IDF(Term Frequency-Inverse Document Frequency)加权算法。
TF-IDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语能很好地反映该文章的内容,对于该文章很重要,具有很好的类别区分能力,适合用来分类。
一种改进的特征选择方法
宋志辉
【期刊名称】《贵州师范学院学报》
【年(卷),期】2009(020)006
【摘要】特征权值的选择是文本分类的基础环节,TFIDF是文档特征权值表示常用方法之一.但其过于简单的词频和反文档频率表达式会忽略在一个类中频繁出现的特征,导致了特征预测能力相互削弱.文中提出了一种改进的特征选择算法(I-TFIDF),能更好的体现特征词条的权重,从而有效提高分类的正确率.实验结果表明I-TFIDF 比传统的TFIDF算法具有更好的性能.
【总页数】3页(P54-56)
【作者】宋志辉
【作者单位】贵州师范学院,贵州贵阳,550018
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于改进互信息和信息熵的文本特征选择方法 [J], 成卫青;唐旋
2.文本分类中一种基于互信息改进的特征选择方法 [J], 田野;郑伟
3.一种基于改进的遗传算法的癌症特征基因选择方法 [J], 范方云;孙俊;王梦梅
4.一种基于离散度及相关性改进的特征选择方法 [J], 张俊; 张凯; 林单; 陈亚军
5.一种改进的CHI文本特征选择方法 [J], 樊存佳;汪友生;王雨婷
因版权原因,仅展示原文概要,查看原文内容请购买。
基于改进CFSFDP算法的电信投诉文本聚类方法张天宇;谌志群;黄孝喜;王荣波【摘要】为了提高电信服务质量,增强企业竞争力,对电信投诉文本进行聚类,方便电信运营商分析投诉原因,文中提出了基于改进CFSFDP算法对电信投诉文本进行聚类的方法.通过差分进化算法寻找CFSFDP算法中最优密度阈值和距离阈值,降低密度及距离阈值的随机性选取对聚类准确率造成的影响.该算法使用Gaussian Kernel计算数据点密度,降低参数对密度计算的影响.在电信投诉文本数据集上的实验结果显示,改进CFSFDP算法聚类结果达到了与K-Means算法、CFSFDP算法、Agglomerative Clustering算法更好或者相当的效果,证明了算法的有效性.【期刊名称】《电子科技》【年(卷),期】2017(030)010【总页数】4页(P93-96)【关键词】CFSFDP算法;文本聚类;电信投诉;密度;距离;差分进化【作者】张天宇;谌志群;黄孝喜;王荣波【作者单位】杭州电子科技大学计算机学院,浙江杭州310018;杭州电子科技大学计算机学院,浙江杭州310018;杭州电子科技大学计算机学院,浙江杭州310018;杭州电子科技大学计算机学院,浙江杭州310018【正文语种】中文【中图分类】TP391Abstract To improve the accuracy of the service quality, and enhance enterprise competitiveness,clustering of telecom complaints text is helpful for telecom operators to analyze the reasons of complaints, This paper proposed a clustering method for telecom complaints text based on the improved CFSFDP algorithm. To reduce the effects on the method by random select of optimal density and distance threshold for CFSFDP, the method searches density threshold and distance threshold using differential evolution algorithm. The algorithm calculates the density of data points using the Gaussian Kernel, to reduce the effects of parameters on density calculation. Experiments on datasets of telecom complaints text show that clustering result of improved CFSFDP algorithm is better than k-means algorithm,CFSFDP algorithm and agglomerative clustering, the algorithm is effective.Keywords CFSFDP algorithm;text clustering; telecom complaints; density; distance; differential evolution在电信运营商同质化的业务和服务下,客户对服务质量有更高的要求。
向量空间模型中TFIDF权值公式的修正
TFIDF公式是向量空间模型中应用比较成功的计算特征项权值的方法。
研究发现,该公式忽略了特征项在文本集的分布比例和离散程度这两个影响特征项对文本表示贡献度的重要因素。
为此,本文构造了一个平衡因子BF,并将其加权到TFIDF公式中,得到了修正后的公式M-TFIDF。
简单数值例子和中文文本聚类实验都表明,M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
标签:向量空间模型词频倒排文档频VSM TFIDF
对于文本信息处理,有三类经典的模型,它们分别是布尔模型、概率模型和向量空间模型[1],[2]。
在这三类经典模型基础上又衍生出一些扩展模型,如模糊集模型[3]、扩展的布尔模型[4],神经网络模型[5]、Bayesian信念网络[6],[7] 、潜在语义索引(LSI)模型[8-10]等。
其中,向量空间模型以其较强的可计算性和可操作性而被广泛应用于文本检索、自动文摘、关键词自动提取、文本聚类和分类、文本过滤和搜索引擎等各项应用中,并且取得了较好的效果。
向量空间模型中如何计算特征项权值是个基础和重要的内容。
历史上曾出现多种计算权值的公式,它们通常是词频(特征项频率)的函数,其中比较著名的是由Salton[11]在1988年提出的TFIDF函数,在随后的应用中,为了消除文本长度的影响,往往采用归一化(标准化)的TFIDF,即本文所指的TFIDF公式。
本文将对TFIDF 公式作进一步的修正。
1向量空间模型与TFIDF公式简介[1,2,11]
向量空间模型的基本思想是以向量来表示文本,文本空间被看作是一组正交词条向量所组成的向量空间,每个文档表示为其中一个规范化特征向量,以项权值(权重)作为文档向量的属性值。
其数学描述如下:
其便于计算的形式是
结果见表6。
由表6可见,采用修正的TFIDF公式即M-TFIDF公式计算权值,使得聚类结果的召回率、准确率以及F值得到明显提高。
权值公式的修正对聚类结果的准确性有明显帮助。
总之,通过实验的结果和分析可以看出,不管用SV值分析还是用召回率、准确率、F值分析,都可以证明用M-TFIDF替代TFIDF公式计算权值,会提高文本聚类的结果的可靠性和准确性。
同样,我们完全有理由推测,M-TFIDF权值公式可以很好的应用于包含文本聚类在内所有基于向量空间模型的文本挖掘领域。
4小结
本文的主要工作是对向量空间模型中用于计算特征项权值的TFIDF公式进行修正。
基于分布比例高的特征项具有较高的贡献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑,本文构造了一个平衡因子BF,并将其加权到TFIDF公式中,得到了修正后的公式M-TFIDF。
简单数值例子和中文文本聚类实验都表明,M-TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文本集的表示性能。
参考文献
[1] G.Salton,M.J.McGill.Introduction to Modern Information Retrieval.McGraw-Hill,New York,1983.
[2] Tsau Young Lin ,I-Jen Chiang.A simplicial complex,a hypergraph,structure in the latent semantic space of document clustering. International Journal of Approximate Reasoning . 2005,40.55-80.
[3] 张玉连,张敏,张波. 一种扩展的向量空间模型-隐含语义索引模型研究. 燕山大学学报,2006,1,V ol.30,No.1,87-90. [4].
[4] 耿焕同,陈少军. 一种基于传统VSM和词共现概念的中文文本聚类的研究. 安徽师范大学学报(自然科学版),2005,3,V ol.28.No.1,27-30.
[5] 马辉民,李卫华,吴良元. VSM在中文文本聚类中的应用及实证分析. 武汉理工大学学报o信息与管理工程版. 2006,4,V ol.28,No.4,56-60.。