文档的向量空间模型
W权值计算方法TF-IDF
目前广泛采用TF-IDF权值计算方法来计算权重, TF-IDF的主 要思想是,如果某个词或短语在一篇文章中出现的频率TF 高,并且在其他文章中很少出现,则认为此词或者短语具 有很好的类别区分能力,适合用来分类。 TF词频(Term Frequency)指的是某一个给定的词语在该文件 中出现的次数。 IDF逆文档频率(Inverse Document Frequency)是全体文档数与 包含词条文档数的比值。如果包含词条的文档越少,IDF越 大,则说明词条具有很好的类别区分能力。 在完整的向量空间模型中,将TF和IDF组合在一起,形成TFIDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t)
• (11)查词表,W不在词表中,将W最右边一个字去掉, 得到W="是三" • (12)查词表,W不在词表中,将W最右边一个字去掉, 得到W=“是”,这时W是单字,将W加入到S2中,S2=“计 算语言学/ 课程/ 是/ ”, • 并将W从S1中去掉,此时S1="三个课时"; • ������ ������ • (21)S2=“计算语言学/ 课程/ 是/ 三/ 个/ 课时/ ”,此时 S1=""。 • (22)S1为空,输出S2作为分词结果,分词过程结束。
停用词
• • • • 指文档中出现的连词,介词,冠词等并无太大意义的词。 英文中常用的停用词有the,a, it等 中文中常见的有“是”,“的”,“地”等。 停用词消除可以减少term的个数,降低存储空间。停用词 的消除方法: • (1)查表法:建立一个停用词表,通过查表的方式去掉 停用词。 • (2)基于DF的方法:统计每个词的DF,如果超过总文档 数目的某个百分比(如80%),则作为停用词去掉。