计算机毕业论文_一种基于潜在语义结构的文本分类模型
- 格式:doc
- 大小:259.50 KB
- 文档页数:10
基于LSA和HS-SVM的文本分类研究摘要:为了提高文本分类的准确性和效率,提出了一种基于潜在语义分析和超球支持向量机的文本分类模型。
针对SVM对大规模文本分类时收敛速度较慢这一缺点,本文将超球支持向量机应用于文本分类,采用基于增量学习的超球支持向量机分类学习算法进行训练和分类。
实验结果表明,超球支持向量机是一种解决SVM问题的有效方法,在文本分类应用中具有与SVM相当的精度,但是明显降低了模型复杂度和训练时间。
关键词:文本分类;潜在语义分析;支持向量机Abstract: A text categorization mode l based on LatentSemantic Analysis andHypersphere SupportVectorMachine(HS SVM)is proposed to miprove the accuracy and efficiency of text categorization As the convergence rate of using SVM to categorize the large scale text is relatively slow,the Hyper sphere Support Vector Machine is applied to text categorization and the Hyper sphere SupportVectorMachine Classification Learning Algorithm based on incremental learning is app lied to training and categorization Experiments show that the Hyper sphere Support VectorMachine is an efficient solution to the SVM problem,and has the same accuracy as the SVM in the text categorization applications,but significantly reduces the complexity o f the mode l and the training time.Keywords:text categorization;latent semantic analysis; support vector machine1.引言文本分类(Text Categorization)作为信息过滤、信息检索、数字图书馆、邮件分类和数据挖掘等领域的技术基础,能够在给定类别的条件下,根据每个类别的训练样本,推出该类别的判别公式和判别规则[1]。
一个基于概念的中文文本分类模型苏伟峰李绍滋厦门大学计算机科学系厦门361005摘要本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐,进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。
关键词文本分类概念《知网》全信息一、引言在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题。
对资料进行管理一个很常见的方法就是对它们系统地进行分类。
显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。
当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类成了许多人的研究方向。
一般而言,文本分类方法可分为两个类型:基于外延方法的分类方法:这种类型的分类方法不关心文本的语义,根据文本的外在特征进行分类。
最常见的方法是基于向量空间模型(V ector Space Module)的方法,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的距离,来判定文本之间的相似程度。
采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。
这种方法有了很多的应用,但是其不足之处也是显而易见的:1.正确率一般只能达到80%,且很难进一步向上发展2.对于不同体材的文本,则其归类正确率更是大打折扣。
基于语义的分类方法:这种类型的分类方法采用全部或部份理解文本的语义而进行归类。
主要可以分为以下三类:1.基于词的归类技术文本的语义是基于概念之上的,而词是概念的基本构成单位,从文本抽取出能反映出该文本的关键词,通过对关键词归类而进行归类,显然这种方法产生的归类其实并不是真正通过语义来进行归类,属于较早采用的技术。
基于语义分析的文本分类方法研究文本分类在自然语言处理领域具有重要意义,它主要是将输入文本分配至预定义的类别或标签中。
该领域的研究在各个领域都有着广泛的应用,例如:文本过滤、信息检索、主题发现、情感分析、新闻分类等。
因此,研究文本分类方法的效果和精度是非常重要的。
本文旨在探讨基于语义分析的文本分类方法。
1. 文本分类的基本问题文本分类的目标是为文本分配可识别的标签或类别,它是计算机语言处理领域中的主要方向。
文本分类方法主要依赖于三个主要成分:特征提取、特征选择和分类器。
特征提取阶段从文本中提取相关特征,以便能够训练文本分类器。
例如,有关文本分类的主要特征可能包括文本中的单词和词组。
特征选择阶段是指在所有特征中选择最有用的特征。
选择特征的方法可以是过滤式或封装式的。
分类器阶段是指将提取和选择的特征用于训练模型,并使用模型为新文本分类。
2. 基于语义分析的文本分类方法语义分析是自然语言处理的基本问题之一,主要面临的问题是词语的意义。
语义分析的主要目标是探讨文本中的句子和单词的真实含义,以便更好地理解文本中的内容和意图。
基于语义分析的文本分类方法正是借助于自然语言处理技术,以学习语义信息的方式来提高分类器的精确度。
具体而言,它通过把每个文本文档映射到向量空间,在这个向量空间中,根据向量之间的相似度或相关性来判断文档所属的类别。
3. 基于词嵌入的文本分类方法词嵌入技术被用作机器学习中的主要手段之一,它是一种自然语言处理技术,可以将单词或短语映射到连续的向量空间中。
基于词嵌入的文本分类方法主要以单词的语义信息为基础,以将词汇嵌入到连续向量空间中,以此来计算单词之间的相似度。
在此基础上,它通过将每个文档映射到一个向量空间,来计算文档之间的相似度或相关性。
并用分类器将文档分配到不同的类别中。
4. 基于主题模型的文本分类方法主题模型是一种计算机算法,它可以从大量文本数据中发现文本的主题并建立它们之间的关系。
基于主题模型的文本分类方法旨在寻找文本数据集中表示主题分布的模型,并基于其中的主题信息来对文本进行分类。
基于潜在语义分析的文本指纹提取方法崔彤彤;崔荣一【摘要】网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战.该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进.该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度.实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证.实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性.%The arrival of the era of network and big data enriches the information resources in cyberspace .However , the diversity and the rapid grow th of data bring pressure and challenge to the storage and the effective utilization of information resources .A text fingerprint extraction method based on latent semantic analysis was presented in this paper .The proposed method is a compression representation of data information ,and it is an improvement on the semantic deficiency of current fingerprint extraction methods .By this method ,the semantic latent semantic features of document were obtained using singular value decomposition ,and furthermore ,the original document vector space was transformed into the corresponding latent semanticspace .Finally ,according to the random hyperplane princi-ple ,thedocument in the space was transformed into binary digital fingerprint ,and the difference between finger-prints was measured by Hamming distance .The proposed method was verified by the similarity experiments and clustering experiments with the academic literature from CNKI .The experimental results show that the method can better characterize the semantic information of the document with accurate and effective compressed representation .【期刊名称】《中文信息学报》【年(卷),期】2018(032)005【总页数】6页(P74-79)【关键词】文本指纹;奇异值分解;潜在语义分析;随机超平面原理【作者】崔彤彤;崔荣一【作者单位】延边大学计算机科学与技术学院智能信息处理研究室 ,吉林延吉133000;延边大学计算机科学与技术学院智能信息处理研究室 ,吉林延吉133000【正文语种】中文【中图分类】TP3910 引言随着社会的不断进步、信息技术的飞速发展,网络空间的信息资源以惊人的速度不断增长,越来越庞大的数据量不仅给网络空间带来了压力,同时对网络资源的有效利用也带来了巨大的挑战。
文本分类模型综述文本分类模型是自然语言处理领域的一个重要研究方向,其目标是根据文本内容将文档或句子划分到预定义的类别中。
在过去几年里,随着深度学习技术的发展,文本分类模型取得了显著的进展。
下面我将从几个方面对文本分类模型进行综述。
首先,传统的文本分类模型包括基于词袋模型的朴素贝叶斯分类器、支持向量机(SVM)、决策树等。
这些模型通常使用手工设计的特征来表示文本,例如词频、TF-IDF值等,然后将这些特征输入到分类器中进行训练。
虽然这些模型在某些任务上表现良好,但它们往往无法很好地捕捉词语之间的语义关系,因此在处理复杂的自然语言任务时表现不佳。
其次,随着深度学习的兴起,基于神经网络的文本分类模型逐渐成为主流。
其中,卷积神经网络(CNN)和循环神经网络(RNN)是两种常用的架构。
CNN在文本分类中被广泛应用,通过卷积操作可以捕捉局部特征,并且可以通过多层卷积层来学习不同层次的语义信息。
而RNN则擅长捕捉文本中的顺序信息,尤其适用于处理序列文本数据。
除此之外,长短时记忆网络(LSTM)和门控循环单元(GRU)等RNN的变种也被广泛用于文本分类任务中。
另外,近年来,预训练模型如BERT、GPT等的出现极大地推动了文本分类模型的发展。
这些模型在大规模语料上进行预训练,然后在特定任务上进行微调,取得了极好的效果。
通过预训练模型,模型可以学习到更加丰富和抽象的语义信息,从而在文本分类任务上取得了极大的突破。
总的来说,文本分类模型在传统机器学习和深度学习的推动下取得了长足的进步,未来随着技术的不断发展,相信会有更多更有效的模型被提出,为文本分类任务带来更好的解决方案。
文本分类算法毕业论文学院:计算机科学与技术学院专业:电子信息科学与技术论文题目:基于半监督的文本分类算法摘要随着Internet的出现,大量的文字信息开始以计算机可读的形式存在,以传统的手工方式对这些信息进行组织整理既费时费力且效果不理想。
文本分类作为处理和组织大量文本数据的关键技术,可以利用机器来对文本进行分析整理,使用户从繁琐的文档处理工作中解放出来,并能极大地提高了信息的利用率。
文本分类是指分析文本内容并按一定的策略把文本归入一个或多个合适的类别的应用技术。
而作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。
本文首先介绍了文本分类的背景,文本分类所用的半监督算法及文本分类的几个关键技术。
然后鉴于高分类精度需要大规模己标记训练集而已标记文档缺乏,利用未标识文档进行学习的半监督学习算法己成为文本分类的研究重点这一情况,着重研究了半监督分类算法。
最后本文设计了一个文本分类原型系统,为保证分类的准确性,采用了不同的标准数据集进行测试,并评价了其分类的性能。
通过以上实验表明,当有足够的己标识文档时,本算法与其它算法性能相当,但当已标识文档很少时,本算法优于现有的其它算法。
关键词:文本分类;半监督学习;聚类;EM;KNNABSTRACTWith the emergence of Internet, a large number of text messages began to exist in the form of computer-readable, to the traditional manual way for organizations to collate the information is time-consuming effort and the result is not satisfactory. As the key technology in organizing and processing large mount of document data, Text classification can use the machine to collate the text analysis, allowing users from the tedious work of document processing liberated and can greatly improve the utilization of information. Text classification is a supervised leaning task of assigning natural language text documents to one or more predefined categories or classes according to their contents. Moreover, text classification has the broad applied future as the technical basis of information filtering, information retrieval, search engine, text database, and digital library and so on..This thesis firstly introduces the background of the text classification, text classification using semi-supervised algorithm and a few key technologies about text classification. Secondly considering the contradiction of deadly need for large labeled train-set to obtain high classification accuracy and the scarcity of labeled documents,this thesis emphasizes on improvement of Semi-supervised classification algorithms,Finally we design a document classification system. In order to ensure the accuracy of classification, using a data set different standards for texting and evaluation of the performance of their classification. The experiments above showed the superior performance of our method over existing methods when labeled data size is extremely small. When there is sufficient labeled data,our method is comparable to other existing algorithms.Keywords: text classification; semi-supervised leaning; clustering; EM; KNN目录1 引言 (1)1.1课题背景 (1)1.2本文的内容组织 (2)2 半监督学习 (3)2.1半监督学习的概念及意义 (3)2.2半监督学习的研究进展 (4)2.3半监督学习的方法 (5)2.3.1协同训练(Co-training) (5)2.3.2自训练 (6)2.3.3半监督支持向量机(S3VMs) (7)2.3.4基于图的方法(Graph-Based Methods) (8)2.4本章小结 (9)3 文本分类 (10)3.1文本分类的概念及意义 (10)3.2文本分类的国内外研究情况 (10)3.3文本分类的关键技术 (11)3.3.1文本特征生成 (12)3.3.2特征选择与降维 (14)3.3.3权重计算 (16)3.3.4文本分类技术 (17)3.3.5文本分类技术性能评价 (22)3.4本章小结 (25)4 基于EM和KNN的半监督文本分类 (27)4.1引言 (27)4.2相关工作 (27)4.2.1聚类分析 (27)4.2.2 EM算法 (30)4.2.3 KNN算法 (31)4.3基于EM和KNN的半监督文本分类算法 (31)4.3.1问题描述 (32)4.3.2算法思想 (32)4.3.3基于EM算法的聚类分析 (33)4.3.4基于Knn算法的分类 (35)4.3.5算法步骤 (36)4.4算法效率分析 (37)4.5本章小结 (38)5 实验与分析 (39)5.1实现EM-KNN算法 (39)5.1.1实验平台 (39)5.1.2算法实现及流程图 (39)5.2实验结果与分析 (43)5.3小结 (43)总结 (44)参考文献 (45)翻译部分 (48)英文原文 (48)中文译文 (54)致谢 (61)1 引言1.1课题背景随着信息技术的发展,互联网数据及资源呈现海量特征,而且,越来越多的信息以电子文本的形式存在。
文本分类模型
数
本文旨在探究深度学习技术在文本分类中的应用,讨论其模型优势及潜在风险。
文本分类是自然语言处理领域中的重要任务,它能够有效将可变长度的文本文档和段
落编组成不同的类别,实现自动批量归类,是一项重要的计算机技术。
传统的文本分类算
法使用手工提取的特征来体现文档的内容,但是,这些算法容易受到特征提取的结果,效
果也很难满足实际应用的要求,这是由于现有的手工特征提取方法对于不同的文档类别难
以统一定义。
深度学习是机器学习技术,利用深层网络架构来挖掘大量复杂的数据表征表示,为文
本分类提供了一个新的思路。
深度学习的模型假定每个文本文档可以表示为一个不断迭代
的低纬度表示,这种自学习的分类器比传统分类器更好。
深度学习模型通过抽取文档本身
的语义特征和词汇表示来预测文档所属类别,而且不需要进行手工特征提取,可以节省大
量时间和精力。
此外,深度学习模型具有良好的灵活性,可以保证训练过程对干扰处理、
偏置抑制和处理稀疏文本数据的有效性。
很显然,深度学习应用在文本分类中的模型优势是显而易见的,但也存在一定的风险。
由于深度学习模型的训练和维护成本高,需要大量的数据和计算资源,容易导致训练过程
的过度拟合,即准确率偏低,从而影响模型的总体性能。
另外,训练过程中受到语料库中
数据不平衡的影响,易产生人为偏差,并浪费大量时间。
本文从理论层面分析了深度学习技术在文本分类中的应用,重点介绍了其模型优势及
潜在风险。
建议在未来的应用中,针对深度学习模型的结构进行适当的改进和优化,有助
于提升模型的稳定性,从而达到实现较高准确度和效率的目的。
一种基于潜在语义结构的文本分类模型摘要:潜在语义索引(LSI)模型,是一种已经成功地应用于文本分类等很多领域的算法。
LSI模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音。
然而在LSI模型中,对稀有类别很重要的分类特征,可能因为在整个文档集中不重要而被滤掉。
针对这一问题,本文提出了一种新颖的扩展LSI模型的文本分类模型。
新模型在尽量保留文档信息的同时,增加考虑了文档的类别信息。
这样,新模型将能比LSI模型更好地表示原始文档空间中的潜在语义结构。
在实验中,本分类模型也表现出了非常好的分类性能。
关键词:文本分类潜在语义索引偏最小二乘分析中图分类号:TP18 文献标识码: A1 引言自动文本分类就是在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
如今,已经有很多基于统计和机器学习的文本分类算法,如:回归模型、K近邻、决策树、朴素贝叶斯和支持向量机等[1]。
其中,很多现有的分类算法都是基于从文本中抽取关键词(经常是单独的词)的方法。
在这种方法中,假定一个关键词唯一地代表一个概念或语义单元;然而实际的情况是:一个词往往有多个不同的含义,多个不同的词也可以表示同一个语义。
这就是所谓的一词多义和多词一义。
比如:“马上”可以有“立刻”的意思,也可以理解为“马的上面”;“感冒”、“伤风”和“着凉”却代表着同一种疾病。
像这样的情况是很难由计算机自动判别的。
一词多义和多词一义,是所有基于语义的算法必须解决的两个主要问题。
潜在语义索引(LSI: Latent Semantic Indexing)[2],是近年来比较有效的算法之一。
LSI 把原始的向量空间转换成潜在语义空间,文档和查询就在转换后的语义空间上进行表示和比较。
实验表明这种方法可以在一定程度上解决一词多义和多词一义问题:新的语义空间是原始“文档向量矩阵”的线性组合变换得到的,一般认为这个空间能捕捉文档集中的潜在语义结构。
由于LSI在信息检索中的优异表现[2],就有人开始尝试将其应用于文本分类领域。
其中,Wiener的工作[3]是很有代表性的。
Wiener的实验中以两种方式使用了LSI。
(1)利用LSI对原始向量空间降维。
把潜在语义空间中权重较低的维滤掉,这样就可以得到原始空间的一个子集,并滤掉一些噪音;(2)将整个文档集按类别进行划分,为每个类别建立一个LSI表示。
为每个类别构建一个单独的LSI表示,很重要的一个原因是:有一些对特定类很重要的词,由于词义不确定的问题,在整体考虑所有类的时候,反而会变的不重要。
如bank这个词可能对财经类很重要,但如果把所有类放在一起考虑,这个词就有可能因为它的多义性在语义空间中被滤掉(或变得不重要)。
实际上,我们发现这种分立的LSI表示,确实可以分别为每个类找到重要的词(或特征)。
但在考虑整个文档集的时候,情形就会有所不同:对单个类重要的词并不一定就对分类有大的贡献。
文本分类的关键是在整体考虑下,在所有的类别中,为文档找到它最有可能属于的类。
这种类别之间的舍取,在每个类别都是单独考虑情况下肯定不可能做到完全公平。
在本文中,我们提出了一种对LSI扩展的算法。
我们提取的语义特征不仅反映了文档和词的信息,也考虑了文档的类别信息。
不同于为每个类建立单独的LSI表示,我们把所有的信息整合在一个LSI表示里。
本文组织如下:第一部分是引言,第二部分介绍一些相关的基本概念,第三部分详细阐作者介绍:曾雪强(1978-),男,硕士研究生,助教,研究方向为文本分类和信息检索。
Email: zxq@述本文提出的模型,实验结果和分析在第四部分中说明,最后是结束语。
2 相关工作2.1 基于向量空间模型的文本分类在向量空间模型中,文档以由n 个词组成的向量表示(这些词从文档集中选取得到),词也可以由m 篇文档组成的向量表示。
在实际使用中,用“文档向量矩阵”X 能最好的代表这种对偶的信息表示,其中一列j X ∙代表一个词、一行∙i X 代表一篇文档:⎪⎪⎪⎪⎪⎭⎫ ⎝⎛==⎪⎪⎪⎪⎪⎭⎫⎝⎛=∙∙∙∙∙∙m n mn m m n n X X X X X X x x x x x x x x x X2121212222111211),,,( 矩阵中的元素ij x ,一般表示词j 在文档i 中出现的频数;也可以根据其他因素调整它的权重[4]。
比如,以反向文档频率(IDF: Inverse Document Frequency )调整:)/log(*j ij ij df m tf x =其中,文档频数j df 是出现词j 的文档数量。
说明一下,由于一个词只会在很少的文档中出现,因此矩阵X 中的大多数元素都会是零。
信息检索的典型处理方式就是关键字匹配。
用户提出一个查询q ,然后用和文档一样的方式,把它看成一个由关键字组成的向量。
通过计算查询向量和文档向量之间的点积(对向量的规一化消除文档长度的影响),可以得出两者之间的相似度。
所有m 篇文档的相似度可以构成一个向量s(TXq s =),查询q 的相关文档就可以根据这个指标排序并返回给用户。
文本分类,就是把新的文档归到已有的类别体系中去。
有很多方法可以实现这个目的,一种简单的分类方法是为每个类别计算一个中心向量i C (类中所有文档向量的平均值)[5]。
这些中心向量被认为是每个类别的代表。
所有k 个类别的k 个中心向量,组成一个n k ⨯ 的矩阵Tk 21)c ,,c ,(c C ⋅⋅⋅=。
判别文档属于某个类的标准是,该文档距离哪个类别的中心向量更近。
其他的方法[6]则是通过最小化误差平方和C ,来解决文本分类问题,C 的定义如下:||||min arg B CX C T C-=其中,B 是保存训练集文档的正确类别信息的m k ⨯矩阵。
一篇新进文档,要通过投影到变换向量上得到与每个类的相似度,并由具体的阈值,决定其到底属于哪个类或哪几个类。
2.2 应用LSI 模型的文本分类在原始的“文档向量矩阵”中,存在着冗余、词语多义和噪音问题。
我们希望建立一个比原始矩阵小得多,并只包含有效语义的子空间。
要达到这个目的,一般可以通过有效的维数约减。
维数约减后,冗余的信息可以合并在一起,词语多义可以通过考虑上下文相关信息解决,把相对不重要的一些特征约去则可以部分解决噪音问题。
LSI 就是这样一种维数约减方法。
它可以通过对“文档向量矩阵”进行解奇异值分解(SVD: Singular Value Decomposition )运算,自动计算得到一个比原始空间小得多的有效语义空间:⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎭⎫ ⎝⎛==∑=r r r ri i i i v v u u v u X 1111),,(σσσ其中,r 是矩阵X 的阶,()∑≡rr diag σσ1是由特征值构成的对角矩阵,),,(1r r u u U ⋅⋅⋅=和),,(1r r v v V ⋅⋅⋅=分别是左、右特征向量。
一般r 个特征值是按大小排序的,当要进行特征值截取的时候,比如只保留前k 个最大的特征值,下面的矩阵就是原始矩阵的非常好的近似:T T V U V U X k k k r r r ∑≈∑=在得到的k 维子空间中,一篇文档∙i X 的投影是k i V X ∙,而所有m 篇文档的投影就是k k k U XV ∑=。
查询q 的变换方式也是如此。
因此,查询q 和文档之间的相似度计算在LSI的子空间中就变成了:))(())((T T T q V U qV X V s k k k k k ∑==维数的大量约减,既降低了计算的复杂度也滤去了一部分噪音。
比如,求矩阵中心向量或作矩阵变换的计算量就从n m ⨯变成了k m ⨯ [5]。
这样的方法在朴素贝叶斯分类模型[7]、KNN 模型和SVM 模型[8]中都被证明是非常有效的,提高了分类模型的准确度。
LSI 成功的原因在于,LSI 得到的语义空间比原始特征空间更能表达分类必须的语义结构,部分地解决了信息检索中的同义词和文本分类中的信息冗余问题。
在数学上,通过SVD 选取的矩阵是原始矩阵X 在k 阶情况下的最佳近似。
从统计观点看,LSI 和主成分分析类似,是一种非常有效的维数约减方法。
即:认为特征值较小的维是噪音,并将其滤去。
然而,LSI 在降低维数的同时也会丢失结构信息。
实际上,LSI 基于文档信息来建立语义空间(文档的类别信息并未考虑),得到的空间会保留原始矩阵中最主要的全局信息。
但有一种情况是:一些对特定类别分类贡献很大的特征,放在全局下考虑却会变得不重要了。
这样的特征在维数约减的过程中,就很容易被滤掉,而如果这样,特定类别的分类精度就会受影响。
要解决这个问题,文档的类别信息就应该也被考虑进来。
以传统方式使用LSI 的另一个问题是:没有理论说明,在得到的语义空间中到底应该保留多少维,而维数的变化对最后的结果又有很大的影响[8]。
在实际使用中,人们一般中只能通过反复的实验来确定这个值。
3 应用于分类的一种潜在语义模型使用LSI 方法的前提假设是,在由大量的词和特征构成的“文档向量矩阵”中隐含着有规律的潜在语义结构。
如前所述,稀有类别的重要特征却有可能被忽略掉。
事实上也是,稀有类中出现的词很可能是文档集中的非常见词,而非常见词就很有可能被滤掉。
于是对稀有类别很重要的分类特征,可能因为在文档集中不重要而被滤掉。
为了解决这个问题,Wiener [9]使用局部LSI 模型代替全局LSI 模型。
他们为每个类别建立了一个独立的LSI 模型,在分类过程中,每个局部LSI 模型都被单独的使用。
这样的方法能局部解决前面提到的问题:对稀有类别很重要的特征可以在其局部LSI 模型中保留下来。
但这样还有其他的问题:(1) 一篇新进文档属于哪些类别,各个局部LSI 模型是分别单独考虑的,那么不同的局部模型得到的相似度分值就很难相互比较。
可能造成的情况是,应该属于某个类的文档却被错误的分到了其他类中。
(2) 无法很好的解决一词多义的问题。
比如,在某个特定类别(如:金融)中,一个多义词(如:bank )就可能变得没有歧义。
局部LSI 模型会认为这种词很重要,但如果放在文档集中考虑,它对分类的贡献却不大。
在分立的局部模型中,我们将无法考虑这种一词多义的情况。
为了解决这个问题,我们提出了一种同时考虑文档信息和类别信息的分类模型。
与LSI 模型类似,我们也希望从原始空间中得到一个潜在语义空间;然而不同的是,我们要在尽量保留文档信息的同时,通过对文档信息和类别信息建模,把文档和类别之间的关联也考虑进来。
从统计学的观点来看,和偏最小二乘分析(Partial Least Square Analysis )有些类似。
下面给出一些符号约定:X 是m ×n 维的“文档向量矩阵”;T m 21)y ,,y ,(y Y ⋯=是m维的类别信息向量,其中,⎩⎨⎧=不属于该类别文档属于该类别文档 0 1i i y i;矩阵X 和向量Y 都要先做规一化。