潜在语义模型 LSI
- 格式:pptx
- 大小:1.05 MB
- 文档页数:22
机器学习小例子它是机器学习的重要基础,从描述算法操作的符号到代码中算法的实现,都属于该学科的研究范围。
虽然线性代数是机器学习领域不可或缺的一部分,但二者的紧密关系往往无法解释,或只能用抽象概念(如向量空间或特定矩阵运算)解释。
阅读这篇文章后,你将会了解到:如何在处理数据时使用线性代数结构,如表格数据集和图像。
数据准备过程中用到的线性代数概念,例如one-hot编码和降维。
深度学习、自然语言处理和推荐系统等子领域中线性代数符号和方法的深入使用。
让我们开始吧。
这10个机器学习案例分别是:1.DatasetandDataFiles数据集和数据文件2.ImagesandPhotographs图像和照片3.One-HotEncodingone-hot编码4.LinearRegression线性回归5.Regularization正则化6.PrincipalComponentAnalysis主成分分析7.Singular-ValueDecomposition奇异值分解tentSemanticAnalysis潜在语义分析9.RecommenderSystems推荐系统10.DeepLearning深度学习1.数据集和数据文件在机器学习中,你可以在数据集上拟合一个模型。
这是表格式的一组数字,其中每行代表一组观察值,每列代表观测的一个特征。
例如,下面这组数据是鸢尾花数据集的一部分数据集:5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa这些数据实际上是一个矩阵:线性代数中的一个关键数据结构。
接下来,将数据分解为输入数据和输出数据,来拟合一个监督机器学习模型(如测量值和花卉品种),得到矩阵(X)和矢量(y)。
lsi的名词解释
LSI是潜在语义索引(Latent Semantic Indexing)的缩写,是一种文本挖掘和信
息检索的技术。
它通过对文本语料进行分析和处理,可以帮助改善搜索引擎的准确性和性能。
LSI的基本原理是通过将文本转换成高维的数学向量表示,在向量空间中比较
文本之间的相似性。
LSI首先会构建一个词项-文档矩阵,其中每一行代表一个文档,每一列代表一个词项,矩阵的元素表示词项在文档中的权重。
然后,使用特征值分解技术对这个矩阵进行分解,得到文档的隐含语义。
通过降维和减少噪声,
LSI可以揭示文本之间的语义相关性,从而提高搜索引擎的结果质量。
LSI可以用于各种文本相关的应用,包括信息检索、文本聚类、文本分类等。
在信息检索方面,LSI可以解决传统关键词匹配带来的问题,如同义词、多义词和
相关性不高的结果。
它可以根据文本的语义信息,对查询进行扩展和修正,提供更准确和相关的搜索结果。
在文本聚类和分类方面,LSI可以将相似的文本归为一类,从而帮助用户理解和组织大量的文本信息。
总之,LSI作为一种潜在语义索引的技术,通过对文本进行语义分析和建模,
可以提高搜索引擎的准确性和性能,以及改善文本相关应用的效果。
概率潜在语义模型综述信息检索本质上是语义检索, 而传统信息检索系统都是基于独立词索引, 因此检索效果并不理想. 概率潜在语义索引是一种新型的信息检索模型, 它在潜在语义索引模型思想的基础上, 通过EM迭代算法将词向量和文档向量投影到一个低维空间, 消减了词和文档之间的语义模糊度, 使得文档之间的语义关系更为明晰。
论述了概率潜在语义索引的理论基础, 探讨了隐含语义索引在信息处理处理中的应用。
标签:信息检索;潜在语义索引;SVD分解;概率潜在语义索引1 简介传统的信息检索模型可归为三类:布尔模型、向量空间模型和概率模型。
它们都分别把文本和查询表示为索引词的集合,尽管使用了不同的方法,但本质上均为某种形式的索引词的匹配,而没有进一步做语义上的分析。
自然语言中存在大量的同义词、多义词,这分别对传统检索模型的召回率和准确率有不利的影响。
检索系统要求用户提供足够多精确、无歧义的关键词才有可能得到所需要的信息,这大大增加了系统使用的难度。
为了进行更自然更人性化的查询,检索系统必须能够处理自然语言中的同义、多义现象,进行语义上的分析。
潜在语义分析(LSA)是一种发现潜在语义并分析文档、词和语义三者之间关系的方法。
其主要思想是通过统计分析来发现文档中词与词之间存在的某种潜在的语义结构,并且使用这些潜在的语义结构来表示词和文本。
虽然潜在语义分析在信息检索领域取得了令人满意的效果,但是它存在几个缺陷:首先由于潜在语义分析过程中奇异值分解的物理意义不够明确,较难控制词义聚类的效果;此外这个算法的空间和时间复杂度太大,在目前的计算机硬件条件下很难实际适应实际应用。
针对潜在语义分析的这些缺陷,Hoffmann 提出了一种新的方法-概率潜在语义分析(PLSA),该方法使用概率模型来表示“文档—潜在语义—关键词”三者之间的关系,文档和关键词都可以映射到同一个语义空间,这样,文档和文档以及文档和关键词之间的相似度都可以通过计算语义空间上的夹角而得以量化。
一种基于潜在语义结构的文本分类模型摘要:潜在语义索引(LSI)模型,是一种已经成功地应用于文本分类等很多领域的算法。
LSI模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音。
然而在LSI模型中,对稀有类别很重要的分类特征,可能因为在整个文档集中不重要而被滤掉。
针对这一问题,本文提出了一种新颖的扩展LSI模型的文本分类模型。
新模型在尽量保留文档信息的同时,增加考虑了文档的类别信息。
这样,新模型将能比LSI模型更好地表示原始文档空间中的潜在语义结构。
在实验中,本分类模型也表现出了非常好的分类性能。
关键词:文本分类潜在语义索引偏最小二乘分析中图分类号:TP18 文献标识码: A1 引言自动文本分类就是在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
如今,已经有很多基于统计和机器学习的文本分类算法,如:回归模型、K近邻、决策树、朴素贝叶斯和支持向量机等[1]。
其中,很多现有的分类算法都是基于从文本中抽取关键词(经常是单独的词)的方法。
在这种方法中,假定一个关键词唯一地代表一个概念或语义单元;然而实际的情况是:一个词往往有多个不同的含义,多个不同的词也可以表示同一个语义。
这就是所谓的一词多义和多词一义。
比如:“马上”可以有“立刻”的意思,也可以理解为“马的上面”;“感冒”、“伤风”和“着凉”却代表着同一种疾病。
像这样的情况是很难由计算机自动判别的。
一词多义和多词一义,是所有基于语义的算法必须解决的两个主要问题。
潜在语义索引(LSI: Latent Semantic Indexing)[2],是近年来比较有效的算法之一。
LSI 把原始的向量空间转换成潜在语义空间,文档和查询就在转换后的语义空间上进行表示和比较。
实验表明这种方法可以在一定程度上解决一词多义和多词一义问题:新的语义空间是原始“文档向量矩阵”的线性组合变换得到的,一般认为这个空间能捕捉文档集中的潜在语义结构。
由于LSI在信息检索中的优异表现[2],就有人开始尝试将其应用于文本分类领域。
SEO 名词解释大全1) 301重定向网址重定向最为可行的一种办法。
当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的HTTP数据流中头信息(header)中的状态码的一种,表示本网页永久性转移到另一个地址。
2)adwords Google的 PPC( Pay Per Click )广告,是很多网站常用的一种广告形式.3) algorithm (算法) 这是搜索引擎用来检索内容和计算相关信息的程序.4) alt 是展示给终端用户的图片的描述.加入 ALT Tag 后,如果图片没有显示,浏览器就会在本来图片的位子用文字的方式显示 ALT Tag 的内容,来帮助浏览者浏览网页。
详细图片ALT信息请看: 5) B2B:Business to Business.6) B2C:Business to Consumer7) C2C:Consumer to Consumer8) back link 即反向链接.常规链接在源文档内部进行声明和显示,而反向链接则在目的文档内部进行声明.如果B网站指向 A 网站,那么B网站就是都属于A 网站的反向链接.9) black hat:黑帽,简单的讲就是 SEO作弊10) bounce rate 就是一个跳出率,当一个用户进入一个网页,接着在一个会话时间内没有看过该站其他的页面就分开了该网站,就被称作Bounce。
请注意这里有两个参数,一个是是否点击浏览其他的页面,第二个就是哪个会话时间段。
这个Bounce Rate越低越好,说明用户访问了更多的页面。
而且这个Bounce Rate已经是网站流量统计的一个通用标准,一般及格的流量统计都有。
11) bread crumbs “面包屑型”架构让用户对他们所访问的此页与彼页在层次结构上的关系一目了然。
这种网站结构的其中一个最明显的特性体现莫过于返回导览功能。
12) Canonical Issues (内容重复的一种) 所谓 Canonical Issues,主要指网站的主访问路径,如果网站存在多种访问方式,搜索引擎会取舍一种其认为最佳的方式确定为“权威地址”,比如说,对大多数网站而言,其主页可以用以下三种 URL访问:但从技术上讲,这三个Url是不同的,可以分别显示单独的内容。
前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。
理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,这一类信息极其复杂,抽象,而且存在上下文相关性,对这类信息如何在计算机中表示都是尚未解决的问题(往大里说,这是一个“知识表示”的问题,完全可以另写一系列文章来说了),更不要说让计算机来理解。
利用计算机来解决问题的标准思路应该是:为这种问题寻找一种计算机可以理解的表示方法,或曰建立一个模型(一个文档表示模型);然后基于这个模型,选择各方面满足要求的算法来解决。
用谭浩强的话说,程序,就是数据+算法。
(啥?你不知道谭浩强是谁?上过学么?学过C么?这捣什么乱?)既然文本的语义和语用信息很难转换成计算机能够理解的表示形式,接下来顺理成章的,人们开始用文章中所包含的较低级别的词汇信息来表示文档,一试之下,效果居然还不错。
统计学习方法进行文本分类(以下就简称为“统计学习方法”,虽然这个方法也可以应用到除文本分类以外的多个领域)的一个重要前提由此产生,那就是认为:文档的内容与其中所包含的词有着必然的联系,同一类文档之间总存在多个共同的词,而不同类的文档所包含的词之间差异很大[1]。
进一步的,不光是包含哪些词很重要,这些词出现的次数对分类也很重要。
这一前提使得向量模型(俗称的VSM,向量空间模型)成了适合文本分类问题的文档表示模型。
在这种模型中,一篇文章被看作特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。
它实现起来比较简单,并且分类准确度也高,能够满足一般应用的要求。
[5]而实际上,文本是一种信息载体,其所携带的信息由几部分组成:如组成元素本身的信息(词的信息)、组成元素之间顺序关系带来的信息以及上下文信息(更严格的说,还包括阅读者本身的背景和理解)[12]。
一文读懂机器学习的线性代数(10案例)
线性代数是数学的分支学科,涉及矢量、矩阵和线性变换。
它是机器学习的重要基础,从描述算法操作的符号到代码中算法的实现,都属于该学科的研究范围。
虽然线性代数是机器学习领域不可或缺的一部分,但二者的紧密关系往往无法解释,或只能用抽象概念(如向量空间或特定矩阵运算)解释。
阅读这篇文章后,你将会了解到:
如何在处理数据时使用线性代数结构,如表格数据集和图像。
数据准备过程中用到的线性代数概念,例如one-hot 编码和降维。
深度学习、自然语言处理和推荐系统等子领域中线性代数符号和方法的深入使用。
让我们开始吧。
这10 个机器学习案例分别是:
Dataset and Data Files 数据集和数据文件
Images and Photographs 图像和照片
One-Hot Encoding one-hot 编码
Linear Regression 线性回归
RegularizaTIon 正则化
Principal Component Analysis 主成分分析
Singular-Value DecomposiTIon 奇异值分解
Latent SemanTIc Analysis 潜在语义分析
Recommender Systems 推荐系统
Deep Learning 深度学习
1. 数据集和数据文件在机器学习中,你可以在数据集上拟合一个模型。
这是表格式的一组数字,其中每行代表一组观察值,每列代表观测的一个特征。
隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。
这些技术一开始都是在文本挖掘领域中提出来的,近些年它们也被不断应用到其他领域中,并得到了不错的应用效果。
比如,在推荐系统中它能够基于用户的行为对item 进行自动聚类,也就是把item划分到不同类别/主题,这些主题/类别可以理解为用户的兴趣。
对于一个用户来说,他们可能有不同的兴趣。
就以作者举的豆瓣书单的例子来说,用户A会关注数学,历史,计算机方面的书,用户B喜欢机器学习,编程语言,离散数学方面的书,用户C喜欢大师Knuth, Jiawei Han等人的著作。
那我们在推荐的时候,肯定是向用户推荐他感兴趣的类别下的图书。
那么前提是我们要对所有item(图书)进行分类。
那如何分呢?大家注意到没有,分类标准这个东西是因人而异的,每个用户的想法都不一样。
拿B用户来说,他喜欢的三个类别其实都可以算作是计算机方面的书籍,也就是说B 的分类粒度要比A小;拿离散数学来讲,他既可以算作数学,也可当做计算机方面的类别,也就是说有些item不能简单的将其划归到确定的单一类别;拿C用户来说,他倾向的是书的作者,只看某几个特定作者的书,那么跟A,B相比它的分类角度就完全不同了。
显然我们不能靠由单个人(编辑)或team的主观想法建立起来的分类标准对整个平台用户喜好进行标准化。
此外我们还需要注意的两个问题:1. 我们在可见的用户书单中归结出3个类别,不等于该用户就只喜欢这3类,对其他类别的书就一点兴趣也没有。
也就是说,我们需要了解用户对于所有类别的兴趣度。
2. 对于一个给定的类来说,我们需要确定这个类中每本书属于该类别的权重。
权重有助于我们确定该推荐哪些书给用户。
下面我们就来看看LFM是如何解决上面的问题的?对于一个给定的用户行为数据集(数据集包含的是所有的user, 所有的item,以及每个user有过行为的item列表),使用LFM对其建模后,我们可以得到如下图所示的模型:(假设数据集中有3个user, 4个item, LFM建模的分类数为4)R矩阵是user-item矩阵,矩阵值Rij表示的是user i 对item j的兴趣度,这正是我们要求的值。
基于潜在语义模型的文本聚类方法我折腾了好久基于潜在语义模型的文本聚类方法,总算找到点门道。
说实话,刚开始接触这个的时候,我完全是一头雾水。
就像在黑暗里摸索,周围啥都看不见的那种。
我知道潜在语义分析有点像把文字背后的意思给挖掘出来,但是怎么把这个用在文本聚类上呢,真是个大难题。
最开始的时候,我就按照最基本的步骤来。
先努力把文本数据整理好,这个就好比整理乱成一团的线球一样,每个文本就是一根线头,得把它们都捋顺了。
而且文本数据要处理干净,什么标点符号啊、大小写啊之类的细节都得注意。
我就犯过这样的错误,在数据库里有些文本标点乱七八糟的,没有整理就开始下一步,结果最后的聚类效果那叫一个差。
我当时都懵了,不知道哪里出了问题,后来检查了半天才发现是这个输入数据不规范的原因。
这就好比你做饭,要是食材没洗干净准备好,做出来的饭肯定难吃对吧。
然后我就开始选择合适的潜在语义模型。
有好几种呢,我试过这个试那个。
比如有那种比较传统的基于向量空间的潜在语义模型,就是将文本表示成向量,通过单词- 文档矩阵进行奇异值分解什么的。
这就好比把每个文本想象成一个小盒子,盒子里装着一个个表示单词意义的小球,通过分解这个盒子的结构来找到意义上的关系。
我当时发现并没有那么顺利,它构建矩阵的过程中如果文本数量特别大的话,那计算起来是相当的慢还特别占用资源,电脑都差点死机了。
再后来我觉得应该要先降维这个环节很重要。
就像你要穿过一个很拥挤的人群,你得找到一个捷径,降维就是这个捷径。
我摸索出先对高维的文本来一个降维处理,让处理过程能快一点。
当你把那些不太关键的维度去掉之后,就像把那些多余的人推开一样,分析核心的语义关系就更明显了。
尝试过程中我也不确定自己的每一步是不是都对。
就像走在一个没有标记的路上,只能不断地尝试。
但是通过不断观察聚类结果,就像看一个拼图拼凑后的样子是不是正常一样,如果不正常就要回头检查之前的步骤。
比如说我有一次得到的聚类结果每个类之间特别混乱,几乎看不出区别,那很明显是某个环节出了大错。
信息检索中的主题模型与文本分类算法信息检索是在海量的文本数据中,根据用户需求找到相关的信息的过程。
随着互联网的快速发展和数据爆炸式增长,信息检索变得越来越重要。
在信息检索领域,主题模型和文本分类算法是两个重要的研究方向,它们在有效提升信息检索质量和效率方面具有重要作用。
1. 主题模型主题模型是一种用来挖掘文本数据中潜在主题的统计模型。
它通过对文本进行分析和建模,识别出文本中隐藏的主题,并将文本分配到不同的主题类别中。
其中,最常用的主题模型是潜在语义分析(Latent Semantic Analysis,LSA),它通过奇异值分解(Singular Value Decomposition,SVD)将文本表示为一个低维的向量空间模型,从而实现主题的提取和文本的相似度计算。
主题模型在信息检索中的应用广泛。
例如,在文本聚类中,主题模型可以将相似的文本聚集到同一个主题类别中,实现文本的自动分类。
在推荐系统中,主题模型可以根据用户的历史行为和偏好,识别出用户感兴趣的主题,从而推荐相关的文本信息。
此外,在舆情分析、情感分析等领域,主题模型也可以帮助分析人们对于特定主题的情感倾向和态度。
2. 文本分类算法文本分类算法是一种将文本自动分类到不同类别的方法。
它通过对文本的特征提取和分类模型训练,实现对文本的自动分类。
常见的文本分类算法包括朴素贝叶斯分类器、支持向量机、神经网络等。
朴素贝叶斯分类器是一种概率模型,它基于贝叶斯定理和特征独立假设,计算文本属于不同类别的概率,从而实现分类。
朴素贝叶斯分类器在文本分类任务中广泛应用,其简单高效的特点使其成为文本分类的首选算法之一。
支持向量机是一种基于结构风险最小化原则的分类算法,它通过构建一个最优的超平面将文本分为不同的类别。
神经网络是一种模拟人脑神经元工作方式的分类算法,通过多层次的神经元网络学习并建立文本分类模型。
文本分类算法在信息检索中扮演着重要的角色。
通过将文本分类到不同的类别,可以实现对文本的有效组织和管理。
竞赛题目(在AB上打勾):AB竞赛队编号(参赛学生不填写):__________目录问题的提出 (3)问题的分析与假设 (3)模型的建立与求解 (6)效绩评价 (12)预测评估 (13)信息推荐方案 (13)模型的评价与推广 (14)附:给有关部门的信 (15)参考文献 (16)高等院校教育信息化推荐模型摘要本文针对当前我国高等院校教育信息化过程关于信息推荐方面存在的问题,进行了分析研究,建立了包含满意度、准确率、覆盖率、实时性这四个方面的信息推荐评价指标体系,通过问卷调查的方式收集相关数据,确定了各指标的权重因子。
主要利用奇异值分解法和LSA方法建立了信息推荐模型,并利用相关算法对我们设计出的模型的效绩进行检验,最后给出了具体的信息推荐方案,并对我们的模型进行了评价推广。
问题一、我们对不同用户的评测标准进行了问卷调查,通过数据分析,给出了各个指标的权重,满意度是0.243,准确率是0.265,覆盖率是0.238,实时性是0.255。
确定了外生变量:用户个体差异、网站建设。
内生变量:信息资源建设如学术网站、期刊杂志、选修综合课。
问题二、建立信息推荐模型,对奇异值分解后的矩阵进行降维,构建潜在语义空间。
通过计算得出表面上没有关联的关键词和文章之间的相关性达0.9333,验证了模型的效绩,并对模型进行了优化,给出了信息聚类图。
问题三、提出了我国高等院校教育信息推荐的具体方案。
奇异值分解和LSA方法建立信息推荐模型的优势:1、应用条件易得;2、不在局限于计算方阵,可以适用于任意矩阵,更加具有普适意义。
3、相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。
4、低维空间表示可以刻画同义词,同义词可对应相同或相似的主题。
5、降维可去除部分噪声,使特征更明显。
关键词:教育信息推荐模型、奇异值分解法、LSA方法、Spearmancoefficient相关系数一、问题的提出1、问题背景:21世纪是信息时代,随着信息技术越来越广泛的应用,互联网已经成为我们日常生活中必不可少的工具,而传统教育体系所暴露出来的弊端也日益明显,例如严重受到地域限制,教育资源分配不均,相互之间交流不够等,为使之适应信息化社会对教育发展的新要求,建设更好的教育信息平台来满足学生互联网学习的需求,教育体系信息化改革刻不容缓。
推荐系统中的数据稀疏问题及解决方法引言:随着互联网的迅速发展,推荐系统在我们的日常生活中扮演着越来越重要的角色。
然而,推荐系统中面临的一个主要挑战是数据稀疏性问题。
本文将探讨推荐系统中的数据稀疏问题以及一些解决方法。
一、数据稀疏问题的定义在推荐系统中,数据稀疏问题指的是用户和物品之间的交互数据非常稀少或者没有交互数据的情况。
这可能会导致无法准确地对用户进行个性化推荐,影响推荐系统的性能。
二、数据稀疏问题的原因1.新用户和新物品:当新用户加入系统或者新物品被引入时,推荐系统没有足够的数据来对他们进行有效的推荐。
2.长尾问题:推荐系统中,大量的物品只被少数用户评价过,导致推荐系统对这些物品了解不足。
三、解决数据稀疏问题的方法1.基于邻域的方法:这种方法基于用户或物品之间的相似性来进行推荐。
通过计算用户或物品之间的相似性,可以利用相似用户或相似物品的评价数据来填补空缺。
常用的方法有基于用户的协同过滤和基于物品的协同过滤。
2.矩阵分解方法:矩阵分解是一种将用户-物品交互矩阵分解为两个低维矩阵的方法。
通过将稀疏矩阵分解为两个稠密矩阵的乘积,可以填补数据中的空缺。
常用的方法有SVD分解和潜在语义索引(LSI)方法。
3.内容过滤方法:这种方法基于物品的内容信息来进行推荐。
通过对物品的内容进行分析,根据用户的偏好和物品的特征进行匹配,可以弥补数据的稀疏性。
常用的方法有基于内容的协同过滤和基于标签的推荐。
4.混合方法:混合方法结合了多种方法来解决数据稀疏性问题。
通过综合多种方法的优点,可以提高推荐的准确性和覆盖率。
常用的方法有基于模型的混合方法和基于领域的混合方法。
四、案例研究:Netflix的推荐系统Netflix是一家知名的在线视频流媒体服务提供商,也是推荐系统领域的代表性公司之一。
Netflix在推荐系统中使用了多种方法来解决数据稀疏问题。
首先,Netflix利用用户的历史观看记录和评分信息来构建用户-物品交互矩阵。
潜在语义索引理论及其应用作者:刘健来源:《卷宗》2015年第01期摘要:潜在语义索引(LSI)是一种信息检索代数模型,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。
文章分析了潜在语义索引的理论基础:向量空间模型和奇异值分解;阐述了潜在语义空间构成的具体步骤;并探讨了潜在语义索引在文本检索和图像检索等方面的应用。
关键字:潜在语义索引;VSM;SVD;信息检索1 引言在现代信息检索系统中,通过关键词进行检索是最为常见的做法。
大量研究表明,基于关键词的检索系统存在所谓“同义词”和“反义词”的固有缺陷:前者是指表达同一概念的词语可以有多个,因此,用户查询中所用的词语很可能在相关文档中不存在,从而造成检出率下降;后者是指同一个词语可以表达多个概念,造成检出的文档中虽然包含该词语,但在上下文语境中的意思却非用户所期望,从而导致准确率下降。
潜在语义索引方法正是为了解决上述问题而提出的。
2 潜在语义索引概述潜在语义索引,也称隐性语义索引或隐含语义索引,用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。
3 潜在语义索引的理论基础3.1 向量空间模型向量空间模型的基本思想是以向量来表示文本,它的优点在于处理逆辑简单、快捷,它将非结构化的文本表示为向量形式,使得各种数学处理成为可能。
例如:2008年原媛等发表的《基于向量空间的信息检索模型的改进》中,因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型[1]。
3.2 矩阵分解方式早先信息检索利用正交分解方法,但这种方法已经被奇异值分解取代。
对词汇一文本矩阵A的奇异值分解可以用以下公式表示:(1)其中U是t×t的正交矩阵,它的每一列是A的左奇异向量,V是d×d正交矩阵,它的每一列是A的右奇异向量,Σ是t×d对角矩阵,对角线元素是A的奇异值,按大小顺序排列,即λ1≥λ2≥……≥λmin(t,d)。