潜在语义模型 LSI
- 格式:pptx
- 大小:1.05 MB
- 文档页数:22
机器学习小例子它是机器学习的重要基础,从描述算法操作的符号到代码中算法的实现,都属于该学科的研究范围。
虽然线性代数是机器学习领域不可或缺的一部分,但二者的紧密关系往往无法解释,或只能用抽象概念(如向量空间或特定矩阵运算)解释。
阅读这篇文章后,你将会了解到:如何在处理数据时使用线性代数结构,如表格数据集和图像。
数据准备过程中用到的线性代数概念,例如one-hot编码和降维。
深度学习、自然语言处理和推荐系统等子领域中线性代数符号和方法的深入使用。
让我们开始吧。
这10个机器学习案例分别是:1.DatasetandDataFiles数据集和数据文件2.ImagesandPhotographs图像和照片3.One-HotEncodingone-hot编码4.LinearRegression线性回归5.Regularization正则化6.PrincipalComponentAnalysis主成分分析7.Singular-ValueDecomposition奇异值分解tentSemanticAnalysis潜在语义分析9.RecommenderSystems推荐系统10.DeepLearning深度学习1.数据集和数据文件在机器学习中,你可以在数据集上拟合一个模型。
这是表格式的一组数字,其中每行代表一组观察值,每列代表观测的一个特征。
例如,下面这组数据是鸢尾花数据集的一部分数据集:5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa这些数据实际上是一个矩阵:线性代数中的一个关键数据结构。
接下来,将数据分解为输入数据和输出数据,来拟合一个监督机器学习模型(如测量值和花卉品种),得到矩阵(X)和矢量(y)。
lsi的名词解释
LSI是潜在语义索引(Latent Semantic Indexing)的缩写,是一种文本挖掘和信
息检索的技术。
它通过对文本语料进行分析和处理,可以帮助改善搜索引擎的准确性和性能。
LSI的基本原理是通过将文本转换成高维的数学向量表示,在向量空间中比较
文本之间的相似性。
LSI首先会构建一个词项-文档矩阵,其中每一行代表一个文档,每一列代表一个词项,矩阵的元素表示词项在文档中的权重。
然后,使用特征值分解技术对这个矩阵进行分解,得到文档的隐含语义。
通过降维和减少噪声,
LSI可以揭示文本之间的语义相关性,从而提高搜索引擎的结果质量。
LSI可以用于各种文本相关的应用,包括信息检索、文本聚类、文本分类等。
在信息检索方面,LSI可以解决传统关键词匹配带来的问题,如同义词、多义词和
相关性不高的结果。
它可以根据文本的语义信息,对查询进行扩展和修正,提供更准确和相关的搜索结果。
在文本聚类和分类方面,LSI可以将相似的文本归为一类,从而帮助用户理解和组织大量的文本信息。
总之,LSI作为一种潜在语义索引的技术,通过对文本进行语义分析和建模,
可以提高搜索引擎的准确性和性能,以及改善文本相关应用的效果。
概率潜在语义模型综述信息检索本质上是语义检索, 而传统信息检索系统都是基于独立词索引, 因此检索效果并不理想. 概率潜在语义索引是一种新型的信息检索模型, 它在潜在语义索引模型思想的基础上, 通过EM迭代算法将词向量和文档向量投影到一个低维空间, 消减了词和文档之间的语义模糊度, 使得文档之间的语义关系更为明晰。
论述了概率潜在语义索引的理论基础, 探讨了隐含语义索引在信息处理处理中的应用。
标签:信息检索;潜在语义索引;SVD分解;概率潜在语义索引1 简介传统的信息检索模型可归为三类:布尔模型、向量空间模型和概率模型。
它们都分别把文本和查询表示为索引词的集合,尽管使用了不同的方法,但本质上均为某种形式的索引词的匹配,而没有进一步做语义上的分析。
自然语言中存在大量的同义词、多义词,这分别对传统检索模型的召回率和准确率有不利的影响。
检索系统要求用户提供足够多精确、无歧义的关键词才有可能得到所需要的信息,这大大增加了系统使用的难度。
为了进行更自然更人性化的查询,检索系统必须能够处理自然语言中的同义、多义现象,进行语义上的分析。
潜在语义分析(LSA)是一种发现潜在语义并分析文档、词和语义三者之间关系的方法。
其主要思想是通过统计分析来发现文档中词与词之间存在的某种潜在的语义结构,并且使用这些潜在的语义结构来表示词和文本。
虽然潜在语义分析在信息检索领域取得了令人满意的效果,但是它存在几个缺陷:首先由于潜在语义分析过程中奇异值分解的物理意义不够明确,较难控制词义聚类的效果;此外这个算法的空间和时间复杂度太大,在目前的计算机硬件条件下很难实际适应实际应用。
针对潜在语义分析的这些缺陷,Hoffmann 提出了一种新的方法-概率潜在语义分析(PLSA),该方法使用概率模型来表示“文档—潜在语义—关键词”三者之间的关系,文档和关键词都可以映射到同一个语义空间,这样,文档和文档以及文档和关键词之间的相似度都可以通过计算语义空间上的夹角而得以量化。
一种基于潜在语义结构的文本分类模型摘要:潜在语义索引(LSI)模型,是一种已经成功地应用于文本分类等很多领域的算法。
LSI模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音。
然而在LSI模型中,对稀有类别很重要的分类特征,可能因为在整个文档集中不重要而被滤掉。
针对这一问题,本文提出了一种新颖的扩展LSI模型的文本分类模型。
新模型在尽量保留文档信息的同时,增加考虑了文档的类别信息。
这样,新模型将能比LSI模型更好地表示原始文档空间中的潜在语义结构。
在实验中,本分类模型也表现出了非常好的分类性能。
关键词:文本分类潜在语义索引偏最小二乘分析中图分类号:TP18 文献标识码: A1 引言自动文本分类就是在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
如今,已经有很多基于统计和机器学习的文本分类算法,如:回归模型、K近邻、决策树、朴素贝叶斯和支持向量机等[1]。
其中,很多现有的分类算法都是基于从文本中抽取关键词(经常是单独的词)的方法。
在这种方法中,假定一个关键词唯一地代表一个概念或语义单元;然而实际的情况是:一个词往往有多个不同的含义,多个不同的词也可以表示同一个语义。
这就是所谓的一词多义和多词一义。
比如:“马上”可以有“立刻”的意思,也可以理解为“马的上面”;“感冒”、“伤风”和“着凉”却代表着同一种疾病。
像这样的情况是很难由计算机自动判别的。
一词多义和多词一义,是所有基于语义的算法必须解决的两个主要问题。
潜在语义索引(LSI: Latent Semantic Indexing)[2],是近年来比较有效的算法之一。
LSI 把原始的向量空间转换成潜在语义空间,文档和查询就在转换后的语义空间上进行表示和比较。
实验表明这种方法可以在一定程度上解决一词多义和多词一义问题:新的语义空间是原始“文档向量矩阵”的线性组合变换得到的,一般认为这个空间能捕捉文档集中的潜在语义结构。
由于LSI在信息检索中的优异表现[2],就有人开始尝试将其应用于文本分类领域。
SEO 名词解释大全1) 301重定向网址重定向最为可行的一种办法。
当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的HTTP数据流中头信息(header)中的状态码的一种,表示本网页永久性转移到另一个地址。
2)adwords Google的 PPC( Pay Per Click )广告,是很多网站常用的一种广告形式.3) algorithm (算法) 这是搜索引擎用来检索内容和计算相关信息的程序.4) alt 是展示给终端用户的图片的描述.加入 ALT Tag 后,如果图片没有显示,浏览器就会在本来图片的位子用文字的方式显示 ALT Tag 的内容,来帮助浏览者浏览网页。
详细图片ALT信息请看: 5) B2B:Business to Business.6) B2C:Business to Consumer7) C2C:Consumer to Consumer8) back link 即反向链接.常规链接在源文档内部进行声明和显示,而反向链接则在目的文档内部进行声明.如果B网站指向 A 网站,那么B网站就是都属于A 网站的反向链接.9) black hat:黑帽,简单的讲就是 SEO作弊10) bounce rate 就是一个跳出率,当一个用户进入一个网页,接着在一个会话时间内没有看过该站其他的页面就分开了该网站,就被称作Bounce。
请注意这里有两个参数,一个是是否点击浏览其他的页面,第二个就是哪个会话时间段。
这个Bounce Rate越低越好,说明用户访问了更多的页面。
而且这个Bounce Rate已经是网站流量统计的一个通用标准,一般及格的流量统计都有。
11) bread crumbs “面包屑型”架构让用户对他们所访问的此页与彼页在层次结构上的关系一目了然。
这种网站结构的其中一个最明显的特性体现莫过于返回导览功能。
12) Canonical Issues (内容重复的一种) 所谓 Canonical Issues,主要指网站的主访问路径,如果网站存在多种访问方式,搜索引擎会取舍一种其认为最佳的方式确定为“权威地址”,比如说,对大多数网站而言,其主页可以用以下三种 URL访问:但从技术上讲,这三个Url是不同的,可以分别显示单独的内容。
前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。
理想的结果当然是让计算机在理解文章内容的基础上进行这样的分类,然而遗憾的是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,这一类信息极其复杂,抽象,而且存在上下文相关性,对这类信息如何在计算机中表示都是尚未解决的问题(往大里说,这是一个“知识表示”的问题,完全可以另写一系列文章来说了),更不要说让计算机来理解。
利用计算机来解决问题的标准思路应该是:为这种问题寻找一种计算机可以理解的表示方法,或曰建立一个模型(一个文档表示模型);然后基于这个模型,选择各方面满足要求的算法来解决。
用谭浩强的话说,程序,就是数据+算法。
(啥?你不知道谭浩强是谁?上过学么?学过C么?这捣什么乱?)既然文本的语义和语用信息很难转换成计算机能够理解的表示形式,接下来顺理成章的,人们开始用文章中所包含的较低级别的词汇信息来表示文档,一试之下,效果居然还不错。
统计学习方法进行文本分类(以下就简称为“统计学习方法”,虽然这个方法也可以应用到除文本分类以外的多个领域)的一个重要前提由此产生,那就是认为:文档的内容与其中所包含的词有着必然的联系,同一类文档之间总存在多个共同的词,而不同类的文档所包含的词之间差异很大[1]。
进一步的,不光是包含哪些词很重要,这些词出现的次数对分类也很重要。
这一前提使得向量模型(俗称的VSM,向量空间模型)成了适合文本分类问题的文档表示模型。
在这种模型中,一篇文章被看作特征项集合来看,利用加权特征项构成向量进行文本表示,利用词频信息对文本特征进行加权。
它实现起来比较简单,并且分类准确度也高,能够满足一般应用的要求。
[5]而实际上,文本是一种信息载体,其所携带的信息由几部分组成:如组成元素本身的信息(词的信息)、组成元素之间顺序关系带来的信息以及上下文信息(更严格的说,还包括阅读者本身的背景和理解)[12]。