基于回归支持向量机的信息检索
- 格式:pdf
- 大小:368.33 KB
- 文档页数:8
信息检索系统导论期末考试题库一、选择题1.下列哪项不属于信息检索的关键技术?(B )A.信息抽取B.文本挖掘C.自动文摘D.链接分析2.TREC测试集主要包括3个部分,下列选项中不是TREC测试集的一部分的是:(C )A.主题B.文档集合C.关键词D.相关性判断3.对向量空间模型、布尔模型及概率模型的表述有误的一项是:(D )A.向量空间模型与布尔模型相比具有较大的优势B.向量空间模型无法揭示索引项之间的关系,因而向量空间模型在理论上还是不够完善C.布尔模型是最早提出的信息检索模型D.概率模型也称二值独立检索模型。
它是在向量空间模型的基础上为解决检索中存在的一些不确定性而引入的。
4 利用文献后面所附的参考文献进行检索的方法称为(A )A.追溯法B.直接法C.抽查法D.综合法5、逻辑“与”运算符是用来组配()A.不同检索概念,用于扩大检索范围B.相近检索概念,扩大检索范围C.不同检索概念,用于缩小检索范围D.相近检索概念,缩小检索范围6、在《中国学术期刊全文数据库》中,不可以进行()检索A.逻辑与B.逻辑或C.逻辑非D.位置7、若想在《中国学术期刊全文数据库》中提高检索结果的查准率,可使用()A.在结果中检索B.优先算符C.或者D.位置检索9、下列检索式中,哪一种属于逻辑“与”?( B )A.室内装饰+室外装饰B.音乐﹡教学C.神雕侠侣–电视剧D.火星︱金星10、下列不属于查询构造方法的是:()A 分类查询B 单一词查询C 布尔查询D 上下文查询11、PageRank算法的理论基础是随机冲浪模型,该模型描述了网络用户对网页的访问行为。
下列不属于用户访问行为特点的是:()A 用户选择的起始网页是固定的B 用户会从起始网页含有的超链接中随机选择一个页面继续浏览C 当用户沿着超链接前进了一定数量的网页后,可能会对本主题厌倦,这时用户会重新随机选择一个网页进行浏览D 用户会重复以上的过程若干次12、信息过滤系统是应用信息过滤技术处理信息的应用系统,下列对其特点的说法错误的是:()A 信息过滤系统是针对无结构的或半结构化的数据设计的信息系统,这与传统的数据库应用有着本质的区别B 信息过滤系统只处理文本信息C 信息过滤系统一般处理的数据为输入信息流D 信息过滤系统要包含一组对用户过滤需求的描述13、《中国学术期刊全文数据库》提供的文献内容特征检索途径有()A.机构B.篇名/关键词/摘要C.中文刊名D.作者14、维护倒排文件通常需要的操作有( D )文档或文档集合。
CDA-LEVELⅢ模拟题(一)一、单选题1对于分类器的性能,我们需要不同维度来进行综合衡量,以下不属于分类器评价或比较尺度的有?A.预测准确度B.查全率C.模型描述的简洁度D.计算复杂度正确答案:C,解析:模型描述简洁度不属于模型评价指标2下面有关分类算法的准确率,查全率,F1值的描述,错误的是?A.准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B查全率回旨检索出的相关文档数和文档库中所有的相关文档数的瞬,衡量的是检索系统的查全率C.正确率、查全率和F值取值触0和1之间,数值降国,查准率或查全率就越高D.为了解决准确率和查全率冲突问题,引入了fi分数正确答案:C ,解析:无解析3回归树是可以日于回归的决策树模型,一个回归树又寸应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。
以下哪个指标可用于回归树中的模型上降A.Adjusted R2B.F-measureC.AUCD.Precision & Recall正确答案:A,解析:F-measure. AUC、Precisin & Recall是分类模型的评价指标4 序列模式挖掘(sequence pattern mining )是指挖掘相对时间或其他模式出现频率高的模式典型的应用还是限于离散型的序列。
下列哪个选项不属于序列模式的时限约束?,A.最大跨度约束B.主键约束C.最小间隔和最大间隔约束D.窗口大小约束正确答案:B,解析:序列模式的时限约束包括最壮度约束、最大间隔和最小间隔约束、窗口大小约束5 Apriroi算法中,候选序列的个数比候选项集的个数大得多,产生更多候选的原因有?A.l个项在项集中最多出现一次,但一个事件可以在序列中出现多次B.一个事件在序列中最多出现一次,但一个项在项集中可以出现多次C.次序在序列中和项集中都是重要的D.序列和以合并正确答案:A,解析:无解析6 考虑下面的频繁3-项集的集合:{1, 2. 3}, {1, 2. 4}, {1, 2, 5}, {1, 3, 4}, {1, 3, 5),{1,4,5}, {2, 3, 5}, {3, 4, 5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含:A.1, 2, 3, 4B.1, 2, 3, 5C.1, 2, 4, 5D.1, 3, 4, 5正确答案:C,解析:无解析7广为流传的“啤酒与尿布”的故事,其背后的模型实际上是哪一类?A.分类(Classification)B.分群(Clustering)C.关联(Assciation)D.预测(Prediction)正确答案:C,解析:"啤酒与尿布”是关联规则的经典故事8 Apriori算法,最有可能可用来解决以下哪个问题?A电子商务网站向顾客推荐商品的广告B.信用卡欺诈识C.电信用户离网预警D预测GDP与工业产值之间的关系正确答案:A,解析:Apriori算法是关联规则挖掘算法,它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则9在聚类(Clustering)的问题中,若缄字段属性都是二元属性(Binary Variable),根据下表,下列何者是Jaccard Coefficient计算数据间品巨离的公式?答案:A,10以下哪个选项是分割式聚类算法?A.K-MeansB.Centroid MetohdC.Ward's MethodD.以上皆非正确答案:A,解析:无解析11在机器学习中,非监督学习主要用来分类.其中重要的两种就是聚类分析和主成分分析,下列那个选项不是聚类分析的算法A.Two-StepQ B.FP-GrowthC.Centrid MethodD.Ward's Method正确答案:B,解析:FP-Growth是关联分析算法12、下列哪种集成方法,会重复抽取训练数据集中的数据,且每笔被抽中的概率始终保持一样?A.袋装法(Bagging)B.提升法(Boosting)C.随机森林(Random Forest)D.以上皆是正确答案:A,解析:无解析13 提升法Boosting是一种可以用来减小监督式学习中偏差的机器学习算法。
本文提出了一种新的基于的相关反馈算法。
我们SVM 认为检索过程中的样本集合是一个动态增长的集合。
对于用户每次反馈的图像,可以分为感兴趣的样本正例和不感兴()趣的样本反例两类,用来更新原有的样本集合。
通过不断()的积累,样本集合会逐渐达到学习的要求,从而解决SVM 上述算法中样本不足的困难。
本文算法的第个改进之处在2于考虑了检索过程中历史信息的利用。
每一次新的反馈之后,旧的权值经过衰减和新的权值共同决定图像库中所有图像的排序。
实验结果证明了文中算法的有效性和系统检索能力的提高。
支持向量机1 (SVM)给定线性可分样本(x i ,y i …),i=1,,N, y i ∈,,{-11}x i ∈R d 。
0b w x+=⋅假定某个超平面可以将正例与反例分开称之为(()g x b w x =+⋅分类超平面,对应分类函数为。
最优分类) 面是令正例和反例之间的距离最大化的分类超平面。
将g(x )w 归一化之后,求解最优分类面的问题等价于最小化,目标函数为:2min ()12w w Φ= (1)()10i i y w x b ⋅+−≥公式的约束条件为:(1)i=1, 2, … , N i α定义个算子N Lagrange ,i=1,…。
求解该二次优化, N ∑==N i i i i x w y 1αx i 问题,可以得到最优分类面,其中,是 位于分类间隔面上的样本,称为支持向量。
分类函数为:()()b y sign f x x x i i i i +•=∑α (2)在数据不是线性可分的情况下,一方面,引入惩SVM 罚系数和松弛系数C ξi ,…,修改目标函数为:i=1, , N()()()11,2Ni C w w w φξ•=+∑⋅(3)另外,注意到公式中仅仅出现了点积的形式(2)xx ji •。
假设先将数据映射到某个欧氏空间,映射ψ:H ψ : R d →H ()()i j x x Ψ•Ψ则公式中的点积转化为中的点积。
信息检索系统中的文本分类与推荐算法引言随着互联网的快速发展和信息爆炸的时代到来,人们面临着海量的信息,如何高效地获取相关的信息变得越来越重要。
信息检索系统作为一个有效的工具成为人们处理信息的重要手段之一。
其中,文本分类和推荐算法作为信息检索系统中的重要组成部分,在提高检索系统的效率和准确性方面发挥着重要的作用。
一、文本分类1.1 概述文本分类是将一篇文本按照它的内容和主题进行分类的过程。
通过文本分类,我们可以将大量的文本按照一定的标准和规则进行划分,使得用户可以更加方便地获取所需的信息。
1.2 文本分类的方法在文本分类中,常见的方法有基于规则的分类、基于统计的分类和基于机器学习的分类。
1.2.1 基于规则的分类基于规则的分类方法是依据事先定义好的规则和特征来进行分类的。
通过提取文本中的特征,如词频、关键字等,然后根据设计好的规则进行分类。
1.2.2 基于统计的分类基于统计的分类方法是通过统计文本中的词频等特征信息,然后利用统计学原理对文本进行分类。
常见的方法有朴素贝叶斯分类算法、支持向量机等。
1.2.3 基于机器学习的分类基于机器学习的分类方法是利用机器学习的算法对文本进行分类。
通过构建训练集和测试集,将文本转化为机器学习算法能够处理的形式,如词袋模型、向量空间模型等,然后利用机器学习算法进行分类。
二、推荐算法2.1 概述推荐算法是信息检索系统中的重要组成部分。
通过分析用户的兴趣、需求等信息,推荐算法可以为用户提供个性化的推荐结果,提高用户的满意度和使用效果。
2.2 推荐算法的方法在推荐算法中,常见的方法有基于内容的推荐、协同过滤推荐和混合推荐算法。
2.2.1 基于内容的推荐基于内容的推荐是依据物品的特征和用户的兴趣进行推荐的。
通过分析物品的属性和用户的喜好,将用户喜欢的物品推荐给其他相似兴趣的用户。
2.2.2 协同过滤推荐协同过滤推荐是通过分析用户之间的关系,利用用户的历史行为和偏好进行推荐的。
基于回归支持向量机的信息检索*韩咏1,齐浩亮1,杨沐昀2,李生21黑龙江工程学院,哈尔滨,1500502哈尔滨工业大学,哈尔滨,150001E-mail: haoliang.qi@摘要:从本质上看,信息检索应按照文档满足用户信息需求程度进行排序,因此当前以分类和排序策略为主流的研究方式存在与信息检索目标相关性较弱的缺点。
本文尝试使用回归分析策略,以文档满足用户的信息需求程度作为回归分析的目标值,利用回归支持向量机构建信息检索模型。
该模型不仅提供了融合不同来源特征的灵活框架,而且由于使用回归支持向量机寻找具有ε不敏感损失的回归函数,因此具有良好的泛化性能。
通过在TREC测试数据上的实验表明,本文模型性能优于目前主流的基于语言模型的信息检索方法。
关键词:信息检索;回归分析;支持向量机;再采样Information Retrieval Based onSupport Vector Machine RegressionHAN Yong1, QI Haoliang1, YANG Muyun2, LI Sheng2State Key Lab of Intelligent Technology and Systems Tsinghua University, Beijing 100084E-mail: haoliang.qi@Abstract: The task of IR is to rank the documents according to the degree which satisfies the user information need, so the current models based on classification and ranking poorly correlate with the IR target. The regression method is explored in this paper for IR, and the degree is used as regression target value. Support Vector Machine Regression (SVMR)is adopted in the framework because it provides a flexible framework to incorporate arbitrary features. SVMR was used to find a regression function with ε insensitive loss, which allows good generalization. The effectiveness of the approach was evaluated on the task of ad hoc retrieval using two TREC English test sets. Results show that the new model outperforms the state-of-the-art language modeling approaches Keywords: information retrieval; regression analysis; support vector machine; resample1 引言随着信息时代的到来,各种信息资源越来越丰富,信息检索(Information Retrieval,IR)系统成为人们获取信息必不可少的工具。
信息检索的任务是在待检索文档集中依据用户信息需求,按相关程度对文档进行排序,作为对检索用户所提出查询的回应。
影响信息检索系统性能的因素有很多,其中最为关键的是信息检索建模。
Pont和Croft于1998年提出的语言模型在信息在信息检索领域产生重大影响,不仅具有坚实的理论基础,而且在实验中取得了很好的效果,是当前最为成功的方法之一[1]。
语言模型是典型的参数化推理方法,存在经典体系的缺点,如大规模多变量的分析计算引起的“维数灾难”、实际数据的分布差*国家自然科学基金重点项目(60435020)、国家自然科学基金项目(60873105)、黑龙江省自然科学基金项目(F2007-14)、黑龙江省科技攻关计划项目(GZ07A108)、哈尔滨市科技局青年创新人才项目(2009RFQXG213)异导致的基于经典的统计分布函数方法失效等[2]。
为了克服其存在的缺点,近年来在许多领域获得成功的判别学习模型也被引入到信息检索中,成为当前的研究主流方法。
在信息检索中的应用的判别学习方法一般采用两种策略:分类的方法和排序方法方法。
Nallapat 将信息检索视为分类问题[3],使用了支持向量机(Support Vector Machine, SVM)和最大熵(Maximum Entropy)两种算法,结果并不理想,性能明显低于语言模型;Cooper的分段逻辑回归算法(Staged Logistic Regression)[4],但性能也不佳。
其原因在于将信息检索视为分类问题从而存在以下问题:1)分类与检索的任务(按文档的相关度排序)并不直接相关,仅是弱相关;2)信息检索中训练样本太少,且面临严重的数据不平衡(Unbalance Data)。
将信息检索视为对文档的排序,在排序框架下解决检索问题是最近几年的新进展。
这方面的工作包括:Gao、Qi和 Xia等采用基于感知器算法的排序算法[5],Cao、Xu和Li的改进Ranking SVM算法[6],微软公司为信息检索提出了RankNet算法[7],并进行了应用[8,9,10]。
文献[11,12]使用表排序策略而不是上述这些工作的基于文档序对数的排序,取得了更好的效果。
在排序算法框架下解决检索与以往的模型相比,提高了与信息检索任务的相关度,但与信息检索的任务还不直接相关,影响了检索的性能的进一步提升。
本文将信息检索视为回归分析问题,尝试回归分析的框架下,引入回归支持向量机这一典型判别学习方法[13]解决检索问题。
所谓回归问题就是在训练样本上找到一个函数,它可以从输入域近似映射到实数值上。
而对于信息检索来说,文档的相关度就是回归分析的回归值,这样与信息检索的任务高度一致,因此它能够取得良好的效果。
传统上,使用系统输出和训练值之间的偏差的平方和作损失函数,即最小二乘法优化参数。
回归支持向量机与传统的回归分析相比,引入了ε不敏感损失函数,它可以忽略真值某个上下范围内的误差,具有优化的泛化界。
在大噪声的情况下,回归支持向量机的性能明显优于原始的最小二乘法[14],而在信息检索中存在大量很难拟和的样本。
将它应用到信息检索中,可以避免将检索视为分类问题(如最大熵模型、支持向量机模型)和生成模型(如语言模型)带来的问题,取得良好的效果。
在信息检索中使用回归分析框架,还可以充分利用最新的人工标注语料进一步提升性能,如微软公司标注了5等级相关性,TREC 2005在部分TRACK 上标注了3等级相关性。
我们模型的有效性在TREC ad hoc测试中得到了验证。
实验结果表明,我们的模型性能高于当前主流的基于语言模型的信息检索方法。
本文的随后部分安排如下。
第二部分介绍了面向信息检索的回归支持向量机。
第三部分是实验结果及结果讨论。
最后是本文的结论和未来工作。
2 基于回归支持向量机的信息检索本节阐述基于回归支持向量机的信息检索。
首先简单介绍模型中使用的特征集,然后介绍使用回归支持向量机优化参数;最后讨论如何处理数据不平衡问题,这是将回归支持向量机应用到信息检索时特有的问题。
2.1 特征集本文使用的特征包括一元文法特征、二元文法特征和语言学特征。
文中的特征集包含n 个特征f i(q, c, d),其中i = 1,2,…, n,式中的C为概念,例如组块是一种概念,二元文法中相邻词也构成概念;q 为用户查询,d 为待检索的文档。
特征f i (q, c, d)是一个映射,该映射将(q, c, d) 映射到一个实数,即f i (q, c, d) ∈ℜ。
使用向量表示方法,有f (q,c,d) ∈ℜN ,即f (q,c,d) = {f 1(q,c,d), f 2(q,c,d), …, f N (q,c,d)}。
这些特征包括:z f 1(.) 是一元文法特征,是一元文法概率的对数值,也就是f 1(q, d) = ∑i log(P (q i |d));z f 2(.) 是二元文法特征,是二元文法概率的对数值,也就是 f 2(q, d) = ∑i log(P (q i |q i-1,d)); z f 3(.) 是文档模型特征,是文档模型的概率的对数值,也就是 f 3(q, c, d) = ∑i log(P (h i |h i-1, d)),h i 为相关的概念模型的中心词(Head Word ); zf i (.)是n-3个概念特征,其中i = 4,…,n 。
它们的值可以是相关概念模型(例如名词短语、动词短语、形容词短语)的概率的对数值,也可以根据发启式规规分配(如factoid )。
文献[5]描述了特征集的详细信息。
2.2 基于回归支持向量机的学习支持向量机作为一种新兴的分类算法广泛应用于模式识别的各个分支,已经发展成为机器学习中一个独立的子领域。
在线性可分的情况下,感知器算法寻找任意一个能够区分样本的超平面。
如图1a,这是一个二维线性可分的例子,灰色的区域表示表示所有可能将数据正确分类的分类面集合。
而支持向量机算法寻找具有最大间隔的超平面。
该超平面是感知器寻找的分类超平面中的一个特例。
该超平面是唯一存在的, 并且是所有能够区分样本的超平面中最优的,它有良好的泛化性能力[14],如图1 b 所示。
最优分类面是距离支持向量(图1b 中的点1、2、3)的距离最远的超平面f=0。
支持向量机算法也被扩展到解决回归问题,被称为回归支持向量机。
回归支持向量机与传统的回归分析相比,引入了ε不敏感损失函数,它可以忽略真值某个上下范围内的误差,具有优化的泛化界。
该模型解决了回归问题和时间序列预测问题,在很多领域获得了成功应用。
本文应用线性回归支持向量机解决检索问题。
给定包含 个样本(x i ,y i )的训练集,其中x i 为n 维空间中的向量,y i 为实数。
设待估计线性回归函数为f (x)w x+b =i (1)图1 最优超平面其中b ∈R ,X 为特征向量f 。
回归支持向量机中的ε不敏感损失函数等价于支持向量机中的松弛变量,最小化的目标函数为:2i i=11||w ||C (())2L y f x +−∑(2) 其中(())L y f x −为每一个样本上损失。