现代信息检索第3章-IR模型(再次再次修正版)
- 格式:pdf
- 大小:747.24 KB
- 文档页数:94
信息检索模型刘挺哈工大信息检索研究室2004年秋提纲信息检索模型的概述布尔模型向量空间模型(VSM)扩展的布尔模型潜在语义索引模型(LSI)概率模型基于统计语言模型的信息检索模型 基于本体论的信息检索模型信息检索模型的概述什么是模型?模型是采用数学工具,对现实世界某种事物或某种运动的抽象描述面对相同的输入,模型的输出应能够无限地逼近现实世界的输出举例:天气的预测模型模型和实现的区别一个模型可以用多种方法实现例如:布尔模型可以用倒排文档(inverted file)实现,也可以用B-tree实现信息检索模型四元组[D, Q, F, R(q i, d j)]D: 文档集的机内表示Q: 用户需求的机内表示F: 文档表示、查询表示和它们之间的关系的模型框架(Frame)R(q i, d j): 给query q i和document d j评分信息检索模型决定于:从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度模型分类布尔模型(Boolean Model)布尔模型文档表示一个文档被表示为关键词的集合查询式表示查询式(Queries)被表示为关键词的布尔组合,用“与或非”连接起来,并用括弧指示优先次序匹配一个文档当且仅当它能够满足布尔查询式时,才将其检索出来不同的系统可以使用:不同的去除停用词(stopword removal)策略和stemming策略 索引中不同类型的辅助信息不同的实现方法强调到目前为止,布尔模型是最常用的检索模型,因为:由于查询简单,因此容易理解通过使用复杂的布尔表达式,可以很方便地控制查询结果相当有效的实现方法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能,即“扩展的布尔模型”问题布尔模型被认为是功能最弱的方式,其主要问题在于不支持部分匹配,而完全匹配会导致太多或者太少的结果文档被返回非常刚性: “与”意味着全部; “或”意味着任何一个如果“我想要n个词中m个词同时出现的文档”,怎么表示?不可能企望用户自己规定m值系统可以从m=n开始,然后逐渐减少m,但很麻烦很难表示用户复杂的需求很难控制被检索的文档数量原则上讲,所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重,所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关,怎样相应地修改查询式呢?向量空间模型统计模型基于关键词(一个文本由一个关键词列表组成)根据关键词的出现频率计算相似度例如:文档的统计特性用户规定一个词项(term)集合,可以给每个词项附加权重未加权的词项:Q=〈database; text; information 〉加权的词项: Q = 〈database 0.5; text 0.8; information 0.2 〉 查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如:Q ⇒〈database; text; information; document〉统计模型中的问题怎样确定文档中哪些词是重要的词?怎样确定一个词在某个文档中或在整个文档集中的重要程度?怎样确定一个文档和一个查询式之间的相似度?在WWW中,什么是文档集(collection),链接、文档结构以及其它形式特征(如字体、颜色等)对统计模型有何影响?向量空间模型若干独立的词项被选作索引项(index terms) or词表vocabulary 索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?体系结构总线计算机数据库….XML计算机科学文档集文档集中的索引项向量空间模型向量空间模型实际上,这些词项是相互关联的 当你在一个文档中看到“计算机”, 非常有可能同时看到“科学”当你在一个文档中看到“计算机”,有中等的可能性同时看到“商务”当你在一个文档中看到“商务”,只有很少的机会同时看到“科学”向量空间模型2个索引项构成一个二维空间,一个文档可能包含0, 1 或2个索引项d i= 〈0, 0 〉(一个索引项也不包含)d j= 〈0, 0.7 〉(包含其中一个索引项)d k= 〈1, 2 〉(包含两个索引项)类似的,3个索引项构成一个三维空间,n个索引项构成n维空间一个文档或查询式可以表示为n个元素的线性组合图示文档集相似度计算相似度是一个函数,它给出两个向量之间的相似程度 查询式和文档都是向量,各类相似度存在于:两个文档之间两个查询式之间一个查询式和一个文档之间人们曾提出大量的相似度计算方法,因为最佳的相似度计算方法并不存在。
目录上篇图书馆概述第一章图书馆概述第二章数字图书馆下篇信息检索第三章信息检索基础知识第四章数据事实检索第五章特种文献检索第六章国外部分重点检索工具第七章网络信息资源检索与利用第八章学术论文撰写及发表第一章现代图书馆概述一、图书馆史略文字的产生和文献的出现,是人类社会进入文明阶段的重要标志。
当人类意识到需要将经验和知识用文字记录下来以供利用时,最古老的文献便产生了。
当人们认识到需要对已产生的文献进行连续不断的收集,并将收集到的、有一定数量的文献有序地存放在一起以便长久保存和利用时,最早的图书馆便诞生了。
考古发现,在约公元前3000年的河南安阳的殷墟的一个窖穴里,有2万多块甲片整齐地摆放在一起,这是已知最早的图书馆。
中国最早的文献形态,是公元前14~前11世纪,商代后期的甲骨文献和金文文献。
商代设有史官,掌管记录统治者的言行及重大事件的图书档案。
周代除王室有收藏文献的库室外,各诸侯国也有本国的文献库室,因为最晚在春秋战国时已流行以竹木和缣帛为载体的文献,记录文字较前便利得多。
在以上这段时期,图书和档案工作是结合在一起的。
隋唐写本书盛行,推动了图书馆事业的发展。
唐代发明的雕版印刷术,至宋代得到普遍推广,文献的生产更加方便,五代十国曾一度凋敝的图书馆事业又迅速复兴起来,并且出现了新的图书馆类型—书院藏书。
金、元两代图书馆没有重大发展。
明代又掀起高潮,以私人藏书成绩最为可观,成了图书馆事业的主流。
清代无论是官府藏书还是私家藏书在数量和规模上都大大超越了前代。
鸦片战争以后,封建时代的图书馆事业逐渐向近代公共图书馆事业过渡。
1902年,浙江绍兴的徐树兰以一己之力筹建古越藏书楼,于1904年正式开放。
湖南图书馆和湖北图书馆也先后成立。
北京图书馆的前身京师图书馆1910年开始筹建,1912年正式开放。
近代大学图书馆的产生,在时间上要早于近代公共图书馆。
1902年由中国人自己创办的京师大学堂(北京大学前身)图书馆为最早;由外国人在中国创办的教会大学图书馆,以1894年成立的上海圣约翰大学图书馆为最早。
信息检索模型nlp -回复NLP中的信息检索模型信息检索(Information Retrieval,简称IR)是指根据用户的信息需求,在大规模的文本数据中找到与之相关的文档。
随着自然语言处理(Natural Language Processing,简称NLP)的发展,越来越多的关注被放在将NLP技术应用于信息检索任务上。
本文将以"信息检索模型NLP"为主题,逐步介绍NLP在信息检索中的应用及相关模型。
1. 信息检索的挑战在海量的文本数据中,有效地寻找与用户需求相关的文档是一个巨大的挑战。
用户通常通过自然语言进行查询,而文档中的内容也是以自然语言描述的。
为了解决这个问题,NLP技术被引入到信息检索中。
2. NLP在信息检索中的应用NLP技术在信息检索中的应用主要包括以下几个方面:2.1 语义理解在信息检索过程中,理解用户查询的语义是至关重要的。
传统的基于关键词匹配的检索方法可能无法准确捕捉到用户的意图。
NLP技术可以帮助将用户查询转化为更准确的语义表示,从而提高检索的准确性。
2.2 文本摘要当用户在信息检索中得到大量的文档作为结果时,阅读和理解所有文档可能是不现实的。
NLP技术可以用来自动生成文本摘要,帮助用户快速了解文档的主要内容。
2.3 文本分类根据用户的信息需求,将文档进行分类是信息检索中的常见任务。
NLP 技术可以将文本进行特征提取,并使用机器学习算法进行分类。
2.4 相关性排序在信息检索的结果页面上,通常会将与用户查询最相关的文档排在前面。
NLP技术可以帮助建模文档与查询之间的语义相关性,从而提高排序的准确性和用户满意度。
3. NLP在信息检索中的模型下面将介绍几种常见的NLP模型在信息检索中的应用:3.1 词袋模型词袋模型是一种简单而常用的模型,它将文本视为词的无序集合,忽略了词语的顺序和语义关系。
在信息检索任务中,词袋模型可以用来提取文本的特征并计算与用户查询的相关性。