什么是信息检索
- 格式:ppt
- 大小:273.50 KB
- 文档页数:29
一、概念1.信息:信息是人类了解自然及人类社会的凭据;是指对消息的接受者来说预先不知道的报道;是生物以及具有自动化控制系统的机器通过感觉器官和相应的设备与外界交换的一切内容。
2.知识:是人类对客观事物规律的认识。
是人的主观世界对客观世界的概括和如实反映。
是人类征服自然、改造自然的经验记载。
是人类大脑通过思维重新组合、转换、提炼系统化的信息组合,是信息的一部分。
3.情报:为解决一个特定问题所需要的、取得的一种针对性、及时性的知识。
是人们在一定时间内为一定目的而传递的有使用价值的知识。
4.文献:在存贮、检索、利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、或在载体上或依附载体而存贮有信息或数据的载体。
换言之,文献就是记录有知识的一切载体。
5.一次文献:也叫一级文献或原始文献,是作者根据工作经验、研究成果和实践体会为依据形成的处于原始形式中的文献。
6.二次文献:也叫检索性文献是将一次文献(包括部分三次文献)浓缩、整序、加工编辑成有系统的条目化文献,将大量分散的无序信息转变为有序的便于管理的系统。
7.检索工具:检索工具是用以储存、报道和检索文献的工具。
因此,它具有存储和检索的功能。
8.检索语言:检索语言是指用于描述检索系统中信息的外部特征和内部特征及表达用户信息提问的一种专门的人工语言,是保证存储和检索一致的一种共同性的人工语言。
9.索引:是指对文献的外表特征和内容特征用各种检索标识符(字母、数字、汉字等)进行描述,并将它们按一定的规则及排列方式组织起来。
10.信息检索:广义的信息检索全称为“信息存储与检索”,是指把信息按一定的方式予以排列、贮存,并根据用户需要检出所需信息的过程和技术。
狭义讲是指从信息集合中查找并检出用户所需要的信息的过程。
信息检索分为文献检索、数据检索、事实检索。
11 分类号:每一个类目都用相对固定的代码作为标识,叫做分类号。
12.知识产权:知识产权,概括的说,是指公民、法人或其公组织对其在科学技术和文学艺术等领域内,主要基于脑力劳动创造完成的智力成果所依法享有的专有权利。
第一章信息检索概述1,什么是信息检索?它有哪些主要类型?信息检索指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。
有目的和组织化的信息存取活动,其中包括“存”和“取”两活动。
旧分类方法:文献检索、事实检索、数据检索新分类方法:文本检索、数值检索、音/视频检索2,试分析阐述信息检索的基本原理,信息集合、需求集合、匹配与选择,信息检索三阶段及期特点?答:即信息集合与需求集合的匹配与选择。
(1)信息集合是指有关某一领域的,经采集、加工的信息的集合。
形成可供用户访问与检索的对象,在某种意义上说,它是以一种公共知识结构,它有可能弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索,或者提供某种信息区激活人脑中存储的知识。
(2)需求集合:用户的信息需求是在社会实践活动中产生的。
众多用户不同形态的信息需求的汇集,就形成了需求集合的存在。
信息需求的产生与满足,是实施信息检索行为的前提与基础,也是实施信息检索行为的目的所在。
(3)选择与匹配:面对信息集合与需求集合,如何在两者之间建立起了解与沟通的桥梁,以便能够从信息集合中快速获取用户所需要或所缺少的信息与知识呢?这就需要信息检索提供一种“匹配”机制。
它的主要功能在于:能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
这里,我们要求匹配机制至少包括两个要素:一是匹配标准,即相似性标准;二是执行匹配的动因。
3,信息检索主要经历了哪些不同的发展阶段?各阶段有何特点?(1)手工检索阶段,主要特点可以概括为印刷文献(图书、期刊、会议、专利、学位论文)为主要检索对象;以各类文摘、题录、和目录性工具书为可利用的主要检索工具;以图书馆的参考咨询部门为开展信息检索服务的中心机构。
(2)计算机化检索阶段(脱机批处理检索时期、联机实时检索时期、联机网络化与多元化检索时间),主要特点:以各类机读数据库为检索对象;各类信息中心,联机服务中心作为新兴的信息服务部门而存在;信息检索用户逐渐由专业检索人员(检索中介)向个人终端用户转移和扩散。
什么是信息检索?1、信息检索是一门关于如何查找文献、知识和信息的工具性课程,被认为是开启知识宝库的金钥匙。
2、信息检索课程是一门对于本科生到博士生都具有很强实用性的课程,对于帮助我们学生提高科研能力和拓宽科研领域具有重要的作用。
开设信息检索课的作用大学生需要学习,如何提高自己获取和利用文献信息的能力;进入工作岗位后如何更新自己的知识结构,使自己不落伍.所以,获取知识和信息的能力成为了大学生必须具备的重要能力之一.信息检索这门课主要讲授检索文献的一些基本方法,培养学生检索文献的技能.学习和科技需要文献,个人全面素质的提高需文献,生活中也离不开各种信息.我们在信息检索课中,老师侧重介绍了信息检索工具与检索技巧!但对于今后我们的生活中,这种检索思想将会发挥更大的作用,所以平时我们应多积累一些有关互联网上的检索工具(包括搜索引擎和检索技巧)方面的知识,这方面的能力可能带给我们更大的实惠。
信息检索课程作为一门方法课程,它不仅使我们的信息意识更为敏锐,而且使我们了解了信息组织与检索的原理,让我们学会了操作使用各种专业文献信息数据库和网络检索工具。
通过老师认真指导在我们不断练习的基础上,我们不仅掌握了娴熟的检索操作技能,而且逐步掌握了如何选择合适得信息源,如何确切表达特定的信息需求,以与如何应对检索过程中出现的各种问题。
在信息检索课中学习到了什么?1、通过信息检索课程学习,知道了什么是信息,信息的有哪些类型,信息有什么特征,信息有什么作用。
2、通过信息检索课程的学习,知道什么是信息检索,信息检索的类型有哪些,知道了信息检索的过程,知道了信息检索的方法和途径,知道了信息检索的技巧和策略,学会了如何去评价信息。
3、通过信息检索课程的学习,知道了网络上原来还有那么多数字图书馆,有那么多知识数据库。
4、通过信息检索课程的学习,发现搜索引擎并不是仅仅用来搜索网页和MP3,还可以用来搜索重要的知识,发现了搜索引擎原来还有如此多的笑秘密。
1.什么是信息检索?从广义的角度讲,信息检索包含信息存储和信息获取两个过程。
信息存储指通过对大量无序信息的选择和收集、著录和标引等方法,建成各种各样的信息检索工具或信息检索系统,使之成为有序化信息集合的过程。
获取是存储的逆过程,其实质是根据特定的需求,运用以组织好的检索系统,将特定的信息查找出来。
存储是获取的前提和基础,没有存储就没有获取,而获取是存储的目的,二者密切联系,互相依存,缺一不可。
狭义的信息检索是指广义的信息检索的后一个过程,即信息获取的过程,相当于人们所说的信息查检等。
具体来说,狭义的信息检索指通过一定的方法,从已存储的信息中检索出与用户提问相关的文献、数据和事实的过程,即根据用户的特定要求查找所需信息的过程。
2.信息检索效果的评价指标有哪些?(1)检索效果有效性评价,即检索技术效果的评价,是对检索系统满足检索要求的有效程度的评价,主要以查全率和查准率为评价标准。
(2)检索系统使用的评价,包括系统对用户是否需要,是否实用有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法。
(3)检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。
评价信息检索效果的指标主要有6个:收录范围、查全率、查准率、响应时间、用户负担和输出形式。
附:查全率=【检出相关文献信息量/检索系统中相关文献信息总量】*100%=(a/a+c)*100%查准率=【检出相关文献信息量/检出文献信息总量】*100%=(a/a+b)*100%漏检率=【漏检相关文献信息量/检索系统中相关文献信息总量】*100%=(c/a+c)*100%误检率=【误检文献信息量/检出文献信息总量】*100%=(b/a+b)*100% 3.什么是检索语言?检索语言的实质是用于表达一系列概括文献信息内容的概念及其相互关系的概念标识系统。
它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某一类事物的某一方面特征的一套代码(如化合物的各种代码),用于对文献内容进行主题标引、特征描述或逻辑分类。
信息检索大题1.搜索引擎有哪些类型,其主要组成是什么?答:类型:按检索机制划分,可分为全文搜索引擎、目录搜索引擎、元搜索引擎。
按检索内容划分,可分为综合型搜索引擎、专题型搜索引擎。
2.已知名叫孙钱章的作者99年出版了一本书,但不知书名及其他信息,该如何找?写出书名及出版社。
答:可以各种检索工具检索,比如可以用“读秀图书搜索与文献传递系统”进行检索,点击“图书”选项,在检索框中输入“孙钱章”,选择“年代”为1999年,得到检索结果为《知识经济概论》,北京市:警官教育出版社。
3. 举例说明布尔逻辑运算中“逻辑与”和“逻辑或”的检索特点。
逻辑“或”是用于表示并列关系的一种组配,用来表示相同概念的词之间的关系,用OR 或“+”算符表示。
例如检索式A OR B,表示检索的文献记录中只要含有A或者B中的任何一个即算命中。
这种组配可用于扩大检索范围,增加命中文献数量,有利于提高检索结果的查全率。
4.分别列举搜索引擎、馆藏检索工具、文摘索引检索工具、全文检索工具、数据检索工具和专利检索工具各两个。
搜索引擎:Google搜索引擎Yahoo搜索引擎馆藏检索工具:清华大学OPAC —— Innopac 华中农业大学OPAC —— ILAS Ⅱ文摘索引检索工具:知网节维普中文科技期刊数据库全文检索工具:Elsevier全文数据库百度数据检索工具:国科图OPAC “万方”数字化期刊专利检索工具:SIPO 专利检索USPTO 专利检索5.必考)谈谈如何提高文献检全率和检准率?答:提高检全率的方法:(1)降低检索词的专指度,可从词表或检出文献中选一些上位词或相关词补充到检索式。
(2)调节检索式的网罗度,如删去某个不甚重要的概念面。
(3)进行族性检索,可用分类号或采用一组近义词、同义词或者相关词用OR 连接在检索中。
(4)进行截词检索,可以采用后截断、前截断、前后截断等方法。
(5)增加检索途径,如将主题途径与非主题途径结合起来使用。
信息检索文字题复习提纲(名词解释、举例、简答、论述)信息检索复习题1、信息检索的原理是什么?(1)广义信息检索原理:在存储过程中,专门负责信息检索系统和数据库建立的人从各种各样的信息资源中,收集有用的信息,对有用的信息进行主题内容的分析,找出能够全面、准确表达主题内容的概念,借助于检索语言(通常是检索词表)把分析出来的概念转换成检索系统所采用的词语,或者直接使用自然语言,再按照一定的规则和方式将这些有用的信息组织成可供件所用的数据库,并存储在一定的介质上。
(2)狭义信息检索原理:狭义信息检索的原理就是广义信息检索中信息检索过程的那部分原理。
信息检索基本原理中的核心部分就是用户所使用的检索词或者由检索词和运算符所组成的检索式与数据库中的检索词及其逻辑关系之间的比较和匹配机理。
两者相匹配的信息被检索出来(命中),不相匹配的信息被拒绝。
*2、信息检索有哪些工具?按处理信息手段分:手工检索工具、计算机检索工具。
按著录方式分:目录型(国家书目、馆藏书目、联合书目、专题书目)、题录型、文摘型(指示性、报道性、评论性)、索引型(主题索引、分类索引、著者索引)。
3、信息检索的途径和方法有哪些?(1)信息检索途径分类途径:按学科分类体系来检索文献信息。
从分类途径检索文献信息,主要是利用分类目录和分类索引。
它以知识体系为中心,比较能体现学科系统性,反映学科与事物的隶属、派生与平行关系,便于从学科所属的范围来查找文献资料,并可起到“触类旁通”的作用。
题名途径:是根据文献名称包括书名、刊名、篇名等来检索文献的途径。
一些检索系统中提供题名字顺检索途径,如书名目录、刊名目录、篇名索引等。
(2)信息检索方法追溯法:也称引文法,是利用综述或已经掌握文献所附的引文注释和参考文献目录作为线索逐一追查原文,再利用这些原文所附的参考文献目录逐一扩检,产生滚雪球效果。
直接法:又称常用法,是直接利用检索工具检索文献的方法。
它又分为顺查法(由远及近)、倒查法(由近及远)和抽查法(重点时间段进行)。
信息检索复习思考题第一部分:信息检索概述1、信息资源的概念及其特点是什么?答:信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。
信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
特点:客观性,寄载性,传递性,动态性,相对性,增长性,共享性,规模性。
2、简述信息资源的类型。
答:按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。
现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网络信息资源和多媒体信息资源。
3、什么是信息检索?其类型是什么?答:信息检索包括存储与检索两个部分。
存储是对有关信息进行选择、并对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定策略和表达式,利用信息数据库。
这里要理解概念分析。
概念分析即将概念转化成系统语言,是存储与检索共有的过程,因此从这个意义上说,信息存储是信息检索的逆过程,两者是不可分割的一个整体。
类型:1.按检索内容分,有数据信息检索、事实信息检索和文献信息检索2.按组织方式分,可有全文检索、超文本检索和超媒体检索3.按检索手段分,有手工检索和机器检索4、信息检索的研究内容有哪些?答:1.检索理论研究2.检索语言研究3.数据库研究4.著录法研究5.标引和组织法研究6.检索系统研究7.检索策略研究8.检索服务研究第二部分:信息检索理论与方法1、如何制定检索策略?答:1.选择检索系统2.确定检索词3. 构造检索表达式4.实施检索策略2、检索词有哪些?答:1)表示主题的检索词标题词,单元词,叙词,关键词2)表示作者的检索词作者姓名、机构名3)表示分类的检索词分类号4)表示特殊意义的检索词ISBN、ISSN、引文标引词3、信息检索方法主要有哪些?常规检索法、回溯检索法、循环检索法4、据文献的内部特征和外部特征,有哪些信息检索途径?据文献外部特征和内部特征,信息检索途径分为两大类:1.以文献的外部特征为检索途径1)题名途径2)责任者途径3)号码途径2.以文献内容为检索特征1)分类途径2)主题检索3)分类主题索引5、解释著录、著录法、款目、标引。
信息检索1.信息检索的概念。
狭义信息检索是指用户找出有关信息的过程。
广义信息检索是将信息按照一定的方式组织和存储起来,并根据用户的需求找出有关信息的过程。
2. 信息检索的类型(1)按照检索对象的不同划分早期分为:文献检索、事实检索、数据检索。
当前三分方法:文本检索、音频与视频检索、数值检索。
(2)按检索手段划分:手工检索、机器检索3.简述信息检索的基本原理信息检索的基本原理:对信息集合与需求集合的匹配与选择。
实现信息检索,主要涉及三个关键要素:信息集合、用户信息需求、匹配选择。
一、信息集合:信息集合是指有关某一领域的,经采集、加工的信息集合体。
二、需求集合:用户的信息需求是在社会实践活动中产生的。
当人们在完成某一任务或工作时,经常觉得缺少某些知识,这就产生了信息需求。
三、选择与匹配:要在信息集合中快速获取用户所需信息,需要信息检索提供一种匹配机制,能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。
匹配机制至少包括两个要素:第一是匹配标准,即相似性标准;第二是执行匹配的动因。
4.计算机信息检索经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络检索阶段。
5.信息检索领域的主要研究问题有哪些?⑴信息检索理论:检索语言、检索模型、标引理论、相关性理论、知识组织与表示理论⑵信息检索工具/系统:信息检索系统的结构、功能、设计开发、管理运营、应用评价等⑶信息资源及其收集、加工:信息存储、数据库⑷检索技术与方法:文本检索技术、数值检索技术、音频与视频检索技术、网络搜索技术⑸用户研究与检索策略:用户的查询心理、检索需求及其类型、用户查询信息的行为特征等、用户信息需求分析、检索式构造、相关反馈方法、检索过程调整与控制等⑹其他密切相关的自动化处理技术:自动聚类与分类、自动摘要、信息可视化、信息过滤、信息提取、机器翻译、人机交互等。
信息检索的两种研究方式:以计算机为中心和以用户为中心,以计算机为中心的IR问题是主流。
检索是什么意思
对于这个问题相信大家都很好奇吧,下面我就为大家介绍一下。
检索的基本含义:检索,是指根据一定目的,从文献中查出所需信息的过程;也指从一定范围、领域或项目中找出所需要的事物或有关的人员等。
搜索引擎顾名思义,就是在互联网上通过相应的技术来帮助我们获取自己想要的资源并完成查询的服务平台,可以说只要你会使用电脑和能够正常接入互联网,那么使用搜索引擎来寻找您需要的资源将不再困难。
检索的概念检索一般是指按照某种要求或标准查找和选择信息
资料。
搜索则是指主动地、有目的地去寻找。
由此可见,两者之间既有区别又有联系。
从信息检索的角度看,它包括三方面的含义:1.
检索是从文献中查找所需要的知识和情报。
2.检索是对所需要的知识和情报进行鉴别和筛选,然后提供给用户。
3.检索是为了满足用户的需要而采取的各种手段和措施。
从搜索引擎的角度看,它是指为了实现特定的功能,利用计算机科学技术,对互联网上海量数据进行组织和处理,存储和管理,并为用户提供检索服务的系统软件。
从这些概念可以看出,检索与搜索是不同的。
检索侧重于对信息的收集,而搜索则侧重于信息的获得。
如何利用搜索引擎查询到所需内容呢?其实非常简单,你首先需要把你想要的内容输入到百度里面,当然前提是你必须知道你要查询的内容,然后点击百度的“搜索”键,当然还可以直接点击右边的搜索框,最后输入你要查询的内容,例如:输入“自考报名时间”,就
会显示出全国各省市的报名时间,并且会告诉你哪天开始报名,比较适合急着报名的朋友。
信息检索评价
要求:
【1】根据下表的提示,为每一类问题构建5个具体的query,检索式尽量用不同的表达,比如张学友是什么时候出生的?张学友的出生日期?等等。
同一类query的问法最多只能重复两次,比如乾隆的生日,张学友的生日(不是换人名,是换问法)。
问题不一定要跟例子一样,只要符合问题类型,请尽情发挥。
(记录时把例子清空)
【2】如果某个搜索引擎唤出了知识图谱的窗口,记录Y,否则记N。
【3】观察右侧的信息元侧边栏,为以下问题评分(1-5),1表示完全不认同,2表示不认同,3表示一般,4表示认同,5表示非常认同
Q1:信息元侧边栏是否提供了你感兴趣的关键事实?OR信息元侧边栏提供的结构化摘要信息是否是你需要的?1,2,3,4,5 (例如检索姚明生日,右侧出现姚明身高、体重等)
Q2:信息元侧边栏有没有提供更深入更广阔的知识?OR信息元侧边栏提供的知识是否超出你预期的(意想不到的、小惊喜)?1,2,3,4,5(例如检索姚明生日,右侧出现他家人的相关信息,或者科比、林书豪等其他球星的相关信息)。
什么是搜索引擎。
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。
搜索引擎的自动信息搜集功能分两种。
一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
这种引擎它的特点是搜全率比较高。
什么是信息门户。
在Internet的环境下,把各种应用系统、数据资源和互联网资源统一集到信息门户之下,根据每个用户使用特点和角色的不同,形成个性化的应用界面,并通过对事件和消息的处理、传输把用户有机地联系在一起。
什么叫文献检索文献检索(Information Retrieval),是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程,这是广义的信息检索。
狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻(Information Search)。
下面由带领大家简单了解一下。
文献检索主要分类计算机信息检索是指以计算机技术为手段,通过光盘和联机等现代检索方式进行信息检索的方法。
与手工检索一样,计算机信息检索应作为未来科技人员的一项基本功,这一能力的训练和培养对科技人员适应未来社会和跨世纪科研都极其重要,一个善于从电子信息系统中获取信息的科研人员,必定比不具备这一能力的人有更多的成功机会,美国报道生活新方式的期刊POV 也将交互网络检索专家作为未来十大热门职业之一,这些情况都说明了计算机信息检索越来越重要,故值得大家对这一技术予以重视。
零次文献指未经正式发表或未形成正规载体的一种文献形式。
如:书信,手稿,会议记录,笔记等。
特点:客观性,零散性,不成熟性。
一般是通过口头交谈、参观展览、参加报告会等途径获取,不仅在内容上有一定的价值,而且能弥补一般公开文献从信息的客观形成到公开传播之间费时甚多的弊病。
一次文献(primary document):是指作者以本人的研究成果为基本素材而创作或撰写的文献,不管创作时是否参考或引用了他人的著作,也不管该文献以何种物质形式出现,均属一次文献。
大部分期刊上发表的文章和在科技会议上发表的论文均属一次文献。
二次文献(secondary document):是指文献工作者对一次文献进行加工、提炼和压缩之后所得到的产物,是为了便于管理和利用一次文献而编辑、出版和累积起来的工具性文献。
检索工具书和网上检索引擎是典型的二次文献。
三次文献(tertiary document):是指对有关的一次文献和二次文献进行广泛深入的分析研究综合概括而成的产物。
4、信息检索在发展过程中经历了那些阶段?20世纪中期以前,手工式阶段20世纪中期,机械式阶段3、试分析布尔模型的优缺点•缺点–开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难–实际上这种模型没有考虑关键词在文档中的频率(因为所有的权重都是二值的)–假设关键词之间相互独立第03章文本索引和搜索1、什么是索引?建立索引的目的是什么?常用的索引技术有哪些?–索引是一种数据结构,它在关键词与包含关键词的文档之间建立了一种映射关系,从而加快检索的速度。
•建立索引的目的–加快检索速度•常用的索引技术–倒排索引–后缀数组–签名文件2、什么是倒排索引•倒排索引–也称倒排文档,是从关键词快速查询到文档的索引结构。
文档正常表示为关键词的集合,建立倒排索引是把每个关键词表示为其所在文档的集合,这个过程称为inversion,即倒排。
3、倒排索引的记录表中可以存放哪些内容?•位置信息–形式上:序号或指针–内容上:文档、段落、句子、词•附加信息–特殊位置信息:所在单元(标题、小标题)–权重信息4、倒排索引的建立方法有哪些?各方法具体如何实现?•基于排序的倒排文档建立方法•步骤–在文档中抽取关键词,并在其后附上其文档编号。
即表示成<单词,文档编号>的形式–对抽出的关键词进行排序,使之便于归并相同关键词–对相同关键词进行归并,把合并后的关键词放入倒排文档的词汇表。
统计每一关键词的文档频率作为目长,把每一关键词后的记录号顺序放在记录表中•基于合并的倒排文档建立方法算法–①逐个读取文档,在内存中使用动态数据存储结构(如动态数组、链表等)保存索引,直到占用的内存大小超过一定的阈值为止–②将生成的临时索引结构转存到磁盘,并清空内存–③如果所有文档处理完毕,则转到④;否则,转到①记录表中一般用16位或32位整数表示文档和单词位置的绝对编号,16位容易溢出而32位浪费空间。
解决该问题的方法1、定长整数描述变化:用比较少的字节(如16位)表示编号的相对变化,仅记录相邻位置之间的差异。