信息存储与检索报告
- 格式:ppt
- 大小:1.35 MB
- 文档页数:83
题目:列车车次信息的查询与检索专业学生姓名班级学号指导教师指导单位计算机软件教学中心日期2012年5月21日列车车次信息的查询与检索一、课题内容和要求用C/C++设计,能实现对列车车次的信息情况进行电脑管理,建立一个以文件为存储的管理信息系统;能实现对列车车次的信息进行查询与检索、添加、修改等功能,能对列车车次的情况进行记录和管理。
(1)具有简单的字符界面菜单;(2)可以添加和删除列车车次信息;(3)可以按列车车次的车次号、起点站、到达站、出发时间以及到达时间等信息进行查询;(4)程序中必须有面向对象/结构体的基本概念,比如类、对象/结构体类型的变量等;列车车次记录用一个文件存储,文件类型可以是文本文件或是二进制文件。
二、需求分析列车车次信息的查询与检索系统浏览添加查询修改删除退出1)提供可操作的主菜单:输出个菜单,用于显示若干个可选的功能选项。
根据用户输入的选项来运行不同的功能,运行不同的函数。
一次运行程序能进行多次选择执行不同的功能。
2)进行文本信息的显示:从指定的文件中读取所有的车次信息并显示。
这里文件是在编译时就已经指定好的、存在的文本,需设计者预先自己建立好。
3)添加一个新的车次信息功能:将用户希望添加的车次信息添加到文件末尾。
提示用户按照正确的格式输入。
能录入新数据添加到车次记录文件中,当录入了重复的车次时,则提示数据录入重复并取消录入;录入的新数据能按递增的顺序自动进行条目编号。
4)查找车次信息功能:以用户输入的车次号或者终点站进行查找对应的火车车次信息(通过比对数据进行对应的查找)。
并将此车次中所有数据的信息,如车次、出发时间、起点站、终点站、行驶时间、额定载量等信息输出。
5)进行车次信息的修改:根据用户提供的车次号,找到对应的数据,将内存中的信息重置。
内容应有用户输入,由一系列读写函数实现。
6)删除一个车次信息的功能:根据用户提供的车次号,找到对应的数据,在车次记录中的相应数据进行删除,并自动调整后续条目的编号。
1、信息检索:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。
其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。
取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。
2、查全率:是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出相关文献能力的尺度,可用下面的公式表示:查全率=(检出相关文献量/系统中相关文献总量)*100%3、查准率:是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统精确度的尺度,可用以下公式表示:查准率=(检出相关文献量/检出文献总量)*100%4、漏检率:是指漏检相关文献量与在检索系统中相关文献总量的比率,是衡量信息检索系统漏检文献的尺度,可用下面的公式表示:漏检率=(漏检相关文献量/系统中相关文献总量)*100%5、跨库检索:可同时检索多个平台上的多种资源,输入一个检索式,便可以看到多个数据库的查询结果。
6、单库检索:在选定的单一数据库中进行检索。
7、经典论文优先:被引用数比较多,或者文章发表在档次比较高的杂志上等经典的、有价值的文献优先排在前面。
8、相关度优先:和查询的条件内容最相关的文献优先排在前面。
9、最新论文优先:发表时间比较新的文献优先排在前面。
10、精确匹配:检索结果中包含与检索词完全相同的词语11、模糊匹配:检索结果包含检索词或检索词中的词素12、顺查法是根据有关课题的起始年代利用选定的检索工具由远及近的进行逐年查找。
13、倒查法从最新时间查找起,直到满足检索要求为止。
14、抽查法是针对有关学科的发展特点,抽查某些特定时期的文献信息。
15、二次检索是指在前一次检索结果的范围内,继续进行检索。
16、定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。
一、信息的定义1、定义不同的学科、从不同的的角度对信息有不同的解释。
广义的说,信息就是消息。
一切事物的存在都有消息。
2、信息的类型及特征(1)可识别性信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。
不同的信息源有不同的识别方法。
(2)可存储性信息是可以通过各种方法存储的。
(3)可扩充性信息随着时间的变化,将不断扩充。
(4)可压缩性人们对信息进行加工、整理、概括、归纳就可使之精练,从而浓缩。
2、信息的类型及特征(5)可传递性信息的可传递性是信息的本质等征。
(6)可转换性信息是可以由一种形态转换成另一种形态。
(7)特定范围有效性信息在特定的范围内是有效的,否则是无效的。
二、知识1、定义:是人类对信息、对客观事物规律的认识,它是人们在社会实践中积累起来的经验。
人们对事物由表及里、由现象到本质、由感性到理性的认识深化,便形成了知识。
知识是信息内容的组成部分。
2、知识的基本属性实践性规律性渗透性继承性实践性社会实践是一切知识产生的基础和检验知识的标准,科学知识对时间有重大指导作用.规律性人们对时间的认识是一个无限的过程,人们获得知识在一个层面上揭示了事物及其运动的规律性。
渗透性随着知识门类的增多,各种知识可以相互渗透,形成许多新的门类,形成科学知识的网终结够体系。
继承性每一次新知识的产生,既使原有知识的深化和发展,又是更新的知识产生的基础和前提。
知识被记录或被物化为劳动产品后,可以世代相传和利用。
三、情报1、概念情报是指被传递的知识或事实,是知识的激活,是运用一定的媒体(载体),越过空间和时间传递给特定用户,解决科研,生产中的具体问题所需要的特定知识和信息.情报是活化了的知识,即被利用的知识.2、情报的基本属性知识性与信息性:情报必须具有实质内容,凡人们需要的各种知识或信息都可成为情报的内容。
针对性:任何知识和信息,人们不利用、不知道其存在,就不能成为情报。
一、单项选择题1. 以下哪个数据库提供同名作者检索功能:〔D〕A.万方数据库B.中国期刊全文数据库C.复印报刊资料全文数据库D.中文科技期刊全文数据库2. _______提供一次文献的线索.〔B〕A.文摘、索引等B.图书C.百科全书D.手册3. 以下属于特种文献的是〔 B〕. A.图书 B.科技报告 C.报纸D.期刊4. 用主题词检索只可以检索出对应的〔〕5. 我国制定专利法的主要目的就是为了保护发明创造的〔D〕A.著作权 B.发明权 C.发现权 D.专利权6. 利用分类途径进行检索,其检索标识为〔C〕A.主题词B.关键词C.分类号D.分子式7. 在一般的著录格式中可以通过_______来判断该文献为会议文献〔C〕A.Journal B.Report C.Conference D.Patent8. 下列选项中,不属于信息能力的有〔 B〕A.鉴别 B.传递 C.评价 D.有效利用9. 从狭义上说专利文献就是指〔专利注明书〕10. Google搜索引擎的首页面上有一个"手气不错"的按钮,这个按钮的作用是什么?〔D〕A.测试你当天的手气B.提供最相关的一组检索结果列表C.提供最相关的一个检索结果的 D.直接跳转到系统认为是最相关的页面11. 利用___索引,我们可以检索任一知名专家的文献被引用的情况〔D〕A、Citation Index;B、Corporate Index;C、Permuterm Subject Index;D、Source Index;12. 文献信息检索的全过程包括文献信息的______两个过程〔C〕A.存贮和检索B.存贮和编排C.标引和编排D.存贮和标引13. 利用分类途径进行检索,其检索标识为〔C〕.A.主题词 B.关键词 C.分类号D.分子式14. 已知名叫孙钱章的作者99年出版了一本书,若想找到书名与其他信息,应在下列哪个数据库中查找?〔C.〕A.中文科技期刊全文数据库B.复印报刊资料全文数据库C. 超星数字图书馆D.万方数据资源系统15. 利用搜索引擎检索有关知识管理方面的学术论文,其检索式采用哪种比较好?〔C〕A.关键词摘要intitle:知识管理B.论文知识管理PDFC.学术论文知识管理D.学术论文intitle:知识管理16.在中国知网提供的检索服务中,〔检索词扩展〕起到扩展检索的作用.17. 下列哪种语言不属于规范化语言______〔B〕A.分类语言B.叙词语言C.关键词语言D.标题词语言18. 数据库检索中,布尔逻辑检索的逻辑关系中A OR B 又可以表示成〔A〕A.A+B B.A-B C.A*B D.B OR A19. 下列哪些不属于主题途径?〔D〕A.标题B.关键词C.摘要D.ISBN20. 《中华人民共和国专利法》开始实施的时间是〔B〕A.1984年4月l日B.1985年4月1日C.1990年9月7日D.1987年1月1日21. 赵一.科技成果向现实生产力转化.科学学研究,1996,14〔2〕:33-38是< A >A.期刊论文B.专著C.书目D.论文集22. 在检索式中,下列哪一个不能为提高检索的查全率而起到扩展检索范围的作用.〔D〕A.逻辑或B.截词检索C.位置运算符W D.逻辑与23. 在中文网络数据库中,能查到企业名录的是哪一个?〔C〕A.中国知网B.维普中文科技期刊数据库C.万方数据库D.超星数字图书馆24.读者阅读万方资源数据库的全文,需要安装的阅读器是〔PDF〕25. 检索最新的学术动态方面的信息,最好用哪种检索工具书?〔A〕A.手册 B.年鉴 C.期刊 D.书目26. 根据"Anon D..Biomedical applications of nanoscale devices[J].Materials Technology, 2004, 19<2>: 118-119."的著录特点,可以判断,该文献属于〔A〕.A.期刊论文B.图书C.科技报告D.会议论文27. 哪种不属于常规检索方法〔D〕A.直接检索法B.顺查法C.抽查法D.引文法28.根据"林福宗.多媒体技术基础[M].:清华大学,2006."的著录特点,可以判断,该文献属于〔B〕.A.期刊论文B.图书C.科技报告D.会议论文29. 世界三大检索刊物是指SCI<科学引文索引>、EI<工程索引>、ISTP<科技会议录索引>30. 检索2009年中国房地产方面的统计信息,最好用哪种检索工具书?〔A〕 A.年鉴B.手册C.书目D.百科全书31. 课题"查找王安石的相关资料"应用____〔B〕A.分类途径B.主题途径C.作者途径D.高级途径32.在《科学引文索引》中,下列哪个索引能提供从著者单位名称检索文献〔〕33. 查找中文科技期刊全文文献的数据库有〔维普〕二、名词解释1. 主题标引:是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程.具体而言,主题标引是在主题分析的基础上,以一定的词表或标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成表达信息资源内容特征的标识的过程.2. INTERNET〔因特网〕:泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络.3. 顺查法:就是以课题研究的起始年限为出发点,利用选定的检索工具如书目、索引、文摘又远与近的逐年查找.4. 三次文献:是在一、二次文献的基础上,经过综合分析而编写出来的文献,人们常把这类文献称为"情报研究"的成果5. 文献信息资源:文献是记录有知识的一切载体,文献信息资源是以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源.6. 倒查法:一种逆时间顺序由近而远地查找信息的方法.7. 一次文献:即原始文献.它是作者以生产或科研为依据而创作的原始文献.如专著、期刊论文、学位论文等.8. 检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等.它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言.9. 手工检索:是由检索者通过卡片式或书本式的目录、题录、文摘、索引等检索工具查找文献线索的过程.10. 信息检索语言:信息检索语言是用来描述信息的内容特征、外部特征和表达信息检索提问的一种专门语言.11. 特种文献:特种文献是指和获取途径都比较特殊的科技文献.特种文献一般包括会议文献、科技报告、专利文献、学位论文、标准文献等.12. 间接检索法:利用一定检索工具进行文献检索13. 专利:有三层含义:一指受专利法保护的发明,二是指专利权,三指专利说明书等专利文献.这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体体现.14. 搜索引擎:是一种 Web 上应用的软件系统,它以一定的策略在 Web 上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务.用户可以通过主题浏览和关键词检索的方式搜索所需信息.15. 技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有##性和内部使用的特点.16. 索引:根据标题法的原理,将类目与其注释改成标题形式,按字顺排列,并注明相应的分类号.这样不仅可方便查表,而且还可将分类表中因为按学科分类而被分散的同一事物不同方面的类目集中,使分类法在某种程度上兼有主题法的性能.17. 抽查法:针对研究课题发展的特点,选择有关的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法.18. 回溯检索:又叫追溯法,是以某一篇文献末尾所附的参考文献为依据,由近与远进行逐一追踪的查找方法.19. 循环检索:先利用检索工具查出一批有用文献,然后再利用这些文献末尾所附参考文献的线索进行追溯查找.20. 追溯法:以已获文献后面所附参考文献为线索进行追溯查找,又称为参考文献法.21. 分类标引:对档案给予分类号标识的过程.22. 目录:是图书、期刊或其他单位出版物外表特征的揭示与报道.它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉与书中的章节或期刊中具体的文章.23. 竞争情报:竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究.三、简答题1. 光盘检索与手工检索相比有哪些优势?使用光盘检索系统,可免除联机检索系统所必须使用的电讯设备,节省了电讯费和联机系统使用费,还可免除由通信线路传输过程中所造成的失误光盘系统向用户随盘提供相当于联机信息检索系统功能的软件,并提供菜单驱动与命令驱动两种方式光盘存贮容量大,耐用,复制费用低可以把文本,图形,图像,声音与动态形象结合在一起如果光盘数据库量不够多,则信息资源就显得有限,购买大量光盘数据库,又要受到经费限制在信息需求的适时性上,光盘检索不如联机检索系统,因为光盘只能定期提供数据库费用大手工检索的优势〔1〕手工检索能了解标引规则,按规则进行各项的著录,便于检索者根据文献标引规则查阅相关文献.〔2〕手工检索能了解各类检索刊的收录范围、专业覆盖面、特点和编制要点,检索回溯期长,可以提高查全率和查准率.〔3〕手工检索灵活性高、费用低.〔4〕手工检索也便于检索策略的制定和修改,所得到的文献信息一般能符合检索者的信息要求,并且手工检索过程中发现问题,可以与时地修改和提出.手工检索过程中,直接查找任务的是人,在查找过程中,人的思维一直起着主导作用.检索者可以在检索过程中,结合检索的结果不断明确自己的信息需求和不断地修改自己的检索提问.检索提问标识与检索系统中文献特征标识的组配完全可以做到内容、概念和形式上的一致,而无须严格的字面的组配.因此,检索到的文献信息一般能符合检索者的信息要求.〔5〕在载体内容的直观性方面,手工检索也优越于计算机检索.利用手工检索工具,人们无须借助任何转换设备便可一目了然地判读具体文献的描述内容,也能够比较准确地了解其全部.而计算机检索则不然,必须借助于相应的读取工具,如计算机、光盘阅读器等,才能得以判读.手工检索的缺憾:<1> 检索速度慢 <2 >检索受时空的限制 <3> 检索受馆藏资源的限制 <4> 更新周期长 <5> 检索途径少2. 信息的特征有哪些?答:普遍性、无限性、传递性、可知性与可贮性、动态性、共享性3. 简述联机检索的基本原理.信息用户利用终端设备,通过通讯网络与世界各地的信息检索系统联机,进行人机对话,从检索系统的数据库中查找出用户所需信息的全过程.一个典型的计算机信息系统,能完成数据收集,分析,加工处理,存储,传递通信和检索信息的全过程.4. 信息的概念是什么?信息有哪些特征?广义的信息概念:即信息是事物运动的状态和方式,也叫本体论信息狭义的信息概念:即信息是认识主体对事物运动状态和方式的反映,也叫认识论信息信息具有如下几个特征:普遍性、无限性、传递性、可知性与可贮性、动态性、共享性5. 检索系统必备四大要素是什么?答:检索文档〔数据库〕、检索设备〔检索硬件与通讯设施〕、系统规则、相关人员、.6. 简述信息检索语言的功能.信息检索语言是沟通信息存储和信息检索的桥梁;对信息组织人员来说,它是表达信息主题内容,形成标识并赖以组织信息的依据;对信息检索人员来说,它是表达检索需求的依据.7. 简述信息检索的作用.答:全面掌握必要信息;提高信息利用效率;提高信息素质;具有一定经济性.8. 简述信息检索原理〔可以用图描述〕.9. 简述网络信息资源的特点.<1>信息量大,有污染.在Internet上的信息资源数量究竟有多少,谁也说不清楚,因为它是世界上联系在网络上的所有主机里存储的信息总和.有人估计,在Internet上每天发布的新信息约有14万件,它的信息量是过去任何一种存储信息方法所无法比拟的.但同时也产生了信息的污染,任何人只要同网络相联系,就既是网上的信息使用者,也是信息生产者.这就使网上存在有大量信息的同时也产生了一定的垃圾,出现了信息污染.当我们在检索时,往往会出现许多无关的信息,而信息的真伪是需要鉴别的.<2>信息共享性好,更新快.Internet上的信息共享性最好,只要在网上的任何一个主机上发表信息,在全世界范围内都能看到.许多聪明的商家充分利用这一特点在网上大做广告,树立企业形象,推销产品.Internet网络信息的另一特点是新陈代谢快,可以说Internet网络信息资源要比其他信息资源更新得快.<3>信息源分散无序.Internet上的信息源是在每个独立的计算机服务器上,使网上的信息源呈现出分散、无政府状态.用户无法判断网上有多少同自己需求有关的信息,给用户的信息检索带来一定的困难.<4>信息商品化.刚刚利用Internet查询信息时,你可能会感到网上的大量信息在利用时都不需要付费,只要付少量的通讯费就可以了.但只要细心观察就会发现,免费信息多数都是具有一定宣传作用的,真正有用的信息多数是要付费的,可以说Internet上的网络信息具有一定的商品化.10. 什么是检索策略?以Google搜索引擎为例,论述检索策略的优化方法.检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以与查找步骤等.检索策略考虑得是否周全,直接影响文献的查全率和查准率.优化方法略11. 简述信息检索的本质.答:本质就是提问标识语文献标识的对比和匹配.12. 举例说明什么是一次文献、二次文献、三次文献.一次文献指以作者本人的研究成果为依据而创作的原始文献,如期刊论文、研究报告、专利说明书、会议论文等.二次文献是对一次文献进行加工整理后产生的一类方面,如书目、题录、简介、文摘等检索工具.三次文献是在一、二次文献的基础上,经过综合分析而编写出来的文献,人们常把这类文献称为"情报研究"的成果,如综述、专题述评、学科年度总结、进展报告、数据手册等.13. 如果要查找有关"转基因生物和细胞与其制备方法"方面的中外文文献,如何查找?请写出具体的检索步骤.1、分析课题,明确检索要求;2、选择检索系统:要考虑文献类型3、选择检索途径4、选择检索方法5、查找文献线索6、获取原始文献14. 简述文献检索步骤答:明确信息检索需求、选择检索系统、确定检索词、构造检索表达式、实施检索策略并分析结果、检索策略的修改与完善15. 影响查全率和查准率的因素有哪些?查全率:R=检出的相关信息量/检索系统中相关信息总量使用泛指性较强的检索语言<如上位类、上位主题词>能提高查全率,但查准率下降.使用专指性较强的检索语言<如下位类、下位主题词>能提高查准率,但查全率下降主要从以下几个方面考虑:选词、选择数据库是否全面;时间,文献类型16. 信息检索系统都包含哪些子系统?答:文献信息选择子系统;检索语言和名称规范子系统;标引著录子系统;查询子系统;交互子系统;匹配子系统.17. 简述信息检索的特征.答:相关性;不确定性;逻辑性.18. 信息检索智能化主要体现在哪些方面?答:检索技术智能化;检索结果处理智能化;检索服务智能化.19. 某同学在检索一个课题时,第一次检索的结果有200条文献,你建议一下她采用何种方式来缩小检索范围?增加文献的检准率,减少文献的检全率第一,变逻辑或为逻辑非,增加"and"的检索词第二,限定文献的类别,〔如该文献是医学方面的,就将其限定在医学这个大类下〕第三,或变模糊检索为精确检索第四,增加其他的限度,这就要看你自己的,如有没有年限现在啊,作者之类20. 什么是检索策略?计算机检索策略的制定一般经过哪几个步骤?检索策略,就是在分析课题内容具有哪些概念单元的基础上,确定检索系统、检索文档、检索途径和检索词,并科学安排各检索词之间的位置关系和逻辑关系以与查找步骤等.检索策略考虑得是否周全,直接影响文献的查全率和查准率.检索步骤〔1〕弄清信息需求,明确检索目的〔2〕选择数据库,确定检索途径〔3〕确定课题的概念组面和检索标识21. 简述专利的新颖性、创造性与实用性的含义,并说明中国保护的专利有哪几种类型?专利的新颖性,是指申请日前没有同样的发明或者实用新型在国内外出版物上公开发表过、在国内公开使用过或者以其他方式为公众所知,也没有同样的发明或者实用新型由他人向国务院专利行政部门提出过申请并且记载在申请日以后公布的专利申请文件中. 专利的创造性:是指在有新颖性的情况下,不同的技术之间实际上是没有产生意想不到的技术效果,简单说,就是两者之间的差异不明显,而且效果无进步. 专利的实用性:指该理论或者观点的提出对实践的知道程度. 中国保护的专利类型有3种类型,分别是:发明专利、实用新型专利和外观设计专利.22. 什么是信息检索查全率和查准率?两者之间的关系如何?查全率<Recall Ratio> 当用户要全面检索某一信息库时,检出的成功度可用检出的所有相关信息在信息库所有相关信息中所占的比例来表示.这种对信息库检索全面性的测量指标即为查全率.查全率与系统能够检索出的相关文献能力有关.可定义为:查全率 =<检出的相关信息数/信息库中相关信息总数>×100%查准率<Precision Ratio> 当用户要对检索到的结果进行分析时,检出的相关信息数在所有检出信息中所占的比例往往成了较重要的评判指标.这种对检索结果中的相关信息的测量指标即为查准率.也有称为信号噪声比<signal-to-noise ratio>.查准率与检索出的相关信息数有关.可定义为:查准率 =<检出的相关信息数 /检出的信息总数>×100%查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效果的好坏.若检出 1 篇相关信息,必能达到100% 的查准率,但查全率却会非常低;同样,若检出的信息数等于库##息的总量 a + b + c + d ,则必能获得 100% 的查全率,但很显然查准率必定也低得可怜.查全率和查准率是评价检索效果好坏的指标,而漏检率和误检率则是测量检索误差的指标.23. 影响信息检索效果的因素有哪些?<1> 影响查全率的因素从文献存储来看,主要有:文献库收录文献不全;索引词汇缺乏控制和专指性;词表结构不完整;词间关系模糊或不正确;标引不详;标引前后不一致;标引人员遗漏了原文的重要概念或用词不当等.此外,从情报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索系统不具备截词功能和反馈功能,检索时不能全面地描述检索要求等.<2> 影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组配规则不严密;选词与词间关系不正确;标引过于详尽;组配错误;检索时所用检索词〔或检索式〕专指度不够,检索面宽于检索要求;检索系统不具备逻辑"非"功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当,检索式中使用逻辑"或"不当等等.实际上,影响检索效果的因素是非常复杂的.根据国外有关专家所做的实验表明,查全率与查准率是呈互逆关系的.要想做到查全,势必会要对检索范围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率.企图使查全率和查准率都同时提高,不是很容易的.强调一方面,忽视另一方面,也是不妥当的zx.应当根据具体课题的要求,合理调节查全率和查准率,保证检索效果.24. 信息检索的方法有哪几种?从检索手段看,信息检索分为: 手工信息检索机械信息检索计算机信息检索25. 什么是信息检索漏检率和误检率,二者之间的关系如何?误检率为检出的结果中,不相关信息占检出信息的比例.这种对检索结果中不相关信息数的测定即为误检率.可定义为:误检率 =<检出的非相关信息数/检出的信息总数>× 100%漏检率为系统未检索出的相关信息占库中相关信息总数的比例.这种对检索结果中不包含系统中存在的相关信息数的测定即为漏检率.可定义为:漏检率 =<未检出的相关信息数/信息库中相关信息总数>× 100%其实,查全率和漏检率是互补的;而查准率和误检率也是互补关系.即:查全率 + 漏检率 = 1 ;查准率 + 误检率 = 1 .漏检率和误检率则是测量检索误差的指标.26. 试比较分类语言与主题词语言分类语言是运用概念划分的原理,以分类号为标识,将各种概念按学科性质加以划分和排列,用以分门别类地、系统地组织信息的一种检索语言,它又可以分为体系分类语言和组配分类语言以与混合分类语言.主题语言是直接以表达主题内容的语词作为检索标识,以字顺为主要检索途径的标引和检索信息的语言.主题语言是一种描述性语言,它使用自然语言中的词语或规范化的词语来描述文献所论述或研究的事物概念,具有较强的直观性、专指性和灵活性.。
第一章信息检索基础知识一.概述1.信息与文献信息知识的分类:已掌握的知识和需查询的知识。
信息的定义:信息是事物运动的状态与方式,是物质的一种属性,并且借助于一定的物质载体传输和储存。
这里有几个词组需说明:事物:泛指一切可能研究的对象(包括物质的和精神的)。
运动:泛指一切意义上的变化(机械运动、化学运动、思维运动和社会运动)运动方式:在时间上所呈现的过程和规律:运动状态:在空间上所展示的形状和态势。
信息已成为与物质、能量同样重要的三大资源之一。
信息是一种原料,人类接受外界大量信息后,经过实践活动和大脑的思维机制加工提炼后变成有用的知识(知识的认识程度)。
文献:将知识记录并保持在一定的载体上,就形成了文献。
文献信息是文献所表达的内载信息,以文字、符号、声像信息为编码的人类精神信息,也是经过人们筛选、归纳和整理后记录下来的信息。
科技文献是科学技术研究成果的记录,积累了许多有用的事实、数据、理论、方法和科学假设,反映了科学技术研究的进展和水平,是科学信息的主要来源。
2.信息的特点(1)普遍性;信息是无处不在,无时不在的,c从宏观的宇宙天体到微观粒子,从自然界到人类社会,万事万物都是信息的母体;(2)时效性:信息的获得和传送需要时间,信息反映的总是特定时刻事物的运动状态和方式,当人们获得信息后,它反映的是某段时间的事物,是一种历史纪录,如果传递很慢,信息就会失去应有的价值;(3)传递性:指信息的空间和时间效应,信息可以从一个地方传到另一个地方,从一个时期传到另一个时期;信息的传递决定了信息的可扩散性,信息是通过各种渠道、媒介传播和扩散;(4)共享性:信息在传播和使用的过程中,载体本身的信息并不因此而减少,信息资源的共享将极大地推进人类文明的发展;(5)可转换性:信息的物质载体形态是可以相互转移变换的;信息在一定条件下可以转化为物质、能量、时间、金钱、效益、质量等;(6)可伪性:在人们得到信息后,必须进行分析判断和筛选,以便正确享用信息。