中文信息检索系统
- 格式:ppt
- 大小:4.51 MB
- 文档页数:35
一、实习背景随着信息技术的飞速发展,数据库已经成为我们获取信息、开展研究的重要工具。
为了提高自身的数据库检索能力,我参加了中文数据库检索实习,通过实际操作,掌握中文数据库的检索技巧,提高信息检索的效率。
二、实习目的1. 熟悉中文数据库的基本结构、检索方法和特点;2. 学会运用数据库检索工具进行文献检索,提高信息检索能力;3. 培养严谨的学术态度和良好的信息素养。
三、实习内容本次实习主要涉及以下中文数据库:中国知网(CNKI)、万方数据资源系统、维普中文科技期刊数据库、超星数字图书馆等。
1. 中国知网(CNKI)(1)检索步骤:打开中国知网首页,选择“高级检索”或“快速检索”,根据所需检索的文献类型(如期刊、学位论文、会议论文等)进行选择,然后输入关键词、作者、机构等检索条件,点击“检索”即可。
(2)著录方法:检索结果页面显示文献列表,点击所需文献标题,进入详细页面。
详细页面包括文献信息、作者信息、机构信息、关键词、摘要等内容。
根据实际需要,对文献进行下载、收藏或打印。
2. 万方数据资源系统(1)检索步骤:打开万方数据资源系统首页,选择“高级检索”或“快速检索”,输入关键词、作者、机构等检索条件,点击“检索”即可。
(2)著录方法:检索结果页面显示文献列表,点击所需文献标题,进入详细页面。
详细页面包括文献信息、作者信息、机构信息、关键词、摘要等内容。
根据实际需要,对文献进行下载、收藏或打印。
3. 维普中文科技期刊数据库(1)检索步骤:打开维普中文科技期刊数据库首页,选择“高级检索”或“快速检索”,输入关键词、作者、机构等检索条件,点击“检索”即可。
(2)著录方法:检索结果页面显示文献列表,点击所需文献标题,进入详细页面。
详细页面包括文献信息、作者信息、机构信息、关键词、摘要等内容。
根据实际需要,对文献进行下载、收藏或打印。
4. 超星数字图书馆(1)检索步骤:打开超星数字图书馆首页,选择“高级检索”或“快速检索”,输入关键词、作者、机构等检索条件,点击“检索”即可。
一、填空题1.NSTL是(国家科技图书文献中心)的简称。
2.(信息检索系统)是指由一定的设备和信息集合构成,具有一定存储、检索与传送技术设备,提供一定的存贮与检索方法及检索服务功能的工作系统。
3.体系分类表通常由(类目表、标记符号、说明和注释、类目索引)4个部分组成。
4. 正式出版的中文期刊在检索工具和数据库中一般著录有国际标准刊号(ISSN)和国内统一刊号(CN)。
5. 缩写刊名“J.Anal.Chem.”还原成原刊名为(Journal of Analytical Chemistry)。
6. CASHL是指(中国高校人文社会科学文献中心),其英文全称是China Academic Social Sciences and Humanities Library,是全国性的、唯一的人文社科外文期刊收藏和服务中心。
2002年开始规划建设,2004年3月15日正式启动7. 电子期刊,指以(数字或称电子)形式出版发行的期刊,英文为(electronicJournal),简称e-journal.8. 国家知识基础设施(National Knowledge Infrastructure,NKI)的概念,由世界银行提出于1998年。
CNKI是指(中国基础知识设施工程),它是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目,由清华大学、清华同方发起,始建于(1999)年6月。
KI平台的检索方式有(单库检索)、(跨库检索)、(数据库导航),在单库和跨库检索中有(初级)、(高级)、(专业)三种检索方式。
10.(报告号)是识别科技报告的显著标志。
11. 专利文献著录中,除了和专利有关的(专利名称)、(发明人)和(专利权人)等之外,还著录有(专利公布号)、(国际专利分类号)、(优先权号),有的还有申请号和申请日期、公布日期等。
13. 分类检索语言又称分类法,是用(分类号)和(类名)来表达信息的主题概念,并且按照知识门类的逻辑次序将信息系统地组织和划分的语言。
重庆大学硕士学位论文中文摘要摘要问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。
目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。
本文正是对中文问答技术研究的一个探索。
基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。
信息检索模块是自动问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。
本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。
我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。
本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利用翻译模型把问题质量成功的集成到检索模型中。
最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。
关键词:问答系统,信息检索,文档质量,语言模型,最大熵我本沉默ELIZA扮演一个心理学专家的角色,采用启发式的心理疗法,通过反问应对精神病人的提问,诱导病人不停地说话,从而达到对病人进行心理治疗的目的。
1971年,Winograd利用MACLISP语言开发了SHRDLU问答系统。
SHRDLU包括解析器、英语语法识别器、语义分析器、一般问题解答器等。
该系统主要是用于儿童积木话题,并且取得了较好的效果。
..常见的文献检索系统有哪些在国内,经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。
由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,目前,国内就存在多种这样的全文检索系统,其中以TRS、TRIP、TPI影响最大,普及面最广。
(1)TRS系统TRS全文检索系统是由北京易宝信息技术有限公司研制开发的。
TRS是英文Text Retrieval System(文本检索系统)的缩写,她是北京拓尔思公司的TRS注册商标,是公司的简称。
文检索系统包括检索服务器、TRS网站内容检索系统、关系数据库全文搜索引擎、中文知识管理等。
TRS站点检索系统为网站提供了信息检索功能,用户可以使用它在一个或者多个网站的站内进行搜索。
关系数据库全文搜索引擎支持Oracle、DB2、SQL、Server、Sybase和in for mix五大关系数据库,并扶持它们的多个不同的主流版本。
中文知识管理和挖掘主要是为中文文本应用提供了开发的接口。
TRS的内涵已经远远超出了全文检索的范畴,她是拓尔思公司自主研发的全文检索、搜索引擎、内容管理及知识管理核心技术和产品的统一标识。
TRS公司在信息检索、文本挖掘、搜索引擎和内容管理等领域具有长期的研发积累和丰富的成果,特别是这些研发成果的产业化已经处于国内外领先地位。
(2)TRIP系统TRIP全文数据库系统是一种面向对象的全文数据库系统,更准确的说,TRIP是一种具有非常快速查找功能的信息档案管理系统,擅长于处理那些规格不一,结构无定、类型各异、长度参差的数据。
最适用于在公网Internet上或局网Intranet上管理、检索、出版像法律法规、合同文本、技术文件、来往书信、报刊杂志、备忘录、报告、图书馆系统等任意规格的文本数据,以及照片、图像、图表等二进制数据。
TRIP 系统也同样擅长处理像日期、时间、数值(实数、虚数)、人名、地名等一般关系型数据库所擅长处理的规格化数据。
实验四中文数据库信息检索(清华同方CNKI数据库)实验名称:中文数据库信息检索(清华同方CNKI数据库)实验目的与要求:熟悉清华同方CNKI数据库,博硕士论文库的基本情况,掌握其信息检索系统的检索方法以及检索结果的处理,掌握提高查全率和查准率的方法实验内容提要:1、检索关键字为“信息检索方法”的相关文章(1)确定检索范围,是跨库检索还是单库检索?(2)确定检索方式,是初级检索、高级检索还是专业检索?(3)确定检索词(4)下载所需要的或者感兴趣的文章(至少1篇),并且利用CAJ阅读器,阅读你下载的文章,并介绍该篇文章讲的什么内容。
2、使用页面下面的相关搜索,查与“信息检索方法”相关的检索课题的相关文章,如“语义分析”等,至少10篇记录(不需要下载文章的)说明:检索结果采取主题排序降序排列的方式,摘要显示的形式,每页显示10条,并且发表年度为2013年的。
3、在第2题检索结果中检索关键字为“语义分析的应用”,选取你所感兴趣的5篇文章记录,使用“导出/参考文献”功能,生成检索报告。
4、选取以上任何一篇文章,点击查看具体信息:如:基本本体的语义分析过程与方法的研究应用(1)查看本文章所在的期刊,介绍有关该期刊的相关信息(2)查看该文章作者发表的其他文章(3)查看该文章作者所在单位研究的动态,即有没有发表其他的文章(4)列举本文的参考文献,引用本文的文献以及该文献的分类导航5、自选一个检索课题,使用CNKI3.0知识搜索,查找有关这个课题的学术文献,按照不同的排序方式进行结果的排序,并截图,显示不同的排序结果。
另外,也要通过CNKI3.0知识搜索,查看该课题的定义,英文翻译以及学术趋势。
6、列出每种参考文献的类型代码。
实验步骤:实验结果与结论:成绩评定:实验日期:2013年9月29日指导教师签名:孟翠翠2。
中英文搜索引擎【实验目的】(1)了解英文常用的搜索引擎的特点和检索方法,并能熟练地使用;(2)比较搜索引擎的性能。
【实验内容】上网熟悉以下的搜索引擎。
常用英文搜索引擎包括:Google Alltheweb Altavista Inktomi Northernlight Wisenut Openfind Teoma Gigablast 常用中文搜索引擎Baidu Google /intl/zh-CN/Openfind /cn.web.php?u=cn北大天网 /Alltheweb MSN Altavista 分组选取3个搜索引擎,4个主题进行深入研究【实验步骤】(1)开机,打开IE浏览器窗口;(2)在URL中输入或等搜索网站的域名,打开搜索网站主页;(3)在主页中搜索栏中输入和所选主题相关的关键词,点击“搜索”按钮;(4)在随后出现的搜索结果页面中查看搜索结果,并选择相应的链接点击进入下一页面,查看具体的信息内容;(5)要求写出搜索引擎的名称,检索信息的主题,检索结果。
可选择的主题信息检索系统的类型和特点搜索引擎名称:Baidu检索结果:现代信息检索服务系统指计算机信息检索系统,主要包括,联机检索系统、光盘检索系统和网络信息检索系统。
(一)光盘数据库检索光盘数据库检索是由微机、光盘数据库、检索软件等组成,目前国内普遍采用的是网络检索系统,它是由光盘服务器、计算机局域网、光盘库/磁盘阵列、检索软件等组成,其特点是设备简单、费用低、检索技术易掌握,但检索范围受到光盘数据库的限制。
更新不够及时;相对于手工检索而言,它的检索速度快,检索灵活方便,检索入口多。
(二)联机检索联机检索系统是由联机服务的中心计算机,检索终端。
通讯网络、联机数据库、检索软件等构成,检索终端通过信息路线与信息系统的主机连接,在中央处理机的控制之下查询系统的若干个数据库,并能够与系统实时对话,随时调整检索策略。
其特点是检索范围广泛、检索速度快,检索功能完善,及时性好,可以联机订购原文,它拥有的数据库量大,更新及时,但检索技术复杂,设备要求高,费用昂贵。