哈工大信息检索研究中心同义词词林扩展版说明
- 格式:pdf
- 大小:102.19 KB
- 文档页数:4
1、什么是信息、情报、文献?文献的三要素是什么?信息的概念:1、信息是人们根据一定目的和需要,把从自然现象和社会现象中搜集的原始材料进行加工、处理,找出其中关系而形成的对象实体。
2、信息是有一定含义的、经过加工处理的、对决策有价值的的数据,即信息=数据+处理3、信息是人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关性的实体对象,信息可以被数字化。
知识的概念:知识是指人们在认识世界、改造世界中所获得的认知,包括通过阅读、学习等方式的认知和通过自己或他人的历练所积累的一切经验的总和。
情报的概念:是被人们所利用的信息、被人们感受并可交流的信息。
文献的概念:是记录有知识的一切载体。
文献的三要素:1.构成文献内核的信息,数据,事实和知识(知识内容);2.负载信息,数据,事实和知识的物质载体(载体材料);3.记录信息,数据,事实和知识的符号系统(记录方式和手段)。
2、文献主要类型有哪些?(按载体、按加工程度、按文献类型)1)根据载体材料、存储技术、和传递方式划分可划分为:印刷型、缩微型、试听型和机读型文献信息源2)根据加工程度的不同划分可分为:一次文献信息源、二次文献信息源、和三次文献信息源3)根据文献信息源的内容划分可以分为:图书、期刊、报纸、科技报告、政府出版物、会议文献、专利文献标准文献、档案文献、产品样本3、何谓信息素质?从各种信息源中检索、评价和使用信息的能力。
是指一个人的信息需求、信息意识、信息知识、信息道德、信息能力方面的基本素质。
4、信息检索根据检索对象不同,一般分为几种?类型:文献检索、数据检索、事实检索,概念检索。
5、文献检索的方法有几种?两种:全文检索和书目检索6、世界上著名的三大检索工具是哪些?SCI 、EI 、ISTP英文全称?SCI(科学引文索引 )、EI(工程索引 )、ISTP(科技会议录索引 ) 是世界著名的三大科技文献检索系统。
(Science Citation Index(The Engineering Index)(Index to Scientific&Technical Proceedings)。
1、信息:一事物能够被其它事物所感知的本质、特征以及运动及其规律的表征,是事物存在的客观反映。
信息的本质信息广泛存在于自然界、生物界以及人类社会之中,它既不是物质,也不是能量,而是依附于客观事物的存在,只要有物质,就有表征其属性的信息。
信息的作用信息是事物各种客观属性的总称,它通过一定的媒介或传递方式(如:信号、波、图象等)为其它事物感知,使外界得以认识该事物、并与它事物相区别,从而减少乃至消除事物的不确定性。
信息的特点反映性信息是宇宙实体的反映或映射无量纲信息没有独立的时间/空间维度不守恒信息可以增加或减少、再生或消灭可共享信息可被多个信宿共同拥有/使用2、知识人类实践活动所获得认识与经验的总结。
从信息学的意义上说,知识是对信息进行加工提炼所获得的抽象化产物。
知识就是知“4W”Know - WhatKnow - WhyKnow - HowKnow - Who3、文献(document 或literature)记录一切人类知识信息的载体。
—— ISO/DIS5217记录有知识的一切载体。
——GB3792.1-83文献构成―三要素‖:知识内容,载体形态,记录方法信息、知识、文献之关系信息:事物的本质属性无处不在,无所不包知识:信息中最―有用‖的部分仅为人类所特有文献:知识的外在表现知识信息得以传播的媒介第二节.文献类型1)按载体形式划分印刷型(printed form) 缩微型(micro form)声像型(audio –visual form)电子型(electronic form)2)按加工程度划分一次文献(primary sources) 二次文献(secondary sources)三次文献(tertiary sources)零次文献(non-printed sources)3)按出版形式划分图书(book)连续出版物(journal 或periodical) 特种文献(special document)包括:科技报告(technical report)、会议文献( conference paper ) 、专利文献( patent document) 、学位论文(thesis dissertation) 、标准文献(standard)、政府出版物(government document)、产品资料(product literature)、技术档案(technical records)等8种。
《大学生信息检索概论》模拟试题一、填空题1、文献的级次分为零次文献、一次文献、二次文献、三次文献2、《中图法》有五个基本部类,分别是马克思主义、列宁主义、毛泽东思想_、哲学;社会科学;自然科学和综合性图书,在此基础上又划分为_22_个大类。
3、按内容可将计算机检索系统的数据库类型分为:文献书目型数据库、事实型数据库、数值型数据库和全文型数据库。
4、我国标准可分为国家标准、部标准和企业标准三大类。
5、在实际检索中,文献的检索方法主要有:直查法、追溯法、工具法和综合法。
6、国际标准化组织简称:ISO 、本标准每5年修订一次二、选择题 1、如果需要检索某位作者的文献被引用的情况,应该使用( C )检索。
A.分类索引B.作者索引C.引文索引D.主题索引2、利用图书馆的据库检索期刊论文时,可供选择的中文数据库是( D )。
A.超星数字图书馆 B .万方学位论文 C .国研网 D .维普科技期刊 E. 高校财经库3、如果检索有关多媒体网络传播方面的文献,检索式为( A D )。
A.多媒体and 网络传播 B .多媒体+网络传播 C .多媒体or 网络传播D.多媒体 * 网络传播4、如果对某个课题进行主题检索时,可选择的检索字段有( A D E)。
A.关键词 B .作者C.刊名D.题名 E .文摘5、二次文献又称检索工具,包括:( A C D)。
A.书目B.百科C.索引D.文摘E.统计数据三、名词解释题1、文献用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。
也可以理解为古今一切社会史料的总称。
2、体系分类语言体系语言是以科学分类为基础,运用概念的划分与概括的逻辑方法,形成一个概念等级体系,按知识门类的逻辑次序,按照从总到分,从一般到具体,从低级到高级,从简单到复杂的原则进行概念的综分,层层划分,累累隶属,逐步展开而形成的一个等级体系。
3、引文语言引文语言是根据文献所附参考或引用文献的特征进行检索的语言。
信息检索课期末复习题第一篇:信息检索课期末复习题信息检索课期末复习题第1章绪论1.信息素质的概念。
(P2)2.信息素质的四要素分别是什么?(P3)第3章信息与信息资源1.信息的含义。
(P33)2.信息的特征。
(P3-34)3.文献的概念。
(P35)4.文献信息资源的分类方法:按载体形式划分、按出版类型划分、按加工层次划分。
其中重点理解一次文献、二次文献、三次文献是什么。
第4章信息检索基础1.印刷型信息检索系统的类型及格式(P47)2.计算机信息检索系统的构成。
(P48)3.检索效果的评价指标中查全率和查准率是如何计算的?它们之间是什么关系?(P52)如何提高查全率(P60)?如何提高查准率?(P60)4.认真学习4.2信息检索的基本步骤这一节的内容,能够知道面对一个具体的检索课题需要设计经过怎样的检索流程?(P53-P61)5.检索点是什么?反应文献信息内容特征的检索点有哪些?反应文献外表特征的检索点有哪些?分类和主题检索点又有什么特点?6.看图表了解中图法是如何具体分类的?7.在计算机检索系统中的基本检索算符有哪些?(P71)重点掌握逻辑算符、字段限制算符、短语检索的表示方法,能够根据检索意图编制相应的检索式。
第5章国内学术信息资源检索结合实习作业复习本部分的内容1.广工图书馆网站上查找电子图书的数据库有哪些?KI、万方和维普分别可以查询哪些类型的文献?(期刊论文、会议论文、学位论文、专利文献、标准文献等)3.专利这个词有哪三层含义?(P109)4.中国专利有哪几种类型?保护时间分别多长?怎样从专利号中辨别不同类型的专利?5.授予专利权的条件是什么?6.专利有哪三种审查制度?我国的专利分别采用哪种审查制度?7.知道检索全世界专利文献的共同方法是利用国家专利分类表,了解国际专利分类号的组成。
(P113)8.结合实习,了解可通过哪些数据库或网站获取专利文献或标准文献?9.我国标准化法把标准分为哪四级?认识国家标准编号的组成。
《信息检索》补充资料(推荐5篇)第一篇:《信息检索》补充资料《信息检索》补充资料一、关于信息的定义控制论创始人维纳曾这样说过:“信息不是物质也不是能量。
信息是物质的一种属性,是事物存在的方式或运动状态及其表达。
”信息论创始人申农认为信息是指有新内容、新知识的消息,是用来消除随机不定性的东西。
我国国家标准《情报与文献工作词汇基本术语》(GB4894-85)制定者给信息所下的定义是:“信息是物质存在的一种方式、形式或运动状态,也是事物的一种普遍属性,一般指数据、消息中所包含的意义,可以使消息中所描述的事件的不定性减少”。
现在,一般从本体论和认识论层面来定义“信息”,形成两种不同的定义。
本体论上的“信息”是指事物存在和运动的状态和方式。
这里强调信息是事物属性的表征,即信息不是事物本身,而是用来表现事物特征的一种普遍形式。
“本体论”仅仅从信息本身去解释信息,强调信息的客观存在性。
认识论上的“信息”,是指认识主体所认识和表达的事物运动的状态和方式,具体地说,就是为认识主体所认识、整理和组织,因而可以为人们所利用的信息集合(整体)。
认识论上的“信息”内涵较本体论上的信息要小。
“认识论”从人的角度去理解信息,具有主观能动性。
信息检索这门课中所涉及的信息概念或者说信息检索的对象就是认识论上的信息。
关于狄德罗与《百科全书》1747年,34岁的狄德罗在巴黎已很有名气。
当时,有两个出版商看到英国钱伯斯出版社1728年出版的《百科全书》销路很好,就想把它译成法文在法国出版。
那两个出版商找到狄德罗和哲学家达朗贝尔,将翻译工作托付给他们。
但狄德罗他们在翻译过程中;发现英国的这套《百科全书》内容支离破碎、观点陈旧,充满了令人窒息的宗教思想。
于是狄德罗提出由他组织人,编写一套更好的《百科全书》,出版商欣然同意了这个提议。
狄德罗立刻着手拟订新《百科全书》的编写大纲。
他印制了八千份说明书,向社会公布了该书的出版宗旨和编写计划,并明确宣布出版目的在于改变迄今为止人们的思想方式,在于搜集知识传至后代,使后人不仅知识更加丰富,而且更加有教养、更加幸福。
《信息检索与利用》习题(客观题)一、判断题(每题1分):1.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。
(√)2.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。
(√)3.目前的搜索引擎能很好的处理自然语言。
(╳)4.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。
(╳)5.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。
(╳)6.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆间建立合作机制,实现资源共享。
(√)7.关键词语言的最大优点是能用计算机进行自动抽词标引,它适合于计算机自动编制各种类型的词索引。
(√)8.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道德是前提,信息能力是保证,信息意识是准则。
(╳)9.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网站。
(╳)10.用搜索引擎google检索专利和期刊的全文比用中国国家知识产权局专利数据库、《维普中文科技期刊数据库》等数据库的查全率和查准率都要高。
(╳)11.GB/T 16159-1996,汉语拼音正词法基本规则[S].北京:中国标准出版社,1996.该文献类型为标准文献。
(√)12.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样的。
(√)13.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。
如输入comput*,将检索出computer、computing、computerized等词汇。
(√)14.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。
(√)15.不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。
(√)16.一次文献是指原始创作,即作者以本人的研究成果为基本材料而创作(或撰写)的文献,主要包括期刊论文、专利说明书、会议论文、科技报告和学位论文等。
《哈工大信息检索研究室同义词词林扩展版》说明
一、英文名称
HIT IR-Lab Tongyici Cilin (Extended)
二、词表建设
《同义词词林》的第一版和第二版的词表完全一样,收词53,859条。
其中有很多的词已经很不常用,成为所谓的罕用词。
参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留频度不低于3(小规模语料的统计结果)部分词语,可剔除14,706个罕用词和非常用词。
经过这样的处理,《同义词词林》还剩下39,099个词条。
为了满足自然语言处理的需要,这样规模的词典显然是少了一些,可以说远远不够。
为了扩充《同义词词林》,本实验室利用很多词语相关资源,并投入了大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究室同义词词林扩展版》。
最终的词表包含77,343条词语。
二、词分类
《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,,把词汇分成大、中、小三类,大类有12个,中类有97个,小类有1,400个。
每个小类里都有很多的词,这些词有根据词义的远近和相关性分成了若干个词群(段落)。
每个段落中的词语有进一步分成了若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性。
例如,“大豆”、“毛豆”和“黄豆”在同一行;“西红柿”和“番茄”在同一行;“大家”、“大伙儿”、“大家伙儿”在同一行。
另外,“将官”、“校官”、“尉官”在同一行,“雇农”、“贫农”、“下中农”、“中农”、“上中农”、“富农”在同一行,“外商”、“官商”、“坐商”、“私商”也在同一行,这些词不同义,但很相关。
为了将词义相关的行和同义的行区分开,词典《同义词词林》在行的左端加上“* *”作为标记。
小类中的段落可以看作第四级的分类,段落中的行可以看作第五级的分类。
这样,词典《同义词词林》就具备了5层结构,见图1。
随着级别的递增,词义刻画越来越细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,已经不可再分,可以称为原子词群、原子类或原子节点。
不同级别的分类结果可
以为自然语言处理提供不同的服务,例如第四层的分类和第五层的分类在信息检索、文本分类、自动问答等研究领域得到应用。
有研究证明,对词义进行有效扩展,或者对关键词做同义词替换可以明显改善信息检索、文本分类和自动问答系
统的性能。
词典《同义词词林》中保留下来的39,099条词语也保留了原有的分层结构,而新增的36,267条词语没有这样的结构。
对于这些词,按照《同义词词林》的结构体系进行分类,工作量十分巨大。
分类的某些环节可以使用机器自动完成,但是自动完成的结果不是很理想,各个环节主要还是依靠人工来完成。
三、编码
《同义词词林》只提供了三层编码,即大类用大写英文字母表示,中类用小写英文字母表示,小类用二位十进制整数表示。
例如:“Ae 07 农民牧民渔民”,“Ae 07”是编码,“农民牧民渔民”是该类的标题。
标题是由一个或者多个第四层的“段首(即每个段的第一个词)”组成。
根据标题词可以知道小类有分成多少个第四级类,参见表1。
表1 词典结构示例
牧民牧人牧工
渔民渔翁渔家渔夫渔父
为了使用上的方便,对于第四级和第五级的分类也需要编码。
新增的第四级和第五级的编码与原有的三级编码和并构成一个完整的编码,唯一的代表词典中的出现的词语。
如:
Ba01A02= 物质质素
Cb02A01= 东南西北四方
Ba01A03@ 万物
Cb06E09@ 民间
Ba01B08# 固体液体气体流体半流体
Ba01B10# 导体半导体超导体
编码的方法说明如下:
第四级用大写英文字母表示,第五级用二位十进制整数表示。
由于第五级的分类结果需要特别说明,例如,有的行是同义词,有的行是相关词,有的行只有一个词,可以分出具体的三种情况。
在使用上,有时需要对这三种情况进行区别对待,所以有必要再增加标记来分别代表着几种情形。
具体的标记参见表2。
表2 词语编码表
编码位 1 2 3 4 5 6 7 8
符号举例 D a 1 5 B 0 2 = \ # \ @
符号性质大类中类小类词群原子词群
级别第1级第2级第3级第4级第5级
表中的编码位是按照从左到右的顺序排列。
第八位的标记有3种,分别是“=”、“#”、“@”,“=”代表“相等”、“同义”。
末尾的“#”代表“不等”、“同类”,属于相关词语。
末尾的“@”代表“自我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。
四、词典的完善
目前推出了《哈工大信息检索研究室同义词词林扩展版》的1.0版本,已经可以满足很多研究领域的应用。
本实验室,还将继续组织人力对词典的功能进行必要的完善,同时修改词典分类中存在的错误。
1.0版本秉承《同义词词林》的编撰风格,同时采用五级编码体系,提供实用的汉语大词表,以满足自然语言各个研究领域的需要。
为了更好的发挥该词典的作用,本实验室拟增加更多的词语信息,如词性、读音、词频、句法关系和语义关系等。
这信息的加入,将大为改观词典的结构和功能,届时也会在自然语言处理领域发挥更大的作用。