关于信息组织与检索
- 格式:doc
- 大小:38.50 KB
- 文档页数:4
第一章1、信息采集:是指根据特定的目标和要求,将分散在不同时空域的有关信息,通过特定的手段和措施采掘和汇聚的过程。
它涉及一切信息工作中的信息采集活动,包括企业和其他组织的管理者们为了实现决策、管理和控制等目标所进行的信息采集。
2、信息采集渠道:①大众传播媒体②文献③政府机构④合作伙伴⑤消费者⑥信息中介结构3、信息采集方法:问卷调查、访谈、实验研究、文献收集4、信息组织与信息检索的关系:信息检索是根据特定的需求,运用某种检索工具,按照一定的方法,从大量的信息中查找出所需信息的过程。
对信息检索进行完整描述,一般必须包括信息组织和检索两个方面。
在信息检索系统中,信息组织是依据信息资源的主题内容和特征,将无序的信息组织成有序集合。
信息组织是信息检索的基础和前提。
信息组织根据用户需要,以信息资源的一定单元为处理对象,依据预先制定的规范,对其特征加以记录,并进行标引和必要的记录,然后将这些信息记录,按照规定的方式输入检索系统。
第二章1、信息组织:就是人们根据信息本身特点,运用适宜的工具和方法,依据一定的标准或规则,对其进行加工整理,排列组合,使之有序化、系统化、规律化、高级化,增强信息对象的表现效能和运用效能,以满足人们信息需求的过程和活动。
2、信息组织基本内容:按照信息组织的活动类型分“信息选择、信息分析、信息描述与揭示、信息存储”按照信息组织的流程分“信息的筛选和鉴别、信息的分类和排序、信息的著录和标引、信息的编目和组织、信息的分析和研究”3、信息描述与揭示方法:一是著录,主要描述文献信息的形式特征;二是标引,主要揭示文献信息的内容特征。
4、信息组织的类型:信息组织可归为语法信息组织、语义信息组织和语用信息组织三大类型。
从广义上看,信息采集阶段的信息组织主要是一种语用信息组织;信息组织阶段的信息组织属综合型信息组织;信息检索和开发阶段的信息组织则属于优化型语用信息组织。
5、一次信息、二次信息、三次信息:一次信息是人们研究或创造性成果的直接记录,一般指公开出版的图书、期刊论文、研究报告、会议文献、学位论文、专利说明书、网上未经过处理的电子化信息等。
主题法的含义主题,主要指信息资源论述的主题对象,包括事物、问题、现象等。
经过选择,用来表达信息资源主题的语词,称为主题词。
所谓主题法,一般是指直接以表达主题内容的语词作检索标识、以字顺为主要检索途径、并通过参照系统等方法揭示词间关系的标引和检索信息资源的方法。
主题法一般都具有下述特征:1、直接以语词作为检索标识。
主题法不像分类法那样,以一种抽象的号码系统作检索标识,而是直接选用自然语言中的语词进行标引和检索。
2、以字顺作为主要检索途径。
虽然主题法往往也采用按范畴、词族等方式组织主题词,但字顺方式始终是它的主要排检依据。
我国的主题检索系统通常是根据汉字特点,按照拼音或笔画笔顺进行排检的;因此在使用主题法检索时,只要知道检索对象的名称,就可以按相应的排检方式进行查找。
在机检系统中,一般可以直接输入语词,由计算机进行查找,通用性好。
以特定的事物、问题、现象,即主题为中心集中信息资源。
分类法由于受学科体系的限制,从不同学科角度研究,同一对象的信息资源是分散在各知识门类中的,主题法则是直接从主题对象的角度揭示信息资源。
4、往往是通过详尽的参照系统等方式揭示主题词之间关系。
按照字顺排列不能必然揭示主题概念之间的联系,为了克服这一局限,主题法发展了完备的参照系统,通过在主题词下设置用、代、属、分、参等多种参照项,建立起“隐蔽的分类体系”。
与分类法相比,主题法的特点是可以集中与一个主题有关的各个方面的信息资源,检索的直接性、通用性好,适合于进行各种专指检索,在性能上具有与分类法相互补充的特点。
主题法通常不用于组织图书,只广泛用于组织各种检索工具,不仅可以利用它编制各类供手检使用的书目索引,同时也可以用来建立计算机检索系统,进行机检。
按照主题法的选词方式,可以分为标题法、元词法、叙词法、关键词法;1、标题法标题词,亦称标题,并非指文献“标题”中的词,是指经过词汇控制,用来标引文献的词或词组,通常为比较定型的事物名称。
《信息组织》知识点汇总第一章第一节、信息组织的必要性1.信息组织:根据信息检索的需要,以文本及各种类型的信息资源为对象,通过对其内容特征等的分析、选择、标引、处理,使其有序化并以适当方式加以提供的活动。
2.信息组织的目的:是根据使用需要建立起信息资源收藏系统和检索工具,以便信息资源开发和利用。
作为一种为了检索利用的需要对信息资源进行有序化组织的活动,它是与信息检索活动密切联系的。
3.信息检索:根据检索需要,从检索系统中检出相应信息资源的过程。
3.信息资源:通常指一切以记录形式存在的信息载体,只是比较而言,更侧重于对新型媒体形式的强调。
(可以是图书、期刊、报纸、论文,也可以是网络上的电子资源)4. 信息组织与信息检索有什么关系?(1)信息组织是信息检索的基础和前提,只有对信息资源进行处理和有序化信息系统之后,才能准确有效查找相关信息资源;(2)信息检索则是信息组织出发点与归宿,用户的检索需要是组织信息的主要依据。
第二节、信息组织的形式和检索途径1.文献组织的基本排列方式:一般有两种基本排列方式,其一为:(固定排列法)和(按一定意义的次序排列。
)(固定排列法,如档案、博物馆的收藏、光盘、录音带、缩微品。
按一定意义的次序排列,如图书、期刊等)2. 按照检索工具的对象和特点,可以分为(文献目录)、(索引)、(机读数据库)、(网络搜索引擎)四种类型。
3. 按照标识特征,检索工具可以分哪两种基本类型?(1)以信息资源的外部特征(形式特征)为检索依据,提供以信息资源形式特征为标识检索途径。
常见的信息资源形式特征有责任者名(即作者和与资源形成相关的人或机构,如译者、改编者、修订者等)、题名、机构名、标准书号、专利号、文献登录号(或顺序号)等。
(2)以信息资源的主题内容特征为检索依据,提供从资源内容进行检索的途径,主要有(分类法)、(主题法)。
4.按照系统中所用的标识是否进行控制,检索工具可以分为(受控检索系统)与(自然语言检索系统)。
一.名词解释1.信息检索:广义来说,指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程,包括“存”和“取”两个基本环节;狭义理解,一般只涉及“取”,信息检索也可称为“信息查询”或“信息查找”。
2.联机信息检索:指用户利用检索系统网络的终端设备,通过通信线路,运用一些特定的指令和检索策略与世界上的信息检索系统,进行质检的人机对话,从检索系统的数据库中查找出用户所需要的特定信息,并将检索结果与过程下载,显示和打印出来的过程。
3.CBR:基于内容的检索,指根据多媒体对象的听、视觉特征及其中蕴含的内容和语义特征进行检索,并希望能够借助于模式识别、语音识别、图像理解等相关领域的研究成果,对多媒体数据的听、视觉特征和语义特征进行自动(半自动)的分析、表达和组织。
4.网络信息源:指所有以电子数据的形式把文字、图像、声音、动画等多种形式的信息存贮在光、磁等非纸质介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源。
5.搜索引擎:搜索引擎有广义与狭义之分。
广义的搜索引擎泛指网络上提供信息检索服务的攻击或系统。
狭义的搜索引擎主要是指利用网络自动搜索软件对INTERNET(主要是WEB)网络资源进行收集、组织并提供检索服务的一类信息服务系统。
6.URL:统一资源定位符(Uniform Resource Locator,缩写为URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
7. 顺排/倒排文档:文档的概念是指数据库内容的组织形式。
一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。
(1)顺排档,也称为主文档、引文文档,它是按记录存取号的大小顺序排列记录而成的文档。
文档越是新,记录存入文档的时间越是晚,记录的存取号就越大。
(2)倒排挡,是指把数据库中记录的一切可检字段或属性值(称检索标识,如著者,主题词等,不包括存取号)抽出,按某种顺序(字母或数字顺序)重新加以组织后得到的特征标识文档。
信息组织期末整理第一章导言信息组织:亦称为信息资源组织,是根据信息检索的需要,以文本及各种类型的信息资源为对象,通过对其内容特征等的分析、选择、标引、处理,使其成为有序化集合的过程。
信息组织与信息检索的关系:1、信息组织是信息检索的基础和前提。
2、信息检索是信息组织的出发点和归宿。
总之,信息组织与信息检索是密切联系,相辅相成的两个环节。
要使信息组织取得较好的效果,必须充分了解系统的检索需要,根据信息资源的特点和用户的使用要求加以实施。
信息组织的类型:1.文献组织:对信息资源本身的组织(主要指文献)①按一定意义的次序排列:根据信息资源的外部或内容特征,按题目名称字顺排列、责任者排列、分类排列等。
②固定排列法:按照文献的形式、到馆先后、或文献本身固有的号码(如专利号、标准号、报告号等)排列。
适用对象:不适合按信息资源特征排序的资源类型,如档案、文物藏品、光盘、录音带、缩微品等。
第二章信息组织原理对信息组织的要求1.检全率(查全率)检全率=检出相关信息资源量/系统相关信息资源总量×100%表示系统检出相关信息资源的能力。
2.检准率(查准率)检准率=检出相关信息资源量/检出信息资源总量×100%表示检索系统排除与检索提问无关信息资源的能力。
相对而言,规模有限的中小型检索系统对检全率则有较高的要求,对检准率则并不如大型检索系统那样重要;但在信息资源量较大的数据库或搜索引擎中,随着检出文献量的增加,对检全率的要求往往退居其次,检准率成为主要追求的目标。
3.检索速度和系统的及时性4.系统的易用性5.检索的成本效益信息组织的控制1.描述控制职能符号用以表明主题标识在组配中的句法职能的辅助符号,作用是明确主题标识的句法含义,防止出现错误的组配关系。
逻辑组配符号使用逻辑符号对组配关系实施控制,可以进行各种演算,实施精确查找,常用于后组式检索系统。
句式转换轮排转换 链式转换 分析转换4. 相关因素控制信息组织过程中应该了解的基本逻辑知识包括: 1. 概念及其内涵和外延概念是表达事物对象的特有属性或本质属性的思维形式,是检索系统交流的内容。
《信息组织与检索》作业答案第一章布尔检索习题1-2考虑如下几篇文档:文档1 breakt hrough drug for schizo phren ia文档2 new schizo phren ia drug文档3 new approa ch for treatm ent of schizo phren ia文档4 new hopesfor schizo phren ia patien tsa. 画出文档集对应的词项—文档矩阵;b. 画出该文档集的倒排索引(参考图1-3中的例子)。
Term-Docume ntmat rix:1 2 3 4approa ch 0 0 1 0breakthroug h 1 0 0 0drug 1 1 0 0for 1 0 1 1hopes0 0 0 1new 0 1 1 1of 0 0 1 0patien ts 0 0 0 1schizophren ia 1 1 1 1treatm ent 0 0 1 0Invert ed Index:approa ch -> 3breakt hroug h ->1drug ->1->2for ->1->3->4hopes->4new ->2->3->4of ->3patien ts ->4schizo phren ia ->1->2->3->4treatm ent >3注意:倒排索引中的词表(dictio nary)和每个词项的倒排列表(p ostin g list)需要排序,便于查找。
这里我们暂不考虑词的正规化处理(如hopes->hope)。
补充习题1写出AND查询的伪代码●面向过程风格的伪代码:给定两个指针p1和p2,分别指向两倒排列表list1和list2(链表实现)的首元素;令docId(p1)表示p1所指向的元素的docId查询结果存放在ans wer列表里。
信息检索考点整理1.信息检索的概念广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;而狭义的信息检索仅指有序化信息的检索查找。
2.信息检索的原理就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3.为什么说信息存储和检索是两个不可分割的有机体?检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。
存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。
检索过程是存储过程的逆过程。
因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4.信息检索的方法(1)顺查法(2)倒查法(3)抽查法(4)追溯法(5)循环法5.信息检索的途径(1)内部特征途径a)分类途径b)主题途径(2)外部特征途径a)题名途径b)著者途径c)文献编号途径d)目录检索途径e)机构检索法f)引文检索途径6.布尔模型的优缺点优点:(1)简单,形式简洁,易于理解;(2)可操作性强,应用广泛;(3)构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确的语义概念;(4)能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳(2)准确匹配无法提供定量比较(3)匹配标准不尽合理(4)检索结果不易控制7.概率排序原则:如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8.什么是计算机信息检索?所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。
《信息组织与检索》一.名词解释1. 一次文献:即原始文献。
它是作者以生产或科研为依据而创作的原始文献。
如专著、期刊论文、学位论文等。
2. 技术档案:指生产、设计、建设、科研等专业部门,在科技活动中形成的文件、图书、照片、数据等原始记录文献,包括项目规划、设计、实施方案、任务说明书、协议书、技术指标、实验计划等,具有保密性和内部使用的特点。
3. 目录:是图书、期刊或其他单位出版物外表特征的揭示与报道。
它是以一本书、一种刊物为著录的基本单位,记录图书、期刊、资料等的名称、著者、出版项与馆藏项等内容,并按照一定的编排体例进行编制,但不涉及书中的章节或期刊中具体的文章。
4.检索语言:又称为情报语言、情报存储和检索语言、信息组织语言等。
它是根据检索的需要而创作的人工语言,把信息的存储和检索联系起来,把标引人员与检索人员联系起来,以便取得共同理解、实现交流的语言。
5. 追溯法:以已获文献后面所附参考文献为线索进行追溯查找,又称为参考文献法。
6、文献信息资源文献是记录有知识的一切载体,文献信息资源是以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息资源。
7、信息检索语言信息检索语言是用来描述信息的内容特征、外部特征和表达信息检索提问的一种专门语言。
8、竞争情报竞争情报是20世纪80年代在国际上迅速发展起来的一种信息业务,是关于竞争环境、竞争对手和竞争策略的情报研究。
9、INTERNET(因特网)Internet:因特网。
泛指由多个计算机网络相互连接而成的一个网络,它是在功能和逻辑上组成的一个大型网络。
采用TCP/IP协议。
因特网,源自英文的Internet,它的含义从广义上来说就是是“联接网络的网络”。
这种将计算机网络互相联接在一起的方法称为网络互联。
作为专有名词,它所指的是全球公有、使用TCP/IP这套通讯协议的一个计算机系统,这个系统所提供的信息与服务,以及系统的用户。
因此,世界上这个最大的互联网络也被简称为“互联网”(the Internet)。
二. 判断题(对的打“√” ,错的打“×” )1. 通过BA、ISTP、Kluwer online、Springer Link 数据库都能检索到外文期刊论文全文。
(×)2. 在重庆维普数据库检索系统中能查到企业名录。
(×)3. 利用某个图书馆的书刊目录查询系统(OPAC),可以了解该图书馆收藏有哪些印刷型图书和期刊。
(∨)4. 截词检索相当于用逻辑“或”扩展检索的范围,可以提高检索的查全率。
(∨)5. 联合目录可以帮助读者确定其所需要的文献收藏在那个情报机构。
(∨)6. 综述因附有大量参考文献,所以是二次文献。
(×)7. 通过“万方数据资源系统”可以查找标准文献的全文。
(∨)三. 填空题1.按文献载体形式划分,文献可分为印刷型、缩微型、声像型、和电子型。
2.根据文献Biomedical applications of nanoscale devices,Anon.Source: MaterialsTechnology, v 19, n 2, June, 2004, p 118-119.的著录特点,可以判断,该文献是科技期刊_。
3. 在计算机信息检索系统中,常用的检索技术主要有布尔逻辑检索、截词检索、位置检索、限制检索和加权检索_等。
4. 要查明同济大学图书馆是否有“computer communications”这本期刊,可以通过电子期刊导航系统和_书目信息检索系统等系统查找。
5.公告号为8510961的专利是_发明专利(类型的)专利,专利号为200420011414.6 的专利是实用新型(类型的)专利;申请号为99322746.5的专利是_外观设计(类型)专利。
在标准号GB/T 19557.8-2004中,其中GB/T是推荐标准代号,2004是颁布年代。
6.在许多数据库中,都有“二次检索”功能,“二次检索”指:在前一次检索基础上再检索。
7、查找中文科技期刊全文文献的数据库有清华中国学术期刊(或维普中文科技期刊或万方数字化期刊);8、IPC 是国际专利分类号,其作用是提供从分类途径查找专利。
9、_知识__、_载体___、_记录____是构成文献的三个基本要素。
10、按检索方法划分,检索工具可分为_手工检索_工具、_计算机和网络检索工具。
11、目前,常见的主题词语言有_标题词_语言、_单元词_语言、_关键词_语言和_叙词_语言。
12、广义的信息检索实际上包括文献的_存储__和文献的_检索_两个相互依存的过程。
13、我国从1985年4月1日开始实施《中华人民共和国专利法》,标志着我国专利制度的正式建立。
14、手工检索检索中国专利主要使用_《中国专利公报》__和_《中国专利索引_》_两种。
15、德温特公司的专利文献检索工具为检索者提供了三种检索途径即:_国际专利分类号检索___、_专利权人检索__和_专利号检索__。
16、中文检索工具的内容,一般由使用说明、目次、_正文__、_索引___和_文摘来源_五个部分组成。
四、多项选择题1、专利文献的特点有(ABCD)。
A、技术新颖B、格式统一规范C、实用性强D、报道迅速,价值巨大2、按收录文献的范围划分,检索工具可分为(ABC )。
A、综合性检索工具B、专业性检索C、单一性检索D、手工检索3、情报的基本属性有( AB)。
A、传递性B、效用性C、目录性D、用户性4、我国技术标准主要分为(AC )。
A、国家标准B、部标准C、企业标准5、专利申请必须遵循的原则有( ACD)。
A、书面原则B、国民待遇原则C、优先权原则D、单一性原则五.运用学过的有关算符写出下列课题的检索式如果要查找McKee, Colin发表在Nature Biotechnology杂志上的“Production of biologically active salmon calcitonin in the m ilk of transgenic rabbits”文章,如何编写检索式。
FieldCodeFieldCodeAbstractABSerial titleSTAuthorAUSubject/Title/AbstractKYAuthor affiliationAFTitleTI“McKee, Colin”wn AU and “Nature Biotechnology” wn ST and (biologically and salmon and calcitonin and milk) wn TI 或者AU=McKee, Colin * ST=Nature Biotechnology * TI=biologically and salmon and calcitonin and milk六、找出下列检索式中的算符,并解释各检索式的含义1、((Telemedicine and (GPRS or “general packet radio service?” or “wireless net?”))) WN KY) and (({LEE B}) WN AU)在文摘或题名或主题词中查找包含远程医疗(Telemedicine)及GPRS或无线网络且作者是LEE B 的文献。
2.、(纳米材料+纳米技术+纳米科技)*(生物医学+卫生保健)*应用查找纳米材料或纳米技术或纳米科技在生物医学或卫生保健中应用的文献。
七.问答题1.影响查全率和查准率的因素有哪些?查全率:R=检出的相关信息量/检索系统中相关信息总量查准率:P=检出的相关信息量/检出的信息总量主要从以下几个方面考虑:选词、选择数据库是否全面;时间,文献类型2、信息的概念是什么?信息有哪些特征?广义的信息概念:即信息是事物运动的状态和方式,也叫本体论信息狭义的信息概念:即信息是认识主体对事物运动状态和方式的反映,也叫认识论信息信息具有以下几个特征:普遍性、无限性、寄载性、传递性、可知性与可贮性、动态性、共享性3、如果要查找有关“转基因生物和细胞及其制备方法”方面的中外文文献,如何查找?请写出具体的检索步骤。
1、分析课题,明确检索要求;2、选择检索系统:要考虑文献类型3、选择检索途径4、选择检索方法5、查找文献线索6、获取原始文献4、简述信息检索语言的功能。
信息检索语言是沟通信息存储和信息检索的桥梁;对信息组织人员来说,它是表达信息主题内容,形成标识并赖以组织信息的依据;对信息检索人员来说,它是表达检索需求的依据。
5、信息的特征有哪些?信息具有如下几个特征:普遍性、无限性、传递性、可知性与可贮性、动态性、共享性6、试比较分类语言与主题词语言分类语言是运用概念划分的原理,以分类号为标识,将各种概念按学科性质加以划分和排列,用以分门别类地、系统地组织信息的一种检索语言,它又可以分为体系分类语言和组配分类语言以及混合分类语言。
主题语言是直接以表达主题内容的语词作为检索标识,以字顺为主要检索途径的标引和检索信息的语言。
主题语言是一种描述性语言,它使用自然语言中的词语或规范化的词语来描述文献所论述或研究的事物概念,具有较强的直观性、专指性和灵活性。