信息检索 第二章检索语言
- 格式:doc
- 大小:74.00 KB
- 文档页数:9
2.3分类检索语言分类检索语言:又称分类法,是将许多类目根据一定的原则组织起来,通过标记符号(分类号)来代表各级类目和固定器先后顺序的分类体系。
体系分类法:基于概念的划分与概括,以学科分类为基础,把概括文献内容与事实的各种类目组成一个层层隶属、详细列举的等级结构体系。
组配分类法:基于概念的可分析性和可综合性,将一个复杂的文献主题概念用若干个表达简单概念的标识组配来表达的一种文献分类法。
一、体系分类法(一)结构分为微观结构和宏观结构。
微观结构指分类法中类目的构成结构。
按照类目之间关系建立起来的类目集合称为类目体系。
类目体系的建立涉及到。
1、类目的划分是把一个类目分成若干小类,从而揭示类目外延的逻辑方法。
类目划分的标准有分类标准、内容标准、形式标准。
类目划分的过程通常是由大到小、由属到种、有整体到部分、由总论到各论、有全面到各方面。
2、引用次序在体系分类法中表现为分类标准的使用次序。
合理的引用次序应满足逻辑性原则、符合检所需要原则、表达性原则。
3、类目的排列直接影响到分类法的质量应体现出系统性、整体性、等级性、逻辑性、连续性、一致性。
4、类名的确定类名的作用是表达类目含义应坚持科学性、确切性、简洁性。
5、类目之间相关关系的处理分类法是依赖于类目之间的相关关系建立起来的。
类目之间的基本关系有从属关系(类目体系中母类与子类的关系,构成分类法类目的纵向排列)、并列关系(在分类法中体现为同位类)、交替关系(使用类目和交替类目之间的关系)、相关关系(在分类法中体现为相关类目)。
宏观结构是按功能分体系分类法的结构。
有以下四部分组成。
1、类目体系按照类目之间关系建立起来的类目集合。
由主表和复分表组成。
主表是由基本部类、基本大类、简表、详表逐级展开而成的类目表。
复分表是供主表有关类目进一步细分用的类目表,有通用复分表和专用复分表两种。
2、标记系统是分类语言所有标记符号的集合。
分类语言的标记符号即分类号,有单纯式号码和混合式号码两种。
标记制度是由标记符号构成分类标记的基本方法,可分为顺序制、层累制、混合制、分面标记制。
为了增强标记符号的容纳性、表达性、简明性,采用了一些特殊的标记方法,有八分法、双位法、借号法、组配法、空号法。
①顺序制:对全部类目不分等级给予顺序号码的编号方法。
优点:号码简短明了、便于排检、容纳性强。
缺点:表达性、助记性差。
②层累制:一种分类号位数与类目等级相对应的标记制度。
优点:表达性、助记性强,便于扩检和缩检,便于文献排架和目录组织。
缺点:简短性差。
③混合制:将顺序制与层累制结合起来使用的一种标记制度。
④分面标记制:一种显示类目组配结构的标记制度。
优点:表达性、灵活性强。
缺点:号码成分复杂,冗长难记,标记的排序能力差。
①八分法:用1-8来标记同位类,当同位类超过8个时,不用9,而用91、92 (98)来标记。
是解决同位类超过10个时的一种方法。
②双位法:当同位类超过18个时,直接用双位数表示一次划分。
是解决号码扩充问题。
③借号法:灵活借用上位类或下位类号码的配号方法。
被借的号码常是8或9。
④组配法:将两个表示简单概念的类号用组配符号组合成一个符合类号。
用来表示分类表中没有列出的复杂概念。
⑤空号法:为了适应新类目的增加而采用的一种预留一定数量空号码的编号方法。
空号也有可能是原有类目被删除或调整而出现的。
3、说明与注释是对分类表结构及使用方法的揭示,主要包括编制说明、大类说明、类目注释。
4、类目索引从类目名称子顺查找相应分类号的类表辅助工具。
分为直接索引、相关索引、主题分类对照索引。
(二)特点优点:1、按学科专业属性构建类目体系,形成按学科专业集中文献的知识概念系统,直接满足用户从学科专业出发检索课题的需求,查全率较高。
2、采用等级列举式的概念标识系统来揭示概念之间的相互关系,便于用户“触类旁通”“层层深入”的查找学科专业的信息;便于用户通过一定类目下的浏览查到相关领域的信息。
3、采用分类号作为主题标识,不受语种限制。
缺点:1、修订不便,无法及时增加反映新知识主题的类目。
2、分类表不可能永无止境的细分下去,遇到主题狭窄的文献,难以找到相应的类目和分类号。
3、体系分类法采用先组定组式标识,难以进行组配检索,检索途径单一,检索效率不高。
4、采用分类号作为主题标识,缺乏直观性。
5、按学科专业属性集中文献信息以及线性的分类体系,难以反映客观实际中多维的知识空间结构。
(三)主要体系分类法介绍《中国图书馆分类法》其标记制度采用阿拉伯数字与拉丁字母相结合的混合号码制。
基本上遵循层累制。
《杜威十进分类法》依据培根的知识分类思想,被称为倒转培根法。
采用纯阿拉伯数字作为标记符号,基本上遵循层累制。
二、组配分类法(一)组配分类表组配分类表是由编制说明、基本类表、分面类表和分面公式以及通用辅表组成,它的建立主要采用了分面分析法。
分面分析法是将整个知识领域或某一知识领域按其不同属性分解为若干个分面,每个分面再分解为若干个亚面,每个亚面再分为更小的子面,面内列出所属各子目的一种编制分类表的方法。
在组配分类表的编制过程中,需要考虑到分面的引用次序与排列次序,标记符号与标记制度等方面的问题。
1、分面的引用次序与排列次序①分面的引用次序:组配表达主题概念时,各分面被引用的先后次序,即各分面中有关类目的组配次序。
②分面的排列次序:组配分类表中各分面以及分面内各类目的排列先后顺序。
2、标记符号与标记制度①分面标记制:用分面符号把类目分成若干段,使每一段的号码代表主题的一个方面,以实现类目组配结构的一种标记制度。
②回归标记制:将分类表中位于前面的分面类目号码直接加在位于后面的分面类目号码之后,组配表达复杂主题概念的标记制度。
(二)特点优点:1、通过简单主题概念的组配,一方面可简化分类表,缩小类表体积;另一方面能表达各种复杂主题概念和专深主题概念;并且能够揭示主题概念之间的相互关系。
2、可以对信息所表达的主题概念进行多方面标引,实现多途径检索。
3、可以较为及时的增补新的主题概念,类表修订灵活方便。
缺点:1、类目体系不如分类法直观。
2、标引和检索有一定难度,使用不太方便,非专业人员使用难度较大。
3、不适合图书馆、资料室组织文献分类排架。
(三)主要组配分类法介绍最早提出分面组配思想的是比利时的奥特莱。
系统的分面分配理论是由印度图书馆学家阮冈纳赞提出,在其专著《图书分类导论》中有系统阐述。
《冒号分类法》是阮冈纳赞编制的一部分面分类法。
提出了五个基本范畴的理论,依次为:本体、物质、动力、空间、时间。
创立了分面标记制度,广泛采用八分法、双位法。
《冒号分类法》的优点:①标记表达性强。
②类表简练、容纳性强、适应性好。
③易于揭示复杂主题。
④对今天的知识组织产生了一定的影响。
缺点:①类目体系不够直观②标记符号种类繁杂、规则繁多③使用起来比较复杂。
虽然在理论上对分类语言的发展做出了巨大贡献,但在实践中没有得到广泛应用。
2.4主题检索语言主题检索语言:又称主体法,采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。
从描述事物特性角度出发,按文献所论述的事物(即主题)集中文献,用规范化的名词术语标引和表达文献主题概念,用参照系统显示事物概念主题词之间的关系。
主题检索语言与分类检索语言的相同点:①表现文献内容特征的检索语言②描述和揭示的对象是各种各样的文献③都是建立在概念逻辑、知识分类、术语学基础之上。
一、类型:标题词语言、单元词语言、叙词语言、关键词语言二、特点:主体法是直接使用语词标识的检索语言,能较好的按事物集中文献,便于从事物出发检索文献。
优点:1、专指性高:主题语言以规范化的名词术语为基础,着眼于事物及事物的各个方面。
任何一个语词标识都能表达一个或大或小,不受学科影响,基本上是独立完整的事物概念。
2、直观性好:①直接采用主题词做标识,可直呼其名,依名查检,易读易记易理解②主题标识按字顺排列,更突显了其直接优点。
3、灵活性强:①主题语言根据需要对主题词进行灵活组配,特别适合计算机的逻辑检索功能。
②主题语言对于从事物出发的比较狭小的检索提问,以及关于新学科新事物新概念的检索提问,检索效果特别好。
缺点:由于按字顺排列,同一学科的文献易被分散在别处,族性检索不及分类检索语言。
三、标题词语言标题词:从自然语言中选取的,未经规范化处理的,表示事物概念的词、词组、短语。
标题词语言:一种先组定组式语言,选择标题词作为文献内容的标识和检索依据,具体表现为标题词表的利用,标题词按字顺排列,词间关系用参照系统显示。
优点:①词表直接用事物名称列举出表达事物的主题,直观性强②采用先组定组式方法,词表中标题结构固定,含义明确③用参照系统显示主题之间的关系。
缺点:①采用先组定组式方法,标题词表检索途径单一,无法实现多途径检索②词表一般收词量大并且专指度相对不足,修订量大。
标题词一般分为主标题和副标题两级,通过其固定组配来构成检索标识,所反映的主题概念有限,无法实现多途径多因素检索。
目前已较少使用。
典型的标题词表有《工程标题词表》。
四、单元词语言单元词:又称元词,从自然语言中选取,经过规范化处理,表达主题概念最小的最基本的字面上不能再分的名词术语。
单元词语言:是一种后组式语言,选择单元词作为文献标识与检索的依据,在标引时不组配单元词,在检索时才对单元词下的文献号进行组配。
优点:①通过单元词的组配可表达大量专指概念和新概念,适应性强②不存在词序问题,每一个单元词都可作为检索入口;通过对单元词的增减,可自由扩大缩小改变检索范围③词表体积较小,编制修订工作量较小。
缺点:①单元词的字面分拆和字面组配容易造成语义失真②缺乏完善的参照系统,难以满足族性检索的需要③直观性系统性较差。
单元词语言目前已发展成叙词语言。
五、关键词语言关键词语言:直接从原文的标题摘要全文中抽选出来,具有实质意义的,未经规范化处理的自然语言词汇,是信息存储和检索依据的一种检索语言。
是适应目录索引编制过程自动化的需要而产生的。
原理:运用关键词语言编制的关键词索引,其关键词按字顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,作为检索入口词进行检索。
优点:①直观性强。
直接采用自然语言进行标引和检索,直观性强符合普通用户的检索习惯②检索途径多。
关键词法采用轮排方式,可实现多途径检索③标引简单。
关键词法使用计算机直接抽词进行标引,节省人力,对人员水平要求低④表达事物概念直接准确,不受词表控制,能及时反映新事物新概念。
缺点:①不揭示关键词之间的等级关系和相关关系,容易导致漏检影响查全率②难以进行族性检索③关键词采用机械抽词和轮排,可能导致不少关键词款目失去检索作用而徒增篇幅。
关键词语言只有与计算机相结合才能发挥其独特优势。
并通过编制禁用词表和关键词表的方式,提高关键词抽取的准确性和对词间关系的控制,提高检索效率。