检索语言的概念
- 格式:doc
- 大小:77.50 KB
- 文档页数:9
检索语言的概念检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。
简言之,检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。
编辑本段检索语言的作用检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。
在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。
检索语言的主要作用如下:①特征标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;②相关性对内容相同及相关的文献信息加以集中或揭示其相关性;③有序化检索使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;④一致性便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;⑤最高全准率保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
编辑本段检索语言的类型目前,世界上的信息检索语言有几千种,依其划分方法的不同,其类型也不一样。
(一)按照标识的性质与原理划分,(二)按照表达文献的特征划分。
编辑本段按照标识的性质与原理划分检索语言1、分类语言分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
以知识属性来描述和表达信息内容的信息处理方法称为分类法。
著名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。
2、主题语言主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。
第二节信息检索语言计算机检索的基本原理是将用户的检索提问词与数据库文献记录中的标引词进行对比,当提问词与标引词匹配一致时,即为命中,检索成功。
由此可见,能否准确地检索出用户所需信息,关键在于能否准确地选择检索词。
这里所说的“准确”,是指用户所选的检索词必须与数据库中标引文献记录所用的标引词一致。
然而实际工作中,从事信息存储的人员与从事信息检索的人员绝大多数情况下不可能进行直接的思想交流,因而会造成存储信息与检索信息所依据的规则不一致,导致存入的文献检不出。
为了避免这种情况发生,在信息标引人员与信息检索人员之间必须制定一种共同遵守的规则,即一种约定的相同标识和线路,这就是检索语言。
一检索语言的含义及作用1 检索语言的概念检索语言(information retrieval language),是信息存储与检索过程中用于描述信息特征和表达用户信息提问的一种专门语言。
所谓检索的运算匹配就是通过检索语言的匹配来实现的。
检索语言是人与检索系统对话的基础。
有了这种规则,信息标引人员在进行信息存储的过程中,就会对原始信息进行分析,找出其能代表信息的特征与检索语言(检索标识系统)进行对照标引,然后纳入检索系统;而信息检索人员在进行信息检索的过程中,则先对待查课题进行分析,归纳出各种信息特征,使之形成能代表需要的检索提问,然后把这些提问与检索语言(检索标识系统)进行核对,标引成检索提问标识。
如果没有检索语言作为标引人员和检索人员的共同语言,就很难使得标引人员对文献信息内容的表达和检索人员对相同文献信息内容需求时的表达取得一致,信息检索也就不可能顺利实现。
2 检索语言的工作原理(1)存储:检索系统对文献内容进行分析,概括分析出若干能代表文献内容的语词,并赋予一定的标识,如题名、作者、主题词等,作为存储与检索的依据,然后纳入到数据库中。
(2)检索:检索人员首先要对检索课题进行分析,同样形成若干能代表信息需求的语词,然后通过检索系统在数据库中匹配具有同样语词和标识的文献,找到自己所需的信息。
检索语言的概念检索语言是信息技术领域中的一个重要概念,它是指通过关键词或者条件来搜索和查找与特定主题相关的信息的过程。
无论是在互联网上查找资料,还是在数据库中查询信息,检索语言都起着重要的作用。
本文将从检索语言的定义、检索语言的类型和应用以及检索语言的未来发展等方面进行探讨。
首先,检索语言是指用户通过特定的语法和关键词来表达查询需求,以获取满足需求的信息。
检索语言可以是自然语言,也可以是特定的查询语言。
自然语言检索语言允许用户使用自然语言进行检索,用户可以使用类似于“给我找一篇关于人工智能的文章”的语句来表达查询需求。
特定查询语言如SQL(结构化查询语言)则需要用户按照特定的语法规则来编写查询语句(如SELECT * FROM table WHERE condition)来进行查询操作。
其次,检索语言可以按照不同的特征进行分类。
例如,根据检索语言的自由度,可以分为自由检索语言和受限检索语言。
自由检索语言允许用户在查询过程中灵活地使用任意关键词和组合来表达查询需求,而受限检索语言则规定了具体的查询语法和操作规则,用户需要按照规定的格式和要求进行查询。
此外,根据检索语言的应用场景,可以将其分为数据库检索语言、互联网搜索引擎语言、文档检索语言等。
此外,检索语言在各个领域都有广泛的应用。
在数据库领域,SQL是最常用的检索语言之一,它可以通过SQL语句来查询和操作数据库中的数据。
在互联网搜索引擎领域,用户可以通过在搜索引擎输入框中输入关键词来获取与其相关的网页、图片、视频等信息。
在文档管理和信息检索领域,检索语言可以帮助用户检索和管理大量的文档和信息,提高工作效率。
最后,随着人工智能和自然语言处理技术的不断发展,检索语言的未来发展也将朝着更加智能化和便捷化的方向发展。
例如,基于自然语言处理的语音助手可以根据用户的口头指令进行检索和查询操作;基于机器学习和数据挖掘的智能推荐系统可以根据用户的兴趣和偏好,提供个性化的检索和推荐服务。
检索语言检索语言(Retrieval Language)就是组织文献与检索文献时所使用的语言。
也就是说,文献存储时,文献的内容特征(如分类、主题)和外表特征(如书名、刊名、篇名、号码、著者等)按照一定的语言来描述,检索文献时的提问也按照一定的语言来加以表达。
这种在文献的存储和检索过程中,共同使用、共同遵循的语言就是检索语言。
实质上它是标引和检索之间的约定语言,是人与检索系统对话的基础,检索的匹配就是通过检索语言的匹配来实现的。
使用检索工具和检索系统必须掌握检索语言,它是掌握和提高检索技能的基础。
检索语言的基本成分是检索词。
按检索词的规范化程度和组配程序,检索语言可分为自然语言(Natural Language)和人工语言(Artificial)两种。
自然语言采用的检索词是未加工整理和规范过的,即平常采用的关键词,这种语言又称作关键词语言(Keyword Language)。
人工语言采用经过规范化的词,规定一个词表示一种事物,例如规定“aircraft”表示飞机,而不用“air plane”、“plane”和“aeroplane”,以做到文献存储和检索的一致性。
信息检索语言是根据检索需要而创制的人工语言,也称检索标识系统,专门用于各种手工和计算机信息检索系统。
从不同角度检索文献,就有不同种类的检索语言,常用的有主题语言和分类语言,下面分别加以论述。
(一)分类语言分类语言是用分类号和相应分类款目来表达各种概念的,它以学科体系为基础将各种概念按学科性质和逻辑层次结构进行分类和系统排序。
分类语言能反映事物的从属派生关系。
便于按学科门类迸行族性检索。
分类语言中最常见的是体系分类语言,它按照学科体系从综合到一般、从复杂到简单、从高级到低级的逻辑次序逐级展开,世界著名的分类法有:《国际专利分类表》(IPC)、《杜威十进分类法》(DDC)、《美国国会图书馆图书分类法》(LC)、《中国图书馆图书分类法》(中图法)和《中国科学院图书馆图书分类法》(科图法)。
检索语言的概念检索语言是应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。
简言之,检索语言是用来描述信息源特征和进行检索的人工语言,可分为规范化语言和非规范化语言(自然语言)两类。
编辑本段检索语言的作用检索语言在信息检索中起着极其重要的作用,它是沟通信息存储与信息检索两个过程的桥梁。
在信息存储过程中,用它来描述信息的内容和外部特征,从而形成检索标识;在检索过程中,用它来描述检索提问,从而形成提问标识;当提问标识与检索标识完全匹配或部分匹配时,结果即为命中文献。
检索语言的主要作用如下:①特征标引文献信息内容及其外表特征,保证不同标引人员表征文献的一致性;②相关性对内容相同及相关的文献信息加以集中或揭示其相关性;③有序化检索使文献信息的存储集中化、系统化、组织化,便于检索者按照一定的排列次序进行有序化检索;④一致性便于将标引用语和检索用语进行相符性比较,保证不同检索人员表述相同文献内容的一致性,以及检索人员与标引人员对相同文献内容表述的一致性;⑤最高全准率保证检索者按不同需要检索文献时,都能获得最高查全率和查准率。
编辑本段检索语言的类型目前,世界上的信息检索语言有几千种,依其划分方法的不同,其类型也不一样。
(一)按照标识的性质与原理划分,(二)按照表达文献的特征划分。
编辑本段按照标识的性质与原理划分检索语言1、分类语言分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
以知识属性来描述和表达信息内容的信息处理方法称为分类法。
著名的分类法有《国际十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。
2、主题语言主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。
以主题语言来描述和表达信息内容的信息处理方法称为主题法。
主题语言又可分为标题词、元编辑本段标题词、元词、叙词、关键词(1)标题词标题词是指从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。
标题词是主题语言系统中最早的一种类型,它通过主标题词和副标题词固定组配来构成检索标识,只能选用“定型”标题词进行标引和检索,反映文献主题概念必然受到限制,不适应时代发展的需要,目前已较少使用。
(2)元词元词又称单元词,是指能够用以描述信息所论及主题的最小、最基本的词汇单位。
经过规范化的能表达信息主题的元词集合构成元词语言。
元词法是通过若干单元词的组配来表达复杂的主题概念的方法。
元词语言多用于机械检索,适于用简单的标识和检索手段(如穿孔卡片等)来标识信息。
(3)叙词叙词是指以概念为基础、经过规范化和优选处理的、具有组配功能并能显示词间语义关系的动态性的词或词组。
一般来讲,选做的叙词具有概念性、描述性、组配性。
经过规范化处理后,还具有语义的关联性、动态性、直观性。
叙词法综合了多种信息检索语言的原理和方法,具有多种优越性,适用于计算机和手工检索系统,是目前应用较广的一种语言。
CA、EI等著名检索工具都采用了叙词法进行编排。
(4)关键词关键词是指出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词,对揭示和描述文献主题内容是重要的、关键性的语词。
关键词法主要用于计算机信息加工抽词编制索引,因而称这种索引为关键词索引。
在检索中文医学文献中使用频率较高的《CMCC》数据库就是采用关键词索引方法建立的。
3、代码语言代码语言是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。
例如,根据化合物的分子式这种代码语言,可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及其相关的文献信息。
编辑本段按照表达文献的特征划分检索语言描述文献外表特征的检索语言可简要概述[1]1、表达文献外部特征的检索语言表达文献外部特征的检索语言主要是指文献的篇名(题目)、作者姓名、出版者、报告号、专利号等。
将不同的文献按照篇名、作者名称的字序进行排列,或者按照报告号、专利号的数序进行排列,所形成的以篇名、作者及号码的检索途径来满足用户需求的检索语言。
描述文献内容特征的检索语言可简要概述2、表达文献内容特征的检索语言表达文献内容特征的检索语言主要是指所论述的主题、观点、见解和结论等。
编辑本段基本介绍信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
编辑本段信息检索的手段概括(1)手工检索(2)光盘检索(3)联机检索(4)网络检索概括起来分为手工检索和机械检索:手工检索指利用印刷型检索书刊检索信息的过程,优点是回溯性好,没有时间限制,不收费,缺点是费时,效率低。
机械检索指利用计算机检索数据库的过程,优点是速度快,缺点是回溯性不好,且有时间限制。
计算机检索、网络文献检索将成为信息检索的主流。
网络信息检索网络信息检索,也即网络信息搜索,是指互联网用户在网络终端,通过特定的网络搜索工具或是通过浏览的方式,查找并获取信息的行为。
信息检索的对象1文献检索(Document Retrieval) 是以文献(包括题录、文摘和全文)为检索对象的检索。
可分为全文检索和书目检索两种。
2 数据检索(Data Retrieval) 是以数值或数据(包括数据、图表、公式等)为对象的检索。
3 事实检索(Fact Retrieval) 是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。
编辑本段为什么要进行信息检索信息检索是获取知识的捷径美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。
他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。
二十世纪七十年代,美国核专家泰勒收到一份题为《制造核弹的方法》的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。
”但使他更为惊异的是,这份报告竟出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报告的全部信息来源又都是从图书馆那些极为平常的、完全公开的图书资料中所获得的。
信息检索是科学研究的向导美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。
在科研开发领域里,重复劳动在世界各国都不同程度地存在。
据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。
日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;我国的重复率则更高。
专业研究的程序信息检索是终身教育的基础学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。
UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。
编辑本段信息检索的四个要素信息检索的前题----信息意识所谓信息意识,简单地说,是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力。
信息意识含有信息认知、信息情感和信息行为倾向三个层面。
信息素养(素质)(Information Literacy)一词最早是由美国信息产业协会主席Paul Zurkowski在1974年给美国政府的报告中提出来的。
他认为:信息素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。
信息检索的基础----信息源(信息的来源)信息源的构成按文献载体分----印刷型、缩微型、机读型、声像型按文献内容和加工程度分--一次信息、二次信息、三次信息按出版形式分----图书、报刊、研究报告、会议信息、专利信息、统计数据、政府出版物、档案、学位论文、标准信息(它们被认为是十大信息源,其中后8种被称为特种文献。
教育信息资源主要分布在教育类图书、专业期刊、学位论文等不同类型的出版物中)信息检索的核心----信息获取能力(1)了解各种信息来源(2)掌握检索语言(3 )熟练使用检索工具(4)能对检索效果进行判断和评价判断检索效果的两个指标:查全率=被检出相关信息量/相关信息总量(%)查准率=被检出相关信息量/被检出信息总量(%)信息检索的关键:信息利用社会进步的过程就是一个知识不断的生产—流通—再生产的过程。
为了全面、有效地利用现有知识和信息,在学习、科学研究和生活过程中,信息检索的时间比例逐渐增高。
获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,根据自己学习、研究过程中的思考和思路,将各种信息进行重组,创造出新的知识和信息,从而达到信息激活和增值的目的。
逻辑“与”用“AND”或“ *”表示。
可用来表示其所连接的两个检索项的交叉部分,也即交集部分。
如果用AND连接检索词A和检索词B,则检索式为:A AND B (或A*B):表示让系统检索同时包含检索词A和检索词B的信息集合C。
如:查找“胰岛素治疗糖尿病”的检索式为:insulin (胰岛素) and diabetes(糖尿病)。
[1]编辑本段逻辑“或”用“OR”或“+”表示。
用于连接并列关系的检索词。
用OR连接检索词A和检索词B,则检索式为:A ORB(或A+B)。
表示让系统查找含有检索词A、B之一,或同时包括检索词A和检索词B 的信息。
如:查找“肿瘤”的检索式为:cancer(癌)or tumor(瘤)or carcinoma(癌)or neoplasm (新生物)。
[1]编辑本段逻辑“非”用“NOT”或“—”号表示。
用于连接排除关系的检索词,即排除不需要的和影响检索结果的概念。
用NOT连接检索词A和检索词B,检索式为:A NOT B(或A—B)。
表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。