第二讲 网络信息检索基本方法

  • 格式:ppt
  • 大小:3.33 MB
  • 文档页数:70

下载文档原格式

  / 50
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

运算优先级顺序为NOT、AND、OR,可以用括号“( 如A and (B or C),检索顺序为先B或C,然后再与A
)”改变它们的运算顺序。
实例:
【实例】在搜索引擎中输入“电视台-中央电视 台”,查询结果不包含“中央电视台”。
逻辑算符举例
①查找关于“动物保护”的文献: “动物 AND 保护”
Exercise 2:
查找华中科技大学罗俊院士1999年以来发表的文章? AU=Luo Jun AND(CS= Huazhong Univ* )AND PY>=1999
查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。
“The legislation of human cloning” or human clone and legislat* and LA=English and PY=2002
大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在 特定的范围中,如: 标题(title) 图像(image) 文本(text) 统一资源定位符(url) 网站(site) 链接(link)
举例:url:gov.cn Link:whitehouse.gov site:www.harvard.edu
1.按文献外表特征的检索途径:
名称途径——即根据书名、刊名、篇名来查找文献信息的途径,它 是把文献名称按照字顺排列起来成为一个体系,构成书名检索点、 刊名检索点和篇名检索点。 著者途径——以著作者(个人著者、团体著者、专利发明人、专利 权人、合同人及机构等),提供以作者字顺为途径的检索点,以实 现对知名专家或专业学术机构研究成果和科技成果的检索。 序号途径——指通过号码(包括报告号、合同号、专利号、标准号、 馆藏号、索取号、排架号等)查找文献的途径,这种途径主要是利 用各种号码索引来组织检索,号码索引 一般是按照字母顺序和号 码顺序编排。
LOGO
第二讲
网络信息检索基ຫໍສະໝຸດ Baidu方法
2015-6-2
【目的与要求】 掌握布尔逻辑检索等网络信息检索的基本技术。 熟悉网络信息检索的途径和步骤。
【重点】 布尔逻辑语言、邻近检索、截词检索
【难点】 邻近检索
影响信息检索质量的因素
信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐) 检索软件对信息检索的影响(不同的搜索引擎,数据库系统) 用户水平对信息检索的影响
又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特 定位置关系
文献记录中词语的相对 次序或位置不同,所表 达的意思可能不同
同样一个检索表达式 中词语的相对次序不 同,其表达的检索意 图也不一样 Eg:“粉末的 掺合与颜料包 装”
布尔逻辑运算符和词组 检索虽然能有效的扩大 和缩小检索范围,但 无法对检索词之间的 相对位置进行限制
表示两个检索词之间插有n个词,但顺序不能颠倒。
表达式: A WN B AB两词靠近,次序为A先B后,中间最多可 加n个词。
【实例】在EBSCO中输入communication w3 satellite;
③N(Near)算符
N( Near)表示两个检索词可以互换顺,二者之间只能间隔 连字符、空格或者是逗号。 表达式:A N B :AB两词靠近,次序可变。 【实例】在OCLC中输入communication n satellite;
查找电子图书的标准 (Digital book OR electronic book OR e-book OR online book) AND standard
Goolge的默认运算符就是逻辑“与”,用空格、 “+” 都表示,而逻辑“非”只能用“-”而不能用“NOT”表 示,逻辑“或”用“OR”表示。 百度的默认运算符是逻辑“与”,空格均表示逻辑 “与”。 在ISI Web of Knowledge平台上,逻辑算符 “AND”、“NOT”、“OR”不区分大小写,但不支 持以“*”、“-”、“+”代替。 在Science Direct中,逻辑“非”是用“AND NOT” 表示,而不是我们常用的“NOT”。
4.截词检索(truncation/wildcat)
截词检索又称部分一致检索,是指在检索标识中保留相同的部分, 用相应的截词符代替可变化部分。检索中,计算机会将所有含有相 同部分标识的记录全部检索出来。截词符用“?”或“*”标识。
截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理 词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不 同形式等。
5.字段限制检索技术(field limiting)
组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。
一般来说,数据库的记录基本包括下列字段: 题名(TI,title)、 关键词(KW,keyword)、 主题词(DE, descriptor)、 文摘(AB,abstract)、 全文(FT, Full text)、 作者(AU,author)、 作者机构(CS,Coporate Source) 期刊名称(JN,Journal)、 出版国(CO,Country)、 出版年份(PY,Publication Year)、 语种 (LA,Language)
我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检 索出的文献更确切地符合用户要求,提高查准率。
①(W)—WITH算符
表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或 者是逗号。 【实例】在OCLC中输入communication w satellite;
②wN (with N)算符
2.词组检索(phrase search)
通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形 式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精 确检索”(exact search)。 例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能 分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖 息地保护、动物资源保护等形式。
截词检索与截词检索算符
无限截断——同根词检索
后截断
如:physic*
Physic physics
physicst physicalism
也称“右截”
有限截断——单复数
如:physic??
Physic physics
physicst
前截断— —同根词检 索
computer
如:*computer
Science Direct用双引号“”表示宽松短语检索,标点符号、连 字符、停用字等会被自动忽略,如检索式为“heart attack”会 检出包含“heart attack”和“heart-attack”的检索结果。
在该数据库中,精确检索是用“{}”表示。
eg:计算机检索技术
3. 邻近检索(proximity search)
④nN ( Near N)算符
表示两个检索词之间可以插入 n 个词并且词序可以颠 倒 表达式:A(nN)B:AB两词靠近,次序可变,中间 最多可加n个词。 【实例】在EBSCO中输入communication n3 satellite; 比较:在EBSCO中输入source and law、source w2 law
字段限制检索就是通过限制字段和限制字段的范围来缩小检索结 果,达到精确检索的方法。 检索方式主要有:限定字段检索和限定范围检索 (1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。
①前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊 名(JN)、出版年(PY)、语种(LA)等字段后, 例如:AU=Evans,A., LA=Chinese
②查找有关冬虫夏草的文献: “冬虫夏草 or 冬虫草 or 虫草”
③查找关于能源方面的文章,但关于“核能”的不要: “energy not nuclear”(energy - nuclear) ④检索西红柿种植技术的相关文章: (西红柿+番茄)*(种植+栽培+培育)
Exercise1:
思考:如何检索华中科技大学网站上某课 程发布的PPT?
site:hust.edu.cn filetype:ppt 计算机
实际检索时,需要将上述各种方法综合使用才能获得最 佳检索效果。如“查找2000年以来Peter Suber教 授撰写的关于开放存取”的论文?可以构建检索式为: Open Access OR OA OR *free resources OR Open Source) AND(AU=Peter Suber)AND PY>=2000。 检索式的构建不是一蹴而就的,需要根据检索结果的多 寡和精准程度进行不断调整。另外需要特别注意的是, 不同的检索系统所使用的算符类型和符号各异,因此使 用检索系统尤其是数据库前必须浏览帮助系统,详细了 解字段及算符的设置情况,以确定最合适的途径进行检 索。
思考:比较3个检索式检索结果的不同
“Information retrieval”/TI
Information AND retrieval /TI
Information(F) retrieval
不仅要求在题名字段中,还要求两者必须与输入的形式完全相同 只要求在题名字段中,而不严格限制它们是短语,如“information organization methods for effective retrieval” 只需要在同一个字段中
网络信息检索的基本技术
网络信息检索 基本方法
网络信息检索的基本途径
网络信息检索基本步骤
信息检索过程的实质:
计算机将检索提 问词
MACTH
文献记录标引词
一、网络信息检索的基本技术
邻近检索
基本技术
1.布尔逻辑检索(boolean logic)
逻辑检索是一种比较成熟、较为流行的检索技术,现代 的情报检索系统大多都采用这种技术。 逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布 尔逻辑运算符(boolean logic operator), 它的作用主要是利用布尔逻辑算符将一些具有简单的、 表达某一主题概念的检索单元(或检索 标识)组配成一个具有复杂概念的检索式,以满足课题 检索的要求。 主要运算符有 “和(and,*)”、“或(or,+)”、“非 (not,-)”。
⑤(F)——Field
(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同 一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺 序不限,夹在两个词之间的词的个数也不限。
⑥(S)算符
(S)算符表示在此运算符两侧的检索词必须同时出现在 文献记录的子字段或同一段话中,两个词次序不限,中间 插入词的数量也不限。
②后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in 或/;如: Furniture/TI即家具一词出现在题目中。
(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到 优化检索的方法。 不同的检索系统略有不同,常通过使用的有:“=、<= 、>=、<、 >、:” 等。 表达式:字段名=(<= 、>=、<、>、) 例如: PY>=1995 即限定出版年份为1995及以后的文献; PY=1996:2005即1996年至2005年的文章
二. 网络信息检索的基本途径
即我们常说的检索点Access Point 检索点即是检索信息或文献时所通过或使用的渠道,而检索工具提 供的检索点是多种多样的,它以检索的对象文献的特征而定。 科技文献有两方面的特征,一是外表特征——文献载体的外表上 记明的易见的线索;二是文献的内容特征——即从文献内部包含 的知识信息中的内隐的潜在的线索。
“左截”
microcomputer minicomputer
中截断——用 于英美拼写不同 和单复数
如:m?n
man men
特别提示:“*”、“?”的比较 “*”,无限截词,代表0-无数个字符如regard*, 代表 regard, regarding, regardless等。 “?”,有限截词,代表0-1个字符,如library?,library, librarys。