西安科技大学网络信息检索作业.
- 格式:doc
- 大小:3.70 MB
- 文档页数:16
信息检索作业1. 简介信息检索(Information Retrieval)指的是通过计算机系统从大量的信息中找到用户所需的有效信息的过程。
本篇文档将介绍信息检索的基本概念、技术和应用,并探讨信息检索系统的优化策略。
2. 信息检索的基本概念2.1 信息检索定义信息检索是指从大规模的、非结构化的信息资源中寻找用户所需信息的过程。
不同于数据库查询,信息检索更关注的是如何从大规模、动态的信息资源中快速准确地提取出用户需要的信息。
2.2 信息检索过程信息检索过程主要包括以下几个步骤:1.收集信息源:从互联网、数据库、文件等资源中收集大量的信息。
2.预处理:对收集到的信息进行清洗、分词、去除停用词等操作,将原始文本转化为可以处理的形式。
3.索引构建:根据预处理后的文本,构建倒排索引(Inverted Index),用于快速定位文档。
4.查询处理:根据用户的查询词,通过倒排索引定位相关的文档。
5.评价与排序:根据查询与文档的匹配程度,计算出相关性分数,并对结果进行排序。
6.结果展示:将获取的信息以用户易读的方式展示给用户。
2.3 常见的信息检索模型•布尔模型:把检索任务看作是布尔逻辑运算,通过组合关键词的逻辑运算进行检索。
•向量空间模型:将查询和文档表示为向量,在向量空间中计算相似度并排序结果。
•概率检索模型:基于概率论统计的模型,通过计算查询与文档的相关性得分进行排序。
•语言模型:将查询和文档都看作是语言模型,通过计算两者的相似度进行排序。
3. 信息检索的技术3.1 分词技术分词是信息检索的基础步骤,通过将文本切分成一个一个的词语,构建倒排索引。
常见的分词技术有:基于字典的分词、最大匹配法、最少切分法等。
3.2 倒排索引倒排索引是一种将词语映射到文档的数据结构,用于快速定位包含某个词语的文档。
倒排索引一般由词典和倒排列表组成,可以通过词典快速查找到包含某个词语的文档列表。
3.3 相似度计算相似度计算是信息检索中评价文档与查询之间相关性的指标,常见的相似度计算方法有:余弦相似度、BM25等。
成绩登记表西安建筑科技大学“信息检索与利用”课程作业专业:工程管理班级:工程1002学号: 100410206姓名:一、Internet信息检索1、有关“格式”或“范文”方面的信息检索如:课题申请书、开题报告、研究报告、计划书、求职信(书)、自荐信(书)、应聘书等格式或范文(1)所用搜索引擎的名称及网址:(2)输入的关键词:图书馆图书分类(3)搜索范围:网页(4)搜索到的相关结果总数:找到相关结果约1,250,000个(5)将其中一个切题的文献标题及下面的内容和地址完整地复制、粘帖在下方:中国图书馆图书分类法_百度百科《中国图书馆图书分类法》和中国图书馆图书分类法是同义词,已合并。
中国图书馆图书分类法百科名片常用检索图书图书分类法又叫图书分类词表,是按照图书的内容、.../view/314333.htm 2011-9-26 - 百度快照2、有关书目信息检索选择自己感兴趣的任意书名或关键词检索。
(1)所用搜索引擎的名称及网址:(2)输入的书名(关键词):挪威的森林(3)搜索范围:图书(4)搜索到的相关结果总数:找到相关结果约5,240,000个(5)点击其中一个感兴趣的标题(书名)或网址,并将其标题(书名)、作者、出版机构图和内容简介完整地复制、粘帖在下方:挪威的森林_百度百科风靡20世纪60年代的The Beatles(甲壳虫乐队,或译为披头士),唱出了名闻世界的歌曲《Norwegian Wood》。
1987年日本作家村上春树以《挪威的森林》...共141次编辑基本资料- 灵感来源- 小说特色- 小说赏析/view/38057.htm 2011-11-13、有关学术论文全文信息检索选择对自己所学专业感兴趣的任意关键词(或问题)检索。
(1)搜索引擎:谷歌(2)输入的关键词:西安建筑科技大学(3)搜索范围:学术搜索(4)搜索到的相关结果总数:约有86,200 条结果(5)点击其中一个感兴趣的文献标题或网址,并将其标题、作者及下面的一小段内容复制、粘帖在下方:混凝土结构退化模型与耐久性评估[D]徐善华- 2003 - ... 研究了箍筋锈蚀程度和剪跨比对锈蚀钢筋混凝土受弯构件抗剪性能的影响,以及斜截面承载力随剪跨比和钢筋锈蚀程度的变化规律。
《网络信息检索》期末试卷(A 卷)适用班级: 班一、填空题(每空1分,共25分)1.搜索引擎的主要检索方式______和_______。
2.商品信息构成的因素有______、_______、______、______、_______ 。
3.网络信息资源的类型有______、______、_______、______、______、_______ 。
4.布尔逻辑运算符有 ______、______、_______三种。
5.我国经济信息网站的类型_________、__________、__________、__________。
6.申请专利的三个条件______、______、_______。
7.标准文献按照成熟程度划分为________、__________。
二、判断题,正确的划√,错误的划× (每题3分,共9分)1.标准文献的主要特点是有固定的代号金额专门的编写格式。
( ) 2.科技文献检索的方法有两个,分别是常用法和追溯法。
( ) 3.逻辑非用于组配具有同义或同族概念的检索词。
( ) 三、名词解释(每空5分,共20分) 1.布尔逻辑检索2.漏检率3.字段限定检索4.标准文献四、简答(每题8分,共16分) 1.简述影响检索效果的因素2.科技文献检索的步骤五、综合题(每题15分,共30分)2.查找“洪银兴”先生在国研网上的所有文章。
(附检索的步骤截图)《网络信息检索》期末试卷(B 卷)适用班级: 班一、填空题(每空1.5分,共30分)1.常用的搜索引擎有______、______、_______。
2. 网络信息资源的类型有______、______、_______、______、______、_______ 。
3.布尔逻辑运算符有 ______、______、_______三种。
4. _________是在计算机存储设备上上按一定的方式存储的相互关联的数据集合。
5.我国经济信息网站的类型_________、__________、__________、__________。