信息检索与搜索引擎课程报告
- 格式:docx
- 大小:2.20 MB
- 文档页数:23
一、前言随着信息技术的飞速发展,信息检索已成为现代社会中不可或缺的技能。
为了提高学生的信息素养和检索能力,我们开展了信息检索实训课程。
通过本次实训,学生不仅掌握了信息检索的基本方法和技巧,还提高了实践操作能力。
以下是本次信息检索实训教程的总结报告。
二、实训目标1. 使学生掌握信息检索的基本概念、原理和方法。
2. 培养学生熟练运用检索工具和数据库进行信息检索的能力。
3. 提高学生的信息素养,增强其获取、分析、处理和利用信息的能力。
4. 培养学生的团队合作精神,提高沟通与协作能力。
三、实训内容1. 信息检索基础知识(1)信息检索的基本概念、原理和方法。
(2)信息检索的类型:全文检索、关键词检索、布尔检索等。
(3)信息检索的工具:搜索引擎、数据库、专业检索系统等。
2. 检索工具和数据库的使用(1)搜索引擎的使用:百度、谷歌等。
(2)数据库的使用:中国知网、万方数据、维普资讯等。
(3)专业检索系统的使用:专利检索、标准检索、科技成果检索等。
3. 信息检索策略与技巧(1)检索策略的制定:关键词选择、布尔逻辑运算、检索式构建等。
(2)检索技巧:快速定位、筛选信息、优化检索结果等。
4. 信息素养与学术规范(1)信息素养的定义、内涵和重要性。
(2)学术规范的基本原则和注意事项。
(3)论文写作与引用规范。
四、实训过程1. 实训准备(1)教师讲解实训内容,明确实训目标和要求。
(2)学生预习实训资料,了解信息检索的基本知识和技能。
2. 实训实施(1)分组进行实训,每组选一名组长负责协调。
(2)教师指导学生使用检索工具和数据库,进行实际操作。
(3)学生相互交流,分享检索经验和技巧。
3. 实训总结(1)学生汇报实训成果,展示检索到的相关资料。
(2)教师点评实训过程,总结实训中的优点和不足。
(3)学生反思实训过程,提出改进措施。
五、实训成果1. 学生掌握了信息检索的基本概念、原理和方法。
2. 学生能够熟练运用检索工具和数据库进行信息检索。
一、实训背景与目的随着互联网的飞速发展,搜索引擎已成为人们获取信息、学习知识、解决问题的关键工具。
为了更好地理解搜索引擎的工作原理,掌握其关键技术,提高信息检索的效率,我们开展了为期一个月的搜索引擎实训。
本次实训旨在通过理论与实践相结合的方式,使学生深入了解搜索引擎的基本概念、工作原理、关键技术,以及搜索引擎在实际应用中的优化策略。
二、实训内容与过程1. 搜索引擎基本概念与工作原理在实训的第一阶段,我们重点学习了搜索引擎的基本概念和核心工作原理。
通过学习,我们了解到搜索引擎的主要功能是索引、检索和排序,其核心任务是构建索引库,以便用户能够快速、准确地找到所需信息。
2. 搜索引擎关键技术接下来,我们深入探讨了搜索引擎的关键技术,包括:- 倒排索引:倒排索引是搜索引擎的核心技术之一,它将文档内容与文档ID进行映射,使得检索操作更加高效。
- 分词技术:中文分词是中文搜索引擎的关键技术,它将中文文本切分成一个个有意义的词语,以便于后续的检索和排序。
- 检索算法:检索算法是搜索引擎的灵魂,常见的检索算法包括布尔检索、向量空间模型等。
- 排序算法:排序算法用于对检索结果进行排序,常见的排序算法包括TF-IDF、BM25等。
3. 搜索引擎优化策略在实训的后期,我们学习了搜索引擎优化(SEO)策略,包括:- 关键词优化:通过合理选择关键词,提高网站在搜索引擎中的排名。
- 内容优化:提高网站内容的质量,增加用户访问量。
- 链接优化:通过高质量的外部链接,提高网站在搜索引擎中的权重。
4. 实训项目实践在实训过程中,我们以一个实际项目为载体,进行了搜索引擎的构建和优化。
具体步骤如下:- 数据采集:从互联网上采集大量数据,作为搜索引擎的索引库。
- 数据预处理:对采集到的数据进行清洗、去重等处理,提高数据质量。
- 索引构建:根据数据内容构建倒排索引,以便于后续的检索操作。
- 检索功能实现:实现基本的检索功能,包括关键词检索、模糊检索等。
一、实验背景随着信息技术的飞速发展,信息检索已成为信息时代的重要技能。
为了提高我们的信息素养,培养我们在海量信息中快速、准确地找到所需信息的能力,我们开展了信息检索课程实验。
本实验旨在让我们熟悉信息检索的基本流程,掌握各种检索工具的使用方法,并学会运用检索策略进行信息获取。
二、实验目的1. 熟悉信息检索的基本概念和流程。
2. 掌握搜索引擎和数据库的使用方法。
3. 学会运用检索策略提高检索效率。
4. 培养信息素养,提高信息获取能力。
三、实验内容1. 信息检索基本概念(1)信息检索:指根据信息用户的需求,利用一定的检索工具或联机网络,从大量的文献中迅速准确地查找、筛选、整理和利用所需信息的过程。
(2)检索工具:包括搜索引擎、数据库、图书馆等。
(3)检索策略:指在检索过程中,针对特定需求,选择合适的检索词、检索式和检索途径,以达到快速、准确地获取所需信息的目的。
2. 搜索引擎的使用(1)以百度为例,介绍搜索引擎的基本操作。
(2)演示如何利用关键词进行精确检索、组合检索和高级检索。
(3)讲解如何使用搜索技巧,如排除法、使用引号等。
3. 数据库的使用(1)以CNKI为例,介绍学术数据库的基本操作。
(2)演示如何利用数据库的高级检索功能,如主题检索、作者检索、机构检索等。
(3)讲解如何筛选和整理检索结果,提高信息获取效率。
4. 检索策略的应用(1)针对特定课题,分析检索需求,确定检索策略。
(2)运用关键词、布尔逻辑运算符、位置运算符等构建检索式。
(3)根据检索结果,调整检索策略,提高检索效果。
四、实验步骤1. 熟悉实验内容,了解信息检索的基本概念和流程。
2. 登录百度搜索引擎,进行关键词检索、组合检索和高级检索实验。
3. 登录CNKI学术数据库,进行主题检索、作者检索、机构检索等实验。
4. 根据实验需求,构建检索式,进行检索实验。
5. 分析检索结果,调整检索策略,提高检索效果。
6. 撰写实验报告,总结实验心得。
信息检索课程检索报告好啦,今天咱们来聊聊信息检索这门课程吧!你别看这名字听起来有点高大上,其实内容一点也不难懂,反而有点像是在学如何“找东西”!你知道的,咱们现在是信息时代,咱们的生活里,手机、电脑、搜索引擎每天都在帮我们“找”东西。
像什么淘宝啊、百度啊、Google啊,什么都能找得着,甚至能找点“天文地理”的事儿。
问题来了,怎么才能精准、快速地找到我们想要的信息呢?这就是信息检索课程要教咱们的东西啦!课程开头,老师就给我们上了一课,啥叫信息检索。
简单来说,就是要学会如何高效地从浩瀚如海的信息中“捞”到自己需要的那颗珍珠。
你想啊,现在每个人都能用手机,随便打开一个搜索引擎,输入几个字,几秒钟就能看到一堆答案。
但是,问题也来了。
我们真的能从这些结果中找到有用的信息吗?是不是看到一堆网页、文献、一堆乱七八糟的东西,根本不知道该点哪个?这就是信息检索的精髓——不仅要会找,还要会找得准确!在课程中,老师教了我们很多技巧,感觉自己仿佛成了一个“信息侦探”。
有时候只需要调整一下搜索的词语,就能跳出完全不同的结果。
比如,你用“如何快速减肥”,出来的可能是减肥药、节食法一类的内容;但如果你改成“如何健康减肥”,哇,那就完全不一样了!立马跑出一堆营养师的建议,科学的方法,感觉都能吃得好、减得快,心里那个爽啊!课程里教的关键词检索,简直就是神器!以前我们可能是随便打一堆词,结果出来的东西乱七八糟。
现在学了关键词检索,懂得了如何从多种多样的信息中提取出最核心的部分。
别小看这点哦,掌握了这一招,简直就像是掌握了打开信息宝库的钥匙!老师还提到过一个词——布尔检索,听起来是不是有点复杂?没那么难。
就是你可以通过一些简单的符号,把搜索条件更精确地筛选出来。
比如你要找“减肥”这方面的资料,但又不想看到那些靠药物减肥的内容,你就可以加上“NOT”这个符号,排除掉那些相关的信息。
怎么样,简单吧?更妙的是,课程里还提到过文献检索这一块。
第1篇一、前言随着互联网技术的飞速发展,信息检索已成为现代社会中不可或缺的一部分。
为了提高自身的信息素养,我参加了信息检索课程的学习。
通过本课程的学习,我掌握了信息检索的基本理论、方法和技巧,并在实践中得到了充分的锻炼。
以下是我对信息检索课程实践的报告。
二、实践过程1. 课程学习在课程学习过程中,我认真学习了信息检索的基本概念、检索原理、检索方法、检索策略等理论知识。
通过阅读教材、参加课堂讨论、完成课后作业,我对信息检索有了较为全面的认识。
2. 实践操作为了巩固所学知识,我进行了以下实践操作:(1)搜索引擎的使用我熟练掌握了百度、谷歌、必应等主流搜索引擎的使用方法,能够根据检索需求选择合适的搜索引擎。
同时,我还学习了高级搜索技巧,如使用关键词、布尔逻辑运算符、限制检索范围等。
(2)学术资源检索为了提高学术素养,我学习了如何使用中国知网、万方数据、维普资讯等学术资源数据库。
通过实践,我掌握了学术资源的检索技巧,如主题检索、作者检索、机构检索等。
(3)专业工具的使用在课程实践过程中,我了解了EndNote、NoteExpress等专业文献管理软件的使用方法。
通过实践,我学会了如何高效地管理文献资料,提高论文写作效率。
3. 检索效果评估在实践过程中,我注重检索效果的评估。
以下是我对检索效果的评价:(1)检索准确性:通过对比不同检索结果,我发现自己在检索过程中能够较好地把握关键词,准确获取所需信息。
(2)检索效率:通过掌握多种检索方法,我在短时间内能够找到大量相关信息,提高了检索效率。
(3)检索全面性:在检索过程中,我注重检索范围的拓展,尽量覆盖不同领域、不同类型的信息,确保检索结果的全面性。
三、实践体会1. 提高信息素养通过信息检索课程的学习和实践,我深刻认识到信息素养的重要性。
在今后的学习和工作中,我将不断提高自己的信息检索能力,善于从海量信息中筛选出有价值的信息。
2. 培养自主学习能力在实践过程中,我学会了如何利用网络资源自主学习。
竭诚为您提供优质文档/双击可除信息检索课程学习报告篇一:信息检索课学习报告___…86…5…00…12…10…2_…_…号…学………__)_刚线郑(…__…_名…姓………业…专…_…__…_理…管…)划封规(乡…城…与…境…环……源…资…__…_…级…__…_2)密012(__…_院……学…__…__……科学…源…资……与…理地___本科课程考查专用封面作业题目:信息检索课程报告所修课程名称:信息检索修课程时间:20XX年2月至20XX年5月完成作业日期:课程结束后一周内评阅成绩:评阅教师签名:20XX年5月日说明:1、本报告总计50分,包括检索报告和学习报告两个部分。
2、本报告必须手写在此试卷上,否则成绩无效。
3、报告不能雷同,一经发现,按不及格处理。
4、写作前请仔细阅读题目要求,报告应包含题目要求的全部内容。
题目:一、检索报告(30分)自选一个检索课题,结合教学内容和学习体会,多方面获取所需要的信息。
要求:1、选择明确的课题。
2、根据检索课题进行信息需求分析。
3、明确各类信息获取的渠道。
4、简要列出你的检索过程和检索结果目录。
提示:请通过尽可能多的渠道检索信息,以展示你的所学,这是该题目得分高低的关键所在。
二、学习报告(20分)要求:第一部分:对自己的学习做个自我评价。
第二部分:每次课堂学习的收获。
第三部分:完成上机实验题目的收获。
第四部分:对信息检索这门课做个评价。
请把你的两个报告按顺序写在以下答题区。
答题纸不够可自行用相同大小纸张加页。
答题区:一·检索报告(一)检索课题:“园林景观设计”的相关内容(二)检索目的:园林景观设计对于我们城乡规划专业的学生有着专业性的建议与指导,可以通过对其的了解,可以丰富我们的规划和设计理念,拓展我们的专业视野,更好的与社会现实相联系,有利于我们设计的社会性与现实性。
(三)内容需求分析:A·关于“园林景观设计”的定义,以及所涉及的专业与领域。
信息检索与搜索引擎课程报告一、系统概述随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题。
搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件或网络登录等方式,将Intenet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。
用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。
本系统基于HTMLUNIT框架,构建爬虫,基于LUCENE框架,构建索引,利用向量空间模型向量化表示文档间的相关性,利用LUCENE给相关文档打分。
二、系统需求分析2.1功能需求分析该系统分为四个功能模块:(1)爬虫模块(2)索引模块(3)向量化表示模块(4)打分模块具体实现分工如下:①爬虫模块:该模块采用Htmlunit框架,主要负责爬取网页内容,在本地建立文档库,以便于索引功能模块,将文档库里的文档内容建立成索引。
(毛子铭所做)②索引模块:该模块采用Lucene框架,功能分为两块:一是建立索引,将爬取的内容建立成索引。
二是检索索引,即提供给用户检索索引。
(张倩所做)③向量化表示模块:该模块采用向量空间模型,其功能是将查询文本和文档向量化表示,以一种直观的表示方法,展示出文档间的相似度。
(李然、黄枫合做)④打分模块:该模块采用Lucene打分系统,计算查询文本和文档的相似度,并对其文档打分。
(李然、黄枫合做)三、程序实现3.1 爬虫的实现3.1.1 对网页进行分析(1)我们首先,对网页进行分析,昆工新闻上每一则新闻,都有相应的链接,通过点击链接查看相应的新闻。
<1> 昆工新闻网页截图<2> 新闻内容截图(2)在浏览器中,查看新闻网的代码,确定我们所需要的内容并用XPATH表达式定位其内容。
信息检索课程报告[范文大全]第一篇:信息检索课程报告____ __…__…2…49…08…11…1…02…__…__…号…学…)线_(__…__…__…博…杨…_…__…_…_名…姓… … …)业封专(_…__…__…_化……体…一…电…机…_…__…_…)_级_密__(_1…1…02…__…__…_…院…学…__…_…_工…_…___本科课程考查专用封面作业题目:信息检索课程报告所修课程名称:信息检索修课程时间:2012 年2 月至 2012 年 4 月完成作业日期:课程结束后一周内评阅成绩:评阅教师签名:2012年5月日航门户、hao123网址之家等搜索并下载培训讲义,申报表等.四、检索过程及结果如下:(1)在搜索引擎(如百度)中输入“非会计专业报考会计资格证相关条件”,通过浏览查找,发现要先考会计从业资格证,在报考全国会计专业技术资格考试。
(http:/ //question/878ee997ade585b3e99481e59bbd7a62313600)(2)在搜索引擎(如谷歌)中输入“四川师范大学”,找到四川师范大学网站,通过上面的链接分别打开川师的教务系统主页,找到川师2012 年会计从业资格证报名考试相关信息()(5)通过四川师范大学图书馆网站首页的书目与外借查询链接,进入四川师范大学图书馆馆藏书目查询系统,以题名和责任者为检索点,分别找到:《会计学原理》,主编:牟小容, 王玉蓉索书号:F230/2393 ISBN/ISSN:978-7-81079-814-3《初级会计电算化》,主编:杨文林,杨定泉索书号:F232/4704 ISBN/ISSN:978-7-5058-6018-6《财经法规与会计职业道德》,主编:张洪军索书号:D922.201/1233 ISBN/ISSN:7-5058-5363-5《会计从业资格考试考点分析及习题精选 :会计基础财经法规与会计职业道德》,会计从业资格考试辅导教材组编写索书号:F23/8383B ISBN/ISSN:978-7-5654-0142-8《基础会计学》,主编:王凤洲索书号:F23/1073 ISBN/ISSN:7-80090-424-5《基础会计学习题与解答》,主编:苏郁生,顾家梁索书号:F23-44/4442 ISBN/ISSN:7-5381-2137-4()(10)在搜索引擎(如)的影视搜索中,分别以“会计基础”,“初级会计电算化”,“财经法规与会计职业道德”为检索词,找到多个视频,并根据相关链接找到成套视频,并用迅雷下载。
信息检索课程报告1. 引言信息检索(Information Retrieval)是一门研究如何从大规模的文本集合中获取相关信息的学科。
随着互联网的发展,信息爆炸现象日益严重,对于从海量的文本数据中快速、准确地找到所需信息变得越来越重要。
信息检索课程旨在教授学生相关的技术和方法,以提高他们在文本检索方面的能力。
本报告将介绍信息检索课程的内容、目标和学习成果。
2. 课程内容信息检索课程涵盖了多个主题与技术,主要包括以下几个方面:2.1 信息检索基础在课程开始阶段,学生将学习信息检索的基础知识,了解信息检索的概念、基本流程和关键技术。
其中包括语言处理、索引构建、查询处理和评价等内容。
学生将通过理论学习和实践操作,掌握信息检索基本原理和相关技术。
2.2 检索模型与算法本阶段将介绍不同的信息检索模型和算法,包括向量空间模型、概率模型和语言模型等。
学生将了解这些模型和算法的原理、特点和应用场景,并学习如何根据需求选择合适的模型和算法。
2.3 检索系统与工具学生将学习使用相关工具和系统进行信息检索任务。
主要包括文本预处理工具、索引构建工具和查询处理工具等。
学生将通过实际操作,了解这些工具和系统的使用方法和效果,并掌握解决实际问题的能力。
2.4 Web搜索与社交媒体分析随着互联网的快速发展,Web搜索和社交媒体分析成为了信息检索领域的热点问题。
学生将学习相关的技术和方法,了解如何从Web和社交媒体中获取有价值的信息,并进行分析和应用。
3. 课程目标信息检索课程的目标主要包括以下几个方面:3.1 掌握信息检索基本原理和技术通过学习信息检索的基本原理和技术,学生将能够理解信息检索的概念、过程和关键技术。
他们将学会构建索引、处理查询和评估检索结果等基本技能。
3.2 熟练使用信息检索工具和系统学生将学会使用各种信息检索工具和系统,并能够根据需求选择合适的工具和系统进行信息检索任务。
他们将通过实际操作,提高信息检索的效率和准确性。
信息检索与搜索引擎课程报告
《信息检索搜索引擎技术》期末考试报告
学期: 2016-2017学年第一学期
任课教师:毛存礼
专业年级:计科133
学号: 201310405339、 201310405326、
201310405330、 201310405325 学生姓名:李然、毛子铭、张倩、黄枫
目录
一、系统概述
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,搜索引擎技术恰好解决了这一
难题。
搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点
的服务器通过网络搜索软件或网络登录等方式,将Intenet上大量网站
的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,
从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。
用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。
本系统基于HTMLUNIT框架,构建爬虫,基于
LUCENE框架,构建索引,利用向量空间模型向量化表示文档间的相关性,利用LUCENE给相关文档打分。
二、系统需求分析
2.1功能需求分析
该系统分为四个功能模块:
(1)爬虫模块
(2)索引模块
(3)向量化表示模块
(4)打分模块
具体实现分工如下:
①爬虫模块:该模块采用Htmlunit框架,主要负责爬取网页内容,
在本地建立文档库,以便于索引功能模块,将文档库里的文档内容建立
成索引。
(毛子铭所做)
②索引模块:该模块采用Lucene框架,功能分为两块:一是建立索
引,将爬取的内容建立成索引。
二是检索索引,即提供给用户检索索引。
(张倩所做)
③向量化表示模块:该模块采用向量空间模型,其功能是将查询文
本和文档向量化表示,以一种直观的表示方法,展示出文档间的相似度。
(李然、黄枫合做)
④打分模块:该模块采用Lucene打分系统,计算查询文本和文档的
相似度,并对其文档打分。
(李然、黄枫合做)
三、程序实现
3.1 爬虫的实现
3.1.1 对网页进行分析
(1)我们首先,对网页进行分析,昆工新闻上每一则新闻,都有相应的链接,通过点击链接查看相应的新闻。
<1> 昆工新闻网页截图
<2> 新闻内容截图
(2)在浏览器中,查看新闻网的代码,确定我们所需要的内容并用XPATH表达式定位其内容。
<3> 新闻代码截图
3.1.2编写爬虫
(1)在这里,我们使用了HtmlUnit作为我们爬虫的框架,并指定内容,对昆工新闻网进行爬取。
<4> 部分代码展示
(2)编写XPATH表达式,定位所抓取的内容,在爬取过程中,首先要找到新闻的标题,然后,再模拟点击标题的动作,进入新闻页面。
(3)爬取内容,并将其写入文本文档中。
<5> 写入文档
<6>爬取内容
3.2索引的实现
3.2.1分词的实现
(1)在建立索引之前,分词是必不可少的步骤,我们所采用的是基于Lucene 框架的IK分词技术分词。
<7> 部分代码展示
(2)对爬取的内容,进行分词测试。
<9>测试
3.2.2索引的建立
(1)索引的建立,我们也是基于Lucene框架建立的倒排索引,分词技术的不同索引的差别也是很大,因此,分词技术的选取一定要合理。
<10> 部分代码展示
3.2.3检索索引
(1)在这里,我们对爬取好的内容,已经建立好了索引,我们分别测试了“宇宙”、“人民”这两关键词进行检索。
可以看见,符合“人民”这个关键词的文档有2个,符合“宇宙”这个关键词的文档不存在。
<12> 索引
<13> 索引结果3.3向量空间模型的实现
3.3.1向量空间模型概述
向量空间模型将文档映射为一个特征向量V(d)=(t
1,ω
1
(d);…;t
n
, ω
n
(d)),
其中t
i (i=1,2, …,n)为一列互不雷同的词条项,ω
i
(d)为t
i
在d中的权值, 一
般被定义为t
i 在d中出现频率tf
i
(d)的函数,即。
在信息检索中常用的词条权值计算方法为 TF-IDF 函数,其中N为所有文档的数目,ni为含有词条ti的文档数目。
TF-IDF公式有很多变种,下面是一个常用的TF-IDF公式:
根据TF-IDF公式,文档集中包含某一词条的文档越多,说明它区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率
越高,说明它区分文档内容属性的能力越强,其权值越大。
两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档di,dj的相似度可以表示为:
进行查询的过程中,先将查询条件Q进行向量化,主要依据布尔模型:当ti 在查询条件Q中时,将对应的第i坐标置为1,否则置为0,即:
从而文档d与查询Q的相似度为:
根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。
在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。
向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。
3.3.2建立向量空间模型
(1)将文档的前十五个关键字作为key并将文件的内容作为value存Treemap 中
<14> 部分代码展示(2)求两个词项的并集
<15> 部分代码展示
(3)求两个词项的交集
<15> 部分代码展示(4)计算文章相似度
<16> 部分代码展示(5)计算公式:
3.4利用Lucene打分机制对文档打分
(1)在这里,我们是基于Lucene框架,利用其自带打分系统,对查询文本和文档计算它们的相似度,再进行打分。
Lucene打分公式如下:
(2)计算查询文本(TermQuery)与文档的相似度进行打分。
(3)在查找“人民”这两个关键词后出现两个相关文档,它们分别的得分为0.47782254和0.3901917,这说明第一个文档更符合查询
<17> 打分
四、测试
<18> 测试截图1
<19> 测试截图2
<20> 测试截图3
<21> 测试截图4
<22> 测试截图5
<23> 测试截图6
<24> 测试截图7
<25> 测试截图8
<26> 测试截图9
五、心得体会
此次报告要求实现第一个信息检索系统,涉及到多线程编程、排序、网络爬虫等多项技术。
多线程是提高效率的一个非常重要的途径,比如计算机并行计算等,本次实验完成了多线程的任务,对网络间通信以及搜索引擎如何实现向海量用户在很短时间内提供服务有了更深刻的认识。
通过实验我也认识到了
多线程编程的边缘。
在下一步的研究学习之中有很大助力。
在此基础之上建立检索,通过对于索引的检索,一方面可以加深对于索引的深层认识,另一方面又可以是我们运用知识与学习知识相结合,可以使我们学的更好,运用的有理可循。
搜索引擎的处理对象是互联网网页,日前网页数量不计其数。
所以搜索引擎首先面临的问题就是:如何能够设计出高效的查询以及下载系统。
网络爬虫是搜索引擎中很关键也很基础的构建,通过网络爬虫的设计,加深了我对实验原理的理解,同时也加强了自身的实践能力。