垂直搜索引擎
- 格式:pdf
- 大小:637.40 KB
- 文档页数:62
计算机信息检索实验报告——垂直搜索和通用搜索的比较分析班级:公管43 姓名:潘晓骏1 . 学期感悟不得不说这是我大学目前为止收获最多的一门课,我想我在您的课上收获得不仅仅是搜索技巧和能力的提升。
我想更多的是对于自学和独立做事的能力。
在此非常感谢你,希望用我最后一份作业给自己一个满意的答案。
2 . 引言在接下来的内容里我将主要比较分析垂直搜索和通用搜索的优劣和使用范围。
首先说下垂直搜索的概念,垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
3 . 垂直搜索的特点分析3.1以为例的搜索作为一个专业的学术论文搜索网站。
在专业性上的优势体现的淋漓尽致。
但是由于是全英文的网站,所以在玩的过程中还是可能少了什么。
可以不经常看全英文网站,表示看得很累,但是在熟悉的过程中发现网站提供的信息还是十分准确的。
我想等我写论文时我会好好利用。
作者的选择文种的选择PDF格式的文章阅览图。
楼上的是关于年份选择的按钮。
楼下的淡蓝色字体是关于作者的一些信息3.2以奇虎网为例的搜索搜索的结果是越是通俗的东西在专业网站上也得不到给力的讯息。
只有当用户的需求是专业和个性化的时候。
垂直搜索的服务才显现其优点出来。
我感觉这排字很吸引我。
作为一个号称中文论坛第一门户。
其实打开还是百度,搜索的问答为住,可能也是我搜索词的问题。
3.3 以咕嘟妈咪为例的餐饮搜索不得不说当专业网站做的越来越好。
内容越来越丰富。
其实我的感觉也是十分的头痛。
看到茫茫多的信息。
搜索引擎有哪些分类?分享搜索引擎的6大分类搜索引擎有哪些分类?搜索引擎已经成为我们日常生活中的一部分,无论是进行情人节礼物的研究,还是早上7点之前最近营业的咖啡店,或是寻找镇上最好的面馆。
人们都越来越依赖搜索引擎来查询答案。
网站建设搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎等。
全文索引全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度。
它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相配的记录,按一定的排列顺序返回结果,目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。
用户完全可以按照分类目录找到所需要的信息,不依靠关键字进行查询。
目录索引中最具代表性网站有Yahoo、新浪分类目录搜索。
元搜索引擎元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
在搜索结果排列方面,有的之间按来源排列搜索结果,有的则按自定的规则将结果重新排列组合。
垂直搜索引擎垂直搜索引擎为2006年后逐渐兴起的一类搜索引擎。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求,在其特定的搜索领域有更好的用户体验。
相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
集合式搜索引擎集合式搜索引擎类似元搜索引擎,区别在于它并非同事调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择。
门户搜索引擎门户搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果来自其他搜索引。
成都蜀风科技打造与企业品牌相匹配的网站及微信开发,对每一个网站建设和微信开发项目,都以策略先行,再将创意与技术完美结合。
为企业打造出与企业品牌气质相匹配的网络品牌形象。
我们始终保持行业领先开发水平,不断掌握领先的网络技术。
常见的搜索引擎有哪些分类搜索引擎简单理解,就是网络环境中的信息检索系统,即能够在网上发现新网页并抓取文件的程序。
依托于多种技术,一般包括爬虫、索引、检索和排序等,为信息检索用户提供快速、高相关性的信息服务。
国内常见的搜索引擎有百度、360、搜狗等,国外的有谷歌、必应等。
根据不同的工作方式,主流的搜索引擎可被分为三种:全文搜索引擎、目录搜索引擎、元搜索引擎、垂直搜索引擎。
1、全文索引型全文搜索引擎,国内是著名的百度搜索引擎。
国内著名的有百度(Baidu)国外则是Google。
它们从互联网提取各个网站的信息(以网页的文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
2、目录索引型目录索引虽然有搜索引擎功能,但严格意义上不能称为真正的搜索引擎。
用户完全不需要依靠关键词(Keywords)查询,只是按照分类目录找到所需要的信息。
目录索引中,国内具代表性就是新浪、搜狐、网易分类目录和Yahoo网站雅虎。
其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。
3、元数据索引型元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户,著名的元搜索引擎有360搜索、infoSpace、Dogpile、VIsisimo等,在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
4、垂直索引型垂直搜索引擎适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
搜索引擎的分类1、全文索引型全文搜索引擎,国内是著名的百度搜索引擎。
国内著名的有百度(Baidu)国外则是Google。
它们从互联网提取各个网站的信息(以网页的文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
2、目录索引型目录索引虽然有搜索引擎功能,但严格意义上不能称为真正的搜索引擎。
用户完全不需要依靠关键词(Keywords)查询,只是按照分类目录找到所需要的信息。
目录索引中,国内具代表性就是新浪、搜狐、网易分类目录和Yahoo网站雅虎。
其他著名的还有Open Direct ory Project(DMOZ)、LookSmart、About等。
3、元数据索引型元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户,著名的元搜索引擎有360搜索、infoSpace、D ogpile、VIsisimo等,在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
4、垂直索引型垂直搜索引擎适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
5、互动式索引型互动式搜索引擎,在用户输入一个查询词时,尝试理解用户可能的查询意图,智能展开多组相关的主题,引导用户更快速准确定位自己所关注的内容。
比如:搜狗搜索是搜狐公司强力打造的全球首个第三代互动式搜索引擎。
垂直搜索——百度定义垂直搜索引擎百科名⽚典型垂直搜索引擎——百度图书搜索垂直搜索引擎是针对某⼀个⾏业的专业搜索引擎,是搜索引擎的细分和延伸,是对⽹页库中的某类专门的信息进⾏⼀次整合,定向分字段抽取出需要的数据进⾏处理后再以某种形式返回给⽤户。
垂直搜索是相对通⽤搜索引擎的信息量⼤、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某⼀特定领域、某⼀特定⼈群或某⼀特定需求提供的有⼀定价值的信息和相关服务。
其特点就是“专、精、深”,且具有⾏业⾊彩,相⽐较通⽤搜索引擎的海量信息⽆序化,垂直搜索引擎则显得更加专注、具体和深⼊。
⽬录垂直搜索引擎能否赢得市场?1.1、垂直搜索引擎不是什么?2.2、垂直搜索是什么?3.3、垂直搜索的内容来源:4.4、进⼊垂直搜索的门槛在那⾥?5.5、垂直搜索的特点:6.6、垂直搜索引擎的三个特点:7.7、垂直搜索引擎站点的8条准则:关键词搜索引擎1.⼀、快速直达2.⼆、⽅便搜索3.三、安全第⼀4.四、资源共享5.五、精准搜索6.六、垂直搜索引擎框架购物垂直搜索引擎垂直搜索和通⽤搜索的区别垂直搜索引擎能否赢得市场?1.1、垂直搜索引擎不是什么?2.2、垂直搜索是什么?3.3、垂直搜索的内容来源:4.4、进⼊垂直搜索的门槛在那⾥?5.5、垂直搜索的特点:6.6、垂直搜索引擎的三个特点:7.7、垂直搜索引擎站点的8条准则:关键词搜索引擎1.⼀、快速直达2.⼆、⽅便搜索3.三、安全第⼀4.四、资源共享5.五、精准搜索6.六、垂直搜索引擎框架购物垂直搜索引擎垂直搜索和通⽤搜索的区别展开编辑本段垂直搜索引擎能否赢得市场? 垂直搜索引擎为⽤户提供的并不是上百甚⾄上千万相关⽹页,⽽是范围极为缩⼩、极具针对性的具体信息。
因此,特定⾏业的⽤户更加青睐垂直搜索引擎,是垂直搜索引擎的长期、稳定的群体。
搜索引擎的出现,整合了众多⽹站信息,恰恰起到了信息导航的作⽤。
通⽤搜索引擎就如同互联⽹第⼀次出现的门户⽹站⼀样,⼤量的信息整合导航,极快的查询,将所有⽹站上的信息整理在⼀个平台上供⽹民使⽤,于是信息的价值第⼀次普遍的被众多商家认可,迅速成为互联⽹中最有价值的领域。
了解搜索引擎
搜索引擎可分为四类:全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎。
具体如下。
1、全文搜索引擎:一般网络用户适用于全文搜索引擎。
这种搜索方式方便、简捷,并容易获得所有相关信息。
但搜索到的信息过于庞杂,因此用户需要逐一浏览并甄别出所需信息。
尤其在用户没有明确检索意图情况下,这种搜索方式非常有效。
2、元搜索引擎:元搜索引擎适用于广泛、准确地收集信息。
不同的全文搜索引擎由于其性能和信息反馈能力差异,导致其各有利弊。
元搜索引擎的出现恰恰解决了这个问题,有利于各基本搜索引擎间的优势互补。
而且本搜索方式有利于对基本搜索方式进行全局控制,引导全文搜索引擎的持续改善。
3、垂直搜索引擎:垂直搜索引擎适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
4、目录搜索引擎:目录搜索引擎是网站内部常用的检索方式。
该搜索方式旨在对网站内信息整合处理并分目录呈现给用户,但其缺点在于用户需预先了解本网站的内容,并熟悉其主要模块构成。
总而观之,目录搜索方式的适应范围非常有限,且需要较高的人工成本来支持维护。
网络搜索技巧:如何利用垂直搜索和专业搜索引擎获取特定领域的信息?引言:如今,互联网已经成为人们获取信息的主要渠道。
然而,在信息爆炸的时代,我们有时很难从海量的搜索结果中快速找到准确、专业的信息。
为了解决这一问题,今天我们将介绍一些网络搜索技巧,特别是垂直搜索和专业搜索引擎的使用方法,帮助我们在特定领域中快速、准确地获取所需信息。
第一部分:垂直搜索——深入特定领域垂直搜索引擎是一种针对特定行业或领域进行深入搜索的工具。
与传统搜索引擎不同,它们可以提供更专业、更精确的搜索结果。
例如,在法律领域,“法律垂直搜索引擎”可以帮助用户找到相关的法律法规、案例分析和专业意见。
这里,我们将以法律垂直搜索为例,介绍如何利用垂直搜索获取特定领域的信息。
1. 掌握关键词的技巧当我们使用垂直搜索引擎时,了解常用的关键词和术语是必不可少的。
例如,在法律领域,我们可以使用相关的法律术语、法规名称或案例名称来搜索,以获得更准确、相关的结果。
2. 使用高级搜索选项垂直搜索引擎通常提供高级搜索选项,可以帮助我们更精确地筛选结果。
例如,在法律垂直搜索引擎中,我们可以选择搜索特定时间范围内的法律文件,或按照案件类型、地区等进行筛选,以获得更精确的搜索结果。
3. 阅读搜索结果的权威性判断在垂直搜索引擎的搜索结果中,我们需要仔细阅读搜索结果的来源和权威性。
通常,权威的搜索结果将来自政府官方网站、专业机构或知名律师事务所等。
相比之下,个人博客或非官方网站的结果需要更加谨慎对待,需要进一步核实和验证。
第二部分:专业搜索引擎——一站式获取专业信息专业搜索引擎是另一种获取特定领域信息的利器。
相较于通用搜索引擎,它们可以提供更为精准、详尽的专业知识。
以下是如何使用专业搜索引擎的一些建议。
1. 寻找专业领域的搜索引擎针对特定领域的专业搜索引擎通常由专业机构、学术机构或相关行业组织提供。
通过文献、学术论文、行业报告等信息资源的整合,专业搜索引擎可以帮助我们深入地了解特定领域的前沿知识和最新动态。
想要在互联网上获取特定领域的信息,除了使用普通的搜索引擎,还可以利用垂直搜索和专业搜索引擎。
这些搜索工具可以提供更精确和专业的搜索结果,帮助用户快速找到所需的信息。
一、什么是垂直搜索?垂直搜索是指针对特定领域的搜索引擎。
与普通搜索引擎不同,垂直搜索引擎针对特定主题、行业或领域进行信息检索和整理,提供更精准的搜索结果。
在利用垂直搜索引擎进行搜索时,用户可以首先选择符合自己需求的专业领域,然后输入相关的关键词进行搜索。
垂直搜索引擎通常整合了特定领域内的相关网站、专家资讯、论坛讨论等资源,提供高质量的专业内容。
二、如何使用垂直搜索?1.确定领域:首先要明确自己需要搜索的领域。
例如,如果你是一名医学相关领域的研究者,可以使用医学领域的垂直搜索引擎。
2.选择垂直搜索引擎:根据自己的需求,在众多的垂直搜索引擎中选择一个合适的。
3.关键词搜索:输入相关的关键词进行搜索。
注意,要尽量准确地描述自己的需求,以获得更精确的结果。
4.筛选结果:根据搜索引擎提供的筛选功能,可以根据发布时间、相关度等进行进一步的结果筛选。
5.阅读内容:选择合适的搜索结果,仔细阅读内容。
垂直搜索引擎通常会提供更专业和权威的信息,帮助用户深入了解特定领域。
三、专业搜索引擎的应用除了垂直搜索引擎,还有许多专业搜索引擎可供利用。
这些专业搜索引擎针对特定领域的信息进行搜索,并提供更加专业、深入的搜索结果。
1.学术搜索引擎:例如Google Scholar、SCI-Hub等,可以快速搜索学术论文、期刊文章等学术资源。
2.专利搜索引擎:专门用于搜索各个领域的专利信息,例如中国专利信息网、美国专利商标局等。
3.法律搜索引擎:用于搜索法律文献、法规法案等法律相关的信息。
4.商业搜索引擎:针对商业领域的搜索引擎,用于搜索企业信息、商业新闻、市场分析等商业相关信息。
利用专业搜索引擎,用户可以更迅速、准确地获取到所需的专业信息,提高工作学习的效率。
四、搜索技巧的其他应用除了垂直搜索和专业搜索引擎,还有一些其他搜索技巧可以帮助用户更好地获取特定领域的信息。
试比较垂直搜索引擎和传统的搜索引擎摘要:搜索引擎以其强大的检索功能备受社会关注,各种类型的搜索引擎更是层出不穷。
本文选取了垂直搜索引擎和传统搜索引擎作为比较对象,从工作原理、核心技术、信息服务这三个方面进行了比较,最后总结出搜索引擎发展的方向就是更好的为用户提供服务。
关键词:垂直搜索引擎;传统搜索引擎;比较搜索引擎主要指利用网络自动搜索技术软件或人工方式,对网络资源进行收集、整理与组织,并提供检索服务的一类信息服务系统。
随着网络和计算机技术的快速更新,各种类型的搜索引擎层出不穷。
由于搜索引擎查询的海量结果存在信息量大、查询不准确、深度不够等缺陷,用户感觉到很难在短时间内准确的筛选并找到符合需求的信息。
于是,垂直搜索引擎便应运而生。
那么,它到底和传统的搜索引擎有何不同呢?1.垂直搜索引擎和传统搜索引擎概述传统搜索引擎就是早期的综合搜索引擎的统称。
它是指定期收录和整理网络信息,提供关键词或浏览查询方式的网络信息检索工具。
其资源包罗万象,用户可在检索栏中输入检索词来检索几乎任何类型和主题的资源。
虽然它收录的资源范围广,但存在死链接较多、相关度较低等缺点。
垂直搜索引擎即专业化搜索引擎,是专为查询某一学科或主题的信息而产生的查询工具。
它是对某类网页资源和结构化资源的深度整合后提供符合专业用户操作行为的信息服务方式。
其特点是“专、精、深”,且具有行业色彩。
因为它的搜索器只搜集特定的主题信息的相关网页。
这样大大降低了收集信息的难度,提高了信息的质量。
2.工作原理比较传统的搜索引擎是通过Spider程序来自动地在互联网中搜集和发现信息,再由索引器为搜到的信息建立索引,最后由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。
由于网页文件存在不规范性,传统搜索引擎所建立的索引是全文索引。
垂直搜索引擎先利用特定的软件按照用户需求自动从网络服务器上搜索信息资源;再按照专题进行人工分类,建立索引,将索引好的内容存放到本地数据库。
什么是垂直搜索
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是专、精、深,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
五个常用的搜索引擎搜索引擎简单理解,就是网络环境中的信息检索系统,即能够在网上发现新网页并抓取文件的程序。
依托于多种技术,一般包括爬虫、索引、检索和排序等,为信息检索用户提供快速、高相关性的信息服务。
国内常见的搜索引擎有百度、360、搜狗等,国外的有谷歌、必应等。
根据不同的工作方式,主流的搜索引擎可被分为三种:全文搜索引擎、目录搜索引擎、元搜索引擎、垂直搜索引擎。
1、全文索引型全文搜索引擎,国内是著名的百度搜索引擎。
国内著名的有百度(Baidu)国外则是Google。
它们从互联网提取各个网站的信息(以网页的文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
2、目录索引型目录索引虽然有搜索引擎功能,但严格意义上不能称为真正的搜索引擎。
用户完全不需要依靠关键词(Keywords)查询,只是按照分类目录找到所需要的信息。
目录索引中,国内具代表性就是新浪、搜狐、网易分类目录和Yahoo网站雅虎。
其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。
3、元数据索引型元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户,著名的元搜索引擎有360搜索、infoSpace、Dogpile、VIsisimo等,在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
4、垂直索引型垂直搜索引擎适用于有明确搜索意图情况下进行检索。
例如,用户购买机票、火车票、汽车票时,或想要浏览网络视频资源时,都可以直接选用行业内专用搜索引擎,以准确、迅速获得相关信息。
搜索引擎分类与工作原理搜索引擎是指通过电子设备和网络技术,按照一定方式获取并储存互联网信息,以便用户查询和引导用户获取相关信息的系统。
根据工作原理和功能不同,搜索引擎可以分为以下几类:1. 基于关键词的搜索引擎:最常见、最普遍的搜索引擎类型,用户通过输入关键词,搜索引擎返回相关的网页结果。
这种搜索引擎主要通过爬虫程序(也称为“蜘蛛”)自动抓取互联网上的网页,并对这些网页建立索引,在用户查询时通过索引进行匹配。
2. 垂直搜索引擎:专注于某个特定领域或主题的搜索引擎。
这些搜索引擎通常通过内容筛选、专家编辑或机器学习算法来提供精准的搜索结果。
常见的垂直搜索引擎有新闻搜索引擎、音乐搜索引擎、图片搜索引擎等。
3. 元搜索引擎:通过同时查询多个其他搜索引擎的搜索结果,并将其合并在一起展示给用户。
元搜索引擎的目标是提供更全面和多样化的搜索结果,以便用户选择最相关或最优的信息。
4. 语义搜索引擎:利用自然语言处理和人工智能技术,理解用户的查询意图,而不仅仅局限于关键词的匹配。
语义搜索引擎旨在提供更准确、个性化的搜索结果,帮助用户更快找到所需信息。
搜索引擎的工作原理通常包括以下步骤:1. 网页抓取(Crawling):搜索引擎通过爬虫程序(蜘蛛)从互联网上抓取网页内容,并将其保存在索引数据库中。
爬虫程序遵循超链接从一个网页到另一个网页,建立起一个巨大的网页索引。
2. 网页索引(Indexing):搜索引擎将抓取到的网页进行处理和分析,提取出网页中的关键词和结构化信息,并建立起一个庞大的索引数据库,用于加快用户查询速度。
3. 查询处理(Query Processing):当用户输入查询请求时,搜索引擎会根据用户所提供的关键词和查询意图,从索引数据库中检索相关网页信息。
4. 排名和排序(Ranking and Relevance):搜索引擎根据一系列算法,如PageRank算法和机器学习算法,对检索到的网页进行排序和排名,以便将最相关和有用的信息展示给用户。
密级 硕士学位论文 垂直搜索引擎
陈凌云
导师姓名(职称)牛振东(教授)答辩委员会主席 宋瀚涛 申请学科门类 工程 论文答辩日期 2007年7月6日 申请学位专业 软件工程
2007年 4月 20日
研究成果声明 本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。 特此申明。
签名: 日期: 关于学位论文使用权的说明 本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。
签 名: 日期: 导师签名: 日期:
摘要 互联网上的信息每天都在不断的增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张地说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。 但是,随着信息多元化的增长,通用搜索引擎已经不能满足特定用户更深入的查询需求。同时,通用搜索引擎在目前的情况下,要及时更新以得到互联网上较全面的信息是不太可能的。针对这种情况,我们需要一个专业领域的搜索引擎,它具有面向主题的、数据全面深入、更新及时等特点。近几年来,已经出现了一些成型的系统。 本文从理论和实践两个方面探讨了网络信息检索技术以及检索技术在搜索引擎系统中的应用,实现了一个基本的垂直搜索引擎,包括网络爬虫、PageRank、结构化信息提取等。 论文首先阐述了搜索引擎的历史、现状以及不足,指出了垂直搜索引擎的概念和研究的必要性。然后对垂直搜索引擎进行理论性的分析,介绍了系统涉及的关键技术,具体介绍了网络蜘蛛(spider)的设计规则和法则、超链分析以及结构化信息提取相关算法。最后是系统的设计和实现部分,在上述理论分析的基础上提出了系统的设计思想,采用基于链接和基于内容相结合的方法,并介绍了系统的结构和具体实现技术。
关键词:垂直搜索、网络爬虫、PageRank、 结构化信息提取
I Abstract Information on the Internet grows explosively every day. Search engine provides all the surfers on it with an entrance,from which they can reach n early every nodes of the Web. Therefore, search engine becomes the most popular Internet service besides email. With information exploding in all directions , however ,some special kinds of users are not statisfied with general search engine.In the meanwhile ,it is impossible to retrieve enough informantion from internet in time. Therefore people need a vertical search engine which is containing profound and sufficient informaiton and being updated in time. In the past years ,there are some vertical search engine has been put into the market. After discussing the technology of Web information retrieval both on theory and application, a framework for a vertical search system has been implemented ,including crawler,pagerank and the extractor of structure information. First the paper discusses the history and the present situation of the Web information and analyses some problems. Related work of other researchers in China and all over the world is narrated in this part. Then the paper analyzes vertical search engine in theory. The technical term and the key techniques involved in the paper are introduced, including the rule of Web spider, hyperlink analysis and the extractor of structure information. Finally the design and the realization of the system are introduced,including the system structure and methods.
Keywords:vertical search engine、web crawler 、PageRank、the extractor of structure information
II 目录 摘要...................................................................1 Abstract..............................................................II 目录.................................................................III 第1章 绪论...........................................................1 1.1项目研究背景......................................................1 1.2搜索引擎发展现状..................................................1 1.2.1搜索引擎分类..................................................1 1.2.2 垂直搜索引擎的出现............................................3
1.3论文主要研究内容和结构............................................3 1.4本章小结..........................................................4 第2章 搜索引擎基本原理...............................................5 2.1通用搜索引擎工作原理..............................................5 2.2网页抓取技术研究..................................................6 2.2.1网络爬虫工作原理..............................................7
2.3检索技术..........................................................8 2.4查询器...........................................................10 2.5本章小结.........................................................10 第3章 垂直搜索引擎关键技术...........................................12 3.1超链接分析算法...................................................12 3.1.1 PageRank.....................................................12 3.1.2 H.I.T算法....................................................15
3.2结构化信息抽取...................................................16 3.2.1 网页信息结构化抽取方式.......................................16
3.3分词技术.........................................................18 III