垂直搜索引擎的研究与设计
- 格式:pdf
- 大小:1.69 MB
- 文档页数:4
计算机信息检索实验报告——垂直搜索和通用搜索的比较分析班级:公管43 姓名:潘晓骏1 . 学期感悟不得不说这是我大学目前为止收获最多的一门课,我想我在您的课上收获得不仅仅是搜索技巧和能力的提升。
我想更多的是对于自学和独立做事的能力。
在此非常感谢你,希望用我最后一份作业给自己一个满意的答案。
2 . 引言在接下来的内容里我将主要比较分析垂直搜索和通用搜索的优劣和使用范围。
首先说下垂直搜索的概念,垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
3 . 垂直搜索的特点分析3.1以为例的搜索作为一个专业的学术论文搜索网站。
在专业性上的优势体现的淋漓尽致。
但是由于是全英文的网站,所以在玩的过程中还是可能少了什么。
可以不经常看全英文网站,表示看得很累,但是在熟悉的过程中发现网站提供的信息还是十分准确的。
我想等我写论文时我会好好利用。
作者的选择文种的选择PDF格式的文章阅览图。
楼上的是关于年份选择的按钮。
楼下的淡蓝色字体是关于作者的一些信息3.2以奇虎网为例的搜索搜索的结果是越是通俗的东西在专业网站上也得不到给力的讯息。
只有当用户的需求是专业和个性化的时候。
垂直搜索的服务才显现其优点出来。
我感觉这排字很吸引我。
作为一个号称中文论坛第一门户。
其实打开还是百度,搜索的问答为住,可能也是我搜索词的问题。
3.3 以咕嘟妈咪为例的餐饮搜索不得不说当专业网站做的越来越好。
内容越来越丰富。
其实我的感觉也是十分的头痛。
看到茫茫多的信息。
网络营销论文垂直搜索引擎与通用搜索引擎专业班级:指导老师:姓名:学号:二零一二年十月试论垂直搜索引擎与通用搜索引擎一、垂直搜索引擎(一)垂直搜索引擎的概念垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
(二)垂直搜索引擎所涉足的领域行业垂直搜索引擎的类别很多,如购物搜索、健康搜索、旅行垂直搜索、物流搜索等。
它们所涉及的行业有购物,旅游,商业,工作,娱乐,交友等行业。
在中国也有一些发展的比较好的搜索引擎。
1、论坛搜索:奇虎:创建于2005年9月。
号称中文论坛第一门户,以收集整理BBS存储着的大量信息为主。
使用群体为网编及混迹于BBS的网友2、生活搜索:酷讯:创建于2005年底。
这是一款以即时的生活信息为检索对象的专业搜索引擎。
它提供找工作、租买房、买火车票等服务,涵盖衣、食、住、行和工作、交友、购物等生活各方面。
同时具有自动更新功能,能够将符合检索需求的最新信息自动推到用户面前。
普通大众都是其使用群体。
3、旅游搜索:去哪儿:成立于2005年5月。
作为全球最大的中文旅游搜索引擎,去哪儿通过对整个在线旅游产品资源的整合与发布,提供实时、可信的旅游产品比价与服务比较系统,帮助消费者轻松进行充分选择,找到最适合自己的在线旅游产品,成就完美旅程。
是旅游、出行者的优先选择。
4、招聘搜索:搜职:成立于2005年5月。
号称全球最大的人才和职位中文搜索引擎,能即时搜索全国所有人力资源的网站、论坛(BBS)、社区(SNS)和企业HR频道。
垂直搜索引擎技术垂直搜索引擎技术是一种特殊的搜索引擎,它针对某一特定领域或者垂直市场进行深入的信息收集和索引,并提供精准的搜索结果。
与普通的综合搜索引擎不同,垂直搜索引擎能够更加准确地满足用户在特定领域内的信息需求,提高搜索效率和精度,因此得到越来越多用户的青睐和喜爱。
一、垂直搜索引擎技术的发展历程随着互联网的迅速发展和普及,搜索引擎成为人们获取信息的主要途径之一。
而在发展过程中,普通搜索引擎面对着越来越大的信息量和越来越广泛的用户需求,如何提高搜索效率和精准度成为亟待解决的问题。
因此,垂直搜索引擎应运而生。
早期的垂直搜索引擎主要集中于某一特定领域的信息收集和索引,如百度知道、搜狗医生等服务,但是其搜索范围相对较窄,只能覆盖到该领域内的特定信息。
然而,随着技术的不断进步和数据的不断积累,如今的垂直搜索引擎已经具备了更强大的搜索能力和更广泛的数据覆盖面,例如针对特定行业的职业招聘网站、房地产网站等,都可以脱颖而出实现垂直搜索。
同时,许多大型综合搜索引擎也在不断完善自己的搜索技术,加强特定领域的搜索范围和搜索结果的准确度,比如谷歌在2013年推出了Google Hotel Finder,进行旅游行业垂直搜索。
二、垂直搜索引擎技术的特点1. 精准性高。
垂直搜索引擎能够深入挖掘某一领域的信息,避免了信息广度过大和定位不够准确的问题,对于用户信息需求的满足率明显提升。
2. 高效率。
由于涉及的范围窄,这类搜索引擎相对来说将获取和处理信息的速度变得更快。
其数据也备有针对性地进行了分析和整理,更快速地提供搜索结果,提高了用户信息的时间和效率。
3. 更好的用户体验。
针对相对专业用户的需求,垂直搜索引擎的结果更加丰富且更局限性,减少了用户需要扫描的信息量,相应减轻了用户阅读和辨认信息的负担,体验更加流畅和高效。
4. 更好的商业价值。
由于能够更加准确地推送目标用户更好质量的内容,且指向某一行业、领域,符合了广告投放的信赖,为相关厂商建立了很好的广告合作平台。
互联网时代的垂直搜索引擎随着互联网的不断发展,搜索引擎已成为我们获取信息的主要方式之一。
然而,由于海量信息的存在,普通的搜索引擎往往无法满足用户的需求。
为了解决这个问题,垂直搜索引擎应运而生。
什么是垂直搜索引擎?垂直搜索引擎是一种针对特定领域/行业的搜索引擎,通过收集特定领域的相关信息,为用户提供更加精准的搜索结果。
与普通的搜索引擎相比,垂直搜索引擎的覆盖范围更加狭窄,但搜索结果更加专业精准。
垂直搜索引擎的优点相比于普通的搜索引擎,垂直搜索引擎具有以下优点:1. 搜索结果更加精准由于垂直搜索引擎针对特定领域的搜索,因此搜索结果更加精准。
用户可以更加快速地找到所需的信息,提高搜索效率。
2. 提供更加专业的信息垂直搜索引擎提供的信息更加专业,由于针对性强,因此收集的信息更加准确、可靠。
用户可以更加信任所获得的信息。
3. 帮助用户快速入门由于垂直搜索引擎覆盖范围小,因此可以帮助用户更加快速地入门,了解相关领域的知识和信息。
垂直搜索引擎的应用场景垂直搜索引擎的应用场景非常广泛,主要包括以下几个方面:1. 行业咨询垂直搜索引擎可以帮助用户收集特定行业的专业信息,帮助用户进行行业咨询。
2. 学术研究针对特定领域的研究者,垂直搜索引擎可以提供相关领域的专业信息,帮助研究者进行学术研究。
3. 生活方便对于用户来说,垂直搜索引擎可以帮助用户更加方便地获取特定领域的信息,例如旅游、美食等方面的信息。
垂直搜索引擎的未来发展随着互联网时代的不断发展,垂直搜索引擎也将会不断发展。
未来,垂直搜索引擎的应用将会越来越广泛,搜索精准度也会不断提高。
同时,随着人工智能技术的不断升级,垂直搜索引擎将会更加智能化,为用户提供更加个性化的服务。
结语垂直搜索引擎的出现,为我们获取信息带来了更多的选择。
与普通的搜索引擎相比,垂直搜索引擎覆盖面更加狭窄,但搜索结果更加精准,帮助用户节省时间和精力。
垂直搜索引擎的应用前景广阔,值得我们期待。
垂直搜索引擎在互联网发展中的应用随着互联网的快速发展,搜索引擎已经成为人们获取信息的主要渠道之一。
然而,传统的搜索引擎面临的问题在于搜索结果的普遍性,它们搜索到的内容过于泛泛而谈,不够专业化。
因此,垂直搜索引擎应运而生,它们可以以更为专业和精细化的方式为人们提供信息。
本文将探讨垂直搜索引擎的应用以及它在互联网发展中的作用。
一、垂直搜索引擎的定义垂直搜索引擎是一种针对特定主题或领域的搜索引擎。
它们旨在为用户展示更精细化、专业化的搜索结果,从而满足用户针对某一领域的精准需求。
例如,Google Scholar专门用于学术文章的搜索和阅读,Gasgoo专门提供汽车新闻、资讯和数据等内容。
二、垂直搜索引擎的优点与全球搜索引擎相比,垂直搜索引擎具有以下几个优点:1、专业化:垂直搜索引擎能够满足用户对特定领域的需求,这意味着它们能够提供更为精细、专业的搜索结果。
2、减少信息噪音:由于垂直搜索引擎只针对特定主题或领域进行搜索,因此它能够减少信息噪音,让用户更容易找到他们需要的信息。
3、提供更为准确的搜索结果:由于垂直搜索引擎考虑到了特定领域或主题的特殊需求,因此它们能够为用户提供更为准确的搜索结果。
三、垂直搜索引擎的应用垂直搜索引擎已经广泛应用于生产生活的各个领域,如下:1、学术领域:Google Scholar以及其他的学术搜索引擎像ScienceDirect,SpringerLink等,已经成为学者们在研究过程中最常用的工具。
2、媒体:许多媒体公司创建了自己的垂直搜索引擎,如Gasgoo(Gasgoo新车、Gasgoo资讯、Gasgoo数据)等,这些网站为读者提供汽车新闻、实时数据等相关内容。
3、电子商务:在电子商务领域,美团点评,大众点评等主打本地化服务,提供用户针对特定地区(如本地美食、旅游、景点等)的搜索服务,让大家搜索到所需的信息更加快捷、方便。
四、垂直搜索引擎的发展趋势1、技术日益发达:垂直搜索引擎需要更为专业化的算法来确保搜索结果的质量。
垂直搜索引擎是什么_垂直搜索引擎有哪些垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。
其特点就是专、精、深,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
什么是垂直搜索引擎垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。
然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。
举个例子来说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后,对网页商品信息进行抽取,抽取出商品名称、价格、简介甚至可以进一步将笔记本简介细分成品牌、型号、CPU、内存、硬盘、显示屏、然后对信息进行清洗、去重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市场行情报告。
垂直搜索引擎应用研究垂直搜索引擎是面向某一特定领域的专业搜索引擎。
简要分析了通用搜索引擎的局限、垂直搜索引擎的优势及其关键技术。
标签:搜索引擎;垂直搜索;信息检索1 通用搜索引擎网络的发展极大地影响了我们的生活,它让我们更容易获取信息的同时,也彻头彻尾地将我们陷入了无边无际的信息海洋之中。
每时每刻我们都要自觉或不自觉,被动或主动地面对数十亿页面的网络信息,想找到自己需要的信息简直就是“大海捞针”。
搜索引擎的横空出世让我们有了探索信息海洋的指南针。
随着技术的进步,这个指南针的功能也越来越强大,使用并接受它的人也越来越多。
需要注意的是,虽然现代搜索引擎已经取得了很大的成功,但是它仍然存在很多不足之处,主要表现如下:首先,覆盖率低。
基于Web自身的特点,大量的数据分布在数以亿计页面的互联网上,检索起来十分困难,而单个搜索引擎的覆盖率一般都低于30%,很难索引到所有的Web资源。
其次,时效性差。
网络信息呈指数增长,大量信息的存活期却在缩短,这导致搜索引擎的时效性难以保证,返回结果中存在大量“错”链接和“死” 链接。
再者,查准率低。
一次搜索的结果可能有成千上万条,而在这庞大的信息中,有用信息只是其中的一小部分,可谓“冰山一角”,并且常常有收到和下载的信息难以消化的情况。
最后,过于死板。
现有的搜索引擎多采用关键词的机械式匹配。
没有考虑到用户的个体差异,不能满足用户的个性化需求。
这种方式的缺点是参与匹配的只有字符的外在表现形式,而非它们所表达的概念。
因此,经常出现答非所问、检索不全的结果。
2 垂直搜索引擎2.1 垂直搜索引擎的优势由于Web上的信息更加细化和专业,人们有时只关心特定领域、特定范围内的信息,而Google、Baidu等通用搜索引擎却只能提供范围很大但信息却不完整的检索服务,比如求职者在百度中搜索“招聘英语教师”,会有部分的英语教师职位,但是结果中很多职位都已经过期,有的甚至是一年前甚至更久的职位信息,对于招聘这样的时效性非常高的信息,百度这样的搜索引擎明显不能满足用户需求。
垂直搜索引擎案例分析:去哪儿网垂直搜索引擎案例分析:去哪儿网【摘要】目前,我们处于信息爆炸的时代,网络的兴起为传统旅游业的发展带来的新的契机,中国网民数量日益增多,旅游潜在市场巨大,同时中国旅游类网站数目众多,但是适应社会发展,给客户提供最优质服务的网站并不多,去哪儿网作为旅游界的新生创新者和领导者,在成立的短短几年内,就突破了旅游界的龙头老大携程网一家独大的局面,因而研究其商业模式,对于改进现有商业模式有着重要的理论与现实意义,同时也有利于整个旅游行业的发展。
【关键词】垂直搜索引擎,去哪儿网,商业模式,盈利模式目录1 导言 (4)2 文献回顾 (4)2.1 垂直搜索引擎 (4)2.2搜索引擎站点特点 (3)2.3垂直搜索引擎内容来源 (4)3 深入去哪儿网 (5)3.1关于去哪儿网 (5)3.2去哪儿网的商业模式 (6)3.2.1去哪儿网的优势 (7)3.2.2去哪儿网商业模式特色 (7)3.3去哪儿网的盈利模式 (8)3.4去哪儿网的营销模式 (9)3.5去哪儿网的未来战略 (11)参考文献 (11)1 导言2010年11月,“21世纪中国最佳商业模式评选盛典”在北京隆重举行,此次活动由21世纪商业评论报系主办,是国内最具影响力的企业商业模式评选活动,全球最大的中文在线旅行网站去哪儿网()凭借其独特的客户价值主张、优厚的资源与能力、独创的盈利模式从参评的近200家企业中脱颖而出,获得“2010年度中国最佳商业模式奖”。
去哪儿网成立于2005年,用不到6年时间即打造成目前全球最大的中文在线旅行网站。
其搜索范围超过6万家国内酒店、2万家国际酒店和12000条国内、国际机票航线以及20000条度假线路,拥有其他在线旅游网站无法比拟的资源优势。
乍一看,去哪儿与携程,酷迅,芒果等其他提供在线旅游服务的网站并没有多大差别,连网页界面也颇为相似,然后这家公司只用几年时间就在强手如云的旅游市场脱颖而出,获得资本及用户的青睐,并于今年期间似上市。
垂直搜索引擎的发展与应用随着互联网的发展,搜索引擎已经成为人们获取信息的主要途径。
谷歌、百度、必应等巨头搜索引擎已经广泛应用于人们的生活和工作中。
然而,在人们需要查找特定领域、特定内容的时候,传统的搜索引擎未必能够提供最好的服务。
这时候,垂直搜索引擎便应运而生。
1. 垂直搜索引擎的定义垂直搜索引擎是一种针对特定行业或领域内容进行深度搜索的搜索引擎,与传统的“全能搜索引擎”不同。
它不再追求搜索结果的广泛性,而是更专注于针对某一特定领域、主题进行搜索来满足用户准确的信息需求。
举个例子,家具行业一直以来都是一个很庞大的产业,各种大小样的家具品牌和产品都层出不穷。
像普通消费者有想要购买家具,除了去实体店理论、弄明白品牌和信息方面,也可以通过搜索引擎查找相关家具品牌或是特定类型家具,但是在这种情况下,普通搜索引擎往往会涉及到过多不相关的结果,或是相同的品牌重复上架的信息,而垂直搜索引擎则专注于家具行业的类别,按照价格、优惠方案、知名品牌等进行分类,不仅为用户提供精准的搜索结果,更能帮助用户快速了解市场情况、比较后做出更明智文件的购买决策。
2. 垂直搜索引擎的起源垂直搜索引擎可以追溯到20世纪90年代初期互联网商业化时期,那时期许多互联网创业公司都在探索各自的商业模式。
一些公司开始专注于特定行业,如旅游,音乐,电影等,他们的目标是通过提供将相关信息整合到一起,为用户提供功能最完善的搜索服务为引擎最终成功贡献自己的力量。
在这些搜索引擎的帮助下,用户可以更快速、更准确地获得最新和最有用的信息。
3. 垂直搜索引擎的发展趋势在过去的几年里,垂直搜索引擎的发展呈现出日益快速的趋势。
尤其在互联网平台的快速发展,如O2O(线上到线下)、社交媒体与移动互联网。
在这些因素的影响下,垂直搜索引擎的出现将会引领互联网的下一轮发展潮流。
随着互联网平台的发展,人们可以在任何时候、任何地点查阅所需信息更快,无论是商家还是消费者都有了更多交流平台,而垂直搜索引擎正好满足了这个需求。
第27卷第7期 计算机应用与软件Vol127No.7
2010年7月 ComputerApplicationsandSoftwareJul.2010
垂直搜索引擎的研究与设计刘运强(贵州大学计算机学院 贵州贵阳550025)
收稿日期:2009-10-09。贵州省科技计划工业攻关基金项目(黔科合GY字[2008]3035);贵州省2008年省级信息化专项基金项目(0830)。刘运强,硕士生,主研领域:数据库技术与软件工程。
摘 要 通过对垂直搜索引擎的原理和关键技术的研究,运用Lucene等JAVA开源工具设计并实现了一个手机信息检索系统。对于构建垂直搜索引擎必须要面对和解决的一些关键问题进行了分析,并给出了解决方案,如防止重复爬取网页和专业词库的扩展等,具有较强的实用性。
关键词 搜索引擎 垂直搜索 爬虫 Lucene
RESEARCHANDDESIGNOFVERTICALSEARCHENGINELiuYunqiang(CollegeofComputerScience,GuizhouUniversity,Guiyang550025,Guizhou,China)
Abstract ThispaperpresentsthedesignandimplementationofaninformationretrievalsystemformobilephonesbyapplyingJAVAopen-sourcetoolssuchasLuceneandthroughstudyingtheprinciplesofverticalsearchengineandcriticaltechnologies.Inaddition,theanalysesaremadeonsomekeyproblemswhichhavetoencounterandresolvewhenconstructingtheverticalsearchengine.Thesolutionspertainingtotheseproblemsaregivenaswell,forexample,thepreventionofcrawlingsamehomepagerepeatedlyandtheexpansionofspecialisedtermsli2brary.Thesystemhashighpracticality.
Keywords Searchengine Verticalsearch Spider Lucene
0 引 言随着信息技术的快速发展,互联网已经成为人们获知信息的重要渠道。面对互联网如此庞大复杂的信息资源,仅依靠浏览器浏览的方式来获得我们所关心的信息是非常困难的,这就促使了网络搜索引擎的出现和快速发展。搜索引擎整合了众多网站的信息,将大量信息整合在一个平台上供用户检索,起到了信息导航的作用,已成为人们获取信息的有效工具。但是互联网的信息量呈爆炸趋势增长,每天都有数以万计的网页出现在互联网,使得搜索引擎对网络信息的覆盖率和搜索出结果的相关性、准确性在整体上呈下降趋势。检索出的结果集数量之多,经常都是几十万条甚至是几百万条记录,其中存在着大量的重复信息或是与检索主题无关的信息,要想从中快速、准确地找出所需要的信息变得越来越困难。人们需要更具有针对性、能快速准确定位信息的搜索引擎———垂直搜索引擎。本文通过对垂直搜索引擎原理的深入了解,设计并实现了一个用于手机信息检索的垂直搜索引擎。与其它一些垂直搜索引擎的研究相比,本文更为深入和实际地研究了垂直搜索引擎亟待解决的关键问题,并给出了解决方案,通过手机垂直搜索引擎实例也很好地证明了方案的可行性和实用性。1 垂直搜索引擎的原理和关键技术1.1 垂直搜索引擎的原理垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务[1]。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。可以简单地把垂直搜索引擎说成是搜索引擎领域的行业化分工,它为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。垂直搜索引擎通过网络爬虫在互联网上爬取某一特定领域的专业信息网页,并对爬取到的网页进行解析和处理,形成专业信息数据库,并对这些数据进行索引,形成索引库。用户在搜索引擎的客户端键人要查找的关键词,搜索引擎就会在索引库中找出与该关键词相匹配的摘要信息和URL,并将结果显示给用户,用户可根据输出的结果选择并访问相关站点。1.2 垂直搜索引擎的关键技术1.2.1 网络爬虫技术网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。爬虫通常是从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。网络爬虫的实现需要一个支持HTTP协议的编程工具包,
本文所使用的是HttpClient,它是Apache的一个开源项目,用来
第7期 刘运强:垂直搜索引擎的研究与设计131
提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。1.2.2 信息处理技术信息处理指的是在爬虫爬取的过程中能对无关网页进行过滤并且能对爬取到的网页进行解析,抽取出和主题相关的信息。这里需要用到网页解析工具HtmlParser,它是sourceforge上的一个开源项目,它提供了线性和嵌套两种方式来解析网页,主要用于Html网页的转换以及网页内容的抽取[2]。1.2.3 信息检索技术信息检索主要包含两部分的内容:索引和检索。对爬取的网页内容抽取整理后建立倒排索引,用户检索时搜索引擎会根据事先建立的索引文件确定查询结果。这里采用的是Lucene。Lucene也是Apache的一个开源项目,是一个全文检索引擎工具包,它提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene可以对任何的数据做索引和搜索。Lucene不管数据源是什么格式,只要它能被转化为文字的形式,就可以为Lu2cene所分析利用。也就是说不管是txt、Word、PDF、数据库还是其他什么形式的文件,只要可以从中抽取出文字形式的内容,就可以基于Lucene为其建立索引以及搜索。Lucene的系统结构如图1所示。图1 Lucene系统结构从图1可以清楚地看到,Lucene系统是由基础结构封装、索引核心、对外接口3大部分组成[3]。Lucene的源码共由7个包组成,下面介绍最为重要的几个包的功用:(1)org.apache.lucene.document 这个包提供了一些为封装要索引的文档所需要的类,比如Document、Field。这样,每一个文档最终被封装成了一个Document对象。(2)org.apache.lucene.analysis 这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。(3)org.apache.lucene.index 这个包提供了一些类来协助创建索引以及对创建好的索引进行更新。这里面有两个基础的类:IndexWriter和IndexReader,其中IndexWriter是用来创建索引并添加文档到索引中的,IndexReader是用来删除索引中的文档的。(4)org.apache.lucene.search 这个包提供了对在建立好的索引上进行搜索所需要的类。比如IndexSearcher和Hits,In2dexSearcher定义了在指定的索引上进行搜索的方法,Hits用来保存搜索得到的结果。2 垂直搜索引擎的分析与设计2.1 系统的设计目标本文设计实现的是一个用于手机信息检索的垂直搜索引擎,旨在实现准确、方便、快速查找手机信息的检索工具。用户只需要简单地输入手机的名称或相关参数作为关键词就能够找到各大手机商城所有销售手机中与该关键词相关的手机信息,
为使用者提供最新、最准确、最全面的手机信息。用户可以通过该系统查看到手机的详细信息,包括手机品牌、型号、报价、参数和手机图片等。2.2 系统的总体结构垂直搜索引擎(手机信息检索系统)主要由信息采集、信息处理和信息检索等模块组成,如图2所示。
图2 垂直搜索引擎系统结构图垂直搜索引擎的工作主要由以下区三部分来完成:
(1)信息采集 信息采集是通过网络爬虫来实现的,也就
是图中的Web爬虫模块。设定待爬取的资源为包含较全手机信息的几个大型网站,如太平洋手机网、163手机信息网、北斗手机网等,那么基于HttpClient构建的网络爬虫就可以实现抓取特定范围的、和手机相关的信息页面。(2)信息处理 信息处理是指对爬取下来的网页进行过
滤、解析和抽取,最终得到需要的有价值的信息。在图2中可以看到,网页解析后有三个转向:
解析得到的URL先经过判断是否被访问过,打上相应的标志后存储到BerkeleyDB(以下简称BDB)中,为信息采集模块服务,这样可以有效地避免重复爬取的问题;
解析得到的手机品牌、型号等词汇添加到专业扩展词库中,
为信息检索模块服务。专业词库的建立可以提高信息的查全率,弥补了传统的基于词库的检索系统由于词库中缺少相关词汇而检索不到信息的不足;
解析得到的手机信息(品牌、型号、价格、参数等)存储到数据库中。(3)信息检索 信息检索主要包括索引、检索和用户接口。
首先对保存在数据库中的手机信息进行索引,然后用户就可以通过用户接口,提交关键字进行查询,系统的检索模块接收到查询关键字后,在索引中快速查找并将结果返回给用户;还可以进一步查询保存在数据库中的信息,以获得相应手机的详细信息。
3 系统的关键问题及解决方法3.1 网络爬虫的实现构建一个垂直搜索引擎,爬虫是必不可少的工具,由于爬虫