当前位置:文档之家› 案例:百度中文搜索引擎

案例:百度中文搜索引擎

案例:百度中文搜索引擎

一、百度公司简介

百度在线网络技术(北京)有限公司于2000年1月创立于北京中关村科技园区,目前是全球创立之初,百度就将自己的目标定位于打造中国人自己的中文搜索引擎,并愿为此目标不懈的努力奋斗。2000年5月,百度首次为门户网站——硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商。2001年8月,发布搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年10月22日正式发2005年8月5日,https://www.doczj.com/doc/603861099.html,.Inc在美国纳斯达克上市,成为2005年全球资本市场上最为引人注目的上市公司,百度由此进入一个崭新的发展阶段。

百度的使命是:为人们提供最便捷的信息获取方式。6年来,百度一直孜孜不倦地追求技术创新,依托于博大精深的中文智慧,致力于为网民提供“简单,可依赖”的互联网搜索服务。百度搜索引擎系统每天响应来自138个国家和地区超过数亿次的搜索请求。用户可以通过百度主页,在瞬间找到相关的搜索结果,这些结果来自于百度超过20亿的中文网页数据库,并且,这些网页的数同时,用户不必访问百度主页,也可以搜索信息。超过3万个搜索联盟会员,通过各种方式将百度搜索结合到自己的网站,使用户在上网的任何时候都能进行百度搜索。百度还提供WAP与PDA搜索服务,即使身边没有PC机,用户也可以通过手机或掌上电脑等无线平台进行百度搜百度还为各类企业提供软件、竞价排名以及关联广告服务。每个月,有超过5千家的企业通过百度获得商机,5万家企业使用百度竞价排名服务,超过300家大型企业使用百度搜索广告服务。

二、搜索引擎技术、市场现状简述

互联网搜索引擎服务形式诞生于上个世纪九十年代初,经过短短十几年,搜索引擎已经成为一种基础的互联网服务,形成了一个高度商业化的高科技信息行业。无论是在全球范围内,还是在中国,经过过去几年激烈的技术和商业竞争,一些搜索引擎服务商(如Google和百度),以先进的技术和服务,在全球或中国搜索引擎市场上各自占据了垄断性的市场份额,确立了领先地位。

互联网搜索引擎作为互联网上的一种服务,它的功能是:接受用户的查询,实时地把互联网上与该查询最相关的内容的链接提供给用户。互联网上的内容资源,最大量的是HTML网页,其它形式的内容资源包括图像、pdf或doc等格式的文档、音频文件和视频文件等。为了满足用户对各种信息形式的搜索需求,搜索引擎提供的常用服务有网页搜索、图像搜索、MP3搜索和视频搜索等;其中,网页搜索是最基本最常用的搜索引擎服务。由于网页/网站的内容有许多不同类型,用户对新闻、黄页、博客等类型的信息有特殊的搜索需求,搜索引擎也提供了新闻搜索、黄页搜索和博客搜索等专门服务。搜索引擎服务商不仅提供来自计算机

用户的搜索服务,也推出手机搜索、PDA搜索等专门服务,支持来自手机、PDA 等多种移动设备的搜索请求。另外,针对个人计算机用户对自己计算机内所存储文档的查询需求,搜索引擎公司也推出硬盘搜索这样的软件产品。总之,由于信息形式内容的多样性和用户搜索需求的多样性,会衍生出越来越多的专门搜索引擎(又称垂直搜索引擎)。

就技术而言,搜索引擎是一个综合性的计算机技术应用工程。一个互联网搜索引擎系统主要由网页抓取、网页内容分析和索引、相关性分析、和检索服务这四个子系统组成。搜索引擎中所发展的核心技术涉及计算机科学技术的许多前沿领域,如信息检索、高性能分布式网络计算、数据挖掘、自然语言处理和人机界面。对搜索引擎技术的研究,近年来在工业界和学术界也十分活跃,热门研究课题包括:网页抓取、内容索引、查询检索、超链分析、相关性评估、作弊网页识别、网页文本挖掘、信息检索中的语言模型、命名实体识别和基于社区的搜索引擎等;在互联网和信息检索等领域的权威学术会议如WWW和SIGIR上,每年都有许多这些方向上的新的研究成果公开发表。由于搜索引擎涉及语言、文化的方方面面,而目前的现状是美国的几家跨国公司如Google和Yahoo!在全球范围内主导着这一领域的技术和产品,各国政府(如法国政府和日本政府)对研发更适合本国语言文化的搜索引擎开始重视,纷纷计划投入资金,支持本国研究机构和公司企业进行搜索引擎方面的技术研究和产品开发。在中国,百度作为专注于中文搜索的本土搜索引擎公司,在2000年初成立后,即投入与Google等跨国公司在中文搜索引擎服务上的面对面竞争;经过几年的努力,百度凭借自己在中文搜索方面的人才、技术、市场和文化方面的优势,以超过50%的市场占有率,遥遥领先于Google和Yahoo!等强大的竞争对手,牢牢占据着全球最大的中文搜索引擎的位置。这种本土公司在技术和市场上对跨国公司的超越,在搜索引擎行业内是罕见的特例(另一个特例是韩国的Naver搜索引擎),对该领域未来的发展具有十分重要的标杆作用。

从产品层面来看,准、全、新、快是搜索引擎最基本的四个方面。任何一个受欢迎的搜索引擎服务商,它必须保证用户在使用时能够搜得准、搜得全、搜得新、搜得快。这是一个综合的服务过程;而在用户端,则形成了一个完整的体验,任何一个环节出了问题,都有可能导致用户满意度的下降。

目前而言,围绕这几个问题,各大搜索引擎服务商都在做许多细致的工作,以力求趋向完美解决。比如“准”方面,怎样去更准确地理解用户需求,需要不断地更新结果排序算法,同时又要严格控制好垃圾网页的干扰;“全”指的是全面,尽可能地把互联网中的网页都索引下来,最大地满足用户群的信息查询需要;“新”就是要求搜索引擎的抓取非常及时高效,能够把最新的东西给提取出来;“快”不单是指要让用户感觉速度很快,还要保持最大的系统稳定性。一个搜索引擎在“准、全、新、快”这四个方面的表现,决定了它的技术是否过关,是否领先;也决定着它是否受用户欢迎,是否广为使用。

每日访问流量是衡量一个互联网服务受欢迎程度的重要指标。一些著名互联网上流量统计监督服务,如Alexa、HitWise和ComScore,都以免费或付费的方式提供全球范围内的各种互联网服务在流量上的排名。一项服务的排名,可以直接反映这项服务商业上的成功程度。目前,Alexa的统计数据显示,全球范围内,占据流量前四位的互联网服务依次是:Yahoo!(https://www.doczj.com/doc/603861099.html,)、Microsoft Network(https://www.doczj.com/doc/603861099.html,)、Google(https://www.doczj.com/doc/603861099.html,)和百度(https://www.doczj.com/doc/603861099.html,)。其中排在第一、二位的Yahoo!和MSN的流量包括电子邮件阅读、站内内容网页

浏览和搜索等多项不同服务,排在第三、四位的Google和百度的流量则主要来自用户使用搜索引擎的查询。值得指出的是,这里Google的流量是使用各种语言的全球各地用户的流量,而百度的流量则完全是使用中文的网民的搜索流量。搜索引擎服务在互联网服务中占据这样重要的位置,并不奇怪;据美国民间互联网使用调查机构PEW在2005年的调查显示,在每天上网的美国网民中,约有63%的网民使用搜索引擎;另据中国互联网络信息中心(CNNIC)2006年7月《第十八次中国互联网络发展状况统计报告》的数据显示,66.3%的中国网民经常使用搜索引擎。另外CNNIC的这份调查还显示,中国网民数已经超过1.2 亿,与去年同期相比增长了19.4%。中国的网民总数上现在仅次于美国。以目前每年的网民增长速度,可以预期在不远的将来,中国的网民数将超过美国的网民数,中国将成为网民最多的互联网大国。按照这样的现状和趋势,我们不难理解为什么百度的搜索引擎以专注服务于中国网民的中文搜索,能在流量上雄踞全球互联网第四强的位置。

搜索引擎市场的商业模式主要是竞价排名,英文名为Pay-for-Performance(简称P4P),也叫付费点击广告,英文名为Pay-per-Click(简称PPC)。在该广告模式下,搜索引擎公司根据用户查询所用的关键词提供相关广告,将最相关的广告信息推送到受众面前,并按点击次数(即产生对广告所引导的网站的访问次数)来向广告主收取相关的费用;主流搜索引擎公司如美国的Google及中国的百度,目前都提供竞价排名广告服务。

近年来搜索引擎市场持续繁荣以及网上商务的飞速发展,竞价排名广告已经成为深受各种类型企业推崇的网络广告模式,搜索引擎也因此正日益成为更有竞争力的互联网门户。2004年8月上市的Google是目前市值最大的互联网公司,市值超过1000 亿美元;而2005年8月5日,百度在美国纳斯达克上市,上市交易首日其股价飙升354%,涨幅为近五年来美国股市最高,创造了中国公司的美国奇迹。

2005年,整个搜索引擎市场进入飞速发展高峰,据美国知名投资银行Piper Jaffray的2005年底调查数据显示,2005年全球付费搜索引擎市场规模约为100亿美元,其中Google 占据了64%左右,在未来4 年里,搜索引擎每年将以35%的速度增长。

在中国,根据国内知名互联网分析公司上海艾瑞咨询有限公司的报告显示,2003年中国搜索引擎市场规模是6.91亿元2004年则达到了12.5亿元,2005年这一数字上升到了21.3亿元,增长约为78%,该公司预计到2007年,中国搜索引擎整个市场规模将达到56.2亿元,而到2010年,将达到101亿人民币的规模。

与搜索引擎市场规模的急剧扩张相对应,搜索引擎服务商之间的竞争也愈加激烈,各个搜索公司纷纷加大产品与研发的投入,利用各种各样的手段攻占市场,以赢得未来发展的关键优势。在全球,Google依旧是一家独大,凭借其庞大的研发实力时常发布新产品,继续保持行业领先地位;老牌搜索服务商Yahoo!也不甘示弱,收购了Flickr及https://www.doczj.com/doc/603861099.html,在内的新兴网站,以进军社会搜索的态势来异军突围,试图抢占未来搜索发展趋势之制高点;而另一网络巨人微软公司则更是加大了对搜索的技术开发和投入,宣称要反击Google。根据AC Nielsen的最新数据,截止到2005年11月,在美国搜索引擎市场占有率上,Google以46.3%的占有率高居榜首,Yahoo!其次约为23.4%,MSN则居第三为11.4%。

在中国,百度已经占据了搜索市场的半壁江山,并且还在继续扩大市场份额。市场研究机构艾瑞市场咨询有限公司2006年3月31日发布的调查报告显示,2005

年中国用户最常使用的搜索引擎是百度,市场份额达到56.6%,Google位居其次,占32.8%。而根据另一个由中国互联网络信息中心(CNNIC)在2006年9月发布的《2006年中国搜索引擎市场调查报告》,在用户首选(最优先使用)的搜索引擎中,百度首选市场份额继续攀升,达到了62.1%,占到了用户首选搜索引擎市场的6成以上,这意味着有6成以上的网民在使用搜索引擎时首先选择百度。谷歌(Google)的市场份额为25.3%,同去年同期相比,下滑了8个百分点。几乎同是在2006年9月由北京正望咨询有限公司独立完成的《2006年CIC中国搜索引擎市场调查报告》也显示:百度已经成为遥遥领先的中国用户首选使用的搜索引擎,在北京、上海和广州三地分别占有64.5%、58.0%和63.8%的市场份额,与2005年CNNIC的同类调查相比,百度的市场份额在三地各提升了13~14个百分点;Google的市场份额与去年同期相比则有超过10个百分点的跌幅。另外,据易观国际《2006年第二季度中国搜索引擎市场季度监测》报告的估计,百度搜索引擎广告市场份额为50.3%,Google为16.2%,雅虎中国为15.7%。不同的市场调研报告所提供的有关Google和雅虎中国的市场份额估计的具体数据上差异较大,但对百度大幅度领先于这两家跨国竞争对手这一点上,却是非常地一致。

除了百度、Google和阿里巴巴的雅虎中国,在国内市场上,还有一些中文搜索引擎服务,如中搜、新浪的爱问和搜狐的搜狗等,它们在技术上也具有一些自己的特色,但在访问流量和搜索引擎市场份额方面都远远落后于百度、Google 等搜索引擎,无法对这些占据市场领先地位的公司构成实质性威胁。对这些中文搜索引擎在结果相关性、网页覆盖率、死链率、作弊率、结果重复率、中文分词技术、新闻及时性、图片搜索和MP3搜索等方面的对比评估,可以参考清华大学IT可用性实验室2005年9月发布的《中文搜索引擎对比评估报告》。这份报告里,百度在搜索引擎质量总评上名列第一。

2006年9月20日,在中国互联网协会大会第二届理事会第三次全体会议上,百度公司董事长兼CEO李彦宏被增选为协会副理事长。李彦宏成为今年该协会唯一增补的副理事长;同时李彦宏也是副理事长中唯一一位来自专业搜索引擎公司的企业代表。他的当选,说明了中国互联网行业对于百度公司取得的发展和成绩的肯定,也充分表明了业界对于搜索引擎这一领域重要性及对产业推动作用的高度重视。

今年9月,在中国软件行业协会主办的“2006中国软件产业发展暨企业创新高峰会”,百度中文搜索引擎和汉王联机手写识别软件、永中Office集成办公软件、北大方正飞腾集成排版软件等著名国产软件一起获得中国十大创新软件产品奖。这也是对百度中文搜索引擎作为一个先进软件产品的又一次肯定。

在未来的几年中,搜索引擎技术仍将是互联网和计算机信息技术行业的热点;搜索引擎服务作为互联网门户的地位将更加巩固;以搜索引擎为核心整合其它现有互联网服务,发展其它新型互联网服务的工作将更加迅速地展开;搜索引擎作为广告平台在互联网经济中的作用将更加举足轻重。在中文搜索引擎市场上,百度将继续发挥其在语言、技术、文化和市场上的本土优势,推动中文搜索技术和产品的改进和创新,进一步扩大市场领先性。

三、百度搜索引擎服务简介

百度通过互联网向广大网民提供中文搜索及其相关的服务。服务的URL是

https://www.doczj.com/doc/603861099.html,。用户可以通过网页浏览器(如微软的Internet Explorer或Mozilla Foundation的Firefox)登录该URL来使用百度的搜索服务。

百度提供的通用搜索引擎又称百度网页搜索(https://www.doczj.com/doc/603861099.html,)。用户使用百度搜索服务的方式是:在搜索框中输入查询串,然后敲回车键,或者鼠标点击搜索框右侧的“百度搜索”按钮。百度搜索引擎会实时返回对用户的查询串的搜索结果页。搜索结果页中包含一组按相关性由高到低排序的网页的链接以及这些链接网页的标题和摘要。用户点击任一链接,将可以跳转到这些链接页面进行浏览。如果搜索结果多于一个页面,搜索结果页的下方还将包括翻页的链接。例如,用户输入“中国软件行业协会”,其搜索结果页是:

对一些查询串,其搜索结果页的左侧前几条可以是广告客户提供的相关广告链接(以“推广”为标记),右侧也可以出现广告客户提供的相关广告链接。下面的截图是“桂林山水”的搜索结果页面,其中左侧第一条和右侧的链接条目都是相关

广告链接。

另外百度的网页搜索还包括以下特色功能:

(一) 百度快照:每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。如果无法打开某个搜索结果,或者打开速度特别慢,用户可以通过“快照”快速浏览页面内容。

(二) 相关搜索:搜索结果不佳,有时候是因为选择的查询词不是很妥当。用户可以通过参考别人是怎么搜的,来获得一些启发。百度的“相关搜索”,就是提供与用户的当前搜索相似的一系列查询词。百度相关搜索排布在搜索结果页的下方,按搜索热门度排序。下面是“小说”的相关搜索。点击这些词,可以直接获

得它们的搜索结果。

(三) 拼音提示:对广大网民经常使用的查询词串,只要输入它的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入

法。拼音提示显示在搜索结果上方。

如,输入“zhurongji”,提示如下:您要找的是不是:朱鎔基

(四) 错别字提示:对于用户搜索词中的常见错误,百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。如,输入“唐醋排骨”,提示如下:您要找的是不是: 糖醋排骨。

(五) 英汉互译词典:随便输入一个英语单词,或者输入一个汉字词语,用户通过点击搜索结果页上的“词典”链接,就可以得到高质量的翻译结果。百度的线上词典不但能翻译普通的英语单词、词组、汉字词语,甚至还能翻译常见的成语。用户也可以通过“百度词典搜索”界面(https://www.doczj.com/doc/603861099.html,),直接使用英汉互译功能。

(六) 专业文档搜索:很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在。百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。要搜索这类文档,很简单,在普通的查询词后面,加一个“filetype:”文档类型限定。“Filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL 表示搜索所有这些文件类型。例如,查找张五常关于交易费用方面的经济学论文。“交易费用张五常filetype:doc”,点击结果标题,直接下载该文档,也可以点击标题后的“HTML版”快速查看该文档的网页格式内容。用户也可以通过“百度文档搜索”界面(https://www.doczj.com/doc/603861099.html,),直接使用专业文档搜索功能。

(七) 股票、列车时刻表和飞机航班查询:在百度搜索框中输入股票代码、列车车次或者飞机航班号,用户就能直接获得相关信息。例如,输入深发展的股票代码“000001”,搜索结果上方,显示深发展的股票实时行情。也可以在百度常用搜索中,进行上述查询。

(八) 高级搜索语法:

●把搜索范围限定在网页标题中——intitle

网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。

例如,找林青霞的写真,就可以这样查询:写真intitle:林青霞

●把搜索范围限定在特定站点中——site

有时候,用户如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。

例如,天空网下载软件不错,就可以这样查询:msn site:https://www.doczj.com/doc/603861099.html,

●把搜索范围限定在url 链接中——inurl

网页url 中的某些信息,常常有某种有价值的含义。用户如果对搜索结果的url 做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url 中出现的关键词。

例如,找关于photoshop 的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url 中。

●精确匹配——双引号和书名号

如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果用户对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。

例如,搜索上海科技大学,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。

书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。

要求搜索结果中不含特定查询词

如果用户发现搜索结果中,有某一类网页是用户不希望看见的,而且,这些网页都包含特定的关键词,那么用减号语法,就可以去除所有这些含有特定关键词的网页。例如,搜神雕侠侣,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页。那么就可以这样查询:神雕侠侣-电视剧注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。

(九) 高级搜索、地区搜索和个性设置:如果对百度各种查询语法不熟悉,可以使用百度集成的高级搜索界面,可以方便的做各种搜索查询。

百度还支持对某个地区的网页进行搜索。进入高级搜索,进入地区搜索,选中希望查询的地区,就可以在该地区搜索了。

用户还可以根据自己的习惯,改变百度默认的搜索设定,如每页搜索结果数量,搜索结果的页面打开方式等。先进入高级搜索,然后点击下方的“点击此处进入个性设置”,就可以进行设定了。

为了满足网民多方面的搜索需求,除了通用的网页搜索,百度还提供三十余种垂直搜索以及搜索社区服务。

其中包括:

1。图片搜索(https://www.doczj.com/doc/603861099.html,): 百度从20亿网页中提取各类图片,建立了世界最大的中文图片库。在用户搜索图片时,百度可以通过领先的搜索技术,将质量最好的生动图片首先提供给用户。用户还可以在百度搜索新闻图片、彩信图片、桌面壁纸等;

2。MP3 搜索(https://www.doczj.com/doc/603861099.html,): 百度提供全球最大MP3搜索引擎,用户能在百度搜索到最全最丰富的各种音乐。同时,百度MP3搜索拥有自动验证连接速度的卓越技术,总是把连接速度最快的音乐排在前列;

3。资讯搜索(https://www.doczj.com/doc/603861099.html,): 24小时的自动新闻服务,不含人工,客观全面;百度新闻每天更新80,000-100,000 条,每周7天,每天24小时永不停顿。全部新闻均由程序根据网民的关注程度自动生成,没有任何的人工参与。目前,百度新闻是世界上最大的中文新闻搜索平台;

4。贴吧(https://www.doczj.com/doc/603861099.html,): 贴吧目前已成为全球最大的中文主题社区。传统搜索引擎局限于搜寻互联网上有限的?已存在?信息,?贴吧?诞生的意义,是让用户可以把头脑中的知识、想法和经验与大家分享;

5。知道(https://www.doczj.com/doc/603861099.html,):互动问答,解答一切可能的问题;百度知道连

通了人与人之间的头脑,通过一个智慧的平台,汇集成公共知识并呈现出来。在百度知道,用户自己根据需求提出问题,通过悬赏机制发动其他用户,来创造该问题的答案。例如,当你在百度上输入?皇帝为什么自称‘朕’??时,热心的网友如果熟悉该领域,会给出这个有趣问题的答案;

6。WAP 搜索(https://www.doczj.com/doc/603861099.html,):百度提供的全球第一款中文WAP搜索真正实现了通过普通手机的无线搜索,百度WAP搜索除了能搜索超过20亿网页外,还提供了WAP版百度贴吧;

7。硬盘搜索(https://www.doczj.com/doc/603861099.html,):中英双语!全文搜索用户的电脑;百度硬盘搜索软件是全球第一款可检索中英文双语的硬盘搜索软件,可以帮助用户快速准确地找到电脑硬盘中的任一电子邮件、文档、浏览过的网页甚至MSN 聊天纪录等内容; 8。黄页搜索(https://www.doczj.com/doc/603861099.html,):轻松获取企业与本地商业信息;黄页搜索通过关键词搜索同地区选择的结合,向网民提供本地化企事业信息与本地商业信息的搜索服务,通过企业名、地址、电话、服务类型等信息都可以进行有效搜索; 9。影视搜索(https://www.doczj.com/doc/603861099.html,):百度影视是百度汇集了九州梦网、新华电信、东方宽频、动感央视等国内多家著名宽频影视服务提供商的影片资源,面向互联网所有用户提供宽带视频检索服务,网民可以自由收看或下载。

网民在使用百度搜索引擎时,可以根据需要在这些搜索服务之间灵活切换而无需再次输入查询词。

百度是全球最大的中文搜索引擎,在中文搜索市场上以高于50%的占有率上遥遥领先于其它中文搜索引擎(据调查公司iResearch数据);作为流量最大的中文网站,随着中国互联网的快速发展和网民数的稳步增长,百度目前也是全世界流量第四大的网站(仅次于Yahoo!、MSN 和Google,根据Alexa的统计)。

四、百度搜索竞价排名

竞价排名广告近年来已成为搜索引擎服务的主要商业盈利方式。百度竞价排名是百度国内首创的一种按效果付费的网络推广方式,用少量的投入就可以给企业带来大量潜在客户,有效提升企业销售额。

每天有超过1亿人次在百度查找信息,企业在百度注册与产品相关的关键词后,就会被主动查找这些产品的潜在客户找到。

竞价排名按照给企业带来的潜在客户访问数量计费,企业可以灵活控制网络推广投入,获得最大回报。

下面是竞价排名广告的演示说明:

第一步:用户输入关键词,如:企业管理咨询

第二步:在用户搜索的结果中,排名企业的推广信息优先显示在用户面前。

第三步:用户点击进入企业网站,浏览企业产品具体信息,与企业联系,产生订单。

百度竞价排名服务的特色功能包括:

1) 支持限定地域推广:企业可根据推广计划,只有指定地区的用户在百度搜索引擎搜索企业关键词时,才能看到企业的推广信息,为企业节省每一分推广资金。

2) 支持每日最高消费额的控制:为了帮助用户控制推广费用,百度为用户开设了每日最高消费限定的功能。当你开启了该功能后,你在百度的消费额当天达到你设定的限额时,你所有的关键词将暂时搁置。零点过后这些被搁置的关键词会自动生效。

3) 自动竞价功能:百度竞价排名不仅可以随时手工设定竞价价格,还设有自动竞价功能,自动竞价则只需客户设定一个关键词点击的最高价,这个最高价是客户为这个关键词出的最大点击价格,也就是说,客户的关键词实际点击价一定不会超过这个最高价。

4) 帐务续费提醒:当企业的帐户余额小于某个金额时,可以在竞价排名系统中设定帐户续费提醒功能,自动发邮件提醒客户,保证竞价排名服务不中断。

5) 关键词分组管理:企业可根据自已的产品分类,建立不同的推广关键词组,分开管理关键词。

6) 关键词排名提醒:当企业购买的关键词的排名下降时,可以在竞价排名系统中设定自动发邮件提醒,随时监控推广效果。

7) 防止恶意点击:在访问统计时百度竞价排名系统有数十个参数来判断一个访问是否真实、有效,如果有人不断访问同一条结果进入企业的网站,则无论有多少访问都会只计算一次,以防止恶意访问或程序自动访问,最大程度保证了访问统计的科学性和合理性。

为了改善竞价排名单纯参考竞价价格的排名模式,使质量高的关键词能获得更合理的排名,百度竞价排名服务已在2006年9月11日全面推出智能排名功能。智能排名的出现,将不再以竞价价格高低作为判断关键词排名的唯一依据,而是综合考虑关键词质量度及竞价价格的影响,以“综合排名指数”作为排名的标准。综合排名指数越高,排名也越靠前。综合排名指数为关键词质量度与竞价价格的乘积,关键词质量度依据历史数据计算,主要反映其关键词标题、描述及网民对

该关键词的认可程度。高质量度的关键词综合排名指数也较高,从而能以相对较低的竞价价格获得较高的排名,从而获得更好的推广效果。

五、百度中文搜索引擎技术简介

百度公司六年来在中文搜索引擎产品和市场上的成功,得益于百度对中文搜索引擎方面先进技术的长期研发和积累。百度中文搜索提供基于中文网页信息和文档文件信息的搜索。它利用百度网上蜘蛛BaiduSpider 进行全网遍历,收集有价值的网页信息和文档文件信息,然后将其建入索引,提供简单方便的检索。目前百度网页搜索覆盖中文网络的24亿中文文本信息,提供亚秒级高速检索反馈。查询结果与用户的需求最相关的信息排在前面,有效减少用户查找信息的成本,并提供基于用户行为的搜索关键词扩展拼音错别字提示等,为中文网络用户提供了信息发现的便利。

百度“中文搜索引擎”主要包括的技术如下:

1。互联网网页采集技术:

百度的网页采集系统,即百度网上蜘蛛,对互联网上的中文网站/网页定期进行访问,及时收集和保存有价值的网页并建立索引库。百度的网页采集系统具有以下性能:

●有效网页比率高:拥有先进的判断网页质量的算法,进入索引的有效网页的

比率在90%以上。

●更新率高、时效性高、死链率低:先进的网页更新及调度算法,实现对网页

的动态更新,新网站、新网页的覆盖率优于其它主要中文搜索引擎30%以上,索引中的死链接比率在8%以下。

●覆盖率高:强大的并发抓取能力、先进的大数据量存储结构,几年来一直保

持最大的中文网页索引量,中文网页覆盖率优于其它主要中文搜索引擎30%以上。

2。大数据量索引和分布式检索技术:

百度搜索引擎目前的索引量约为20亿;通过网上蜘蛛有效抓取这些网页后,对多达几十兆兆字节(Terabytes)的进行快速预处理,存储,并建立索引;百度在计算机网络架构和软件系统开发上,形成了自己高效的海量互联网数据处理技术。作为最大的中文搜索引擎,百度每天接受数亿次来自全球各地的搜索请求。在海量数据处理和超大规模访问量服务方面,百度搜索引擎具有以下特点:

●自主设计开发的分布式大数据量索引和分布式检索技术,具有良好的可扩展

性,支持大流量下的高速访问。百度作为流量最大的中文网站,可保持亚秒级的检索服务响应速度。

●与国内南北方(电信/网通)不同电信运营商无缝兼容,支持多数据中心之间

的自动流量分配。

●检索服务软件和硬件机群的设计均具有较高的冗余能力和抗攻击能力、服务

运行非常稳定,检索拒绝率极低。

3。搜索引擎反作弊技术:

中文互联网上存在大量质量低劣的网站/网页,专门针对搜索引擎进行优化,以作弊方法,试图骗取在搜索引擎返回结果中的高排名,以获得用户访问流量并从中渔利。这样的网站/网页,如果不能得到有效识别,会严重误导网民,影响

网民的搜索/浏览体验。除了网页/网站作弊,另一种常见的作弊方式是查询作弊,即通过大量地向搜索引擎提交一些特殊的查询词串,人为提高这些词的查询频度或建立它们与其它查询词的关联关系,目的是干扰和破坏相关检索等功能的有效性,影响用户搜索体验。百度在搜索引擎反作弊技术做了大量的工作,目前的技术具有以下特点:

●反作弊的准确率和召回率高:拥有对绝多大多数作弊形式的自动判断,准确

率和召回率较高,索引中作弊网页的比率低于其它主要中文搜索引擎50%以上。

●比较容易受到作弊困扰的相关检索,拥有专门设计的相关检索反作弊技术,

可将相关检索的作弊比率控制在3%以内。

4。中文处理技术:

中文与以英文为代表的西文有着明显不同的语言特性。过去的7年中,百度一直专注于中文搜索。可以说,先进的中文信息处理技术是百度在中文搜索市场保持领先的最重要的因素之一。在中文信息处理技术方面,百度搜索引擎具有下列特点:

●关注新词发现、词典整理等基础性工作,拥有先进的新词挖掘技术,互联网

新词挖掘的覆盖率在80%以上。

●持续优化中文切词技术,掌握了较先进的专有名词识别技术,人名识别、机

构名动态识别等均有较高的准确率和召回率。

●先进的网页结构分析技术,通过分析网页结构以识别网页类型、提取网页有

效正文、识别重复网页的准确率较高、运行性能较高。

百度在中文处理方面的技术创新包括:“一种基于词汇的计算机索引和检索方法”(中国专利申请号02100551.6)和“中文姓名的计算机识别及检索方法”(中国专利申请号00124352.7);

5。文字链广告竞价排名技术:

百度是全球最大中文网络营销平台。竞价排名是一种按效果付费的网络推广方式,由百度在国内率先推出。百度的文字链广告竞价排名技术和系统,确保了百度的商业模式的成功。百度在这方面的技术创新包括:“一种利用搜索引擎发布信息并按竞价排名的方法”(中国专利申请号02117998.0);在精准广告投放技术方面,百度申请了以下3 项专利:“广告信息检索系统及广告信息检索方法”(中国专利申请号2006100098592.0)“访问标识索引系统及访问标识索引库生成方法”(中国专利申请号200610098593.5)和“应用于互联网搜索引擎的广告展现系统及广告展现方法”(中国专利申请号200610098591.6)等。

6。搜索社区化技术:

以搜索引擎为核心整合多种互联网服务,更好地满足网民的信息需求,近年来百度一直致力于以创新技术和产品推动搜索社区化发展。在搜索社区化框架下,搜索不仅是网民对互联网上的海量信息的检索,也是社区内对同一搜索话题具有相似兴趣的网民之间的互动。2003年以来,百度先后推出贴吧、知道、百科和空间等搜索社区化产品。这些产品与百度搜索引擎的完美结合,使百度成为目前世界范围内第一个规模化的搜索社区。百度在搜索社区化的技术专利包括:“网络社区与搜索的结合的方法以及系统”(中国专利申请号200610140849.4)、“网络社区动态目录的构建系统和方法”(中国专利申请200610140848.X)、“网络留言系统及留言过滤方法”(中国专利申请号200610140847.5)和“网络社区中的相关讨论区的选取方法及选取装置”(中国专利申请号200610141165.6)。

百度公司的技术产品和服务全部具有自主知识产权。百度的创始人李彦宏是全球最早的“超链分析”专利的发明人(美国专利5,920,859)。2000年以来,百度公司已经申请了12项互联网搜索引擎相关的中国专利。

六、总结

百度中文搜索引擎,作为一个在互联网上提供即时服务的软件产品,是紧随Yahoo!、MSN 和Google之后的全球第四大网站,也是最大的中文搜索引擎。该产品完全由百度技术团队自己研发,全部拥有自主知识产权(已申请12项技术发明专利,其中两项已获授权);其核心技术包括:

1)海量数据的收集、存储和索引等处理技术和大访问量检索服务技术,以及

中文信息处理、网页网站相关性评价和反作弊技术,保证百度中文搜索引擎高效稳定,更懂中文;

2)文字链广告竞价排名和精准广告投放技术,使百度搜索引擎成为国内最有效

的网络营销平台,产生巨大社会和经济效益;

3)以百度贴吧、知道、百科和空间等产品为代表的搜索社区化技术,使百度继

续领跑以Web2.0为代表的互联网新发展。

随着中国互联网规模的高速发展,中文搜索引擎在中国互联网产业中的核心地位也日益为人们所认识。在中文搜索引擎技术和产品上,百度与世界顶级跨国公司Google和Yahoo!等的竞争将更加激烈;百度将一如既往,专注于搜索,加大技术研发力度,继续以先进的技术改善其中文搜索引擎的服务,提升用户体验,确保公司商业上的成功,保持并巩固在中文搜索引擎市场的领先地位。

相关主题
文本预览
相关文档 最新文档