搜索引擎的发展史:从网址簿进化到个人门户
- 格式:pdf
- 大小:155.56 KB
- 文档页数:6
搜索引擎发展历程搜索引擎在过去几十年的发展历程中经历了多次重大的技术突破和演进。
早期的搜索引擎主要是基于全文检索技术,用户通过输入关键词,搜索引擎会从海量数据中匹配出相关的网页结果。
1990年代初,最早的搜索引擎出现了,例如Excite和Infoseek。
当时的搜索引擎主要依赖人工编辑来整理和分类网页信息。
然而,由于互联网规模膨胀迅猛,这种人工编辑的方式很快变得不够高效和可扩展。
随着互联网的普及,1996年谷歌搜索引擎诞生了。
谷歌的创新之处是引入了PageRank算法,通过分析网页间的链接关系来评估网页的重要性和相关性。
这一算法大大提升了搜索结果的质量,并很快使得谷歌成为领先的搜索引擎。
为了提供更精准的搜索结果,搜索引擎开始采用语义分析和自然语言处理技术。
这些技术能够理解用户的意图,而不仅仅是匹配关键词。
例如,当用户搜索"天气"时,搜索引擎会返回天气预报结果,而不仅仅是包含"天气"关键词的网页。
移动互联网的兴起,使得移动搜索成为搜索引擎发展的重要方向。
移动搜索引擎需要考虑到用户的位置信息、设备特性和网络环境等因素,以提供更符合用户需求的搜索结果。
同时,移动搜索引擎还需要在有限的屏幕空间和低带宽环境下展示结果。
随着人工智能技术的快速发展,搜索引擎也开始引入机器学习和深度学习算法。
通过分析用户的搜索历史和行为,搜索引擎能够为用户提供个性化、定制化的搜索结果。
此外,搜索引擎还可以通过自动推荐、自动补全等功能提供更便捷、智能的搜索体验。
总的来说,搜索引擎发展的历程是一个不断创新和提升搜索质量的过程。
从最早的全文检索到引入链接分析、语义分析、移动搜索和人工智能等技术,搜索引擎不断演进,以满足用户不断变化的需求。
中国搜索引擎十五年:从信息到服务的连接(前言)作为互联网的入口,庞大的网民数量和明晰的盈利模式,吸引着各方力量进入中国搜索引擎市场。
借势移动互联网,搜索引擎运营商依托技术、资金与资源优势谋求从信息的获取转型服务的连接,构建服务聚合平台和生态。
萌芽期(2000年-2003年)关键词:桌面搜索萌芽,竞价模式确立我国的搜索引擎基本上是从直接从第二代搜索引擎开始的,百度作为搜索引擎正式上线,百度竞价随即浮出水面,在互联网迅速发展、网民迅速膨胀的时代,迅速奠定市场地位。
市场竞争:中文搜索网站出现在互联网进入中国早期,中国网民只能使用复杂的英文网址,但是上网冲浪需求强劲。
1999年底,超链分析专利发明人、身在美国硅谷的李彦宏看到中国互联网及中文搜索引擎服务的巨大发展潜力,毅然辞掉硅谷高薪工作,携搜索引擎专利技术回国,于2000年1月1日在中关村创建了百度公司。
刚开始百度为搜狐、新浪、Tom等门户网站提供搜索引擎服务,6月份百度开发的商业化搜索引擎——百度搜索引擎正式上线,开启了中国互联网搜索市场,并随后推出mp3、图片、新闻等专门化搜索服务。
与此同时,1999年中国雅虎网站开通,2000年9月Google增加简体及繁体两种中文版本,中文搜索服务市场硝烟立起。
技术发展:从第二代搜索引擎开始第一代搜索引擎是分类目录,通过人工搜集各类网站的网址并分类呈现,也就是大家熟知的网址导航,比如hao123、3721中文搜索等。
第二代搜索引擎是依靠机器抓取,建立在超链分析基础上的网页搜索,采用搜索爬虫和排序算法的组合,以关键词为核心自动检索,实现海量信息的自动获取与重要性排序,大大提高了数字时代的检索效率,以百度为代表。
盈利模式:竞价排名成为主要利润来源百度公司最初与和门户网站合作,按照搜索访问量分成,当时新浪、网易在内的各大门户网站都采用了百度提供的服务,但门户网站数量的有限性决定了需求有限性。
2001年初,李彦宏借用了Overture 的“付费排名”搜索引擎商业模式,客户通过购买关键字并进行竞价,决定其在搜索结果中排名的先后,并通过上下文内容分析技术,将广告同时投放于其他顶尖级搜索引擎,与这些合作伙伴共同分享利益。
疯狂seo论坛:搜索引擎发展史(一)1990年第一个互联网上的搜索引擎Archie出现,用于搜索FTP服务器上的文件。
当时基于HTTP 协议的Web还没出现。
1993年6月,第一个Web搜索引擎World Wide Web Wanderer出现,只收集网址,并没有索引文件内容出现。
10月,第二个Web搜索引擎ALIWEB出现,开始索引文件元信息(也就是标题标签等信息),也没有索引文件内容。
1994年1月,Infoseek创立,其搜索服务稍后才正式推出。
Infoseek是早期最重要的搜索引擎之一,允许站长提交网址是从Infoseek开始的。
百度创始人李彦宏就是Infoseek的核心工程师之一。
4月,Yahoo!由David Filo和Jerry Yang(杨致远)创立。
当时还没有注册 域名,网站建立在斯坦福大学的域名上。
Yahoo!最初不是真正的搜索引擎,而是人工编辑的网站目录,创始人亲自把收集的有价值的网站列在Yahoo!目录中。
当网站数量还不大时,可以实现人工编辑,既为用户提供方便,又保证了信息质量,Yahoo!迅速成长为网络巨人。
4月,第一个全文搜索引擎(索引文件全部内容)WebCrawler推出。
起初是华盛顿大学的一个研究项目。
1995年被美国在线AOL在线收购,1996年又被Excite收购。
2001年停止研发自己的搜索技术,网站成为元搜索引擎(整合、显示多个第三方搜索引擎结果,被成为元搜索引擎。
)6月,Lycos创立,迅速成为最受欢迎的搜索引擎之一。
1995年1月,域名注册。
4月,Yahoo!公司正式成立。
12月,Excite搜索引擎正式上线,成为早期流行的搜索引擎之一。
2001年其母公司破产,被Infoseek购买。
2004年被Ask Jeeves收购。
12月,Infoseek成为网景浏览器的默认搜索引擎。
网景,Netscape,当时浏览器市场的绝对控制者,曾占市场份额的90%以上。
搜索引擎的发展史因为最近在参加网络营销能力秀,所以想跟大家分享一些东西。
大学生网络营销能力秀始于2009年,是高校竞赛式网络营销教学实践平台,锻炼和培养大学生的网络营销核心能力,每个学期各举办一期,到2016年下半年已进行16期,超过7000个大中专院校的20万师生参加过网络营销能力秀。
能力秀——网络营销开始的地方。
他的官网是/,大家有兴趣也可以了解一下。
下面给大家分享一下搜索引擎的发展史。
搜索引擎是常用的互联网服务之一,它的基本功能是为用户查询信息提供方便;它的分类有全文检索搜索引擎和分类目录、多元搜索引擎和集成搜索引擎。
搜索引擎的发展趋势分为五个阶段:第一个阶段是分类目录时代。
不知道大家有没有在自己的搜索引擎首页上设置过导航网站,把这个网址作为自己的首页呢?其实这个网址就是搜索引擎第一个阶段的代表。
我们可以从这个导航网站上面看到,几乎都是一些分类网址,并且几乎都是在互联网上的,这个网站里面都一应俱全,从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一个阶段。
第二个阶段是文本检索时代到了这一阶段,搜索引擎查询信息的方法则是通过把用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。
这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。
通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,把相关度高的则返回给用户。
采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。
第三个阶段是整合分析时代这一代的搜索引擎所使用的方法大概是和我们今天网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站推荐链接的数量来判断一个网站的流行性和重要性。
然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。
【搜索引擎的发展史】1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。
当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。
Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。
用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。
虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。
所以,Archie被公认为现代搜索引擎的鼻祖。
搜索引擎的起源:所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。
Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。
Jughead是后来另一个Gopher搜索工具。
发展(1):世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。
刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
搜索引擎一般由以下三部分组成:爬行器(机器人、蜘蛛)索引生成器查询检索器发展(2):Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。
简述几大搜索引擎的发展史和特点
2000年1月百度成立,名字源于“众里寻他千百度”。
2004年搜狐公司的搜狗搜索引擎上线。
2005年百度上市。
2006年Google正式确定其全球中文名字为谷歌,并进军中国市场。
同时,百度宣称比Google更懂中文,稳固国内搜索引擎霸主地位。
2006年腾讯公司的搜搜搜索引擎上线。
2007年网易公司有道搜索引擎上线。
2009年Google以创始人之一的Larry Page命名的PageRank(谷歌PR值)正式被大众知晓,后被广泛重视。
2009年微软Live Search改名为Bing。
2009年7月雅虎使用Bing搜索数据。
2010年谷歌退出中国市场。
2012年8月360搜索引擎上线。
百度是中国社会主义特色的产物,会人工k站。
注重心情。
谷歌全球最大的搜索引擎,能看到很多国外网站,能接收到最新的seo技术,收录快,但排名很难。
注重算法。
搜狗中国大陆最好的简体搜索引擎,简体文字最好的。
搜狗输入法。
搜索腾讯空间的东西用soso。
360的出现让搜索引擎更多元化,360的排名对网站时间、权重很注重。
本文由段民海整理编辑,目的只为传播分享。
导航站进化史:从网址聚合到个人门户Hao123网址之家堪称是中国互联网史上性价比最高的收购案。
2004年李兴平作价千万人民币卖给百度后,如今Hao123为百度带来20%左右的流量,贡献10+%的收入。
如今Hao123又改版了。
在新版Hao123首页中,网站logo代替过去的网址文字链,新增加多个内容型区块,如影视、新闻、游戏、移动应用等。
站长之王蔡文胜认为网址导航是网民的基础应用,它的发展可以分为三个阶段:第一阶段以Hao123为代表2000年李兴平创建,简单易用2004卖给百度;第二阶段265创建于2003开始网址站商业化,2007卖给google,随着谷歌退出中国而没落。
第三阶段,360导航在2007年结合浏览器让网址导航变为商业模式并成为360最重要的收入。
在一阵行业洗牌和细分发展之后,现在网址导航的发展可以说已经进化到第四阶段——个人门户阶段了。
Hao123和360导航这两个中国最大的网址导航网站都在强化其“内容聚合+内容推送”的特点,把各家的资源整合在一起,让用户忽略出处是由哪家提供。
这说明占据互联网信息入口的网址导航正在转变成信息导航(或叫资源导航),进化方向就是满足用户各类内容获取需求的个人门户。
其实在搜索引擎的史前时代,Hao123才是中国最像雅虎的代表,雅虎门户站分类目录是网址导航网站发展的雏形:都由人工筛选收集,简单的设计结构直接明了。
而当时国内的三大门户多在强化资讯类内容,对很多细分行业站点的关注严重不足,并且首页过多的广告条让用户体验变得极差。
关于导航站改版更多的意义解读,可分别参见虎嗅这两篇稿件《从网址到内容,360导航会成为下一代门户么?》、《浏览器为什么重要?》。
这里作为知识补充,再提一下网址站是如何推广和赚钱的。
捆绑推广:浏览器+网址站本来Hao123是一个当网管的做出来为了方便网吧网友的,后来被百度收了后又是放首页又是做各种推广,李彦宏看重的就是它的入口把控能力以及能够给百度带来巨额流量。
都知道搜索引擎是互联网的产物,随着互联网的发展搜索引擎也在逐代的更新。
分别经过了第一代搜索引擎、第二代搜索引擎、第三代搜索引擎。
在技术方面也是在逐步的升级,更加的完善、更加的贴近用户的需求、更加的快速、处理的数据量也是越来的越大。
那搜索引擎具体经过了那三个阶段呢?下面简单的复述一下。
搜索引擎前身分类目录的简述。
在互联发展的初期没有现在获取知识这么的复杂和多方位。
比如我们想看新闻就会去登陆某个新闻网站。
就可以了非常的简单,但随着互联的再发展和信息量的逐步爆发,用户不可能记住那没多的网址。
这种情况下就产生了分类目录,就像是现在的导航页差不多。
如果用想知道哪方面的知识而又不知道网站,那么直接去相关的分类下去找就好了,这就是搜索引擎的前生。
可以让大家知道在没有搜索引擎时是怎样的情况。
第一代搜索引擎文本搜索简述。
有了前一种分类目录的积累,给第一代搜索引擎的建立带来了很好的基础。
并且伴随着互联网信息的免费创建和个人站的暴涨,简单的分类目录已经不能满足用户的需求了,就这样第一代搜索引擎应运而生。
第一代搜素引擎只能检索纯文本,就和现在站内搜索差不多,只是通过用户的搜索词进行简单的匹配。
有时候我们把分类目录也称之为第一代搜索引擎。
第二代搜索引擎超链分析。
第二代搜索引擎区分于第一代搜索引擎的主要差别在于超链的分析。
关于超链的分析大家可以看一下百度李彦宏的百度百科,有详细的介绍这里就不在复述了。
就不签来说,全世界的搜索引擎大都停留在这个阶段,而第二代搜索引擎区分于第一代还有在文本搜索上和超链分析上加上了搜索结果页面用户的点击行为分析、目标也的用户体验分析等。
第三代搜索引擎语义搜索。
第三代搜索引擎的核心技术就是语义搜索,这需要庞大的数据库来支持。
简单的说语义搜索既是所想即所得,而不需要大量的点击和多次的搜索,直接展现结果。
现在李彦宏的百度知心搜索只是第三代搜索引擎的一个雏形,要到达到真正的所想即所得,中间需要过滤掉很多的点击,需要技术和经验的积累。
搜索引擎的发展史
搜索引擎发展过程搜索引擎的发展可概括为三个时代:
第一代搜索引擎出现于1994年前后,注重反馈结果的数量,主要特征是“求全”。
它主要依靠人工分拣的分类目录搜索,通常由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。
搜索引擎根据用户键入的信息,根据预先设定的规则进行简单的匹配、排序和显示。
这种方法只能进行简单的字符串匹配,无法进行全文搜索。
第二代搜索引擎,利用超链接分析为基础的机器抓取技术,由搜索引擎使用一个程序在网络上撷取资料并自动将得到的结果存入索引库中搜索引擎根据用户键入的信息进行匹配、排序和显示。
主要特点是提高了查准率,可以用“求精来描述它的优点,不需要网站制作人单独键入供搜索的信息,并且从理论上讲,可将任意网站的所有网页加入到它的资料库中。
第二代搜索引擎的大多数查询都会返回成千上万条信息,查询结果中无关信息太多,而且查询结果显示比较混乱,使用者仍然难以找到真正想要的资料。
第三代搜索引擎是对第二代搜索引擎的改进,相对于前两代,其更注重智能化和用户使用的个性化,为用户使用搜索引擎获取信息获得更好的体验。
搜索引擎的发展历程和未来趋势随着互联网的普及和使用的飙升,搜索引擎的发展历程也越来越多样,复杂而又多变。
搜索引擎在人们生活中的重要作用越来越明显。
搜索引擎的发展对于互联网的发展有着十分重要的影响。
本文主要介绍搜索引擎的发展历程和未来的趋势。
1、搜索引擎的发展历程搜索引擎源于20世纪90年代初期,著名的搜索引擎包括当时的Yahoo(雅虎)、Excite(易趣)和AltaVista(阿尔塔维斯塔)。
这些搜索引擎在当时的互联网浏览器市场上非常流行,然而在2000年之后,谷歌成为了全球互联网搜索引擎市场的领头羊。
自2000年以来,谷歌逐渐在搜索引擎市场上崭露头角,并且在2002年进入中国市场。
随着中国互联网用户的爆增,搜索引擎在中国的市场份额迅速增长。
2004年,百度创立,成为国内一家主导搜索引擎产品和服务的龙头企业。
2010年,谷歌在中国市场的份额受到了巨大的阻碍,由于不满中国的互联网管制和审查政策,谷歌退出了中国市场。
此时,百度成为中国市场的大本营,同时在全球搜索引擎市场上也获得更大的份额。
随着互联网技术和大数据处理技术的发展,搜索引擎发展越来越快。
在2015年以后,移动搜索成为了发展的新趋势,相关搜索引擎也迅速崛起,例如中国的360搜索和搜狗搜索等等,这些搜索引擎通过不断的优化和改进,已占据了自己的市场份额。
2、未来搜索引擎的趋势随着互联网的不断发展和创新,搜索引擎将面临着一些挑战和机遇。
在未来,搜索引擎的发展趋势可以简单概括如下:(1)智能化趋势未来的搜索引擎将会借助大数据和人工智能等技术,实现更多智能化的功能。
例如,在搜索时会根据个人兴趣和搜索历史记录来推荐更为精准、智能的结果,对于口语交互也能支持自然语言处理技术,这些功能将会使搜索结果更快速、更方便、更智能。
(2)搜索与语音交互结合未来搜索引擎将会进一步与语音交互技术结合,在“智能音箱”等设备中,通过声音控制完成搜索引擎的操作。
对于信息的查找而言,声音搜索通常更为便利,并且将会逐渐代替现有的文字搜索方式。
搜索引擎的发展史例
Google:1998年10月之前,Google只是美国斯坦福大学的一个小项目。
1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了 的域名。
百度:2000年1月,两位北大校友,李彦宏与好友徐勇在北京中关村创立了百度公司。
雅虎:1994年4月,斯坦福(Stanford)大学的两名博士生,美籍华人杨致远和美国人David Filo共同创办了超级目录索引(Yahoo),并成功地使搜索引擎的概念深入人心。
从此搜索引擎进入了高速发展时期。
新浪:1998年12月1日,四通利方信息技术有限公司和华渊资讯公司宣布合并,成立新浪网公司并推出同名的中文网站。
其搜索引擎技术的合作对象是百度公司。
搜狐:1998年2月,爱特信公司创办了“搜狐”大型中文网络系统。
搜狐站点的内容大量采用了人工选择和分类,并提供“分类查询”和“关键词”两种方式检索。
其搜索引擎技术的合作对象是百度公司。
国内的新浪、百度等著名搜索引擎为人们学习生活带来便利的同时,也为社会创造了许多重要的财富。
中文搜索引擎发展史中文搜索引擎发展史Openfind搜索引擎Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。
Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。
2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域,此后技术升级明显加快。
天网搜索引擎北大天网是国家"九五"重点科技攻关项目"中文编码和分布式中英文信息发现"的研究成果,由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET 上提供服务。
2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能。
百度搜索引擎Baidu 2000年1月,两位北大校友超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。
2001年8月发布搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。
Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。
2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。
中国搜索中国搜索(原慧聪搜索)2002年正式进入中文搜索引擎市场,2003年8月24日慧聪搜索(现中国搜索)正式推出第三代智能中文搜索引擎.2003年12月23日慧聪搜索正式独立运作,成立中国搜索,陈沛出任CEO,同时推出中国搜索新闻中心。
搜索引擎发展史Archie--所有搜索引擎的祖先所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。
当时World Wide Web还未出现。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP 地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services 大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。
Jughead是后来另一个Gopher搜索工具。
由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。
世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。
刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。
ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。
1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan’s World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。
如果说有什么发明拯救了互联网?那一定是搜索引擎,否则互联网中的信息越多,它本身崩溃得越快,因为人们找到自己需要的信息也就越难,使用体验也就越差。
搜索的早期形态是啥?搜索经历的多少次变革?未来的搜索引擎将变成怎样?不妨总结一下搜索引擎发展的历史,发现其中的脉络。
其实,搜索的需求——从众多东西(主要是信息)中寻找自己要的,人类一直都有,只不过在IT技术发展之前,所有信息都没有数字化,搜索唯一可行的表现形式是纸质的目录、索引、电话簿。
广域网产生以后,搜索的需求存在,但技术没有对应的迅速发展,因此互联网搜索的最早形式是网址簿。
具体形式和电话簿、黄页相似,记录很多知名网站网址的一本书,大小视专业程度而定。
笔者自己就买过一本普通网民适用的,大小薄厚类似一本新华字典,按网站内容的不同分类。
纸质的有了,网络版的很快跟上。
1994年,杨致远创建雅虎,并开始人工搜集各类网站的网址,并将它们按一定规律分类、排序,网民可以只记住雅虎的网址,之后通过雅虎进入各个门类的网站,纸质的网址簿立即变得多余。
部分互联网业内人士将雅虎用人工搜集网址并分类呈现的目录式搜索称为第一代搜索引擎,也有部分互联网专家认为雅虎这类做法并不能严格称为搜索引擎,而应算作最早的网址导航。
笔者倾向于将其算作搜索实现形式中的一种,甚至包括网址导航也是如此。
但雅虎毕竟只是将纸质目录搬到了互联网网页上,肉眼查找和不同人对网站分类的理解都降低了这类搜索的使用效率。
于是根据关键词进行自动查找的功能也被应用进搜索引擎,这其实并不难实现,因为根据关键词进行全文检索的技术甚至早在计算机刚刚被发明的上世纪50年代就已经出现(国内的中文全文检索技术最早被作为748工程的一部分,于80年代后期基本完成,但被广泛应用已经是90年代的事了)。
第一代搜索引擎唯一的问题是,网址仍然由人工收集,效率低、易出错、不全面。
于是互联网急需一种替代人工收集网址的技术,而说到替代人工,人们必然会联想到的是机器人,于是第二代搜索引擎所依仗的就是机器人,用程序铸造、组装的游走在互联网中的机器人,现在它被人们熟知的名字是搜索爬虫或者搜索引擎蜘蛛。
事实上,这种技术的出现还早于杨致远的雅虎,甚至早于万维网的诞生。
1990蒙特利尔大学学生Alan Emtage发明的Archie。
虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。
由于Archie深受用户欢迎,受其启发,美国内华达System ComputingServices大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
现在的主流搜索引擎:谷歌、必应、百度等均采用了搜索爬虫抓取、下载网页,以取代人工,这些搜索爬虫每一定天数(例如谷歌是28天)进行一次全互联网的抓取,将所有网页结果下载至自己的服务器,等待再由人们通过输入关键词提起搜索申请。
机器人抓取网页的工作效率明显高于人工,再加上用关键词进行检索,新一代搜索引擎的登场时间理应早于目录式搜索和网址导航才对。
但问题在于:互联网中的信息实在太多了,搜索爬虫拿回来的网页,人几乎无法再次进行分类,而仅仅经由关键词进行检索,人们依然要从一团乱麻中肉眼查找自己想要的内容,这个使用体验还不如直接使用目录。
这个问题的解决诞生了现今搜索领域的最强者,也是世界上最伟大的公司之一——谷歌。
上世纪90年代后期,就在雅虎取得成功,让人们看到搜索的巨大需求之后,当时在斯坦福大学攻读理工博士的Larry Page 和 Sergey Brin开发出PageRank算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。
这项算法基本可以理解为投票,最重要的部分是计算每个网页与其他网页之间链接的多少,链向某个搜索结果的网页越多且权重越高,那么这个搜索结果也就越重要。
谷歌用这个办法解决了搜索结果排序的问题,以此取代了目录式的分类,也用搜索爬虫加PageRank的办法取代了雅虎最早提出的搜索引擎解决方案。
部分业内人士把谷歌为代表的这一代搜索引擎称为第二代搜索引擎,也有人认为这才是真正意义上的搜索引擎,笔者比较支持前一种说法。
中国的搜索引擎历史基本是直接从第二代搜索引擎开始的,时间是1999年,百度、中搜等老牌搜索引擎厂商从一开始就采用了搜索爬虫和排序算法的组合(当时还有3721提供网址导航服务,但时间与百度、中搜等几乎重合)。
与谷歌、雅虎不同,当时的百度、中搜,都主要为门户网站提供搜索技术的后台服务,而没有自己的呈现网站。
直到谷歌和雅虎在本世纪初进入中国,百度、中搜以及后来的搜搜、搜狗和再后来的360才开始有了自己的搜索引擎网站。
历史似乎到此结束,但以上说到的最晚时间点距现在还有十年之久,搜素引擎在这十年也并非一成不变。
前面说到的搜索引擎爬虫加排序算法只能解决现在的网页搜索功能,目前世界上所有的搜索爬虫都只能用较长时间(20天以上)实现一次全网抓取,对于更新频率稍慢的网页,这个速度是合理的。
但对于更新频率较快的互联网中的新闻,这个方法就显得太过笨重。
国内部分业内人士认为随着搜索技术和互联网速度的不断增强,这个问题会自然随之解决,但事实上至今网页搜索仍未能承担搜索新闻的工作,现在人们通过专门的新闻搜索技术查找自己想看的新闻。
国内最早为门户网站提供新闻搜索技术服务的是中搜,时间是2003年。
他们将原来全网抓取网页内容的搜索爬虫限定在少数几百个选定的新闻源网站范围内,这样就将看似无边无际的互联网大大缩小,全部抓取一次的时间从几天变成了几分钟甚至几十秒。
而一旦新闻源本身出现变动,只需将其加入或剔除自己选定的新闻源范围即可。
这种技术和曾经大热的RSS阅读技术有些类似,但后者因为需要信息的源头符合RSS的格式,所以正在逐渐萎缩,谷歌的RSS阅读产品Greader就在2013年夏天正式停止了服务。
此外新闻搜索的排序规则也略有不同,更加注重时间、相关性、发布媒体等等权重。
与新闻搜索类似的,搜索特殊类别信息的特殊搜索技术还有图片搜索、视频搜索、比价搜索等等。
此外,由于互联网中的信息实在过于庞大,通用搜索很难对所有信息都做到专业、精准、及时,因此一些专门针对某个行业或领域的垂直搜索也应运而生。
其原理大多是和新闻搜索类似:缩小搜索爬虫活动的范围,再适当修改排序规则。
中搜对国内乃至整个搜索技术的贡献还在于,第一次尝试了搜索的更高级形式——个人门户,2004年,他们发布个人信息门户浏览器,英文缩写是PIG,因此也被称为网络猪。
之所以把个人门户称为搜索的更高级形式,是因为此前的搜索引擎都是被动的等着人们主动输入关键词提出搜索申请,而能够让搜索变被动等待为主动提供服务的方式就是个人门户。
如果搜索始终等待用户输入关键词,那么它就始终难以摆脱工具的角色,与目录、电话簿之间的区别只在形式和效率之间。
此外,主动为用户提供服务还能被更多的关注、使用,获得更多的广告收益。
因此主动和被动,不仅仅是一个服务形式的问题。
门户网站顾名思义,是力求为网民提供最大信息量,解决最多互联网诉求的“超市”,但前面如果加上个人,主要诉求就在全面之外又加上了精准。
似乎整个互联网中也只有利用关键词进行检索的搜索能够提供全面且精准的信息服务。
中搜的做法是允许用户自己订阅搜索关键词,再自由组合成一张首页,所有订阅关键词的搜索结果都第一时间呈现给刚一打开浏览器的网民。
在此之后谷歌也推出了自己的个人主页产品——igoogle,并且功能更为丰富(增添了天气、股票等等)。
但个人门户产品并没有像传统的搜索引擎那样获得成功,至少在桌面互联网是这样,“网络猪”和igoogle都没有获得搜索厂商们心目中的理想结果,后者还于2013年冬天和Greader一样停止了服务。
其他力求主动为网民提供搜索服务的尝试还包括雅虎,他们也允许网民订阅搜索关键词,之后每天会将搜索结果的更新主动发送至用户的邮箱中。
中国国内对搜索的创新还不得不提百度的竞价排名机制:渴望宣传自身的企业按与自己相关的搜索结果的点击次数付费给搜索引擎厂商,企业的推广信息出现在搜索结果中,由单次点击付费高低决定结果的排序(付费高者靠前)。
尽管备受业内指责,但这一机制还是解决了搜索引擎厂商的吃饭问题,因此才能摆脱为其他网站提供后台服务的角色,同时肇始者获得的暴利也吸引了更多玩家跟进投入搜索引擎市场,促进了技术、市场的繁荣。
但以上尝试都是在第二代搜索引擎的基础上进行的,无论针对类别、展示形式还是盈利模式。
这一代搜索引擎虽然用搜索爬虫解决了对搜索结果巨量、全面的需求,但仅用关键词和PageRank一类排序方法是无法实现完全精准的。
无论英文还是中文,同一个关键词出现多种含义再平常不过,而再好的排序方式也不可能将每个人真正需要的结果都全部放在前几页,每个人搜索的结果都可能出现在第一百页、一千页甚或一万页之后,因为互联网中的信息实在实在太多了,并且还可能有不断重复的信息出现。
对下一代搜索引擎的尝试已经开始,2011年国内的搜索引擎厂商中搜发布上线第三代搜索引擎平台,算是第一个打起第三代搜索旗子的。
中搜宣称自己是第三代的原因是:区别于第一代纯粹用人工收集搜索结果和完全第二代用搜索爬虫抓取结果,他们的搜索引擎采用人机结合的办法:即用搜索爬虫继续收集网页,解决搜索结果的量的问题,但用人工将搜索结果进行分类、整理,解决搜索结果的准确。
前面笔者曾说过这是个不可能完成的任务,中搜给出的解决办法是允许每个网民参与到这个过程中,他们将整个搜索开放,任何人对搜索结果有不同意见,有不同想法都可以提出修改,不同于百度用户只能接受搜索结果。
中搜的搜索结果呈现方式也有所改变,成为了针对某个关键词含义的类似门户专题的多框页面(区别于其他搜索引擎的目录式结构),同一关键词的不同含义分别有完全不同的专题页面呈现。
此后国内一大批“第三代搜索”跟风而至,但无论优劣,其搜索结果的收集、呈现方式并未如同中搜,与现有第二代搜索引擎有任何明显差异,宣称“第三代”未免空穴来风。
2012年,谷歌也宣布推出知识图谱,与中搜的呈现方式类似,也具有很强的延展性,将与关键词相关的信息展示在边条。
2013年初百度也作出了类似调整,但这些都是以技术方式实现的,没有添加人工。
谷歌更重要的新一代搜索尝试还包括将搜索迁移进专门的硬件——谷歌眼镜,虽然目前还不能确定其能否获得成功,但指明的方向已经清楚:未来的搜索将和人们的生活离得更近,很可能不局限于文字输入请求和表达结果,也不局限于2维世界。