搜索引擎的发展史:从网址簿进化到个人门户
- 格式:pdf
- 大小:155.56 KB
- 文档页数:6
搜索引擎发展历程搜索引擎在过去几十年的发展历程中经历了多次重大的技术突破和演进。
早期的搜索引擎主要是基于全文检索技术,用户通过输入关键词,搜索引擎会从海量数据中匹配出相关的网页结果。
1990年代初,最早的搜索引擎出现了,例如Excite和Infoseek。
当时的搜索引擎主要依赖人工编辑来整理和分类网页信息。
然而,由于互联网规模膨胀迅猛,这种人工编辑的方式很快变得不够高效和可扩展。
随着互联网的普及,1996年谷歌搜索引擎诞生了。
谷歌的创新之处是引入了PageRank算法,通过分析网页间的链接关系来评估网页的重要性和相关性。
这一算法大大提升了搜索结果的质量,并很快使得谷歌成为领先的搜索引擎。
为了提供更精准的搜索结果,搜索引擎开始采用语义分析和自然语言处理技术。
这些技术能够理解用户的意图,而不仅仅是匹配关键词。
例如,当用户搜索"天气"时,搜索引擎会返回天气预报结果,而不仅仅是包含"天气"关键词的网页。
移动互联网的兴起,使得移动搜索成为搜索引擎发展的重要方向。
移动搜索引擎需要考虑到用户的位置信息、设备特性和网络环境等因素,以提供更符合用户需求的搜索结果。
同时,移动搜索引擎还需要在有限的屏幕空间和低带宽环境下展示结果。
随着人工智能技术的快速发展,搜索引擎也开始引入机器学习和深度学习算法。
通过分析用户的搜索历史和行为,搜索引擎能够为用户提供个性化、定制化的搜索结果。
此外,搜索引擎还可以通过自动推荐、自动补全等功能提供更便捷、智能的搜索体验。
总的来说,搜索引擎发展的历程是一个不断创新和提升搜索质量的过程。
从最早的全文检索到引入链接分析、语义分析、移动搜索和人工智能等技术,搜索引擎不断演进,以满足用户不断变化的需求。
中国搜索引擎十五年:从信息到服务的连接(前言)作为互联网的入口,庞大的网民数量和明晰的盈利模式,吸引着各方力量进入中国搜索引擎市场。
借势移动互联网,搜索引擎运营商依托技术、资金与资源优势谋求从信息的获取转型服务的连接,构建服务聚合平台和生态。
萌芽期(2000年-2003年)关键词:桌面搜索萌芽,竞价模式确立我国的搜索引擎基本上是从直接从第二代搜索引擎开始的,百度作为搜索引擎正式上线,百度竞价随即浮出水面,在互联网迅速发展、网民迅速膨胀的时代,迅速奠定市场地位。
市场竞争:中文搜索网站出现在互联网进入中国早期,中国网民只能使用复杂的英文网址,但是上网冲浪需求强劲。
1999年底,超链分析专利发明人、身在美国硅谷的李彦宏看到中国互联网及中文搜索引擎服务的巨大发展潜力,毅然辞掉硅谷高薪工作,携搜索引擎专利技术回国,于2000年1月1日在中关村创建了百度公司。
刚开始百度为搜狐、新浪、Tom等门户网站提供搜索引擎服务,6月份百度开发的商业化搜索引擎——百度搜索引擎正式上线,开启了中国互联网搜索市场,并随后推出mp3、图片、新闻等专门化搜索服务。
与此同时,1999年中国雅虎网站开通,2000年9月Google增加简体及繁体两种中文版本,中文搜索服务市场硝烟立起。
技术发展:从第二代搜索引擎开始第一代搜索引擎是分类目录,通过人工搜集各类网站的网址并分类呈现,也就是大家熟知的网址导航,比如hao123、3721中文搜索等。
第二代搜索引擎是依靠机器抓取,建立在超链分析基础上的网页搜索,采用搜索爬虫和排序算法的组合,以关键词为核心自动检索,实现海量信息的自动获取与重要性排序,大大提高了数字时代的检索效率,以百度为代表。
盈利模式:竞价排名成为主要利润来源百度公司最初与和门户网站合作,按照搜索访问量分成,当时新浪、网易在内的各大门户网站都采用了百度提供的服务,但门户网站数量的有限性决定了需求有限性。
2001年初,李彦宏借用了Overture 的“付费排名”搜索引擎商业模式,客户通过购买关键字并进行竞价,决定其在搜索结果中排名的先后,并通过上下文内容分析技术,将广告同时投放于其他顶尖级搜索引擎,与这些合作伙伴共同分享利益。
疯狂seo论坛:搜索引擎发展史(一)1990年第一个互联网上的搜索引擎Archie出现,用于搜索FTP服务器上的文件。
当时基于HTTP 协议的Web还没出现。
1993年6月,第一个Web搜索引擎World Wide Web Wanderer出现,只收集网址,并没有索引文件内容出现。
10月,第二个Web搜索引擎ALIWEB出现,开始索引文件元信息(也就是标题标签等信息),也没有索引文件内容。
1994年1月,Infoseek创立,其搜索服务稍后才正式推出。
Infoseek是早期最重要的搜索引擎之一,允许站长提交网址是从Infoseek开始的。
百度创始人李彦宏就是Infoseek的核心工程师之一。
4月,Yahoo!由David Filo和Jerry Yang(杨致远)创立。
当时还没有注册 域名,网站建立在斯坦福大学的域名上。
Yahoo!最初不是真正的搜索引擎,而是人工编辑的网站目录,创始人亲自把收集的有价值的网站列在Yahoo!目录中。
当网站数量还不大时,可以实现人工编辑,既为用户提供方便,又保证了信息质量,Yahoo!迅速成长为网络巨人。
4月,第一个全文搜索引擎(索引文件全部内容)WebCrawler推出。
起初是华盛顿大学的一个研究项目。
1995年被美国在线AOL在线收购,1996年又被Excite收购。
2001年停止研发自己的搜索技术,网站成为元搜索引擎(整合、显示多个第三方搜索引擎结果,被成为元搜索引擎。
)6月,Lycos创立,迅速成为最受欢迎的搜索引擎之一。
1995年1月,域名注册。
4月,Yahoo!公司正式成立。
12月,Excite搜索引擎正式上线,成为早期流行的搜索引擎之一。
2001年其母公司破产,被Infoseek购买。
2004年被Ask Jeeves收购。
12月,Infoseek成为网景浏览器的默认搜索引擎。
网景,Netscape,当时浏览器市场的绝对控制者,曾占市场份额的90%以上。
搜索引擎的发展史因为最近在参加网络营销能力秀,所以想跟大家分享一些东西。
大学生网络营销能力秀始于2009年,是高校竞赛式网络营销教学实践平台,锻炼和培养大学生的网络营销核心能力,每个学期各举办一期,到2016年下半年已进行16期,超过7000个大中专院校的20万师生参加过网络营销能力秀。
能力秀——网络营销开始的地方。
他的官网是/,大家有兴趣也可以了解一下。
下面给大家分享一下搜索引擎的发展史。
搜索引擎是常用的互联网服务之一,它的基本功能是为用户查询信息提供方便;它的分类有全文检索搜索引擎和分类目录、多元搜索引擎和集成搜索引擎。
搜索引擎的发展趋势分为五个阶段:第一个阶段是分类目录时代。
不知道大家有没有在自己的搜索引擎首页上设置过导航网站,把这个网址作为自己的首页呢?其实这个网址就是搜索引擎第一个阶段的代表。
我们可以从这个导航网站上面看到,几乎都是一些分类网址,并且几乎都是在互联网上的,这个网站里面都一应俱全,从这里我们可以看出,这个网站是一个导航网站,也可以说分类目录网站,用户可以从这个分类目录里找到自己想要的东西,这就是搜索引擎第一个阶段。
第二个阶段是文本检索时代到了这一阶段,搜索引擎查询信息的方法则是通过把用户所输入的查询信息提交给服务器,服务器通过查阅,返回给用户一些相关程度高的信息。
这代的搜索引擎的信息检索模型主要包括例如布尔模型、概率模型或者向量空间模型。
通过这些模型来计算用户输入的查询信息是否与网页内容相关程度高低,把相关度高的则返回给用户。
采取这种模式的搜索引擎主要是一些早期的搜索引擎,例如像Alta Vista、Excite等等。
第三个阶段是整合分析时代这一代的搜索引擎所使用的方法大概是和我们今天网站的外部链接形式基本相同,在当时,外部链接代表的是一种推荐的含义,通过每个网站推荐链接的数量来判断一个网站的流行性和重要性。
然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。
【搜索引擎的发展史】1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。
当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。
Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。
用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。
虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。
所以,Archie被公认为现代搜索引擎的鼻祖。
搜索引擎的起源:所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。
Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。
Jughead是后来另一个Gopher搜索工具。
发展(1):世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。
刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
搜索引擎一般由以下三部分组成:爬行器(机器人、蜘蛛)索引生成器查询检索器发展(2):Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。
如果说有什么发明拯救了互联网?那一定是搜索引擎,否则互联网中的信息越多,它本身崩溃得越快,因为人们找到自己需要的信息也就越难,使用体验也就越差。
搜索的早期形态是啥?搜索经历的多少次变革?未来的搜索引擎将变成怎样?不妨总结一下搜索引擎发展的历史,发现其中的脉络。
其实,搜索的需求——从众多东西(主要是信息)中寻找自己要的,人类一直都有,只不过在IT技术发展之前,所有信息都没有数字化,搜索唯一可行的表现形式是纸质的目录、索引、电话簿。
广域网产生以后,搜索的需求存在,但技术没有对应的迅速发展,因此互联网搜索的最早形式是网址簿。
具体形式和电话簿、黄页相似,记录很多知名网站网址的一本书,大小视专业程度而定。
笔者自己就买过一本普通网民适用的,大小薄厚类似一本新华字典,按网站内容的不同分类。
纸质的有了,网络版的很快跟上。
1994年,杨致远创建雅虎,并开始人工搜集各类网站的网址,并将它们按一定规律分类、排序,网民可以只记住雅虎的网址,之后通过雅虎进入各个门类的网站,纸质的网址簿立即变得多余。
部分互联网业内人士将雅虎用人工搜集网址并分类呈现的目录式搜索称为第一代搜索引擎,也有部分互联网专家认为雅虎这类做法并不能严格称为搜索引擎,而应算作最早的网址导航。
笔者倾向于将其算作搜索实现形式中的一种,甚至包括网址导航也是如此。
但雅虎毕竟只是将纸质目录搬到了互联网网页上,肉眼查找和不同人对网站分类的理解都降低了这类搜索的使用效率。
于是根据关键词进行自动查找的功能也被应用进搜索引擎,这其实并不难实现,因为根据关键词进行全文检索的技术甚至早在计算机刚刚被发明的上世纪50年代就已经出现(国内的中文全文检索技术最早被作为748工程的一部分,于80年代后期基本完成,但被广泛应用已经是90年代的事了)。
第一代搜索引擎唯一的问题是,网址仍然由人工收集,效率低、易出错、不全面。
于是互联网急需一种替代人工收集网址的技术,而说到替代人工,人们必然会联想到的是机器人,于是第二代搜索引擎所依仗的就是机器人,用程序铸造、组装的游走在互联网中的机器人,现在它被人们熟知的名字是搜索爬虫或者搜索引擎蜘蛛。
事实上,这种技术的出现还早于杨致远的雅虎,甚至早于万维网的诞生。
1990蒙特利尔大学学生Alan Emtage发明的Archie。
虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。
由于Archie深受用户欢迎,受其启发,美国内华达System ComputingServices大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
现在的主流搜索引擎:谷歌、必应、百度等均采用了搜索爬虫抓取、下载网页,以取代人工,这些搜索爬虫每一定天数(例如谷歌是28天)进行一次全互联网的抓取,将所有网页结果下载至自己的服务器,等待再由人们通过输入关键词提起搜索申请。
机器人抓取网页的工作效率明显高于人工,再加上用关键词进行检索,新一代搜索引擎的登场时间理应早于目录式搜索和网址导航才对。
但问题在于:互联网中的信息实在太多了,搜索爬虫拿回来的网页,人几乎无法再次进行分类,而仅仅经由关键词进行检索,人们依然要从一团乱麻中肉眼查找自己想要的内容,这个使用体验还不如直接使用目录。
这个问题的解决诞生了现今搜索领域的最强者,也是世界上最伟大的公司之一——谷歌。
上世纪90年代后期,就在雅虎取得成功,让人们看到搜索的巨大需求之后,当时在斯坦福大学攻读理工博士的Larry Page 和 Sergey Brin开发出PageRank算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。
这项算法基本可以理解为投票,最重要的部分是计算每个网页与其他网页之间链接的多少,链向某个搜索结果的网页越多且权重越高,那么这个搜索结果也就越重要。
谷歌用这个办法解决了搜索结果排序的问题,以此取代了目录式的分类,也用搜索爬虫加PageRank的办法取代了雅虎最早提出的搜索引擎解决方案。
部分业内人士把谷歌为代表的这一代搜索引擎称为第二代搜索引擎,也有人认为这才是真正意义上的搜索引擎,笔者比较支持前一种说法。
中国的搜索引擎历史基本是直接从第二代搜索引擎开始的,时间是1999年,百度、中搜等老牌搜索引擎厂商从一开始就采用了搜索爬虫和排序算法的组合(当时还有3721提供网址导航服务,但时间与百度、中搜等几乎重合)。
与谷歌、雅虎不同,当时的百度、中搜,都主要为门户网站提供搜索技术的后台服务,而没有自己的呈现网站。
直到谷歌和雅虎在本世纪初进入中国,百度、中搜以及后来的搜搜、搜狗和再后来的360才开始有了自己的搜索引擎网站。
历史似乎到此结束,但以上说到的最晚时间点距现在还有十年之久,搜素引擎在这十年也并非一成不变。
前面说到的搜索引擎爬虫加排序算法只能解决现在的网页搜索功能,目前世界上所有的搜索爬虫都只能用较长时间(20天以上)实现一次全网抓取,对于更新频率稍慢的网页,这个速度是合理的。
但对于更新频率较快的互联网中的新闻,这个方法就显得太过笨重。
国内部分业内人士认为随着搜索技术和互联网速度的不断增强,这个问题会自然随之解决,但事实上至今网页搜索仍未能承担搜索新闻的工作,现在人们通过专门的新闻搜索技术查找自己想看的新闻。
国内最早为门户网站提供新闻搜索技术服务的是中搜,时间是2003年。
他们将原来全网抓取网页内容的搜索爬虫限定在少数几百个选定的新闻源网站范围内,这样就将看似无边无际的互联网大大缩小,全部抓取一次的时间从几天变成了几分钟甚至几十秒。
而一旦新闻源本身出现变动,只需将其加入或剔除自己选定的新闻源范围即可。
这种技术和曾经大热的RSS阅读技术有些类似,但后者因为需要信息的源头符合RSS的格式,所以正在逐渐萎缩,谷歌的RSS阅读产品Greader就在2013年夏天正式停止了服务。
此外新闻搜索的排序规则也略有不同,更加注重时间、相关性、发布媒体等等权重。
与新闻搜索类似的,搜索特殊类别信息的特殊搜索技术还有图片搜索、视频搜索、比价搜索等等。
此外,由于互联网中的信息实在过于庞大,通用搜索很难对所有信息都做到专业、精准、及时,因此一些专门针对某个行业或领域的垂直搜索也应运而生。
其原理大多是和新闻搜索类似:缩小搜索爬虫活动的范围,再适当修改排序规则。
中搜对国内乃至整个搜索技术的贡献还在于,第一次尝试了搜索的更高级形式——个人门户,2004年,他们发布个人信息门户浏览器,英文缩写是PIG,因此也被称为网络猪。
之所以把个人门户称为搜索的更高级形式,是因为此前的搜索引擎都是被动的等着人们主动输入关键词提出搜索申请,而能够让搜索变被动等待为主动提供服务的方式就是个人门户。
如果搜索始终等待用户输入关键词,那么它就始终难以摆脱工具的角色,与目录、电话簿之间的区别只在形式和效率之间。
此外,主动为用户提供服务还能被更多的关注、使用,获得更多的广告收益。
因此主动和被动,不仅仅是一个服务形式的问题。
门户网站顾名思义,是力求为网民提供最大信息量,解决最多互联网诉求的“超市”,但前面如果加上个人,主要诉求就在全面之外又加上了精准。
似乎整个互联网中也只有利用关键词进行检索的搜索能够提供全面且精准的信息服务。
中搜的做法是允许用户自己订阅搜索关键词,再自由组合成一张首页,所有订阅关键词的搜索结果都第一时间呈现给刚一打开浏览器的网民。
在此之后谷歌也推出了自己的个人主页产品——igoogle,并且功能更为丰富(增添了天气、股票等等)。
但个人门户产品并没有像传统的搜索引擎那样获得成功,至少在桌面互联网是这样,“网络猪”和igoogle都没有获得搜索厂商们心目中的理想结果,后者还于2013年冬天和Greader一样停止了服务。
其他力求主动为网民提供搜索服务的尝试还包括雅虎,他们也允许网民订阅搜索关键词,之后每天会将搜索结果的更新主动发送至用户的邮箱中。
中国国内对搜索的创新还不得不提百度的竞价排名机制:渴望宣传自身的企业按与自己相关的搜索结果的点击次数付费给搜索引擎厂商,企业的推广信息出现在搜索结果中,由单次点击付费高低决定结果的排序(付费高者靠前)。
尽管备受业内指责,但这一机制还是解决了搜索引擎厂商的吃饭问题,因此才能摆脱为其他网站提供后台服务的角色,同时肇始者获得的暴利也吸引了更多玩家跟进投入搜索引擎市场,促进了技术、市场的繁荣。
但以上尝试都是在第二代搜索引擎的基础上进行的,无论针对类别、展示形式还是盈利模式。
这一代搜索引擎虽然用搜索爬虫解决了对搜索结果巨量、全面的需求,但仅用关键词和PageRank一类排序方法是无法实现完全精准的。
无论英文还是中文,同一个关键词出现多种含义再平常不过,而再好的排序方式也不可能将每个人真正需要的结果都全部放在前几页,每个人搜索的结果都可能出现在第一百页、一千页甚或一万页之后,因为互联网中的信息实在实在太多了,并且还可能有不断重复的信息出现。
对下一代搜索引擎的尝试已经开始,2011年国内的搜索引擎厂商中搜发布上线第三代搜索引擎平台,算是第一个打起第三代搜索旗子的。
中搜宣称自己是第三代的原因是:区别于第一代纯粹用人工收集搜索结果和完全第二代用搜索爬虫抓取结果,他们的搜索引擎采用人机结合的办法:即用搜索爬虫继续收集网页,解决搜索结果的量的问题,但用人工将搜索结果进行分类、整理,解决搜索结果的准确。
前面笔者曾说过这是个不可能完成的任务,中搜给出的解决办法是允许每个网民参与到这个过程中,他们将整个搜索开放,任何人对搜索结果有不同意见,有不同想法都可以提出修改,不同于百度用户只能接受搜索结果。
中搜的搜索结果呈现方式也有所改变,成为了针对某个关键词含义的类似门户专题的多框页面(区别于其他搜索引擎的目录式结构),同一关键词的不同含义分别有完全不同的专题页面呈现。
此后国内一大批“第三代搜索”跟风而至,但无论优劣,其搜索结果的收集、呈现方式并未如同中搜,与现有第二代搜索引擎有任何明显差异,宣称“第三代”未免空穴来风。
2012年,谷歌也宣布推出知识图谱,与中搜的呈现方式类似,也具有很强的延展性,将与关键词相关的信息展示在边条。
2013年初百度也作出了类似调整,但这些都是以技术方式实现的,没有添加人工。
谷歌更重要的新一代搜索尝试还包括将搜索迁移进专门的硬件——谷歌眼镜,虽然目前还不能确定其能否获得成功,但指明的方向已经清楚:未来的搜索将和人们的生活离得更近,很可能不局限于文字输入请求和表达结果,也不局限于2维世界。