当前位置:文档之家› 浅析搜索引擎原理及使用技巧_刘君伟

浅析搜索引擎原理及使用技巧_刘君伟

本栏目责任编辑!唐一东人工智能及识别技术
浅析搜索引擎原理及使用技巧
刘君伟!张少龙
!上海交通大学 人文学院"上海 !""!#"#
摘要!介绍了搜索引擎的工作原理和特点!简述了搜索引擎的分类及搜索引擎的技术发展趋势" 主要针对搜索引擎使用方法和技巧
进行讨论"
关键词!搜索引擎#元搜索引擎#用户检索
中图分类号!!"#$% 文献标识码!& 文章编号!’(()*#(++,-(($.(’*(’/%*(%
&0123454 67 89: ";50<5=2:4 67 >:1;<9 ?0@50: 10A 89: B450@ !:<905CD:4
!"# $%&’()*+ ,-./0 1234’54&6
7-%83&*9*): ;&:9*9%9)+ 123&623* $*3494&6 #&*<)=:*9>+ 123&623* ?@@?A@+ B2*&3C
&E48;1<8F D2) 92):*: *&9=4E%F): 92) (4=G H=*&F*H5): 3&E F23=3F9)=*:9*F: 4I :)3=F2 )&6*&)+ 3&E *9: F53::*I*F39*4& 3&E 9=)&E 4I 9)F2&4546> E)<)5!
4H8)&9J D2) E*:F%::*4& I4F%:): 4& 92) %:36) 3&E 9)F2&*K%): 4I :)3=F2 )&6*&)J
G:3 H6;A4F :)3=F2 )&6*&)L M)93 1)3=F2 N&6*&)L %:)= =)9=*)<35
’ 搜索引擎概述
’I’ 搜索引擎
搜索引擎是指以一定的策略搜集互联网上的信息"在对信息进行组织和处理后"为用户提供检索服务的系统$ 从使用者的角度
看"搜索引擎提供一个包含搜索框的页面"在搜索框输入词语"通过浏览器提交给搜索引擎后"搜索引擎就会返回跟用户输入的内
容相关的信息列表$ 英特网上的信息浩瀚万千"而且毫无秩序"所有的信息象汪洋上的一个个小岛"网页链接是这些小岛之间纵横
交错的桥梁"而搜索引擎"则为你绘制一幅一目了然的信息地图"供你随时查阅$
- 搜索引擎的工作原理
搜索引擎的工作原理大致可以分为%
$% 搜集信息%搜索引擎的信息搜集基本都是自动的$ 搜索引擎利用称为网络蜘蛛!&’()*+&的自动搜索机器人程序来连上每一个
网页上的超连结$ 机器人程序根据网页链到其他中的超链接"就象日常生活中所说的’一传十"十传百(()一样"从少数几个网页
开始"连到数据库上所有到其他网页的链接$ 理论上"若网页上有适当的超链接"机器人便可以遍历绝大部分网页$
!% 整理信息%搜索引擎整理信息的过程称为*建立索引)+ 搜索引擎不仅要保存搜集起来的信息"还要将它们按照一定的规则进
行编排$ 这样"搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料$ 想象一下"如果信息是不按任何规则地随意
堆放在搜索引擎的数据库中"那么它每次找资料都得把整个资料库完全翻查一遍"如此一来再快的计算机系统也没有用$
,% 接受查询%用户向搜索引擎发出查询"搜索引擎接受查询并向用户返回资料$ 搜索引擎每时每刻都要接到来自大量用户的几
乎是同时发出的查询"它按照每个用户的要求检查自己的索引"在极短时间内找到用户需要的资料"并返回给用户$ 目前"搜索引擎
返回主要是以网页链接的形

式提供的"这些通过这些链接"用户便能到达含有自己所需资料的网页$ 通常搜索引擎会在这些链接下
提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容$
% 搜索引擎的使用方法和技巧
%I’ 使用搜索控制符布尔运算
当使用搜索引擎查询网址或信息时"如果仅用简单的单字或单词作为搜索的关键字时"通常会出现许多的结果"其实大多数的
搜索引擎都支持逻辑查询"可以用多个单词"再加上适当的逻辑字符"便可以显著地提高搜索的命中率$
-% 逻辑与
*逻辑与)常以*.)号表示"它的使用格式为*/.0)"表示搜索结果中既包含 / 也包含 0$有些搜索引擎中多个关键词之间只需用
空格分开"比如*百度)搜索引擎"像在百度中搜索*广元市图书馆)与*广元市.图书馆)结果便是一样$
!% 逻辑或
*逻辑或)常以* 1)或*2+),多用于英文搜索引擎中&来表示"使用格式为*/ 1 0),或者为*/ 2+ 0)&"表示搜索*或者包含关键词
/"或者包含关键词 0)的网页$ 大多数情况下"两个关键词之间没有空格就相当于*或者)$
,% 逻辑非
*逻辑非)常以* -)号来表示"使用格式为*/ - 0),注意* - 号)前一定需空一个格&"它表示搜索包含 / 但不包含 0 的网页$
如我们要搜索一些武侠小说"由于金庸的小说自己全部看过"所以想在结果中去掉所有有关金庸的网页"则可输入*武侠小说 -金
庸)再进行搜索即可$
#% 通配符
在有些搜索引擎中也可使用通配符来进行查找"像中文雅虎可对通配符*. )提供支持+ 如要搜索*中学信息技术)及*小学信息
技术)"则可输入*. 学信息技术)+
收稿日期$?@@O’PP’@O
!""# $%%&’(%))
*+,-./01 23+450670 836 90:;3+5+7< 电脑知识与技术
324567825-79:;<:+= !>>?7 ’’5 -@,A-@6
BAC:(4D *)IHH’DJJKKK5);L&5;*H5G;
M*4D.N@A66-A6@?"?@, 6@?"?@#
-@,人工智能及识别技术本栏目责任编辑!唐一东
!"#$%&’( )*"+,’-.’ /*- 0’12*",".3 电脑知识与技术 第 4 卷第 5 期 67889 年 5 月:
许多搜索技巧和方法!如位置检索"自然语言检索"词组检索"截词检索等等!但由于很多网站中的有关文章已对搜索引擎使用
技巧和方法都有了详尽介绍!因此!我这里就不再赘述#
搜索引擎作为浏览者获取信息的主要途径之一!如何有技巧地使用!往往能在省力之余获得更符合你想要的资料!以下结合个
人经验!介绍一下搜索引擎的高级使用技巧$
!"# 使用空格!逗号定义多组关键字
在使用搜索引擎查找自己需要的资料时!为了达到更精准的结果!我们可以使用空格%逗号来定义多组关键字!例如&需要查找
茶叶图片的下载!如果直接输入茶叶图片下载!可能找到很少的匹配结果!因为有相关资料的网页中!未必会完全使用这样的描述!
因此我们可以使用关键

字组合!’茶叶图片 下载( 或 ’茶叶图片!下载(来获得更精准的搜索结果#
!"! 限定搜索范围在网页标题中 $%&$&’(
每个网页基本上都有一个 "#"$%! 即浏览器顶端显示的标题内容! 通常建站者会把与网页内容相关的描述或关键字作为该页的
"&"$%!因此我们在搜索内容的时候可以限定搜索范围在网页标题中!例如&查找 "&"$% 中含有’清香茶叶制作方法(的网页!可以使用以
下格式!茶叶制作方法 &’"&"$%(清香# 具体格式为& )比较广义的类*&’"&"$+,-类中的一个具体对象*
注意&&’"&"$+.后面与关键词之间不能有空格#
!") 在指定的站点中搜索 *$&(
当希望在一个网站中搜寻信息时!可以通过 /&"+ 来指定!例如&想在 0122++03+4’56718++6019 这个网站中找寻 ’张三(的信息!可
以这样实现&张三 /&"+,0122++03+4’56718++6019
具体格式为& )找寻的内容: /&"+,)指定网站的网址:
注意&找寻内容与 /&"+,之间有一个空格分离!/&"+,与网址间不带空格!网址不要加 3"";,<<
!+, 搜索范围限定在 -./ 链接中 $%01’
在网页的 =>?)即地址栏现实的网址*中通常有一定的含义!例如网站 0122++03+4’56@18++6019 中存放图片的途径是 0122++03+!
4’56@18++6019<;31"1 A 其中 ;31"1 就有图片的含义!所以我们也可以搜索在 =B? 含有的指定信息!例如&想搜索卡布其诺的图片 !可
以这样实现&卡布其诺 &’4C$,;31"1
其中’卡布其诺(可以出现在网页的任何位置!而 ;31"1 则出现在该页的 =B? 中!只有同时满足两个条件!才会出现搜索结果$
具体格式& -网页中出现的关键字: &’4C$,-=B? 包含的内容:使用双引号禁止搜索引擎拆分关键字
有些时候我们希望找一个完整的关键字!但搜索引擎可能会’自作主张(地进行拆分搜索!特别是在关键字比较长且包含可拆
分词组的情况下!这个时候我们只要在搜索内容前后加双引号!就可以禁止搜索引擎拆分关键字!例如&想查找茶叶爱好者俱乐部!
如果直接查找可能被搜索引擎拆分!因此我们可以输入’茶叶爱好者俱乐部(!这样就能获得更精准的搜索结果$
!+2 使用书名号搜索信息
中文的书名号是搜索引擎中一个特有的查询语法!在其他搜索引擎中书名号会被忽略!而在百度中!中文书名号是可以被识别
的$ 例如&我们查找+如何经营茶叶店,这本书!可以使用语句+如何经营茶叶店,这样就能找到这本书的信息!同时!中文书名号还有
跟双引号一样的禁止拆分作用用英文减号去处无关资料$
我们可以通过英文减号!过滤不想要的查询结果!缩小搜索范围!例如&想查找 DEFFGH IJKL 这首歌曲的下载地址!但可能会
出现手机图铃一类不想要的信息!因此&
DJFFGG IJML N 手机图铃!这样就可以排除手机图铃的查询结果$
具体格式& )查询内容: N )去处

内容:
注意&减号与前一个关键字间需要有空格分离
!+3 查找内容相关的文档 4$’(&56(
网络上很多资料未必以 OPQR 的格式展示!可能是 STF"TJD 等等!我们也可以根据自己的需要查找指定的文件格式!例如&查
找茶叶炒制方法的 SSP)幻灯片文件*!输入&
茶叶炒制 2&$+"U;+,;;" 具体格式& )关键字: 2&$+"U;+,)文件格式:
注意&2&$+"U;+ 与前一个关键字间包含一个空格查找网站的反向链接 $&’8
如果网页 V 有一个超链接指向网页 W!那么 V 网页就是 W 网页的方向链接$ 在分析一个网站网络营销情况时通常用到这个语
句!例如&查询 0122++03+4’56@18++6019 这个网站的反向链接!输入& $&’8( 0122++03+4’56@18++6019 就能得到反向链接的查询结果列表
!"7 查询一个网站有多少页面被搜索引擎收录 *$&(
/&"+ 除了在指定网页中搜索功能外!还有查询一个网址有多少个页面被搜索引擎收录的功能$ 在建好自己的网站后!为了检查
建站的质量!往往可以通过被搜索引擎收录的页面多少来衡量!例如&查询 0122++03+4’56@18++6019 的网页收录情况!可以输入&
/&"+( 0122++03+4’56@18++6019 就会展示出被收录页面的结果列表
) 搜索引擎的技术发展趋势
搜索引擎经过几年的发展和摸索!越来越贴近人们的需求!搜索引擎的技术也得到了很大的发展$ 搜索引擎的最新技术发展包
括以下几个方面&
)"8 提高搜索引擎对用户检索提问的理解
为了提高搜索引擎对用户检索提问的理解!就必须有一个好的检索提问语言!为了克服关键词检索和目录查询的缺点!现在已
经出现了自然语言智能答询$ 用户可以输入简单的疑问句!比如’31X 0Y’ 8&$$ Z&C4/ 12 019;4"+C[($ 搜索引擎在对提问进行结构和内
容的分析之后!或直接给出提问的答案!或引导用户从几个可选择的问题中进行再选择$ 自然语言的优势在于!一是使网络交流更
加人性化!二是使查询变得更加方便"直接"有效$ 就以上面的例子来讲!如果用关键词查询!多半人会用’Z&C4/(这个词来检索!结果
中必然会包括各类病毒的介绍"病毒是怎样产生的等等许多无效信息!而用’31X 0Y’ 8&$$ Z&C4/ 12 019;4"+C[(!搜索引擎会将怎样杀
\]^本栏目责任编辑!唐一东人工智能及识别技术
病毒的信息提供给用户!提高了检索效率"
!"# 对检索结果进行处理
!" 基于链接评价的搜索引擎
基于链接评价的搜索引擎的优秀代表是 #$$%&’()**+,--.../%$$%&’/0$1"!它独创的#链接评价体系$是基于这样一种认识!一个网
页的重要性取决于它被其它网页链接的数量!特别是一些已经被认定是#重要$的网页的链接数量% 这种评价体制与&科技引文索
引’的思路非常相似!但是由于互联网是在一个商业化的环境中发展起来的!一个网站的被链接数

量还与它的商业推广有着密切的
联系!因此这种评价体制在某种程度上缺乏客观性%
2" 基于访问大众性的搜索引擎
基于访问大众性的搜索引擎的代表是 345&0* )4*!它的基本理念是多数人选择访问的网站就是最重要的网站%根据以前成千上万
的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名!并以此来
确定哪些网站最符合用户的检索要求% 因此具有典型的趋众性特点% 这种评价体制与基于链接评价的搜索引擎有着同样的缺点%
!"$ 确定搜索引擎信息搜集范围!提高搜索引擎的针对性
网上的信息浩如烟海!网络资源以十倍速的增长!一个搜索引擎很难收集全所有主题的网络信息!即使信息主题收集得比较全
面!由于主题范围太宽!很难将各主题都做得精确而又专业!使得检索结果垃圾太多% 这样以来!垂直主题的搜索引擎以其高度的目
标化和专业化在各类搜索引擎中占据了一系席之地!比如象股票(天气(新闻等类的搜索引擎!具有很高的针对性!用户对查询结果
的满意度较高% 作者认为!垂直主题有着极大的发展空间%
现在出现了许多的搜索引擎!其收集信息的范围(搜索机制(算法等都不同!用户不得不去学习多个搜索引擎的用法% 每个搜索
引擎平均只能涉及到整个 ... 资源的 67897:);&<50) &=%4=& .<*0) 数据*!这样导致同一个搜索请求在不同搜索引擎中获得的查询
结果的重复率不足 6>:!而每一个搜索引擎的查准率不到 >9:%
元搜索引擎)1&*<;&<50) &=%4=%*是将用户提交的检索请求到多个独立的搜索引擎上去搜索!并将检索结果集中统一处理!以统
一的格式提供给用户!因此有搜索引擎之上的搜索引擎之称% 它的主要精力放在提高搜索速度(智能化处理搜索结果(个性搜索功
能的设置和用户检索界面的友好性上!查全率和查准率都比较高% 目前比较成功的元搜索引擎有 1&*<05<.’&5(3$+4’&(4?@A40B 等%
% 结束语
搜索引擎作为浏览者获取信息的主要途径之一!如何有技巧地使用!往往能在省力之余获得更符合你想要的资料!他直接关系
到搜索的质量以及匹配度等性能% 搜索引擎的存在使得每个人与任何问题的答案之间的距离只有点击一下鼠标那么远% 搜索引擎
已成为人们在网络信息海洋中自如冲浪必不可少的利器%
参考文献"
C!D 张兴华/搜索引擎技术及研究CED/现代情报F277>(>"/
C2D 巩曰亮/搜索引擎的工作原理与发展现状CED/科技情报开发与经济F2772F!2(9",!G8!H/
C6D 杜小勇/下一代搜索引擎CED/中国传媒科技F277I(9",6286>/
刘君伟)!JH68*!男!上海交通大学人
文学院!2779 级硕士在读%
刘君伟 等!浅析搜索引擎原理及使用技巧
!I9

相关主题
相关文档 最新文档