当前位置:文档之家› 主要的中文搜索引擎

主要的中文搜索引擎

主要的中文搜索引擎
主要的中文搜索引擎

6.5主要的中文搜索引擎

随着Internet在中国的普及和发展,网上中文信息资源和以中文为母语的网上用户也在急剧增加,已有的外文搜索引擎已不能适应我国上网的大部分用户的需求,迫切需要以中文为基础的搜索引擎来满足网上用户查询中文信息资源的要求。于是许多以中文为母语的国家和地区都相继开发出了各种各样的中文搜索引擎,据统计,目前已有中文搜索引擎200多个。由于网上的中文信息迅速膨胀,因此,世界级的网站都纷纷涉足中文信息市场。美国一些著名的搜索引擎公司,如Yahoo!、Altavista、Lycos、Excite等先后推出中文版的搜索引擎,全面进军中国的搜索引擎市场。下面,介绍几个主要的中文搜索引擎。

6.5.1 中文雅虎(http://gbchinese.yahoo.com)

中文雅虎是美国“Yahoo!”公司于1998年5月推出的中文搜索引擎,提供中文简体与中文繁体两种版本。中国大陆的站点一般使用简体中文,而香港与台湾地区的站点一般使用繁体中文。中文雅虎并非英文版的全文翻译,而是收录了数万个中文的Internet 站点,按照英文版的分类方法以14个类目列出,提供Internet 上的中文站点信息检索服务。

中文雅虎主页(见图6-10)提供和英文版相同的检索方法:分类目录检索与关键词检索。

图6-10 中文雅虎主页

1. 分类目录检索

中文雅虎的分类目录位于其主页的中部。用户可以根据查找的内容所属的类别在分类目录中逐级逐类地选择相应的类目,经过多次选择后,就可以访问到包含所查找内容的站点。

例如,要查找科学领域的内容,首先在主页的分类目录中点击“科学”大类,进入有关科学领域的下级类目页面。在该页面中,列出有关科学领域的详细分类,如地理学、工程学、能源、生物学、天文学、物理学与图书馆等。再点击“图书馆”,就会出现有关图书馆方面的站点信息。

2. 关键词检索

如果用户已知要查找内容的主题概念,就可以利用关键词检索方式。在检索文本框中输入要找的关键词,然后点击“搜索”按钮,中文雅虎就会在数据中查找与关键词匹配的记录,并将符合检索条件的结果显示出来。

使用关键词检索还有简单方法与复杂方法之分。简单方法就是将关键词直接输入检索文本框中,可以输入一个词也可以输入几个词,并对检索要求不加限制,系统在处理时会按照自身的规则将用户的查询字符串分为几个部分,这样返回的结果可能与用户想要的相差甚远。复杂方法就是利用字段限定符号和限制选项构建复杂的检索表达式来进行检索,这样会获得比较准确的查询结果。中文雅虎支持以下几种限定检索操作符:(1)用引号(“”)来查询完全符合关键词字符串的网站。

(2)在关键词前加“t:”,搜索引擎仅限在网站名称中查找。

(3)在关键词前加“u:”,搜索引擎仅限在URL中查找。

(4)在关键词前加“+”,查询结果中一定要出现“+”号后面的字符串。

(5)在关键词前加“-”,查询结果中一定不能出现“-”号后面的字符串。

6.5.2 搜狐(http://https://www.doczj.com/doc/9f4354341.html,)

搜狐是爱特信公司创办的大型中文门户网站,于1998年2月正式推出。2000年9月14日搜狐收购国内最大的年轻人社区网https://www.doczj.com/doc/9f4354341.html,,成为中国最大的门户网站。搜狐公司从中国首家大型分类查询搜索引擎,发展成为最受用户喜爱的综合门户网站。1999年至今,搜狐公司连续推出新闻中心、体育、财经、IT、汽车、生活、教育、求职、搜狐商城等17个内容频道,为广大网民提供网上社交、学习、生活和购物的理想场所,成为中国网络用户进入互联网的最佳渠道。搜狐比较规范、系统的分类目录与强大的全文检索为广大用户提供一个优秀的中文信息查询工具。用户可以直接通过搜狐网站首页(见图6-11)上的分类目录和关键词搜索方法查找信息,也可以点击首页中的“搜索引擎”进入“分类搜索”页面进行目录导航检索和关键词检索。

1. 目录导航检索

目录导航检索是按照信息所属的类别层层点击查找信息,所以用目录导航检索时首先要考虑清楚想要查找的信息属于哪个类别。比如查找“计算机杀毒软件”,首先浏览搜狐的分类目录(见图6-12),看到“计算机与互联网”类目,应当是属于这个类目,点击进入,下面有“软件”,点击“软件”进入,下面有“病毒与安全”,再点击“病毒与安全”进入,下面

有“杀病毒软件”,最后点击进入“杀病毒软件”就会找到许多有关杀病毒软件的的网站。目前,搜狐“分类目录”共有十八大类,包括:娱乐休闲、工商经济、公司企业、文学、国家与地区、计算机与互联网、教育、艺术、体育与健身、卫生与健康、生活服务、社会与文化、社会科学、新闻与媒体、科学与技术、旅游与交通、政治与法律、个人主页,五万多不同层次的子类目,形成了一个十分庞大的树枝状结构,几乎涉及到所有行业或领域。用户只要遵循一定的查询规律(与图书馆的图书分类法类似),就能很快找到需要的所有网站信息。

图6-11搜狐首页

图6-12 搜狐分类搜索页面

2. 关键词检索

关键词检索是按照信息的主题内容来查找信息,在搜狐的搜索框内输入想要查找的信息的关键词,然后点击“搜索”按纽,系统就会自动查找与关键词匹配的信息,并且在页面上将这些信息提供给用户。在搜狐的首页或搜狐网站的分类与搜索主页及其下的任何页面上,都会看见一个长条状的搜索框。搜狐的“搜索”工具提供网站、类目、网址、网页、新闻、软件等类信息的查找。用户只要做简单的选择,就能找到相关的信息,选择的方法是通过搜索框后面的下拉式菜单进行选择,或直接在搜索框下进行选择。当使用搜狐的“搜索”工具进行查找时,其默认选项为“网站”搜索,其搜索结果是搜狐分类目录下网站信息中的内容。各选项及其查询范围如下:

(1) 搜狐类目:检索结果页列出相关的搜狐检索类目。

(2) 网站搜索:检索结果页列出搜狐分类搜索数据库中,在网站名称、网站简介或网站关键字中含有与键入的关键字相匹配的内容的所有相关网站。

(3) 网页搜索:除了相关检索的一些链接之外,检索结果页列出整个Internet上与键入的关键字相匹配的内容的所有相关网页。

(4) 新闻搜索:检索结果页列出三个月内出现在搜狐新闻库中,包含用户输入的关键字的相关新闻。

(5) 网址搜索:检索结果页列出3721网站的数据库中,在网站名称中含有与用户键入的关键字相匹配的内容的所有相关网站。

3. 高级检索

从分类搜索页面点击“高级检索”进入高级检索页面(见图6-13)。在高级检索页面提供下列选项:

(1) 搜索包含:可以指定查询结果中包含的关键词,即希望返回的网页包含“所有输入的关键词”或者“至少其中一个关键词”。

(2) 编码选择:可以指定查询结果的编码类型,即希望返回的网页是“简体(国标码)” 、“繁体(大五码)”,还是两者都要(“简体及繁体”,此为默认选择)。每种编码类型前有一个圆框,用户只需点中其一即可。

(3) 类聚方式:可以指定查询结果的类聚方式,即希望返回的网页是“内容类聚”、“站点类聚”,还是两者都要(“站点类聚及内容类聚”,此为默认选择)。每种类聚方式前有一个圆框,你只需点中其一即可。所谓“内容类聚”是指同一个内容的网页只出现一次,而不管整个INTERNET 上有多少个不同的URL指向该网页。也就是说,“内容类聚”屏蔽掉了同样内容的网页,只提供其中一个URL供用户浏览使用。而“站点类聚”则只给用户提供相关网站的主页的URL,屏蔽掉了同一个网站中各个不同的页面。但是, 用户可以通过相关摘要底下的URL访问到该网站所有的页面。

(4) 时限选择:还可以指定查询结果中网页的生成时间,目前有四种选择:“任何时间的网页”(默认选择)、“三个月内的网页”、“六个月内的网页”、“一年内的网页”。生成时间是一个下拉菜单,用户可以从中选择。

搜狐检索系统目前支持的运算符有:-、&、|、()、空格。这些运算符既可以是英文,也可以是中文(全角或半角)。

a.使用空格、&,来指定查询串必须出现在结果中。例如:输入“modem 鼠标”,搜索结果是包含“modem”,并且包含“鼠标”的所有网页。

b.使用 - ,来限定-后的查询串不出现在结果中。例如:输入“宗教 - 法轮功”,会找到仅包含“宗教”的所有网页,且不包含“法轮功”的网页。

c.使用 | ,来指定|两边的查询串中有一个一定出现在结果中。例如:输入“计算机 |软件”,搜索结果是含有“计算机”或“软件”的所有网页。

d.使用()或“”,来指定()或“”内的表达式是一个整体单元。例如:输入“计算机 - (软件硬件)”,会查询到包含“计算机”,且不包含“软件”与“硬件”的所有网页。

图6-13搜狐高级检索页面

4.修改检索

“网页搜索”的结果页面中,还有相关检索的一些链接,最下部是一个搜索框,你可以在其中输入新的字串,按“重新搜索”按钮进行另一次新的搜索;按“在结果中搜索”按钮在结果中搜索,以对用户的搜索进行精确化。例如,第一次查找“计算机”时返回了太多网页,用户可以在此框中输入“家用电脑”在结果中查询,本引擎会为你查出更为相关的内容。

5. 检索结果的排列

搜狐中文检索系统引擎会根据分类类目及网站信息与关键字串的相关程度来排列出相关的搜狐中文类目和网站。相关程度越高,排列位置越靠前。

6.5.3 新浪网(https://www.doczj.com/doc/9f4354341.html,)

新浪网搜索引擎是面向全球华人的网上资源查询系统。提供网站、网页、新闻、软件、游戏等查询服务。网站收录资源丰富,分类目录规范细致,遵循中文用户习惯。目前共有16大类目录,一万多个细目和二十余万个网站,是互联网上最大规模的中文搜索引擎之一。

新浪网推出新一代综合搜索引擎,这是中国第一家可对多个数据库查询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息。

除了资源查询外,新浪网搜索引擎推出了更多的内容和服务,包括:新浪酷站、本周新站、引擎世界、少儿搜索、WAP搜索、搜索论坛等。

图6-14 新浪搜索引擎主页

1. 一般搜索功能

新浪搜索引擎提供“分类检索”和“关键词查询”两种查找方法。

(1)分类检索

分类检索是从搜索首页按照树型的主题分类逐层点击来查找所需信息的方法。

如果我们想看看小说,但又不是很明确具体是哪一部小说,就可以采用分类检索,也即目录查询方式。从新浪网首页点击“新浪搜索”进入搜索引擎主页(见图6-14)。在搜索引擎主页中的14大类目录中点击“文学艺术”目录,再选择“文学”目录点击进入,这时页面中上部列出的是文学目录的细分目录,下部列出的是属于文学目录的网站。可以继

续点击文学的子目录“各类文学”中的“小说”目录。同样,这时页面中上部列出的是小说目录的细分目录,下部列出的是属于小说目录的网站。这时就可以选择想要看的网站进入浏览了。

(2)关键词查询

关键词查询是用所需信息的主题(关键词)进行查询的方法。具体做法是:

在检索框内键入关键词(Keyword),并单击旁边的“搜索”按纽,新浪搜索会返回目录、网站、网页、新闻四种检索结果。可以按照需要点击超链接进入这四种检索结果中的任意一个。如果没有特别指定,系统默认查询次序依次为:目录搜索,网站搜索,网页搜索。查询结果先返回目录搜索结果,然后返回网站搜索结果,然后返回网页搜索结果,再返回商品信息、消费场所等搜索结果。在同一页面上包含网站、网页、新闻、商品等各类信息的综合搜索结果,新浪搜索是国内唯一提供此项服务的搜索引擎。同时,为了便于查阅,查询字串以醒目的红色显示。

例如,想要查找“红楼梦”的相关信息,我们就在搜索框内键入关键词“红楼梦”,并单击旁边的“搜索”按纽,新浪搜索会先返回目录搜索结果“文学艺术>各类艺术>文学>各类文学>小说>古典小说>四大古典名著>红楼梦”,接下来是关于“红楼梦”的网站的搜索结果;再下来是新浪内容中关于“红楼梦”的搜索结果;以及消费场所中的“红楼梦”搜索结果。

2. 进阶查询

在网站查询结果页面中继续查找信息,有三种选择: 重新查询、在结果中再查、在结果中去除。

这三个选项分别的意思是:

(1) 重新查询:用本次键入的关键词重新进行查询(是默认的选项);

(2) 在结果中再查:在上一次的关键词查询结果中再用本次键入的关键词进行查询,相当于是这两次的关键词是“与”的关系,也就是说这样的查询结果是同时包括这两次的关键词的;

(3) 在结果中去除:在上次的关键词查询结果中去除本次键入的关键词进行查询,相当于是这两次的关键词是“非”的关系,也就是说这样的查询结果是包括上一次的关键词同时一定不包括本次的关键词的。

进入某一分类目录后用关键词查找信息,有两种选项:所有网站、此目录下的网站。这两个选项分别的意思是:

(1) 所有网站:用关键词在所有网站的范围内进行查询(是默认的选项);

(2) 此目录下的网站:用关键词在本级目录下进行查询,限定搜索范围,可以帮助用户进行更有效的查询。

3.查询时逻辑操作符与字段限定的使用

(1)对网站进行多个关键词查询:

A. 表示“与”的关系(同时匹配多个关键词的内容):使用空格、逗号( ,)、加号(+)和&。

例如,要查找赵薇的照片,则输入:赵薇照片。

B.表示“非”的关系(查询某个关键词的匹配内容,但又不包含其中的一部分):使用减号(-)搜索。

例如,想要查询彩票,但不包含体育彩票,则输入“彩票体育彩票”。

C.表示表达式是一个整体单元:使用字符“()”。

例如,想查找计算机方面的网页或新闻,但不包含“软件”与“硬件”,输入关键词“计算机-(软件硬件)”。

D.网站标题搜索:在关键字前加“t:”;

E.网站网址(URLs)搜索:在关键字前加“u:”。

(2)对新闻全文进行多个关键词查询:

A. 表示“与”的关系(同时匹配多个关键词的内容):把多个关键词用空格隔开。

例如,要查找中国队在世界杯的新闻,可以输入“世界杯中国”查询。

B.表示“非”的关系(查询某个关键词的匹配内容,但又不包含其中的一部分):使用减号“-”搜索。

例如,想查询与“彩票”相关的新闻,但不包含“体育彩票”,可以输入“彩票-体育彩票”查询。

(3)对网页进行多个关键词查询:

A.表示“与”的关系(同时匹配多个关键词的内容):只需在输入的多个关键词中间留空格,就可返回那些符合要求的全部查询条件的网页,如“北京新浪”。

B.表示“或”的关系(任意匹配多个关键词的内容):只需在输入的多个关键词中间加“OR”,就可返回那些符合要求的任一查询条件的网页,如“北京 OR 新浪”。

C.强加忽略词:网页搜索会忽略最常用的词、字符、数字和单字(这些统称为忽略词),如:“http”,“.com”和“的”等,这类字词不仅无助于缩小查询范围,而且会大大降低搜索速度。使用英文双引号可将这些忽略词强加于搜索项,例如:输入“小城的传说”时,加上英文双引号会使“的”强加于搜索项中。

D.英文短语的查询:查短语用“-”连接或用“" "”括起来,如搜索“two-in-one”或“″two in one″”。

E.不支持词干法或通配符:为提供最准确的资料,不支持“词干法”和“通配符”(*) 搜索。即,只搜索与输入的关键词完全一样的字词。如搜索“airline”或“airline*”,不会得到类似“airlines”的结果。

F.限定网址(url)搜索:单个关键词前加“inurl:”,多个关键词前加“allinurl:”,如搜索“inurl:sina”将返回网址里含有“sina”的网页结果,“allinurl:sina search”将返回网址里含有sina和search的网页结果,“北京 inurl:sina”则将返回页面内容里含有北京并且页面网址里含有“sina”的结果。

G.限定标题(title)搜索:单个关键词前加“intitle:”,多个关键词前加“allintitle:”,如搜索“intitle:北京”将返回网页标题里含有北京的结果,“allintitle:北京新浪”将返回网页标题里含有“北京”和“新浪”的结果,“保险 intitle:北京”则返回网页标题里含有“北京”且网页内容里含“保险”的结果。

H.限定网站(site)搜索:关键词前加“site:”,如搜索“教育 site:https://www.doczj.com/doc/9f4354341.html,”返回https://www.doczj.com/doc/9f4354341.html,的域名下含有“教育”的网页结果。

I.限定文件类型(filetype)搜索:关键词前加“filetype:” ;如搜索“论文 filetype:pdf”将返回文件格式为pdf格式的“论文”内容。

J.网站首页信息搜索:网址前加“info:”,如搜索“info:https://www.doczj.com/doc/9f4354341.html,”则返回https://www.doczj.com/doc/9f4354341.html,的首页网页。

4. 高级搜索

从搜索引擎首页点击“高级检索”进入新浪高级检索界面(见图6-15)。新浪搜索的高级搜索功能较强,可选标题或网址查询,可限时间范围查询,关键词查询支持“与(and)”、“或(or)”等关系。还可以定义其他的搜索条件。

(1)在新浪网高级搜索页面上的任意一个关键词查询框中输入一个或多个关键词。使用空格表示“与 (and)”关系。

(2)利用“+”来限定的关键字一定要出现在结果中,“-”来限定的关键字一定不要出现在结果中。

(3)关键词查询框下面的单选按钮,限定了输入关键字之间的逻辑关系,选中“所有关键词(and)”项要求结果中包含所有输入的关键字,即它们之间是“与(and)”的关系;“至少一个关键词(or)”则要求结果中包含至少一个输入的关键字,即它们之间是“或(or)”的关系。

5. 搜索结果的排列顺序

新浪搜索的检索结果是根据与查询要求相匹配的结果的质量来进行排列相关的分类目录和网站。质量越高,排列位置越靠前。其中新闻检索的结果是按日期排序,日期越新的新闻排列位置越靠前。

图6-15 新浪高级检索页面

6.5.4 网易 (https://www.doczj.com/doc/9f4354341.html,)

网易公司(NASDAQ: NTES)是中国领先的互联网技术公司,在开发互联网应用、服务及其他技术方面,网易始终保持国内业界的领先地位。自1997年6月创立以来,在开发互联网应用、服务及其他技术方面,网易始终保持业界的领先地位,并取得了中国互联网业的多项第一:第一家中文全文检索,第一个大容量免费个人主页基地,第一个免费电子贺卡站,第一个网上虚拟社区,第一个网上拍卖平台。网易新一代开放式目录管理系统(ODP),结合了网易自主开发的搜索引擎的特点,对所有站点信息提供全面快速的检索功能,使得用户能高效便捷的查询出目的站点。网易主页如图6-16所示。

1. 网易搜索引擎的特点

(1)网易搜索引擎提供多语言检索。英语,日语,俄语等几十种语言关键词都可以直接输入搜索框检索网页信息。

(2)拥有全国最大的开放式管理目录。有约5000名各行业目录管理员负责管理网站注册信息。

图6-16 网易主页

(3)网易搜索结果包括相关目录、相关网站、相关网页和相关新闻。相关网站里汇集了大量精选网站(约25万),相关网页的信息量最大(约16亿1千万网页)。

相关目录:是指用户的查询内容与网易开放式目录中的目录名匹配所返回的结果。

相关网站:是指用户的查询内容与在网易开放式目录数据库中注册的网站信息匹配所返回的结果。

相关网页:是指用户的查询内容与网易的合作伙伴Google的全文数据库中的信息匹

配的结果。

相关新闻:是指在网易所有频道文章中检索用户指定关键字得到的相关信息。

(4)网易搜索引擎是模糊的搜索方式。对用户输入的关键词,先作语言分析,分解成多个词或词组,再去数据库中匹配结果,因此用户可以输入一整段句子,而可能得到包含了这段话中部分词语的结果,这样得到的结果更丰富;网易搜索引擎按搜索结果和用户输入的搜索词的关联程度排列结果的,用户的关键词出现的越多的结果排得越靠前;在相关度排序的同时,越知名的站点排得越靠前。

2. 分类检索

网易的分类目录(见图6-17)功能比较强,所有目录是专为中国用户设计的,分类比较符合中国人的习惯。网易将精选的中文站点分为18个大类,包括娱乐休闲、情感绿洲、电脑网络、文学、艺术、医疗健康、教育学习、政法军事、体育经济、经济金融、公司企业、生活资讯、科学技术、少儿乐园、社会文化、旅游自然、新闻出版、综合参考,每个大类下又细分为不同的小类,用户可以通过各级类目找到自己想要访问的站点。

图6-17 网易搜索引擎页面

3. 关键词检索

网易关键词检索比较简单方便,只要在搜索框中输入检索词,然后点击搜索框右边的“搜索”按钮,便可得到相关的信息。

网易关键词检索支持以下操作符及规则:

(1)多个关键词之间只需用空格分开。例如:想去网易聊天,只需在搜索框中输入“网易聊天”而不必输入“网易 and 聊天”。输入的关键词越多,查询到的结果越少越准确。

(2)没有空格隔开的关键词相当于“或”。例如:在搜索框中输入"苹果梨子" 则关于苹果或梨子的内容都可兼得。

(3)在结果中再搜索。这个功能其实就是利用上面(1)中所说and的关系了。网易搜索引擎的搜索框可以保留住用户上一次输入的关键词。例如:我们先输入"网易" ,得到输出结果290条,这时搜索框中已经保留有"网易"两字,看完这次的结果后,再在搜索框中输入 " 聊天",注意"聊天"前面有个空格键,按回车,得到的结果22条,就这样完成了在结果中再次搜索的任务。

(4)英文字母不区分大小写。网易搜索引擎不区分英文字母大小写,所有的字母均当做小写处理。例如:输入"netease",或是"NETEASE",再或是"NetEase",结果都是一样的。

(5)网页查询时可以直接用网址进行查询。例如:输入https://www.doczj.com/doc/9f4354341.html,可以搜索到所有链接到Google主页的网页。但这种方法不能与关键字查询联合使用。要说明的是:这时网易搜索引擎忽略“http”和“com”等字符,以及标点符号和单个英文字母,比如输入https://www.doczj.com/doc/9f4354341.html,和输入netease的结果一样。

(6)“-”号可以排除无关信息。比如输入 A -B(切记要在减号前留一个空格位)可以检索包含A,但不包含B的内容,更有利于缩小查询范围(A和B代表关键词)。例如:输入 "windows -98" ,表示查看除了windows98以外的windows信息。

(7)引号使搜索结果绝对忠实于检索提问。比如搜索有时需要精确匹配整句话,包括词的顺序,那么可以把需要精确匹配的部分用" "括起即可。这一方法在查找名言警句或专有名词时显得格外有用。

(8)在英文关键词搜索中,一些标点符号如“ _ ”、“ \ ”、“ + ”、“ =”、“ , ”、“ ' ”也可作为短语连接符。例如:尽管没有加引号,mother_in_law仍作为专用语处理。在中文搜索时,这些标点被忽略。

(9)新增“定制文件类型搜索”,在输入框中输入[你想要的关键词]+[空格]+[filetype:]+[你想要的文件类型],选择“所有网页”搜索模式,回车。例如:输入:“东北人都是活雷锋 filetype:swf”就得到了所有版本的“东北人都是活雷锋”的flash动画。常用的文件类型有: doc,pdf,ppt,rtf,swf等,不过搜索时,要注意选择到“所有网页”搜索模式。

6.5.5 天网搜索 (https://www.doczj.com/doc/9f4354341.html,)

天网搜索引擎是由北大计算机系网络与分布式系统研究室研制开发的,它是中国教育和科研计算机网示范工程应用系统课题之一,又是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供Web信息导航服务。天网搜索引擎提供一种检索Web资源(主要是中国教育和科研计算机网上的Web资源)及FTP的手段。用户只需输入要检索的一个或多个关键词,系统就会把与这些关键词相匹配的网站或新闻组中的文章查找出来。

一、WWW检索

1. 简单查询

在“天网”主页(见图6-18)上,用户在文本框中输入想要查询的关键词,然后按下“搜索www网页”按纽。

2. 复杂查询

用户可以对多个查询词进行逻辑操作实现复杂查询,WWW查询支持下面三种逻辑操作:

(1)“&”,用“A&B”进行查询的结果是既包含查询词A又包含查询词B的文章。

(2)“-”,用“A-B”进行查询的结果是包含查询词A而不包含查询词B的文章。

(3)“ | ”,用“A | B”进行查询的结果是至少包含A和B中一个查询词的文章。

对于空格分开的查询词与用&分开的查询结果一样。

二、FTP检索

1. 从首页访问天网 FTP 搜索引擎

在天网首页输入框输入要查询的文件名,可以包含“ * ”号(通配所有字符)、“?”号(通配一个字符)、空格(表示几个查询的“与”)。用鼠标点击“搜索FTP文件”,即得到查询结果。

图6-18 天网主页

2. 常用功能的FTP搜索

在天网主页点击“FTP检索”进入FTP检索页面(见图6-19)。

(1)简单搜索。使用方法与上相同。

(2)按类别搜索文件。在输入框里输入如上说明的匹配串,点击“分类搜索”下的各种类型,如“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目

录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。

(3)使用快捷方式。天网搜索引擎为用户常用的搜索提供了快捷方式,使用起来极为简单,直接点击快捷方式下你要的内容即可。目前有快捷方式: “电影”、“MTV&动画片”、“MP3音乐”、“gif动画”、“flash电影”。

3. FTP复杂搜索

从FTP检索页面里点击“更多选项”进入FTP复杂搜索页面(见图6-20)。在复杂搜索页面里,如果没有填写或者没有选择,表示使用缺省值。

(1)文件大小过滤:在“文件大小”的两个下拉列表里选择文件大小的范围。

(2)文件日期过滤:在“文件日期”里填入日期的起始时间“****年**月**日之后”和日期的终止时间“****年**月**日之前”。

(3)页面显示个数:在“最大显示数”里选择结果页面每页显示的个数。

(4)文件类型:在“文件类型”的下拉列表里选择限制的文件类型。比如:“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”。

(5)限定搜索的站点范围:FTP搜索引擎在系统指定的FTP站点范围内建立搜索索引,用户可以在“请您选择要限定的站点(不选则为全部站点): ”下方选择一个或者几个自己喜欢的或者对你而言速度比较快的FTP站点,如果不选择则表示在所有站点里搜索。

当在输入框输入要查找的文件名,并完成上述需要的过滤条件设定后,点击“开始搜索”即在指定的条件下进行搜索。

图6-19 FTP检索页面

图6-20 FTP复杂搜索页面

4. FTP搜索结果页面的使用

(1)结果页左上角的“天网搜索”图片有连接到“天网主页”的链接,点击即可回到主页。

(2)页面右上方是“在结果中查询”或者“新搜索”的表单。如果想在结果中继续深入查询,请在输入框内输入新的字串,点击“在结果中查找”即可;如果想进行附加条件与当前相同而查询串不同的搜索,请在输入框内输入新的字串,点击“新的搜索”。

(3)换页链接:当结果数很多而在一个页面无法显示完的时候,系统自动生成换页链接,请在“选择页面”右方点击要切换的页面的结果起始号,或者“上一页”、“下一页”链接。

(4)结果显示:每个结果前的图标是该文件的文件类型图片,表示“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”或者表示搜索引擎系统未定义的文件类型;图标后是文件名,点击可以打开文件;文件名后是文件的创建时间和文件的大小;文件名下方是该文件所在的目录,点击可以在新的窗口里打开该目录。

常用中文搜索引擎对比

几大常用中文搜索引擎的对比 随着互联网的不断发展扩大,网络上中文信息资源和上网的中文用户也大量增加,各类中文搜索引擎更是层出不穷。以下我选取了Google中文,百度,搜狗,必应这几个常用的中文搜索引擎进行较为粗浅的比较。 先比较一下各搜索引擎的特点。Google中文:包括网页、图片、新闻搜索,支持个性化搜索及本地搜索,提供论坛、邮箱、日历服务和桌面搜索工具,是万维网上最大的搜索引擎,但Google中文在中国却一直受到百度搜索的压制,最终由于黑客攻击和敏感词过滤问题退出中国内地转至香港。百度:是全球最大的中文搜索引擎,除网页搜索外,还提供MP3、文档、地图、传情、影视等多样化的搜索服务,率先创造了以贴吧、知道为代表的搜索社区,是目前国内最大的商业化全文搜索引擎。搜狗:搜狗是全球首个百亿规模中文搜索引擎,收录100亿网页,创造了全球中文网页收录量新高,搜狗以网页搜索为核心,在音乐、新闻、图片、地图等方面提供了垂直搜索服务,通过说吧建立用户间的搜索社区,2010年8月搜狐与阿里巴巴宣布将分拆搜狗成立独立公司,引入战略投资,注资后的搜狗有望成为仅次于百度的中文搜索工具。必应(bing):必应是微软公司09年新推出的中文搜索引擎。主打快乐搜索体验。

接着从各方面对比:1.外观排版:Google、百度、搜狗的外观都是以简单的白色背景为主,而必应的背景是一副定期更换的图片,乍看比较新鲜,可是用习惯后我发现搜索引擎还是简洁一点好。不同于其他3家“相关搜索”出现在搜索结果的底部,必应在网页左侧和底部都出现了“相关搜索”,虽然略显重复,但在一定程度上为用户提供了方便。2.搜索结果:在这4家引擎同时输入“集美大学诚毅学院”,可以看到Google用时0.10 秒获得约62,900 条结果,百度用时0.018秒找到相关网页约55,000篇,必应没有显示用时找到共50,900 条,搜狗用时0.027 秒只有30,636条。可见在Google的搜索量大,而百度的时间最短,速度和数量比最好,搜狗略逊一筹3.搜索内容:四家网站的内容更新都比较及时,百度的优势在于很中国化很生活化,符合中国人的习惯。但它的内容的匹配度不如Google高,而且很商业化,广告和垃圾网站很多,适合搜索一般问题。Google专业搜索比较好,适合技术人员,学生教师,搜索范围较广。特别是Google的地图和翻译是其他搜索引擎无法比拟的。但是Google由于版权问题无法搜索MP3,这是个硬伤,因为搜索MP3在中国已经成为流行。Google的死链率也比较高,中文网站检索的更新频率不够快,“网页快照”功能在国内经常出现不可访问的问题。搜狗较多的被用在搜索新闻,音乐,电影上,娱乐性强,商机搜索和说吧也很有特色。必应搜索与传统搜索引擎只是单独列出一个搜索列表不同,微软还会对返回的结果加以分类。但必应默认搜索结果只显示5页,其他搜索引擎都是10页,在点击到第五页的时候,会自动出现9页结果,这显然

Java开源搜索引擎分类列表

Java开源搜索引擎分类列表 Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。 Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。 更多Egothor信息 Nutch Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 更多Nutch信息 Lucene Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。 更多Lucene信息 Oxyus 是一个纯java写的web搜索引擎。 更多Oxyus信息 BDDBot BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。 更多BDDBot信息 Zilverline Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline 可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。 更多Zilverline信息 XQEngine

中外主流搜索引擎中文搜索能力对比研究

收稿日期:2005-05-30 作者简介:徐雪梅(1967-),副研究馆员,发表论文多篇。 国外著名的搜索引擎纷纷进军中文搜索市场,中文搜索市场的竞争越来越激烈。通过中外主流搜索引擎中文搜索能力的对比分析,找出国内搜索引擎的优势和存在的不足,为国内搜索引擎的发展和用户的使用提供借鉴。 1研究对象 从2005年5月开始,Cwrank根据Alexa排行榜 修正的[1]全球排行榜、[2]中国排行榜以及[3]互联网实验室,依据《互联网实验室CISI网站评测体系》中的评测原则将Alexa排行榜进行过滤,从提供的2005年每月的过滤版可知,内地著名的门户网站有:新浪、搜狐、网易、3721、TOM、21CN、中华网、上海热线等,它们历年提供搜索服务所使用的搜索技术如表1。 从表1可以看出,2005年专业搜索引擎中国搜索以及一搜虽为其他著名门户网站提供搜索技术支 持,但提供技术支持的门户网站数比百度少,且在 2005年Cwrank[1,2]与互联网实验室[3]的排行榜上,都 排在百度之后,故选取百度作为国内专业搜索引擎的代表。 2005年3月Nielsen/NetRatings发布的数据显示[4] ,2000年开始中文搜索服务的Google继续在搜索领域排名首位。曾经先后为Yahoo、AOL等国际知名网站提供搜索技术服务,目前为网易、AOL、A-mazon、AskJeeves、Earthlink、Cisco(思科)、P&G(宝洁)、T-Online(Europe)、网景Netscape等国内外 著名的网站和公司提供搜索技术服务,支持简体中文和繁体中文网页的搜索,故选取Google为国外专业搜索引擎的代表。 2检索功能比较 检索功能体现搜索引擎的质量和技术水平, Google、百度的检索功能见表2、表3、表4。 中外主流搜索引擎中文搜索能力对比研究 徐雪梅1,刘雁书2,兰小筠2 (1.南华大学图书馆,湖南衡阳421001; 2.中南大学医学技术和情报学院,长沙410013) 摘 要:通过中外主流搜索引擎Google、百度中文搜索能力的对比分析,找出国内搜索引擎的优势和存在的不足, 为国内搜索引擎的发展和用户的使用提供借鉴。关键词:中文搜索引擎;搜索能力;搜索效果中图分类号:G254.1 文献标识码:B 文章编号:1002-1248(2005)09-0084-06 StudyontheComparisonofChineseSearchCapacityofMajorSearchEnginesbetweenChinaand theForeignCountries XUXue-mei1,LIUYan-shu2,LANXiao-yun2 (1.Library,NanhuaUniversity,Hengyang,Hunan421001,China; 2.SchoolofMedicalTechnologyandInformation,CentralSouthUniversity,Changsha410013,China) Abstracts:ThroughthecomparisonanalysisoftheChinesesearchcapacityofmajorsearchenginessuchasGoogleandBaidubetweenChinaandabroad,thepaperhasfoundtheadvantagesandexistingdisadvantagesofdomesticsearchengine,whichhasprovidedreferencethedevelopmentofdomesticsearchengineandtheutilizationbydomesticusers.Keywords:Chinesesearchengine;searchcapacity;searcheffect 农业图书情报学刊 第17卷第9期Vol.17’No.9JournalofLibraryandInformationSciencesinAgriculture 2005年9月 Sep.2005

小学语文《身边那些有特点的人》创新教案

创新教案《身边那些有特点的人》 第二课时:展示修改 一、欣赏佳作 1.出示学生的一篇优秀作品: 请作者朗读,其他同学边看、边听、边思考: (1)写谁?人物有什么特点? (2)什么事表现了这一特点和品质? (3)哪些细节描写生动地体现来这一特点? 2.交流归纳: 作文就是这样简单、快乐,只要你仔细观察生活,就会发现身边有很多有趣的人、事、物,记录下来,就是一篇作文。写好一个人,只要写一件能够表现他特点的事情,并且抓住人物的动作、语言、心理来写,你写的这个人就会活灵活现地站在文中了。 3.展示作品: (1)孩子们,每个同学的作文都有自己的优点,说说这次作文中,哪些地方你认为写的不错?可以是一段话、可以是一句话、可以是一个词语、可以是一个标点,只要你认为写得精彩,用得恰当的,都可以起来展示给其他小伙伴听听。 (2)学生展示自己作品中的得意处。 二、修改问题较多的习作一篇 1.投影展示习作。 2.评议: (1)什么地方需要修改? 如:格式、标点、词语的运用、句子是否通顺、选择的事例是否典型、事情的叙述是否清楚…… (2)师生共同修改,体验修改的好处和乐趣。 三、再次修改自己的习作,并将修改后的自豪地读给伙伴听听 四、将自己的作文配上美丽的插图,张贴在教室里,和大家一起分享作文的快乐 〖板书设计〗 写自己熟悉的一个人 语句通顺

抓住人物的特点 写出人物的神情、动作、语言、心理 第六单元教学初探 一、单元内容总述 1.本单元主题:本单元主题是“童年生活”,全单元主要包括《童年的水墨画》、《一只窝囊的大老虎》、《肥皂泡》和《我不能失信》四篇课文,目的是引导学生学会用多种方法理解难懂的句子,感受童年生活的丰富多彩。 2.本单元重点: (1)运用多种方法理解难懂的句子。学习《童年的水墨画》时要注意联系上下文来理解诗句的意思。《剃头大师》前后充满趣味和无奈,结合生活经验理解小沙“怕剃头”的感受。《肥皂泡》全文质朴优美,阅读时要联系上下文,并查找资料理解“五色的浮光,在那轻清透明的球面上乱转”。《我不能失信》讲述了很常见的故事,记得结合课文内容来联系生活实际,理解句子“一个人在家,是很没劲。可是,我并不后悔,因为我并没有失信”。教学时,教师要引导学生运用多种方法理解难懂的句子,理解课文内容,感受童年生活的美好。 (2)写一个熟悉的人,尝试写出他的特点。本单元安排了习作《身边那些有特点的人》,找出关键词,抓住人物的主要特点练习写作。 3.单元教学建议:学会运用联系上下文、查找资料、联系生活实际等多种方法理解难懂的句子,理解和感悟童年生活。

英文十大搜索引擎 十大搜索引擎排名

英文十大搜索引擎十大搜索引擎排名 中文搜索引擎 Google搜索引擎(https://www.doczj.com/doc/9f4354341.html,/) 目前最优秀的支持多语种的搜索引擎之一,约搜索3,083,324,652 张网页。提供网站、图像、新闻组等多种资源的查询。包括中文简体、繁体、英语等35个国家和地区的语言的资源。 百度(baidu)中文搜索引擎(https://www.doczj.com/doc/9f4354341.html,/) 全球最大中文搜索引擎。提供网页快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、新闻搜索、Flash搜索、信息快递搜索、百度搜霸、搜索援助中心。 北大天网中英文搜索引擎(https://www.doczj.com/doc/9f4354341.html,/) 由北京大学开发,简体中文、繁体中文和英文三个版本。提供全文检索、新闻组检索、FTP 检索(北京大学、中科院等FTP站点)。目前大约收集了100万个WWW页面(国内)和14万篇Newsgroup(新闻组)文章。支持简体中文、繁体中文、英文关键词搜索,不支持数字关键词和URL名检索。 新浪搜索引擎(https://www.doczj.com/doc/9f4354341.html,/) 互联网上规模最大的中文搜索引擎之一。设大类目录18个,子目1万多个,收录网站20余万。提供网站、中文网页、英文网页、新闻、汉英辞典、软件、沪深行情、游戏等多种资源的查询。 雅虎中国搜索引擎(https://www.doczj.com/doc/9f4354341.html,/) Yahoo!是世界上最著名的目录搜索引擎。雅虎中国于1999年9月正式开通,是雅虎在全球的第20个网站。Yahoo!目录是一个Web资源的导航指南,包括14个主题大类的内容。 搜狐搜索引擎(https://www.doczj.com/doc/9f4354341.html,/) 搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。每日页面浏览量超过800万,可以查找网站、网页、新闻、网址、软件、黄页等信息。 网易搜索引擎(https://www.doczj.com/doc/9f4354341.html,/) 网易新一代开放式目录管理系统(ODP)。拥有近万名义务目录管理员。为广大网民创建了一个拥有超过一万个类目,超过25万条活跃站点信息,日增加新站点信息500~1000条,日访问量超过500万次的专业权威的目录查询体系。 3721网络实名/智能搜索(https://www.doczj.com/doc/9f4354341.html,/) 3721公司提供的中文上网服务――3721"网络实名",使用户无须记忆复杂的网址,直接输入中文名称,即可直达网站。3721智能搜索系统不仅含有精确的网络实名搜索结果,同时集成多家搜索引擎。

中文搜索引擎与国外搜索引擎的区别

来源Windows8论坛:https://www.doczj.com/doc/9f4354341.html, 中文搜索引擎与国外搜索引擎的区别 因特网上的科学信息和电子杂志的总量在持续增长,整个网络可看作是一个可以检索的150亿单词的大电子百科全书。但是这些信息是极其无序的,如何获取和利用因特网上的信息已经成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。 因特网上的信息呈几何级数增长,快速有效地查询一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。 所谓搜索引擎,是指因特网上的在万维网(WWW)中主动搜索信息并能起自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内取得大量的文献成为可能。 中文搜索引擎概述 中文搜索引擎的出现是最近几年的事情,但发展很快。它的性能究竟如何,能检索到的信息有多少,因特网上的中文信息或网页知多少,这些都是值得关心的问题。 目前中文引擎共有约80多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎。由于语言、文化上的差异,中文搜索引擎必然与国外的搜索引擎有所不同。中文搜索引擎有两个特点。1.内码:由于历史原因,目前世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系,例如祖国大陆用的是GB码,而中国台湾地区则用BIG5码,字符集的大小也不尽相同。

搜索引擎对比

百度、谷歌、搜狗、有道四大搜索引擎的比较分析学校:中南财经政法大学学号:2009357770832 姓名:李心彤 随着经济与科技的发展,信息对于人们来说越来越重要,而随着计算机的普及,人们利用搜索引擎来获取信息也是越来越频繁。因此,国内外的几家搜索引擎展开了角逐,在各自领域努力发挥着自己的优势。本文通过对百度、谷歌、搜狗、有道四大搜索引擎的个人化体验,对其作出比较与分析。体验主要从以下几个方面进行: 一、政治敏感度

搜索引擎百度搜狗有道谷歌 词条数量323 1433 43 69100 可以看出,在搜索较为敏感的政治事件时,各大搜索引擎表现出极大的不同。作为国内最大用户最多的百度搜索引擎,是唯一一个表现出明确屏蔽态度的搜索引擎,会在搜索框下方显示“根据相关法律法规和政策,部分搜索结果未予显示”,且其搜索数量也是几个搜索引擎中较少的。同时,在搜索出来的词条中,再未显示关键词中的任何一个字,仅在具体内容中偶有一两个相同字眼。可见百度对政治敏感内容十分顾忌。 而搜狗则在搜索页的最末用灰色字体显示“根据相关法律法规和政策,部分搜索结果未予显示”,不太能够引起人的注意。其搜索结果虽然在四个引擎中排名第二,但仍然并不算多。且其跟百度一样,搜索出来的结果中并未出现过多的关键词。 有道虽然是所有引擎中结果数量最少的,但出人意料的是,有道所搜索出来的前几个词条,是完全符合搜索词的。虽然其具体内容皆无法打开,但不得不说有道是国内引擎中最大胆的。 而谷歌作为国外开发的搜索引擎,一向对政治事件十分随意,因此,我们不难从图片中看出搜索政治敏感事件时,谷歌就像搜索随意的生活内容一样将各项结果显示,且有些资源是来自于国外的网站。但是具体点击时,视频、图片以及部分文字类内容明显在检测和过滤后是打不开的,且检测与过滤速度十分缓慢。但是,部分论坛里的讨论、对事件阐述并不太多也不太高调的文字类内容还是能够得以显现。 笔者随后更换搜索的关键词,使其更多与国家政治领导人相关,其搜索结果为: 搜索引擎百度搜狗有道谷歌 词条数量80200 3986 99 117000

中国各地区经济发展评价

中国各地区经济发展评价 [摘要] 采用因子分析的思想和方法对2007年我国各地区的经济发展水平进行了合理的分析和评价,并在评价结果的基础上,对我国地区经济全面健康发展,科学规划产业布局,优化产业结构等方面提出了相应的政策建议。 [关键词] 因子分析地区经济发展评价 一、引言 当今世界已步入了全球性经济大协作,资源市场大竞争,经济循环一体化时代。地区作为国家的经济、政治、科学和教育文化的中心,它已成为经济循环的主角,而决定每个地区在激烈市场搏击中的地位、作用、未来的发展趋势的主导因素是它们各自拥有的经济发展水平。因此,如何分类、比较和研究地区经济发展水平,以便有针对性地制定地区经济发展战略,对促进国民经济协调发展有着重要的意义。 本文利用因子分析法对2007年我国各地区的经济发展进行评价和比较研究。在遵循选取评价指标原则的基础上,根据专家在经济发展方面的历史资料,选取了反映经济发展的以下八项指标: :人均国内生产总值(亿元),:第三产业值(亿元),:工业总产值(亿元),:固定资产投资(亿元),:财政总收入(万元),:外商及港澳台投资企业总产值(亿美元),:各类专业技术人员(万人),:进出口总额(万美元)。 二、对指标数据的因子分析 根据上述指标体系,选取2007年我国各地区对应指标的数据,数据来源于《2008年中国统计年鉴》。按照因子分析方法的实现步骤,运用SPSS12.0统计分析软件,首先对数据

资料是否符合因子分析方法的要求进行判断,采用软件中KMO and Bartlett‘s Test检验方法,结果表明,Bartlett值为407.358,P0.0001,即指标数据的相关矩阵不是单位阵,故考虑进行因子分析;Kaiser-Meyer-Olkin Measure of Sampling Adequacy是用于比较观测相关系数与偏相关系数值的一个指标,其值越接近于1,表明对这些变量进行因子分析的效果越好,KMO值为0.825,意味着因子分析的结果较好。 1.因子分析的基本过程 首先,对原始数据标准化,以消除量纲的影响;然后建立指标间的相关系数阵R。其次,求出相关系数阵R的特征值和特征向量。第三,建立指标变量旋转后的因子载荷矩阵。第四,根据因子得分系数,建立因子得分矩阵。第五,根据因子得分矩阵建立三个因子的得分模型: 构制综合得分评价模型: 计算综合得分结果分析 为了便于相关政府部门因地制宜地制定区域经济发展战略,利用综合评价模型对2007年我国各地区的经济发展水平作出评价,列出各市的经济发展水平的因子得分和综合得分,并根据得分高低进行了排序,结果见下表。 1)对第一主因子得分进行分析 由上表可以看出,分列前三位的山东、河南、江苏经济发展较快,尤其是山东得分明显领先。不难从该因子的组成中发现,山东的第三产业值,工业总产值,固定资产投资,各类专业技术人员等指标位居2007年前列,而这些指标在第一主因子中占有较大载荷。因此山东经济发展水平与其投入产出是密切相关的。大量的投入产出极大地促进了山东经济的快速发展。 (2)对第二主因子得分进行分析 广东在利用外资、对外贸易,地理位置上都占有一定的优势,其中在外商及港澳台投资

Sphinx 全文搜索引擎

Sphinx 全文搜索引擎 1:索引与全文索引的概念 数据库中,表中的行特别多,如何快速的查询某一行,或者某一个文章中的单词, 索引--->查询速度快 全文索引-->针对文章内容中的单词各做索引 2:mysql支不支持全文索引? 答:支持, 但是 A:innoDB引擎在5.5,及之前的版本不支持(5.7实测可以在innodb上建fulltext),只能在myisam 引擎上用fulltext B: mysql的全文索引功能不够强大 C: 无法对中文进行合理的全文索引----- mysql.无法进行中文分词. 注意: 全文索引的停止词 停止词是指出现频率极高的单词, 不予索引. 如果某单词出现频率50%以上,列为停止词 或者是经过统计的常用词,也列为停止词---如is, are , she, he, this 等等 就像中文中: “的”,”是”,”呵呵” 总结: 我们要对中文做全文搜索引擎,需要解决2个问题 1: 性能提高,用第3方的全文搜索引擎工具,如sphinx, solr等 2: 中文分词! (如mmseg)

编译安装sphinx+mmseg == coreseek 官网: https://www.doczj.com/doc/9f4354341.html, 0: 安装工具包 yum install make gcc gcc-c++ libtool autoconf automake imake libxml2-devel expat-devel 1: 下载解压源码,ls查看 csft-4.1 mmseg-3.2.14 README.txt testpack 其中-- csft-4.1是修改适应了中文环境后的sphinx Mmseg 是中文分词插件 Testpack是测试用的软件包 2: 先安装mmseg 2.1: cd mmseg 2.2: 执行bootstrap脚本 2.3: ./configure --prefix=/usr/local/mmseg 2.4: make && make install 3: 再安装sphinx(coreseek) 3.1: 到其目录下执行buildconf.sh 3.2: ./configure --prefix=/usr/local/sphinx --with-mysql=/usr/local/mysql --with-mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg/lib/ 3.3: make install Sphinx的使用 分三个部分: 1: 数据源---要让sphinx知道,查哪些数据,即针对哪些数据做索引(可以定义多个源) 2: 索引配置--针对哪个源做索引, 索引文件放在哪个目录?? 等等 3: 搜索服务器----sphinx可以在某个端口(默认9312),以其自身的协议,与外部程序做交互. 具体的步骤: 1: 数据源典型配置 source test { type = mysql sql_host = localhost sql_user = root

中文智能搜索引擎

中文智能搜索引擎 龙其 072349

摘要 飞速发展的Internet给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点。本文通过搜索引擎概述及原理介绍中文智能搜索引擎,从中文分词技术;词性标注及词义分析;分类器设计检索模型;PageRank排序技术;研究现状和发展趋势等内容对中文智能搜索引擎进行介绍。 搜索引擎概述及原理 搜索引擎是以Web页面为检索文档的信息检索系统,它的核心就是信息检索技术。广义地说,搜索引擎就是指在指互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统。 搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。 搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库。一般来说,搜索引擎得原理可以看做三步:从互联网中抓取网页;建立索引数据库;在索引数据库中进行搜索排序。 (1)互联网中抓取网页:通过网页搜索工具Spider(蜘蛛)或Robot(机器人)等自动访问互联网,沿着URL搜索,并把搜索到的信息带回搜索引擎。 (2)建立索引数据库:通过对收集的网页信息进行分析,把这些相关信息进行分类索引建立索引数据库。 (3)在索引数据库中进行搜索排序:通过Web服务端软件,获得用户输入关键词后,有搜索程序从网页数据库中找到符合该关键词的相关网页。为用户提供浏览界 面下的查询信息。 搜索引擎结构图

中文智能搜索引擎 1.中文搜索引擎 中文搜索引擎是指以Interent网络上的中文信息为主要对象,提供信息的自动收集、自动过滤、自动索引中和检索导航等服务的搜索引擎。中文Internet搜索引擎的最关键组件是能够在海量中英文数据上进行高效全文检索的信息管理系统。中文搜索引擎的机制同英文搜索引擎大致相同,不同的是多了中文语言的处理技术,这主要是中文分词技术和汉化技术。 逻辑上,中文信息搜索引擎与与一般搜索引擎一样分为三个部分:网页搜索引擎,索引引擎和查询引擎。 2.智能搜索引擎 传统搜索引擎局限:传统搜索引擎主要采用网站分类技术和全文检索技术来实现信息查询,前者成本高,对网站描述也比较简单,不能升入网站内部细节。而后者效率比较低且返回信息过多。 传统搜索引擎所使用的技术都难以解决用户“找信息难”的问题,造成这种困难的实质在于搜索引擎缺乏知识处理能力和理解能力。因此要把信息检索从基于关键词层面提高到基于知识层面。 智能搜索引擎,它突破传统搜索引擎基于要求较精确的关键词层面信息检索的局限,发展到基于以不规范、不精确的自然形式出现的知识(或概念)层面来分析和处理用户的查询提问,具有良好的自然语言理解、知识处理能力,在信息检索过程中体现出很强的智能化与人性化优势。 3.中文智能搜索引擎 采用智能搜索引擎得方法实现对中文信息的检索。中文智能搜索引擎可以自动分析中文网页,进行自动分词处理,并自动提取关键词,建立一关键词为基础的查询数据库,降低了系统开销,大大提高了查询效率。它通过充分考虑中文语句的表达结构以及“口语化的提问,智能化的结果”来满足用户的各种查询需求。 中文智能搜索引擎功能结构图大致如下:

关于地区经济发展水平的综合评价方法

关于地区经济发展水平的综合评价方法 摘要 本文以多元统计分析中主成分分析的方法为基础,对我国16个省份经济发展水平的7个主要指标进行分析评价,为了处理不确定环境下的综合评价问题,进一步明确各项指标的权重系数,提出了一种基于蒙特卡罗仿真思想的随机模拟综合评价方法, 将点赋值的序关系法推广至区间赋值的情形。基于随机模拟的思想, 依据经典的综合评价过程, 模拟反映被评价对象之间优劣关系的优胜度矩阵,在此基础上, 给出各被评价对象之间的最佳排序。通过实证分析,得到该种方法比主成分分析更为有效。 关键词:主成分分析,随机模拟,综合评价 Abstract The paper is based on the principal component analysis which is a kind of the multivariate statistics analysis methods. It aims at studying and comparing with the 16 provinces’economic development level with the seven major indicators. But for solving the uncertain problem ,we want to make sure The weight of each indicator coefficient further, so a comprehensive evaluation method based on Monte Carlo simulation which is therefore presented, where the dot assignment can be extended to the interval assignment. Based on the stochastic simulation and according to the classical comprehensive evaluation process, the superiority matrix reflecting the relation between the superiority and inferiority of the object s being evaluated is simulated. Then, the optimal ranking of all the objects to be evaluated is given. Finally, using the case analysis, we draw a conclusion that stochastic simulation is more efficient. Key Words:principal component analysis, stochastic simulation, comprehensive evaluation

几个搜索引擎特点比较

几个搜索引擎特点比较 By 不走的时钟发表于 2006-5-1 14:10:23 搜索引擎特点比较 在互联网不断走向成熟的今天,新的利润增长点在哪里?Google,百度在纳斯达克的神话,使得越来越多的人将目光投向了搜索引擎行业。同时在信息大爆炸的时代里,人们对网络信息的处理也越来越借重于许许多多的各种各样的搜索引擎。在这里,我仅仅是将几个我们较为常用的搜索引擎加以粗略的比较,希望对大家的选择和使用有所帮助。 一、Google 首先要讲述的就是世界搜索引擎的老大google了。Google 依据网络自身结构,清理混沌信息,缜密组织资源。Google 的搜索服务绝不仅仅是简单的信息目录。而且Google 目录中收录了 10 亿多个网址,这在同类搜索引擎中是首屈一指的。这些网站的内容是相当涉猎广泛的。 与大多数其它搜索引擎的区别在于:Google 只显示相关的网页,其正文或指向它的链接包含您所输入的所有关键词,而无须再受其它无关结果的烦扰。Google 不仅能搜索出包含所有关键词的结果,并且还对网页关键词的接近度进行分析。与大多数其它搜索引擎的又一区别是:Google 按照关键词的接近度确定搜索结果的先后次序,优先考虑关键词较为接近的结果,这样可以为您节省时间,而无须在无关的结果中徘徊。Google 最擅长于为常见查询找出最准确的搜索结果。其中“手气不错(tm)”按钮是最有特色的,它会直接带您进入最符合搜索条件的网站,相对省时又方便。Google 储存网页的快照,当存有网页的服务器暂时出现故障时您仍可浏览该网页的内容。如果找不到服务器,Google 储存的网页快照也可救急。虽然网页快照中的信息可能不是最新的,但在网页快照中查找资料要比在实际网页中快得多。 二、百度 作为中文搜索引擎的老大,百度也有其及为独到的一面。其基于字词结合的信息处理方式,就相当巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。百度还支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。 百度的智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。百度搜索支持二次检索(又称渐进检索或逼进检索)也是其相当重要的特点。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。还有就是百度智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。 三、网易 在中国的搜索引擎市场当中,网易也是不可忽视的一股巨大的力量。对于己于人他搜索引擎而言,网易搜索也有其相当独特的特点。 首先是网易搜索引擎提供多语言检索,英语,日语,俄语等几十种语言关键词都可以直接输入搜索框检索网页资料。而不仅仅是单语种的搜索。其次,网易

习作·身边那些有特点的人(教案)

习作·身边那些有特点的人 教学目标: 1.理解什么是人物特点。 2.初步领会描写人物的基本要领:抓住人物的外貌,性格、兴趣爱好等方面的特点,按一定顺序写下来。 3.加一个精彩的题目。 教学重点:学会抓住人物的外貌、性格、兴趣爱好等特点,准确真实的描写人物形象。 教学难点:抓住人物的外貌、性格、兴趣爱好等特点,准确而真实的描写人物形象。教学准备:教师:准备范文。学生:观察自己身边有特点的人。 教学时数:1课时。 教学过程: 一、猜谜导入,揭示课题。 同学们,今天咱们来玩一个猜谜游戏。看谁能根据大屏幕上的词语猜出人物形象。看谁的反应最快,猜出来的同学请举手。(大屏幕出示) 【设计意图:游戏导入,用耳熟能详的人物形象激发学生兴趣,揭题。】1.火眼金睛尖嘴猴腮头戴紧箍咒——孙悟空 同学们,眼睛,嘴巴,脸,这些都是孙悟空的外貌。所以咱们可以通过外貌猜出人物。(板书:外貌) 好,同样是《西游记》中的人物,再猜(大屏幕出示) 2.好吃懒做好色——猪八戒 好吃懒做是猪八戒的?性格。好色,就是喜欢女子。也就是爱好、兴趣。所以咱们还可以通过性格爱好来猜出人物。(板书:性格爱好兴趣)

小结:外貌,性格,爱好兴趣,这些都可以称之为人物特点。 二、深入理解“人物特点” 1.出示例文。 我们可以根据外貌猜出人物,大家看这段文字写的是谁? (出示例文)我有一头乌黑的头发,圆圆的脸上长着一双黑色的眼睛,鼻子下面有一张小小的嘴巴。 师:这是谁?生答不知。因为他的外貌没什么特别的地方。没特点。 好多人都长的是这个样子,这是一张大众化的脸谱,放在人堆里看没什么特别的。所以猜不出来。 师:那什么是特点呢?生:特殊的地方。 师:对特别之处。生:和别人不一样的地方。 2.理解什么是特点。 特点就是指的人或者物所具有的独特的地方。这个独特的地方,可以是外貌,也可以是性格爱好兴趣等。这都是特点。 (举例:)比如说:小红左侧脸颊上长了一颗美人痣,这就是她外貌的独特之处。小明特别爱看书,连上厕所的时候都拿着书,这是他的兴趣爱好,也是他的特点。再比如说我们班的郭辰嘉同学,平时非常喜欢帮助别人,一副热心肠,这也是他的特点。 同学们,你们有什么特点呢? 正是有了这些特点,才使得我们与众不同。著名的哲学家布莱尼茨曾说过,:“世界上没有两片完全相同的树叶,也没有性格完全相同的人。”所以咱们在介绍人物时,想让人一下子记住,就必须抓住最鲜明的特点。(板书:抓特点) 三、如何抓住特点来描写人物。

区域发展监测与评价诊断报告

区域发展监测与评价诊断 报告 The pony was revised in January 2021

《中国区域发展监测与评价》诊断报告 2005年中国区域经济发展诊断报告 (四大区域) 国家信息中心中经网 二00七年八月 目录 一、评价方法 (1) 二、评价结果 (1) 三、我国四大地区比较分析 (1) (一)东部地区比较分析 (2) (二)中部地区比较分析 (5) (三)西部地区比较分析 (6) (四)东北地区比较分析 (8) 四、诊断结果 (9) 五、政策建议 (10) 附:2005年全国31个省区市经济发展指数与排序 (12)

2005年中国区域经济发展诊断报告 (四大区域) 一、评价方法 本文将采用指数化方法来评价2005年我国各地区经济发展水平。根据我们设计的经济发展指数模型,把地区的经济发展从发展基础、发展结构、发展速度和发展效率四个方面来衡量,每个方面选用若干具体指标,然后采用专家打分法给各个指标赋予不同的权重,通过模型计算出各个地区的经济发展指数。 在我们的模型中,将2005年全国经济发展相关指标数据作为基准,各地经济发展指标数据都相应地进行了标准化处理。 二、评价结果 目前,我国基本形成东部沿海(包括北京、天津、河北、山东、江苏、上海、浙江、福建、广东、海南10个省),西部开发(包括内蒙古、新疆、甘肃、青海、西藏、宁夏、陕西、四川、重庆、云南、贵州、广西12个省),中部崛起(包括山西、河南、湖北、湖南、江西、安徽6个省)和东北振兴(包括黑龙江、吉林、辽宁3省)四大各有侧重的经济发展区域。 根据发展指数模型测算,2005年四大地区经济发展指数如下。 表1 2005年四大区域经济发展指数

我首选的中文搜索引擎

我首选的中文搜索引擎 1 中文搜索引擎有很多,例如:百度、新浪、搜狗、Google、雅虎、中国搜索、和讯等等,而我首选的是Google. Google的功能有搜索、手气不错、高级搜索、使用偏好、语言工具、更多、网页类型。而百度只有百度一下、帮助、高级检索、空间、更多,少了许多功能。Google 里的更多有搜索服务、探索与创新、分享与沟通等。搜索服务包含大学搜索、地图、快讯、图书搜索、网页目录、学术搜索、资讯。资讯的搜索和浏览的范围是1000多个资讯源的最新消息。资讯分为焦点、财经、科技、体育、娱乐、社会。它收集了各个网站的最近几个小时的相关资讯,它来自新华网、东方网、腾讯网等。例如,来自腾讯网的“2007年高考考生心态调查‘平和’成为最大关键词”。在完成指定检索实习题、记录检索结果的基础上,我了解了搜索引擎的一些特殊功能。Google的特殊功能;查找Flash 文件、网页快照、货币转换、计算器、相关搜索、类似网页、按链接搜索、指定网域、手气不错、错别字改正、天气查询、金融信息、邮编区号、手机号码、定义等。其中查找Flash 文件,只需搜索“关键词filetype:swf”。Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,您将看到Google 将该网页编入索引时的页面。Google 依据这些快照来分析网页是否符合您的需求。Google 相关搜索将帮助您更快地找到更有价值的结果。按下“手气不错”按钮将自动进入Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。用Google 查询中国城市地区的天气和天气预报,只需输入一个关键词(“天气”,“tq”或“TQ”任选其一)和您要查询的城市地区名称即可。Google 返回的网站链接会带给您最新的当地天气状况和天气预报。例如,要查找福州地区的天气状况,可以输入“天气”或“tq”命令,再点击《福州天气预报》,查出五月二十六最高气温是32摄氏度。Google返回的网页链接会给您最新的当地天气状况。利用特殊检索我查出5公顷等于74.9999963市亩,它的输入有两种方法,其中之一是5 公顷等于多少市亩,另一种是5 公顷=?市亩。一般检索有用逻辑与、使用Site(在特定的域或站点中进行搜索)、使用intitle(在网页标题中进行搜索)、使用filetype(限定文献类型搜索)、利用图像检索功能。用高级检索,查出人民网网站([HTTP]https://www.doczj.com/doc/9f4354341.html,[/HTTP]) 最近3个月以内搜索到的标题含有“亚洲金融危机”的网页,有37项,其中有第一网页“亚洲:金融危机卷土重来?”。学术检索是通过“更多”点击后才出现的,点击“学术高级搜索”,通过查找我院曾韶华老师2002以后在《发展研究》上发表的论文,查获篇数2篇。第一篇是《企业可持续发展的战略误区及财务反思》,第二篇是《我国上市公司股权融资偏好原因及危害》。“高级检索”可以节省我们查阅的时间,是一种很好的检索功能。百度的“常用检索”能提供“万年历”和“火车车次”等特殊型信息检索服务,而Google却没有,这是百度的一个优点。通过百度的“更多”点击“常用检索”,再点击“万年历”,查看万年历,查出1945年9月12日对应的农历日期:1945年8月初七。通过“火车车次”查出福州到黄山可乘坐的列车车次和始发时间,它的步骤是点击“更多”、“常用检索”、“火车车次”,再输入出发地以及目的地,再点击“查询车次”,得到车次K68/K69以及开车时间为14:29和K46以及19:19发车的“火车车次”。通过包含特殊符,并使该操作符合您需要的。依网页主旨分别归类,Google可分为休闲、体育、健康、参考、商业、地区、家庭、新闻、游戏、社会、科学、艺术、计算机、购物。通过点击这些,我们可以知道我们所需要查找的内容。通过上课的学习,以及课后的实践,我了解了许多中文搜索引擎,让我更懂得怎么使用网络,学习我课堂上不能学习到的知识。

《区域发展阶段》知识点剖析

《区域发展阶段》知识点剖析 探究点一衡量区域发展水平的指标 探究活动下表是某中学地理兴趣小组搜集的四个地区的经济数据,分析表中数据,思考下列各题。 (2)经济发展相对滞后的是____________,判断理由是_____________________________________________________________________ _______________________________。 (3)有人说“人均收入高的地区即为发达地区”,这种说法正确吗?为什么?答案(1)A、B属于发达地区。两地国内生产总值高,人均国内生产总值较高,第二、三产业比重较高。 (2)D 第一产业的比重较大,第三产业的比重较小,国内生产总值低 (3)不正确。衡量区域发展水平,常用的指标有人均国内生产总值、人均国民收入、三次产业产值比重等,人均国民收入只是其中一项,衡量区域发展水平需综合考虑。如中东一些以出口石油为主要收入的地区,虽然收入高,但经济基础薄弱,工业技术水平较低,因此不能看作是发达地区。 反思归纳区域发展水平的衡量指标 (1)常用指标

(2)为了全面地量度区域发展水平,人们设计了一些综合性的指标,如人文发展指数(HDI),就是通过预期寿命、教育程度和国内生产总值三项指标来反映一个区域的总体发展水平。 探究点二 区域发展的三个阶段 探究活动 阅读材料,完成下列各题。 材料一 在美国建国初期,匹兹堡只是一个普通的毛皮贸易场所。尽管附近有优质大煤田,但几乎无工业可言。19世纪中叶,随着美国东北部工业区的崛起,尤其是宾夕法尼亚运河的开通和铁路的修建,通过五大湖和运河运进苏必利尔湖附近出产的铁矿石,匹兹堡才逐渐发展成为美国的钢铁工业中心。 材料二 美国东北部工业区 (1)结合材料分析匹兹堡成为美国钢铁工业中心的区位条件。 (2)随着社会经济水平的发展,在工业化阶段,该地区的空间结构演化趋势是___________。 (3)在20世纪七八十年代,该区出现了人口大量外迁,试分析原因。 (4)经过综合治理,美国东北部工业区产生了新的增长活力,成为目前世界经济最发达的地区之一,目前该区发展特点有哪些? 答案 (1)煤铁资源丰富,水源充足,水陆交通便利,人口稠密,开发较早。 (2)不平衡加速发展状态

相关主题
文本预览
相关文档 最新文档