搜索信息的N种方法
- 格式:doc
- 大小:24.00 KB
- 文档页数:2
第五章信息检索的基本方法5.1 布尔逻辑检索Boolean logic由GEORGE BOOLE 1815-1864提出,目前大多数搜索引擎都采用与AND,*,&或OR,+ ,︱非NOT,—,!逻辑“与”:用关系词AND表示(可写作“*”或“&”)。
逻辑“与”表示AND 所连接的两个检索词必须同时在结果中出现才满足检索条件。
逻辑“或”:用关系词OR表示(可写作“+”或“︱”),逻辑“或”表示OR所连接的两个检索词只要有一个能出现在结果中就算满足了检索条件。
逻辑“非”:用关系词NOT表示(可写作“and not”“—”或“!”),逻辑“非”表示NOT后面的那个检索词一定不能在检索结果中出现。
例如:校庆AND 武汉大学高等教育* 中国湖南OR 湖北移动学习+ 泛在学习大学NOT 武汉大学玉米–甜玉米例如,用GFsoso检索,电子AND 读书笔记电子读书笔记OR 读书笔记软件5.2 位置限制检索临近检索(Proximity Search)以Dialog为例,收900多个数据库(1)PRE/0,P/0 表示前后词序不能颠倒,中间不能插入其他词,但可以插入符号。
With, (W)例如:Wuhan P/0 University(2)PRE/#,P/# 表示前后词序不能颠倒,中间可插入一定数量的单词,即插入#个单词。
例如:Wuhan P/1 University检索结果:Wuhan Medical University;Wuhan Agriculture University;Wuhan Technology University;(3)NEAR/0,N/0 表示前后词序可以颠倒,但中间不能插入单词。
例如:Wuhan N/0 University检索结果:Wuhan University;Wuhan – University;Wuhan ,University University, Wuhan; University-Wuhan; University Wuhan(4)NEAR/#,N/# 表示前后词序可以颠倒,中间可以插入#个单词。
网络信息检索技术网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、位置检索、限制检索等。
一、布尔逻辑检索逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。
布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与"(AND)、逻辑“或"(OR)、逻辑“非”(NOT)。
(一)逻辑“与”逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。
检索词A、B以AND (或“*")相连,即A AND B (或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率。
例如,要查找children education (儿童教育)方面的文献,检索逻辑式可表示为“children * education”或者“children AND education” o运算的结果是同时含有检索词children和检索词education的文献才被检索出来。
(二)逻辑“或”逻辑“或”,也称为逻辑加,用OR或者"+”表示,是用来组配同义或者同族检索词之间的并列关系。
检索词A、B若以OR或“+”相连,即A OR B(或A+B),表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。
因而逻辑“或” 运算可用于扩大检索范围。
例如,要查找“汽车”方面的文献,因为汽车在英语中可以用car或者automobile表示,所以为了将有关汽车的文献全部检出,避免漏检,检索逻辑式就可表示为“car OR automobile”或者“car + automobile” o运算的结果是含有car或者automobile任意一个或者同时两个的文献均被检索出来。
(三)逻辑“非”逻辑“非”用NOT或者"-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。
信息检索(Information Retrieval)(说明:1、本文仅介绍国内、网络、学术检索2、要学好信息检索,一定要多练习)学习要求:1、熟悉各类大型数据库的检索方法2、能够熟练搜索到网络上各类信息3、熟悉文中列出的网站,尤其是数学建模常用网站,能够检索到各类自己所需要的建模资料一、概念信息检索有广义和狭义之分,广义信息检索包括信息的存储(storage)和检索(retrieval)两个过程。
通常所说的信息检索是指狭义的检索,即依据一定的方法,从已经组织好的大量有关文献信息集合中,查找并获取特定的文献信息的过程。
两个重要指标:查全率、查准率(两指标相互抑制)。
信息素质的具体内涵包括:敏锐的信息意识;信息需求的能动性;有关信息源的知识;信息处理能力;对信息的理解与评价等内容。
二、信息检索的重要性1.掌握有效信息,避免科研重复2.提高信息素质,培养创新能力3.掌握可靠信息,进行科学决策文献检索--“不仅仅提供资料信息,更重要的是提供研究的思路”。
三、文献检索途径(部分)A.题名B.著者(作者)C.分类(中图法)D.主题E.关键词F.序号途径(如报告号、专利号、标准号、会议号等)ISBN号即国际标准书号(International Standard Book Number)。
其定长为10个数字,分四节,分别表示地域号、出版社号、该出版社出版图书的流水号及计算机校验位。
由ISBN号可知该书的语种区、出版社、流水号等出版信息。
G、摘要H、作者单位I、参考文献四、各类文献的检索方法与技巧信息按照出版形式和内容的不同,可分为图书、期刊、报纸和特种信息。
特种信息也叫灰色信息,包括学位论文、专利信息、标准信息、会议信息、科技报告、政府出版物、产品样品资料和档案,在收藏管理上往往与图书、期刊、报纸分开,分别管理。
(一)综合、全面的数据库(说明:下文各种特种信息大都也可在这些数据库中查到,将不再列出)1、中国知网(中国知识资源总库):/是全球领先的数字出版平台,全球信息量最大、最具价值的中文网,采用自主开发并具有国际领先水平的数字图书馆技术,建成了世界上全文信息量规模最大的"CNKI数字图书馆",现已发展成为集期刊杂志、博士论文、硕士论文、会议论文、报纸、工具书、年鉴、专利、标准、国学、海外文献资源为一体的、具体国际领先水平的网络出版平台,任何人、任何机构都可以在中国知网建立自己个人数字图书馆,定制自己需要的内容。
做搜索引擎优化的人都知道,好的搜索方法会提高搜索效率,那么在百度搜索时有哪些搜索方法呢?今天民营医院论坛的百度seo为大家总结以下十种搜索技巧,详情如下:1、百度搜索技巧之“-”百度支持减除不相关的资料的“-”功能,可以用于删除某些无关页面,注意建号前面必须要有空格例如:“A -B”意思就是说想在搜索A的同时屏蔽关于B的信息2、百度搜索技巧之“|”百度支持并行搜索功能来搜索例如:“A | B”意思是想要搜索包含A的信息或者包含B的信息比方说你要查询医院网络营销和民营医院论坛时,可以用”医院网络营销| 北岸时代时“来搜索,无需分两次查询,百度就会提供跟“|”前后任何相关关键词相关的网站和资料3、百度搜索技巧ntitleintitle的作用是把搜索范围限定在网页标题中,网页标题往往就是本篇内容的简要概括,将查询内容界定在网页标题中会起到很好的效果。
使用方法:把查询内容中,特别关键的部分用”intitle:“做前缀例如:想要查找标题中带有网络营销的如何优化长尾关键词的内容,您就可以如下:可以用如何优化长尾关键词intitle:网络营销,输入搜索框就可以查到想要得到的结果注意:“intitle:”后面不能有空格4、百度搜索技巧sitesite的作用就是将搜索范围界定在指定网站中,有时我们如果知道某一个站内就有自己想要的东西,那么我们就可以把这个界定界定到这个站内,来提高查询效率使用方法:是在查询内容的后面,加上site:站点域名例如:想要在中查找什么是站外推广,如何做好站外推广这篇文章就可以用:什么是站外推广,如何做好站外推广site:5、百度搜索技巧inurlinurl的作用是将搜索范围界定到Url链接中,有时我们会搜集比较多的同行网站,例如网站友情链接平台,他们所用到的系统和源代码都是一致的,那么我们在查找用这一源码的网站时就好多了,我们就可以用:【友情inurl:特定url】等等可以查到很多你想要的信息,速度极快而且准确度极高!6、百度搜索技巧双引号和书名号双引号和书名号的作用是将搜索范围更精确的指定到所要查的内容中,大家都知道我们在使用百度搜索内容时,很多时候会被拆分掉!双引号可以解决这一问题,可以更精准的找到您想要的信息例如:你想要查找【网站内锚文本】这个词的相关内容时,可以用“网站内部锚文本”来做搜索内容,这样的话您的关键词就不会被拆分开!书名号的作用呢其实也很好理解,在这里我们做个比方,我们想要找【爱情】这部电影的资料,但是你在搜索【爱情】时他会出现很多无关的网页,此时,您可以就可以用书名号《爱情》作为您的搜索内容来试一下!自己去到搜索引擎看吧,注意书名号只在百度中使用,其他搜索引擎会被当做字符,想想这可能就是百度标榜是最懂中文的搜索引擎的原因之一吧7、百度搜索技巧利用搜索引擎查找文档资料很多有价值的资料,在网上并非都是网页的形式,有的是以word、xls、powerpoint、PDF 等格式存在,百度支持对office文档、PDF文档、RTP文档进行全文搜索,要搜索这些文档,其实也很简单,只需要在搜索词后边加一个filetype:文件类型就可以了,例如查询医院网络营销方面的WORD文档,就可以这样写:医院网络营销filetype: DOC. 注意关键词后面要紧跟filetype:类型才可以,否则无效!当然你也可以使用百度文档搜索界面(),直接使用专业文档搜索功能8、百度搜索技巧『』用于查找论坛版块百度作为国人自己开发的搜索引擎,支持的中文标点符号最多。
1、简单查询在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。
2、使用双引号用(" ")给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。
例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页3、使用加号(+)在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。
4、使用减号(-)在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
5、使用通配符(*和?)通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。
例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。
6、使用布尔检索所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer 和book。
or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。
使用技巧1、简单查询在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。
2、使用双引号用给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。
例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。
3、使用加号(+)在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。
4、使用减号(-)在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。
5、使用通配符通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。
例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。
6、使用布尔检索所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer 和book。
or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。
信息检索技术方法及搜索引擎第一节:信息检索技术数字资源的检索技术布尔逻辑检索技术1截词检索技术2邻近检索技术3字段检索技术4布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法.主要的布尔逻辑关系词有:逻辑与(AND),逻辑或(OR),逻辑非(NOT)1 布尔逻辑检索技术逻辑与逻辑乘: "and"或"*"表示组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率. 逻辑或又称逻辑和:"or","+"组配方式:A OR B或者A+B,表示检索含有A词,或含有B词,或同时包含A,B两词的文章. 作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率.逻辑非又称逻辑差: "not" "-"组配方式:A-B,表示检索出含有A词而不含有B 词的文章.作用:逻辑非用于排除不希望出现的检索词,它和"*"的作用相似,能够缩小命中文献范围,增强检索的准确性.例如检索:"打印机驱动程序"查询关键词:打印机,驱动程序检索表达式:打印机 AND 驱动程序例如检索:"微型计算机"方面的有关信息查询关键词:微型计算机,微机检索表达式:微型计算机OR 微机布尔逻辑检索举例布尔运算符优先级比较有括号时:括号内的先执行;无括号时:NOT > AND > OR例:检索"唐宋诗歌"的有关信息.关键词:唐,宋,诗歌;检索表达式:(唐 OR 宋)AND 诗歌;唐 AND 诗歌 OR 宋 AND 诗歌;错误表达式:唐 OR 宋AND诗歌;唐 AND 宋AND诗歌;唐 OR 宋OR诗歌;唐AND 宋OR诗歌;布尔逻辑运算符优先级请注意在不同的数据库中,所使用的逻辑符号可能是不同的,有的用"and,or,not" 有的用"*,+,-". 一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中.一些网络检索工具如搜索引擎甚至用"〕,,,-"(即空格,逗号,减号)来表示.主要应用于西文数字资源的检索定义:是指在检索式中用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化.作用:主要是提高查全率截词符一般用" "或"*"表示2 截词检索技术截词位置按截词位置可分为前截词,后截词,前后截词和中间截词;按截断字符数的不同,可分为有限截断和无限截断.右截词,又称后截词,前方一致.允许检索词尾有若干变化.例如comput*将检索出computer ,computing,computerised,computerized,computerization等结果.中间截词,又称前后方一致.允许检索词中间有若干变化.例如wom*n,检索到woman,women的结果.英美的不同拼法,defen*e可同时检出defence和defense的结果.左截词,又称前截词,后方一致,允许检索词前有若干变化,例如*physics就可检索到physics,astrophysics,biophysics,chemophysics,geophysics等词的结果.前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有若干变化形式.如computer 可检索computer,computers,computerize,computerized,computerization,minicomputer,minicom puters,microcomputer,microcomputers等结果.请注意在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用" ",有的用"*",有的用"#",用的用"$"等.即便常用的" "和"*"在不同的数据库中其用法也是不一定相同的.在允许截词的检索工具中,一般是指右截词,部分支持中间截词,左截词比较少见.我们将要使用的一些数据库,一般用"*"代表一个字符串,用" "代表任意一个字符.邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置. 例如检索"生物防治"的文献,若用检索式"biological*control"检索,则会将"抑制生物"(control biological)的文献也查出来,这显然不是所需文献.主要有相邻位置算符(W),(nW),(N),(nN),句子位置算符(S),字段算符(F).3 邻近检索技术(W) 算符(W)是with(word)的缩写,表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号.如biological (W) control相当于检索biological controlCD (W) ROM相当于检索CD ROM或CD-ROM.(nW) 算符(nW)是n words的缩写,表示此算符两侧的检索词之间允许插入最多n个词,且词序不可变. 如wear (1W) material相当于检索wear materials,wear of materials等.(N)算符(N)是near的缩写,表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号.information(N)retrieval可检出: information retrievalretrieval information(nN)算符(nN)表示两词间可插入最多n个词,词序可变.如检索式environment (2N) protection 就可检索出包含"environment protection","environment of the protection ","environment of water protection","protection of forest environment"(S),(F)算符(S)是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限.(F)算符:在联机检索中还有对同字段进行检索的(F)算符.(F)表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限.用此算符时须指定所要查找的字段,如题名字段,文摘字段,叙词字段等.例如digital (F) computer/TI表示在题名字段(TI)中同时出现这两个检索词的才算命中信息.字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进行查找.3 字段检索技术数据库中的字段包括TI(题名),AB(摘要),DE(主题词),ID(标识词),SU(主题词),KW(关键词)AU(著者),BN(国际标准书号),SN(国际标准刊号),CC(分类类目),CS(机构),DT(文献类型)或PT(出版物类型),JN(刊名)或JA(刊号),LA(语种),PY(出版年),SO(来源出版物)注意:不同的数据库其字段代码可能不同.举例在EBSCO数据库检索中,某一用户需检索有关"数字图书馆与信息检索,参考咨询"方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题为信息检索information retrieval或参考咨询reference,请编制其检索策略(检索式).(ti:digital librar* or ab:digital librar*) and su:(reference or information n2 retrieval)第二节:信息检索方法信息需求分析选择信息资源选定检索词构造检索表达式确定检索途径对检索策略进行调整实施并输出检索结果1 信息需求分析分析信息检索目的,制定检索目标.分析所需信息涉及的学科,确定检索的学科范围.分析所需信息的类型,年代,确定检索的信息类型和年代范围.2 选择信息资源(数据库的选择)数据库的类型学科范围时间范围3 选定检索词分析主题,找出课题所包含的显性概念和隐含概念.找出核心概念,排除无关概念和重复概念.从待检数据库和检索工具的词表中选取规范化的词或词组.选用上位词,近义词或下位词作为检索词.4 构造检索表达式分析检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式.找出在编制检索提问式时,准确,合理地运用位置逻辑算符,截词符,字段符等技术是编制检索式的基本要求.5 确定检索途径第一类是表示主题概念的检索词---主题词,包括标题词,单元词,叙词,关键词.第二类是表示学科分类的检索词,如分类号.第三类是表示作者的检索词,如作者姓名,机构名称等.第四类是表示特殊意义的检索词,如专利号,国际标准书号,分子式等举例一个研究生在做论文题:"数字图书馆中的元数据体系与互操作研究",这是一个计算机科学,信息科学方面的课题,请你帮助他在维普数据库中找到最新的参考文献.第三节:搜索引擎Search Engine搜索引擎利用情况搜索引擎的概念和作用搜索引擎的工作原理搜索引擎的分类搜索引擎的一般检索技术搜索引擎利用技巧主要搜索引擎目录搜索引擎的应用现状从用户使用的角度,国外的调查发现:网上搜索信息的人很少考虑如何找到他们所需要的信息,因此搜索信息时象动物猎食般盲目; 只有18%的用户表示总能在网上搜索到需要的信息.68%的用户说他们对搜索引擎很失望;平均每个搜搜者在12分钟的徒劳搜索后就感到恼火和受挫.46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎.国外的应用状况那些每周平均花5个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上;人机界面高手nielsen(google的设计者)研究表明:略超过1/2的互联网用户属于search-dominant,约1/5用户属于 link-dominant,其它用户的搜索倾向属于混合行为型.search- dominant在到达一个网站后直接就奔向搜索按钮,他们对浏览网站不感兴趣,他们有明确的目的,倾向于以最快速度找到信息.相反,link-dominant喜欢点击浏览一个网站,即使他们想找特殊信息时也是这样,只有在他们用点击超链的方法已经实在找不到了,才会想起搜索按钮.国内的应用状况国内的调查发现:cnnic2004年1月的调查:61.6%的中国互联网用户经常使用搜索引擎(仅次于E-mail).83.4%的中国互联网用户得知新网站的主要途径是搜索引擎.赛迪咨询的搜索引擎调查:截止2000年8月,92.9%的网民使用过搜索引擎,同时有六成左右的网民将搜索引擎列为经常使用的网络服务.新浪搜索的统计表明:第1条搜索结果获得的点击量,是第2页第1条的150倍.百度公司:百度2001年中国互联网用户搜索热点统计搜索引擎是一个用来搜索世界各地Internet网络资源的WEB服务器.它像一本书的目录,Internet各个站点的网址就像是页码,可以通过关键词或主题分类的方式来查找感兴趣的信息所在的WEB页面.搜索引擎提供的导航服务(搜索引擎就是网络的指南针)已经成为互联网上非常重要的网络服务,成为和电子邮件并列的最重要的互联网应用.搜索引擎的概念和作用(1)信息搜集(2)信息索引(3)信息查询(4)检索结果的相关性处理搜索引擎的工作原理(1)信息搜集各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的"网页搜索软件",在互联网中漫游,发现和搜集信息.访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,要尽可能多,尽可能快地搜集各种类型的新信息.因为互联网上的信息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死链接和无效链接.(2)信息索引将"网页搜索软件"带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容. 有的搜索引擎把"网页搜索软件"发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址,篇名,特点的段落和重要的词.(3)信息查询根据用户的查询需求在索引库中快速检出相关网页,并反馈检索结果.一般包括分类目录及关键词两种信息查询方式.(4)检索结果排序概率法是根据关键词在文中出现的频率来判定的,出现的次数越多,认定其与查询的相关程度越高;位置法是根据关键词在文中出现的位置来判定,位置越靠前,文件的相关程度越高;分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归入到不同的类别中.(1)关键词搜索引擎(2)主题分类搜索引擎(3)综合搜索引擎搜索引擎的分类(1)关键词搜索引擎界面提供输入框,用户通过输入框提交查询请求(关键词),搜索引擎将检索结果反馈给用户. 适用于查找目的明确,并具备一定检索知识的用户.(2)主题分类搜索引擎依据某种分类方式(如学科分类),建立主题树状层浏览体系;搜索程序搜索来的信息被标引后放入浏览体系的个大类或子类下面,呈现错落有致的上下位关系.查准率高,但查全率低.(3)综合搜索引擎此类搜索引擎既可以搜索网站也可搜索全文,用户输入关键词后,可以选择是搜索网站还是网页,不同的选择返回不同的结果,国内的搜狐(Sohu)就是此类搜索引擎查全率高,但查准率低.主要搜索引擎百度 李彦宏徐勇概况百度,2000年1月创立于北京中关村,是全球最大的中文搜索引擎. 2000年1月1日,公司创始人李彦宏,徐勇携120万美元风险投资,从美国硅谷回国,创建了百度公司.2000年5月,百度首次为门户网站——硅谷动力提供搜索技术服务,之后迅速占领中国搜索引擎市场,成为最主要的搜索技术提供商.2001年8月,发布搜索引擎Beta版,从后台服务转向独立提供搜索服务,并且在中国首创了竞价排名商业模式,2001年10月22日正式发布Baidu搜索引擎.2005年8月5日,百度在美国纳斯达克上市.特点"百度"二字取自辛弃疾的《青玉案》 "众里寻她千百度" .现在百度已成为世界上最大的中文搜索引擎,用户能够访问超过10亿的中文网页.网页搜索功能相关搜索拼音提示错别字提示英汉互译词典计算器和度量衡转换专业文档搜索股票,列车时刻表和飞机航班查询高级搜索语法高级搜索,地区搜索和个性设置天气查询百度快照每个被收录的网页,在百度上都存有一个纯文本的备份,称为"百度快照".百度速度较慢,您可以通过"快照"快速浏览页面内容.如果无法打开某个搜索结果,或者打开速度特别慢, "百度快照"能帮您解决问题.相关搜索搜索结果不佳,有时候是因为选择的查询词不是很妥当.您可以通过参考别人是怎么搜的,来获得一些启发.百度的"相关搜索",就是和您的搜索很相似的一系列查询词.百度相关搜索排布在搜索结果页的下方,按搜索热门度排序.专业文档搜索很多有价值的资料,在互联网上并非以普通的网页形式出现,而是以Word,PowerPoint,PDF等文档格式存在.百度支持对Office文档(包括Word,Excel,PowerPoint),Adobe PDF文档,RTF文档的全文搜索.方法为在搜索的关键词后面加一个"filetype:"文档类型限定."filetype:"后可以跟以下文件格式:DOC,XLS,PPT,PDF,RTF,ALL.其中,ALL包含所有文件类型.高级搜索把搜索范围限定在网页标题中——intitle标题通常是对网页内容提纲挈领式的归纳.把查询内容范围限定在网页标题中,有时能获得良好的效果.高级搜索把搜索范围限定在特定站点中——site有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率.使用的方式,是在查询内容的后面,加上"site:站点域名".高级搜索把搜索范围限定在url链接中——inurl网页url中的某些信息,常常有某种有价值的含义.于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果.实现的方式,是用"inurl:",后跟需要在url中出现的关键词高级搜索精确匹配——双引号和书名号如果输入的查询词很长,百度给出的搜索结果中的查询词可能是拆分的.如果给查询词加上双引号,就可以精确检索.被书名号扩起来的内容,也不会被拆分 ,比如,查电影"手机",如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了.要求搜索结果中不含特定查询词——减号 -如果您发现搜索结果中,有某一类网页是您不希望看见的,那么用减号语法,就可以去除所有这些含有特定关键词的网页.注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能.Sergey BrinLarry PageGoogle搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者. Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过 80 亿个网址的索引."Google"来自于数学名词"Googol", Googol表示一个 1 后面跟着 100 个零.这一术语体现了公司整合网上海量信息的远大目标.概况Google 技术Google 使用一组独特的高级硬件和软件,核心软件称为 PageRank.作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构.从网页 A 链接到网页 B 时,Google 就认为"网页 A 投了网页 B 一票".Google 根据网页的得票数评定其重要性.除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页,"重要"的网页所投出的票就会有更高的权重.与大多数其它搜索引擎的区别在于:Google 只显示相关的网页,其正文或指向它的链接包含您所输入的所有关键词,而无须再受其它无关结果的烦扰.Google的特殊功能Flash文件查找Flash文件,只需搜索"关键词 filetype:swf".Google已经可以支持13种非HTML文件的搜索.除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) ,Shockwave Flash (swf),PostScript (ps)和其它类型文档.新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中.点击选中的链接手气不错按下"手气不错 "按钮将自动进入 Google 查询到的第一个网页.您将完全看不到其它的搜索结果.使用"手气不错"进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多. 例如,要查找 Stanford 大学的主页,只需在搜索字段中输入"Stanford",然后单击"手气不错"按钮.Google 将直接带您进入 Stanford 大学的官方主页 .错别字改正Google 的错别字改正软件系统会对输入的关键词进行自动扫描, 检查有没有错别字.如果发现用其他字词搜索可能会有更好的结果,它能提供相应提示来帮助纠正可能有的错别字.例如,搜索"互连网",Google 会自动提示 "您是不是要找:互联网".如果您点击 "互联网",Google 将以"互联网"作为关键词进行搜索.手机号码。
搜索信息的方法
收集行业信息有几种方法,一是向咨询机构购买现成报告;二是向目标企业索要资料;三是走访行业协会或业内专家;四是参考行业期刊杂志;五是通过学校中文期刊网、外方数据库等内部网检索资料;六是通过外部网络检索;等等。
其中,最直接最实用的方法是通过外部网络检索行业信息。
但如何在海量的网络信息当中找到我们想要的行业信息,是很多人困惑的问题。
在此,根据我的网络使用经验,介绍一些技巧。
本帖隐藏的内容需要回复才可以浏览
1、用好功能强大的Google和Baidu
Google和Baidu是我们最常用的搜索引擎,在检索信息的时候,我们只要输入关键词就轻而易举地搜索到许多相关信息,这一点谁都知道。
但输入不同的关键词搜到的结果会不一样,为了更准确地收集到我们想要的信息。
可以尝试把关键词上打双引号(关键词不会分开),或者加上文件格式。
比如,直接输入“光伏行业分析”搜索到的报告几乎都是咨询公司提供的需要付费的报告,但是输入“光伏行业分析.PDF”或者“光伏行业.DOC”就会搜索到免费的PDF或DOC格式的分析报告,从这些免费的分析报告中可以发现很多有价值的信息。
此外,使用Baidu提供的“知道吧”,只要输入问题,可以马上搜索到答案。
2、用好公司网站和行业门户网站
在对行业有初步了解情况下,通过浏览行业中的重点企业网站,可以获取许多有用的信息,特别是关于企业背景介绍的信息。
行业门户网站汇集了行业相关的众多信息,特别是行业发展的最新动态,例如“中国化工网”、“中国纺织网”、“中国医药网”等等,其中中国化工网还免费提供了很多化工产品的报价信息和价格走势。
3、学会通过行业论坛搜索信息
行业论坛当中往往活跃着对某个行业有深入了解的人士,比如证券公司的行业分析师,从事这个行业的企业技术专家、营销专家、管理专家等,他们发布的一些比较有参考价值的文章通过Google和Baidu往往难以找到或者打不开,但是只要你注册了论坛的会员,就有可能浏览这些文章,并且结交到行业内的朋友。
需要指出的是,大部分做的专业的论坛里面的资源不是免费享用的,需要依靠积分或者购买才能得到,当然也有例外,如“中国新能源论坛”、“中国触摸屏网”、“中国半导体网”等资源丰富,而且是免费下载的。
4、从博客写手中获得行业资讯
目前网络博客相当流行,在Google和Baidu博客搜索栏中输入“XX行业”立即出现许多行业相关的博文,通过博文可以找到专业的博客,进而在博客中获得更多有价值的信息。
许多博客是由行业内的专家开设的,他们所发布的信息、发表的见解具有一定权威性。
如有不清楚的问题,还可以在博客上留言,请教这些业内专家,通常情况他们都会解答。
5、从“招股说明书”中挖掘信息
上市公司招股说明书中都涉及行业的介绍,其中包含了国内外行业发展的基本情况、行业的主要特点、行业与上下游行业之间的关联性、行业的市场容量及竞争情况、行业利润率水平、进入行业的主要障碍、影响行业发展的有利和不利因素等。
通过阅读招股说明书,可以帮助我们补充和完善行业分析报告。
招股说明书可以通过《巨潮资讯网》、《金融界》等证券门户网站下载,另外建议优先阅读新股或次新股的招股说明书,这样获得的行业信息比较新,相对来说更具参加价值。
6、加入行业中的“群”或“圈子”
现在“群”、“圈子”的概念在QQ以及各类社区网站中相当流行,尤其是QQ群。
想要了解某个行业,可以加入某些行业群或行业圈子,直接接触到行业中各式各样的人,他们当中有
许多人供职于大公司,或技术背景、或营销背景。
通过跟他们交朋友,可以获得行业以及相关公司的第一手宝贵的信息,这些信息通过网络或者别的途径很难获得。