web信息检索
- 格式:doc
- 大小:888.50 KB
- 文档页数:12
Ei CompendexWeb检索指南Ei CompendexWeb是由《工程索引》和《Ei PageOne》合并的Internet版本,该数据库每年新增500000条工程类文献,数据来自5100种工程类期刊、会议论文和技术报告,(包括90年代以后新增的2500种文献来源)。
收录的每篇文献都包括书目信息和一个简短的文摘。
囊括世界范围内工程的各个分支学科,如:土木工程、能源、环境、地理和生物工程;电气、电子和控制工程;化学、矿业、金属和燃料工程;机械、自动化、核能和航空工程;计算机、人工智能和工业机器人。
化工和工艺的期刊文献最多,(约占15%),计算机和数据处理占12%,应用物理占11%,电子和通信占12%,另外还有土木工程(占6%)和机械工程(占6%)等。
大约22%的数据是有主题词和摘要的会议论文,90%的文献是英文文献。
数据库每周更新,目前可以检索到1970年以来的数据,对检索全世界范围内工程与技术文献,跟踪与评价技术新成果非常有用。
进入数据库图书馆主页“数据库导航”→“Ei CompendexWeb”,进入Ei CompendexWeb数据库的主页面。
检索概览(Search overview)Ei CompendexWeb提供两种检索方法:快速检索(Quick Search)和高级检索(Expert Search)。
快速检索能够进行直接快速的检索,其界面允许用户从一个下拉式菜单中选择要检索的各个学科。
高级检索提供更强大而灵活的功能,与快速检索相比,其集成了高级的布尔(Boolean)逻辑,包含更多的检索选项。
Quick Search检索过程(Search session)开始一个检索时,Engineering Village 2将跟踪用户的所有检索记录,而且用户能够自己建立一个列表式的文件来记录用户在检索过程中所选择的文件。
检索结束后,用户如想把过程保存,则必须将结果保存在个人的帐户中,否则,结果将丢失(参考个人帐户注册指令)。
基于Web2.0的信息检索课程设计方案作者:郝君来源:《计算机光盘软件与应用》2013年第14期摘要:信息素养的培养对于21世纪的大学来说尤为重要,而担任此项培养任务的信息检索课程更是不容忽视。
本文提出了Web2.0环境下的信息素养互动学习平台,构建了信息检索课程的研究型教学模式,探讨将课题研究引入信息检索课程教学的全过程。
关键词:信息检索;信息素养;Web2.0中图分类号:TP393.092Web2.0是相对于Web1.0而言的新的互联网应用统称。
Web1.0主要是用户通过浏览器获取信息。
Web2.0则更注重用户的交互作用,用户不再仅仅是网络的读者,已经发展成为网络内容的作者。
随之而产生的博客、微博、SNS、社会书签等都为用户提供了交互式服务,交互式服务的产生改变了信息检索与资源组织模式。
这就要求信息检索课程必须进行改革来迎合网络的高速发展,培养大学生具备较高的信息素养。
信息素养是当今社会人的整体素质的一个重要组成部分,包括四方面的内容:信息意识、信息知识、信息能力、信息道德,其中信息意识是前提、信息知识是基础、信息能力是保障、信息道德是准则。
高校图书馆所开设的信息检索课程成为培养大学生信息素养的重要基地,同时也是高校教学体系的重要组成部分。
笔者认为,根据学生所学专业不同,开展信息检索课程研究型教学是值得尝试的,对于培养学生良好的信息素养和良好的科研能力具有推动作用。
1 传统信息检索课程存在的问题当前高校所开设的信息检索课主要是教师向学生传授检索原理和技巧,教师大班授课传授理论,学生被动接受。
但事实证明效果并不理想,学生不能完全理解开设信息检索课的意义,同时信息检索课也不能完全满足学生对信息检索的需求。
Web.2.0环境下,随着信息源迅速增加,凸显出检索技巧与检索策略的重要性。
这就要求教师必须对信息源、检索策略、检索技巧进行深入分析和探讨。
1.1 信息源仍然停留在显性层面上信息检索是以信息源为基础的,寻找信息源是信息检索的首要任务。
网络信息检索方法与应用网络信息检索方法与应用摘要随着Internet在全世界范围内迅猛发展,使人们获得有用信息越来越困难,网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。
因此,对网络信息的检索技术及其发展趋势进行探讨和研究,是一个既迫切而又实用的课题。
本文通过对网络信息检索的基本原理、网络信息检索的技术及工具、网络信息检索的现状等方面进行分析研究,并对网络信息检索的发展趋势进行了预测,旨在寻找提高网络信息检索的手段和方法的有效途径,并最终提高网络信息的检索效果,使得网络信息资源得到充分有效地利用。
关键词检索方法工具重要性翻译summary With the rapid development of Internet in the world, to make people more and more difficult to obtain useful information, online information and huge numbers of people to obtain information contradiction between the increasingly prominent.Therefore, the retrieval of information technology and its development trends of the network to explore and research, is both urgent and practical issues.In this paper, the basic principle of network information retrieval techniques and toolsof network information retrieval, information retrieval network status and other aspects of analysis, and the development trend of network information retrieval predicted, the network aims to find ways to improve information retrieval by means of and effective way to approach, and ultimately improve the effect of network information retrieval, making the network information resources can be fully effective use.Keyword Retrieval means Importance一信息检索技术信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
基于Web的信息检索技术研究随着互联网的不断发展,信息检索技术逐渐成为人们获取信息的主要方式之一。
而基于Web的信息检索技术则是近年来发展最为迅速、应用最为广泛的一种技术。
本文将介绍基于Web的信息检索技术的原理、发展历程、应用场景和研究现状,以及未来的发展方向。
一、基于Web的信息检索技术的原理基于Web的信息检索技术是指通过互联网提供的信息资源进行检索的技术。
其原理包括两个方面:搜索引擎和Web爬虫。
搜索引擎是指通过对互联网上存在的网页进行分析,抽取其中的关键词和信息,并建立索引,从而为用户提供检索服务的计算机程序。
搜索引擎的搜索结果依据其所建立的索引,可以是网页、视频、图片等各种信息形式。
常见的搜索引擎有Google、Baidu、Bing等。
Web爬虫是指利用计算机程序对互联网上的网页进行自动化爬取和解析,从而获取其中的信息和链接。
Web爬虫的作用是收集互联网上的信息、建立搜索引擎的索引、判断网页的质量和可信度等。
Web爬虫也被称为网络爬虫、网络蜘蛛、网络机器人等。
二、基于Web的信息检索技术的发展历程随着互联网的快速发展,基于Web的信息检索技术也得到了迅速的发展。
一般来说,可以将其发展历程分为以下几个阶段:1. Web检索技术的萌芽期(1989-1993年)这个阶段主要是Web技术的开始期,由一些计算机科学家和研究者利用互联网上的资源编写小型的检索系统。
2. Web检索技术的初步发展期(1993-1998年)这个阶段主要是由万维网的发明者蒂姆·伯纳斯·李(Tim Berners-Lee)推动了Web技术的与互联网整合,也是Web搜索引擎面世的阶段。
3. Web检索技术的蓬勃发展期(1998-2008年)这个阶段是Web搜索引擎的黄金时期,各大搜索引擎如Google、Yahoo等纷纷推出了自己的搜索算法,成为了互联网上最受欢迎的应用之一。
4. Web检索技术的全面普及期(2008年至今)这个阶段主要是由于互联网技术的快速发展,以及社交网络、移动互联网等新兴技术的兴起,带动了Web检索技术的全面普及。
1. F1值F1 值是检索性能评价的一个测度,它综合了精度和查全率,将两者赋予同样的重要性来考虑。
F1的计算由下面的公式决定F1 值的其他说法还表示调和平均值调和平均数定义为:数值倒数的平均数的倒数。
其数值恒小于算术平均数。
计算查准率p 和查全率r 的调和平均数作为度量指标。
F 的取值在[0,1]。
2. 查全率 查全率(Recall):检出的相关文档个数与相关文档集合总数的比值,即R=|Ra| / |R|其中,对某个测试参考集,信息查询实例为I ,I 对应的相关文档集合为R 。
假设用某个检索策略对I 进行处理后,得到一个结果集合A 。
令Ra 是R 与A 的交集3. 查准率查准率(Precision):检出的相关文档个数 与检出文档总数的比值,即P=|Ra| / |A|4. 支持向量机(SVM )解决小样本、非线性及高维模式识别,SVM 将n 维空间中的点,通过一个n-1维的超平面分开。
通常这个被称为线性分类器。
有很多分类器都符合这个要求。
但是我们还希望找到分类最佳的平面,即使得属于两个不同类的数据点间隔最大的那个面,该面亦称为最大间隔超平面。
如果我们能够找到这个面,那么这个分类器就称为最大间隔分类器。
5. Deep WebDeep Web 是可以通过Internet 访问的数据库,它们所承载的信息量是目前Internent 的500倍!对Deep Web 网页的爬取有垂直搜索引擎,元搜索引擎6. 向量空间模型(VSM )通过给查询或文档中的索引词分配非二值权值来实现。
文档的向量空间模型•词典, ∑={k1,k2,…kt}•d=<w1,w2,…wt >–此时,变量wi 称为权值,非负;表示对应词项ki 对于判断d 和查询q 相关性的重要程度(注意,这里的q 是一般的,而d 是具体的)•q=<v1,v2,…vt>–变量vi 的含义类似于wi•让wi 和vi 为对应的词分别在d 和q 中出现的次数,于是我们有了两个m 维向量,用夹角的cos 表示“接近度”,即•R(d,q) = cos(d,q) = d·q/|d|×|q|•认为:cos(di,q) > cos(dj,q),则di 比dj 与q 更相关。
如两个向量的分量都相同,相当与夹角为0,cos 的值为1.都不相同,垂直情况,cos 为0.),(),(),(),(2),(j i precision j i recall j i precision j i recall j i F +⨯⨯=211F rp =+由于返回的值,介于0,1之间的实数,可以用排序的方法,前k 大的结果返回给用户 iSim(q,dj) = cos(Θ) = [vec(dj) • vec(q)] / |dj| * |q|因为 wij > 0 和 wiq > 0,0 <= sim(q,dj) <=1 文档 dj 的标记词只要能部分匹配查询语句的标记词,相似度大于0,有可能检索到。
7. 锚文本Anchor text is the hyperlinked words on a web page - the words you click on when you click a link.(翻译是:锚文本是一个网络上当你点一个连接时的连接文字)锚文本主要是为访问者提供指向网页内容的说明。
8.(1)社会媒体社会媒体内容分析包括研究用户之间的关系 社会网络 (social network)研究用户之间+用户与信息之间的关系 异构社会网络 研究社会网络的划分,网络领袖等 研究利用社会网络对社会媒体分析的帮助 对媒体信息的聚类,标签推荐、产品推荐、广告发放等(2)社会计算社会计算是计算技术与社会科学相结合的交叉学科,它研究利用计算技术帮助人们认识社会规律,相互沟通与协作,利用群体智慧解决问题的原理和方法。
三大研究内容9.批量爬取在一个时间段尽量多的网页通用搜索引擎:涉及的网页内容尽量丰富,质量尽量高(例如不要集中在少数网站,不要那些没什么内容的网页)主题搜索引擎:尽量符合主题内容(例如某新闻主题,可能需要特别关注若干网站)10.判定树判定树是一个类似于流程图的树结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。
原理:把属性的取值进行细分,并用and 逻辑关系把不同属性值的取值综合起来考虑。
树的最顶层节点是根节点。
为了对未知的样本分类,样本的属性值在判定树上测试。
路径由根到存放该样本预测的叶节点。
----易转换成规则。
11.贝叶斯分类器贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。
一般情况下,不能直接得到后验概率而是要通过贝叶斯公式∑∑==⨯⨯=t i q i j i t i q i j i j w w w w q d sim 12,2,1,,),(i公式进行计算。
式中的P(x│ωi)为在模式属于ωi类的条件下出现x的概率密度,称为x 的类条件概率密度;P(ωi)为在所研究的识别问题中出现ωi类的概率,又称先验概率;P(x)是特征向量x的概率密度。
分类器在比较后验概率时,对于确定的输入x,P(x)是常数,因此在实际应用中,通常不是直接用后验概率作为分类器的判决函数gi(x)(见线性判别函数)而采用下面两种形式:对所有的c个类计算gi(x)(i=1,2,...,c)。
与gi(x)中最大值相对应的类别就是x的所属类别。
假设X,Y是随机变量,P(Y=y|X=x)是指当X=x,时,Y=y的概率12.World Wide WebThe world wide web (web) is a network of information resources. The web relies on three mechanisms to make these resources readily available to the widest possible audience:(万维网(Web)是一种网络信息资源。
网络依赖于三个机制,使这些资源容易获得尽可能多的观众:)1. A uniform naming scheme for locating resources on the web (e.g., URLs).(一个统一的命名方案对网络资源定位)2. Protocols, for access to named resources over the web (e.g., HTTP).(协议,用于访问命名资源在网络)3. Hypertext, for easy navigation among resources (e.g., HTML).(超文本,轻松导航之间的资源)Web是一个有向图13.智能搜索引擎定义智能搜索引擎是结合了人工智能技术的新一代搜索引擎。
他除了能提供传统的快速检索、相关度排序等功能,还能提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能信息化过滤和推送等功能。
智能搜索引擎设计追求的目标是:根据用户的请求,从可以获得的网络资源中检索出对用户最有价值的信息。
智能搜索引擎具有信息服务的智能化、人性化特征,允许网民采用自然语言进行信息的检索,为他们提供更方便、更确切的搜索服务。
搜索引擎的国内代表有:百度、搜狗、搜搜等;国外代表有:WolframAlpha、Ask jeeves、Powerset、Google等。
特点用户只要一次性输入搜索关键词就可以通过鼠标点击迅速切换到不同的分类或者引擎,极大地减少了手工输入网址打开搜索引擎,选择分类,再输入关键词搜索的时间。
各智能全搜索界面大同小异,一般上面一行是搜索分类,中间是关键词输入框,下面一行是搜索引擎。
智能全搜索能实现一站式搜索网页、音乐、游戏、图片、电影、购物等目前互联网上所能查询到的所有主流资源。
它与普通搜索引擎(百度和谷歌等)所不同的是:他能集各个搜索引擎的搜索结果于一体,使我们在使用时更加的方便。
单严格来说他不算是一个搜索引擎,但他比搜索引擎更方便。
14.分类和聚类的特点及其区别分类:设C1,C2,…,Ck为给定的k个类,把文档集合D={d1,d2,…,dn} 按距离分别放入k个类别的过程。
聚类:给定整数k, 按照某种距离测度,把文本集合分成k个类或簇,使得在同一个簇中的文本内容具有较高的相似度,而不同簇中的文本内容差别较大。
分类与聚类的区别聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习”(unsupervised learning )过程,即聚类算法不需要“教师”的指导,不需要提供训练数据,它倾向于数据的自然划分。
而分类的类是预先定义好的。
对文本分类的过程是有指导的学习,一般需要提供训练集合。
通过训练集合和机器学习的方法,得到知识,根据知识对文档进行分类。
聚类(Clustering )就是将数据分组成为多个类(Cluster )。
在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。
聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(Subset ),这样让在同一个子集中的成员对象都有相似的一些属性其他分析算法的一个预处理步骤在这一过程中没有监督,因此是一种无监督的分类15、搜索引擎系统的基本结构:IR 系统的构成-爬虫,中间处理和检索服务从互联网上抓取网页—>建立索引数据库—>在索引数据库中搜索—>对搜索结果进行处理和排序16、K —meams 算法的基本思想和步骤:基本思想:将N 个数据依照其数据特征聚类为K 类的聚类算法,K 为一正整数,目标在于求各个数据与其对应聚类中心点距离平方和的最小值2111K K N i ji j i i i j J J w X C =====-∑∑∑J i 为第 i 类聚类的目标函数;K 为聚类个数;X j 为第 j 个输入向量;C i 为第 i 个聚类中心(向量);w ji 为权重(X j 是否属于聚类C i )步骤:1、随机选取k 个数据点C i ,i=1,…,k ,并将之分别视为各聚类的初始中心2、决定各数据点所属之聚类,若数据点X j 判定属于第 i 聚类,则权重值w ji = 1,否则为0 且满足:11,1,...,,k ji i w j n ==∀=∑11k n ji i j w n ===∑∑3、由(1)式计算目标函数 J ,如果 J 保持不变,代表聚类结果已经稳定不变,则可结束此迭代方法,否则进入步骤4 (1) 4、以(4)式更新聚类的中心点。