当前位置：文档之家› 语义网的发展及其可用工具

语义网的发展及其可用工具

美国阿尔法股权管理公司（Alpha Eqiuty Mangement）高级国际资产分析师Vince Fioramonti在2001年突然意识到，由于有价值的投资信息在网络上将会越来越多，今后越来越多的厂商将根据信息的重要性和关联性提供可搜集和解译这些信息的软件。语义网络将成为企业发展的利器Fioramonti称：“我曾经拥有一支专门为公司搜集和分析金融信息的分析团队。不过，他们的处理速度极为缓慢，得出的结论往往也过于主观，甚至有时会前后矛盾。”第二年，Fioramonti改用Autonomy集团的语义平台——智能数据操作层（IDOL）来自动处理各种形式的数字化信息。他们在部署中遇到了一个障碍：IDOL仅提供了常用的语义算法。Fioramonti称，阿尔法股权管理公司为此不得不组建了一个由程序员和金融分析师组成的团队，专门研发适用于金融学的算法和元数据。由于耗资过于巨大，公司最后放弃了这一项目。阿尔法股权管理公司在2008年迎来了新的契机，当时他们参加了汤森路透的机器可读新闻（Machine Readable News）服务。该服务可从3000多名路透社记者，以及网络报纸和博客等第三方资源那里收集、分析网络新闻。然后，根据影响力（如果公众对公司或产品的印象）、关联性和新颖性，对这些材料进行分析和评分。这些结果会源源不断的提供给客户，包括公共关系和营销人员、使用自动化“黑匣子交易（black

box trading）”系统的股票交易商、为长期投资决策收集整理数据的基金经理。Fioramonti称该服务每月收费并不便宜。据估计，实时数据更新的成本每月在15000至50000英镑之间。不过，对于阿尔法股权管理公司来说，该服务确实物有所值。他称，这些信息不仅帮助提升了公司的资产收益，还帮助公司击败了许多竞争对手。阿尔法股权管理公司的经历并不是唯一的案例。无论公司决定建造一个类似的内部系统，还是决定雇用服务提供商，通常都要花费巨资才能利用语义网技术。如果所搜索和分析的信息包括有针对特定商业领域的行话、概念和缩略语信息，那么同样可以实现。以下我们将为大家介绍一下那些能够帮助进行商业部署和利用语义网基础的工具，以及要想发挥这一技术的潜能还需要哪些东西。关键标准根据Tim Berners-Lee提出的概念，语义网的核心是联合搜索（Federated Search）。其可搜索引擎、代理或应用询问网络上成千上万个信息源，发现并在语义上分析相关内容，准确检索用户寻找的产品、答案或信息。尽管联合搜索正逐渐流行起来，特别是出现在了Windows7上，但是要在整个网络上广泛普及还有很长的路要走。为了有效的推动联合搜索，万维网联盟（W3C）制定了几个关键标准，定义了基本的语义基础设施。它们包括：•简单协议与RDF查询语言（SPARQL），其定义了用于查询和访问数据的标准语言。•资源描述框架（RDF）和RDF模式（RDFS），其规范了在语义本体（又称为词汇表）中如何陈述和组织信息。•网络本体语言（OWL），其对本体论和部分RDFS原理进行了详细陈述。目前这些标准的最终

定稿已经得到了Cambridge Semantics、Expert System、Revelytix、Endeca、Lexalytics、Autonomy和Topquadrant等主要语义网平台厂商的支持。谷歌、雅虎和微软必应等主要网络搜索引擎已经开始使用语义元数据区分搜索结果，并开始支持RDF等W3C标准。如今甲骨文、企业软件厂商和IBM也加入到语义网的研发中，并分别推出了甲骨文Database11g语义技术、SAS本体管理工具和IBM InfoSphere BigInsights工具。W3C标准的推出目的是解决不同机构在组织、描述、呈现信息中的不一致性，为跨域语义查询和联合搜索铺平道路。本体管理工具制造商Revelytix的首席执行官Michael Lang为我们描述了使用W3C标准的好处。他称，如果200家网上家用电子产品销售商使用诸如RDF的语义网标准描述他们产品库，Revelytix的软件则可以让这些信息通过SPARQL查询方式被访问。网络商家可以使用兼容W3C标准的浏览器工具在不同网站搜索产品，如通过输入“根据价格排列并显示所有42-52英寸平板电视”进行查询。搜索引擎和一些第三方网络购物网站可提供产品对比，不过这些对比仅限于所搜索到的结果的属性。购物者经常发现由第三方所提供数据已经过时，甚至不正确，如无法准确提供有效的尺寸和颜色信息。基于标准的跨网站查询可为购物者提供由商家自己提供的更为丰富的对比信息和更新的介绍信息。W3C SPARQL工作组联合组长Lee Feigenbaum称，W3C SPARQL工作组目前正在研发SPARQL服务描述，旨在标准化SPARQL“终端”或信息源提供数据的方式，特别是详细规定了如何描述

数据的类型和数量。模块和软件工具工具、平台、预置组件和服务均可有效缩短部署时间，降低技术复杂性，减少成本。Jena为开发语义网应用的开源Java架构，其包括有RDF、RDFS和OWL的API，一个SPARQL查询引擎和一个推理引擎。Sesame为存储、推理和查询RDF数据的开源架构。主流语义网平台都带有用于描述常用术语、概念、缩略语的“知识库”，让用户在使用时创建本体知识库。Lexalytics产品管理副总裁Seth Redmore称：“客户的需求往往相互矛盾：让平台能够反馈精确信息，对这些信息进行整编让其更适合自己的业务。”为了解决这一矛盾，Lexalytics选择将他们的语义平台主要销售给服务提供商，由服务提供商再对特定商业领域和应用进行微调。汤森路透的机器可读新闻服务就是一个很好的例子。部分平台厂商推出了专门针对商业的解决方案。比如，Endeca推出了用于电子商务和企业语义应用的应用开发工具包。此外，还有一些可以自动将语义元数据和W3C标准整合到现有信息库中的工具。据Lang称，Revelytix的Spyder工具可自动将结构化和非结构化数据转换成RDF。作为能够被兼容SPARQL 的浏览器访问的SPARQL终端，其可在网页上显示这些信息。名为D2RQ的开源工具可以将所选择的数据库映射到RDF和OWL本体知识库中，让兼容SPARQL的应用访问这些数据，Revelytix还推出了名为https://www.doczj.com/doc/fb17495708.html,的兼容W3C的知识库模块。该模块为基于维基的架构，主要是帮助技术专家和商业用户共同开发一个语义词汇表，描述和引导不同网站中的特殊信息。Lang称，相关社区可以通过

https://www.doczj.com/doc/fb17495708.html,访问、共享和挑选有关的信息。咨询公司Dachis集团欧洲业务部主管Lee Bryant称，他们开发了一个名为Social Business Design的架构，该架构的目的是帮助用户协作、分享想法，然后限制和明确某一商业机构或是社区中的数据含义。上述这些产品都可以大幅减轻语义基础设施的研发任务。如，布依格建筑集团电子服务与知识管理总监Eric Juin称，他们通过Sinequa的语义平台Context Engine，在六个月的时间内就建立起了一个初具规模的语义系统。Juin称，布依格建筑集团已经开发出了一个语义搜索应用，其可帮助员工迅速内部系统和外部互联网中的信息。他称，Context Engine可以从会议纪要、产品说明书、培训材料和项目文档等海量文件中查找到要找的相关的人员和概念。该平台包括了一个收录有常用词汇和术语的“通用语义学词典”，并且可在多种语言之间转换。如法国雇员能够在德语文件中进行语义搜索。此外，特殊的商业缩略词和术语还可以手动添加，不过这需要语义专家和商业用户共同完成。Juin称，由于语义引擎能够使用其它相关词汇确定针对特殊主题的术语，因此他的团队只添加了很少一部分关键词的定义。选择SaaS对于那些缺乏内部资源建立自己的语义网基础设施的公司来说，他们可以像阿尔法股权管理公司那样选择由第三方提供语义服务。服务提供商汤森路透除了提供机器可读新闻服务外，还提供名为OpenCalais的服务。该服务可为客户提交的内容创建语义元数据。据汤森路透副总裁Thomas Tague称，客户可为搜索、新闻聚合、博客、目录和应用部署经标记的内容。OpenCalais包括一个免费的

工具包，用户可创建自己的语义基础设施和元数据，与其他网络提供商建立链接。Tague称，该服务目前每天处理超过500万份文档。DNA13、Lithium技术和Cymfony均为语义服务提供商，提供查询、收集和分析网络新闻、社交媒体，为用户在品牌、信誉管理、客户关系管理和市场营销等领域提供帮助。语义网何时真正普及？在皮尤研究中心2010年度报告中，该中心对895名语义技术专家和利益相关者进行了调查，结果显示47%的受访者认为，到2020年，Berners-Lee的语义网设想不会实现，或与终端用户有着巨大分歧。另一方面，41%的受访者认为这一设想能够实现。剩下的受访者表示无法回答这一问题。W3C基础性标准目前最终定稿并获得了支持。目前平台和软件工具数量也在不断增加。专家表示，尽管如此，语义网技术和标准远没有获得能够充分展示其优势的足够支持。重要的是，在通用语义技术和符合W3C标准与专用于网络信息资源的语义网技术之间有着明显的界限。专家表示，语义技术正在普及，特别是在企业知识管理和商业智能领域。市场研究公司IDC分析师Susan Feldman称，“帮助用户查找他们想找的非结构性信息”的语义内容分析工具市场正在以每年20%的速度增长。她指出，目前大多数企业搜索平台正在包含语义技术。与传统的商业智能工具相比，语义技术的一个最大优势是让主题专家（SME）能够创建他们自己的查询架构，无需经历苛刻而耗时的创建和重建数据仓库与数据集市任务。Project10X总经理Mills Davis举例称：“一个精通标准的专家能够在两周内，而不是在9个月里创建一个语义

架构，然后轻松而快速的进行调整。”与传统商业智能工具相比，语义技术另一个优势是具有执行更为复杂而模糊的查询，能够对非结构化数据进行分析，并且可先从小范围的精确查询开始，然后逐渐扩展。在网络上，语义技术已经在日渐增长的商业市场中站稳了脚跟。在电子出版物市场，在线新闻服务商DBpedia、Geonames、RealTravel和MetaWeb都已经率先采用了该技术。在在线金融信息服务业务中，汤森路透和道琼斯也已经部署语义技术。其中汤森路透OpenCalais的大客户中包括美国哥伦比亚广播传媒集团（CBS）旗下互动媒体集团和CNET集团，老牌电子杂志Slate、赫芬顿邮报和网络新闻聚合公司Moreover技术。另外，大约9000家在线书城目前正在使用OpenPublish。OpenPublish将OpenCalais与开源内容管理系统Drupal整合在了一起。近期，网络零售商开始部署语义网平台，帮助优化产品和品牌在搜索结果中的排名，为客户提供更多、更丰富的购物体验。需克服的障碍如今W3C标准还缺乏更为广泛的支持，并且缺乏便于跨网络和商业领域进行语义查询的常用词汇表。数语义网图式主体还在开发之中。专业人士指出，由于这类框架通常包括特定的商业和功能术语，行话和缩略语，因此其他行业无法很好的理解它们。这也使得跨领域查询、语义应用和服务必须每个信息资源的本体知识库联系起来。下面以为大家介绍一下全球知名的能源公司Eni的案例。据Eni的语义技术主管Daniele Montanari 称，该公司的技术和主题专家花了12年开发和调整Expert System 的Cogito语义商业智能平台。该平台可支持与石油、天然气和电力

有关的交易、生产和物流处理。Montanari称，Cogito允许Eni 的终端用户前往网络上预选和预定的信息资源，查找关于特定主题的重要信息，然后生成一个可以下载、自动更新和进行语义查询的“语料库”。Montanari称，语义图式趋向于针对特定的商业领域。比如，公司的精炼部门开发了可在大量文档中快速定位信息的语义框架和分类。在这些文档中，许多由Eni的研发团队所编写，另一些则来自团队定购的网络资源。对于石油工业最新的技术研发来说，由于每个网站都有自己的专用本体知识库，因此通用的网络搜索存在许多问题。Montanari称：“在一个信息领域内包含有多个来源，因此你必须要定义一个普用的语义模式。”Montanari称，相同的问题还存在于内部语义查询中。他的团队曾经尝试创建一个适用于整个公司的语义图式，能够为公司的数据库和数据集中的每件事物准确找到对应物，但是公司最终无法解决石油、天然气、研发、营销等业务领域中存在的差异。他称：“即使在逻辑上，这也是一个难题。”因此，在特殊的业务部门和行业中还是倾向于保留内部查询。发展前景展望在行业管控和客户压力下，标准化的本体知识库已经出现。电子商务公司是否会真正团结在一个通用图式下还有待观察。其中一个尝试是GoodRelations 电子商务词汇表。目前，仅有https://www.doczj.com/doc/fb17495708.html,和https://www.doczj.com/doc/fb17495708.html,等少数公司加入其中。不过，谷歌在近期也宣布他们支持该词汇表。《新一波技术浪潮》作者Phil Simon称：“与

基于语义网的信息检索研究

基于语义网的信息检索研究肖芙蓉【摘　要】文章对传统信息检索中存在的问题进行了分析，简单介绍了语义网，并针对基于语义网的信息检索进行了简单的论述，最后对语义网信息检索进行了展望。【关键词】语义网　信息检索Ａｂｓｔｒａｃｔ：Ｔｈｉｓ　ｐａｐｅｒ　ａｎａｌｙｚｅｓ　ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ，ｇｉｖｅｓ　ａ　ｓａｍｐｌｅ　ｉｎｔｒｏｄｕｃｔｉｏｎ　ｏｆ　ＳｅｍａｎｔｉｃＷｅｂ，ａｎｄ　ｄｉｓｃｕｓｓｅｓ　Ｓｅｍａｎｔｉｃ　Ｗｅｂ　ｂａｓｅｄ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ　ｂｒｉｅｆｌｙ．Ａｔ　ｌａｓｔ，ｔｈｉｓ　ｐａｐｅｒ　ｐｒｏｓｐｅｃｔｓ　ｔｈｅｆｕｔｕｒｅ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　Ｓｅｍａｎｔｉｃ　Ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ．Ｋｅｙ　ｗｏｒｄｓ：Ｓｅｍａｎｔｉｃ　Ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ互联网创始人Ｔｉｍ　Ｂｅｒｎｅｒｓ－Ｌｅｅ在１９９８年首次提出了语义网（Ｓｅｍａｎｔｉｃ　Ｗｅｂ）的概念，之后，世界各地的相关研究科研人员都将研究重点转向语义网。简单地说，语义网是一种能理解人类语言的智能网络，它不但能够理解人类的语言，而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。语义网是对未来网络的一个设想，在这样的网络中，信息都被赋予了明确的含义，机器能够自动地处理和集成网上可用的信息。语义网使用ＸＭＬ来定义定制的标签格式以及用ＲＤＦ的灵活性来表达数据，下一步需要的就是用一种Ｏｎｔｏｌｏｇｙ的网络语言（比如ＯＷＬ）来描述网络文档中术语的明确含义和它们之间的关系。目前大多数商务网站的搜索引擎主要是基于关键词的全文匹配和基于主题分类进行检索的，由于信息资源缺少统一的语义描述，用户难以检索到与需求相关的资源，难以实现信息资源的语义共享，检索结果往往不能满足人们的需要。如何根据信息资源所具有的领域知识，实现信息资源的语义检索，提高数字化信息资源的利用率，是目前信息检索领域所面临的挑战。语义网的出现为这一问题提供了解决方案。语义网所描述的信息具有明确的含义，从而使得计算机能够更多地理解网上的信息，并以此为基础进行知识发现和关联等有关服务。本文的目的就是在分析传统信息检索存在的问题和对语义网进行大体描述的基础上，探讨语义网对网络信息检索的影响，同时指出语义网在网络信息检索中所面临的挑战和问题。１　传统检索信息面临的问题信息检索是信息资源与信息需求的匹配过程，是通过一定的算法寻找信息资源与信息需求的交集的过程。目前，传统的商务网站搜索引擎主要是基于关键词的全文匹配和基于主题分类进行检索的，这种搜索引擎的优点是简单、快捷和容易实现，但由于缺少统一的语义描述，用户很难快速地找到所需要的有用信息，从而导致了信息的查准率和查全率都不高。传统的信息检索技术主要由各种全文本检索技术组成，这些全文本检索技术是Ｇｏｏｇｌｅ、Ｂａｉｄｕ（百度）等搜索引擎的技术基础，也是当今Ｗｅｂ搜索最为流行的方法。由于传统的检索方式大都是基于关键词和分类目录进行检索的，只严格按照用户提交的信息进行匹配，然后把结果呈现给用户，而没有理解和处理信息的能力，检索结果的有效与否需要用户自己进行判断［１］。因此，在检索过程中，一方面可能会漏掉有用的信息，另一方面可能会检索出无关的信息。造成上述问题的实质在于传统的检索只是对检索的信息进行简单的匹配，而缺乏对知识的表示、理解和处理等能力。由于语义网的出现，很好解决了这个问题。语义网技术可以用计算机可理解的方式进行信息的表示，从而进行知识的发现、共享和重用。２　语义网的简单介绍２．１　语义网的结构经过一段时间的探讨，Ｂｅｒｎｅｒｓ－Ｌｅｅ在２０００年勾画了未来要实现的语义网架构（见图１）。由图１可见，语义网由下至上共分７个层次，语义网的第一层包括９７ＲＥＳＥＡＲＣＨ　ＯＮ　ＬＩＢＲＡＲＹ　ＳＣＩＥＮＣＥ

趋势分析之语义网

趋势分析之语义网近几年来，语义网越来越频繁地出现在IT报道中，PowerSet、Twine、SearchMonkey、Hakia等一批语义网产品也陆续推出。早在2010年，Google就已经收购了语义网公司Metaweb。对于这次收购Google产品管理主管杰克·门泽尔(Jack Menzel)发文称，该公司可以处理许多搜索请求，但Metaweb的信息可以使其处理更多搜索请求，“通过推出搜索答案等功能，我们才刚刚开始将我们对互联网的理解用于改进搜索体验”，但对于部分搜索仍然无能为力，“例如，‘美国西海岸地区学费低于3万美元的大学’或‘年龄超过40岁且获得过至少一次奥斯卡奖的演员’，这些问题都很难回答。我们之所以收购Metaweb，是因为我们相信，整合Metaweb的技术将使我们能提供更好的答案”。这表明语义网技术经过近10年的研究与发展，已经走出实验室进入工程实践阶段。语义网热度变化图语义网（Semantic Web）是一种智能网络，它不但能够理解词语和概念，而且还能够理解它们之间的逻辑关系，可以使交流变得更有效率和价值。语义网实际上是对未来网络的一个设想，现在与Web 3.0这一概念结合在一起，作为3.0网络时代的特征之一。语义网这一概念是由万维网联盟的蒂姆·伯纳斯-李（Tim Berners-Lee）在1998年提出的一个概念，实际上是基于很多现有技术的，也依赖于后来和text-and-markup与知识表现的综合。其渊源甚至可以追溯到20世纪60年代末期的Collins、Quillian、Loftus等人的研究，还有之后70年代初Simon、Schamk、Minsky等人陆续提出的一些理论上的成果。其中Simon在进行自然语言理解的应用研究时提出了语义网络（Semantic Network，不是现在的Semantic Web）的概念。下面我们用Trend analysis分析语义网领域内的研究热点。（点击链接即可进入https://https://www.doczj.com/doc/fb17495708.html,/topic/trend?query=Semantic%20Web）

中外搜索引擎研究的现状与发展

中外搜索引擎研究的现状与发展夏旭李健康（第一军医大学图书馆广州510515）摘要: 以WWW网络搜索引擎的发展历程为基础，综述了WWW网络搜索引擎的定义、检索机制、检索规则、词表应用、分类研究、比较研究等方面取得的新进展，探讨搜索引擎发展走向与思路。同时就目前中外搜索引擎普遍存在的问题进行分析，希能对国内中文搜索引擎的开发和准确、快速、全面检索WWW网络乃至因特网信息资源有所启示。关键词：搜索引擎研究进展综述信息资源管理由于因特网上信息资源内容广泛、时效性强、访问快速、网络交互搜寻、动态更新，而且还提供快速访问网上信息资源的各种搜索引擎(Search Engines)，用于快速搜索WWW网络乃至因特上的有用信息，使得通过WWW网络获取网络信息资源成为国内外研究的一大热点。基于网络的搜索引擎的研制与开发应用成为当前网络信息资源开发应用研究领域的热点。英文搜索引擎“GOOGLE”和中文搜索引擎“百度搜索”的推出，拉开了搜索引擎核心技术争夺战的序幕。可以预言，在今后一段相当长的时间里，搜索引擎还将有长足的发展和进步，检索功能将更趋向于集成化和更具亲和力、更显人性化。 1 搜索引擎的定义、检索机制、检索规则和词表应用 1.1 定义搜索引擎，Search engines，又称搜索机，Web搜索器，是伴随WWW网络出现的检索网上信息资源的新工具。实质上是一种网页网址检索系统，有的提供分类和关键词检索途径，有的仅提供关键词检索途径。它根据检索规则和从其他信息服务器上得到数据并对数据进行加工处理，自动建立索引，并通过检索接口为用户提供信息查询服务，能够自动对WWW资源建立索引或进行主题分类，并通过查询语法为用户返回匹配资源的系统。搜索引擎主要是由Crawler、Spider、Worm、Robot等计算机软件程序自动在因特网上漫游，不断搜集各类新网址及网页，形成数以千万甚至上亿条记录的数据库。它是通过采集标引众多网络站点来提供全局性网络资源控制与检索机制、将全球WWW网络中所有信息资源作一完整的集合、整理和分类、方便用户查找所需信息的网络检索软件。具有检索面广、信息量大、信息更新速度快，特定主题的检索专指性强等特点。 1.1.1 常规搜索引擎和元搜索引擎自带索引数据库的搜索引擎通常被称为常规搜索引擎或独立搜索引擎，相应地，集多种常规搜索引擎于一体的搜索引擎则称为（多）元搜索引擎。元搜索引擎是国外搜索引擎开发者新设计的一种集成型搜索引擎，与独立搜索引擎的区别在于：它是通过一个统一的用户界面帮助用户在多个独立搜索引擎中选择和利用合适的搜索引擎，甚至是同时利用多个搜索引擎来实现检索操作。元搜索引擎没有自己独立的数据库，却更多地提供统一界面，形成一个由多个搜索引擎构成的具有独立功能的虚拟逻辑体，通过元搜索引擎的功能实现对这个虚拟逻辑体中各搜索引擎数据库的查询等一切操作。由于元搜索引擎预先配置好多个搜索引擎，每条检索指令都自动通过预先配置的搜索引擎执行，免去了用户逐一记忆和单独使用每个搜索引擎的麻烦。主要的元搜索引擎有ALL-IN-ONE、CUSI、Fun City Web Search、HyperNews、Linksearch、Savvysearch、Metacrawler、Best Search、W3Search Engines、WebSearch、Profusion、Mamma、Avenuesearch、Dogpile、Kwikseek、Findspot、Bytesearch、Webferret、Bluesquirrel Webseeker等。Metacrawler (http://www. https://www.doczj.com/doc/fb17495708.html,)能同时调用６个搜索引擎；Savvysearch (http://www. https://www.doczj.com/doc/fb17495708.html,)可有选择地调用21个独立的搜索引擎，检索Web、Usenet 新闻组、软件、参考工具、技术报告等信息，每次最多并行检索５个搜索引擎的数据库。Profusion (http://www. https://www.doczj.com/doc/fb17495708.html,)最多同时调用９个独立的搜索引擎，调用方式有全部调用、系统自动选择最好的３个、系统自动选择最快的３个、用户从中选取任意个搜索引擎。最新出现的桌面型离线式搜索引擎如Webcompass、WebSeeker、WebFerret、Echosearch、Copernic98等也是元搜索引擎。 1.1.2 集中式搜索引擎和分布式搜索引擎

语义网技术

语义网技术是当前互联网技术研究的热点之一。目前大多数页面中的使用的文字信息不便于机器自动处理，只适合人们自己阅读理解，解决可自动处理的数据和信息方面发展较慢的问题，在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今天，成为信息检索的一个难题。本文首先建构了一种形式化的本体描述方法，并给出了标准化的定义，主要针对在本体层定义的基础上对逻辑层展开了基础研究，对于本体概念进行逻辑推理，通过本体中关系的属性，推理出隐含在本体概念间的关系。在本文的定义中本体包含五个基本的建模元语，概念，关系，函数，公理，实例，通过本体的五个建模元语构建本体，给出本体的形式化的规范定义，本体描述中的四种特殊关系有继承关系，部分关系，实例关系和属性关系，关系的各种属性是进行本体推理的逻辑依据，有传递性属性，关系继承性，反向关系继承性，逆属性，对称性属性，反身性属性，等价性属性等等，依据这些属性的逻辑性，可以推理出所要的查找。本文利用属性的逻辑推理机制采用树搜索的查找检索方式查找出隐含在概念之间的逻辑关系是本文所要进行的主要工作，这样可以判断出概念之间是否存在一些给定判断的关系，或者一个概念和什么概念存在给定的关系，再或者两个概念间都存在什么关系等等都是我们用推理检索所要实现的判断。摘要语义网技术是当前互联网技术研究的热点之一。目前大多数页面中所使用的文字信息不便于机器自动处理，只适合人们自己阅读理解，解决可自动处理的数据和信息方面发展较慢的问题，在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今

天，成为信息检索的一个难题，本文中对本体层概念的推理就是为了探索计算机理解语义所做的一个尝试。语义网的体系结构向我们说明了语义网中各个层次的功能和特征，语义网的研究是阶段性的，首先解决syntax(语法)层面的问题，也就是xml，然后是解决(数据层)基本资源描述问题，也就是rdf,然后是(本体层)对资源间关系的形式化描述，就是owl，damloil，这三步已经基本告罄，当然，基于rdf 或者owl的数据挖掘和ontology管理(如合并，映射，进化)按TIMBERNERS-LEE的构想，这个工作大概到2008左右可以完成，在商业上，很快就会在知识管理，数据挖掘，数据集成方面出现一些企业。目前亟待发展的是LogicLayer(逻辑层)，这方面在国内外的期刊著作中还少有提到，接下来的工作就应该是对于owlbased的数据进行推理和查询了，当前的推理方法主要是针对本体而言的，而本体的概念是在某个特定领域范围内的，而且在知识库中推理和查询是紧密的结合在一起的，相辅相成的，查询的同时必然存在着推理，而这里的推理就必须要建立在一定的逻辑模型的基础上，所以推理的方法就是基于逻辑模型的逻辑推理，可采用逻辑推理的方法。本体中推理的重点在于推理结论的正确性、完备性，若是不能保证推理的正确性，则语义网的引入就不但没有给网络资源的查询带来便利，反而阻碍了网络的发展，而且还要保证推理的完备，不遗漏应有的推理结果。本体推理的难点在于推理的高效性、资源利用率，若推理虽能达到正确性，完备性的目的而浪费了大量的时间和资源，则语义网也不能达到预期的效果，所以推理方法的使用及其效果是语义网成功的关

语义网本体

Part2：创建本体本次所创建的本体是一个植物(plant)本体，所用的工具是Protege4.3。首先根据植物的分类来建立本体的Schema层，按照不同的分类方式可以有不同的分类例如可以分为花（flower）、草(grass)和树(tree)三类。花又可以分为蔷薇科（Rosaceae ）、十字花科（cruciferae）、百合科（liliaceae）。草又可以分为草坪草（turfgrass）、孔雀草（maidenhair）、千日草（One thousand days grass）。树又可以分为乔木（arbor）、灌木(shrub)。所建的Schema层如下图1所示。图1 植物本体的Schema层构建图 2、添加属性，属性包括对象属性和数据属性。所添加的对象属性有：颜色、枯萎季节、茂盛季节开花时间、开花时长，其定义域均设置为Plant。添加的数据属性有：根茎的长度。具体的添加如下图2所示。（1）对象属性添加图（2）数据属性添加图图2 植物本体的属性构建图

3、添加相应的实例。为百合科添加实例：百合花（greenish lily flower ）为乔木添加实例：雪松和杨树，为草坪草添加实例：马蹄金草（The horseshoe golden grass ）具体的实例图如下图3所示。图3 具体实例添加图 4、定义公理，例如可以对其定义灌木为丛生状态比较矮小。则需要添加对象属性丛生状态（Cluster_State）和子属性主要丛生状态(Main_Cluster_State)，然后添加分类：Type，包括short and small和tall。对草坪草定义为：主要丛生状态是short and small。对乔木添加定义：主要丛生状态是tall。在Plant类下面添加叶子(leaf)，然后添加对象属性is_part_of，给leaf定义为：叶子是树叶的一部分。对草坪草的具体的定义效果如下图4所示。图4 草坪草定义效果图

信息检索文献综述

信息检索文献综述前言：关于信息检索技术的文献综述，一、信息检索技术现状，信息检索技术综述，信息检索技术实现了把信息检索从基于关键词层面提高到知识层面，从传统的基于关键词的检索到吸引广大研究者眼球的语义检索，传统的基于关键词信息检索，语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术，它从语义理解的角度分析信息对象和检索者的检索请求，提高了检索性能，语义检索技术将有一个长期深入研究的过程。关于信息检索技术的文献综述一、信息检索技术现状【1】梁鸿雁，信息检索技术综述，2010(9),软件导刊,35~37,在现有研究的基础上，信息检索技术实现了把信息检索从基于关键词层面提高到知识层面。从传统的基于关键词的检索到吸引广大研究者眼球的语义检索。实现了把信息检索从基于关键词层面提高到知识层面。传统的基于关键词信息检索，已取得了很大的成功，但是它不能从根本上表达用户的查询请求。语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术，它从语义理解的角度分析信息对象和检索者的检索请求，提高了检索性能。但由于自然语言理解和人工智能等领域的局限，语义检索技术将有一个长期深入研究的过程。二、信息检索技术类型及方法

【1】赵阳，浅谈信息检索技术，2012年11月，科技创新与应用，45,介绍了当今比较热门的两种信息检索技术：第一，智能检索或知识检索传统的全文检索技术基于关键词匹配进行检索，智能检索利用分词词典、同义词典，同音词典等改善检索效果，还可在知识层面或者概念层面上辅助查询，通过主题词典、上下位词典、相关同级词典，形成一个知识体系或概念网络，给予用户智能知识提示，最终帮助用户获得最佳的检索效果。第二，知识挖掘，目前主要指文本挖掘技术的发展，目的是帮助人们更好的发现、组织、表示信息、提取知识，以满足信息检索的高层次需要。【2】孙广维，多媒体信息检索技术的研究，2012，6 ，吉林建筑工程学院学报，79~81，作者提出传统的多媒体检索方法处理比较简单，有的仅通过多媒体的外部属性和简单的文字描述进行检索，还脱离不了文本、数值和关键词的检索范畴，对图像、音频、视频信息则只有浏览或查看功能，缺乏多媒体本质特征的描述，在多媒体数据库中集成了图像、视频、音频等非文本信息，这样我们就可以用图像、音频、视频信息方便的进行检索。【3】双林平，分布式信息检索技术探析，2012（4），图书馆学刊，111~112，分布式信息检索是信息检索研究的一个重要方向，主要对分布式信息检索概念、分布式信息检索法、搜索引擎技术进行了分析，分布式技术与信息检索相结合，对于分布式资源的检索策略来讲，不仅可以对分布服务器之间的通信问题进行有效解决，还可以对

语义检索

在数字图书馆中，信息检索存在明显不足。在文献的组织与描述上,简单将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。在检索操作上,通常是基于关键词的无结构查询,难以反映词语间各种语义联系, 查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低；计算查询和文档之间的相似度的方法也有局限。在用户交互界面上，用户的检索意图难以被机器理解，采用自然语言输入的检索关键词与机器的交互存在障碍。现有数字图书馆信息资源检索存在资源表示语义贫乏和检索手段语义贫乏、查准率低下等问题，语义网技术的出现，为数字图书馆的发展注入了新的活力，为信息检索质量的提高带来了新的生机。运用语义网技术，使解决信息检索中现存的问题，完善信息检索流程成为了可能。3.1 数字图书馆信息检索模型目前数字图书馆的信息检索主要借助于目录、索引、关键词方法来实现, 或者要求了解检索对象数据结构等, 对用户提供的关键词的准确性要求较高，基于语法结构进行检索, 却不能处理复杂语义关系,常常检索出大量相关度很差的文献。图3.1 数字图书馆信息检索模型用户通过检索界面，输入关键词，文本操作系统对用户的关键词进行简单的语法层次的处理整合，与数字图书馆资源进行匹配检索，最终将检索的结果，再通过用户界面返回给用户。而数字图书资源，专业数据库等都是数字图书馆信息检索的范畴，这些数字化的知识资源主要以数据库形态分布于全球互联网的数千个站点,这种以数据库形式存放的信息资源,通常是电子化了的一次文献,包括元数据、摘要或者是全文,也可以是全文链接的地址。 24 基于语义网的数字图书馆信息检索模型研究 3.2 基于语义网的数字图书馆信息检索模型的设计思想数字图书馆信息检索系统存在诸多问题。查询服务智能化水平低，无法对用户请求进行语义分析；信息资源的共享程度低，仅仅采用题名、文摘或全文中出现的关键词标识文献内容，难以揭示文献资料所反映的知识信息，易形成信息孤岛；对用户输入的关键词进行句法匹配，查准率不高；片面追求查全率，返回大量无关结果等。这些问题最终造成用户的真正检索意图难以实现。人们希望有突破性的信息检索技术出现，能够支持更为强大的信息检索功能，具备理解语义和自动扩展、联想的能力，并为用户提供个性化服务。在这样的需求下，本节深入探讨了现存问题的解决方法，结合语义网技术，提出了以下基于语义网的数字图书馆信息检索模型的设计思想。3.2.1 机器理解与人机交互人们通过信息的交流和沟通，表达一定的思想、意思和内容，因此，自然语言和表达的信息中蕴含着丰富的语义。尤其是自然语言中，一词多义、一义多词现象十分常见，在不同的语境中，同样的词汇还可以表达出不同的意义。在人与人的交流中，近义词、反义词、词语的词性、语法结构等帮助人们在特定的语言环境中理解语言表达的确切含义，而计算机要做到这点却有难度。随着网络的不断发展，网络信息充斥着人们的视野。如何在浩如烟海的信息资源中，以最短的时间查找出相关资源，成为人们所关注的问题之一。通常，检索系统总会返回相关度不高，甚至完全无关的信息，而有些相关的信息却往往被遗漏了。一方面，检索工具没能把已经存在的、对用户有价值的信息检索出来，另一方面，信息资源没有很好的被归纳，提炼成知识。利用语义网技术，将语义丰富的描述信息和资源关联起来，通过机器理解和人机交互，对信息资源进行深层次的分析和挖掘。从本质上讲，人机交互是认知的过程，主要通过系统建模、形式化语言描述等信息技术，最终实现和应用人机交互系统。3.2.2 语义知识与描述逻辑从语义学的角度讲，语义是语言形式表达的内容，是思维的体现者，是客观事物在人们头脑中的反映[72]。人们在进行信息交流和沟通时，通过词语、符号来表达思想。当人们看到

移动搜索现状与发展研究

分类号：TP315 U D C：D10621-408-(2007) 5900-0 密级：公开编号：2003214051 电子科大成都学院学位论文搜索引擎与移动搜索论文作者姓名：申请学位专业：申请学位类别：指导教师姓名（职称）：论文提交日期：2010年06月01日

移动搜素基础，国内外移动搜索现状，国内外移动搜索发展，国内外移动搜索发展的问题与对策。搜索引擎与移动搜索摘要电脑网络与现代生活密切相关，它们已成为现代生活的标志，随着信息技术日新月异的发展，电脑网络在我们的日常生活、工作、学习、娱乐等方面日益重要，可以说，网络就象一个大宝库，里面有取之不尽的宝藏，要在浩如烟海的网络资源中迅速、有效的找到需要的资料，搜索引擎是最好的帮手。在3个月的毕业设计中，我在PCMAGZINE杂志社实验室学习了搜索引擎的一些原理及其使用方法，并实际参与测评了多款时下流行使用的搜索引擎，期间该评测实验室分别对５种不同的搜索引擎按易用性，功能和灵活性进行评测比较。以下便是我在实际测评工作中的心得体会。由于第一次从事这方面的分析，不足，错误之处在所难免，恳请各位老师批评指正。关键字：搜索：移动搜索：网络营销 bstract Computer Network and is closely related to modern life, they have become the symbol of modern life, as information technology rapid development of computer networks in our daily life, work, study, entertainment and more important, we can say as a big network treasury, which has an inexhaustible treasure, to the vast network of resources quickly and effectively find the information needed, the search engine is the best helper. In the 3 months of the graduation project, I PCMAGZINE magazine laboratory study search engine and use some of the principles and practice involved in a variety of popular measurement used by search engines, respectively, during the evaluation laboratory 5 different search engines by ease of use, functionality and flexibility compared to evaluation. The following are my experiences in the actual evaluation work experience. As for the first time in this analysis, less than, is wrong with the inevitable urge teachers criticized the correction.

语义搜索的分类

语义搜索的分类一．按语义搜索引擎服务内容的分类语义搜索引擎从人们头脑中的概念到在搜索领域占据一席之地经历不少坎坷。语义网出现后，语义搜索迎来了高速发展的机遇期。虽然语义搜索服务内容主要集中在传统搜索引擎不擅长的语义网搜索方面。不过语义搜索引擎也试图拓展服务范围，提供比传统搜索引擎更全面的服务。语义搜索引擎的服务内容主要包括以下几个方面：知识型搜索服务、生活型搜索服务、语义工具服务等。 (1)知识型搜索方面，主要针对语义网知识信息资源。其中包括： ①词典型搜索服务。一种形式是如同使用电子词典一样，通过关键词直接查询与关键词对应的概念。这些概念由语义搜索引擎索引的本体文件中提取。另一种形式则是对在线百科全书的搜索服务，如PowerSet，这一点与传统搜索引擎近似，但语义搜索引擎在信息的组织上远胜于传统搜索引擎。 ②语义网文档(SWD)的查询服务。用户可以通过语义搜索引擎查询所需的语义网文档和相关的语义网文档。Falcons 为统一资源标识符(URI)定义的语义网对象和内容提供基于关键词的检索方式。Swoogle 从互联网上抽取由RDF 格式编制的语义网文档(SWDs)，并提供搜索语义网本体、语义网例证数据和语义网术语等服务。 ③领域知识查询。部分语义搜索引擎提供了针对某个或某几个专业门类的信息检索服务，用户可以选择自己所需相关信息。Cognition 以搜索法律、卫生和宗教领域为主。个别语义搜索引擎提供针对特定领域的多媒体语义搜索服务，如Falcon-S 对足球图片的搜索服务。不过多媒体语义搜索面临与传统多媒体搜索相似的困境，缺乏有效的语义标注。对多媒体信息的辨别和分类能力仍有待提高。 (2)生活型搜索方面，语义搜索引擎在传统搜索引擎力所不及的诸方面发展迅速。 ①社会网络搜索。部分语义搜索引擎提供社会网络搜索功能，这种功能可以实现通过姓名、著作、所在单位等信息中的一条或几条，查询与这些信息有关联的更多信息，如我国的ArnetMiner。 ②资讯搜索。目前语义化的网络搜索服务能够更有针对性，更准确地为用户提供新闻资讯。Koru就是这方面的代表。 (3)语义工具服务。这是语义搜索引擎所属的研究机构的一个较为独特的方面，和传统搜索引擎提供的桌面搜索等工具不同，语义搜索引擎提供的语义工具一般不是对语义搜索功能的直接移植，而是对文档的相似性、标注等进行处理用的。这些工具可以为语义搜索引擎的索引对象进行前期数据加工，同时也供科研使用。理论上讲语义搜索引擎能够提供包括普通网络文档检索在内的所有类型网络文档搜索服务，但是由于语义搜索引擎对网页的索引方式不同，微处理器需要比传统搜索更长的时间才能分析完一个页面，因此很多语义搜索网站只能扫描到外部网站的二级页面，这样将难以满足用户全网络搜索的需求。二．按语义搜索引擎服务模式分类语义搜索引擎高速发展的阶段正值传统搜索引擎发展的平台期，虽然语义搜索引擎暂时尚不具备传统搜索引擎的市场竞争力，但是它们却可以很容易地借鉴传统搜索引擎的成

语义网主要应用技术与研究趋势_吴玥

2012年第2期 Computer CD Software and Applications 信息技术应用研究 — 41 — 语义网主要应用技术与研究趋势吴玥（苏州大学计算机科学与技术学院，江苏苏州 215006）摘要：我国企业多数已经实现了网络办公自动化，为企业的经营管理创造了优越的环境。但随着销售业务的增长，企业经营管理的范围逐渐扩大，其内部网络面临的运营难题更加明显，网络知识管理是当前企业存在的最大困难。语义网络技术的运用方便了知识管理系统的构建与操控，促进了企业知识管理效率的提升。针对这一点，本文主要分析了语义网应用的相关技术，对未来研究趋势进行总结。关键词：语义网；应用技术；知识管理；趋势中图分类号：TP391.1 文献标识码：A 文章编号：1007-9599（2012）02-0041-02 The Main Application Technology and Research Trends of Semantic Web Wu Yue (School of Computer Science&Technology,Soochow University,Suzhou 215006,China) Abstract:Our country enterprise majority already realize the network office automation,enterprise management to create a favorable environment.But as the sales growth,gradually expanding the scope of business management of enterprise,its internal network operator facing the problem is more apparent,network knowledge management is the current enterprise is the most difficult.Semantic network technology is convenient to use the knowledge management system's construction and operation,promote the enterprise to improve the efficiency of knowledge management.In view of this,this article mainly analyzes the semantic web technologies,the future research trends are summarized. Keywords:Semantic network;Application technology;Knowledge management;Trend 语义网是对未来计算机网络的一种假设，通过相匹配的网络语言对文件信息详细描述，最终判断不同文档之间的内在关系。简言之，语义网就是能参照语义完成判断的网络。企业在经营管理中引进语义网有助于数据信息的挖掘，对数据库潜在的信息资源充分利用，以创造更大的经济收益。一、传统互联网知识管理的不足互联网用于企业经营管理初期，加快了国内行业经济的改革进步，促进了企业自动化操控模式的升级。然而，当企业经营范围不断扩大之后，企业面临的网络管理问题也更加显著。如：业务增多、产品增多、客户增多等，企业网络每天需要处理的文件信息不计其数，基于传统互联网的知识管理系统也会遇到多种问题。（一）检索问题。互联网检索是十分重要的功能，如图一。用户在互联网上检索某一项资源时，常用的方法是通过关键词搜寻，未能考虑到语义对资源搜索的重要性。这种检索模式下则会遇到许多难题，如：对同义词检索会出现多余的无关资源，尽管用户在互联网上可以查找到许多与关键词相关的信息，但多数是无用的。图一互联网信息检索（二）集成问题。信息集成是网络系统按照统一的标准、编码、程序等，对整个系统存储的资源集成处理，然后实现信息资源的共享。企业互联网信息集成依旧采用人工处理，这是由于网络的自动代理软件不能处理文本代表的常识知识，信息集成问题将制约着互联网功能的持续发挥。（三）维护问题。对于企业知识管理系统而言，其采用的文档大部分是半结构化数据，这种数据的维护管理难度较大。现有的互联网在文档维护方面缺乏先进的软件工具，对于文档信息的处理也会遇到不少错误。知识管理中的数据库资源错误会给企业经营造成误导，且带来巨大的经济损失。二、语义网应用的相关技术互联网研发对语义网应用研究的最终目标是“开发各种各样计算机可理解和处理的表达语义信息的语言和技术，让语义网络的功能得到最大发挥” 。因此，结合语义网络的功能特点、结构形式、信息储存等情况，用户需掌握各种语义网应用技术。就目前而言，语义网主要的应用技术包括：（一）编码技术。编码是计算机网络运行的重要元素，通过编码之后才能让程序信号及时传递。语义网编码技术就是通过编码处理将知识内容表达出来，这一过程能够把不同的知识编码为某个数据结构，从而方便了用户对数据的检索。编码技术要用到各种知识表达方法，如：一阶谓词逻辑表示法、产生式表示法、框表示法、语义网络表示法等等。（二）框架技术。框架技术本质上就是对语义网进行层次划分，将网络结构分层不同的层面。语义网框架技术应用要借助语义 Web 模型，经过长期研究，我们把语义网体系结构分为7个层面，如图二。每个层面在语义网运行时都可发挥对应的功能，促进了语义网程序操控的稳定进行。层面框架的分析，可以掌握语义网体系中各层的功能强弱。图二语义网的体系结构

基于本体的语义检索系统的研究与应用

基于本体的语义检索系统的研究与应用董涛，孟祥武北京邮电大学计算机科学与技术学院，北京（100876） E-mail：tdong2005@https://www.doczj.com/doc/fb17495708.html, 摘要：基于本体查询的语义检索是建立在Semantic Web基础之上的一种检索技术。与传统搜索引擎技术相比，它极大地提高了系统的查全率和查准率。文章首先介绍了语义网和本体的基本概念，然后通过实际举例的概念层次图详尽地阐述了本体中概念及其关系的具体意义。最后利用本体构建工具Protege并结合本体的相关标准共同构建本体，通过Jena API实现了基于OWL本体文件的语义查询系统。关键词：本体，语义网，OWL，Jena，Protege 0. 引言随着Internet的迅猛发展，互联网上的信息正在随指数的速度在迅速增长，出现了信息爆炸的问题。在如此浩瀚的信息海洋中，检索到有价值的信息成为当前计算机检索系统必须解决的问题。因此，信息检索技术成为当前热门的研究课题。目前，最主要的信息检索技术有两种。一种是基于目录的检索技术，它将相关主题的页面组织起来，形成一棵目录树。因此，检索的过程，就是遍历一棵目录树的过程。另一种是基于关键字匹配的检索技术，也是最常见的检索技术[1]。以上两种信息检索技术在查全率和查准率方面还存在着很多欠缺之处。例如：当用户查询番茄时，搜索引擎只会将包含有“番茄”一词的页面提供给用户，而不会把包含有“西红柿”一词的页面也返回给用户。因此，这就存在着查全率的问题。与此同时，搜索引擎会把包含有“番茄花园”的页面返回给用户，但这并不是用户想得到的，因此，这在查准率方面就出现了问题。为了解决查全率和查准率的问题，就需要提高信息检索技术的精度和覆盖率。如何使搜索引擎更加智能化，使它能够充分理解用户的意图，是信息检索技术需要迫切解决的问题。近年来，语义网的提出为增强搜索引擎的智能化提供了良好的解决方案。它将网络中的各种资源结构化，使得计算机能够识别、处理。计算机首先将检索词本体化，检索引擎通过解析、推理，然后将相关资源从本体库中提取出来，最后返回给用户。这种智能的检索技术能够提高用户的满意度，减少不相关的结果，得到更多相关的结果。本文从构建本体及其本体库的角度出发，结合实际的应用，阐述如何建立语义检索系统进行信息检索。 1. 语义网与本体的概述 1.1 语义网在2000年11月的XML2000会议上，Tim Berners-Lee首次提出了语义Web的概念。他将语义Web定义为：语义Web是一个网，它包含了文档或文档的一部分，描述了事物间的明显关系，且包含语义信息，以利于机器的自动处理。他于2000年提出了语义Web的体系结构[2]，如下图所示：

语义网基础教程

第一章概述 1.1万维网现状万维网改变了人类彼此交流的方式和商业创作的方式。发达社会正在向知识经济和知识社会转型，而万维网处于这场革命的核心位置。这种发展使得人们对计算机的看法也发生了变化。起初，计算机仅仅用作数值计算，而现在则主要用于信息处理，典型的应用包括数据库，文档处理和游戏等等。眼下，人们对计算机关注的焦点正在经历新的转变，将其视作信息高速公路的入口。绝大部分现有的网络内容适合于人工处理。即使是从数据库自动生成的网络内容，通常也会丢弃原有的结构信息。目前万维网的典型应用方式是，人们在网上查找和使用信息、搜索和联系其他人、浏览网上商店的目录并且填表格订购商品等等。现有软件工具没有很好的支持这些应用。除了建立文件间联系的链接之处，最优价值和必不可少的工具是搜索引擎。基础关键词的搜索引擎，比如Alta Vista、Yahoo，Google等，是使用现有万维网的主要工具。毫无疑问，加入没有这些搜索引擎，万维网不会取得现在这么大的成功。然而，搜索引擎的使用也存在一些严重过的问题： ●高匹配、低精度。即使搜到了主要相关页面，但它们与同时搜到的28758 个低相关或不相关页面混在一起，检索的效果就很差。太多和太少一样令人不满意。 ●低匹配或无匹配。有时用户得不到任何搜索结果，或者漏掉了一些重要的相关页面。虽然对于现在的搜索引擎来说，这种情况发生的频率不高，但确实会出现。 ●检索结果对词汇高度敏感。使用最初填写的关键词往往不能得到想要的结果，因为祥光的文档里使用了与检索关键词不一样的术语。这当然令人不满意，因为语义相似的查询理应返回相似的结果。 ●检索结果是单一的网页。如果所需要的信息分布在不同的文档中，则用户必须给出多个查询来收集相关的页面，然后自己提取这些页面中的相关信息并组织成一个整体有趣的是，尽管搜索引擎技术在发展，但主要的困难还是上述几条，技术的发展速度似乎落后于网上内容量的增长速度。此外，即使搜索是成功的，用户仍必须自己浏览搜索到的文档，从中提取所需的信息，也就是说，对极其耗时的信息检索本身，搜索引擎并没有提供更多支持。因此，用信息检索来描述搜索引擎为用户提供的功能，是不确切的；用信息定位可能更加合适。另外，由于现有网络搜索的结果不易直接被其他软件进一步处理，因此搜索引擎的应用往往是孤立的。目前，为网络用户提供更大支持的主要障碍在于，网上内容的含义不是机器可解读的。当然，有一些工具能够检索文档、把它们分割成更小的部分、检查拼写并统计词频等等。可是，一旦牵涉到解释句子含义和提取对用户有用的信息，现有的软件能力就有限了。举一个简单的例子。对现有技术而言，一下俩个句子的含义是难以区分的：我是一个计算机科学的教授。你不妨认为，我是一个计算机科学的教授。

搜索引擎评价研究方法综述

搜索引擎评价研究方法综述费巍 2012-9-29 19:50:56 来源：《现代情报》(长春)2010年12期【英文标题】Overview of the Methods of Evaluation on Search Engine 【作者简介】费巍(1981-)，男，博士，研究方向：信息组织和信息检索，发表论文10多篇。苏州图书馆，苏州 215002 【内容提要】通过ISI Web of Science和中国期刊网查找有关搜索引擎评价研究的文章，本文对搜索引擎评价研究的相关文献进行了梳理，并对研究方法进行了总结。搜索引擎评价研究方法主要有实验法、调查法、观察法、数据分析法、综述和评论等。对比国内外相关研究，国内搜索引擎评价研究数据支撑较为缺乏，科学分析和论证也明显不足。本文旨在提升国内搜索引擎评价研究的科学性。 The paper reviewed the documents related to the evaluation of search engines based on the ISI Web of Science and CNKI. The methods of these studies were concluded, which were experimentation, survey, observation, data analysis, and review. According to the comparison between domestic and overseas correlational research, the research on the evaluation of search engines was lack of data, as well as scientific analysis and verification. The aim of this paper was to improve the scientificity of the evaluation of search engine in China. 【关键词】搜索引擎/评价/研究方法/综述Search

IA研究综述

IA研究综述１、IA概述 ⒈1 IA产生的背景随着网络和计算机技术的发展与普及，不但传统的图书馆资源开始数字化，Ｗｅｂ本身的信息量也在不断激增，由此造成的网络空间混问题如信息检索表述难，网站框架不合理，导航、标识、检索系统效率低下等为用户造成了极大不便，为了解决这些问题，人们认识到必须从宏观的角度来研究信息空间的构建，IA的概念应运而生。 ⒈2 IA的产生 IA既Information Architecture, 中文一般译为“信息构建”，是美国建筑师Richard Saul Wurman于1975年提出。但在其创建之初并没有引起社会的广泛认同。近年来由于前文所述的社会背景，对IA问题的关注和研究逐渐风行起来。 ⒈3 IA的定义 IA一词的创建者Wurman认为：“IA是建设信息结构让其他人理解。”他在《信息焦虑》一书中，正式定IA为“指组织、标识、导航和检索系统的设计，目的是帮助用户查找和管理信息”。按照AIFIA(Asilomar Institute for Information Architecture)的定义，IA“是共享的信息环境结构的设计；是组织和标识网站、内联网、联机交流和软件以保证其可用性和可找到性的艺术和科学；是一个致力于对数字园的设计和建设的、正在出现在实践领域。” 在美国情报科学技术学会2000年IA峰会上提出的定义是：“信息构建是组织信息帮助人们有效地实现其信息需求的艺术和科学。” Ritchey将IA定义为“生成计划的实践，以便为一个内容系统和界面描述潜在的组织结构。” Dillon在美国情报科学技术学会会刊的IA专集上提出：“IA是一个用来描述信息空间的设计、实施和评价过程的词汇。” 两位图书馆学家Davenport和Prusak定义为：①信息构建是在信息系统内组织、标识与导航规划的结信。②信息构建是对信息空间的结构化设计，以方便任务完成和获取内容。③信息构建是对网站和企业内联网进行结构化和分类以帮助人们查找与管理信息的艺术和科学。④信息构建是集中应用设计科学和建筑科学之原理的新生科学和实践领域。国内学者也对IA的定义及进行了探讨。荣毅红等认为IA的主要活动是信息组织、结构的建构、系统的设计，IA的活动的主体是信息建筑师，客体是数据、信息（信息空间）、内容、结构、系统，服务对象是用户，目的是使信息可视和可理解，帮助人们更加成功地找到和管理信息。对IA定义比较全面的是周晓英，她认为IA是“组织信息和设计信息环境、信息空间或信息体系结构，以满足需求者的信息需求的一门艺术和科学。” ⒈4 信息建筑师和信息构建团队信息经济中，智力资本、知识、数据和经验是任何组织取得成功的关键。组织每时每刻都在创造和获得些信息，但如没有人对其加以管理，信息交换过程很快就会杂乱无章，信息的价值也会因为这种无序性而降低。这时信息建筑师的重要性便凸显出来，因为他们通过组织活动建立起合理有序的途径，提高了信息搜集、存储和发布的效率。文献⑻提到，目前大部分信息建筑师的主要工作与网站的建设和管理有很大关系，其工作的主要类型是： ⑴为客户确定因特网、内联网和信息系统的发展战略； ⑵设计、构建、开发和执行IA的解决方案；