当前位置:文档之家› 语义网基础教程

语义网基础教程

语义网基础教程
语义网基础教程

第一章概述

1.1万维网现状

万维网改变了人类彼此交流的方式和商业创作的方式。发达社会正在向知识经济和知识社会转型,而万维网处于这场革命的核心位置。

这种发展使得人们对计算机的看法也发生了变化。起初,计算机仅仅用作数值计算,而现在则主要用于信息处理,典型的应用包括数据库,文档处理和游戏等等。眼下,人们对计算机关注的焦点正在经历新的转变,将其视作信息高速公路的入口。

绝大部分现有的网络内容适合于人工处理。即使是从数据库自动生成的网络内容,通常也会丢弃原有的结构信息。目前万维网的典型应用方式是,人们在网上查找和使用信息、搜索和联系其他人、浏览网上商店的目录并且填表格订购商品等等。

现有软件工具没有很好的支持这些应用。除了建立文件间联系的链接之处,最优价值和必不可少的工具是搜索引擎。

基础关键词的搜索引擎,比如Alta Vista、Yahoo,Google等,是使用现有万维网的主要工具。毫无疑问,加入没有这些搜索引擎,万维网不会取得现在这么大的成功。然而,搜索引擎的使用也存在一些严重过的问题:

●高匹配、低精度。即使搜到了主要相关页面,但它们与同时搜到的28758

个低相关或不相关页面混在一起,检索的效果就很差。太多和太少一样令人不满意。

●低匹配或无匹配。有时用户得不到任何搜索结果,或者漏掉了一些重要的

相关页面。虽然对于现在的搜索引擎来说,这种情况发生的频率不高,但确实会出现。

●检索结果对词汇高度敏感。使用最初填写的关键词往往不能得到想要的结

果,因为祥光的文档里使用了与检索关键词不一样的术语。这当然令人不满意,因为语义相似的查询理应返回相似的结果。

●检索结果是单一的网页。如果所需要的信息分布在不同的文档中,则用户

必须给出多个查询来收集相关的页面,然后自己提取这些页面中的相关信息并组织成一个整体

有趣的是,尽管搜索引擎技术在发展,但主要的困难还是上述几条,技术的发展速度似乎落后于网上内容量的增长速度。

此外,即使搜索是成功的,用户仍必须自己浏览搜索到的文档,从中提取所需的信息,也就是说,对极其耗时的信息检索本身,搜索引擎并没有提供更多支持。因此,用信息检索来描述搜索引擎为用户提供的功能,是不确切的;用信息定位可能更加合适。另外,由于现有网络搜索的结果不易直接被其他软件进一步处理,因此搜索引擎的应用往往是孤立的。

目前,为网络用户提供更大支持的主要障碍在于,网上内容的含义不是机器可解读的。当然,有一些工具能够检索文档、把它们分割成更小的部分、检查拼写并统计词频等等。可是,一旦牵涉到解释句子含义和提取对用户有用的信息,现有的软件能力就有限了。举一个简单的例子。对现有技术而言,一下俩个句子的含义是难以区分的:

我是一个计算机科学的教授。

你不妨认为,我是一个计算机科学的教授。

使用文本处理技术,咋样才能改善现在的状况呢?一种解决方案是沿用现有表达方式来表示网上的内容,并发展基于人工智能和计算语言学的一些日趋复杂的技术以解决现有难题。这条途径迄今已探索多时,尽管取得了一些进展,但其任务仍然显得过于困难。

另一种途径是用一种更容易被机器处理掉表示方法来描述网上的内容,并此阿勇之恩那个技术来利用这种表示方法所提供的便利。我们把这个革命性的方案称为语义网运动。值的注意的是,语义网并不是一种和首先由万维网平行的新的全球信息高速公路,相反,它将在现有万维网的基础上逐渐成长。

语义运动由——万维网联盟(W3C)发起,其倡导者正是在20世纪80年代后期发明万维网的Tim Berners-Lee。他期望通过这场运动来实现他的万维网的初始蓝图,在这个蓝图中,信息含义所起的比现今万维网中重要很多。

语义网的发展得到了产业界的大力支持和各国的大力支持和各国政府的大量资助。美国政府设立了DAMl(DAPRA Agent Markup Language)项目,欧盟第六研究框架计划也将语义网作为关键内容之一。

1.2 从当前万维网到语义网:实例分析

1.2.1知识管理

知识管理所关注的是在一个组织中获取、处理和维护知识。由于大型商业机构把内部知识视为一种能够提高生产力、创造新的价值和增强竞争力的智力资源,知识管理已成为他们的一项关键性工作,对于地理分布广泛的国际组织来说尤其如此。

目前大多数可用信息只具有弱结构组织形式,如文本、音频和视频等。从知识管理的角度来说,现有技术从在以下诸方面的局限:

●信息搜索。公司通常依靠基于关键词的搜索引擎,这方面的局限性上文

已经做了简要描述。

●信息抽取。需要人工浏览文档,以便从中找出相关的信息。现有的智能

代理(intelligent agent)还不能令人满意地完成这项任务。

●信息维护。现在这方面仍然存在一些问题,比如术语的不相容性和无法

移除过时信息等等。

●信息挖掘。虽然可以数据挖掘(data mining)等手段提取隐藏在公司数

据库中新知识,但对于分布式的、弱结构化的文档集合,这个任务仍然

是困难的。

●信息视图。经常需要限制某些雇员对某些信息的浏览权限。“视图”意

味着隐藏某些信息,这个概念在数据库领域里为人们所熟知,但对企业

内部网(或者万维网)尚难实现。

语义网的目的是允许更高级的知识管理系统,使得:

●可以根据含义用概念空间组织知识;

●具备相容性检查和新知识提取功能的自动工具支持知识维护;

●问答系统取代关键词搜索——用人性化的方式检索、提取和表示所需知

识;

●支持跨文档的问答功能;

●能够规定用户查看信息的指定部分(甚至文档的某些部分)的权限。

1.2.2 企业对个人电子商务

企业对个人(B2C)电子商务是万维网用户最主要的商业活动。典型场景是用户访问一个或者多个网上商店,浏览他们的报价,选择并订购产品。

理想化的情况是,用户收集所有网上商店的信息,包括价格、条款、说明(比如有效期)等信息,从而选择最好的产品。但是如此规模的手工浏览太浪费时间,通常用户咋i做决定之前只会访问一个或者少数几个网上商店。

为了改善这种情形,以购物机器人的形式出现了一些网上购物工具,这种软件代理能够访问多家商店、提取产品和价格信息,汇总市场情况。这些功能是借助于从网上商店提取信息的打包程序来实现的。对于不同的网上商店,必须开发不同的打包程序。这种方法是有缺陷的。

有关信息是通过关键词搜索和其他手段从网上商店获取的。这个过程利用了特定信息段之间临近关系的假设以进行信息打包(比如,价格是通过单词price后面接着的$符号和一个正数来表示的,则根据三者之间的临近关系把价格信息“打包)。这种假设不一定正确,因而这种启发式方法未必总能凑效。所以,能够如此获取的信息是有限的。想运输费用、交货时间、关于目的地国家的限制、安全等级和隐私保护措施等信息一般不恩呢提取出来,而所有这些因素可能对用户的决策起重要作用。另外,编制打包程序是费时的,而且网上商店的设置一旦发生变动,则需要重新编制打包程序。

语义网技术支持软件代理对产品信息和服务条款的解读,使得:

●能够正确地提取价格和产品信息,并根据用户需求解释配送和隐私保护

措施;

●能够从其他来源,比如独立的排名机构或客户群体,补充提供网上商店

的信誉信息;

●不再需要低层次的打包程序;

●更加高级的购物代理能够代表购买者的利益与商店代理进行自动协商。

1.2.3 企业对企业电子商务

大多数用户在晚上的商业活动只与B2C电子商务有关,但是,网络技术的最大经济价值体现在企业对企业电子商务中。

企业间数据交换的传统方式是通过电子数据交换(EDI)途径。然而,这个技术太复杂了,只能为专家所理解,编程和维护都很困难,且容易出错。每一对企业间的数据交换都需要专门编程,开发费用很大。另外,EDI是一种孤立的技术手段,所交换的数据无法方便的与其他商业应用集成使用。

因特网视乎是企业间交流的理想的基础设施。企业越来越关注基于因特网的解决方案,已经出现了诸如企业间门户(B2B portol)这样的商业模型。然而,由于没有统一的标准,企业对企业电子商务模式的发展遇到了障碍。HTML不包含信息的结构和信息的语义,所以它无法对上述食物提供有效的支持。XML这种新标准是一个很大的进展。但它只适用于事先对词汇表及其含义达成共识的情况。

语义网的实现将使企业间的合作不需要太大的开销。借助于标准的抽象领域模型可以消除术语差异,实现用不同术语书写的文档之间的翻译转换,从而实现数据交换。拍卖、协商和草拟合同将由软件代理自动(或半自动)地完成。

1.2.4个人代理:未来的展望

迈克尔出了一场轻微车祸,他觉得颈部有点疼。他的私人医生建议他去做一组理疗。迈克尔要他的语义网代理(Semantic Web agent)设计出一些可能的就

医方案。

语义网代理从医生的自动代理那里查到了医生推荐的治疗信息,并查看了迈克尔的医疗保险公司提供的理疗师名单,从中找出距离迈克尔的办公室或住处不超过10公里的治疗师和权威排名机构对他们的评价,然后,寻找和迈克尔的日程表不冲突的预约时间。几分钟后,它给出了两个建议方案。但迈克尔都不满意。其中一个方案的预约时间在两星期后,而在另一个方案里,迈克尔则必须在交通高峰时刻驱车前往。所以,迈克尔把时间限制的更严格一些,让他的语义代理重新设计方案。

几分钟后,语义代理给出了一个新方案,可以在两天之内预约一个声誉很高的理疗师,但有一些小问题需要解决。首先,迈克尔的一些不太重要的工作安排需要调整,语义网代理承诺它将调整迈克尔的工作时刻表,如果迈克尔采纳这个方案的话。另外,该理疗师不在保险公司网站公布名单里,以为他的收费超过了保险公司规定的最高金额。不过,语义网代理从另一张名单上找到了这个理疗师的名字,并且得知,根据保险公司的有关规定,迈克尔可以接受超过最高限额的治疗。此外,迈克尔的语义网代理还和理疗师的自动代理谈成了优惠价格。该理疗师最近才决定收取高额治疗费,所以急于招徕新的病人。

既然增加的费用有限,迈克尔对这个新方案很感兴趣。不过,这个语义网代理是几天前才安装的,所以迈克尔要求它回答几个问题:对理疗师声誉的评价是怎样做出的?为什么迈克尔需要调整他的工作日程表?议价过程是怎样进行的?语义网代理一一给出了适当的解释。

迈克尔觉得很满意,他的语义代理网将使他繁忙的生活变得更轻松。他要求他的语义网代理采取所有必要的步骤,落实这个治疗方案。

1.3 语义网技术

1.2节所描绘的场景不是科幻小说,它的实现也不需要科学上的革命性突破。我们有理由断定,这是一个工程技术挑战而不是科学挑战,其中所有重要方面已经得到了部分的解决。目前,最需要的是集成、标准化、工具的开发和用户的采用。当然。未来的技术进步会产生更加先进的语义网。

在下面各小节里,我们将简要描述实现上述功能所需的几个必备技术。

1.3.1 显示元数据

目前的网络内容更适合让人而不是程序来阅读。HTML是直接或借助工具书写万个的主导语言。一个理疗师的我哪也片段看上去是这样的:

这些信息以适合人类阅读的方式显示,但对机器来说就有问题了。基于关键词的搜索能够识别理疗(physiotherapy)和咨询时间(consultation hours)这些单词。一个只能代理甚至能够识别该理疗中心的职员。但是,它分不清谁是医生、谁是秘书,识别具体的咨询时间就更加苦难了(这需要链接到the State Of Origin游戏的页面里去浏览)。

通过语义网途径解决这个问题的办法不是开发更高级的只能代理,而是从网页表示的角度入手。如果用更合适的语言取代HTML,用它们编写的网页就可以更好地表达其内容,这汇总网页不仅可以包含格式信息以生成便于人类阅读的文档,还可以包含描述内容的其他信息。比如在我们的例子中,可以包含下面这些信息:

与HTML相比,这种表达方式更容易让机器处理。元数据(metadata)指的是

“关于数据的数据”。元数据刻画的数据的含义。也就是语义网中的语义。

在1.2节的场景里,从网页中提取治疗细节、日程表、预约时间、价格和产品描述等信息似乎没有什么困难,似乎所以这些信息都可以从已有的网页内容中直接检索出来。但正如刚解释的那样,如果采用基于文本的信息操作而不是利用机器可处理的元数据的话,这是不可能做到的。

对于目前的网页开发而言,用户没有必要一定是计算机科学专家,他们可以用一些工具来达到自己的目的。于是,问题来了,用户为什么要放弃HTML转而采用语义网语言?通过把当前情形和万维网初创时的情形加以比拟,我们可以给出一个乐观的回答。第一批用户之所以决定采用html是因为当时html已经成为一种标准,他们想成为最早的用户而获益。随着网络工具变得越来越多、越来越好,其他人也跟着采用HTML。很快,HTML就变成了一种全球通用的标准。

类似地,我们呢现在正目睹XML普及的早起阶段。虽然XML本身对于实现语义网蓝图来说是不充分的,但它是重要的第一步。XML和RDF是当前与语义网相关的W3C标准,采纳它们的最早用户可能是一些对知识管理和企业对企业电子商务感兴趣的大型机构。这一势头将推动越来越多的工具销售商和终端用户采用这项技术。

这将是语义网探索具有决定性意义的一步,但同时也是一场挑战。就像前面提到的,当前最大的挑战不在与科学方面,而在于技术是否被普遍接受。

1.3.2 本体

本体论(ontology)这个词来源于哲学。在哲学中,本体论是形而上学的一个分支,研究存在的本质(根据希腊文字的直译),即什么事最一般意义上真是存在的,以及如何描述它们。例如,下面这个观察反映了典型的本体论承诺(ontological commitment):这个世界是由具体对象组成的,这些对象可以按照共有属性划分为抽象的类。

最近几年,计算机科学借用了很多其他领域的术语并赋予他们与原有含义大不相同的技术性含义,本体这个词就是其中之一。现在我们可以谈论“一个本体”,原来只能说“本体”。本书沿用由T. R. Gruber提出、后经R. Studer改进的定义:一个本体是一个概念体系(conceptualization)的显示的形式化规范。

一般地说,一个本体形式地刻画一个论域(domain of discourse)。一个典型本体由有限个术语以及它们之间的关系组成。术语(term)指给定论域中的重要的概念(对象的类)。例如,以一个大学为论域,则教工、学生、课程、教室和学科是一些重要的概念。

概念间的关系通常包括类的层次结构。一个层次结构规定类C是另一个类C/的子类,如果C中的所有对象都包含在C/中。例如,所有教职人员都是教工。图1-1表示一个大学论域的层次结构。

除了子类关系之外,本体还可以包括一下信息:

●属性(例如,X教Y)

●值约束(例如,只有教职人员才能授课)

●不相交描述(例如,教职人员和普通员工不相交)

●对象间逻辑关系的规定(例如,一个系至少要有10个教职人员)

在万维网这个环境中,本体提供了对给定领域的一种共识。这种共识对于消除术语差别是必要的。比如,一个应用中的邮政编码可能正好是另一个应用中的区域代码。另一种情况是两个不同的应用可能使用同样的术语来代表不同的含义。在大学A中,术语“course”可能指学位(比如计算机科学),而在大学B中

可能指课程(比如CS 101)。通过把各自的术语映射到一个公共本体或者定义本体之间的直接映射,可以消除这些术语差异。容易看出,不管采用哪种方案,本体都支持语义可公用性(semantic interoperability)。

本体可用于网站的组织和导航。现有很多网站在页面左边列出了概念层次结构中最高层的术语,用户可以点击其中之一来浏览相关子目录。

本体也可用于提高网络搜索的精确度。搜索引擎可以精确地根据本体中的概念查找相关页面,而不是收集所有出现某些(通常是含混的)关键词的页面。这样一来,在查询和网页中存在的术语差异就可以消除了。

另外,可以利用本体在网络搜索引擎中试探更一般或更特殊的查询。如果一个查询失败了,没有找到相关文档,搜索引擎可以向用户推荐更一般的查询。甚至可以考虑让搜索引擎主动执行这样的查询,在碰巧用户接受建议的场合,这样做就缩短了响应时间。反之,如果查到的结果太多,搜索引擎可以建议用户使用更特殊的查询。

在人工智能(AI)领域,开发和使用本体语言是一个长期的传统,语义网研究可以在此基础上进一步推进。目前网络领域中最重要的本体语言如下:

●XML 为结构化文档提供一种表层语法,但没有对这些文档的含义提供

语义约束。

●XML Schema 是一种定义XML文档结构的语言

●RDF 是一种描述对象(“资源”)和对象间关系的数据模型,并为这种数

据模型提供一个简单的语义,这些数据模型可以用XML语法来表示。

●RDF Schema 是一种刻画RDF资源的属性和类的词汇描述语言,带有关

于这些属性和类的一般—特殊关系的层次结构语义

●OWL 是一个更丰富的词汇语言,可以刻画诸如类间关系(如不相交性)、

类的基数(如“恰有一个”)、相等、更丰富的属性类型、属性的特征(如

对称性)和枚举类等。

1.3.3 逻辑

逻辑是研究推理原理的学科,可以追溯到亚里士多德。一般而言,逻辑首先提供了表示知识的形式语言。其次,逻辑提供易于理解的形式语义——在绝大多数逻辑系统中,句子含义的定义无需涉及对知识的操作。通常我们称之为陈述性知识,就是只描述什么是成立的而不必关心是怎样推出的。

逻辑的第三个作用是,可以借助自动推理机从给定的知识演绎(推导)出一些结论,从而使隐含的知识外显出来。这样的推理机在人工智能中得到了广泛的研究。举一个推理的例子。假设我们知道所有教授都是教职人员,所有教职人员都是员工,并且迈克尔是一个教授。在谓词逻辑中,这些信息表达如下:于是,可以推到出如下结论:

注意,这个例子包含着通常在本题中的知识。因此,逻辑可以用来推出被隐式表达的本体知识。这样做也有助于发现意料之外的关系和不相容性。

不过,逻辑比本体更具一般性。智能代理可以用逻辑来做决策和选择行动序列。例如,一个商店代理可以根据下列规则给顾客打折

其中顾客的信用度是根据公司数据库中存储的数据决定的。一般来说,在表达能力和计算效率之间存在着相互制约关系。一种逻辑的表达能力越强,它推出结论的计算开销就越大。如果遇到不可计算性的障碍,有些结论是不可能对出的。幸运的是绝大多数和语义网相关的知识具有相对严格的形式。例如,上卖弄的例子涉及形为“如果前提条件成立,则某结论成立”的规则,而且只需要考虑有限

多个对象。逻辑的这个部分是易处理的,并且已有支持它的高效率推理工具。

逻辑的一个重要有点是它提供了对结论的解释——推到步骤的序列是可重现的。不仅如此,人工智能研究者还发明了一些表达解释的人性化方法,把证明组织成自然演绎形式,把多个低层推理步骤合成一个直观上的简单步骤。在此基础上,把对一个结论的推理还原为推理中用到的事实和推理规则的结合,从而给出这个推理的解释。

解释可以提高用户对语义网代理的信心(见1.2.4节理疗的例子),因此它对语义网来说是重要的。Tim Berners-Lee曾经谈到用“Oh yeah?”按钮来要求代理做出解释。

对代理之间的互动行为来说,解释同样是重要的。某些代理可以有能力推导逻辑推论,而其他代理只有证明验证的能力,也就是检验推导序列是不是合法的证明的能力。举一个简单的例子,假设某个网上商店的自动代理甲对某个个人的自动代理乙发送如下消息“你欠我80美元”(当然不是用自然语言,而使用一种机器能够处理的形式语言)。代理乙可以要求代理甲做出解释,代理甲可以用如下形式的序列给出回答:

典型情况下,事实来源于某些指定的网页地址(其信誉可由自动代理验证),而规划来源于共享的商业本体或者在线商店的规定。

为了使逻辑能够在网上应用,必须使它能够和其他数据一起使用,而且使它能被机器处理。为此,目前正在研究如何用网络语言表示逻辑知识和逻辑证明。最初的工作在XML层次上展开,但是将来,规则和证明需要在RDF和本体语言(如DAML+OIL和OWL)层表示。

1.3.4 代理

代理是能够自主地(autonomously)和主动地(proactively)运作的软件。其概念来源于面向对象程序设计和基于组件的软件开发。

语义网上的个人代理(图1-2)将接受用户给出的任务和偏好,在网上查找相关信息,与其他代理交流,根据用户需求和偏好分析信息作出选择,最后将答案提交给用户。1.2.4节理疗例子中迈克尔的私人代理就是一个这样的代理。

值得注意的是,代理将不会取代语义网上的人类用户,也不是非得由它们来做决定。在很多情况下,它们的租用是手机和整理信息,为用户提供备选方案。例如,迈克尔的个人代理所做的工作是提供它能够找到的两个最好的解决方案,而一个旅行代理则可以根据用户偏好寻找合适的旅游线路。

语义网代理会用到我们上面概述的所有技术:

●使用元数据从网络资源识别和提取信息;

●使用本体辅助网络搜索,解释检索到的信息,并与其他代理进行交流;

●用逻辑处理检索到的信息并推导理论。

此外,还需要一些其他技术,比如代理的通信语言等。同时,对于一些高级的应用,需要形式化地表示代理的信念、愿望和意图,并建立和维护用户模型。不过,这些课题和语义网技术可以各自独立地加以研究,所以本书对这些课题不做进一步讨论。

1.3.5 语义网和人工智能的对比

前面提到,实现语义网所需要的大多数技术建立在人工智能已有工作的技术之上。考虑到人工智能已有很长的历史,但在实用中并不总是很成功,有人可能会担心出现最坏的情况,即语义网将重蹈覆辙:承诺太多,导致期望太高而最后却没有实现(至少在承诺的时间范围里没有实现)。

这个担心是站不住脚的。语义网蓝图的实现并不需要达到人类智能的层次。就像我们试图解释那样,实际上这个挑战是通过另一条途径来应付的。完全地解决了人工智能问题是一个深层次的科学问题,或许比得上物理学(解释物理世界)和生物学(解释生命世界)的核心问题。所以,如果像过去某些时刻承诺的那样,要在十年到二十年之内实现人类层次的人工智能,则遇到困难是不足为奇的。

但对语义网来说,部分解决问题是可行的。即使一个只能代理不能推出一个人类用户可以推出的所有结论,它仍然可以为一个比现有万维网高级得多的万维网做出贡献。这又引出了人工只能和语义网的另一区别。如果说人工智能的最终目标是建造出呈现人类或更高级的只能代理的话,那么语义网的目标是协助人类用户处理网上的日常事务。

显然,语义网将广泛地利用现有人工智能技术,而这些技术的进步将促进语义网的发展。但是,并不需要等到人工智能到达很高的成就,现有人工智能技术已足以帮助语义网向其蓝图前进很大一步了。

1.4 语义网的逐层递进

语义网的研究要一步一步地推进,每一步都要在前一层之上搭建新的一层(layer)。这样做的理由是,小步前进比较容易达成共识。一般情况下,会有多个团队沿着不同方向研究同一个问题,由此产生的不同想法之间的竞争是科学发展的主要驱动力。但是,从工程角度看问题,标准化是必要的。如果大多数研究者在某些方面达成一致而在另一方面不一致,将有助于确立哪些是共同点。这样一来,即使更宏伟的目标失败了,至少还能得到一些积极的部分成果。

一个标准一旦建立,更多团体和公司就会采纳它,而不会继续观望哪个研究方案将最终胜出。语义网的本性促使公司和个人用户必须采取行动——开发工具、添加内容和使用这些内容,而不能坐等语义网蓝图的全部实现(那可能还需要十年左右的时间)。

要在语义网的某一层上搭建更高一层,应该遵循两个原则:

●向下可兼容性。位于某一层的代理应能解释和使用低层的信息。例如,

掌握OWL语义的代理要具备足够的能力,以充分利用由RDF和RDF

Schema 描述的信息。

●向上部分可理解性。另一方面,位于某一层的代理应能部分地使用更高

层的信息。例如一个只掌握RDF和RDF Schema 语义的代理可以部分

地解释用OWL表达的知识,而无视RDF和RDF Schema 之上的其他部

分。

图1-3描绘了语义网设计蓝图的主要层次(Tim Berners-Lee 称之为“layer cake”)。

底层是XML,它是一种根据用户自定义的词汇表编写关于网络对象(资源)的简单陈述句。RDF的数据模型并不依赖于XML,虽然RDF有基于XML的词法。因此,在图1-3中,它位于XML层之上。

RDF Schema 提供将网络对象组织成层次结构的建模原语。其中,关键原语是类和属性、子类和子属性关系、定义域和值域限定等,RDF Schema 是基于RDF的。

RDF Schema可以看作是一种编写本体语言的初始语言。但需要更强大的本体语言扩展RDF Schema,以表达网络对象之间更加复杂的关系。逻辑层用于进一步增强本体语言的能力,以便表达应用相关的陈述性知识。

证明层(Proof layer)涉及实际的演绎过程、证明的(低层)网络语言表示以及证明的验证。

最后,新任层(Trust layer)将随着数字签名(digital signature)和其他种类知识的使用而出现,并以其他可信任的代理的推荐或其他机构以及顾客群体的排名和认证为基础。有时,“信任的网络”这个词用来表明,信任将按照与万维网自身同样的分布式和混沌方式加以组织。处于分层结构这座金字塔的顶端,信任是一个高层而且至关重要的概念:只有当用户信任它的操作(安全)和它所提供信息的质量时,万维网才能发挥它的全部潜力。

1.5 全书总览

本书着重介绍一些较为成熟的语义网技术。

第2章讨论XML及其相关技术。XML使网络文档结构化,从而支持语法可公用性。借助于DTD或XML Schema,文档结构可以被机器解读。我们还讨论命名空间、用XPath访问和查询XML文档以及使用XSLT转换XML文档。

第3章讨论RDF和RDF Schema。RDF是一个能够表达关于对象(资源)的陈述句的语言,也是一个具有机器可处理语义标准数据模型。RDF Schema 提供了一些建模原语,用于将RDF词汇表组织成类型化分层结构。

第4章讨论当前建议使用的网络本体语言OWL。与RDF Schema 相比,它提供更多的模型原语,而且具有清晰的形式语义。

第5章关注语义网框架下的单调和非单调规则。虽然这一层现在还没有完全定义,但基本原理还是很清楚的,所以值得加以介绍。

第6章讨论几个具体的应用领域,并说明实际实现语义网蓝图对这些应用的益处。

第7章讨论基于本体的万维网系统的开发,其中包含一个使用本书介绍的很多技术的微型项目。

最后,第8章简要地介绍语义网领域正在争论的几个问题。

1.6 小结

●语义网是一个旨在改进万维网现状的运动。

●语义网的核心想法是使用机器可处理的网络信息。

●语义网的关键技术包括显示的元数据、本体、逻辑和推理以及智能代理。

●语义网的研发逐层进行。

本体语言的联系及其逻辑基础分析

第9卷 第4期 2009年2月167121819(2009)420950206  科 学 技 术 与 工 程 Science Technol ogy and Engineering  Vol 19 No 14 Feb .2009 Ζ 2009 Sci 1Tech 1Engng 1 综 述 计算机技术 本体语言的联系及其逻辑基础分析 张其文 臧凤奎 李 明 (兰州理工大学计算机与通信学院,兰州730050) 摘 要 为了准确地描述本体,研究人员各自设计了自己的本体表示语言。在如此众多的语言中,认清语言之间的联系及各自的优缺点和选择出合适的语言描述本体成为本体建模工作的一项重要任务。首先分析了本体表示语言的基本特点,其次从纵向的角度总结出了它们之间的相互联系,最后分析了它们的逻辑基础;为学习和选择本体表示语言描述本体提供了理论基础。 关键词 本体 本体表示语言 联系 逻辑基础中图法分类号 TP311.11; 文献标志码  A 2008年10月30日收到 甘肃省自然科学基金(2007GS04782)资助 第一作者简介:张其文(1975—),男,山西临汾人,讲师,硕士,研究方向:智能信息处理、知识发现和本体。 自从本体概念被引入计算机科学领域以来,表示本体的各种语言也随之被设计。许多文献已经从各个方面对本体表示语言进行了横向的比较 [1—7] ,权衡了语言的描述能力和语言的推理复杂 度,为选择本体语言来描述本体提供了尺度。但是,由于这种横向比较点多而杂(比如,概念、函数、 实例、公理等),从而导致了选择语言的复杂性。而且,这种横向比较也不便于把握众多语言的来龙去脉。为了更好地选择本体表示语言和整体而系统地把握这些语言,本文从纵向的角度总结了本体表示语言的联系,同时,鉴于本体的形式化表示,在此基础上,分析了本体表示语言中的逻辑基础。 1 本体表示语言 本体可用自然语言描述,也可用框架、语义网 络或逻辑语言描述和表示[8] 。但是,自然语言往往 会引起二义性,传统的知识表示语言也存在许多缺 点 [9] :比如,框架系统缺乏形式理论,可能会产生不 精确性等;一阶谓词逻辑也存在诸如组合爆炸、效率低等局限性,并且,其推理往往会产生不可判定性。于是,基于这些传统的知识表示语言,研究人员开发了各种本体表示语言。基于框架的本体表示语言主要有 [10] :I nfoSleuth 、I nf omaster 、CO I N 、 KRAFT 、F Logic 、OK BC 和O I L 等;基于一阶谓词逻辑 的本体表示语言主要有 [10] :Cyc L 、KI F 、Ont olingua 、 Loom 以及Power Loom 等。 1.1 基于一阶谓词逻辑和框架的本体表示语言 F Logic (Fra me Logic )综合了基于框架的语言 和一阶谓词演算,能清楚明白地说明面向对象和基于框架语言的大多数结构方面,F Logic 有一个理论模型和完整有效的基于决策的证明机制 [11] 。 Cyc L 是Cycor p 集团为开发Cyc 常识知识的通 用本体而设计的。Cyc L 是一种形式语言,其语法源于一阶谓词演算和L is p 。但是,为了表达常识知识,

北京大学中文系推荐免试研究生必读书目读后有感

查看文章 【收藏】北京大学中文系推荐免试研究生必读书目读后有感 2009-09-29 11:07 北京大学要求不严,北京大学中文系要求不严,它崇尚的是一种学习的自由。但学习在那种大师和名校的气氛中,学习在那种图书众多和无数讲座的亲切交谈中,你自己就已经沐浴在她的朝霞中,你自己就已经在鞭策自己不要辜负了这个学校的名字和那些已逝的大师。 北京大学中文系接受全国优秀免试生为直升研究生,但要经过严格的面试和笔试进行选拔,在北京大学中文系的校园网上它挂出了这些书目。看着这些书目我觉得自己读书是如此的浅薄和单一。我想,与我有同一感想的朋友颇多,遂把它陈列出来,作为我们的参考。 古语有云:修身齐家治国平天。又云,达则兼济天下,穷则独善其身。诸葛亮说:非淡泊无以名志,非宁静无以致远。然后在浮躁的今天,这已经是我们可望不可及的梦想,或者是想像古代文人读书的一种渴望方式。也许,多读几本书还是可以享受一下自己的乐趣,陶冶自己的情操。所以我们不妨读读北京大学中文系的推荐书目,尤其是致力于考研究生的朋友。 很多书我们无法在短时间里面读完,这不要紧,把书名、作者、出版社能够顺利背出来,这也是一件很好的事情。古代很多士大夫的学习和钻研就是从背篇目开始。 附录: 文艺学专业必读书目(推荐免试学生使用) 1.《文心雕龙注》上下范文澜注人民文学出版社 2.《文心雕龙研究史》张少康汪春泓等著北京大学出版社 3.《文学理论的未来》(美)拉尔夫﹒科恩主编中国社会科学出版社4.《苏联文学学学派》彭克巽主编北京大学出版社 5.《路德维希﹒费尔巴哈和德国古典哲学的终结》恩格斯著 人民出版社 6.《批评理论和叙事阐释》詹姆逊文集2 中国人民大学出版社 2004年 7.《文学理论学导论》董学文著北京大学出版社 8.《中国文艺理论百年教程》毛庆耆等著广东高等教育出版社 9.《叙事学与小说文体学研究》申丹著北京大学出版社 10.中外经典文学名著三部 语言学及应用语言学专业必读书目(推荐免试学生使用) 1.《语法答问》朱德熙 2.《现代汉语语法研究》朱德熙 3.《中国文法要略》吕叔湘 4.《汉语语法分析问题》吕叔湘 5.《汉语语法论》高名凯 6.《上古音研究》李方桂 7.《汉语语音史》王力 8.《现代语言学教程》霍凯特

语言学教程第四版第二章 胡壮麟 主编

Chapter 2 Speech sounds Contents ?How sounds are made? ?Consonants and vowels ?Phonological processes, phonological rules and distinctive features ?Suprasegmentals 超音段 ?Two major areas for studying speech sounds: phonetics and phonology ?Phonetics: it studies how speech sounds are made, transmitted and perceived. ?Three branches of phonetics: ?Articulatory phonetics发声语音学 is the study of the production of speech sounds. ?Acoustic phonetics声学语音学 is the study of the physical properties of the sounds produced in speech. Auditory phonetics听觉语音学 is concerned with the perception of speech sounds ?Phonology:it deals with the sound system of a language by treating phoneme 音素 as the point of departure. ?It studies the sound patterns and sound systems of languages. ?Ultimately it aims to discover the rules that underlie the sound patterns of all languages. How speech sounds are made? ? speech organs 言语器官 ?Speech organs are also known as vocal organs(发音器官). ?Parts of human body involved in the production of speech sounds: lungs, trachea (windpipe) 气管, throat, nose, mouth ? organs of speech (Figure 2.2, p.26 on our books)

趋势分析之语义网

趋势分析之语义网 近几年来,语义网越来越频繁地出现在IT报道中,PowerSet、Twine、SearchMonkey、Hakia等一批语义网产品也陆续推出。早在2010年,Google就已经收购了语义网公司Metaweb。对于这次收购Google产品管理主管杰克·门泽尔(Jack Menzel)发文称,该公司可以处理许多搜索请求,但Metaweb的信息可以使其处理更多搜索请求,“通过推出搜索答案等功能,我们才刚刚开始将我们对互联网的理解用于改进搜索体验”,但对于部分搜索仍然无能为力,“例如,‘美国西海岸地区学费低于3万美元的大学’或‘年龄超过40岁且获得过至少一次奥斯卡奖的演员’,这些问题都很难回答。我们之所以收购Metaweb,是因为我们相信,整合Metaweb的技术将使我们能提供更好的答案”。这表明语义网技术经过近10年的研究与发展,已经走出实验室进入工程实践阶段。 语义网热度变化图 语义网(Semantic Web)是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使交流变得更有效率和价值。语义网实际上是对未来网络的一个设想,现在与Web 3.0这一概念结合在一起,作为3.0网络时代的特征之一。 语义网这一概念是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,实际上是基于很多现有技术的,也依赖于后来和text-and-markup与知识表现的综合。其渊源甚至可以追溯到20世纪60年代末期的Collins、Quillian、Loftus等人的研究,还有之后70年代初Simon、Schamk、Minsky等人陆续提出的一些理论上的成果。其中Simon在进行自然语言理解的应用研究时提出了语义网络(Semantic Network,不是现在的Semantic Web)的概念。 下面我们用Trend analysis分析语义网领域内的研究热点。(点击链接即可进入https://https://www.doczj.com/doc/cf12016329.html,/topic/trend?query=Semantic%20Web)

《语言学教程》中文笔记(完整)

语言学教程笔记 第一章语言学导论 语言的定义特征:从本质上将人类语言与动物语言区分开的人类语言的区别性特点。 1. 任意性:任意性是指语言符号的形式与所表示的意义没有天然的联系,任意性是语言的核 心特征。例如,我们无法解释为什么一本书读作 a /buk/,一支钢笔读作a /pe n/。 任意性具有不同层次:(1)语素音义关系的任意性。(2)句法层面上的任意性。 (3) 任意性和规约性。 2. 二层性:二层性是指拥有两层结构的这种特性,上层结构的单位由底层结构的元素构成, 每层都有自身的组合规则。话语的组成元素是本身不传达意义的语音,语音的唯一作用就是 相互组合构成有意义的单位,比如词。因为底层单位是无意的,而上层单位有明确的意义,所以我们把语音叫做底层单位,与词等上层单位相对。二层性使语言拥有了一种强大的能产 性。 3. 创造性:创造性指语言的能产性,指语言有制造无穷长句的潜力,这来源于语言的二层性 和递归性。利用二重性说话者可以通过组合基本语言单位,无止境地生成句子,大多数都是以前没有过的或没有听过的。 4. 移位性:是指人类语言可以让使用者在交际时用语言符号代表时间上和空间上并不可及的 物体、时间或观点。因此我们可以提及孔子或北极,虽然前者已经去世两千五百五十多年而 后者位置距我们非常之远。语言使我们能够谈及已不存在或还未出现的事物。移位性赋予人 们的概括与抽象能力使人类受益无穷。词在指称具体物体时,并不总是出现在即时、形象化 的语境中。他们通常为了体现指称含义而被使用。 5. 文化传递性:语言不是靠遗传,而是通过文化传递的。 6. 互换性:指人可以是信息的发出者,也可以是信息的接受者,即人作为说话者和听话者的 角色是可以随意更换的。 元语言功能:我们的语言可以用来讨论语言本身。比如说,我可以用“书”指代一本书,也可以用“书这个词”来指代“书”这个词本身。这使语言具有无限的自我反身性:人类可以谈论“说话”,也可以思考“思考"。所以只有人类才能提问:元语言功能对交际、思考及人类的意义是什么?

语义网本体

Part2:创建本体 本次所创建的本体是一个植物(plant)本体,所用的工具是Protege4.3。首先根据植物的分类来建立本体的Schema层,按照不同的分类方式可以有不同的分类例如可以分为花(flower)、草(grass)和树(tree)三类。花又可以分为蔷薇科(Rosaceae )、十字花科(cruciferae)、百合科(liliaceae)。草又可以分为草坪草(turfgrass)、孔雀草(maidenhair)、千日草(One thousand days grass)。树又可以分为乔木(arbor)、灌木(shrub)。所建的Schema层如下图1所示。 图1 植物本体的Schema层构建图 2、添加属性,属性包括对象属性和数据属性。所添加的对象属性有:颜色、枯萎季节、茂盛季节开花时间、开花时长,其定义域均设置为Plant。添加的数据属性有:根茎的长度。具体的添加如下图2所示。 (1)对象属性添加图(2)数据属性添加图 图2 植物本体的属性构建图

3、添加相应的实例。为百合科添加实例:百合花(greenish lily flower )为乔木添加实例:雪松和杨树,为草坪草添加实例:马蹄金草(The horseshoe golden grass )具体的实例图如下图3所示。 图3 具体实例添加图 4、定义公理,例如可以对其定义灌木为丛生状态比较矮小。则需要添加对象属性丛生状态(Cluster_State)和子属性主要丛生状态(Main_Cluster_State),然后添加分类:Type,包括short and small和tall。对草坪草定义为:主要丛生状态是short and small。对乔木添加定义:主要丛生状态是tall。在Plant类下面添加叶子(leaf),然后添加对象属性is_part_of,给leaf定义为:叶子是树叶的一部分。对草坪草的具体的定义效果如下图4所示。 图4 草坪草定义效果图

语言学教程中文版

将英语译成中文(简体)胡壮麟“语言学教程”课后答案 定义以下条款: 1。设计特点:是他们的特点来定义,如任意性,双重性,创造性,位移,文化传播等,我们人类的语言, 2。功能:语言的使用ommunicate,思考,等anguage功能inclucle imformative 功能,人际功能,表演功能,人际功能,表演功能,情感功能,寒暄交流,娱乐功能和工具功能。 3。客位:在与主位是从美国语言学家派克的语音和音位的区别源于长期的对比。作为客位芒作出太多,以及behaviously无关紧要,鉴别,就像是多嚼不语言学与语音正确vx.phonemic分析实例。 4。主位:在与客位的是从美国语言学家派克的语音和音位的区别源于长期的对比。作者:主位言语行为和事件必须被作为一个有意义的资源,验证通过的最后一次演说communith本地成员,而不是通过qppeal到研究者的ingenuith或直觉孤单。‘ 5。同步:一类是描述以一个固定的瞬间(通常,但不一定,目前的)作为观察点。大多数语法是这样的。 6。历时:一种语言的研究是通过其进行的历史过程。 7。规范:一种语言的研究是通过其进行的历史过程。 8。规范:这类研究的语言,一切事都应该是如何规定的,ielaying下来的语言使用规则。 9。描述:这类研究的语言,一切事都只是描述。 10。独断性:一种人类的语言,这是指语言符号的脸,不承担任何形式的关系,其意义自然的设计特点。11。对偶:一种人类的语言,这是指有两对是二次元素组成的各级物业设计功能。水平和两级各有自己的组织原则。12。排量:一种人类的语言,这意味着人类语言的设计特点,使他们的用户,象征着在目前的通信对象,事件和概念并不在时间和空间目前?。13。寒暄交流:人类语言的一种功能,它是指语言的社会互动。14。元语言:语言符号或特定的分析和研究方面的某些种类的描述。15。macrolinguistics:他的语言之间的相互作用,如心理学,社会学,人种学,法学和人工智能等门类的

英语语言学—中文版

单元练习......76页 英语语言学概论 —自学指导 主编: 支永碧王永祥

英语语言学概论 —自学指导 主编: 支永碧王永祥 副主编:李葆春丁后银王秀凤

前言 本书主要为参加英语专业(本科段)自学考试和全国研究生入学考试的考生而编写,是《英语语言学概论》(王永祥、支永碧,2007)的配套辅导用书。 自2007年起,《英语语言学概论》(王永祥、支永碧,2007)被确定为英语专业(本科段)自学考试的指定教材。在此期间,许多参加自学考试的考生希望能再出一本配套的辅导教材。他们中的不少人不仅希望自学考试轻松过关,还希望和全国其他学生一样将来能参加全国统一的研究生入学考试继续升造求学。而现有的教材内容和相关练习似乎还不能充分满足他们的需求。其一,配套练习尚不够全面,缺少问答题的参考答案;其二,和研究生入学考试真题相比,配套练习的类型也不够全面;其三,参加自学考试的学生往往很难得到老师的亲自授课和指导,而英语语言学理论和概念往往抽象难懂,再加上其它各种原因,不少考生不能轻易地掌握各章的所有重点、难点,因此,他们迫切需要有一本简单实用的自学考试指南和辅导练习帮助他们解决问题;此外,在英语专业研究生入学考试中,英语语言学是一门必考科目。入学以后,英语语言学也是英语专业研究生的一门必修课。鉴于此,他们希望了解更全面的英语语言学基本理论,多做一些更实用的英语语言学练习和真题,以备将来需要。为了满足广大自考学生和准备参加英语专业研究生入学考试的考生的需要,我们在广泛征求了各方面的意见之后,精心编写了本书。本书的编写除了主要参照王永祥、支永碧主编的《英语语言学概论》以外,我们还参考了胡壮麟主编的《语言学教程》(修订版)和戴炜栋、何兆熊主编的《新编简明英语语言学教程》和其它一些高校使用的语言学教程。 本书第一部分为英语语言学核心理论和概念,主要包括:本章主要考点,课文理解与重点内容分析;第二部分为英语语言学概论的十三章单元配套练习,和原教材中的练习稍有不同的是,在本部分,我们选编了部分自学考试真题和各个高校历年考研真题,以便考生更好地了解本章重点。这样,学生可以更有针对性地进行各章节的学习和复习。虽然该部分略有难度,但对考研和自考的学生都很有帮助;第三部分为英语语言学综合模拟试卷, 内容紧扣《英语语言学概论》,针对性很强,适用于英语专业各类考生;第四部分为江苏省自学考试英语语言学概论部分考试样题及参考答案。本书的习题主要包括以下七种类型:问答题、选择题、填空题、名词解释、是非判断题、汉英术语互译题、操作题。另外,为便于学习者了解考试重点,本书附加了江苏省英语专业(本科段)《英语语言学概论》自学考试新大纲2007版;另外,为便于自学者查询深涩难懂的语言学词汇,我们按照汉语字母顺序编写了常见的英语语言学术语汉英对照表,以补充原教材的些许缺失。 本书力求充分满足广大考生学习和考试的需要,帮助他们了解各章的主要考点和复习要点。祝参加英语专业自学考试的考生轻松克服《英语语言学概论》的学习难题,祝参加英语专业研究生入学考试的考生在本书的帮助下能轻松通过英语语言学这个难关,实现自己的梦想。 支永碧 2009年2月于南京师范大学随园

语义网主要应用技术与研究趋势_吴玥

2012年第2期 Computer CD Software and Applications 信息技术应用研究 — 41 — 语义网主要应用技术与研究趋势 吴 玥 (苏州大学计算机科学与技术学院,江苏苏州 215006) 摘 要:我国企业多数已经实现了网络办公自动化,为企业的经营管理创造了优越的环境。但随着销售业务的增长,企业经营管理的范围逐渐扩大,其内部网络面临的运营难题更加明显,网络知识管理是当前企业存在的最大困难。语义网络技术的运用方便了知识管理系统的构建与操控,促进了企业知识管理效率的提升。针对这一点,本文主要分析了语义网应用的相关技术,对未来研究趋势进行总结。 关键词:语义网;应用技术;知识管理;趋势 中图分类号:TP391.1 文献标识码:A 文章编号:1007-9599(2012)02-0041-02 The Main Application Technology and Research Trends of Semantic Web Wu Yue (School of Computer Science&Technology,Soochow University,Suzhou 215006,China) Abstract:Our country enterprise majority already realize the network office automation,enterprise management to create a favorable environment.But as the sales growth,gradually expanding the scope of business management of enterprise,its internal network operator facing the problem is more apparent,network knowledge management is the current enterprise is the most difficult.Semantic network technology is convenient to use the knowledge management system's construction and operation,promote the enterprise to improve the efficiency of knowledge management.In view of this,this article mainly analyzes the semantic web technologies,the future research trends are summarized. Keywords:Semantic network;Application technology;Knowledge management;Trend 语义网是对未来计算机网络的一种假设,通过相匹配的网络 语言对文件信息详细描述,最终判断不同文档之间的内在关系。 简言之,语义网就是能参照语义完成判断的网络。企业在经营管 理中引进语义网有助于数据信息的挖掘,对数据库潜在的信息资 源充分利用,以创造更大的经济收益。 一、传统互联网知识管理的不足 互联网用于企业经营管理初期,加快了国内行业经济的改革进 步,促进了企业自动化操控模式的升级。然而,当企业经营范围不 断扩大之后,企业面临的网络管理问题也更加显著。如:业务增多、产品增多、客户增多等, 企业网络每天需要处理的文件信息不计其 数,基于传统互联网的知识管理系统也会遇到多种问题。 (一)检索问题。互联网检索是十分重要的功能,如图一。用 户在互联网上检索某一项资源时,常用的方法是通过关键词搜寻, 未能考虑到语义对资源搜索的重要性。这种检索模式下则会遇到许 多难题,如:对同义词检索会出现多余的无关资源,尽管用户在互 联网上可以查找到许多与关键词相关的信息,但多数是无用的。 图一 互联网信息检索 (二)集成问题。信息集成是网络系统按照统一的标准、编码、程序等,对整个系统存储的资源集成处理,然后实现信息资源的共享。企业互联网信息集成依旧采用人工处理,这是由于网络的自动代理软件不能处理文本代表的常识知识,信息集成问题将制约着互联网功能的持续发挥。 (三)维护问题。对于企业知识管理系统而言,其采用的文档大部分是半结构化数据,这种数据的维护管理难度较大。现有的互联网在文档维护方面缺乏先进的软件工具,对于文档信息的处理也会遇到不少错误。知识管理中的数据库资源错误会给企业经营造成误导,且带来巨大的经济损失。 二、语义网应用的相关技术 互联网研发对语义网应用研究的最终目标是“开发各种各样计算机可理解和处理的表达语义信息的语言和技术,让语义网络的功能得到最大发挥” 。因此,结合语义网络的功能特点、结构形式、信息储存等情况,用户需掌握各种语义网应用技术。就目前而言,语义网主要的应用技术包括: (一)编码技术。编码是计算机网络运行的重要元素,通过编码之后才能让程序信号及时传递。语义网编码技术就是通过编码处理将知识内容表达出来,这一过程能够把不同的知识编码为某个数据结构,从而方便了用户对数据的检索。编码技术要用到各种知识表达方法,如:一阶谓词逻辑表示法、产生式表示法、框表示法、语义网络表示法等等。 (二)框架技术。框架技术本质上就是对语义网进行层次划分,将网络结构分层不同的层面。语义网框架技术应用要借助语义 Web 模型,经过长期研究,我们把语义网体系结构分为7个层面,如图二。每个层面在语义网运行时都可发挥对应的功能,促进了语义网程序操控的稳定进行。层面框架的分析,可以掌握语义网体系中各层的功能强弱。 图二 语义网的体系结构

南开大学中文系阅读书目

南开大学中文系阅读书目 一、语言学类 普通语言学教程(瑞士〕索绪尔著高名凯译 语言(法)房德里耶斯著岑麟祥、叶蜚声译 语言论(美〕布龙菲尔德著袁家骅等译 语法哲学(丹麦)叶斯柏森著何勇等译 马克思主义与语言学问题(苏联)斯大林著李立三等译语言分析纲要(美)布洛赫、特雷杰著赵世开译) 句法结构(美)诺姆乔姆斯基著邢公畹等译 现代语言学教程(美)霍凯特著索振羽、叶蜚声译 西方语言学名著选读胡明扬主编 国外语言学概述一流派和代表人物赵世开主编 语言论高名凯著 语言学纲要叶蜚声、徐通锵著语言学概论马学良主编 语言学概论石安石、詹人凤著普通语音学纲要罗常培、王均著 世界字母简史周有光著 历史语言学徐通锵著 语义论石安石著 汉藏语概论马学良主编邢公畹等著 文化语言学邢福义主编 语言学史概要岑麟祥著 中国语言学史王力著 中国理论语言学史邵敬敏、方经民著 二、现代汉语类 现代汉语教程邢公畹主编现代汉语(增订本)胡裕树主 编 现代汉语参考资料胡裕树主编 现代汉语语音概要吴宗济主编 语音常识董少文著 汉语词汇讲话周祖谟著 现代汉语同汇符淮青著 汉语描写词汇学刘叔新著 词语的意义和结构周荐著 同义词语和反义词语刘叔新、 周荐著 同义词语的研究周荐著 胡同及其他张清常著 异文化的使者——外来词史有 为著 中国现代语法王力著 中国语法理论王力著 汉语语法纲要王了一(王力) 著 中国文法要略吕叔湘著 双语语法分析问题吕叔湘著 现代汉语语法讲话丁声树著 汉语口语语法赵元任著吕叔 湘译 语法答问朱德熙著 语法讲义朱德熙著 八十年代中国语法研究陆俭明 著 汉语语法专题研究高更生著 汉语词法论陈光磊著 汉语动同和动词性结构马庆株 著 现代汉语句型李临定著 现代汉语特殊句式宋玉柱著 现代汉语复句新解王维贤等著 现代汉语祈使句研究袁毓林著 现代汉语空语类研究沈阳著 语法修辞讲话吕叔湘、朱德熙 著 实用语法修辞于根元、苏培实、 徐枢、饶长溶著 修辞学发凡陈望道著 现代汉语修辞学张弓著 语篇的衔接与连贯胡壮麟著 汉语方言概要袁家骅著 汉语方言调查基础知识邢公畹 著 现代汉语方言詹伯慧著 汉语方言调查手册李荣编著 方言调查字表(修订本)中国 社会科学院语言研究所编 中国文字学唐兰著 文字学概要裘锡圭著 汉字改革概论周有光著 三、古代汉语类 汉语史稿王力著 古代汉语(修订本)王力主编 古代汉语教程解惠全主编 说文解字(东汉)许慎著 说文解字注(清)段玉裁撰 说文通训定声(清)朱骏声著 文字蒙求(清)王筠著 说文解字通论陆宗达著 广韵(北宋)陈彭年等著 中原音韵(元)周德清著 汉语音韵学导论罗常培著 汉语音韵王力著 汉字古音手册郭锡良著 诗词格律王力著 释名(东汉)刘熙著 尔雅义疏(清)郝懿行著 尔雅今注徐朝华著 广雅疏证(清)王念孙著 经义述闻(清)王引之著 古书疑义举例(清)俞樾著 训诂简论陆宗达著 古汉语词汇纲要蒋绍愚著 经传释词(清)王引之著 助字辨略(清)刘淇著 马氏文通(清)马建忠著 古汉语语法及其发展杨伯峻 何乐士著 社科中文工具书使用邓宗荣著

胡壮麟《语言学教程》笔记1_3章

胡壮麟语言学重难点 Chapter 1 Invitations to Linguistics 常考考点:1. 语言: 语言的定义;语言的基本特征;语言的功能;语言的起源 2. 语言学:语言学的定义;现代语言学与传统语法学研究的三个显著区别;语言学研究的四个原则及简要说明;语言学中的几组重要区别;每组两个概念的含义、区分及其意义;普通语言学的主要分支学科及各自的研究范畴;宏观语言学及应用语言学的主要分支及各自的研究范畴。 1. 语言的定义特征 1.1. 任意性 1.2. 二重性 1.3. 创造性 1.4. 移位性 1.5. 文化传递性 1.6. 互换性 2. 语言的功能 1.1. 信息功能 1.2. 人际功能 1.3. 施为功能 1.4. 感情功能 1.5. 寒暄功能 1.6. 娱乐功能 1.7. 元语言功能

3. 微观语言学 3.1. 语音学 3.2. 音系学 3.3. 形态学 3.4. 句法学 3.5. 语义学 3.6. 语用学 4. 宏观语言学 4.1. 心理语言学 4.2. 社会语言学 4.3. 应用语言学 4.4. 计算语言学 4.5. 神经语言学 5. 重要概念及其区分 5.1. 描写式&规定式 5.2. 共时&历时 5.3. 语言&言语 5.4. 语言能力&语言应用 5.5. 唯素的&唯位的 5.6. 传统语法&现代语法 5.7. 语言潜势&实际语言行为 Chapter 2 Speech Sounds

常考考点:1. 语音学语音学的定义;发音器官的英文名称;英语辅音的定义;发音部位、发音方法和分类;英语元音的定义和分类;基本元音;发音语音学;听觉语音学;声学语音学;语音标记,国际音标;严式与宽式标音法 2. 音系学音系学的定义;音系学与语音学的联系与区别;音素、音位、音位变体、最小对立体、自由变体的定义;音位理论;自由变异;音位的对立分布于互补分布;语音的相似性;区别性特征;超语段音位学;音节;重音;音高和语调。 1. 语音学及其三大领域 1.1. 语音学定义 1.2. 语音学三大领域 ①发音语音学 ②声学语音学 ③听觉语音学 2. 辅音 2.1. 辅音定义 发音时,声道的某些部位受到压缩或阻碍后,使得气流在口腔里转向、受阻或完全被阻塞,由此产生的音叫做辅音。 2.2. 发音方式 发音方式是指发音器官之间的关系,以及气流经过声道的某些部位的方式 2.3. 发音部位 发音部位是指声道的哪些部位发生气流摩擦、狭窄化或阻碍。 3. 元音

语义检索

在数字图书馆中,信息检索存在明显不足。在文献的组织与描述上,简单将关键词作为描述文献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。在检索操作上,通常是基于关键词的无结构查询,难以反映词语间各种语义联系, 查询能力有限,误检率和漏检率很高,检索结果的真实相关度较低;计算查询和文档之间的相似度的方法也有局限。在用户交互界面上,用户的检索意图难以被机器理解,采用自然语言输入的检索关键词与机器的交互存在障碍。现有数字图书馆信息资源检索存在资源表示语义贫乏和检索手段语义贫乏、查准率低下等问题,语义网技术的出现,为数字图书馆的发展注入了新的活力,为信息检索质量的提高带来了新的生机。运用语义网技术,使解决信息检索中现存的问题,完善信息检索流程成为了可能。3.1 数字图书馆信息检索模型目前数字图书馆的信息检索主要借助于目录、索引、关键词方法来实现, 或者要求了解检索对象数据结构等, 对用户提供的关键词的准确性要求较高,基于语法结构进行检索, 却不能处理复杂语义关系,常常检索出大量相关度很差的文献。 图3.1 数字图书馆信息检索模型用户通过检索界面,输入关键词,文本操作系统对用户的关键词进行简单的语法层次的处理整合,与数字图书馆资源进行匹配检索,最终将检索的结果,再通过用户界面返回给用户。而数字图书资源,专业数据库等都是数字图书馆信息检索的范畴,这些数字化的知识资源主要以数据库形态分布于全球互联网的数千个站点,这种以数据库形式存放的信息资源,通常是电子化了的一次文献,包括元数据、摘要或者是全文,也可以是全文链接的地址。 24 基于语义网的数字图书馆信息检索模型研究 3.2 基于语义网的数字图书馆信息检索模型的设计思想数字图书馆信息检索系统存在诸多问题。查询服务智能化水平低,无法对用户请求进行语义分析;信息资源的共享程度低,仅仅采用题名、文摘或全文中出现的关键词标识文献内容,难以揭示文献资料所反映的知识信息,易形成信息孤岛;对用户输入的关键词进行句法匹配,查准率不高;片面追求查全率,返回大量无关结果等。这些问题最终造成用户的真正检索意图难以实现。人们希望有突破性的信息检索技术出现,能够支持更为强大的信息检索功能,具备理解语义和自动扩展、联想的能力,并为用户提供个性化服务。在这样的需求下,本节深入探讨了现存问题的解决方法,结合语义网技术,提出了以下基于语义网的数字图书馆信息检索模型的设计思想。3.2.1 机器理解与人机交互人们通过信息的交流和沟通,表达一定的思想、意思和内容,因此,自然语言和表达的信息中蕴含着丰富的语义。尤其是自然语言中,一词多义、一义多词现象十分常见,在不同的语境中,同样的词汇还可以表达出不同的意义。在人与人的交流中,近义词、反义词、词语的词性、语法结构等帮助人们在特定的语言环境中理解语言表达的确切含义,而计算机要做到这点却有难度。随着网络的不断发展,网络信息充斥着人们的视野。如何在浩如烟海的信息资源中,以最短的时间查找出相关资源,成为人们所关注的问题之一。通常,检索系统总会返回相关度不高,甚至完全无关的信息,而有些相关的信息却往往被遗漏了。一方面,检索工具没能把已经存在的、对用户有价值的信息检索出来,另一方面,信息资源没有很好的被归纳,提炼成知识。利用语义网技术,将语义丰富的描述信息和资源关联起来,通过机器理解和人机交互,对信息资源进行深层次的分析和挖掘。从本质上讲,人机交互是认知的过程,主要通过系统建模、形式化语言描述等信息技术,最终实现和应用人机交互系统。3.2.2 语义知识与描述逻辑从语义学的角度讲,语义是语言形式表达的内容,是思维的体现者,是客观事物在人们头脑中的反映[72]。人们在进行信息交流和沟通时,通过词语、符号来表达思想。当人们看到

语义网基础教程-科学网—博客

《语义网基础教程》(A Semantic Web Primer) 读后感 《A Semantic Web Primer》 语义网网站:https://www.doczj.com/doc/cf12016329.html, 学习网站:https://www.doczj.com/doc/cf12016329.html, 语义网目的:借助于语义共用性,以实现网络信息的计算机机械化理解。 本书主要介绍语义网的基本技术--- 表示语言、查询语言、推理技术与工具。 第一章语义网概论 AI Agent 搜索引擎问题解决方法 Semantic Web Semantic Web:以机器更容易处理的表示方式描述网络信息,再结合智能Agent搜索,如Software Agent-〉Semantic Web Agent。 XML + XML Schema RDF + RDF Schema Semantic Web Ontology OWL 逻辑推理DL (Description Logic)[1] 第二章 XML XML用以传输和存储数据,而HTML用以显示数据。XML不但存储数据,还描述数据的结构关系, DTD或XML Schema XML XPath、XQuery XSL或CSS(显示XML文档) 第三章 RDF(Resource Description Framework) RDF 实质是一个采用描述逻辑表示的数据模型,<对象,属性,值>(),可对比ER模型。注意XML Schema用以规定XML文档结构,而RDF Schema是定义RDF数据模型所用词汇。 RDF表示方法有三元组、RDF图。三元组(x,P,y)看作公式一逻辑公式P(x,y),其中P为二元谓词。 RDF Schema描述类型,类的层次结构(与Type Theory?) 第四章OWL(Web Ontology Language) 本体论:对邻域模型的语义形式化描述 第五章逻辑与推理 语法 Horn语义与模型

福师1203考试批次现代语言学复习题及参考答案

福师1203考试批次《现代语言学》复习题及参考答案一 本课程复习题所提供的答案仅供学员在复习过程中参考之用,有问题请到课程论坛提问本复习题页码标注所用教材为: 如学员使用其他版本教材,请参考相关知识点 1.Sometimes bound morphemes can be used by themselves. 2.There is a three-word sentence stage in first language acquisition. 3. A simple sentence consists of a single clause which contains a subject and a predicate and stands alone as its own sentence. 4. A locutionary act is the act of conveying literal meaning by means of syntax, lexicon, and phonology. https://www.doczj.com/doc/cf12016329.html,nguage is entirely arbitrary. 6.The naming theory of meaning was proposed by the ancient Greek scholar Plato. https://www.doczj.com/doc/cf12016329.html,pounding is the addition of affixes to stems to form new words. 8.All utterances take the form of sentences. 9.Suffixes modify the meaning of the original word and in many cases change its part of speech. 10.The most basic element of meaning is traditionally called morpheme. II. Decide which one of the four choices best completes the statement.

胡壮麟语言学教程第二章专业术语解释

2. Articulatory phonetics发音语言学: the study of production of speechsounds.研究语言的发生 phonetics声学语言学:is the study of physical properties of speech sounds.研究语音的物质特征 or Auditory phonetics感知语音学或听觉语音学:is concerned with the perception of speech sounds.研究语音的感知 音系学is the study of the sound patterns and sound systems of languages.研究各种语言的语音模式和语音系统 6. IPA国际音标表: the abbreviation of International Phonetic Alphabet 变音符:are additional symbols or marks used together with the consonant and vowel symbols to indicate nuances of change in their pronunciation.是与元音或辅音符号结合使用的一些附加符号或记号,用于表示元音或辅音在发音上的微小变化 辅音: are sound segments produced by constricting or obstructing the vocal tract at some place to divert,impede,or completely shut off the flow of air in the oral cavity.声道紧闭,或声道变窄的程度达到无法 9. Vowl元音:are sound segments produced without such obstruction,so no turbulence of a total stopping of the air can be perceived.气流可以相对不受阻碍的从口腔或鼻腔中排出 排出,一旦排出就会产生可闻的摩擦,这样发生的音叫辅音 10. Coarticulation协同发音: a kind of phonetic process in which simultaneous or overlapping articulations are

语义网技术

语义网技术是当前互联网技术研究的热点之一。目前大多数页面中的使用的文字信息不便于机器自动处理,只适合人们自己阅读理解,解决可自动处理的数据和信息方面发展较慢的问题,在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今天,成为信息检索的一个难题。本文首先建构了一种形式化的本体描述方法,并给出了标准化的定义,主要针对在本体层定义的基础上对逻辑层展开了基础研究,对于本体概念进行逻辑推理,通过本体中关系的属性,推理出隐含在本体概念间的关系。在本文的定义中本体包含五个基本的建模元语,概念,关系,函数,公理,实例,通过本体的五个建模元语构建本体,给出本体的形式化的规范定义,本体描述中的四种特殊关系有继承关系,部分关系,实例关系和属性关系,关系的各种属性是进行本体推理的逻辑依据,有传递性属性,关系继承性,反向关系继承性,逆属性,对称性属性,反身性属性,等价性属性等等,依据这些属性的逻辑性,可以推理出所要的查找。本文利用属性的逻辑推理机制采用树搜索的查找检索方式查找出隐含在概念之间的逻辑关系是本文所要进行的主要工作,这样可以判断出概念之间是否存在一些给定判断的关系,或者一个概念和什么概念存在给定的关系,再或者两个概念间都存在什么关系等等都是我们用推理检索所要实现的判断。摘要语义网技术是当前互联网技术研究的热点之一。目前大多数页面中所使用的文字信息不便于机器自动处理,只适合人们自己阅读理解,解决可自动处理的数据和信息方面发展较慢的问题,在网络上信息量剧增、人们迫切需要计算机分担知识整理这一压力的今

天,成为信息检索的一个难题,本文中对本体层概念的推理就是为了探索计算机理解语义所做的一个尝试。语义网的体系结构向我们说明了语义网中各个层次的功能和特征,语义网的研究是阶段性的,首先解决syntax(语法)层面的问题,也就是xml,然后是解决(数据层)基本资源描述问题,也就是rdf,然后是(本体层)对资源间关系的形式化描述,就是owl,damloil,这三步已经基本告罄,当然,基于rdf 或者owl的数据挖掘和ontology管理(如合并,映射,进化)按TIMBERNERS-LEE的构想,这个工作大概到2008左右可以完成,在商业上,很快就会在知识管理,数据挖掘,数据集成方面出现一些企业。目前亟待发展的是LogicLayer(逻辑层),这方面在国内外的期刊著作中还少有提到,接下来的工作就应该是对于owlbased的数据进行推理和查询了,当前的推理方法主要是针对本体而言的,而本体的概念是在某个特定领域范围内的,而且在知识库中推理和查询是紧密的结合在一起的,相辅相成的,查询的同时必然存在着推理,而这里的推理就必须要建立在一定的逻辑模型的基础上,所以推理的方法就是基于逻辑模型的逻辑推理,可采用逻辑推理的方法。本体中推理的重点在于推理结论的正确性、完备性,若是不能保证推理的正确性,则语义网的引入就不但没有给网络资源的查询带来便利,反而阻碍了网络的发展,而且还要保证推理的完备,不遗漏应有的推理结果。本体推理的难点在于推理的高效性、资源利用率,若推理虽能达到正确性,完备性的目的而浪费了大量的时间和资源,则语义网也不能达到预期的效果,所以推理方法的使用及其效果是语义网成功的关

相关主题
文本预览
相关文档 最新文档