当前位置:文档之家› 基于Ontology的自然语言智能检索技术研究

基于Ontology的自然语言智能检索技术研究

基于Ontology的自然语言智能检索技术研究
基于Ontology的自然语言智能检索技术研究

浅谈自然语言处理

浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

ontology的释译

ontology的释译 【摘要】ontology是西方哲学的奠基性范畴,通过对其起源及国内哲学界释译梳理发现,国内外学者对它的翻译和诠释存在诸多争议。由此,笔者认为,当代国内哲学界对西方哲学某些精深部分的把握,并非如我们想象的那样容易。 【关键词】ontology;诠释;翻译;哲学 ontology这个词在国内外的解释翻译甚多,它的研究对象、任务含有多义性,有点不可言说的味道,但我们还要说。为此要把哲学史上和国内近现代关于它的研究理顺一下,方便我们探讨。 一、ontology的产生及定义 最先构成ontology的是德国人郭克兰纽,像一部分表示学科的词语一样,它也是由希腊文构成的。如biology,sociology这类词分别由词干bio、socio结合词尾-logy构成,ontology是由onto加上-logy构成,显而易见是关于onto 的学问。虽名称出现,但具体的定义、概念却没出现。我们读到关于ontology的定义,见于黑格尔的《哲学史讲演录》

--本体论,论述各种抽象的、完全普遍的哲学范畴,如"有" 以及"有"之成为一和善,在这个抽象的形而上学中近一步产 生出偶性、实体、因果、现象等范畴。 再看"百科全书"关于ontology的定义,笔者按俞宣孟对《不列颠百科全书》(第15版)中的ontology的翻译:关于"是"本身,即关于一切实在的基本性质的理论或研究。这个术语直到17世纪时才首次拼造出来,然而本体论 同公元前4世纪亚里士多德所界定的"第一哲学"或形而上学 同义,由于后来形而上学包括其他的研究(例如,哲学的宇宙论和心理学),本体论就毋宁指对"是"的研究了。本体论在近代哲学中成为显学,是由于德国理性主义者克里斯蒂?沃 尔夫,以他看,本体论是走向关于诸"是者"之本质的必然真 理的演绎的学说。而他的伟大的后继者康德却对作为演绎体系的本体论、以及作为对上帝的必然存在所作的本体论证明,作了重大影响的排斥。由于20世纪对形而上学的革新,本 体论或本体论的思想又变得重要起来,主要表现在现象学家以及存在主义者中,其中包括海德格尔。 另一份资料来自《美国大百科全书》如下: 形而上学的一个分支,它研究实在本身,这种实在既是与经验着他的人相分离,又是与人对于他的思想观念相分离。这个术语由克里斯蒂?沃尔夫导入,以指界乎研究世界的起 源与结构的自然哲学和研究心灵的精神哲学或心理学之间

NLP入门 实战必读:一文教会你最常见的10种自然语言处理技术(附代码)

大数据文摘作品 编译:糖竹子、吴双、钱天培 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的10个NL P任务,以及相关资源和代码。

为什么要写这篇文章? 对于处理NL P问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同类NL P问题的赛事内容学习该领域的最新发展成果,并应对NL P处理时遇到的各类状况。 因此,我决定将这些资源集中起来,打造一个对N L P常见任务提供最新相关资源的一站式解决方案。下方是文章中提到的任务列表及相关资源。那就一起开始吧。 目录: 1.词干提取

2.词形还原 3.词向量化 4.词性标注 5.命名实体消岐 6.命名实体识别 7.情感分析 8.文本语义相似分析 9.语种辨识 10.文本总结 1.词干提取 什么是词干提取?词干提取是将词语去除变化或衍生形式,转换为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。例如,英文中: 1.b e a u t i f u l和b e a u t i f u l l y的词干同为b e a u t i 2.G o o d,b e t t e r和b e s t的词干分别为g o o d,b e t t e r和b e s t。 相关论文:M a r t i n P o r t e r的波特词干算法原文

相关算法:在P yt h o n上可以使用P o r t e r2词干算法 (h t t p s://t a r t a r u s.o r g/m a r t i n/P o r t e r S t e m m e r/d e f.t xt) 程序实现:这里给出了在p yt h o n的s t e mm i n g库中使用 (https://https://www.doczj.com/doc/c89191480.html,/mchaput/stemming/src/5c242aa592a6 d4f0e9a0b2e1afdca4fd757b8e8a/stemming/porter2.py?at=d efault&fileviewer=file-view-default) P o r t e r2算法做词干提取的代码: #!pip install stemmingfrom stemming.porter2 import stem stem("casually") 2.词形还原 什么是词形还原?词形还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑到了P O S问题,即词语在句中的语义,词语对相邻语句的语义等。例如,英语中: 1.b e a u t i f u l和b e a u t i f u l l y被分别还原为b e a u t i f u l和b e a u t i f u l l y。 2.g o o d,b e t t e r和b e st被分别还原为g o o d,g o o d和g o o d 相关论文1:这篇文章详细讨论了词形还原的不同方法。想要了解传统词形还原的工作原理必读。(h t t p://www.i j r a t.o r g/d o wn l o a d s/i c a t e st2015/I CA TE S T-2015127.p d f)

gene ontology(GO基因注释)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能. 基因本体论(gene ontology)的建立 现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因:不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个描述其为“蛋白质 合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。 Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。 GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。 GO发展了具有三级结构的标准语言(ontologies),如表所示。根据基因产物的相关分子功能,生物学途径,细胞学组件而给予定义,无物种相关性。 本体论内容分子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等生物学途径本体论分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等 基本来说,GO工作可分为三个不同的部分:第一,给予和维持定义;第二,将

基于自然语言处理的主观题智能阅卷技术

龙源期刊网 https://www.doczj.com/doc/c89191480.html, 基于自然语言处理的主观题智能阅卷技术 作者:柏雪 来源:《计算机光盘软件与应用》2013年第07期 摘要:本文主要探讨使用自然语言处理技术来实现主观题智能阅卷的方法,使用到的关键技术包括分词、句法分析、词语相似度计算以及句子相似度计算。文章对如何使用这些关键技术来实现主观题智能阅卷系统进行了详细的阐述。 关键词:智能阅卷;分词;词语相似度计算;句子相似度计算 中图分类号:TP391.7文献标识码:A文章编号:1007-9599 (2013) 07-0000-02 随着计算机技术和通信技术的高速发展,计算机已经应用到人们生活中的各个领域。在教育领域中,计算机实现试卷自动评阅是教育系统智能化必备的功能。一方面,计算机智能阅卷能避免人为的误差,能够更客观的反映出评阅结果,保证了阅卷的客观公正性。另一方面,电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动,让老师省出更多时间和精力用在教学工作中。 主观题智能阅卷主要采用的技术路线是自然语言处理技术。按照主观题的评分流程,阅卷系统主要分为五个部分:分句、分词、句法分析、词语相似度计算以及句子的相似度计算。 1分句 将答案分句是评分的第一个步骤,分句的粒度大小也将影响评分结果。本文将根据特定的标点符号(句号、问号、分号、感叹号)作为句子的分隔符,将句子分为若干子句。在对参考答案进行分句的时候,需要将之前录入的权值赋值给对应的每个子句。最后题目的得分应该是各子句相似度的加权求和,用S具体计算如式(1): (1) Simi表示第i句的相似度,?i表示第i句的权值,i取值范围为[0,n],n为子句的个数。值得注意的是,参考答案每句话的权重是根据句子结束的标点符号来分配的,因此参考答案录入和学生答题的时候每句话的标点符号必须正确填写。 2分词 由于分词及词性标注对准确率要求较高,如果这两个步骤出现错误,将会对后续步骤产生严重影响。因此本文初步考虑使用已经相对成熟得分词工具来进行分词和词性标注。本文选择的分词工具是中科院计算机研究所开发的ICTCLAS系统,它是最早的中文开源分词项目之一。ICTCLAS提供了无词典分词及词性标注接口。它的分词速度单机可达966KB/S,分词精

基于ontology的自然语言理解

收稿日期:2003-04-07 作者简介:潘宇斌(1971)),男,福建人,工程师,研究方向:人工智能。 文章编号:1003-6199(2003)04-071-04 基于Ontology 的自然语言理解 潘宇斌,陈跃新 (国防科技大学计算机科学与工程学院,长沙 410073) 摘 要:本文分析传统意义上基于知识的自然语言理解(KB-NLU )和基于Ontolog y 的自然语言理解系统的基本模型,Ontology 是概念化的描述,以及Ontolog y 与语言知识的结合方式的三种类型:世界知识型、词汇语义型、句法语义型。 关键词:KB-NLU;Ontology;世界知识型;词汇语义型;句法语义型中图分类号: T P31 文献标识码:A Ontology -Based Natural Language Understand PAN Yu -bin,CH EN Yue -xin (College of Computer Science and Engineering,National U niv.of Defense T echnolo gy,Changsha 410073) Abstract:In this paper,w e analy ze the base model in the area of Knowledge -Based Natural Languag e Un -derstand (KB -NLU )and Ontolog y -Based Natural Language Understand.Ontology is a conceptual descrip -tion.In terms of their relationship w ith the natural language,this paper divides the different Ontolog ies into three ty pes,i.e.world know ledge,lexical semantics one and syntax semantics one. Key words:KB-NLU ;Ontology;w orld knowledg e;lexical semantics;sy ntax semantics 1 引言 自然语言理解把用自然语言描述的一个受限世界(关于该世界的事实和假设),变换为用机器内部的表示法描述的一个世界模型。这个世界模型用作问题求解器的知识库,来求解各种问题。本文讨论了基于知识的自然语言理解(KB-NLU )[1]的一个新的研究方向)))以本体(Ontology)作为知识体进行自然语言理解。 Ontology 在哲学上是指/世界的本原0[2] ,它所要回答的问题是/所有事物的通用属性是什么?0。在知识工程领域,Ontology 本身作为知识实体是系统的知识库,它是由概念以及概念之间的联系所构成的知识实体,是对世界或者领域知识的概念化描述。本文主要介绍Ontolog y 作为一个知识体,结 合语言学知识,进行自然语言理解,即基于Ontolo -g y 的自然语言理解。 基于Ontology 的自然语言理解的主要任务是利用系统所拥有的知识,提取出文本的意义。它需要解决的问题是:Ontology 如何定义;对文本进行各个层面上的消歧;对文本的推理。本文将就以上问题解决方案进行阐述。 2 Ontology 的定义 2.1 Ontology 的概念 Ontology 可以作为对某个领域的描述词典。它和作为约定的Ontology 没有明显的区分,但是它的重点不是为了共享,而是为了建立起一个领域的概念化说明。从而,它作为领域的论域,所有的知识都是在它的基础之上建立的。 第22卷第4期2003年12月 计 算 技 术 与 自 动 化Computing T echnology and Automatio n Vol 122,No 14 Dec 12003

自然语言处理的关键技术

自然语言处理的关键技术 自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。 一、常用技术分类 1、模式匹配技术 模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。 2、语法驱动的分析技术

语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。3、语义文法 语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。 4、格框架约束分析技术

用Ontology组织企业的信息和知识

用Ontology组织企业的信息和知识 在不确定是唯一可确定因素的经济环境中,知识是企业获得持续竞争优势的源泉。知识管理就是利用先进信息技术实现知识获取/创造、组织/存储、传播、应用,使企业在动荡的市场中保持高度智能化的管理手段。知识分为显性知识和隐性知识,显性知识是已经总结好的被基本接受的正式知识,以数字化形式存在或者可直接数字化,易于传播;隐性知识是尚未从员工头脑中总结出来或者未被基本接受的非正式知识,是基于直觉、主观认识、和信仰的经验性知识。显性知识比较容易共享,但是创新的根本来源是隐性知识。日本东京一桥大学著名知识学教授野中郁次郎研究发现:员工在工作过程中把隐性知识作用于客观信息,产生显性知识并传授给同事,和同事一起把显性知识汇总并在产品/服务中体现出来。 而知识管理就是对一个企业集体的知识与技能的捕获——而不论这些知识和技能是存在于数据库中、被印刷于纸上或是存在于人们的脑海里——然后将这些知识与技能分布到能够帮助企业实现最大产出的任何地方的过程。知识管理的目标就是力图能够将最恰当的知识在最恰当的时间传递给最恰当的人以便使他们能够做出最好的决策。 公司信息资产的价值并不在于存贮和提取信息的能力,而在于将信息与特定过程和未知情境进行动态匹配的能力。通过运用知识管理

这一技术,许多企业已经取得了令人惊异的成就。分析家们指出:LotusNotes和世界互联网是知识管理系统中的两大中坚力量。而数据库、文件管理系统和电子邮件则是知识管理系统中的基本要素。为实现知识管理的目标,从而为企业带来收益,大多数公司还需要添加某种知识提取产品,它能通过群体协作、过滤和语义技术将信息转化为知识。 数字信息一方面为人们的日常工作和生活带来了帮助,另一方面,大量的信息又使人们不知所措。如何组织和提供信息就成为信息系统要解决的关键问题。 目前主要的困难包括:知识的表示、信息的组织、软件的复用等。特别是由于因特网的快速发展,面对信息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服务也就成为一项重要而迫切的研究课题。为了适应这些要求,Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。 信息检索技术可分为3类:全文检索(Text retrieval)、数据检索(Data retrieval)和知识检索(Knowledge retrieval)。全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文件语义上的匹配,这种方式虽然可以保证查全率,但是查准

自然语言处理论文:国内自然语言处理研究热点分析

自然语言处理论文:国内自然语言处理研究热点分析[摘要]在确定国内自然语言处理领域使用频率最高的61个关键词的基础上,运用共词分析法,以SPSS 软件为工具,通过因子分析和聚类分析的方法,井借鉴相关研究结果,探讨国内自然语言处理研究现状及研究热点。 [关键词]自然语言处理共词分析法聚类分析因子分析 1引言 最早的自然语言处理方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。从20世纪40年代算起,自然语言处理的研究已经有印多年的历史了,随着信息网络时代的到来,它已经成为了现代语言学中一个颇为引人注目的学科。美国计算机科学家Bill Manaris(马纳利斯)在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人一机交互的角度看自然语言处理》一文中,曾经给自然语言处理提出了如下的定义: “自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(Linguistic Compe-tence)和语言应用(Linguistic Performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术”。 这个定义比较全面地说明了自然语言处理的性质和学科定位,国内外学者普遍认同这个定义。 在自然语言处理研究发展的60多年间,国外该领域经历了萌芽期、发展期和繁荣期三个时期,并取得了丰富的研究成果。相比之下,国内在该领域较为系统的研究成果则为数不多,主要是由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了20多年。但是,经过20多年的发展,汉语自然语言处理技术也获得了长足的进步,在机器翻译、语料库、语篇理解、概念层次网络等领域取得了一些重要成果。 本文拟采用共词分析方法,通过对国内自然语言处理领域文献中高频关键词共同出现频率规律的分析,深入揭示其研究热点以及研究现状,为其他从事自然语言处理研究的学者提供参考。 2研究方法 共词分析法(Co-term Analysis)在图书情报界的应用非常广泛,是文献计量学的一种重要方法,也是内容分析法的常用方法之一。最先提出共词分析方法的是Callon等人,其后这种方法被广泛使用。共词方法的思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,可以进一步按这种“距离”将一个学科内的重要关键词加以分类,从而归纳出该学科的研究现状、热点和内容。不仅如此。利用现代信息技术和统计软件图形显示功能,还能够将分析结果直观形象地显现出来,进而达到可视化的效果。 用共词分析法分析国内自然语言处理领域的研究热点。需要通过四个步骤完成:①,确定国内该研究领域主要关键词;②建立关键词共词矩阵;③选取多元统计方法对所建矩阵进行统计分析;④对所获得的数据进行分析。 3数据来源与关键词获取 3.1数据来源 在中国期刊网(CNKi)上,以“自然语言处理”为关键词,检索时间范围为CNKI默认的年限。选择了四个数据库,分别是中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等,并以关键词为检索字段,采用精确检索的方式检索出2233篇文献,然后从CNKI上下载这些文献的题录数据。

Ontology的含义及翻译

“Ontology”的意义及翻译 作者:邹诗鹏 近年来,Ontology问题复又成为学界的热点研究领域,问题仍然集中于如何理解和翻译Ontology,大多数的意见认为应当放弃“本体”及“本体论”,而选择“存在”及“存在论”,或者干脆就是“是”及“是论”。但到底是“存在”及“存在论”,还是“是”及“是论”(“是态论”),则形成了争论的焦点。这场争论的实质是反映了学界对于西方学术研习的质量要求,同时也表现了学界对于中西方文化在根源上是否能够形成沟通的困惑与思考。 一、Ontology及其复杂的汉译问题 存在论(Ontology)是哲学的核心领域。顾名思义,存在论即关于“存在”的理论,是关于存在是什么以及存在如何存在的理论。存在论虽然是在17世纪才由德国经院学者郭克兰纽命名并由沃尔夫加以完善并从理论上系统化,但就存在论这一学问而言,则是早已由古希腊哲学确定了其基本框架及理论内容的。事实上,存在论本身就是古希腊哲学的主题形态。 不过,Ontology并不是一劳永逸的理论体系。对于不断追求理论超越的西方哲学传统而言,后世的西方哲学显然有理由构造与古希腊哲学的“Ontology”有所突破甚或根本不同的Ontology结构。Ontology的复杂性从词源角度说源于其核心概念toon(tobe)在西方思想演进中的复杂性,从本质上说则是源于哲学家们不同的哲学观念,这种状况必然导致人们对Ontology的不同理解。特别是,由于Ontology在文化传播中与异文化传统及其语言习惯的冲突、融汇与涵化,从而使得在西方哲学那里本就十分复杂的Ontology的异文化翻译显得更为复杂。Ontology的汉译就充分地表明了这一点。近百年来,Ontology先后被译为“物性学”“万有学”(卫礼贤)、“实体论”(陈大年)、“本体学”(常守义)、“万有论”(陈康)、“凡有论”、“至有论”(张君劢)、“存有论”(唐君毅)、“有根论”(张岱年),“是论”(陈康、汪子嵩、王太庆等)以及“是态论”(陈康)等等。这些不同的译法按照toon(tobe)的不同理解大体可归为三类:一是从“存在”说确定Ontology;二是以“有”来解释Ontology;三是从“是”本身来规定Ontology。 从某种程度上说,上述三种分类基本上反映出了西方Ontology理论的三类典型。大体说来,巴门尼德、柏拉图及亚里士多德所代表的古希腊哲学所关注的恐怕主要还是系词意义上的“是”,因而那时的存在论主要应看成是“是论”;以黑格尔为代表的德国古典哲学所思考的则是存在论状态,因而译为“有论”及“存有论”似更合理一些;至于海德格尔等现代哲学家们则是试图从生存论意义上揭示并敞开“存在”(sein,简称“在”),因而他所追求的是一个较传统哲学的Ontology来说更为“原始”或“基础”的“存在论”。 尽管不同的人基于不同的哲学传统及哲学观,从而有理由在不同的意义上使用存在论这一概念,但存在论在古希腊哲学中的本来相对确定的论阈规定还是值得重视的,它至少可以使我们获得一种进入并反省存在论的基本样式。Ontology的核心范畴即希腊语on,on则是希腊语eimi的中性分词形式,eimi乃希腊语中单数第一人称的系词,相当于英语“Iam”,意为“依靠自己的力量能运动、生活和存在”。就本义而言,on应译为“是”,因此,从“是论”(及“是态论”)的角度理解“存在论”(Ontology)虽然不太符合中文的构词法及用语习惯,但就内涵而言,却更符合西方哲学存在论之追求判断与逻辑可靠性的理论本性。Ontology 译为“是论”自然有足够的理由,但如此一个拗口的译法却没有呈现Ontology的汉语语境,在汉语中,“存在”或“有”显然较“是”更有根源性和底蕴。从这个意义上,包括海外华人学界在内的汉语言学术界习惯于用“本体论”、“存在论”、“有论”、“存有论”、“万有论”、

自然语言处理大纲

课程编号:S0300010Q 课程名称:自然语言处理 开课院系:计算机科学与技术学院任课教师:关毅刘秉权 先修课程:概率论与数理统计适用学科范围:计算机科学与技术 学时:40 学分:2 开课学期:秋季开课形式:课堂讲授 课程目的和基本要求: 本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习,使学生掌握自然语言(特别是中文语言)处理技术(特别是基于统计的语言处理技术)的基本概念、基本原理和主要方法,了解当前国际国内语言处理技术的发展概貌,接触语言处理技术的前沿课题,具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域(如网络信息处理、机器翻译、语音识别)的研究奠定基础。 课程主要内容: 本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用,在课程内容的安排上,既借鉴了国外学者在计算语言学领域里的最新成就,又阐明了中文语言处理技术的特殊规律,还包括了授课人的实践经验和体会。 1 自然语言处理技术概论(2学时) 自然语言处理技术理性主义和经验主义的技术路线;自然语言处理技术的发展概况及主要困难;本学科主要科目;本课程的重点与难点。 2 自然语言处理技术的数学基础(4学时) 基于统计的自然语言处理技术的数学基础:概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件,包括如何对文本形式的语料文件进行属性标注;如何处理成批的文件等实践内容 3 自然语言处理技术的语言学基础(4学时) 汉语的基本特点;汉语的语法功能分类体系;汉语句法分析的特殊性;基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。 4 分词与频度统计(4学时) 中文分词技术的发展概貌;主要的分词算法;中文分词技术的主要难点:切分歧义的基本概念与处理方法和未登录词的处理方法;中外人名、地名、机构名的自

自然语言处理领域的研究方向(世毕盟留学)

一、自然语言处理概述 自然语言处理是一个传统的研究领域,近年来也出现了很多创新的领域,比如计算机视觉交叉的应用以及跟机器人科学地交叉。自然语言的理解和处理是人工智能领域的传统任务,是人工智能的终极目标之一,也依然是最困难的任务之一。多年以来,“图灵测试”被广泛认为是标准的人工智能评测任务。经历了长时间的一本正经的胡说八道的争议,目前人们普遍广泛接受的观点是:理解语言是迈向人工智能的关键一步。(这可谓是一句废话)。自然语言处理在工业界也有巨大的应用前景。以Google,Facebook,Microsoft为代表的一些顶尖公司,以及子子孙孙无穷尽的创业公司以自然语言处理技术为核心,开展了大量有影响力,值得关注的工作。这些研究工作中有一些开启了人工智能的新篇章,但有一些又宛如智障。 二、自然语言处理中的主要任务 1.词性标注与(中文)分词。 词性标注是自然语言处理中最基础的研究领域之一。分词则是中文自然语言处理里的重要任务。当前词性标注任务已经较为成熟,发展空间已经不是很大,而中文分词则基本不被外国高校所关注。 2.语法解析 语法解析长久以来是自然语言理解的核心方法,旨在通过解析语言的语法结构来理解语义。语法解析的研究已持续数十年,做出突破难度较大,国内高校对于这一方向的努力一直不是很多。如何科学地把语法解析结果应用在其它任务中,是当前NLP和计算语言学领域所有研究者共同感兴趣的话题。这是一个意识形态问题,搞自然语言的学者很多觉得用到语言学的知识更能体现逼格。但语言学结论近年来的确没有受到足够的重视。 3.语言模型

语言模型的基本任务是通过上文预测下文。预测准确率越高,语言模型性能越好,标志着模型对于该语言的学习/拟合能力越强。从应用的角度上说,有利于文本表示学习的性能。Bengio老人家03年的神经语言模型现在基本上已经是必引用的文献了,虽然多数引用它的人可能也没仔细看过 4.信息检索 信息检索包括文本检索和多媒体检索,是搜索引擎的核心技术,也是自然语言处理领域的重要应用。NLP领域关注的信息检索主要是通过短文本检索长文档的任务,也有通过文本检索图片的任务。信息检索目前主要关注的问题是搜索结果的排序和个性化推荐。 5.信息抽取 信息抽取旨在从非结构化的文本数据中抽取结构化的目标信息。这是一个热点的任务,但是当前模型大多只能进行单一任务的信息抽取,效果也不是特别好。因此将来一段时间,信息抽取还会是一个热门话题。该任务也是其它行业对人工智能最热切的期待之一。行业外的人经常问自然语言处理能不能做这个做那个,大多数是在问能不能从非结构化的海量文本中提取特定的某些信息。这也是所谓大数据公司或者大数据服务提供商的核心技术。信息抽取和数据挖掘有很多交叉和重叠. 申请时如果是做这一方面,可以考虑同时申自然语言处理和数据挖掘。反过来如果当前研究方向是数据挖掘,也可以考虑套磁自然语言处理领域对信息抽取感兴趣的老师。 6.语义表示 语义表示是当前诸多NLP任务的基础之一,目标是将字,词,句,文章的语义表示在合适的向量空间中,以此为基础提高各项任务中模型的性能。随着机器学习的发展,语义表示已成为自然语言处理的一大核心。尤其最近深度学习很火,这一领域也是火得不行。 7.文本分类 文本分类旨在将不同的文本进行分类,以进行进一步的处理。例如百度曾通过文本分类结果作为广告推荐的依据。目前大多数关于文本分类的研究主要目的是证明文本表示模型的优越性。 8.机器翻译 有关机器翻译这一任务的研究已延续数十年。与词性标注,语法解析任务不同,机器翻译模型的性能依然不够强。当前流行的方法是应用深度学习实现高性能的机器翻译。这一任务依然任重道远。学术界,工业界都相当关注。 9.对话系统 对话系统的目标是实现能和人类对话的机器人,这是一个难以实现,难以评测的任务。近年来学术界和工业界对深度学习在对话系统中的应用很感兴趣。该任务会一直是一个热门话题。最近几年研究人员关于对话系统进行了深入的哲学探讨,大家都很期待做出靠谱的应用。

Ontology理论研究和应用建模

Ontology理论研究和应用建模——《Ontology研究综述》、w3c Ontology研究组文档以及Jena编程应用总结1 关于Ontology 1.1Ontology的定义 Ontology最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界给予了新的定义。然后最初人们对Ontology的理解并不完善,这些定义也出在不断的发展变化中,比较有代表性的定义列表如下: 关于最后一个定义的说明体现了Ontology的四层含义: ●概念模型(cerptualization) 通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态 ●明确(explicit) 所使用的概念及使用这些概念的约束都有明确的定义 ●形式化(formal) Ontology是计算机可读的。 ●共享(share) Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。 Ontology的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。

1.2Ontology的建模元语 Perez等人用分类法组织了Ontology,归纳出5个基本的建模元语(Modeling Primitives):●类(classes)或概念(concepts) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架(frame)结构,包括概念的名称,与其他概念之间的关系的集合,以及用自然语言对概念的描述。 ●关系(relations) 在领域中概念之间的交互作用,形式上定义为n维笛卡儿积的子集:R:C1×C2×…× C n。如子类关系(subclass-of)。在语义上关系对应于对象元组的集合。 ●函数(functions) 一类特殊的关系。该关系的前n-1个元素可以唯一决定第n个元素。形式化的定义为F:C1×C2×…×C n-1→C n。如Mother-of就是一个函数,mother-of(x,y)表示y是x的母亲。 ●公理(axioms) 代表永真断言,如概念乙属于概念甲的范围。 ●实例(instances) 代表元素。从语义上讲实例表示的就是对象。 在实际建模过程中,概念之间的关系不限于上面列出的4种基本关系,可以根据领域的具体情况定义相应的关系。 1.3Ontology和语义网络

自然语言处理的应用及发展趋势

自然语言处理的应用及发展趋势 摘要本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词自然语言处理应用发展趋势 一.自然语言处理的研究内容 自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向 本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 (2)数据处理方向 是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 (3)人工智能和认知科学方向 在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 (4)语言工程方向 主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 二.自然语言处理的应用 以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、

自然语言处理技术分享1

内容大概分为:自然语言处理的简介、关键技术、流程及应用。 首先,介绍一下什么是自然语言处理(也叫自然语言理解): 语言学家刘涌泉在《大百科全书》(2002)中对自然语言处理的定义为:“自然语言处理是人工智能领域的主要内容,即利用电子计算机等工具对人类所特有的语言信息(包括口语信息和文字信息)进行各种加工,并建立各种类型的人-机-人系统,自然语言理解是其核心,其中包括语音和语符的自动识别以及语音的自动合成。” 从微观上讲,自然语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。 从宏观上看,自然语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括: ①回答有关提问;计算机正确地回答用自然语言输入的有关问题 ②提取材料摘要;机器能产生输入文本的摘要 ③同词语叙述;机器能用不同的词语和句型来复述输入的自然语言信息 ④不同语言翻译。机器能把一种语言翻译成另外一种语言 自然语言处理的关键技术 自然语言处理的关键技术包括:词法分析、句法分析、语义分析、语用分析和语句分析。 1.词法分析 词法分析的主要目的是从句子中切分出单词,找出词汇的各个词素,并确定其词义。 词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。 不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距 汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常难。 如”我们研究所有东西“,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西”。

用Ontology组织企业的信息和知识

用Ontology组织企业的信息和知识 在不确定是唯一可确定因素的经济环境中,知识是企业获得持续竞争优势的源泉。知识管理就是利用先进信息技术实现知识获取/创造、组织/存储、传播、应用,使企业在动荡的市场中保持高度智能化的管理手段。知识分为显性知识和隐性知识,显性知识是已经总结好的被基本接受的正式知识,以数字化形式存在或者可直接数字化,易于传播;隐性知识是尚未从员工头脑中总结出来或者未被基本接受的非正式知识,是基于直觉、主观认识、和信仰的经验性知识。显性知识比较容易共享,但是创新的根本来源是隐性知识。日本东京一桥大学着名知识学教授野中郁次郎研究发现:员工在工作过程中把隐性知识作用于客观信息,产生显性知识并传授给同事,和同事一起把显性知识汇总并在产品/服务中体现出来。 而知识管理就是对一个企业集体的知识与技能的捕获——而不论这些知识和技能是存在于数据库中、被印刷于纸上或是存在于人们的脑海里——然后将这些知识与技能分布到能够帮助企业实现最大产出的任何地方的过程。知识管理的目标就是力图能够将最恰当的知识在最恰当的时间传递给最恰当的人以便使他们能够做出最好的决策。 公司信息资产的价值并不在于存贮和提取信息的能力,而在于将信息与特定过程和未知情境进行动态匹配的能力。通过运用知识管理这一技术,许多企业已经取得了令人惊异的成就。分析家们指出:LotusNotes和世界互联网是知识管理系统中的两大中坚力量。而数据

库、文件管理系统和电子邮件则是知识管理系统中的基本要素。为实现知识管理的目标,从而为企业带来收益,大多数公司还需要添加某种知识提取产品,它能通过群体协作、过滤和语义技术将信息转化为知识。 数字信息一方面为人们的日常工作和生活带来了帮助,另一方面,大量的信息又使人们不知所措。如何组织和提供信息就成为信息系统要解决的关键问题。 目前主要的困难包括:知识的表示、信息的组织、软件的复用等。特别是由于因特网的快速发展,面对信息的海洋,如何组织、管理和维护海量信息并为用户提供有效的服务也就成为一项重要而迫切的 研究课题。为了适应这些要求,Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。 信息检索技术可分为3类:全文检索(Text retrieval)、数据检索(Data retrieval)和知识检索(Knowledge retrieval)。全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文件语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大地降低了。数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具有一定的结构,允许对特定的字段检索(例如:作者=

相关主题
文本预览
相关文档 最新文档