自然语言处理中的语句语义表示格式研究
- 格式:pdf
- 大小:110.87 KB
- 文档页数:3
自然语言处理的语义分析与语义理解自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支,致力于让计算机能够更好地理解和处理人类的语言。
而语义分析与语义理解是NLP中的两个核心任务,目的是从文本中提取出具体的语义信息,使计算机能够更深入地理解语言的含义,进而进行相关的处理和判断。
语义分析是一种以分析句子或文本的意思为目标的技术。
它主要包括了词法分析、句法分析和语义角色标注三个步骤。
词法分析是将文本切分成一个个单词,同时识别出不同单词之间的词性。
句法分析则是研究句子的结构和组成成分之间的关系,一般通过解析句法树来实现。
语义角色标注则是对句子中的名词、动词等进行标注,使计算机能够理解它们在句子中扮演的不同角色。
通过这些步骤,语义分析能够将句子中的词语和结构转化为计算机能够处理的形式,为后续的任务奠定基础。
语义理解是在语义分析的基础上,进一步理解和抽取句子或文本的语义信息。
它主要包括了命名实体识别、关系抽取和语义关联等处理。
命名实体识别是指从文本中识别出具有特定意义的实体,如人名、地名等。
关系抽取则是从文本中提取出实体之间的关系,如"张三是李四的朋友"中的关系是"朋友"。
而语义关联主要是通过分析句子或文本中的语义关系,找出它们之间的相似性或相关性。
这种处理可以帮助计算机更好地理解句子的含义,从而进行更进一步的应用。
语义分析与理解在自然语言处理中有着广泛的应用。
首先,在机器翻译中,语义分析与理解能够帮助计算机更好地理解源语言句子的含义,从而更准确地翻译成目标语言。
其次,在智能客服中,通过对用户问题的语义分析与理解,计算机可以更准确地理解用户的意图,提供更精确的回答。
再者,在信息检索中,语义分析与理解能够帮助计算机理解用户输入的查询意图,从而更好地匹配相关的文档或网页。
最后,在情感分析中,语义分析与理解能够捕捉句子或文本中的情感信息,帮助计算机判断其情感倾向。
自然语言处理中的语义解析技术研究自然语言处理是一项重要的技术,它可以帮助人们理解和处理自然语言文本。
在自然语言处理领域中,语义解析是一项非常重要的技术。
它可以将自然语言文本转换为计算机可处理的语义表示。
本文将讨论自然语言处理中的语义解析技术。
一、语义解析的定义语义解析是一种自然语言处理技术,它的目的是将自然语言文本转换为计算机可处理的语义表示。
它通常包括两个部分:词法分析和句法分析。
词法分析主要是将文本中的词语转换为计算机可识别的形式,包括词性标注和词义消歧等。
句法分析则是将文本中的语法结构表示为树状结构,以方便计算机进行处理。
二、语义解析的意义语义解析在自然语言处理中非常重要。
它可以帮助计算机理解自然语言文本,并进行自然语言生成和机器翻译等任务。
另外,语义解析还可以用于信息检索、问答系统和智能对话系统等领域。
三、语义解析技术的研究在语义解析技术的研究中,最常见的方法是基于统计学习的方法。
这种方法通过大量的语料库训练自然语言处理模型,以提高解析的准确性和效率。
在词法分析方面,常用的技术包括基于规则的方法、基于统计的方法和混合方法等。
在句法分析方面,常用的技术包括基于规则的方法、基于转移的方法和基于图形的方法等。
四、语义解析技术的应用语义解析技术在自然语言处理领域有着广泛的应用。
在信息检索方面,语义解析可以帮助用户准确地找到他们需要的信息。
在问答系统方面,语义解析可以帮助计算机准确地理解用户的问题并给出正确的答案。
在智能对话系统方面,语义解析可以帮助机器理解用户的自然语言输入,并回答用户问题。
五、未来的发展随着人工智能技术的不断发展,语义解析技术将得到更广泛的应用。
在未来,语义解析技术将成为自然语言处理的核心技术之一。
同时,随着机器学习技术和深度学习技术的不断进步,语义解析技术将会得到更高的准确性和效率。
总之,语义解析是自然语言处理领域中非常重要的一种技术。
它可以帮助计算机理解自然语言文本,并进行自然语言生成和机器翻译等任务。
自然语言处理中句法分析与语义分析技术研究自然语言处理(NLP)是对自然语言进行计算机处理的研究领域,它的研究范围非常广泛,包括各种领域,如文本分类、机器翻译、情感分析、自动问答等等。
其中,句法分析和语义分析是NLP中非常重要的两个技术,接下来我们就来详细了解一下这两个技术在自然语言处理中的应用。
一、句法分析句法分析是指对自然语言中的句子进行分析,确定其语法结构的过程。
它是NLP中最基本、最核心的技术之一。
句法分析主要有两种方法:基于规则的方法和基于统计机器学习的方法。
1.基于规则的方法基于规则的方法是指基于语言学规则来分析句子的结构和成分,传统的语法分析器通常就是采用这种方法。
这种方法需要手动编写语法规则,并借助于形式化方法表示语法规则,对于一些歧义性很小的句子可以得到比较好的分析结果。
但是,基于规则的方法对于歧义性大的句子效果并不理想,因为语言是一种含义丰富、多义性较大的现象,用规则分析难免会造成歧义。
而且编写规则需要依赖句法学家的专业知识,需要投入大量时间和精力。
2.基于统计机器学习的方法基于统计机器学习的方法是指基于大量语料库进行训练,使用统计模型来分析句子结构和成分。
这种方法不需要手动编写规则,而是使用机器学习算法自动从语料库中学习语言规则。
这种方法的优势在于能够自适应地根据训练集自动学习语言规则,并能够处理一些歧义性大的句子。
然而,这种方法的缺点在于需要大量的数据集支持,同时需要处理蕴含关系和推理等复杂问题。
二、语义分析语义分析是指对句子的意义进行分析,确定其所表达的含义。
语义分析在NLP 中非常重要,因为语言的含义是非常复杂的,需要通过机器分析才能发掘其中的信息。
1.基于词汇的方法基于词汇的方法是指通过分析句子中每个单词的含义来确定该句子的整体含义。
这种方法通常是通过词汇语义相似度比较来实现。
例如,这句话:“我要买一张机票”,可以提取出“买”和“机票”两个词,通过比较它们的语义关系来推断出这句话的含义。
自然语言处理中的词向量表示与语义分析自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支,它致力于让计算机能够理解和处理人类语言。
随着深度学习的发展,词向量表示和语义分析成为了NLP中的核心任务。
本文将探讨词向量表示和语义分析在NLP中的应用以及相关技术的发展。
一、词向量表示在传统的NLP中,词袋模型(Bag of Words, BoW)被广泛使用,它将每个词都看作是独立的符号,不考虑词之间的关系。
然而,这种模型无法捕捉到词之间的语义信息。
为了解决这个问题,词向量表示应运而生。
词向量表示是将每个词映射到一个固定长度的向量空间中,使得词之间的距离可以反映出它们之间的语义关系。
其中,Word2Vec是一种常用的词向量表示模型。
该模型利用神经网络学习每个词的分布式表示,并通过通过训练模型来预测周围词的方法得到词向量。
Word2Vec模型的优势在于它可以从大规模的文本数据中学习到丰富的语义信息。
二、语义分析语义分析是NLP中的一个重要任务,它涉及到文本的语义理解和推理。
传统的语义分析方法主要依赖于人工构建的规则和词典,效果受限且需要大量的人力投入。
然而,随着词向量表示的发展,基于深度学习的方法逐渐成为主流。
一种常见的语义分析任务是情感分析,即判断一段文本的情感倾向。
基于词向量表示,可以利用卷积神经网络(Convolutional Neural Network, CNN)或循环神经网络(Recurrent Neural Network, RNN)进行情感分析。
这些模型可以自动学习到词汇之间的语义关系,并通过网络结构对文本进行建模,从而实现情感的识别。
除了情感分析,语义分析还包括命名实体识别、关键词提取、文本相似度计算等任务。
这些任务都可以利用词向量表示来捕捉词与词之间的语义关系,从而提高模型的性能。
三、技术发展随着深度学习的不断发展,词向量表示和语义分析的技术也在不断进步。
自然语言处理中的语义分析自然语言处理(NLP)一直是人工智能(AI)领域的热门话题。
语义分析(SEM)作为NLP的重要分支之一,主要目的是理解人类对文本的真实意图和含义。
相比于传统的信息处理技术,语义分析更加注重语言中的情感和语境含义,并尝试从中提取真正有价值的信息。
在此文中,我们将探讨自然语言处理中的语义分析以及其应用场景。
一、语义分析的介绍语义分析可以被定义为一种系统性的形式化方法,在这个方法中,我们可以将自然语言转化为可计算的形式并对其进行建模。
研究者们采用了各种不同的方法来进行语义分析,这其中包括了基于规则的方法、机器学习方法以及神经网络方法等等。
这些方法之间存在着一定的联系和差异,但是它们的主要目的都是探寻语言之中的真正意图。
二、语义分析在搜索引擎中的应用语义分析在搜索领域中有着广泛的应用,尤其是在处理用户的自然语言查询时。
通过解析和理解用户的查询语言,搜索引擎可以更准确地返回相关的结果。
此外,搜索引擎还可以利用语义分析来进行自然语言生成,以帮助用户更好地理解他们所搜索的内容。
三、语义分析在社交媒体中的应用社交媒体在我们的日常生活中扮演着越来越重要的角色。
语义分析可以帮助我们更好地理解社交媒体上的内容,并从中提取真正有价值的信息。
例如,语义分析可以帮助我们了解人们对某个具体话题的看法和情绪倾向,以及对这个话题的讨论的趋势和发展。
这些信息可以被应用于各种场景,例如产品的市场调研和用户行为预测。
四、语义分析在自动问答系统中的应用自动问答系统是一种基于自然语言问答的人机交互形式,它可以提供各种智能型的服务,例如满足用户的个性化需求、协助用户解决问题。
语义分析可以被用于解析用户的问题并提供相应的答案。
语义分析可以帮助系统理解问题的含义以及对其中的一些表达方式进行建模。
这样,系统就有了更好的理解和回答用户问题的能力。
五、语义分析在智能机器人中的应用智能机器人已经成为现代社会一种重要的AI应用形式,它可以帮助人们完成许多日常任务。
自然语言处理研究内容随着人工智能技术的不断发展,自然语言处理(Natural Language Processing, NLP)逐渐成为人工智能领域的一个重要分支。
自然语言处理的目标是让计算机能够理解和生成自然语言,这对于人机交互、信息检索、机器翻译、语音识别等领域都有着非常广泛的应用。
本文将介绍自然语言处理的基本概念、发展历程以及主要研究内容。
一、自然语言处理的基本概念自然语言处理是一种涉及人工智能、计算机科学、语言学等多个学科的交叉领域。
其研究的主要对象是自然语言,即人类日常交流中使用的语言,包括口语和书面语。
自然语言处理的目标是让计算机能够理解和生成自然语言,实现人机之间的自然语言交互。
自然语言处理主要包括以下几个方面:1. 语言模型:语言模型是自然语言处理的基础,其目的是对自然语言的概率分布进行建模。
语言模型通常采用n-gram模型,即假设一个词的出现只与前面n个词有关。
通过语言模型,可以计算出一个句子的概率,从而判断其是否合理。
2. 词法分析:词法分析是将自然语言文本分解为单词或词汇单元的过程。
词法分析通常包括分词、词性标注、命名实体识别等任务。
分词是将连续的文本划分成词语的过程,词性标注是对每个词语标注其词性,命名实体识别则是识别文本中的人名、地名、组织机构名等实体。
3. 句法分析:句法分析是对句子的语法结构进行分析的过程。
句法分析通常采用句法树或依存句法分析来表示句子的结构。
句法分析可以帮助计算机理解句子的意思,从而实现自然语言理解。
4. 语义分析:语义分析是对句子的意义进行分析的过程。
语义分析通常包括词义消歧、情感分析、命名实体消歧等任务。
词义消歧是在一个上下文中确定一个词语的确切含义,情感分析是对文本的情感进行分析,命名实体消歧则是确定文本中一个实体的确切含义。
5. 文本生成:文本生成是指计算机能够自动地生成自然语言文本的能力。
文本生成可以应用于自动摘要、机器翻译、对话系统等领域。
基于语义句法分析的自然语言处理技术研究自然语言处理技术是人工智能领域中的一个重要分支,其主要研究内容是如何让计算机能够理解人类语言和文字。
随着人工智能技术的发展和应用的广泛,自然语言处理技术越来越受到关注和重视。
本文将探讨基于语义句法分析的自然语言处理技术研究。
一、自然语言处理技术的发展历程自然语言处理技术起源于20世纪50年代,当时人们开始尝试将语言学理论和计算机科学相结合,实现计算机对自然语言的理解和处理。
60年代,人们开始研究用计算机翻译语言的方法。
70年代,随着计算机硬件的提升和自然语言处理技术的成熟,计算机语言翻译也取得了很大的进展。
90年代以后,自然语言处理技术开始向语音识别、信息检索、机器翻译、语义分析等多个领域拓展。
二、自然语言处理技术的应用现状自然语言处理技术的应用越来越广泛,目前已经被应用于多个领域。
比如,在教育领域,自然语言处理技术可以用于教师评估学生的作文、智能辅导学生阅读、评价学生的口语表达等。
在医疗领域,自然语言处理技术可以用于解析病历、指导诊疗、提高患者体验等。
在金融领域,自然语言处理技术可以用于舆情监测、自动化投资、客户服务等。
在智能家居领域,自然语言处理技术可以用于智能交互、语音识别控制等。
三、基于语义句法分析的自然语言处理技术语义句法分析是自然语言处理技术中的一项重要内容,其主要目的是识别句子中的语法结构,以及了解句子所表达的意思。
语义句法分析主要分为两个部分,语法分析和语义分析。
1、语法分析语法分析主要是指句子所体现出的句法结构,是对句子的形式和结构进行分析,包括句子的组成部分、句子成分之间的关系、句子的语义角色等等。
通过语法分析,计算机可以识别不同类型的语言表达方式,深入了解句子的结构和含义,为语义分析提供基础。
2、语义分析语义分析是对句子中所表达意思进行分析和理解,从中获取句子所传达的信息,例如指代关系、语义角色、情感倾向等。
语义分析涉及到实体识别、词汇消歧和指代消解等多个方面的知识,可以有效提高自然语言处理的精度和准确度。
自然语言处理的语义分析自然语言处理(Natural Language Processing, NLP)是一种以计算机为工具,研究人类语言的科学。
语义分析(Semantics Analysis)是NLP的一个重要领域,其主要任务是从文本中识别出意义相似的单词、短语、句子和文章,并把它们归类、聚集起来,作为这些文本的语义摘要。
语义分析的核心在于让计算机“理解”句子背后的意思。
一、语义分析的现状语义分析的发展史可以追溯到上世纪40年代,当时研究人员开始探索如何让计算机理解自然语言。
随着语料库、自然语言处理技术和机器学习算法的不断改进,语义分析的质量和效率得到了显著提高,能够应用于自动问答、智能搜索、垃圾邮件过滤、情感分析、自动文本分类、机器翻译等多个领域。
二、语义分析的方法语义分析的方法有很多种,下面就为大家介绍几种常用的方法。
1. 词袋模型(Bag of Words, BoW)词袋模型是一种基于向量空间模型(Vector Space Model, VSM)的语义分析方法,它将文本中出现的单词作为一个集合,每个单词在集合中的出现频率作为一个特征维度。
这样,如果有两个文本,它们使用的单词集合和单词出现频率相似,那么它们就被认为有相似的语义。
词袋模型的局限在于,它没有考虑单词之间的关联性和上下文信息。
2. 词嵌入模型(Word Embedding)词嵌入模型是一种基于神经网络的语义分析方法,它通过学习将每个单词表示为一个低维向量,使得具有相似语义的单词在这个向量空间中距离更近。
词嵌入模型不仅考虑了单词之间的关联性,还可以捕捉到句子中的上下文信息。
常见的词嵌入模型有Word2Vec、GloVe、FastText等,它们在NLP领域中有着广泛的应用。
3. 语法分析(Syntactic Parsing)语法分析是一种将文本结构化的语义分析方法,它通过分析文本中各个单词之间的语法关系,建立语法树。
语法树可以为后续的语义分析提供重要的依据,例如命名实体识别、实体关系抽取等。
自然语言处理中的语义分析技术综述自然语言处理(Natural Language Processing,NLP)是人工智能领域中的一个重要研究方向,旨在使计算机能够理解和处理人类语言。
在NLP中,语义分析是一项关键技术,旨在识别和理解文本中的语义信息。
语义分析可以帮助计算机更好地理解人类语言,从而实现机器翻译、信息检索、问答系统、智能对话和文本分类等应用。
语义分析技术包括词义消歧、语义角色标注、关系抽取和情感分析等方面。
下面将从这些技术进行综述。
首先,词义消歧是语义分析中的重要任务之一。
在自然语言中,一个单词可能有多个不同的意义,而词义消歧的目标是确定上下文中单词的确切含义。
这一任务可以通过构建语义网络、利用统计语言模型和基于知识图谱的方法来实现。
这些方法可以帮助计算机准确地理解上下文中单词的语义。
其次,语义角色标注是将句子中的词语与其在句子中的语义角色相对应的任务。
语义角色标注可以识别出动词的论元并确定其在句子中的语义角色,如施事者、受事者和时间等。
这项技术在问答系统和信息检索中发挥了重要作用,可以帮助计算机理解句子的含义,并提供更准确的回答或搜索结果。
关系抽取是语义分析的另一个重要任务,旨在从文本中提取出实体之间的关系。
关系抽取可以帮助计算机理解实体之间的相互作用和影响,从而构建出知识图谱或语义网络。
关系抽取可以通过基于模式匹配的方法、基于机器学习的方法或基于深度学习的方法来实现。
这些方法能够从海量的文本中自动提取出实体之间的关系,为后续的语义分析任务提供支持。
另外,情感分析是一项在社交媒体和在线评论等文本中广泛应用的语义分析技术。
情感分析旨在识别和判断文本中所表达的情感或倾向,如正面、负面或中性等。
情感分析可以通过构建情感词典、利用机器学习算法或使用深度神经网络来实现。
情感分析在情感智能、舆情分析和用户情感分析等领域具有广泛的应用。
总的来说,自然语言处理中的语义分析技术在许多领域中发挥着重要作用。
自然语言处理中的语义分析技术自然语言处理(Natural Language Processing, NLP)是计算机科学与人工智能领域的重要研究方向之一,其目的是让计算机能够理解、处理人类的自然语言。
语义分析(Semantic Analysis)是NLP中的重要技术之一,它旨在从自然语言中提取出意义信息。
本文将从词汇语义、句子语义和文本语义三个方面介绍语义分析技术。
一、词汇语义词汇是语言的基本单位,它们构成了句子和文本。
词汇语义(Lexical Semantics)研究词汇的意义,是语义分析中的重要组成部分。
1. 词汇相似度计算在词汇语义分析中,计算词汇相似度是一项核心任务。
如果两个词的意义越相似,则其相似度就越高。
常用的词汇相似度计算方法包括:词汇的共同上下文(Distributional Semantics)、词汇路径相似性(Path Similarity)、信息内容(Information Content)等。
词汇的共同上下文是指两个词出现在同一上下文中的次数。
例如,"apple"和"banana"出现在同样的上下文中的次数越多,则两者的相似度就越高。
路径相似性是指两个词汇在词汇表中的路径长度,如果路径长度越短,则两者的相似度就越高。
信息内容是指一个词所包含的信息量,通常由信息熵来表示。
如果两个词的信息熵较低,则其相似度就越高。
2. 词汇关系在词汇语义分析中,还需要研究词汇之间的关系。
例如,词汇之间的层次关系(如上位词、下位词、同义词、反义词等)和其他词汇关系(如关联、共现等)。
上位词是指概念的更大范畴,下位词则是概念的具体实例。
例如,行动是动词的上位词,而走路是行动的下位词。
同义词是指意思相近的词,反义词则是意思相反的词。
例如,美好和辛酸是同义词,美好和悲惨是反义词。
二、句子语义句子是语言的基本组成单位,是人们日常交流沟通的重要形式之一。
在语义分析中,句子语义(Sentence Semantics)研究句子的意义。
—77—自然语言处理中的语句语义表示格式研究缪建明1,2,张 全2,吴 晨1, 2(1. 中国科学院研究生院,北京 100039;2. 中国科学院声学研究所,北京 100080)摘 要:语句语义表示格式(语句格式)体现了语句各组成成分之间的组合关系,可给计算机提供指导性的知识。
该文在HNC 理论框架指导下,对目前普遍采用的语句格式提出了一种全面改进的方案,给出了新的语句格式编码,通过实例阐述了带来的变化。
测试数据表明,新语句格式具有很强的通用性和非常好的表示能力,更有利于计算机的处理。
关键词:HNC 理论;语义块;语句格式;句群;语义深层结构Study on Sentence Format in Nature Language UnderstandingMIAO Jianming 1,2, ZHANG Quan 2, WU Chen 1,2(1. Graduate School of Chinese Academy of Sciences, Beijing 100039; 2. Institute of Acoustics, Chinese Academy of Sciences, Beijing 100080)【Abstract 】The sentence format (SF) indicates the relationship among the components of the sentences, and it can provide guiding knowledge for computer in nature language processing. This paper gives a new improved sentence format comparing to the old sentence format, and provides a new codes. The changes between the new sentence format and the old sentence format has been discussed and explained. The results of the test indicate that the new sentence format has the upper hand in sentence structure expression upon the old one, and will benefit the computer processing in NLP area.【Key words 】Hierarchical network of concepts(HNC) theory; Chunk; Sentence format(SF); Sentence group(SG); Semantic deep structures计 算 机 工 程Computer Engineering 第32卷 第16期Vol.32 № 16 2006年8月August 2006·软件技术与数据库·文章编号:1000—3428(2006)16—0077—03文献标识码:A中图分类号:TP391.4计算语言学研究者发现,自然语句的理解不仅决定于语句各组成成分的类型和个数,还取决于它们之间的组合关系。
传统语言学句类研究的范围包括按谓语结构分类研究和句子结构方式研究,讨论了句子动词的性质,又研究了句型成分的组合情况,涵盖了语句组成成分的类型研究和组合关系的研究,具有广阔的研究空间。
但这两个研究是在一个句型研究平面上进行的,在句子谓语特性研究同时还要考虑句型成分组合带来的困扰,增加了研究复杂性,计算机处理十分不便。
HNC 理论把语义块(HNC 定义的语句基本构成成分)的类型和个数、语义块的排序放在两个层面上研究,先研究语义块的类型和个数(大体相当传统句型研究),在此基础上结合语义块的排序(大体相当传统句式研究)构成相应的句类表示式,通过二者组合形式构成自然语句计算机处理的完整描述。
这种研究方法把属于语言表达的部分脱离语义块的研究而放在语句格式的研究中,使得语义块研究脱离了语种特性,把混杂研究出现的交织型难度剔除,使得处理时难度降低。
语句格式(以下简称格式)的引入是HNC 理论对传统句型、句式术语的继承和发展。
格式定位于传统语言学对语序变化的描述,这是继承;但同时格式立足于HNC 理论的语义块和语句的句类表示式,这是发展。
实际上,自然语言单句不仅存在双宾(双O)现象,还存在双S(双主)和双V(双谓)现象[1],依照传统语言学的S 、V 、O 划分很难进行描述,HNC 理论的处理对策是把S 、V 、O 的6种可能排序现象和S 、V 、O1、O2的24种可能排序都纳入格式的范畴进行描述,而把双S(双主)和双V(双谓)现象纳入句类的范畴进行描述。
通过格式和句类相互配合对语言的复杂句型现象给出完整描述。
1 语句格式的定义HNC 语句格式的引入是在句类代码表达式基础上考虑各种语言习惯后归纳发展起来的,格式定义必然要求考虑到句类数学表达式的特点。
HNC 格式理论把传统语言学的S 和O 统称广义对象语义块,记为GBK ,把V 称为特征语义块,记为EK 。
GBK1大体对应主语S ,GBK2和GBK3大体对应宾语O 。
HNC 理论根据特征语义块体现作用效应链某个环节还是某几个环节把句类分为基本句类和混合句类。
基本句类和混合句类的语句统一数学表示式为SCn =GBK1+(EK)+GBKm (m=2-4)其中GBK 表示广义对象语义块,EK 表示特征语义块,SC 表示语句的数学表达式,后缀m 表示GBK 的序号,而左边的后缀n 表示语句主语义块个数,(EK)表示EK 可以不存在,意味着某些特殊句类可以不含特征块。
在此基础上,考察语义块排列顺序的各种变化后新格式设计出了基本、规范、违例、省略4种。
1.1基本格式基本格式以字母!0开头。
其格式(以下称新定义)与目前被普遍采用的格式定义(以下称旧定义)可详见表1。
表1 基本格式新旧对比新定义旧定义EK 处于第2位,允许GBK 位置任意变动主语义块顺序与语句的数学表示式相同,不允许GBK 作任何变动1.2 规范格式规范格式以字母!1开头。
新定义与旧定义可详见表2。
基金项目:国家社科“九五”计划基金资助重大项目“信息处理用现代汉语词汇研究”(97@YY001);国家“973” 计划基金资助项目(G1998030507-2)作者简介:缪建明(1977—),男,博士生,主研方向:自然语言理解;张 全,研究员、博导;吴 晨,博士生收稿日期:2005-11-06 E-mail :mjm_77@表2 规范格式新旧对比新定义旧定义EK不处于第2位,同时相邻GBK之间一律加边界标记主语义块顺序偏离语句的数学表示式,同时相邻GBK之间一律加边界标记1.3违例格式违例格式以!2开头。
新定义与旧定义可详见表3。
表3 违例格式新旧对比新定义旧定义EK不处于第2位,相邻GBK 之间全部或部分不加边界标记主语义块顺序偏离语句的数学表示式同时相邻GBK之间全部或部分不加边界标记1.4 省略格式省略格式指省去语句数学表达式中某个或某些应有主语义块后的格式,它以!3开头。
省略格式必须和基本、规范与违例3大格式搭配使用,用来标识省略是在哪种未省略的格式下发生。
2设计原则和编码2.1设计原则格式体现的是在语句的句类表达式的各个主语义块确定之后主语义块的组合顺序及其边界标记、变格等信息。
新基本格式的代码主要是参照SVO型语言的显著语言表达习惯来设计的,对于其它类型语言的格式代码则放在规范、违例格式中设计。
在参考了语句语义深层表示结构[2]之后,总结得出了语言现象描述的便利性、基本格式与SVO语言的联系、SVO语言的天然合理性、格式的数学穷尽性与物理实在性(即语种个性)、便于记忆这5个具体的设计原则。
语言现象描述的便利性,指设计应从不同的格式中体现不同语言、语种之间的语言习惯;基本格式与SVO语言的联系,体现的是典型SVO语言所具有的天然合理性及其与新的基本格式的天然联系;格式的数学穷尽性与物理实在性,指数学表示式应存在表述完备性的问题,一方面它应能表示出现的任何情况,另一方面数学表示式在具体实例中应体现不同的物理表达式;便于记忆,指设计既要考虑格式代码使用时人为记忆的便利性,又要考虑计算机自动处理的便利。
具体设计过程中,格式的基本、规范、违例和省略之分以及基本格式的定义方式是前3项设计原则的体现,后两个设计原则主要体现在格式代码的具体设计方面。
第4个设计原则的数学穷尽性与物理实在性和第5个设计原则的便于记忆要统筹兼顾,体现于编码各级数字的具体约定之中。
2.2编码HNC理论将句类分为基本句类和混合句类,混合句类格式代码是在基本句类代码基础上混合而成。
本文仅对基本句类的格式代码进行了阐述,对于混合句类的格式代码,读者可在此基础上,按照二者的混合要求自行组合构成。
改进后的格式对代码选取具有严格的要求。
首先就是从数字串结构上可严格分为基本位和延伸位,基本位最多四位,表示主语义块之间的位置信息,延伸位又分为冗余延伸位和变格延伸位,冗余延伸位表示基本格式和违例格式中广义对象语义块前的冗余标记信息,而变格延伸位表示广义对象语义块的变格信息。
2.2.1基本格式的编码新基本格式变动最大之处在于将旧定义的要求放宽到“EK处于第2位”,允许GBK位置变动。
相关的标注标记符号如下:|| 语义块边界标记符;| 句蜕中语义块的间隔符号;{ } 原型句蜕标记符;< > 要素句蜕标记符;\ / 包装句蜕标记符;^ 语义块指示符;&并联连接符。
新基本格式编码规则可归纳为以下3条:(1)由于!01格式的含义与!0格式相同,因此取消了!01格式。
!011表示四块句EK后的GBK位置进行了交换,即形成“GBK3+GBK2”的顺序。
(2)!02除表示GBK2位于EK左侧外,还表示EK作了变形,如英语中采用的被动形式,并且约定GBK1不出现,即无需恢复GBK1(对于省略,在分析时需要恢复GBK1)。
!021表示GBK2和GBK3向左移位,GBK2移到EK前,GBK1循环成为最右侧的GBK。
!022只对四块句有效,表示EK右侧的GBK位置进行了交换,即形成“GBK1+GBK3”的顺序。
(3)!03的约定与!02的约定类似,除表示GBK3位于EK 左侧外,还表示EK作了变形,同时GBK1不出现。
!031表示GBK2循环成为最右侧的GBK。
!032只对四块句有效,表示EK右侧的GBK位置进行了交换,即形成“GBK2+GBK1”的顺序。