汉语句法语义链接知识库的信息标注规范(Ver22)
- 格式:pdf
- 大小:184.69 KB
- 文档页数:18
语料库标注说明“HSK动态作⽂语料库”语料标注及代码说明“HSK动态作⽂语料库”从字、词、句、篇、标点符号等⾓度,对所收⼊的作⽂语料中存在的外国⼈使⽤汉语的中介语偏误进⾏全⾯标注。
1 、字处理(包括标点符号)[C]:错字标记,⽤于标⽰考⽣写的不成字的字。
⽤[C]代表错字,在[C]前填写正确的字。
例如:地球[C](“球”是错字)、这[C]。
[B]:别字标记,⽤于标⽰把甲字写成⼄字的情况。
别字包括同⾳的、不同⾳⽽只是形似的、既不同⾳也不形似但成字的等等。
把别字移⾄[B]中B的后⾯,并在[B]前填写正确的字。
例如:提[B题]⾼、考虑[B虎]。
[L]:漏字标记,⽤于标⽰作⽂中应有⽽没有的字。
⽤[L]表⽰漏掉的字,并在[L]前填写所漏掉的字。
例如:后悔[L],表⽰“悔”在原⽂中是漏掉的字。
农[L]药,表⽰“农”在原⽂中是漏掉的字。
[D]:多字标记,⽤于标⽰作⽂中不应出现⽽出现的字。
把多余的字移⾄[D]中D的后⾯。
例如:我的[D的],表⽰括号中的“的”是多余的字(原⽂中写了两个“的”)。
[F]:繁体字标记,⽤于标⽰繁体字。
把繁体字移⾄[F]中F的后⾯,并在[F]前填写简体字。
例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。
注意:1)繁体字标记标⽰的是使⽤正确的繁体字,如果该繁体字同时⼜是别字,则先标繁体字标记,再标别字标记。
例如:俭朴[F樸[B僕]]。
2)繁体字写错了,标为:后[F後[C]]。
[Y]:异体字标记,⽤于标⽰异体字。
把异体字移⾄[Y]中Y的后⾯,并在[Y]前填写简体字。
例如:偏[Y徧]、沉[Y沈]。
[P]:拼⾳字标记,⽤于标⽰以汉语拼⾳代替汉字的情况。
把拼⾳字移⾄[P]中P的后⾯,并在[P]前填写简体字。
例如:缘[Pyúan]分、保护[Phù]。
[#]:⽆法识别的字的标记,⽤于标⽰⽆法识别的字。
每个不可识别的字⽤⼀个[#]表⽰。
例如:更[#][#]保存⾃⼰的⽣命,……[BC]:错误标点标记,⽤于标⽰使⽤错误的标点符号。
中 文 信 息 学 报第18卷第1期 JOURNAL OF CHINESE INFORMATION PR OCESSING V ol118No11文章编号:1003-0077(2004)01-0020-06语料库中熟语的标记问题①安 娜,刘海涛,侯 敏(北京广播学院应用语言学系,北京 100024)摘要:熟语是自然语言中普遍存在的语言现象。
本文分析了国内现有语料库对熟语的标注方式,发现这种方式对语料库的进一步加工是有问题的。
为了在语料库标注阶段把熟语问题处理好,本文从信息处理的角度将熟语中的成语、惯用语、歇后语、习用语、专门语以及缩略语归为固定语的范畴,进而提出根据固定语的语法功能给定词性标记,再根据它们的词汇特征给定词汇范畴标记的双层标记法,这样在一定程度上解决了熟语的语料库标注问题。
关键词:人工智能;自然语言处理;熟语;固定语;标注;语料库中图分类号:TP391 文献标识码:AT agging of the Idiom in the CorpusAN Na,L IU Hai2tao,HOU Min(Applied Linguistics Department,Beijing Broadcasting Institute,Beijing100024,China)Abstract:Idiomaticity is a common phenomenon in natural languages.This paper analyses some known means of tagging the idiom in Chinese corpus.These tagging methods are problematic for the further syntactic tagging and parsing of corpus.To find a suitable solution for application in natural language processing,the authors introduce a new concept“fixed expression”,which consist of idioms,customary usages,two2part allegorical sayings,terms and abbreviations.These fixed expressions have the same grammatical function as common words,thus we can tag them according to their function in text and give suitable vocabulary category of fixed expressions.This is called two2level tagging method.The proposed solution is useful to build a parsed corpus as knowledge source of NL P.K ey w ords:artificial intelligence;natural language processing;idiom;fixed expression;tagging of corpus;parsed corpus1 引言在建设传媒语言语料库的过程中,我们根据对语料库加工的通行做法,先对原始语料作词性标注。
中文句法树分析中的句法标注技术研究随着自然语言处理技术的日益发展,中文句法树分析技术已成为自然语言处理领域的热门研究方向之一。
中文句法树分析旨在将一句中文文本转化为一棵树状结构,以便计算机能够更好地理解并处理这段文本。
在中文句法树分析中,句法标注技术起着至关重要的作用。
句法标注是一种将单词标注为其所属于的句法类别的技术,包括名词、动词、形容词等等。
句法标注技术能够为句法分析提供必要的信息和指导,从而提高分析的准确性和效率。
在中文句法树分析中,采用的主要方法是依存句法分析。
依存句法是一种考虑语言中单词之间直接依存关系的句法分析方法。
该方法将一句话中的所有词语看作节点,并且将它们之间的关系视为有向边,构成一个有向图。
其中,每个节点代表一个单词,每一条边代表两个单词之间的依存语法关系。
在依存句法分析中,句法标注是一个必不可少的步骤。
因为对于同一个单词,其所表示的意义和语法功能会随着句子结构的不同而发生变化。
例如,在汉语中,“打”这个词可以既表示动词,又可以表示副词。
如果不进行句法标注,则无法准确地分析句子结构和语义。
中文句法标注技术主要分为字典匹配法和基于机器学习的方法两种。
字典匹配法是一种通过比对词性词典来进行的句法标注方法。
在进行分析时,系统会根据已有的词性词典对单词进行标注,然后根据规则对标注结果进行修正和优化。
这种方法简单高效,但是对于新词难以进行处理。
基于机器学习的句法标注方法则是近年来句法标注技术的主流研究方向。
该方法通过训练模型来自动标注单词的句法类别。
该方法首先需要构建训练数据集,然后利用一定的机器学习算法,如隐马尔可夫模型、条件随机场等,对数据集进行训练,最终得到一组较为准确的句法标注模型。
在实际运用中,可以利用训练好的模型对新的中文文本进行标注和分析。
总之,句法标注技术是中文句法树分析的重要环节。
采用适当的句法标注方法可以提高分析的准确性和效率,为中文语言处理的发展提供必要的支持和指导。
构建现代汉语框架语义知识库技术研究共3篇构建现代汉语框架语义知识库技术研究1现代汉语是现代汉语族中最为重要的语言之一,是中华人民共和国的国家通用语言。
它是一种属于汉藏语系的汉语言种,有数亿人使用,并被广泛使用于中国大陆、台湾、香港、澳门等地区。
现代汉语框架语义知识库技术的研究,主要是为了更好地处理现代汉语的信息,提高语义分析和人工智能的能力。
现代汉语框架语义知识库技术是基于人工智能和自然语言处理技术的分支,其主要目的是将汉语的一些基本的语法规则、句法结构、以及语义意义保存在一个框架语义知识库中。
这个框架既包含了传统的汉语语言知识,也包括语言学、计算机科学、信息论、心理学等各个领域的知识。
现代汉语框架语义知识库技术的实现,需要有较大的数据量、算法和计算能力的支持,同时需要依靠专家知识的输入和人工标注的助力,以及使用自然语言处理技术的手段。
现代汉语框架语义知识库技术的研究,可以帮助语义分析和理解。
随着人工智能技术的广泛应用,语义分析和理解的需求越来越重要。
现代汉语语言知识库的建立,可以有效改善汉语语言对自然语言处理算法的理解,而在此基础上,可以有效构造出更为准确和精致的语义分析和理解的算法。
随着大数据及人工智能技术的不断发展,现代汉语框架语义知识库技术在多种应用场景中得到了广泛的应用。
比如,在智能客服、智能图书馆、智能医疗等领域中,会用到语义分析技术,这些领域涉及到汉语语言库建立,框架语法语义知识库技术发挥巨大的作用。
例如,智能客服中,需要对用户的信息和需求进行分析和理解,通过语义方式得到精准答案,而语义知识库技术的建立,可以有效提高客服的准确性和速度。
总之,现代汉语框架语义知识库技术研究具有重要的理论和实践价值,可以在语义分析和人工智能领域中起到关键作用。
未来随着大数据及人工智能技术的不断发展,现代汉语框架语义知识库技术的研究也将不断深入,其应用场景将更为广泛,并将更好地满足人们的语言需求。
构建现代汉语框架语义知识库技术研究21. 引言现代汉语是当代中国使用的通用语言,语言日渐丰富,语义也变得越来越复杂。
973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。
这次承担973任务后制定出本规范。
本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。
本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。
追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。
现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。
第一步是对原始语料进行切分和词性标注。
1994年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。
在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。
为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。
因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。
由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
⑵ ⑵ 小标记集。
词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。
中文新闻语义结构化标注标准
在中文新闻语义结构化标注标准中,通常包括以下几个方面的
内容:
1. 实体标注,对新闻文本中涉及的实体进行标注,包括人物、
地点、组织、时间等实体的识别和分类。
这有助于计算机系统识别
文本中涉及的重要实体信息。
2. 事件标注,对新闻文本中描述的事件进行标注,包括事件的
主体、客体、时间、地点、原因、结果等要素的识别和关联。
这有
助于计算机系统理解文本中描述的事件内容。
3. 关系标注,对新闻文本中实体之间的关系进行标注,包括人
物之间的关系、组织与地点之间的关系、事件与时间之间的关系等。
这有助于计算机系统建立实体之间的关联网络。
4. 情感标注,对新闻文本中表达的情感色彩进行标注,包括积
极情感、消极情感、中性情感等。
这有助于计算机系统分析文本中
蕴含的情感倾向。
5. 其他标注,还可以包括对新闻文本中其他重要信息的标注,比如主题标注、观点标注、态度标注等,以便计算机系统更好地理解和利用新闻文本的信息。
总的来说,中文新闻语义结构化标注标准的制定旨在提供一套统一的标注规范,帮助机器能够更好地理解和分析新闻文本,从而实现自然语言处理、信息抽取、知识图谱构建等应用。
这些标准的制定需要考虑到语义的准确性、一致性和通用性,以便能够适用于不同领域和不同类型的新闻文本。
同时,标准的不断完善和更新也是很重要的,以适应新闻文本语义分析领域的发展和变化。
NLP标注规则1. 引言自然语言处理(Natural Language Processing,NLP)是人工智能领域中的一个重要分支,旨在使计算机能够理解、处理和生成自然语言。
NLP标注是NLP任务中的一个重要环节,它通过给文本中的每个词汇或短语添加特定的标签,用来表示其在语义或句法上的属性和关系。
本文将介绍NLP标注的常见规则和方法。
2. NLP标注的目的和意义NLP标注的目的是为了提取文本中的重要信息,并为后续的自然语言处理任务提供基础。
通过标注,可以识别文本中的实体、关系、句法结构等,从而实现文本分类、命名实体识别、关系抽取、句法分析等任务。
NLP标注对于机器理解和处理自然语言具有重要的意义。
3. NLP标注的常见规则和方法3.1 命名实体识别命名实体识别(Named Entity Recognition,NER)是NLP标注中的一项重要任务,它的目标是识别文本中具有特定意义的实体,如人名、地名、组织机构名等。
NER的标注规则包括以下几个方面:•人名:以大写字母开头,通常由名字和姓氏组成,如”John Smith”。
•地名:通常包括国家、城市、街道等,如”Beijing”。
•组织机构名:包括公司、学校、政府部门等,如”Microsoft”。
NER的标注方法包括规则匹配、统计机器学习和深度学习等。
规则匹配是最简单的方法,通过定义一些规则来匹配特定的实体。
统计机器学习方法通过训练一个分类器来识别实体,常用的算法包括最大熵模型、条件随机场等。
深度学习方法通过构建神经网络模型来实现实体识别,如循环神经网络(RNN)和长短期记忆网络(LSTM)等。
3.2 关系抽取关系抽取(Relation Extraction)是NLP标注中的另一个重要任务,它的目标是从文本中识别出实体之间的关系。
关系抽取的标注规则包括以下几个方面:•关系类别:定义了不同实体之间可能存在的关系类别,如”父子关系”、“工作关系”等。
现代汉语语义词典规范1王惠Email: whui@摘要:“现代汉语语义词典”(SKCC)是一部面向自然语言信息处理的语义知识库,它以数据库文件形式收录了6.6万余条汉语实词,不仅给出了每个词语所属的词类、语义类,而且以义项为单位详细描述了它们的配价信息和多种语义组合限制,可以为包括机器翻译在内的多种中文信息处理系统中的语义自动分析提供强有力的支持,同时,对于汉语词汇语义学和计算词典学研究也具有重要的意义。
本文概要介绍这部语义词典的结构、内容,以及语义属性项目的填写规范。
关键词:语义知识库语义类配价信息计算词典学中文信息处理The Specification ofThe Semantic Knowledge-base of Contemporary ChineseWang Hu i1, Yu Shiwen1, Zhan Weidong21(Institute of Computational Linguistics, Peking University, Beijing 100871, China)2(Dept. of Chinese Language & Literature, Peking University, Beijing 100871, China)whui@; yusw@; zwd@Abstract: The Semantic Knowledge-base of Contemporary Chinese(SKCC) is a large machine-readable dictionary developed by the Institute of Computational Linguistics and Chinese Department of Peking University. It can provide a large amount of semantic information such as semantic hierarchy and collocation features of 66,539 Chinese words. Its semantic classification system represents the latest progress in Chinese linguistics and language engineering. The descriptions of semantic attributes are fairly thorough, comprehensive and authoritative. The paper introduces the outline and specification of SKCC, and indicates that, as a large scale fundamental semantic resource of Chinese,SKCC will not only provide valuable semantic knowledge for Chinese language processing, but also play an important role in Chinese lexical semantics and computational lexicography research.Key words:Semantic knowledge-base, lexical semantic, computational lexicography, semantic hierarchy, valence information, Chinese language processing1本研究得到国家973重点基础研究项目“面向新闻领域的汉英机器翻译系统”(项目号:G1998030507-4)与“面向中文信息处理的现代汉语动词论旨结构系统和汉语词语语义分类层级系统研究”(项目号:G1998030507-1)的支持。
汉语句法语义链接知识库开发周强智能技术与系统国家重点实验室清华大学计算机系, 北京100084zq-lxd@摘要本文以汉语中描述存在状态和拥有关系及其变化转移的一组典型动词作为研究对象,提出了一套构建大规模汉语句法语义链接库的解决方案:首先融合现有句法描述资源,开发词汇关联知识库;然后设计情境语义描述体系,开发针对汉语拥有和存在类动词的情境语义知识库;最后使用情境语义知识库中的语义描述信息对词汇关联库的各个相关词汇对进行语义信息标注,形成句法语义链接知识库。
该方案在单义存在类动词关联对的参量锚定处理中已取得初步实验效果。
1引言句法语义链接(Syntax-Semantics Linking),是自然语言理解中的一个非常重要的研究课题。
它需要解决句子表层的主、状、宾等句法功能成分与深层的逻辑主语和逻辑宾语之间的链接关系,涉及到以下技术难点:1)相同句法结构的不同语义解释,其中可能涉及词汇语义及搭配因素;2)相同语义结构的不同句法实现等。
其中最重要的是对句子中以动词为中心的基本事件内容的分析及其相关事件描述单元的锚定处理。
对此,语言学家的解决方案是对不同语言的句法语义链接特点进行深入分析,提炼出一些通用的句法语义链接原则和处理规则(Vanlin and La-polla, 1997);计算语言学家的解决方案是通过对大规模真实文本的句法语义标注建立两者之间的内在联系,典型的例子包括英语的PropBank (Kingsbury and Palmer, 2002)和FrameNet (Fillmore and al. 2001)项目等,并以此为基础训练不同的统计分析模型,初步实现了对英语文本的自动语义角色标注(Gildea and Jurafsky, 2002)。
我们的解决方案则是在特定的词汇关联对上,同时描述它在真实文本中可能形成的句法组合关系和语义角色关系,从而在词汇层面上直接建立起词汇对的句法语义链接关系。
“现代汉语构式知识库”填写规范(征求意见稿)课题组内部文档、请勿扩散詹卫东北京大学中文系北京大学中国语言学研究中心北京大学计算语言学教育部重点实验室最近更新:2018-10-051目录§0 引言 (5)§1 关于构式的基本认识 (8)1.1 构式的界定 (8)1.2 构式与传统语法单位的关系 (10)1.3 构式的内部成分及其构造 (14)1.4 构式的分类 (18)1.5 构式与修辞 (20)§2 构式知识库的设计概要 (22)2.1 构式的形式与意义 (23)2.1.1 构式形式:常项与变项的概括度及精细度 (23)2.1.2 构式“一形一义”与“一形多义” (27)2.1.3 意义相近的构式 (29)2.1.4 同形构式 (31)2.2 构式的句法功能 (32)2.2.1 构式句法功能范畴的确定 (32)2.2.2 构式句法功能特征的描写 (33)2.3 构式的语境语用信息 (33)§3 构式知识库的数据表及字段设置 (35)3.1 构式基本信息数据表 (35)3.1.1 构式形式 (35)3.1.2 构式变体 (37)3.1.3 义项 (38)3.1.4 构式特征 (38)3.1.5 构式类型 (39)3.1.6 音节数 (40)3.1.7 组块数 (40)3.1.8是否可扩展 (40)3.1.9实例 (40)3.1.10 变项数量 (40)3.1.11 常项数量 (41)3.1.12 释义模板 (41)3.1.13 近义构式 (41)3.1.14 反义构式 (42)3.1.15 上位构式 (42)3.1.16 下位构式 (43)3.1.17 否定形式 (43)3.1.18 疑问形式 (43)3.1.19 备注 (43)3.2 构式变项信息 (43)3.2.1 变项序位 (43)3.2.2 变项句法特征 (43)23.2.3 变项语义特征 (44)3.2.4 变项可替换度 (44)3.3 构式常项信息 (44)3.3.1 常项序位 (44)3.3.2 常项句法特征 (44)3.3.3 常项语义特征 (44)3.4 构式内部成分约束关系 (45)3.4.1 变项间关系 (45)3.4.2 常项与变项间关系 (45)3.4.3 组块关系 (45)3.5 构式整体句法属性 (45)3.5.1 构式的句法功能范畴 (45)3.5.2 构式的句法功能分布特征 (48)3.6 构式整体语义属性 (49)3.6.1 字面义 (49)3.6.2 交际义 (49)3.6.3 语义识解机制 (50)3.7 构式整体语用属性 (56)3.7.1 感情色彩 (56)3.7.2 语体色彩 (56)3.7.3 领域限制 (56)3.7.4 上下文环境 (56)3.8 构式研究文献 (56)§4 构式知识库填写工作中常见问题举例 (58)4.1 是词还是构式 (58)4.2 是短语还是构式 (61)4.3 变项的概括度:“a+中+的+a”还是“X+中+的+X” (64)4.4 变项的概括度:“n1+的+n2+v+得+a”还是“np+v+得+X” (65)4.5 变项的概括度:m+q 还是qp (66)4.6 构式形式是否最简 (66)4.7 “构式变体”与“近义构式” (67)4.8 构式实例的形式与意义要求 (67)4.9 半凝固型构式中变项不应超过两项 (68)参考文献 (69)3致 谢本规范的研究工作得到教育部人文社科重点研究基地重大项目“现代汉语构式知识库建设及其应用研究”(13JJD740001),国家社科基金重大项目“汉语国际教育背景下的汉语意合特征研究与大型知识库和语料库建设”(12&ZD175)和国家社科基金面上项目“语言知识资源的可视化技术研究”(12BYY061),以及国家重点基础研究发展计划“融合三元空间的中文语言知识与世界知识获取和组织”(2014CB340504)资助,特此致谢。
国家语委现代汉语通用平衡语料库标注语料库数据及使用说明肖航教育部语言文字应用研究所1. 国家语委现代汉语通用平衡语料库1.1 语料库全库国家语委现代汉语通用平衡语料库全库约为1亿字符,其中1997年以前的语料约7000万字符,均为手工录入印刷版语料;1997之后的语料约为3000万字符,手工录入和取自电子文本各半。
语料库的通用性和平衡性通过语料样本的广泛分布和比例控制实现。
语料库类别分布如下所示:1.2 标注语料库标注语料库为国家语委现代汉语通用平衡语料库全库的子集,约5000万字符。
标注是指分词和词类标注,已经经过3次人工校对,准确率大于>98%。
语料库全库按照预先设计的选材原则进行平衡抽样,以期达到更好的代表性。
标注语料库在样本分布方面近似于全库,不破坏语料选材的平衡原则。
标注语料库类别分布如下所示:标注语料库与全库的样本分布比较如下所示:(蓝色曲线为语料库全库;红色曲线为标注语料库)2. 国家语委现代汉语通用平衡语料库语料选材与样本分布2.1 选材原则依据材料内容,选材大体作如下分类:(下文字数为建库时数据)2.1.1 教材大中小学教材单作一类,约2000万字。
2.1.2 人文与社会科学的语言材料约占全库的60%,共3000万字,包括:·政法(含哲学、政治、宗教、法律等);·历史(含民族等)·社会(含社会学、心理、语言、教育、文艺理论、新闻学、民俗学等);·经济;·艺术(含音乐、美术、舞蹈、戏剧等);·文学(含口语);·军体;·生活(含衣食住行等方面的普及读物)。
2.1.3 自然科学(含农业、医学、工程与技术)的语言材料,应涉及其发展的各个领域。
拟从大、中、小学教材和科普读物中选取。
其中,科普读物约占6%,共300万字。
教材字数另计。
2.1.4 报刊。
以1949年以后正式出版的由国家、省、市及各个部委主办的报纸和综合性刊物为主,兼顾1949年以前的报纸和综合性刊物。
nlp标注规则摘要:一、前言二、NLP 标注规则概述1.标注的基本概念2.标注的重要性三、标注规则的具体内容1.文本分词2.词性标注3.命名实体识别4.关键词提取5.语义分析四、标注工具与方法1.常用标注工具2.标注方法与技巧五、标注过程中的挑战与应对策略1.标注质量的保障2.标注效率的提升3.标注数据的保密性与合规性六、总结与展望正文:一、前言随着人工智能、大数据等技术的发展,自然语言处理(NLP)逐渐成为研究的热点。
NLP 通过对文本进行分析和理解,使得计算机能够更好地理解和处理人类语言。
在NLP 领域,标注规则作为基础工作,对于提高模型准确性和性能至关重要。
本文将详细介绍NLP 标注规则的相关内容。
二、NLP 标注规则概述1.标注的基本概念标注是指在文本中,根据一定的规则和标准,将文本中的词语、句子等赋予特定的标签或属性。
例如,对文本进行分词,将词语进行切分,便于后续进行分析。
2.标注的重要性标注对于NLP 任务的重要性不言而喻。
只有通过高质量的标注数据,才能使得模型具有更高的准确性和泛化能力。
标注工作涉及到文本处理、词性标注、命名实体识别、关键词提取等多个方面。
三、标注规则的具体内容1.文本分词文本分词是将连续的文本切分成有意义的词语,便于进行词性标注、命名实体识别等操作。
常用的分词算法有正向最大匹配、逆向最大匹配、双向最大匹配等。
2.词性标注词性标注是对文本中的词语进行分类,如名词、动词、形容词等。
这有助于理解句子结构,为后续分析提供便利。
3.命名实体识别命名实体识别(NER)是指识别文本中具有特定意义的实体,如人名、地名、组织名等。
这有助于提取文本的关键信息,提高信息检索的效率。
4.关键词提取关键词提取是从文本中筛选出具有代表性的词语,以简洁的方式概括文本内容。
关键词提取在信息检索、文本摘要等任务中具有重要意义。
5.语义分析语义分析是理解文本含义的过程,涉及到词义消歧、依存关系解析等多个方面。
汉语句法树库标注体系∗周强清华大学计算机系智能技术与系统国家重点实验室北京100084zhouq@摘要:语料库的句法标注是语料库语言学研究的前沿课题。
本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。
它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。
目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。
在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。
关键词:句法树库,标注规范,语料库语言学Annotation Scheme for Chinese TreebankZHOU QiangState Key Laboratory of Intelligent Technology and SystemsDept. of Computer Science and TechnologyTsinghua University, Beijing 100084zhouq@ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and∗本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。
汉语框架语义知识库及软件描述体系郝晓燕;刘伟;李茹;刘开瑛【摘要】汉语框架网络工程是以框架语义学为理论基础的基于语料库的计算词典编纂工程,用于语言学、计算语言学研究及自然语言处理研究.该工程的结果包括两部分: 汉语框架语义知识库(即词典资源)和相关软件.其中,汉语框架网络知识库包括框架库、句子库和词元库三部分,相关软件主要包括汉语框架语义知识库管理系统和基于Web的展示系统.本文介绍了汉语框架语义知识库的语义描述体系以及软件描述体系.【期刊名称】《中文信息学报》【年(卷),期】2007(021)005【总页数】6页(P96-100,138)【关键词】计算机应用;中文信息处理;汉语框架网络;框架语义;描述体系;软件【作者】郝晓燕;刘伟;李茹;刘开瑛【作者单位】太原理工大学,计算机与软件学院,山西,太原,030024;山西大学,计算机与信息技术学院,山西,太原,030006;山西大学,计算机与信息技术学院,山西,太原,030006;山西大学,计算机与信息技术学院,山西,太原,030006【正文语种】中文【中图分类】TP391汉语框架网络工程是以框架语义学为理论基础的基于语料库的计算词典编纂工程,用于语言学、计算语言学研究及自然语言处理研究。
该工程的结果包括两部分:汉语框架语义知识库(Chinese FrameNet database,简称CFN)[1](即词典资源)和相关软件。
汉语框架语义知识库包括框架库、句子库和词元库三部分。
相关软件主要包括汉语框架语义知识库管理系统和基于Web的展示系统。
汉语框架语义知识库(CFN)是一个以Fillmore的框架语义学[2,3]为理论基础、以加州大学伯克利分校的FrameNet[4]为参照、以汉语真实语料为依据的供计算机使用的汉语词汇语义知识库,研究内容涉及语义知识库内容的编写、辅助软件的开发和应用研究等。
汉语框架语义知识库(CFN)由框架库、句子库和词元库三部分组成。
汉语句法语义链接知识库的信息标注规范(Ver2.2)周强清华大学计算机系智能技术与系统国家重点实验室北京100084zq-lxd@1.研究概述句法语义链接知识库的开发目标,是通过利用情境语义知识库对词汇关联库中的关联对进行情境表达式和参量锚定信息标注,在词汇层面上建立起句法关系与谓词-论元结构之间的内在联系。
这样一方面可以通过对大规模真实文本词汇关联对的深入分析,不断改进和完善现有情境语义知识库描述。
另一方面,词汇关联库作为一个浓缩的事件信息描述语料库,对其中信息的情境语义标注实践可以为下一阶段进行大规模真实文本句子的事件内容信息标注积累宝贵的处理经验。
2.基本知识库2.1 词汇关联知识库我们目前的词汇关联知识库主要描述汉语中任意两个实义词在真实文本句子中可能形成的各种句法关系组合。
目前主要定义了以下8种句法关系:1)定中关系(DZ);2)状中关系(ZZ);3)述宾关系(PO);4)述补关系(SB);5)主谓关系(ZW);6)并列关系(LH);7)连谓关系(LW);8)介宾关系(JB)。
涉及到的词语的词类标记主要有以下几类:1)名词(N);2)动词(V);3)形容词(A);4)副词(D);5)助动词(M);6)介词(P);7)量词(Q);8)其他(O)。
主要数据来源是以下几个语言资源库:1)语义关联网(SN);2)汉语句法树库(TCT);3)语义骨架标注语料库(SKT);4)北大语法信息词典(BD)。
将以上不同来源的词汇关联对数据进行汇总,我们共得到约96万个词汇关联对描述,它们形成了我们进行句法语义链接处理的基础数据。
下面列出了从这个汇总的词汇关联对库中提取出的动词‘有’相关的几个词汇关联对描述实例:有活力PO SKTV N * 4V N * 1有活力ZW SKTV N 了 1有活气 POTCTV N * 2有活性PO TCTV N * 1有火车PO TCT1V N JY1有火车PO TCT其描述格式为:<中心词语> <关联词语> <关系标记> <来源信息> <中心词类标记> <关联词类标记> <分隔信息> <出现频度>。
其中的词语信息使用了以下4类特殊标记:1)HUM:表示人名或人称代词2)ORG:表示机构名;3)SPA:表示地点名;4)NUM:表示数字;<分隔信息>主要描述这个关联对在句子中出现时可能包含的中间句法功能分隔成分,按照不同的关系类型分别包含以下信息:1)定中关系:主要包括以下情况:结构助词‘的’、‘之’等;粘合式述宾结构作定语,提取其中的宾语词汇,用‘0-<宾语>’表示,如从“[np-DZ [vp-PO无烟] 煤]”中,可以提取出下面的词汇关联对:“煤无 DZTCT N V O-烟 1”;2)状中关系:主要包括以下情况:结构助词‘地’;介宾结构作状语,提取其中的宾语中心词作为关联词,而把介词作为分隔信息;3)述宾关系:主要包括以下情况:时态助词‘了、着、过’等;粘合式述补结构作谓语时的补语信息,用‘B-<补语>’表示;不同的谓词性宾语:用‘0’表示动词短语作宾语;用‘S’表示小句作宾语;分隔标点‘,’等;4)述补关系:结构助词‘得’、分隔副词‘不’等;5)主谓关系:分隔标点‘,’等;6)并列关系:分隔标点‘、’、‘,’和并列连词等;7)连谓关系:时态助词‘着’等;另外,我们对TCT中出现的兼语结构“vp1 np vp2”,进行了特殊处理,提取了以下3个词汇关联对,在<分隔信息>项中分别使用‘JY1’、‘JY2’、‘JY3’信息进行区分,即:Æ PO, JY11) vp1npÆ ZW, JY22) npvp2Æ LW, JY3vp23) vp1需要注意的是,这种以中心词为核心的组织方式,会使‘定中’、‘状中’和‘主谓’词汇关联对产生顺序倒置情况。
另外,从这些实例中,我们还看到,许多词语可以以不同的句法关系组合在动词‘有’的左右位置上出现,体现出不同的句式意义。
它们是否描述同样的情境语义,在许多情况下可能需要返回到原始的真实文本句子中才能准确判断。
2.2 情境语义知识库我们的情境语义知识库主要使用了情境表达式和参量锚定机制相结合的处理策略对汉语句子中的动词和句式中隐含的基本事件内容给出初步描述。
其中,情境表达式采用了二阶谓词逻辑描述形式,通过引入谓词参量,大大提高了对不同事件内容描述的灵活性和有效性。
参量锚定机制则是将情境表达式中的不同参量与真实文本句子中的主要信息描述单元,包括V块、N块等联系起来的重要手段,据此方便地建立起抽象的情境表达式与具体的句子描述实例组之间的内在联系,形成针对不同句子描述的事件内容的完整解释。
目前的描述重点是汉语中表示拥有关系和存在状态及其变化转移的相关动词和典型句式,希望通过上面提出的情境表达式和参量锚定机制相结合的处理策略,对其中的每个动词和句式给出一个情境表达式和必要的内部参量锚定描述,形成基础的情境语义知识库数据文件。
目前初步总结的情境语义知识库包含动词词条3380个,相应义项数为3678个,句式描述2个(存现句式+转移句式)。
下表给出几个动词义项的情境语义描述实例:动词情境编码情境表达式内部参量锚定有 H1-1-1 have(x,y) NULL开始 L3-4-1 DO(x,P(x,y))_CAUSE_begin(y,L) [P=Start]进行 L3-4-3 DO(x,P(x,y))_CAUSE_begin(y,L) [P=Conduct]发展 H3-3-1-1DO(x,P(x,y))_CAUSE_contain(z,y) [P=Recruit,y=x] 停止 L1-5-1 end(x,L) [L=tim]出现 E1-2-1 appear(x,L) [L=loctim]形成 E3-1-1-5DO(x,P(x,y))_CAUSE_exist(y,L) [P=Form]没有 H1-1-2 NOT_have(x,y) NULLNULL 得到 H2-1-1 do(x,~)_CAUSE_(have(x,y)_&_NOT_have(z,y))生产 E3-1-1-2DO(x,P(x,y))_CAUSE_exist(y,L) [P=Produce]其中的情境编码描述格式为:<情境代码> <描述层次> - <谓词代码> [-<层次编码>] - <内部序号>,相关内容分别说明如下:1)情境代码:分别使用‘H’、‘E’、‘L’表示拥有关系、基本存在状态和生命期状态的相关情境类别;2)描述层次:不同的事件内容描述层次,取值[1-3],其中:z1---静态的关系或状态描述或系统定义的基本谓词描述事件;z2---具有时间阶段性(+telic)的离散动作行为事件,由元谓词do引导;z3---具有时间连续性(-telic)的动作行为事件,由元谓词DO 引导;3)谓词代码:分为以下两种情况:z对基本谓词,按照从1开始的顺序排列,本原谓词排在最前面;z对扩展谓词,采用与之相关联的基本谓词序号代码;4)层次编码:对一组意义相关的扩展谓词,进行分组层次编码。
此部分内容可以为空;5)内部序号:同一类别内部的不同义项的顺序编号,从1开始计数;情境表达式由基本事件描述式和运算符组成,其中:基本事件描述式采用了常用的谓词-论元结构来描述基本事件内容,具体定义式为:<基本事件描述式> ::= <谓词> ( <论元1>, <论元2>, … <论元n> )这里的谓词主要包括以下几类:1)元谓词:目前体系中主要使用了两个元谓词:do和DO,来对不同的动作行为事件给出描述。
它们的主要差别在于:z do谓词侧重描述了具有时间阶段性(+telic)的离散动作行为事件,它更强调了动作行为结束后形成的关系或状态,其基本形式为:do(x, ~)。
其下又可分为两种情况,目前我们不对其进行细分,在以后条件成熟时,可以进行更深入的分析:经过了一个瞬间的动作行为过程,形成一个静态关系或状态(Achievement)经过了一个阶段性的动作行为过程,形成一个静态关系或状态(Accomplishment)z而DO谓词则侧重描述一般的具有时间连续性(-telic)的动作行为,它更强调了动作行为的动态性和连续性,其基本形式为:DO(x, E),表示x做一件事情E。
这两个元谓词在描述动态的行为动作事件的情境表达式中将发挥重要作用;2)基本谓词:主要包括一些静态关系和状态的描述谓词,它们直接进入情境表达式,形成了事件的基本描述内容,因此称为基本谓词。
在我们目前的体系中,基本谓词通过小写的英文字符串表示,如:have, existence等;3)扩展谓词:主要包括一些动态行为和动作的描述谓词,它们一般以内部锚定参量形式,通过与元谓词描述式中的基本事件发生锚定作用而进入情境表达式,因而具有很大的灵活性,称为扩展谓词。
在我们目前的体系中,扩展谓词通过以大写字母开始的英文字符串表示,如:Take, Give等;论元一般通过参量的形式表现出来,典型的参量形式为:x, y, z …我们体系中的参量分为两大类:谓词参量和论元参量,它们分别对应于上面基本事件描述式中的谓词和论元描述。
在具体应用中,对参量的一个重要的操作是参量锚定,即将情境表达式中的不同参量与真实文本句子中描述不同实体的常量建立内在联系,从而将情境表达式转化为针对真实文本句子的完整事件描述。
在我们目前的体系中,锚定操作通过‘=’表示,具体定义式为:<参量锚定> ::= [ <参量> = <锚定常量> ],如:[x=我]。
同时,定义了以下两个特殊的锚定操作:1)内部参量锚定,包括两种情况a)内部谓词参量锚定,如:“取do(x,P(x,y))_CAUSE_(have(x,y)_&_NOT_have(z,y)) [P=Take]”,其中通过谓词参量锚定“[P=Take]”引入扩展谓词Take,对相应事件发生的动作起因给出了细致描述;b)内部论元参量锚定,如:“参军 do(x,~)_CAUSE_contain(z,y) [z=INF, x=y]”,其中通过论元参量锚定“z=INF”表示相应的包含者信息‘z’已经在词语“参军”内部隐含了。
2)同指锚定,主要用于情境表达式内部各个参量之间同指关系的描述,如:上面的“参军”例子中的“x=y”就表示两个参量指向同一个描述实体。
需要特别注意的是,在目前的体系中,我们对反映事件基本内容的时空参量进行了具体区分,形成以下三个特殊参量描述:1)loc: 空间场合描述2)tim: 时间场合描述3)loctim:时空场合描述这些特殊参量将在不同时空环境下的存在状态描述中发挥重要作用。