分词词性标注语料库计划任务完成情况-中文语言资源联盟
- 格式:doc
- 大小:731.00 KB
- 文档页数:10
中文分词和词性标注联合模型综述作者:赵芳芳蒋志鹏关毅来源:《智能计算机与应用》2014年第03期收稿日期:2014-05-09基金项目:国家自然科学基金(60975077)。
作者简介:赵芳芳(1990-),女,河南许昌人,硕士研究生,主要研究方向: 自然语言处理;蒋志鹏(1985-),男,黑龙江七台河人,博士研究生,主要研究方向: 自然语言处理;关毅(1970-),男,黑龙江宁安人,博士,教授,博士生导师,主要研究方向: 用户健康信息学、网络挖掘、自然语言处理等。
摘要:中文分词和词性标注任务作为中文自然语言处理的初始步骤,已经得到广泛的研究。
由于中文句子缺乏词边界,所以中文词性标注往往采用管道模式完成:首先对句子进行分词,然后使用分词阶段的结果进行词性标注。
然而管道模式中,分词阶段的错误会传递到词性标注阶段,从而降低词性标注效果。
近些年来,中文词性标注方面的研究集中在联合模型。
联合模型同时完成句子的分词和词性标注任务,不但可以改善错误传递的问题,并且可以通过使用词性标注信息提高分词精度。
联合模型分为基于字模型、基于词模型及混合模型。
本文对联合模型的分类、训练算法及训练过程中的问题进行详细的阐述和讨论。
关键词:中文分词; 中文词性标注; 联合模型中图分类号:TP391文献标识码:A文章编号:2095-2163(2014)03-0077-04The Review on the Joint Model of Chinese Word Segmentationand Part-of-speech TaggingZHAO Fangfang, JIANG Zhipeng, GUAN Yi(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)Abstract:Chinese word segmentation and part-of-speech (POS) tagging task as an initial stepfor Chinese natural language processing, has been widely studied. Due to the lack of Chinese sentences word boundary, the Chinese POS tagging task is often completed with the pipeline approach: firstly, perform Chinese word segmentation, and then use the results of the prior stage to tag the Chinese sentence. However, in the pipeline approach, word segmentation phase errors will be passedto the POS tagging stage, thereby reducing the accuracy of POS tagging. In recent years, the research on Chinese POS tagging focused on the joint model. The joint model perform both word segmentation and POS tagging in a combined single step simultaneously, through which the error propagation can be avoided and the accuracy of word segmentation can be improved by utilizing POS information. There are character-based methods, word-based methods, and hybrid methods. In this paper, the three kinds of joint model, the training algorithm and the problems through the processing will be introduced in detail.Key words:Chinese Word Segmentation; Chinese Part-of-speech Tagging; Joint Model0引言由于中文词与词之间没有自然界定,分词即成为中文自然语言处理的必要步骤。
中文分词与词性标注技术研究与应用中文分词和词性标注是自然语言处理中常用的技术方法,它们对于理解和处理中文文本具有重要的作用。
本文将对中文分词和词性标注的技术原理、研究进展以及在实际应用中的应用场景进行综述。
一、中文分词技术研究与应用中文分词是将连续的中文文本切割成具有一定语义的词语序列的过程。
中文具有词汇没有明确的边界,因此分词是中文自然语言处理的基础工作。
中文分词技术主要有基于规则的方法、基于词典的方法和基于机器学习的方法。
1.基于规则的方法基于规则的中文分词方法是根据语法规则和语言学知识设计规则,进行分词操作。
例如,按照《现代汉语词典》等标准词典进行分词,但这种方法无法处理新词、歧义和未登录词的问题,因此应用受到一定的限制。
2.基于词典的方法基于词典的中文分词方法是利用已有的大规模词典进行切分,通过查找词典中的词语来确定分词的边界。
这种方法可以处理新词的问题,但对未登录词的处理能力有所限制。
3.基于机器学习的方法基于机器学习的中文分词方法是利用机器学习算法来自动学习分词模型,将分词任务转化为一个分类问题。
常用的机器学习算法有最大熵模型、条件随机场和神经网络等。
这种方法具有较好的泛化能力,能够处理未登录词和歧义问题。
中文分词技术在很多自然语言处理任务中都起到了重要的作用。
例如,在机器翻译中,分词可以提高对齐和翻译的质量;在文本挖掘中,分词可以提取关键词和构建文本特征;在信息检索中,分词可以改善检索效果。
二、词性标注技术研究与应用词性标注是给分好词的文本中的每个词语确定一个词性的过程。
中文的词性标注涉及到名词、动词、形容词、副词等多个词性类别。
词性标注的目标是为后续的自然语言处理任务提供更精确的上下文信息。
1.基于规则的方法基于规则的词性标注方法是根据语法规则和语境信息,确定每个词语的词性。
例如,根据词语周围的上下文信息和词语的词义来判断词性。
这种方法需要大量的人工制定规则,并且对于新词的处理能力较差。
中文分词及词性标注中领域自适应的研究的开题报告一、研究背景及意义随着互联网的迅速发展,文本数据的规模和复杂度不断增加,需要从大量的文本数据中提取或发现有用的信息。
自然语言处理技术是处理文本数据的重要手段之一,其中中文分词与词性标注是许多自然语言处理领域的基础任务。
中文分词是将汉字序列切分成有意义的词语序列的过程,而词性标注则是为分词结果中的每个词语标注其所属的词性类别,如动词、名词、形容词等。
中文分词及词性标注是文本数据处理、信息提取、自然语言理解等领域的关键技术。
然而,由于中文的特殊性质,中文分词及词性标注面临着一些挑战。
中文语言具有较为丰富的拼音声调和不同汉字间的复杂联系,因此识别和切分词语变得十分困难。
此外,不同领域中的中文文本所包含的词汇表、多义词等方面的差异也会给中文分词及词性标注带来一定的影响。
因此,为了提高中文分词及词性标注的准确率和效率,我们需要研究一种领域自适应的中文分词及词性标注算法,旨在让系统能够根据不同领域的需求自动调整模型参数,提高识别和切分词语的准确度。
二、研究问题及方法本研究旨在解决中文分词及词性标注在不同领域中遇到的问题,提出一种领域自适应的中文分词及词性标注算法。
具体而言,本研究将采用以下方法:1. 建立不同领域的语料库。
本研究将收集针对不同领域的中文文本数据,如新闻、法律、医学、金融、科技等,建立相应的语料库。
2. 分析不同领域的词汇差异。
通过对收集到的不同领域语料库进行分析,了解不同领域各自所包含的词汇表、多义词、特定领域术语等方面的差异。
3. 设计领域自适应的中文分词及词性标注算法。
本研究将综合考虑上述不同领域的词汇差异,设计一种领域自适应的中文分词及词性标注算法,使其能够根据不同领域的需求自动调整模型参数,提高识别和切分词语的准确度。
4. 实验验证算法效果。
本研究将采用现有的中文分词及词性标注算法作为对比,通过实验验证本研究提出的领域自适应的中文分词及词性标注算法的效果。
中文信息基础资源库平台-- 中文语言资源联盟谢萦中国科学院计算技术研究所(100190)陶建华中国科学院自动化研究所(100190)一、概述中文信息处理是自然语言信息处理的一个重要分支,它集成了计算机科学、语言学、信息学等众多领域,分为汉字信息处理与汉语信息处理两部分。
其研究领域包括:分词、句法分析、语义分析、信息检索、文本校对、机器翻译、语音识别与合成、对话系统等。
在中文信息处理上,从小规模受限语言处理走向大规模真实文本处理,是一个意义深远的里程碑式的转折,语料库方法和统计语言模型已经是当前中文信息处理的主流技术。
基础资源库被认为是目前开展以中文为核心的多语言信息处理技术研究与产品开发的最为重要的基础。
中文信息资源库是以中文信息处理为基础的学科中非常重要的支撑平台,目前资源库得建设受到国内外学术机构的普遍重视。
为推动中文信息处理技术的发展,加快基础资源库的建设和共享工作,中科院计算所和中科院自动化所在863重点项目和973项目支持下,共同发起成立了学术性、公益性、非盈利性的资源共享平台--中文语言资源联盟(ChineseLDC,简称CLDC)。
该平台涵盖中文信息处理多个层面上所需要的语言语音资源,包括词典、各种语音语言语料库、工具等。
在建立和收集语言资源的基础上,形成系列化的标准和规范,推荐给用户。
在建立和收集资源的同时,分发资源,服务于教育、科研、政府研究部门和工业技术开发,为汉语语言信息处理的基础研究和应用开发提供支持。
二、中文信息资源库的特点中文信息资源库是由多个中文语料库组成的,每个中文语料库都保持传统意义上的数据库的功能,但是每一个中文语料库又根据其研究领域的不同、计算方法的不同有着自己特定的数据结构。
这些语料库是面向中文信息处理技术研究和开发的专业语料库,语料库的设计与开发注重专业人士的需求,标准化和个性化的共存,在科学研究中一些语料库渐渐的演变成为标准的数据格式。
在中文语言资源联盟中,所有的语料库都是动态的,其动态性表现在以下几个方面:库容量随着时间的变化不断扩大;每个时间段选取的语料数量也是变化的;语料的抽取是分领域的,通用领域和各专业领域的语料是共存的;语料是根据媒体的流通情况抽取的。
如何利用机器翻译技术进行语言资源和语料库的构建和管理引言:机器翻译技术的发展为语言资源和语料库的构建和管理提供了一个高效而可行的解决方案。
本文将介绍,包括数据获取、数据清洗与标注、数据整合与管理等环节。
一、数据获取在构建和管理语言资源和语料库之前,首先需要获取大量的原始文本数据。
文本数据可以来源于各种渠道,如互联网、书籍、报纸等。
一些常见的数据获取方法包括:1. 网络爬虫:通过编写网络爬虫程序,可以从互联网上获取大量的文本数据。
爬虫程序可以针对特定网站进行定制,也可以利用搜索引擎进行全网搜索。
爬虫获取到的数据可以直接进行后续处理,也可以通过机器翻译技术进行预处理。
2. 数据库查询:许多机构和组织都有自己的文本数据库,这些数据库中包含了丰富的语料资源。
可以通过数据库查询语言(如SQL)来获取想要的数据。
3. 公开数据集:一些研究机构和组织公开了一部分自己收集的语料资源,例如语言资源联盟(Linguistic Data Consortium,简称LDC)就提供了大量的语言资源供研究者使用。
二、数据清洗与标注获取到的原始文本数据通常存在各种噪声和冗余信息,需要进行数据清洗和标注,以便后续的处理和分析。
数据清洗与标注的主要任务包括:1. 去除噪声:原始文本数据中可能包含各种乱码、特殊符号、非文本内容等噪声信息,需要利用文本处理技术进行去除。
常见的文本处理技术包括正则表达式、自然语言处理技术等。
2. 分词与词性标注:对原始文本进行分词和词性标注是语料库构建的基础。
分词将连续的文本划分为独立的词汇单位,而词性标注则将每个词汇赋予相应的词性标签,例如动词、名词等。
分词和词性标注可以利用机器学习和统计模型进行自动化处理。
3. 语义标注与命名实体识别:除了词性标注,还可以对文本进行语义标注和命名实体识别。
语义标注将文本中的每个词汇赋予相应的语义标签,例如人名、地名、组织名等;命名实体识别则是从文本中识别并提取出具有特定意义的实体,例如人物、地点等。
词性标注实验报告词性标注实验报告引言:词性标注是自然语言处理中的一项重要任务,它的目标是将给定的文本中的每个词语赋予相应的词性。
词性标注在许多自然语言处理任务中起着关键作用,如文本分类、机器翻译、信息检索等。
本文将介绍我们进行的词性标注实验,包括实验设计、数据集选择、模型选择和实验结果分析等。
实验设计:为了进行词性标注实验,我们选择了一份中文新闻语料作为实验数据集。
该数据集包含了大量的新闻文本,涵盖了各种不同的主题和领域。
我们将数据集按照80%的比例划分为训练集和20%的比例划分为测试集。
在实验中,我们采用了基于深度学习的词性标注模型进行实验。
数据集选择:选择合适的数据集对于实验的准确性和可靠性至关重要。
我们选择了这份中文新闻语料作为我们的实验数据集,原因有以下几点:首先,新闻语料通常具有较高的质量和丰富的领域覆盖范围,能够有效地评估模型的泛化能力。
其次,中文新闻语料在词性分布上具有一定的规律性,有助于模型学习和预测。
最后,该数据集的规模适中,既能满足实验需求,又能保证实验的可行性。
模型选择:在词性标注任务中,我们选择了基于深度学习的模型进行实验。
深度学习在自然语言处理领域取得了显著的成果,其强大的模型表达能力和自动特征学习能力使得其在词性标注任务中具有优势。
我们选择了基于循环神经网络(RNN)的模型,因为RNN能够有效地处理序列数据,并且能够捕捉到词语之间的上下文信息,有助于提升词性标注的准确性。
实验结果分析:我们使用了准确率作为评估指标来评估我们的词性标注模型的性能。
在实验中,我们得到了约90%的准确率,这表明我们的模型在词性标注任务上取得了较好的效果。
通过对实验结果的分析,我们发现模型在一些常见的词性上表现较好,如名词、动词等,但在一些特殊的词性上表现较差,如助词、连词等。
这可能是因为这些特殊的词性在数据集中的分布较少,导致模型学习不充分。
因此,在未来的研究中,我们可以考虑增加这些特殊词性的样本数量,以提升模型在这些词性上的性能。
Jieba中文分词(二)——词性标注与关键词提取jieba分词上一篇jieba中文分词(一)分词与自定义字典已介绍了jieba中文分词安装,分词原理,分词方法,自定义字典,添加字典等多种常用分词方法。
本篇将继续介绍jieba分词关键词提取、词性标注、及常见问题。
关键词提取关键词提取,将文本中最能表达文本含义的词语抽取出来,有点类似于论文的关键词或者摘要。
关键词抽取可以采取:•有监督学习:•文本作为输入,关键词作为标注,进行训练得到模型。
此方法难点在于需要大量人工标注。
•无监督学习:•先抽取出候选词,对每个候选词打分,取出前K个分值高的作为最后的关键词。
jieba分词实现了基于TF-IDF和基于T extRank的关键词抽取算法。
基于 TF-IDF 算法的关键词抽取基于TF-IDF的关键词抽取算法,目标是获取文本中词频高,也就是TF大的,且语料库其他文本中词频低的,也就是IDF大的。
这样的词可以作为文本的标志,用来区分其他文本。
1.import jieba.analyse2.jieba.analyse.extract_tags(sentence,3.topK=20,4.withWeight=False,5.allowPOS=())sentence: 为待提取的文本topK: 为返回几个TF/IDF 权重最大的关键词,默认值为 20withWeight: 为是否一并返回关键词权重值,默认值为 FalseallowPOS: 仅包括指定词性的词,默认值为空,即不筛选代码示例:1.import jieba2.import jieba.analyse3.4.topK = 55.file_name = 'test.txt'6.'''7.test.txt8.西三旗硅谷先锋小区半地下室出租,便宜可合租硅谷9.工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作10.'''11.with open(file_name, 'rb') as f:12.content = f.read()13.14.tags = jieba.analyse.extract_tags(content, topK=to pK)15.print(', '.join(tags))16.print('*'*40)17.18.# 关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径19.jieba.analyse.set_idf_path('../extra_dict/idf.txt.big');20.tags = jieba.analyse.extract_tags(content, topK=topK)21.print(', '.join(tags))22.print('*'*40)23.24.# 关键词提取所使用停止词文本语料库可以切换成自定义语料库的路径25.jieba.analyse.set_stop_words('../extra_dict/stop_w ords.txt')26.jieba.analyse.set_idf_path('../extra_dict/idf.txt.big');27.tags = jieba.analyse.extract_tags(content, topK=to pK)28.print(', '.join(tags))29.print('*'*40)30.31.# 关键词一并返回关键词权重值示例32.withWeight = True33.tags = jieba.analyse.extract_tags(content, topK=to pK, withWeight=withWeight)34.for tag in tags:35.print('tag: %s\t\t weight: %f' % (tag[0],tag[1]))硅谷, 西三旗, 工信处, 女干事, 24硅谷, 西三旗, 先锋, 小区, 合租硅谷, 西三旗, 先锋, 小区, 合租tag: 硅谷 weight: 1.039545tag: 西三旗 weight: 0.519773tag: 先锋 weight: 0.519773tag: 小区 weight: 0.519773tag: 合租 weight: 0.519773基于 TextRank 算法的关键词抽取1.jieba.analyse.textrank(sentence,2.topK=20,3.withWeight=False,4.allowPOS=('ns', 'n', 'vn', 'v'))sentence: 为待提取的文本topK: 为返回几个权重最大的关键词,默认值为 20withWeight: 为是否一并返回关键词权重值,默认值为 FalseallowPOS: 仅包括指定词性的词,默认过滤词性算法论文:T extRank: Bringing Order into Texts[1]一般步骤:•先将文本进行分词和词性标注,将特定词性的词(比如名词)作为节点添加到图中。
当代汉语文本语料库分词、词性标注工作报告项目名称:中文语料库建设子项名称:分词词性标注语料库承担单位:山西大学计算机科学系负责人:杨尔弘分词词性标注语料库是进行汉语信息处理的重要基础资源。
而语料库所采集的数据、分词词性标注的规范、加工过程的规范性以及相应的语料库管理系统从本质上决定了语料库的质量、代表性、复用性以及提供的信息的可靠性。
2002年10 月,我单位承担了中文语料库建设的子项目:分词与词性标注语料库的研制任务。
按照研究目标:建成带有完整词类标记的当代汉语通用语料库。
选取了2002年媒体上流通的文本,力求表现当代语言的最新面貌。
针对信息处理的特点,研究确定了本次加工的规范,按照规范采用人机结合的方法,加工完成了500万汉字语料的分词、标注任务,并对歧义切分、未登陆词语(专有名词与普通新词语)、兼类词进行了全面的检验。
经过近一年的工作,按计划完成了课题的任务。
我们主要进行了如下的研究工作:1.完成了500万语料的收集、整理、分类工作。
2.研究制定了符合信息处理用的汉语分词与词性标注规范。
3.按照加工规范,全面审核了支持自动分词和自动词性标注的词表。
4.开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。
5.对语料库加工中的难点问题进行了收集、分析,确定了下一步的研究内容1.500万语料的收集、整理、分类工作我们首先进行了语料的收集、选择、分类、预处理。
1)语料选材原则·力求反映当代汉语的最新面貌。
·从主题、体裁、来源三个方面综合考虑·以自然段落为准,而不是以文章长度为准。
避免选取过长或过短的文章,但在选取文章后,随自然段截取样本。
这样作可以得到较完整的语言信息的内容。
2)语料来源语料来源于电子报刊、电子杂志以及杂志的电子版·文学网站·普通网站·特选专题3)抽样原则与方法·抽样原则时间性:2002年流通的文本普遍性:传播率较高,流通时间较长的文本完整性:2000字以下全篇采用,其余按比例、按自然段截取。
·具体的选材方法:根据文本的属性特点,决定选择的部位及内容。
4)文本属性描述·每个文本的属性:主题、体裁、来源(媒体名称、所在位置)、时间、标题5)语料的分布情况按照上述选材原则和方法,目前产生的语料库包含的文本个数为3100篇,总共包含的字数为6,058,115个。
按体裁和主题分布情况如表1、表22.研究制定了符合信息处理用的汉语分词与词性标注的加工规范。
1)加工规范的制定山西大学从1988 年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》《现代汉语语料库文本词性体系》。
这次承担973任务后,与语用所、清华大学、北京大学的有关专家进行了讨论,同时,参照国内已有的相关规范,制定出《973当代汉语文本语料库分词、词性标注加工规范》。
本规范吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
2)制定加工规范参考的资料《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年,北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年,北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年,山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会8.《信息处理用现代汉语分词词表》规范,2003年,清华大学3)加工规范确定的词类标注体系《973当代汉语文本语料库分词、词性标注加工规范》的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,增加了部分细类,特别是对人名、地名等进行了细致的分类标注。
具体词类如下:(1)名词n:普通名词(n)时间名词(nt)方位名词(nd)处所名词(nl)人名(nh)汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)音译名或类音译名(nhy)日本人名(nhr)其他(nhw):如绰号,笔名,尊称等。
地名(ns)中国地名(nsh)*外国地名(nsy)*族名(nn)团体机构名(ni)其他专有名词(nz)(2)动词v:能愿动词(vu)*趋向动词(vd)*系动词(vl)*(3)形容词:性质形容词(aq)状态形容词(as)(4)区别词f(5)数词m(6)量词q(7)副词d(8)代词r(9)介词p(10)连词c(11)助词u(12)叹词e(13)拟声词o(14)习用语i动词性习用语(iv)*名词性习用语(in)*形容词性习用语(ia)*连词性习用语(ic)* (15)简称和略语j:动词性简称(jv)*名词性简称(jn)*形容词性简称(ja)* (16)前接成分h (17)后接成分k(18)语素字g(19)非语素字x(20)其它w:标点符号 (wp)非汉字字符串(ws)其他未知的符号(wu)3.按照加工规范,全面审核了支持自动分词和词性标注的词表本次语料加工任务使用的软件是山西大学开发的汉语自动分词和词性标注一体化软件——FC2000,支持该软件的词表规模为82501个词条。
为了更好的支持本次加工任务,我们按照加工规范,对分词词表进行了全面的审核。
收词原则遵循了清华大学《信息处理用现代汉语分词词表》规范。
注:地名未包含在词表中,所有地名单独形成一个库。
4.开发了人工校对的辅助系统,对自动分词和词性标注的结果进行了全面的人工校对。
1)辅助校对软件为了确保语料加工的质量,我们对所加工的语料逐词进行了两次人工校对,对歧义、专名、未登陆词、兼类词等进行了人工第三次校对。
并对词语的一致性问题进行了全面的检查,在保持词语切分一致性的基础上,对词语结构的一致性也作了一些工作,力求保证这500万语料中词语结构的一致。
为了保证人工校验的一致性,我们采用了机助人校的方式,为此开发了人工后处理校验平台,该平台具有如下的功能:a)歧义字段的采集、检验与修改b)词语切分和标注一致性检验c)词语的语境提取及语境归类d)实例提取及修改、替换e)兼类词的特别显示与修改2)人工校对后语料词语的分布情况目前,语料库包含的总词次数为3,440,248。
词语数共计96160条。
其中未登陆的普通词语为26467条,其中普通名词16343条,普通动词5005条,形容词818条,习用语1834条,简称847条,兼类词语914条。
在未登陆的普通名词中,大体分为如下几类:a)药名,如:银翘解毒片、冻疮膏b)某个国家+“人”等后缀,如:希伯来文、阿尔及利亚裔、奥尔梅克人c)食品名如:莴笋蕃茄全麦包d)与时事相关的词语,如:足总杯、秀场、准驾证、洲际弹道导弹e)术语,如:译码器、胰高血糖素f)一般词语,如:榨汁率未登陆的普通动词多为一般性词语,还有部分是带了后缀的,如:参数化。
其中包含专有名词的兼类词语的数量为3452条,普通兼类词的数量为2758条。
本次加工中,我们对机构名词和地点名词进行了嵌套的标注,共标注嵌套结构5948条,其分布为:这儿的组合歧义字段的个数还包含了按词性规定的分合字段。
比如对于“只是”这个词语,在语料加工中我们规定,当“只是”作为连词、副词时则为合的形式“只是c”、“只是d”,当为动词时,将其切分为“只 d 是 vl”,这样减少了词语的兼类情况,但又人为的造成了词语的合分两种情形。
从意义上讲,这种情况是不应当属于组合歧义的。
在本次语料加工过程中,我们对人名、地名、组织机构名、其他专名进行了比较详细的界定,按照此定义对语料中的命名实体进行了全面的审核。
具体规定参见标注规范。
5.对语料库加工中的难点问题进行了收集、分析,确定了下一步的研究内容在语料加工过程中,还需要进一步研究的内容:1)歧义的确定与解决歧义的处理是切分中的一个难点问题,其原因之一是歧义的发生是偶然的。
在这次语料加工过程中,我们收集了所有出现的歧义情况,并进行了分类,对这些歧义现象我们将进行进一步的分析,以期形成良好支持每一类歧义消解的知识资源,为今后的语料加工奠定基础。
2)词类的标注对于词类的标注,对兼类词的深入认识和词类体系的进一步细化是我们下一步的研究内容。
对于兼类词,名动兼类、名形兼类、动介兼类、形副兼类等问题在语料标注的过程中,很难形成统一的认识,因此词语标注的一致性很难保证。
此外,还有一些词语,比如:“贝康停”,标注为普通名词似乎也不很合适。
如何将这些词类进行进一步的细分类,以便更好的服务于信息处理将是我们下一步研究的内容。
在制定规范时,我们仍然沿用了以词类为纲的方法,每一类词,又以其构词的方式确定切分和标注的规则,在制定规范的过程中,我们发现构词方式的不同对词类的确定有着较大的影响,因而,如何将构词方式和词类信息融合为一体也将作为我们的一个研究内容。