汉语语料库词性标注自动校对方法研究
- 格式:pdf
- 大小:171.37 KB
- 文档页数:4
中文分词与词性标注技术研究与应用中文分词和词性标注是自然语言处理中常用的技术方法,它们对于理解和处理中文文本具有重要的作用。
本文将对中文分词和词性标注的技术原理、研究进展以及在实际应用中的应用场景进行综述。
一、中文分词技术研究与应用中文分词是将连续的中文文本切割成具有一定语义的词语序列的过程。
中文具有词汇没有明确的边界,因此分词是中文自然语言处理的基础工作。
中文分词技术主要有基于规则的方法、基于词典的方法和基于机器学习的方法。
1.基于规则的方法基于规则的中文分词方法是根据语法规则和语言学知识设计规则,进行分词操作。
例如,按照《现代汉语词典》等标准词典进行分词,但这种方法无法处理新词、歧义和未登录词的问题,因此应用受到一定的限制。
2.基于词典的方法基于词典的中文分词方法是利用已有的大规模词典进行切分,通过查找词典中的词语来确定分词的边界。
这种方法可以处理新词的问题,但对未登录词的处理能力有所限制。
3.基于机器学习的方法基于机器学习的中文分词方法是利用机器学习算法来自动学习分词模型,将分词任务转化为一个分类问题。
常用的机器学习算法有最大熵模型、条件随机场和神经网络等。
这种方法具有较好的泛化能力,能够处理未登录词和歧义问题。
中文分词技术在很多自然语言处理任务中都起到了重要的作用。
例如,在机器翻译中,分词可以提高对齐和翻译的质量;在文本挖掘中,分词可以提取关键词和构建文本特征;在信息检索中,分词可以改善检索效果。
二、词性标注技术研究与应用词性标注是给分好词的文本中的每个词语确定一个词性的过程。
中文的词性标注涉及到名词、动词、形容词、副词等多个词性类别。
词性标注的目标是为后续的自然语言处理任务提供更精确的上下文信息。
1.基于规则的方法基于规则的词性标注方法是根据语法规则和语境信息,确定每个词语的词性。
例如,根据词语周围的上下文信息和词语的词义来判断词性。
这种方法需要大量的人工制定规则,并且对于新词的处理能力较差。
基于深度学习方法的中文分词和词性标注研究中文分词和词性标注是自然语言处理中的重要任务,其目的是将输入的连续文字序列切分成若干个有意义的词语,并为每个词语赋予其对应的语法属性。
本文将基于深度学习方法对中文分词和词性标注进行研究。
一、深度学习方法介绍深度学习是一种基于神经网络的机器学习方法,在自然语言处理领域中应用广泛。
经典的深度学习模型包括卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(LongShort-Term Memory, LSTM)和门控循环单元(Gated Recurrent Unit, GRU)等。
在对中文分词和词性标注任务的研究中,CNN、RNN以及LSTM均被采用。
CNN主要用于序列标注任务中的特征提取,RNN及LSTM则用于序列建模任务中。
GRU是LSTM的一种简化版本,在应对大规模文本序列的过程中更为高效。
二、中文分词中文分词是将一段连续的汉字序列切分成有意义的词语。
传统的中文分词方法主要包括基于词典匹配的分词和基于统计模型的分词。
基于词典匹配的分词方法基于预先构建的词典,将待切分文本与词典进行匹配。
该方法精度较高,但需要较为完整的词典。
基于统计模型的分词方法则通过学习汉字之间的概率关系来进行分词。
该方法不依赖于完整的词典,但存在歧义问题。
深度学习方法在中文分词任务中也有较好的表现,通常采用基于序列标注的方法。
具体步骤如下:1. 以汉字为单位对输入文本进行编码;2. 使用深度学习模型进行序列标注,即对每个汉字进行标注,标记为B(词的开头)、M(词的中间)或E(词的结尾),以及S(单字成词);3. 将标注后的序列按照词语切分。
其中,深度学习模型可以采用CNN、RNN、LSTM或GRU等模型。
三、中文词性标注中文词性标注是为每个词语赋予其对应的语法属性,通常使用含有标注数据的语料库进行训练。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的迅猛发展,中文词句检索技术在众多领域得到了广泛应用。
在海量数据中快速、准确地检索出所需的词句信息,已成为当今研究的重要课题。
本文针对基于汉语语料库的中文词句快速检索算法进行研究,旨在提高检索效率和准确性,满足不同领域的应用需求。
二、汉语语料库概述汉语语料库是中文词句检索的基础。
本文所使用的汉语语料库应具备以下特点:1. 丰富性:包含各类文本资源,如新闻、小说、论文等,以支持不同领域的检索需求。
2. 准确性:词汇、语法等信息的标注应准确无误,以提高检索的准确性。
3. 更新性:随着新词汇、新表达方式的不断涌现,语料库应具备更新能力,以保持其时效性。
三、中文词句快速检索算法研究针对中文词句检索的特点,本文提出以下几种快速检索算法:1. 基于倒排索引的检索算法倒排索引是中文词句检索中常用的技术。
该算法将文本中的词汇与其在文本中的位置信息进行关联,构建倒排索引表。
在检索时,根据用户输入的词句,快速查找倒排索引表,获取相关文本的位置信息,从而实现快速检索。
2. 基于词向量模型的检索算法词向量模型是一种将词汇转换为向量表示的方法。
通过训练大量文本数据,得到词汇的向量表示。
在检索时,将用户输入的词句转换为向量表示,然后与语料库中的文本向量进行相似度计算,从而找到相关文本。
该算法可以充分考虑词汇的语义信息,提高检索的准确性。
3. 融合多种算法的混合检索策略针对不同领域、不同需求,可以采用融合多种算法的混合检索策略。
例如,先使用倒排索引进行初步筛选,再结合词向量模型进行精确匹配。
此外,还可以引入其他技术手段,如自然语言处理、知识图谱等,进一步提高检索的效果。
四、实验与分析为验证本文提出的中文词句快速检索算法的有效性,我们进行了实验分析。
实验数据来源于一个大型汉语语料库,实验环境为高性能计算机集群。
通过对比不同算法的检索速度、准确率、召回率等指标,我们发现:1. 基于倒排索引的检索算法在速度上具有明显优势,适用于大规模语料库的快速检索。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息不断涌现,如何快速、准确地从这些信息中检索出用户所需的词句,成为了一个亟待解决的问题。
基于汉语语料库的中文词句快速检索算法研究,旨在提高中文信息检索的效率和准确性,满足用户对信息的需求。
本文将介绍基于汉语语料库的中文词句快速检索算法的背景、意义、研究现状及研究方法。
二、研究背景与意义随着互联网的普及和信息技术的发展,海量的中文信息不断产生和更新。
如何从这些信息中快速、准确地检索出用户所需的词句,成为了信息检索领域的重要研究方向。
基于汉语语料库的中文词句快速检索算法研究,旨在提高中文信息检索的效率和准确性,为用户提供更好的信息服务。
三、研究现状目前,国内外学者在中文词句检索算法方面进行了大量研究,取得了一定的成果。
其中,基于倒排索引的检索算法是常用的中文词句检索算法之一。
该算法通过将文档中的词汇建立索引,实现快速检索。
然而,该算法在处理同义词、多义词等问题时存在一定局限性。
此外,基于深度学习的检索算法也逐渐成为研究热点,通过训练模型学习词汇的语义信息,提高检索的准确性和效率。
但是,这些算法在处理大规模语料库时仍存在一定挑战。
四、研究方法本研究采用基于汉语语料库的中文词句快速检索算法,主要包括以下步骤:1. 语料库构建:建立大规模的汉语语料库,包括文本、词汇、语义等信息。
2. 词汇处理:对语料库中的词汇进行处理,包括分词、去除停用词、词性标注等。
3. 建立索引:采用倒排索引技术,将处理后的词汇建立索引,实现快速检索。
4. 语义扩展:通过训练模型学习词汇的语义信息,实现同义词、多义词等问题的处理。
5. 算法优化:对检索算法进行优化,提高检索的准确性和效率。
五、实验与分析本研究采用大规模汉语语料库进行实验,对比了基于倒排索引的检索算法和基于深度学习的检索算法的准确性和效率。
实验结果表明,基于汉语语料库的中文词句快速检索算法在准确性和效率方面均有所提高。
现代汉语语料库加工中的切词与词性标注处理周强, 段惠明北京大学计算语言学研究所北京,100871目前,大规模真实文本处理已成为计算语言学界的一个热门话题。
一个重要的原因是因为它给我们提供了一种新的研究思路,即从大规模的语料库中提取所需要的知识。
而汉语语料库的加工和处理,又涉及到汉语语法研究的许多问题,如:词的定义,词类的划分,短语的确定等等。
在这方面,我们进行了一些探索,积累了一些经验。
本文只讨论切词与词性标注问题。
1. 汉语语料库的多级加工总结国内外语料库建设的经验,可以看到:一个计算机语料库的功能主要和下面三种因素密切相关,即库的规模、语料分布和语料的加工深度。
因为库容量的大小直接影响到统计结果的可靠性,语料分布的考虑则关系到统计结果的适用范围,而加工深度则决定了该语料库能为自然语言处理提供什么样的知识。
对于汉语语料库的处理,可以设想有以下几个阶段,如图1所示[5]。
这样,经过不同阶段的处理,语料库所携带的各类消息也不断增加,最终将成为一个名副其实的语言知识库。
这样的知识库可以为汉语统计分析、汉语理解和机器翻译提供重要的资源和有力的支持。
┌────┐┌────┐┌────┐┌────┐│"生图 1 库存语料的加工顺序2. 关于切词和标注结合处理的规范从92年初开始, 北大计算语言学研究所开始进行汉语语料库的多级加工处理的研究,其第一步工作是对原始语料进行切分和词性标注, 并且我们是将切词和标注结合起来进行的。
通过使用一个带词类标记的切词词典, 在自动切词的同时, 给每个切分单位标上初始词性标记, 然后通过规则与统计相结合的方法排歧, 实现词类的自动标注, 再利用构词规则, 发现一些符合汉语构词规律的未定义词并确定其词类。
[6]以上工作的基础是“信息处理用现代汉语分词规范”[1](下简称为“分词规范”)、现代汉语词语分类体系[2]、汉语构词法理论[3]和现代汉语语法电子词典[4]。
在对约40万字语料的切分与标注的实践基础上, 我们发现了一些新的处理规律, 积累了许多有益的经验。
973当代汉语文本语料库分词、词性标注加工规范(草案)山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。
经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。
这次承担973任务后制定出本规范。
本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。
本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。
《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。
1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年北京大学计算语言学研究所5.《信息处理用现代汉语词类标记规范》,2002年,教育部语言文字应用研究所计算语言学研究室6.《现代汉语语料库文本分词规范说明》,2000年山西大学计算机科学系山西大学计算机应用研究所7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会一、分词总则1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。
本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。
追求分词后语料的一致性(consistency)是本规范的目标之一。
2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。
现代汉语语料库加工规范——词语切分与词性标注1999年3月版北京大学计算语言学研究所1999年3月14日⒈ 前言北大计算语言学研究所从1992年开始进行汉语语料库的多级加工研究。
第一步是对原始语料进行切分和词性标注。
1994年制订了《现代汉语文本切分与词性标注规范V1.0》。
几年来已完成了约60万字语料的切分与标注,并在短语自动识别、树库构建等方向上进行了探索。
在积累了长期的实践经验之后,最近又进行了《人民日报》语料加工的实验。
为了保证大规模语料加工这一项重要的语言工程的顺利进行,北大计算语言学研究所于1998年10月制订了《现代汉语文本切分与词性标注规范V2.0》(征求意见稿)。
因这次加工的任务超出词语切分与词性标注的范围,故将新版的规范改名为《现代汉语语料库加工规范》。
制订《现代汉语语料库加工规范》的基本思路如下:⑴ ⑴ 词语的切分规范尽可能同中国国家标准GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。
由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
⑵ ⑵ 小标记集。
词性标注除了使用《现代汉语语法信息词典》中的26个词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增加了以下3类标记:①专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;②语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;③动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)。
《基于汉语语料库的中文词句快速检索算法研究》篇一一、引言随着信息技术的飞速发展,海量的中文信息在网络上迅速增长,如何快速、准确地从这些信息中检索出用户所需的词句成为了一个重要的研究课题。
基于汉语语料库的中文词句快速检索算法研究,旨在解决这一问题,提高中文信息检索的效率和准确性。
本文将介绍一种基于汉语语料库的中文词句快速检索算法,并对其原理、实现及性能进行详细分析。
二、算法原理基于汉语语料库的中文词句快速检索算法主要基于分词技术、倒排索引和向量空间模型等原理。
首先,将汉语语料库进行分词处理,将句子拆分成单个的词语或词组。
然后,为每个词语或词组建立倒排索引,以便在用户输入查询时能够快速定位到包含该词语或词组的文档。
此外,为了进一步提高检索的准确性,可以采用向量空间模型对文档进行向量化表示,计算文档与查询之间的相似度。
三、算法实现基于汉语语料库的中文词句快速检索算法的实现主要包括以下几个步骤:1. 语料库预处理:对汉语语料库进行分词、去除停用词等预处理操作,以便后续的检索处理。
2. 建立倒排索引:为每个词语或词组建立倒排索引,包括词语或词组及其在文档中的位置信息。
3. 查询处理:当用户输入查询时,首先进行分词处理,然后根据倒排索引快速定位到包含查询中词语或词组的文档。
4. 相似度计算:采用向量空间模型对文档进行向量化表示,计算文档与查询之间的相似度,返回相似度较高的文档作为检索结果。
四、性能分析基于汉语语料库的中文词句快速检索算法具有以下优点:1. 高效性:通过建立倒排索引,可以快速定位到包含查询中词语或词组的文档,提高了检索效率。
2. 准确性:采用向量空间模型对文档进行向量化表示,可以计算文档与查询之间的相似度,提高了检索的准确性。
3. 灵活性:算法支持多种查询方式,包括单词查询、词组查询、短语查询等,可以满足用户的不同需求。
然而,该算法也存在一些不足之处。
例如,对于一些语义复杂的句子,分词结果的准确性会影响到检索的效果。
基于机器学习的中文词性标注算法研究一、引言中文词性标注是自然语言处理领域的重要任务之一,它是将中文句子中的每个词语标注为相应的词性,如名词、动词、形容词等。
准确的中文词性标注对于自然语言处理任务具有重要意义,如机器翻译、信息检索等。
然而,由于中文语言的复杂性和多义性,中文词性标注一直是一个具有挑战性的问题。
为了解决这个问题,研究者们提出了许多基于机器学习的算法。
二、传统方法传统方法主要基于规则和人工特征工程来进行中文词性标注。
这些方法需要依赖领域专家对语言规则进行建模,并手动提取特征来训练模型。
然而,由于人工规则和特征提取过程复杂且耗时,并且无法处理大规模数据集,这些传统方法在准确度和效率上存在一定局限。
三、基于机器学习的方法近年来,随着机器学习算法在自然语言处理领域取得重大突破,基于机器学习的中文词性标注算法也得到了广泛应用。
这些算法主要包括基于统计的方法和基于深度学习的方法。
1. 基于统计的方法基于统计的中文词性标注算法主要利用马尔可夫模型和隐马尔可夫模型来进行训练和预测。
这些模型通过统计句子中词语之间的关系来预测每个词语的词性。
其中,隐马尔可夫模型是一种常用且有效的方法,它可以利用上下文信息进行预测,并且可以通过训练大规模语料库来提高准确度。
2. 基于深度学习的方法近年来,深度学习在自然语言处理领域取得了巨大成功,并且在中文词性标注任务上也取得了显著成果。
基于深度学习的中文词性标注算法主要利用循环神经网络(RNN)和长短时记忆网络(LSTM)来建模句子中每个词语之间的关系,并进行预测。
这些算法能够自动提取特征,并且可以处理大规模数据集,从而提高准确度和效率。
四、实验与评估为了评估基于机器学习的中文词性标注算法的性能,研究者们通常使用标注好词性的中文语料库进行实验。
他们将语料库划分为训练集、验证集和测试集,并使用训练集来训练模型,验证集来调整模型参数,最后使用测试集来评估模型的准确度和效率。
基于语料库的汉语语法分析技术研究随着社会变革和信息技术的日渐成熟,计算机语言处理技术成为了越来越受到广泛关注的一个领域。
其中,基于语料库的汉语语法分析技术凭借其准确性与可扩展性,成为了现代汉语语言处理的重要手段之一。
本文旨在对基于语料库的汉语语法分析技术进行研究与探讨。
一、语料库的概念语料库是指已经规范化并存放在计算机中,以便进行语言学分析、语言教学及自然语言处理等领域研究所用的文本库。
语料库可以包括广泛的文本材料,例如图书、报刊、百科全书、广告等等。
在汉语语料库中,大部分都是由现代成语汇编、三字经、百家姓等作品组成的。
二、基于语料库的汉语语法分析技术的原理及方法语法分析是指通过对句子或段落的结构进行分析,以确定其中的语法成分、句子结构等元素,并进行语义解释。
基于语料库的汉语语法分析技术是指通过建立汉语语料库,以在语料库中的情况来分析句子,以辅助段落的分析和其他自然语言处理操作,如机器翻译等。
在进行基于语料库的汉语语法分析技术的研究时,需要首先处理语料库。
语料库处理包括文本精简与规范化、分词与词性标注、句法结构分析等步骤,以便建立一个准确可靠的语料库。
接下来将建立各种查询方法,并将这些方法作为分析的辅助手段。
目前,常用的语法分析方法有基于规则的语法模型、基于统计的语法模型以及基于深度学习的语法模型等。
三、基于语料库的汉语语法分析技术的应用与发展基于语料库的汉语语法分析技术在自然语言处理、文本挖掘、信息检索等领域都具有重要价值。
例如,在信息检索领域,基于语料库的汉语语法分析技术可以用于制定搜索引擎,从而更准确地搜索合适的信息;在自然语言处理领域,基于语料库的汉语语法分析技术能够辅助机器翻译过程,从而提高翻译质量。
值得注意的是,随着深度学习技术的不断发展,基于语料库的汉语语法分析技术正向着更准确、更智能方向发展。
人们希望基于语料库的汉语语法分析技术在未来能够进一步完善,以提供更高效、更准确的自然语言处理解决方案。
收稿日期:2004-06-15;修订日期:2004-11-27 基金项目:国家863计划资助项目(2001AA4031)作者简介:张虎(1979-),男,山西大同人,硕士研究生,主要研究方向:中文信息处理; 郑家恒(1948-),女,山西太原人,教授,主要研究方向:中文信息处理; 刘江(1980-),男,山西太原人,硕士研究生,主要研究方向:中文信息处理.文章编号:1001-9081(2005)01-0017-03汉语语料库词性标注自动校对方法研究张 虎,郑家恒,刘 江(山西大学计算机与信息技术学院,山西太原030006)(four_tiger@)摘 要:从聚类和分类的角度入手,对大规模语料库中的词性标注的自动校对问题作了分析,提出了语料库词性标注正确性检查和自动校对的新方法。
该方法利用聚类和分类的思想,对范例进行聚类并求出阈值,根据阈值,判定词性标注的正误;对标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性,进而提高汉语语料库词性标注的准确率。
关键词:聚类;词性标注;自动校对中图分类号:TP391 文献标识码:AStudy on auto -proofreading method for POS tagging of Chinese corpusZHANG Hu,ZHENG Jia -heng,LIU Jiang(College o f Computer &In f ormation Technology ,Shan xi University ,Taiyuan Shanxi 030006,China)Abstract:The auto -proofreading problem in the large -scale corpus was analyzed,and a new method inspecting the correctness of POS tagging and an auto -proofreading method based on clustering and classifying were put ing clustering and classifying,the method firstly classified the sequences of part of speech of the example and got the threshold value.Then according to the threshold value,it classified the tes t sequences to judge its correctness,and gave out a proofreading POS to the wrong POS Tagging.Furthermore,i t enhanced the correctness ratio of the part of speech tagging on large -scale corpus.Key words:clustering;POS Tagging ;au to -proofreadi ng0 引言随着语料库语言学研究的兴起,建设高质量的大规模语料库已成为首要任务。
语料库作为研究资源其价值是通过对语料的标注来体现的,对语料库标注得越准确,语料库的价值就越高。
近年来国内外对词性标注的研究有很多,大多是采用基于规则和基于统计的方法,标注正确率分别达到89%和96%[5]。
对错误标注结果进行分析,可以看出,无论哪种标注算法都有其固有缺陷:概率标注方法总会抑制小概率事件的发生,而规则方法本质上说是一种确定性的演绎推理方法,因此它们很难对词性标注的准确率进行进一步的提高。
显然,这样的准确率仍然严重影响语料库的加工质量。
要对标注错误的词性进行自动校对,一个首要问题是词性标注的正确性检查。
受一些文献的启发[6],本文提出了基于聚类和分类的词性标注自动校对的方法。
该方法首先随机抽出一些含有兼类词的句子,经人工校对后,将含有相同兼类词的词性序列进行聚类并求出阈值;然后根据阈值对每个含有兼类词的词性序列进行逐一分类;通过计算相似度,找出标有该类的词性但相似度不在该类的阈值范围之内的序列,这些序列就被认为是词性标注不正确的;对词性标注错误的词性,按靠近各词性类别重心的原则归类,给出一个校对词性。
我们对网上下载的中文核心期刊中的50万语料进行实验,正确性检查的有效性约为76%,准确率约为83%,自动校对的准确率约为70%,对词性标注的准确率可以提高2~3个百分点。
1 词性错标现象分析语料库中已标注词性的词语有两种标注结果:单标记词语和多标记词语。
所谓单标记词语,即在语料库中只有一种词性标记的词语;多标记词语则为在语料库中标有两种或两种以上词性的词语。
我们所做的正确性检查是针对多标记词语而言的。
经分析,这些多标记词语包括两种情况:1)词表中是单标记词语,但在语料中标了不同的词性,出现了词性标注的不正确。
词条:量化语料中的多标记词性:k 、v错例:所/u 获得/v 的/u 部分/n 集体/n 量化/k 资产/n 不/d 允许/vu 转让/v校正词性:v分析:/量化0这一词是非兼类词,在词表中只有v 这一唯一词性,没有标注k 的词性。
2)词表中是兼类词,即有不同标记的词语,这部分词语可能存在词性标注错误,即:在相同的语境中出现了不同的词性。
词条:高第25卷第1期2005年1月计算机应用Computer ApplicationsVol.25No.1Jan.2005语料中的多标记词性:v、aq、a、n错例:比/p以往/t高/a出/v许多/m。
/wp校正词性:v分析:/高0有四种词性,例句中的词性显然应为动词(v)。
对于第一种情况的不正确,如果词表中的词比较全的话,这种不正确比较容易解决,只要把标注错误的词条与词表比较后,改正即可。
我们对网上下载的中文核心期刊中的200万汉字语料进行了统计,在200万汉字的语料库中兼类词占到11%,但兼类词的词次却占到了47%。
面对大规模语料库,如何判断在相同的语言环境下兼类词出现的错标现象就成为一个重要的问题。
如:/高0句¹:比/p获得/v亚军/n的/u德国/ns选手/n高/a出/ v18/m分/q多/m。
/wp句º:比/p其他/r农户/n高/v出/v1000/m多/m元/q 。
/wp显然上边两句话/高0字的语言环境类似,但句¹中它标了a,句º中却标为v。
2词性标注正确性检查兼类词词性标注是否正确,是按照其语境来判断的,所以我们以每个兼类词及其上下文语境所形成词性标记序列作为研究对象。
首先对范例进行聚类并求出阈值,然后根据聚类结果对标注语料进行词性标注的正确性检查。
2.1向量模型为了描述兼类词的语境,我们建立含有兼类词的词性标记序列表:表1词性标记序列表词前三词前两词前一词兼类词后一词后两词后三词词性标注词性1词性2词性3词性4词性5词性6词性7注:其中/前(后)几词0指从所要考查的兼类词数起前(后)边的第几个词。
定义1:位置属性兼类词词性标记序列的前、后词的词性由于离兼类词的距离不同,对兼类词的词性影响程度也不同,称之为位置属性。
用向量X={(1/22),(1/11),(2/11),(4/11),(2/11), (1/11),(1/22)}表示。
1/22:前(后)第三个词的位置属性值。
1/11:前(后)第二个词的位置属性值。
2/11:前(后)第一个词的位置属性值。
4/11:兼类词的位置属性值。
定义2:词性属性兼类词词性标记序列前、后词的词性和词性标记的位置,对确定兼类词的词性影响程度不同,称之为词性属性。
用一个7行m列的二维矩阵来描述。
其中:行表示兼类词词性标记序列前、后三个词及兼类词本身;列表示语料库所采用的词性标记集的标记。
例如:/高0缀/v满/a彩灯/n的/u高/a塔/n直/d插/v 夜空/n,/wp词性标记序列是:(a n u a n d v)设:词性标记集为:{n v a d u p r m q c w I f s t b z e o l j h k g y}/高0的词性属性矩阵:Y=00100,10000,00001,00100,10000,00010,01000,注:标记不完整时,即某个位置没有词性,则该位置所对应的行都标为0。
定义3:词性标记序列向量位置属性向量与词性属性矩阵的乘积定义为词性标记序列向量。
即:Vec=X@Y例句/缀/v满/a彩灯/n的/u高/a塔/n直/d插/v夜空/ n,/wp0的词性标记序列向量如下:Vec=(1/22,1/11,2/11,4/11,2/11,1/11,1/22)@Y=(3/11,1/22,9/22,1/11,2/11,0,0*)向量模型的算法既考虑词性标记序列的位置属性,也考虑词性属性。
对每个含兼类词的词性标记序列进行向量化表示,然后求出任何两个向量之间的相似度。
采用马氏距离计算方法定义向量模型词性标记序列的相似度公式:S i,j=(x i,y i)c V-1(x i,y i)(1)其中:x i和y i是两个任意的词性标记序列向量V=1m-1E mi=1(x i-x)(x i- x)c例如:/高0a)缀/v满/a彩灯/n的/u高/a塔/n直/d插/v夜空/n,/wpb)这/r是/v一/m项/q高/a科技/n的/u硬仗/n,/wp对例句可以生成下边特征向量:a)(3/11,1/22,9/22,1/11,2/11,0,0,)b)(5/22,1/11,4/11,0,1/11,0,0,1/11,2/11,0,)按照公式(1)可以求出上边两个词性标记序列的相似度约是0.236。
2.2聚类和阈值计算聚类是把某些对象按其相似性加以分组的一种数据划分。
它是通过较为少数的聚类簇去表现大量的数据,每个聚类簇都有自己的特征。
本文采用的是基于重心的聚类方法。
词性标记序列向量集合中任一向量x i与重心向量x j间的距离d ij满足:1k-1E d ij[H(2)称集合对于H组成一类。
其中:k为集合中元素个数,H为阈值。
H值是通过训练范例求得的,具体步骤如下:Step1:随机选取一些含有兼类词的句子,进行人工校正,分别计算含有同一兼类词且其词性相同的所有词性标记序列的向量的平均值V A,这个平均值就是该词的这个词性类的重心向量,根据公式(1)计算所有该词性类的词性标记序列向18计算机应用2005年量与V A 的马氏距离:Distance(V i ,V A ),其中V i 为该词性类的词性标记序列向量集合中的任一向量。
Step2:计算Step1中求出的每一词性类的马氏距离的平均值:Aver a ge(Distance(V i ,V A ))该平均值就是该词性类的阈值H 。