藏文自动分词系统中虚词识别算法研究
- 格式:docx
- 大小:41.18 KB
- 文档页数:7
藏文自动分词系统的设计才智杰;才让卓玛【期刊名称】《计算机工程与科学》【年(卷),期】2011(33)5【摘要】语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础.随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题.自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析.本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分决算法和还原算法.系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础.%As the fundamental linguistic knowledge base, human-annotated corpora are the basis of many statistical natural language processing tasks. Along with the wide use of statistical methodsin natural language processing, corpus construction becomes an important research area. Word segmentation is necessary prerequisite of syntax parsing; its performance determines the parsing accuracy in a large degree. By the statistical analysis on a Tibetan corpus with 850,000 bytes, we first investigate the distribution and the syntactic function of Tibetan words, introduce a dictionary-based Tibetan word segmentation model, and then present the dictionary structure, case-auxiliary blocking and restoring algorithms which are necessary to Tibetan word segmentation. Thedevelopment of the Tibetan word segmentation system also facilitates the research of the Tibetan word input methods, the Tibetan electronic dictionary construction, the Tibetan word frequency statistics, the design and realization of the search engine, the development of the machine translation system, the security of the network information, the construction of the Tibetan corpus, and the Tibetan semantic analysis.【总页数】4页(P151-154)【作者】才智杰;才让卓玛【作者单位】青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁,810008;青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁,810008【正文语种】中文【中图分类】TP391【相关文献】1.班智达藏文自动分词系统的设计与实现 [J], 才智杰2.藏文自动分词系统中虚词识别算法研究 [J], 拉巴顿珠;欧珠;赵栋材3.基于词频学习和动态词频更新的藏文自动分词系统设计 [J], 项炜;金澎4.藏文自动分词系统中紧缩词的识别 [J], 才智杰5.藏文自动分词系统的设计与实现 [J], 陈玉忠;李保利;俞士汶因版权原因,仅展示原文概要,查看原文内容请购买。
1藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。
在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。
而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。
而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。
因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。
而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。
目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。
因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。
进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。
比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1];2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。
此外,祁坤钰提出了切分与格框架、标注一体化的藏语三级切分体系的藏文分词方法[3];才智杰实现了一种藏文分词方法,并首次提出了基于规则的方法“还原法”来处理藏语分词中紧缩词识别问题等[3]。
藏语动词形态的自动识别系统研究作者:俄果措安见才让来源:《电子技术与软件工程》2016年第06期摘要藏语自动分词和藏语动词形态自动识别过程中的一个重要部分,使藏语分词过程中字串的匹配对象。
电子词库中每一个词条的准确性直接影响着藏语自动分词结果和藏语动词形态自动识别结果。
因此,电子词典中主要收录了所选藏语语料库中的18本藏语(翻译版)教材的5000个词条。
【关键词】自动分词动词形态自动识别电子词典藏语动词的研究历来是藏语语法研究的核心。
藏语书面语约有1500 个单音节动词,其中大多数动词具有词形数目不等的时式形态变化。
在藏语的发展过程中,由于语言内部结构的语音变化及语言的外部影响,藏语动词的词形出现了不同的简化模式。
1 藏语动词形态自动识别模块藏语动词形态的自动识别是藏语句法分析和藏语八格的识别等过程中的一个重要环节。
藏语动词形态自动识别的目的是识别出藏语文本中的大量的藏语动词形态,并消除识别过程中动词形态的变化问题。
藏语动词形态自动识别模块采用了以藏语传统语法为依据,格桑居冕(1982)在《藏语文法教程》(简称教程)中对藏语书面动词进行了详细讲并收集其中所讲的藏语动词形态和动词形态的接续规则来实现。
最终建立了藏语动词形态的规则库,按规则库中相应的规则来识别句子中的动词形态的变化。
具体如图1所示。
2 藏语动词形态的自动识别算法如图2所示。
在藏语动词形态识别过程中动词形态处变化处理算法描述如下:S=“”在S中消除具有一个以上音节的词。
S=“”在S中消除虚词。
S=“”逐一取每一个词在词典中data中查找,如果查找到,就将结果存储在SS中,最后显示SS 中的内容,如下:3 藏语动词形态识别的运行结果如图3所示。
4 结束语通过探索藏文传统文法理论,建立藏语动词形态的接续规则,按照规则及相关的算法和模块实现藏语动词形态自动识别系统。
参考文献[1]格桑居冕,格桑央金.藏文文法教程[M].四川民族出版社,2004.11(391-513).[2]金鹏.藏语动词屈折形态向粘着形态的转变[J].中国藏学,1988(01)(131-139).[3]金鹏.《西藏现代口语动词的时态和体及其表达方法》.西藏研究1984(03)-1985(02).作者简介俄果措(1987-),女,青海省人。
藏文自动分词技术研究综述作者:于诗画赵小兵来源:《科技视界》2016年第06期【摘要】藏文分词是藏文信息处理中最为基础却又十分重要的工作,而藏文的自动分词是提高藏文信息处理工作效率的重要技术。
本文主要从藏文自动分词的意义、国内研究现状、分词方法以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。
【关键词】分词;藏文分词;分词方法1 藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。
在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。
而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。
而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。
因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。
而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。
目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。
因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。
进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2 国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。
比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1]; 2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。
藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究卓玛吉【期刊名称】《电脑与电信》【年(卷),期】2018(000)012【摘要】虚词作为藏文文献中重要成分,对文献识别过程也造成了很大的难度.本文通过传统藏文文法和语法规则,主要研究并提出了三种藏文历史文献中大量藏文自由虚词的识别算法,同时建立了具有284条规则的藏文自由虚词消歧规则库.使文献数字化过程中快速地识别并消除藏文句子中不自由虚词的歧义问题,提高藏文文献自动识别的准确率.%Functional words, as an important component of Tibetan literature, has caused great difficulties in the process of document recognition. Based on the traditional Tibetan grammar and grammar rules, this paper mainly studies and puts forward three kinds of recognition algorithms for a large number of Tibetan free function words in Tibetan historical documents, and establishes a rule base of 284 rules for Tibetan free function words disambiguation. In the process of digitalization, the ambiguity of unfree function words in Tibetan sentences can be quickly identified and eliminated, and the accuracy of automatic identification of Tibetan documents can be improved.【总页数】3页(P20-22)【作者】卓玛吉【作者单位】青海民族大学计算机学院,青海西宁 810007【正文语种】中文【中图分类】TP391.1【相关文献】1.藏文(含梵文)字丁自动识别方法研究 [J], 完么才让2.藏文自动分词系统中虚词识别算法研究 [J], 拉巴顿珠;欧珠;赵栋材3.藏文字结构自动识别与形式化描述研究 [J], 扎西拉旦;安见才让4.基于Python的藏文不自由虚词校对算法研究与实现 [J], 索南尖措;陈家威5.基于正则表达式的藏文虚词"ཞཞཞ"类识别算法研究 [J], 更藏卓玛; 安见才让因版权原因,仅展示原文概要,查看原文内容请购买。
计算机识别藏语虚词的方法研究高定国;扎西加;赵栋材【摘要】藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提.该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2 525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.076 8%.【期刊名称】《中文信息学报》【年(卷),期】2014(028)001【总页数】5页(P113-117)【关键词】识别;藏语;虚词【作者】高定国;扎西加;赵栋材【作者单位】西藏大学藏文信息技术研究中心,西藏拉萨850000;西藏大学工学院计算机科学系,西藏拉萨850000;西藏大学藏文信息技术研究中心,西藏拉萨850000【正文语种】中文【中图分类】TP3911 引言近年来,随着藏文信息处理技术的发展,藏语的信息处理已经在字处理方面取得了很好的成绩,现进入到了语句研究的阶段,语句处理的前提是对藏语词的处理。
藏语中的实词由于其意义的实在以及在藏语的语义句法结构中的重要地位,受到了藏文信息处理学者们的普遍重视,也取得了一定的成绩,但面向信息处理的虚词研究还有待于加强。
虚词自身虽然用法灵活,但虚词与虚词、虚词与实词的搭配常常构成比较稳定的语义块标记[1]。
因此,从藏语的虚词入手,根据虚词的搭配及其在形成藏语语义块结构中的标记作用来分析藏语语句的句法结构,并据此进行藏语语句的语义块自动切分等研究,对藏文句子研究有很重要的作用。
藏语虚词在藏语文档中出现的频度很高,虚词搭配规则形式化分析的可行性则由藏语虚词自身的特点决定:虚词是封闭集合,其中的各个词汇是可以一一枚举的[2];虚词尽管用法灵活,但它们是语言中性质比较稳定,不易产生变化的部分;虚词与其他词汇构成的搭配是确定的,也是可以枚举的[3]。
虚词搭配的可枚举性、稳定性和确定性等特点,使得虚词搭配关系的形式化规则特别有利于被擅长搜索和匹配的计算机所直接利用,从而对计算机句法分析提供简单、高效和健壮的句法规则。
面向自然语言处理的藏语虚词la格研究
索南才让
【期刊名称】《西藏大学学报(自然科学版)》
【年(卷),期】2013(028)002
【摘要】藏语虚词研究是藏语自然语言处理中一项不可缺少的基础性工作,有着极其广泛的实际应用价值.它是藏文信息处理的核心和藏语自然语言理解的基础,在藏文校对、信息检索、双语对译、自动分类等技术中有着广泛的应用前景.文章在前人研究的基础上,结合信息处理,从不自由虚词的分类体系、形式化描述等角度对藏语虚词la格的语法功能做了一些探讨,重点论述了藏语虚词la格的语法功能,提出藏语虚词规范的初步设想和处理方法.
【总页数】5页(P48-52)
【作者】索南才让
【作者单位】青海师范大学计算机学院青海西宁810008
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于文献计量的藏语自然语言处理研究分析 [J], 肖维霖
2.面向信息处理的藏语虚词知识库构建研究 [J], 才让三智;多拉
3.面向藏语自然语言处理的藏语语言资源建设 [J], 赵栋材
4.信息处理中藏语虚词"na"和"la"的标注研究 [J], 才让三智; 多拉
5.藏语虚词“dangsgra”和“ladon”表达“tsheskabs”的差异解析 [J], 普片多
因版权原因,仅展示原文概要,查看原文内容请购买。
藏文自动分词系统中虚词识别算法研究拉巴顿珠;欧珠;赵栋材【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)009【摘要】在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究.根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上.%By analyzing a literature review of present Tibetan Auto-Segmentation solutions,we study on the difficult points of Tibetan function words recognition.According to the traditional Tibetan grammar,we described the forms of Tibetan function words in different texts.A holistic function word dictionary and rules set had been created by a rulesstatistics-combined method,and the function words segmentation algorithm had been implemented.We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields.The results show that the correct recognition rate of our system reaches up to 98%.【总页数】4页(P299-301,333)【作者】拉巴顿珠;欧珠;赵栋材【作者单位】西藏大学藏文信息技术研究中心西藏拉萨850000;西藏民族大学陕西咸阳712082;西藏大学藏文信息技术研究中心西藏拉萨850000【正文语种】中文【中图分类】TP391【相关文献】1.藏文自动分词系统中紧缩词的识别 [J], 才智杰2.藏文分词系统中紧缩格识别和藏字复原的算法研究 [J], 巴桑杰布;羊毛卓玛;欧珠3.藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究 [J], 卓玛吉4.基于Python的藏文不自由虚词校对算法研究与实现 [J], 索南尖措;陈家威5.基于正则表达式的藏文虚词"ཞཞཞ"类识别算法研究 [J], 更藏卓玛; 安见才让因版权原因,仅展示原文概要,查看原文内容请购买。
基于字典的藏文分词系统实现研究作者:格桑多吉乔少杰何泽东来源:《电子技术与软件工程》2015年第15期摘要随着对语言文字信息处理研究工作的不断加深,藏文信息处理技术也逐渐从字信息处理走向了语言信息处理。
跟日语、汉语、韩语等语种的信息处理相同,藏文自动分词( Tibetan Automatic Word Segmentation)是藏文信息处理中的一项必不可少的基础性工作,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。
对于不同应用环境,藏文自动分词需要采用最合适的算法,本文通过对藏语语料的统计分析和藏语词的分布特点、语法功能的研究,提出了设计开发基于词典库的藏文自动分词系统,力求为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定基础。
【关键词】藏文信息处理技术藏文自动分词分词系统1 藏文分词研究现状随着中国西藏地区的科技和文化逐步发展,涉及到藏文信息的应用正在得到越来越多的关注和使用,基于藏文信息处理技术的应用因此应时而生。
其中出现了包括藏文输入法,藏文电子词典,藏文搜索引擎,藏文机器翻译系统等大量的基于藏文信息的应用。
但是,由于这些应用都需要藏文分词作为先决条件,这使得藏文分词的工作量急剧上升,而人工分词会耗费大量的人力物力,而且已经远远不能满足这些应用的需求和增长。
在这样的时代背景下,藏文自动分词的研究价值就体现出来了。
藏文自动分词可以为藏文输入法提供联想率最高的单词,可以为藏文电子词典提供藏语语料,可以为藏文搜索引擎提供关键词,为藏文机器翻译提供断句等等。
可见,藏文自动分词是藏文自然语言理解的一项基础性工程,也是一项必不可缺的工作。
藏语自然语言理解在机器翻译、信息检索、智能输入、校对、自动摘要、自动分类和词典编纂等领域有着广泛的应用价值。
藏文自然语言处理可以借鉴亲属语言汉语分词研究的已有成果和成功经验。
Identification of Numerals in Tibetan Word
Segmentation
作者: 完么扎西[1];尼玛扎西[2]
作者机构: [1]青海师范大学民族师范学院,青海西宁810008;[2]西藏大学图书馆和现代教育技术中心,西藏拉萨850000
出版物刊名: 西藏大学学报
页码: 96-104页
年卷期: 2015年 第5期
主题词: 藏语自动分词;藏语数词;藏语数词结构
摘要:藏语自动分词技术是藏语自然语言处理的基础。
文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。
文章中的藏语数词识别思想为:在自动分词过程中,通过判断待切分的词(w)i和已切分的词(wi-1)来重新组合。
经对小学一至六年级的数学藏文版教材及1500个含各类数词的句子语料进行测试后,数词的识别准确率达97.7%。
藏文自动分词系统中虚词识别算法研究拉巴顿珠;欧珠;赵栋材【摘要】在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究.根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上.%By analyzing a literature review of present Tibetan Auto-Segmentation solutions,we study on the difficult points of Tibetan function words recognition.According to the traditional Tibetan grammar,we described the forms of Tibetan function words in different texts.A holistic function word dictionary and rules set had been created by a rulesstatistics-combined method,and the function words segmentation algorithm had been implemented.We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields.The results show that the correct recognition rate of our system reaches up to 98%.【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)009【总页数】4页(P299-301,333)【关键词】藏文自动分词;藏文信息处理;虚词识别;藏文虚词【作者】拉巴顿珠;欧珠;赵栋材【作者单位】西藏大学藏文信息技术研究中心西藏拉萨850000;西藏民族大学陕西咸阳712082;西藏大学藏文信息技术研究中心西藏拉萨850000【正文语种】中文【中图分类】TP391藏文自动分词研究是藏文自然语言处理的前提,是藏文信息处理的一项不可缺少的基础性工作,具有广泛的应用前景。
藏文自动分词为词性标注、藏文语料库的建设、藏文文本校对、藏文字词频统计、搜索引擎的设计与实现、机器翻译系统的开发、藏文拼写检查以及语句理解等方面的研究奠定良好的研究基础。
目前,国内有关学者提出了很多不同的分词方案和算法理论,但这些方法还是没能解决自动分词过程中的一些关键问题。
如何准确地把句子切分成块,这是自动分词的关键任务和难点之一。
该问题需要运用规则和统计相结合的方法,准确地识别藏文句子中的虚词,才能把句子切分成块,但藏文虚词数量较多,出现的频率也很高。
据统计,没有虚词的一个句子也可以能够表达句子的含义,例如:但这种情况在文本中实际出现的概率很低,一般一个完整的句子中至少会出现一个虚词,特别是对一些长句而言,虚词能够更好地表达句子的实际意义。
本文根据虚词本身的特点,结合目前藏文自动分词过程中的难点和所存在的问题,对虚词的识别、紧缩词的识别及还原等问题提出具体的解决方法并予以实现。
1.1 虚词的概述在语言学中,词分为实词和虚词两大类,实词指的是具有实际意义的词,是藏文自动分词中独立运用而能够表达一定意义的最小分词单位。
虚词是与实词相对而言的,在文本或者句子中不能表达任何意义,也不能独立承担句子的主要成分。
虚词本身没有实在意义,也没有词性变化,但一个文本或句子中没有虚词就不能形成完整的语句,也不能表达出完整的含义。
在自然语言处理中,藏语虚词对词法和句法结构起着至关重要的桥梁纽带作用,虚词的用途广,在句子结构中用法和意义十分复杂,出现的频率相当高。
在实现藏文自动分词系统中的主要难点之一,因此,信息处理用藏文虚词识别研究很重要。
目前,很多语言学家和有关学者对藏文虚词的定义不尽相同,根据传统的藏文文法“三十颂”()描述,藏语虚词共有85个,分为65个不自由虚词和20个自由虚词,不自由虚词与自由虚词的主要不同在于有无受到前一个后加字或再后加字的限制,不自由虚词具有严格的接续规则,而自由虚词不受前一个音节后置字的限制,可以自由使用[1]。
1.2 计算机识别藏文虚词的难点(1) 同一个虚词,在不同的语境中充当不同的角色,所表达的意义也不同,从而出现虚词的歧义问题,我们称之为虚词的兼类性。
通过整理发现,共有以下25个既是虚词又是实词,(谁)(山羊)(队)(年龄、生病)(坡)(烟、多少)(天)(路)(懂)(脸)(女)(一双、二)(尸体)(年)(吻)(田地)(木)(青稞) (职业、从,)(奶牛) (母亲、不)(人、不)(牙齿)(再,又、轻)(虱子)。
(2) 很多虚词与其他的字或词组合成新词,该新词一般都不作为虚词,例如:等,称之为虚词的组合性。
此类词很多诞生在自由虚词中,自由虚词本身没有严格的接续规则,其中大部分虚词与其他字、词组合成新的词后表达具体的意义,从而导致文本中出现较多的歧义现象。
(3) 指人名词缀词。
中嵌否定词结合它的前后字、词,例如:等。
9个指人名词后缀是它的前一个字、词结合成新词,例如:等,其中“”也受前一个音节后置字的限制,属于不自由虚词。
(4) 虚词变体性。
当虚词前面音节字的后加字是或者词尾没有后加字时,省略后该虚词黏着在前一个词尾,这样无法判断该词尾的字符为虚词还是后加字(再后加字)[2],例如:该句子中的虚词黏着在词末,词尾出现的两个不是虚词,中的是再后加字,中的是的后加字。
例如:句子中的虚词黏着在词尾,他的原形为已还原的结果。
计算机识别藏文虚词根据虚词本身的特点和难点分析出发,按照一定的先后顺序进行判断,首先通过虚词兼类词典、单字词典、规则的不自由虚词词典库等进行划分,再识别紧缩词并还原,最后结合中嵌否定词、指人后缀来判断藏文虚词,如图1所示。
2.1 藏文虚词的识别过程计算机识别虚词的首要工作就是建立一个相对全面的词典库,为了提高词典库的质量,需要采用规则和统计相结合的方法,并进行大量的人工训练和测试。
另一方面,经实验和研究发现,藏文虚词在文本中表现形式相对复杂,单一形式的词典不能满足需求,因此要按照虚词在文本中的不同表现形式,建立几种不同的虚词词典(词典命名为xcself)。
(1) 虚词兼类词典(xcself1)。
通过对大量的语料进行训练,根据词频等特征,再结合虚词兼类性和组合性特点,收录比较固定,较常见的词,这样可以能够排除藏文分词中虚词兼类而导致分词不准确的问题。
例如,等。
另外不自由虚词中“”等虚词中间存在分隔符“·”的虚词也收录到该词典中。
(2) 单字词典(xcself2):除了已收录到虚词兼类词典中的词外,藏文虚词“”在藏文文本中均以单字词的形式出现,这些虚词在分词过程中作为分割点。
(3) 不自由虚词词典(xcself3):收录需要根据不自由虚词的接续规则识别的藏文虚词,该词典格式为:<虚词—前导字符—后接字符>。
2.2 紧缩词识别及还原根据紧缩词的变体性及特殊性,分两种情况进行识别,分别是一般紧缩词的识别和特殊紧缩词的识别。
(1) 一般紧缩词的识别方法:当一个音节符后面出现“”这四个字时,判断该紧缩词前导符的编码在0F40~0F68之间[3],并且切分紧缩词后的音节字长度为大于1,该音节字后面添加一个,否则,直接分离紧缩词。
(2) 特殊紧缩词(和)的识别方法:当出现“”这10个音节时,紧缩词和进行分离,分离后的还原成,还原成。
其中,以“”结尾的音节字,可能以“后加字”、“再后加字”、“紧缩词”3中不同形式出现,识别时还要先执行“再后加字”的识别算法,避免将“再后加字”和“紧缩词”混淆。
(3) “再后加字”的识别算法:首先计算机找出“”结尾的音节字,该音节字的长度大于等于4,并且从右起第二个字符在“”中,第三个字符编码不在0F40~0F68之间,或者,“”结尾的音节字长度大于等于3,并且从右起第二个字符在“”中,第三个字符的编码在0F40~0F68之间时,该音节字的最后一个字符“”为再后加字,这样可以排除大量“”结尾的音节字。
通过以上方法仍未能识别的紧缩词和,取出词末的和,去除紧缩词后的字符串与词典匹配,匹配成功,则和分离出来,并进行还原,若匹配不成功,紧缩词和分离后,前导字符的编码在0F40~0F68之间时,前导字符后面添加一个“”,与词典进行匹配,若成功,则紧缩词和进行还原。
2.3 自由虚词的识别方法在藏文传统文法中自由虚词没有变体性,而且不受前一个音节后置字的限制,可以自由使用,但自由虚词也并不是不受任何限制而随意使用,在文本中使用自由虚词时也具有一定的接续特点。
文中根据自由虚词本身的接续特点和出现歧义的问题,提出了较简单的自由虚词识别方法。
(1) 除了虚词兼类和虚词组合性的词外,例如:等词条均收录到虚词兼类词典库中[4],连词“”、指示代词“”、疑问代词“”、否定词“”、位格助词“和”、从格助词“和”均以单词的形式出现,即作为分词单位,当文本中出现以上虚词时直接识别为虚词。
(2) 中嵌否定词“”结合前后字、词,指人名词后缀“”与前一个字、词结合的词与词典进行匹配,作为分词单位,即与前一个词结合的词不作为虚词。
3.1 测试结果本文采用的测试语料包含了法律、新闻类、教育类、医学类、诗歌类、文学类等各个领域。
从中选择了较典型的3 200句进行测试,同时还考虑了文献的年代、地域等问题。
对测试语料进行分词,统计语料中虚词出现的次数并计算准确率(准确率=正确识别的总次数/测试语料中出现的总次数×100%),同时对虚词的兼类性、组合性、结合性、识别紧缩词及还原。
实验结果表明,文中提出的方法使虚词的识别率达到98.013 8%。
3.2 结果分析采用本虚词识别方法的结果分析发现,① 如:该句子中的,根据紧缩词的识别方法,去除紧缩词后的词在词典中,与词典匹配成功后紧缩词还原,错误地识别和还原成,导致成交集型歧义。
② 如:该句子中的词,既可以切分为“”,又可以切分为“”,但词在词典中,错误切分成“”,正确的切分结果为“”。
此类问题目前还未找到合适的处理方法,下一步将针对此类问题进行深入研究。
藏文虚词在文本中出现的频率极高,其应用广泛,表现形式复杂多变。
本文基于不同的语境中虚词的识别率和分词的准确度,根据传统的藏文文法,采用统计和规则相结合的方法,对较典型的3 200个语料句子进行了测试。