藏文自动分词系统中虚词识别算法研究
- 格式:docx
- 大小:41.18 KB
- 文档页数:7
藏文自动分词系统的设计才智杰;才让卓玛【期刊名称】《计算机工程与科学》【年(卷),期】2011(33)5【摘要】语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础.随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题.自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析.本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分决算法和还原算法.系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础.%As the fundamental linguistic knowledge base, human-annotated corpora are the basis of many statistical natural language processing tasks. Along with the wide use of statistical methodsin natural language processing, corpus construction becomes an important research area. Word segmentation is necessary prerequisite of syntax parsing; its performance determines the parsing accuracy in a large degree. By the statistical analysis on a Tibetan corpus with 850,000 bytes, we first investigate the distribution and the syntactic function of Tibetan words, introduce a dictionary-based Tibetan word segmentation model, and then present the dictionary structure, case-auxiliary blocking and restoring algorithms which are necessary to Tibetan word segmentation. Thedevelopment of the Tibetan word segmentation system also facilitates the research of the Tibetan word input methods, the Tibetan electronic dictionary construction, the Tibetan word frequency statistics, the design and realization of the search engine, the development of the machine translation system, the security of the network information, the construction of the Tibetan corpus, and the Tibetan semantic analysis.【总页数】4页(P151-154)【作者】才智杰;才让卓玛【作者单位】青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁,810008;青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁,810008【正文语种】中文【中图分类】TP391【相关文献】1.班智达藏文自动分词系统的设计与实现 [J], 才智杰2.藏文自动分词系统中虚词识别算法研究 [J], 拉巴顿珠;欧珠;赵栋材3.基于词频学习和动态词频更新的藏文自动分词系统设计 [J], 项炜;金澎4.藏文自动分词系统中紧缩词的识别 [J], 才智杰5.藏文自动分词系统的设计与实现 [J], 陈玉忠;李保利;俞士汶因版权原因,仅展示原文概要,查看原文内容请购买。
1藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。
在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。
而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。
而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。
因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。
而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。
目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。
因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。
进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。
比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1];2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。
此外,祁坤钰提出了切分与格框架、标注一体化的藏语三级切分体系的藏文分词方法[3];才智杰实现了一种藏文分词方法,并首次提出了基于规则的方法“还原法”来处理藏语分词中紧缩词识别问题等[3]。
藏语动词形态的自动识别系统研究作者:俄果措安见才让来源:《电子技术与软件工程》2016年第06期摘要藏语自动分词和藏语动词形态自动识别过程中的一个重要部分,使藏语分词过程中字串的匹配对象。
电子词库中每一个词条的准确性直接影响着藏语自动分词结果和藏语动词形态自动识别结果。
因此,电子词典中主要收录了所选藏语语料库中的18本藏语(翻译版)教材的5000个词条。
【关键词】自动分词动词形态自动识别电子词典藏语动词的研究历来是藏语语法研究的核心。
藏语书面语约有1500 个单音节动词,其中大多数动词具有词形数目不等的时式形态变化。
在藏语的发展过程中,由于语言内部结构的语音变化及语言的外部影响,藏语动词的词形出现了不同的简化模式。
1 藏语动词形态自动识别模块藏语动词形态的自动识别是藏语句法分析和藏语八格的识别等过程中的一个重要环节。
藏语动词形态自动识别的目的是识别出藏语文本中的大量的藏语动词形态,并消除识别过程中动词形态的变化问题。
藏语动词形态自动识别模块采用了以藏语传统语法为依据,格桑居冕(1982)在《藏语文法教程》(简称教程)中对藏语书面动词进行了详细讲并收集其中所讲的藏语动词形态和动词形态的接续规则来实现。
最终建立了藏语动词形态的规则库,按规则库中相应的规则来识别句子中的动词形态的变化。
具体如图1所示。
2 藏语动词形态的自动识别算法如图2所示。
在藏语动词形态识别过程中动词形态处变化处理算法描述如下:S=“”在S中消除具有一个以上音节的词。
S=“”在S中消除虚词。
S=“”逐一取每一个词在词典中data中查找,如果查找到,就将结果存储在SS中,最后显示SS 中的内容,如下:3 藏语动词形态识别的运行结果如图3所示。
4 结束语通过探索藏文传统文法理论,建立藏语动词形态的接续规则,按照规则及相关的算法和模块实现藏语动词形态自动识别系统。
参考文献[1]格桑居冕,格桑央金.藏文文法教程[M].四川民族出版社,2004.11(391-513).[2]金鹏.藏语动词屈折形态向粘着形态的转变[J].中国藏学,1988(01)(131-139).[3]金鹏.《西藏现代口语动词的时态和体及其表达方法》.西藏研究1984(03)-1985(02).作者简介俄果措(1987-),女,青海省人。
藏文自动分词技术研究综述作者:于诗画赵小兵来源:《科技视界》2016年第06期【摘要】藏文分词是藏文信息处理中最为基础却又十分重要的工作,而藏文的自动分词是提高藏文信息处理工作效率的重要技术。
本文主要从藏文自动分词的意义、国内研究现状、分词方法以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。
【关键词】分词;藏文分词;分词方法1 藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。
在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。
而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。
而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。
因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。
而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。
目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。
因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。
进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2 国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。
比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1]; 2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。
藏文自动分词系统中虚词识别算法研究拉巴顿珠;欧珠;赵栋材【摘要】在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究.根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98%以上.%By analyzing a literature review of present Tibetan Auto-Segmentation solutions,we study on the difficult points of Tibetan function words recognition.According to the traditional Tibetan grammar,we described the forms of Tibetan function words in different texts.A holistic function word dictionary and rules set had been created by a rulesstatistics-combined method,and the function words segmentation algorithm had been implemented.We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields.The results show that the correct recognition rate of our system reaches up to 98%.【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)009【总页数】4页(P299-301,333)【关键词】藏文自动分词;藏文信息处理;虚词识别;藏文虚词【作者】拉巴顿珠;欧珠;赵栋材【作者单位】西藏大学藏文信息技术研究中心西藏拉萨850000;西藏民族大学陕西咸阳712082;西藏大学藏文信息技术研究中心西藏拉萨850000【正文语种】中文【中图分类】TP391藏文自动分词研究是藏文自然语言处理的前提,是藏文信息处理的一项不可缺少的基础性工作,具有广泛的应用前景。
藏文自动分词为词性标注、藏文语料库的建设、藏文文本校对、藏文字词频统计、搜索引擎的设计与实现、机器翻译系统的开发、藏文拼写检查以及语句理解等方面的研究奠定良好的研究基础。
目前,国内有关学者提出了很多不同的分词方案和算法理论,但这些方法还是没能解决自动分词过程中的一些关键问题。
如何准确地把句子切分成块,这是自动分词的关键任务和难点之一。
该问题需要运用规则和统计相结合的方法,准确地识别藏文句子中的虚词,才能把句子切分成块,但藏文虚词数量较多,出现的频率也很高。
据统计,没有虚词的一个句子也可以能够表达句子的含义,例如:但这种情况在文本中实际出现的概率很低,一般一个完整的句子中至少会出现一个虚词,特别是对一些长句而言,虚词能够更好地表达句子的实际意义。
本文根据虚词本身的特点,结合目前藏文自动分词过程中的难点和所存在的问题,对虚词的识别、紧缩词的识别及还原等问题提出具体的解决方法并予以实现。
1.1 虚词的概述在语言学中,词分为实词和虚词两大类,实词指的是具有实际意义的词,是藏文自动分词中独立运用而能够表达一定意义的最小分词单位。
虚词是与实词相对而言的,在文本或者句子中不能表达任何意义,也不能独立承担句子的主要成分。
虚词本身没有实在意义,也没有词性变化,但一个文本或句子中没有虚词就不能形成完整的语句,也不能表达出完整的含义。
在自然语言处理中,藏语虚词对词法和句法结构起着至关重要的桥梁纽带作用,虚词的用途广,在句子结构中用法和意义十分复杂,出现的频率相当高。
在实现藏文自动分词系统中的主要难点之一,因此,信息处理用藏文虚词识别研究很重要。
目前,很多语言学家和有关学者对藏文虚词的定义不尽相同,根据传统的藏文文法“三十颂”()描述,藏语虚词共有85个,分为65个不自由虚词和20个自由虚词,不自由虚词与自由虚词的主要不同在于有无受到前一个后加字或再后加字的限制,不自由虚词具有严格的接续规则,而自由虚词不受前一个音节后置字的限制,可以自由使用[1]。
1.2 计算机识别藏文虚词的难点(1) 同一个虚词,在不同的语境中充当不同的角色,所表达的意义也不同,从而出现虚词的歧义问题,我们称之为虚词的兼类性。
通过整理发现,共有以下25个既是虚词又是实词,(谁)(山羊)(队)(年龄、生病)(坡)(烟、多少)(天)(路)(懂)(脸)(女)(一双、二)(尸体)(年)(吻)(田地)(木)(青稞) (职业、从,)(奶牛) (母亲、不)(人、不)(牙齿)(再,又、轻)(虱子)。
(2) 很多虚词与其他的字或词组合成新词,该新词一般都不作为虚词,例如:等,称之为虚词的组合性。
此类词很多诞生在自由虚词中,自由虚词本身没有严格的接续规则,其中大部分虚词与其他字、词组合成新的词后表达具体的意义,从而导致文本中出现较多的歧义现象。
(3) 指人名词缀词。
中嵌否定词结合它的前后字、词,例如:等。
9个指人名词后缀是它的前一个字、词结合成新词,例如:等,其中“”也受前一个音节后置字的限制,属于不自由虚词。
(4) 虚词变体性。
当虚词前面音节字的后加字是或者词尾没有后加字时,省略后该虚词黏着在前一个词尾,这样无法判断该词尾的字符为虚词还是后加字(再后加字)[2],例如:该句子中的虚词黏着在词末,词尾出现的两个不是虚词,中的是再后加字,中的是的后加字。
例如:句子中的虚词黏着在词尾,他的原形为已还原的结果。
计算机识别藏文虚词根据虚词本身的特点和难点分析出发,按照一定的先后顺序进行判断,首先通过虚词兼类词典、单字词典、规则的不自由虚词词典库等进行划分,再识别紧缩词并还原,最后结合中嵌否定词、指人后缀来判断藏文虚词,如图1所示。
2.1 藏文虚词的识别过程计算机识别虚词的首要工作就是建立一个相对全面的词典库,为了提高词典库的质量,需要采用规则和统计相结合的方法,并进行大量的人工训练和测试。
另一方面,经实验和研究发现,藏文虚词在文本中表现形式相对复杂,单一形式的词典不能满足需求,因此要按照虚词在文本中的不同表现形式,建立几种不同的虚词词典(词典命名为xcself)。
(1) 虚词兼类词典(xcself1)。
通过对大量的语料进行训练,根据词频等特征,再结合虚词兼类性和组合性特点,收录比较固定,较常见的词,这样可以能够排除藏文分词中虚词兼类而导致分词不准确的问题。
例如,等。
另外不自由虚词中“”等虚词中间存在分隔符“·”的虚词也收录到该词典中。
(2) 单字词典(xcself2):除了已收录到虚词兼类词典中的词外,藏文虚词“”在藏文文本中均以单字词的形式出现,这些虚词在分词过程中作为分割点。
(3) 不自由虚词词典(xcself3):收录需要根据不自由虚词的接续规则识别的藏文虚词,该词典格式为:<虚词—前导字符—后接字符>。
2.2 紧缩词识别及还原根据紧缩词的变体性及特殊性,分两种情况进行识别,分别是一般紧缩词的识别和特殊紧缩词的识别。
(1) 一般紧缩词的识别方法:当一个音节符后面出现“”这四个字时,判断该紧缩词前导符的编码在0F40~0F68之间[3],并且切分紧缩词后的音节字长度为大于1,该音节字后面添加一个,否则,直接分离紧缩词。
(2) 特殊紧缩词(和)的识别方法:当出现“”这10个音节时,紧缩词和进行分离,分离后的还原成,还原成。
其中,以“”结尾的音节字,可能以“后加字”、“再后加字”、“紧缩词”3中不同形式出现,识别时还要先执行“再后加字”的识别算法,避免将“再后加字”和“紧缩词”混淆。
(3) “再后加字”的识别算法:首先计算机找出“”结尾的音节字,该音节字的长度大于等于4,并且从右起第二个字符在“”中,第三个字符编码不在0F40~0F68之间,或者,“”结尾的音节字长度大于等于3,并且从右起第二个字符在“”中,第三个字符的编码在0F40~0F68之间时,该音节字的最后一个字符“”为再后加字,这样可以排除大量“”结尾的音节字。
通过以上方法仍未能识别的紧缩词和,取出词末的和,去除紧缩词后的字符串与词典匹配,匹配成功,则和分离出来,并进行还原,若匹配不成功,紧缩词和分离后,前导字符的编码在0F40~0F68之间时,前导字符后面添加一个“”,与词典进行匹配,若成功,则紧缩词和进行还原。
2.3 自由虚词的识别方法在藏文传统文法中自由虚词没有变体性,而且不受前一个音节后置字的限制,可以自由使用,但自由虚词也并不是不受任何限制而随意使用,在文本中使用自由虚词时也具有一定的接续特点。
文中根据自由虚词本身的接续特点和出现歧义的问题,提出了较简单的自由虚词识别方法。
(1) 除了虚词兼类和虚词组合性的词外,例如:等词条均收录到虚词兼类词典库中[4],连词“”、指示代词“”、疑问代词“”、否定词“”、位格助词“和”、从格助词“和”均以单词的形式出现,即作为分词单位,当文本中出现以上虚词时直接识别为虚词。
(2) 中嵌否定词“”结合前后字、词,指人名词后缀“”与前一个字、词结合的词与词典进行匹配,作为分词单位,即与前一个词结合的词不作为虚词。
3.1 测试结果本文采用的测试语料包含了法律、新闻类、教育类、医学类、诗歌类、文学类等各个领域。
从中选择了较典型的3 200句进行测试,同时还考虑了文献的年代、地域等问题。
对测试语料进行分词,统计语料中虚词出现的次数并计算准确率(准确率=正确识别的总次数/测试语料中出现的总次数×100%),同时对虚词的兼类性、组合性、结合性、识别紧缩词及还原。
实验结果表明,文中提出的方法使虚词的识别率达到98.013 8%。
3.2 结果分析采用本虚词识别方法的结果分析发现,① 如:该句子中的,根据紧缩词的识别方法,去除紧缩词后的词在词典中,与词典匹配成功后紧缩词还原,错误地识别和还原成,导致成交集型歧义。
② 如:该句子中的词,既可以切分为“”,又可以切分为“”,但词在词典中,错误切分成“”,正确的切分结果为“”。
此类问题目前还未找到合适的处理方法,下一步将针对此类问题进行深入研究。
藏文虚词在文本中出现的频率极高,其应用广泛,表现形式复杂多变。
本文基于不同的语境中虚词的识别率和分词的准确度,根据传统的藏文文法,采用统计和规则相结合的方法,对较典型的3 200个语料句子进行了测试。