藏文自动分词系统中虚词识别算法研究

格式：docx
大小：41.18 KB
文档页数：7

下载文档原格式

藏文自动分词系统的设计

藏文自动分词系统的设计才智杰;才让卓玛【期刊名称】《计算机工程与科学》【年(卷),期】2011(33)5【摘要】语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础.随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题.自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析.本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分决算法和还原算法.系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础.%As the fundamental linguistic knowledge base, human-annotated corpora are the basis of many statistical natural language processing tasks. Along with the wide use of statistical methodsin natural language processing, corpus construction becomes an important research area. Word segmentation is necessary prerequisite of syntax parsing; its performance determines the parsing accuracy in a large degree. By the statistical analysis on a Tibetan corpus with 850,000 bytes, we first investigate the distribution and the syntactic function of Tibetan words, introduce a dictionary-based Tibetan word segmentation model, and then present the dictionary structure, case-auxiliary blocking and restoring algorithms which are necessary to Tibetan word segmentation. Thedevelopment of the Tibetan word segmentation system also facilitates the research of the Tibetan word input methods, the Tibetan electronic dictionary construction, the Tibetan word frequency statistics, the design and realization of the search engine, the development of the machine translation system, the security of the network information, the construction of the Tibetan corpus, and the Tibetan semantic analysis.【总页数】4页(P151-154)【作者】才智杰;才让卓玛【作者单位】青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁,810008;青海师范大学藏文信息处理省部共建教育部重点实验室,青海西宁,810008【正文语种】中文【中图分类】TP391【相关文献】1.班智达藏文自动分词系统的设计与实现 [J], 才智杰2.藏文自动分词系统中虚词识别算法研究 [J], 拉巴顿珠;欧珠;赵栋材3.基于词频学习和动态词频更新的藏文自动分词系统设计 [J], 项炜;金澎4.藏文自动分词系统中紧缩词的识别 [J], 才智杰5.藏文自动分词系统的设计与实现 [J], 陈玉忠;李保利;俞士汶因版权原因，仅展示原文概要，查看原文内容请购买。

藏文不自由虚词的自动识别研究

义。
２） “ ” 栩５ ” 是拉格助词
，
在虚词识别过程中出现以下规则可
跳过。
≈
ｓ３譬
（
）等・例如：酶鬟霉ｓ
（能濠聃动词）礴等。例如：
３） “ ”葺Ｑ “ ”建离食诵，在盎调｛｝ｌｊ５Ｉｌ进程串出现以下规则也霹瑞过・・
藏文不自由虚词的自动识别研究
卓玛吉安见才让
摘要：本文将通过传统藏文文法的语法规则，主要研究藏文文本中大量藏文不自由虚词的识别算法，同时建立了藏文不自由虚词的消岐规则库。使计算机快速地识别并消除藏文句子中不自由虚词的歧义问题。提高藏文自动分词的准确率。使句子的生产、句法分析、八格识别和机器翻译等研究的基础更扎实。关键词：藏文不自由虚词；自动识别；歧艾；规则库
钢
等四个虚词外，其余的５８个
不自由虚词在分词过程中都以单字词的形式出现。建立藏文虚词库ＸＣ；在ＸＣ库中分别建立ｂｚｙｘｃ和ｂｚｙｘｃ２两个表。在
表ｂｚｙｘｃ是不自由虚词中 “ 单字词 ”类虚词表（如：
虚词表。
想：
ｃＩ擎
等
倒如：争弹ｌ峄ｓ鞠
伪如：争∞每
ｎ
钠
倒如：㈣
’
１）本课题的研究根据传统藏文文法，结合最大匹配藏文分词法和藏文树型分词法，在藏文自动分词过程中与自动分词同时进行虚词识

藏文自动分词技术研究综述

1藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。

在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。

而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。

而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。

因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。

在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。

而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。

目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。

因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。

进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。

2国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。

比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1];2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。

此外,祁坤钰提出了切分与格框架、标注一体化的藏语三级切分体系的藏文分词方法[3];才智杰实现了一种藏文分词方法,并首次提出了基于规则的方法“还原法”来处理藏语分词中紧缩词识别问题等[3]。

藏语动词形态的自动识别系统研究

藏语动词形态的自动识别系统研究作者：俄果措安见才让来源：《电子技术与软件工程》2016年第06期摘要藏语自动分词和藏语动词形态自动识别过程中的一个重要部分，使藏语分词过程中字串的匹配对象。

电子词库中每一个词条的准确性直接影响着藏语自动分词结果和藏语动词形态自动识别结果。

因此，电子词典中主要收录了所选藏语语料库中的18本藏语（翻译版）教材的5000个词条。

【关键词】自动分词动词形态自动识别电子词典藏语动词的研究历来是藏语语法研究的核心。

藏语书面语约有1500 个单音节动词，其中大多数动词具有词形数目不等的时式形态变化。

在藏语的发展过程中，由于语言内部结构的语音变化及语言的外部影响，藏语动词的词形出现了不同的简化模式。

1 藏语动词形态自动识别模块藏语动词形态的自动识别是藏语句法分析和藏语八格的识别等过程中的一个重要环节。

藏语动词形态自动识别的目的是识别出藏语文本中的大量的藏语动词形态，并消除识别过程中动词形态的变化问题。

藏语动词形态自动识别模块采用了以藏语传统语法为依据，格桑居冕（1982）在《藏语文法教程》（简称教程）中对藏语书面动词进行了详细讲并收集其中所讲的藏语动词形态和动词形态的接续规则来实现。

最终建立了藏语动词形态的规则库，按规则库中相应的规则来识别句子中的动词形态的变化。

具体如图1所示。

2 藏语动词形态的自动识别算法如图2所示。

在藏语动词形态识别过程中动词形态处变化处理算法描述如下：S=“”在S中消除具有一个以上音节的词。

S=“”在S中消除虚词。

S=“”逐一取每一个词在词典中data中查找，如果查找到，就将结果存储在SS中，最后显示SS 中的内容，如下：3 藏语动词形态识别的运行结果如图3所示。

4 结束语通过探索藏文传统文法理论，建立藏语动词形态的接续规则，按照规则及相关的算法和模块实现藏语动词形态自动识别系统。

参考文献[1]格桑居冕，格桑央金.藏文文法教程[M].四川民族出版社，2004.11（391-513）.[2]金鹏.藏语动词屈折形态向粘着形态的转变[J].中国藏学，1988（01）（131-139）.[3]金鹏.《西藏现代口语动词的时态和体及其表达方法》.西藏研究1984（03）-1985（02）.作者简介俄果措（1987-），女，青海省人。

藏文自动分词技术研究综述

１藏文自动分词的主要意义
目前的藏文分词处理通常都是首先由计算机对藏文文本进行自
动分词．然后再对分词结果附以人工校对。但无论是计算机自动分词
分词其实就是按照一定的标准或规范将一系列连续的字序列重还是人工校对．前提是都需要符合一定的分词标准或规范以保证分词新划分成词序列的过程。在英文中，单词之间是以空格作为自然分界结果的正确性．从而也为藏文信息处理的后续工作提供统一的输入。符的，因此在词的理解上较为直观，它直接跨越了分词这一处理过程。但即使如此．也并不能完全保证分词结果的正确性，因为藏文自动分
的应用和发展。进而．藏文自动分词技术的研究与发展也即将对藏族采用最大概率方法来消解交集型歧义．主要利用词频信息来找出最佳
人民的生活、学习和工作等具有积极的作用和重要的意义。
的切分结果但是由于高频单音节对切分结果的影响，有时也往往无
２国内藏文自动分词的研究现状
而藏文的词与词之间是不具备任何形式的分界符的．这便给藏文的信词还面临着两个最大的困难：一是歧义切分问题，二是未登录词识别
息处理增加了一定的难度。而一段藏文在经过分词后。如果让计算机问题。
来处理这样一段由词组成的藏文句子．它首先需要对句子的词法进行４．１歧义切分问题
分析．然后才能够进一步去理解整个句子的具体含义。因此，藏文词的
在藏文信息处理＿Ｔ作中显得尤为重要
式的字段．称为分词歧义字段。针对分词中的歧义现象，人们从不同
在保障词的正确切分过程中．如果仅仅通过人ｌ丁的方式进行分词的角度提出了不同的分类方式。从歧义字段的主要构成形式来分，藏处理．显然是一个庞大而复杂的过程．并且会存在许多的弊端。而在飞文分词中歧义分为两种：一种是交集型歧义字段．另一种是组合型歧

藏文自动分词技术研究综述

藏文自动分词技术研究综述作者：于诗画赵小兵来源：《科技视界》2016年第06期【摘要】藏文分词是藏文信息处理中最为基础却又十分重要的工作，而藏文的自动分词是提高藏文信息处理工作效率的重要技术。

本文主要从藏文自动分词的意义、国内研究现状、分词方法以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。

【关键词】分词；藏文分词；分词方法1 藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。

在英文中，单词之间是以空格作为自然分界符的，因此在词的理解上较为直观，它直接跨越了分词这一处理过程。

而藏文的词与词之间是不具备任何形式的分界符的，这便给藏文的信息处理增加了一定的难度。

而一段藏文在经过分词后，如果让计算机来处理这样一段由词组成的藏文句子，它首先需要对句子的词法进行分析，然后才能够进一步去理解整个句子的具体含义。

因此，藏文词的正确切分在藏文信息处理工作中显得尤为重要。

在保障词的正确切分过程中，如果仅仅通过人工的方式进行分词处理，显然是一个庞大而复杂的过程，并且会存在许多的弊端。

而在飞速发展的信息技术社会背景下，如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词，将具有很大的研究意义。

目前，藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理，但是作为语言的基本组成单元，分词处理仍然是藏文信息处理中一项不可或缺的基础工作。

因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。

进而，藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。

2 国内藏文自动分词的研究现状迄今为止，随着藏文信息处理技术的不断研究与深入，藏文自动分词技术也取得了很多令人瞩目的成果。

比如，目前在国内公开发表的关于藏文分词方面的研究和系统有很多：1999年，中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1]； 2001年，陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。

信息处理中藏语虚词“na”和“la”的标注研究

ＩＮ０９－０４ＳＳ１０３４
Ｅｍａｆ＠ｅｃ．ｔｎ－ｉｋｊｃｅｅ．ｈｙｎｅ
ｈｔ：ｗｗｄｚ．ｅ．ｎｔ／ｗ．ｎｓｎｔｐ／ｅＴ１８ — ５１５９９３５９９４ｅ：６５－６０６６０６＋
Ｋｅｏｄｓｎｏａｉｎｐｏｃｓｉｇ；ｔｔｎｆｎｃｉｎｏｒｓａｇｎｙｗｒ：ｉｆｒｔｏｒｅｓｎｍｉａｕｔｏｗｄ；ｔｇｉｇｂｅ
１概述
在藏语中词都代表着一定的意义。与汉语词的分类一样，语的词也可以包括实词和虚词。实词是可以表示任何词汇的意义，藏
Ａｂｓｒ：Ｔｉｔｎｉｆｍａｉｏｃｓｉａｒｈｅｏｒｇｎａｏｄｐｒｃｓｉｏａｕｒｌｌｎａｅｐｒｃｓｉ，ｎｏａｙｒｄｕｌｏｈｅｔｃｔｂｅａｎｏｒｔｏｎｐｒｅｓｎｇｈｓｆｏｍｔｉｉｌｗｒｏｅｓｎｇｔｎｔａａｇｕｇｏｅｓｎｇｗｄａｓｇａａｌｔｔｙｓｔｃｃａａｙｉ，ｓｎｔｎｃｎａｙｓｓｕｏａｉａｌｂｓｒｃ，ａｔｍａｉｌｓｉｃｔｏｎｄｍａｈｉｒｎｓｔｏｙｎａｔｎｌｓｓｅｅｅａｌｉ，ａｔｍｔｃｌａｔａｔｕｏｔｃｃａｓｆａｉｎａｃｎｅｔａｌｉｎ．Ｂｕｈｅｅａｅｂｓｄｎｔｅｌｉｙｉａｔｔｓｒａｅｏｈｅｌｖｅ
而虚词则是用来表示语法意义，表示实词与虚词之间的组合关系。藏文句子中，成语句时虚词的作用和实词一样重要。在传统即构

基于虚词切分的藏文分词系统的设计与实现

（西藏大学藏文信息技术研究中心西藏拉萨８００）５００
摘要：藏文分词是藏文自然语言处理的基础。根据藏文虚词在藏文文本中的特殊作用以及虚词的兼
类性、结合性、着变体性和还原特性，黏设计实现了一个基于藏语虚词切吩的正向最大匹配的藏文分词系
向最大匹配算法。设虚词兼类词典中音节最多的词条的音节数为Ｓ一，Ｃ则每次从文本中截取的参与比较的藏文字符串ｗ的音节数Ｓ＜Ｓｍ。Ｗ在兼类词典中查找相同项，果找到说明是兼类虚词，Ｃ＿Ｃ将如进行切分，则去掉ｗ最后一个音节继续查找，否如此反复循环，到Ｗ中只剩下一个音节为止，后继续取Ｓ直此Ｃ
第２卷第２期７
２１０２年１Ｏ月
西藏大学学报ｃ自然科学版）
ＪＲＮＡＬＯＦＴＢＴＮＩＲＳＴＹＯＵＩＥＵＶＥＩ
、０．７Ｎｏ２ｒ１．２０ｃ．０２ｔ２ｌ
基于虚词切分的藏文分词系统的设计与实现
赵栋材
收稿日期：０２０— １２１ — ６２
基金项目：０１年度国家自然科学基金资助项目 “ ２１藏语语音合成关键技术研究” 项目号：１６００；００年度国家自然（６１５１）２１
科学基金资助项目 “ 基于虚词的藏语基本句型的形式化研究” 项目号：１６０５；０（６０３１）２１１年度国家自然科学基金资助项目 “ 藏语依存树库的构建” 项目号：１６０３；０９年度教育部长江学者与创新团队发展计划资助项目 “ （６１３４）２０藏文信息技术创新

计算机识别藏语虚词的方法研究

ＧＡＯＤｉｎｇｇｕｏ，Ｔａｓｈｉｇｙａｌ，ＺＨＡＯＤｏｎｇｃａｉ
（１．ＴｉｂｅｔａｎＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＥｎｇｉｎｅｅｒｉｎｇＲｅｓｅａｒｃｈＣｅｎｔｅｒ；ＴｉｂｅｔＵｎｉｖｅｒｓｉｔｙ，Ｌｈａｓａ，Ｔｉｂｅｔ８５００００，Ｃｈｉｎａ；
ｔｉｆｉｃａｔｉｏｎｏｆＴｉｂｅｔａｎｆｕｎｃｔｉｏｎｗｏｒｄ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｏｎ２５２５ｓｅｎｔｅｎｃｅｓａｃｈｉｅｖｅｓａｎａｃｃｕｒａｃｙｏｆ９７．０７６８ｍｅｔｈｏｄ．ｆｏｒｔｈｉｓ
计算机识别藏语虚词的方法研究
高定国，扎西加，赵栋材
（１．西藏大学藏文信息技术研究中心，西藏拉萨８５００００；
２．西藏大学工学院计算机科学系，西藏拉萨８５００００）摘要：藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础，而计算机自动识别藏文虚词又是藏语虚
词识别的正确率高达９７．０７６８。关键词：识别；藏语；虚词
中图分类号：ＴＰ３９１
文献标识码ｔｏｍａｔｉｃＩｎｄｅｎｔｆｉｃａｔｉｏｎｏｆＴｉｂｅｔａｎＦｕｎｃｔｉｏｎＷｏｒｄ

藏文信息处理中自动分词方法的研究

【摘要】藏文分词是藏文信息处理领域的一项不可缺少的基础性工作，也是智能化藏文信息处理的关键所在。在藏文分词的研究过程中藏文分词的准确性．直接制约着藏文输入法研究、文电子词典建设、藏藏文词频统计、索引擎的设计和实现、搜机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。文借鉴汉语的分词理论和方法，出符合藏文特性的分词方法，本提以及歧义字段切分和未登录词识别等相关问题．并举例说明。
【关键词】藏文分词；义字段切分；歧未登录词识别
１藏文自动分词的意义
中最基本、最重要的环节。不经过藏文分词上述工作很难进行，藏文分词是所有藏文信息处理的基础工作。
分词就是将连续的字序列按照一定的规范重新组合成词序列的３２歧义字段切分．过程英文是单词之间以空格分开，的界限是比较清楚的，词因此，在藏文分词歧义最常见的有：词的理解上比较直观．比如：ａｓｄｎ（Ｉｍａｔｅｔ英文）ｕ．一句中的单词间以（）１交集型歧义如果ＡＢ和Ｂｃ都是词典中的词，么如果待切那空格分开．英文已经跨越了分词这一步。而藏文是词与词之间没有明分字串中包含 “ Ｂ ” ＡＣ这个子串，就必然会造成两种可能的切分：Ａ／ “ Ｂ显的分隔符，：ｇｉｌｉｙ如ｎｏｍｚｇｉｎｓｂｈｎ一句中的单词间没有分隔符。藏ｃ ” “ Ｂ／。这种类型的歧义就是交集型歧义。比如 “ ｙｇｎ／和Ｃ” ｒｇｒ文以字ｆ音节字沩单位涟字成句才能描述一个完整的意思。而对由词ｔｈ” ｓｔｅ就可能造成交集型歧３（ｙｒｓｃｅｒ／ｔ／ｅ。ｈ￣ｒｄｈｈ／ｇｇｎｓｅ／ｇｔ／或ｙｒｈｈ）组成的藏文句子．计算机必须通过藏文分词技术才得以理解。因此，如ｆ）２组合型歧义如果ＡＢ和ＡＢ都是词典中的词，、那么如果待何运用计算机进行文本分词成了许多人的研究热点切分字串中包含 “ Ｂ这个子串．Ａ ” 就必然会造成两种可能的切分：Ａ／ “ Ｂ用藏文记载的经典文献、古籍著述和译作就如一个浩瀚的海洋， ” ＭＢ” 和“ ／这种类型的歧义就是组合型歧义。比 “ ｇａｎｉ就可如ｎｇｙ ” ｎｄ要用人工对如此繁多的文本进行分词．就是通过读取所有文章后一般能造成组合型歧义（ｇｎ／ｉ § ｎ／ｇｙ／ｎｇｎｄ诘ｇｎｉ）ｒｙ／ｉｒｎｄ再对它们进行分词标注．显然这种人工分类的做法存在着许多弊端：３３未登录词识别．是耗费大量的人力和物力。二是存在分词结果不一致性的问题。即未登录词指的是词典中没有收录的词。一个计算机分词系统要处使分词人员都是具有很高学识的专业人士．于不同的人来分词．对其理真实世界中的藏语语料．碰到未登录词几乎是不可避免的。比如：分词结果仍不相同甚至同一人在不同时间内做分词也可能会有不同ａ．中外的人名，地名Ｃａｍｅｒｋ ” “ｒｎ ” “ｋｉｉｏｇ克林ｉｈ．ｇｂｇ，ｈｎｄｎ（ｎｌ的结果因此．用计算机代替人工进行藏文文本的自动分词，尽可能地顿）； ”）满足人们所期望的各类藏文文本分词应用需求具有很大研究意义和ｂ中外组织机构单位名称和商品品牌名（ｃｎｔｎｙｍ． “ｉｌｇｃｉｒｎｉｒｓｇ重要的实现意义ｌ”，ｎｉｍｔｓｃｙｙｌｇ “ｇｌｓｉｐｉｓｙｄｋｎ ”“ ｌｂｇｏｏ “ ｙｒｇｎｇｉｎｉｇｏ ”．ｒｙｒｄｓｙｐｏｈｇ，ｓｏｓ藏文自动分词是目前藏文信息处理领域中公认的难题，因为藏文ｐａ” ；ｕｕ）自动分词是自然语言理解、机器翻译、息检索、信语言文字研究、藏文ｃ．专业领域的大量术语（ｄｙｎｔｉｄｙ，ａｇｙｇＡＳＩ” ； “ ｂｉｒｒｇ ”“ｎｉＣＩ）ｈｒ文本自动标注、信息提取、文本校对、文本生成、文本分类、自动摘要以ｄ新词语。．缩略语（Ｏ ” “ ９” ； ‘ Ｋ．Ｑ） ‘ 及藏文文字识别等领域中最重要、最基本的环节．具有广泛的应用前３藏文分词的方法－４景和很重要的现实意义可以说直接影响到使用藏文的每一个人的方目前在汉英文方面分词方法较多．由于藏文的语法结构与汉英语方面面。法结构不同．已有的分词方法不能直接使用到藏文分词中．需要修改藏文分词的研究要从语音、语义、语法、语用、语境五个方面进行原有的这些汉英分类算法或研制一种符合藏文特性的分词算法。本文彻底、细致、细、精规则化的研究，要以词为基本单位，步向词一短逐重点介绍用最大匹配分词法和最大概率分词法进行藏文分词过程。语一句字一句群一篇章等多层面藏文信息处理技术发展。３４１最大匹配分词法．．另外．藏文分词技术对推动社会的发展．方便人们的学习与生活．最大匹配法分词的过程很简单．先准备一个分词表．首顺序扫描促进人们的工作效率和生活质量的提高也有重要的意义待分词的句子，将句中候选词按照词长从大到小的顺序依次跟词表中的词进行匹配，匹配成功即作为一个词输出。如果一个句中的多字候２藏文自动分词技术的研究现状选词跟词表中所有的词匹配不上．只能把单字词当作分词结果输出随着藏文信息处理研究的深入．藏文文本自动分词问题已经引起最大匹配法分词由句中的候选词从待切分的分子串左边开始扫描的高度重视。成为藏文信息处理的一个前沿课题。经过十几年的研究。藏顺向最大匹配法和从右向左扫描来选取候选词的逆向最大匹配法两文文本自动分词技术也取得了令人瞩目的成果目前国内的有关学者种。如ｓ＝ｄｅｒｎｄｇｓｂｍ ”老师和学生）１ “ ｇｇｎｌ（ｏ在分词词表中最大词长已经提出了藏文分词的算法及规范方案：扎西次仁曾设计过一个采用ＭａＬｎ２对Ｓ进行分词处理：ｘｅ＝．１最大匹配算法的人机互助藏文分词和登录新词的演示系统：罗秉芬、ａＳ＝；１不为空，．２ …’ｓ从左边取出候选字串ｗ＝ｄｅｒｎ： “ ｇｇ ” 江狄曾提出过一个藏文计算机自动分词的基本规则：陈玉忠于２００１ｂ词表，ｄｅｒ ” ．查 “ｇｇ在此表中，ｗ加入到ｓｎ将２中，２ “ ｇｒ／。ｓ＝ｄｅｇ ” ｎ年设计实现了一个基于格助词和接续特征的藏文分词系统等并将ｗ从ｓ中去掉．ｌ此时Ｓ：ｄｇｌ ” １ “ｎｏｍｓｂ十几年来．藏文信息处理在各个方面得到了长足的发展．取得了ｃ１．不为空．Ｓ于是从ｓ左边取出候选字串＝ｄｇｌ ” １ “ ｎｏｓｂ不少成绩，产生了积极的社会效益。但具有全面性、系统性、科学性的ｄ查词表．不在此表中，ｗ最右边一个字去掉，得到Ｗ：．ｗ将藏文分词规范仍然未曾提出。因此，藏文分词的首要任务是研究并提 “ ｎ ” ｄｇ出符合藏文特性的最佳分词方案．以提高分词系统的切分精度和通用ｅ．词表．ｄｇ在此表中，ｗ加入到ｓ “ｎ ” 将２中，２ “ｇｒｄｇ ” Ｓ＝ｄｅｒｄｎ／ｇ。性．尽可能地满足人们所期望的各类分词应用需求并将ｗ从ｓ中去掉．１此时Ｓ＝ｓｂｍ” １ “ｌｏ

初中藏文信息处理中自动分词方法研究

特征识别和改进的算法。词边界特征识别是以特征词库中的词作为词切分标志，
依靠联想规则将一个音节串语块分割成更小的语块，对每个特征词建立不同的规则来处理特征词的左右边界。改进的算法是依据分词词表将藏文语块识别成
词，方法中正向和逆向合一进行，然后
型和组合型歧义的识别方法及未登录词
后的藏语短语作为匹配的对象。根据匹
配单位的需求可分为最大匹配法和最小
确率已经达到了９５％以上。（三）藏文分词测评
１．开放性易扩充性、可维护性和可移植性等特点。要求在开放环境下切
本原则和诸多辅助原则。
三、藏文自动分词研究（～）藏文分词方法１＿格分析法：这是藏语语法理论体系中固有的语法规律，藏语有比较完善
的形式逻辑格语法理论体系。格关系理
２．分割模块：以预处理后的藏文语
块为对象识藏文词。此模块分词边界
匹配，根据消歧需求可分为正向匹配和
逆向匹配等。
识别方法。进而提出了藏文自动分词的基础理论知识及分词技术方法。
一
统计方法：主要应用在获取先验知识方面，例如，藏文大丁字符信息表、
分精度和处理速度稳定在实用的程度。
２．通用性：藏文自动分词是高层藏
两者之长，为藏文分词单位确立两条基
及语音合成、文本检索、文本分类、自然语言接ｎ、自动文摘等，无处不渗透

藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究

藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究卓玛吉【期刊名称】《电脑与电信》【年(卷),期】2018(000)012【摘要】虚词作为藏文文献中重要成分,对文献识别过程也造成了很大的难度.本文通过传统藏文文法和语法规则,主要研究并提出了三种藏文历史文献中大量藏文自由虚词的识别算法,同时建立了具有284条规则的藏文自由虚词消歧规则库.使文献数字化过程中快速地识别并消除藏文句子中不自由虚词的歧义问题,提高藏文文献自动识别的准确率.%Functional words, as an important component of Tibetan literature, has caused great difficulties in the process of document recognition. Based on the traditional Tibetan grammar and grammar rules, this paper mainly studies and puts forward three kinds of recognition algorithms for a large number of Tibetan free function words in Tibetan historical documents, and establishes a rule base of 284 rules for Tibetan free function words disambiguation. In the process of digitalization, the ambiguity of unfree function words in Tibetan sentences can be quickly identified and eliminated, and the accuracy of automatic identification of Tibetan documents can be improved.【总页数】3页(P20-22)【作者】卓玛吉【作者单位】青海民族大学计算机学院,青海西宁 810007【正文语种】中文【中图分类】TP391.1【相关文献】1.藏文（含梵文）字丁自动识别方法研究 [J], 完么才让2.藏文自动分词系统中虚词识别算法研究 [J], 拉巴顿珠;欧珠;赵栋材3.藏文字结构自动识别与形式化描述研究 [J], 扎西拉旦;安见才让4.基于Python的藏文不自由虚词校对算法研究与实现 [J], 索南尖措;陈家威5.基于正则表达式的藏文虚词"ཞཞཞ"类识别算法研究 [J], 更藏卓玛; 安见才让因版权原因，仅展示原文概要，查看原文内容请购买。

计算机识别藏语虚词的方法研究

计算机识别藏语虚词的方法研究高定国;扎西加;赵栋材【摘要】藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提.该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2 525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.076 8％.【期刊名称】《中文信息学报》【年(卷),期】2014(028)001【总页数】5页(P113-117)【关键词】识别;藏语;虚词【作者】高定国;扎西加;赵栋材【作者单位】西藏大学藏文信息技术研究中心,西藏拉萨850000;西藏大学工学院计算机科学系,西藏拉萨850000;西藏大学藏文信息技术研究中心,西藏拉萨850000【正文语种】中文【中图分类】TP3911 引言近年来，随着藏文信息处理技术的发展，藏语的信息处理已经在字处理方面取得了很好的成绩，现进入到了语句研究的阶段，语句处理的前提是对藏语词的处理。

藏语中的实词由于其意义的实在以及在藏语的语义句法结构中的重要地位，受到了藏文信息处理学者们的普遍重视，也取得了一定的成绩，但面向信息处理的虚词研究还有待于加强。

虚词自身虽然用法灵活，但虚词与虚词、虚词与实词的搭配常常构成比较稳定的语义块标记[1]。

因此，从藏语的虚词入手，根据虚词的搭配及其在形成藏语语义块结构中的标记作用来分析藏语语句的句法结构，并据此进行藏语语句的语义块自动切分等研究，对藏文句子研究有很重要的作用。

藏语虚词在藏语文档中出现的频度很高，虚词搭配规则形式化分析的可行性则由藏语虚词自身的特点决定：虚词是封闭集合，其中的各个词汇是可以一一枚举的[2]；虚词尽管用法灵活，但它们是语言中性质比较稳定，不易产生变化的部分；虚词与其他词汇构成的搭配是确定的，也是可以枚举的[3]。

虚词搭配的可枚举性、稳定性和确定性等特点，使得虚词搭配关系的形式化规则特别有利于被擅长搜索和匹配的计算机所直接利用，从而对计算机句法分析提供简单、高效和健壮的句法规则。

面向自然语言处理的藏语虚词la格研究

面向自然语言处理的藏语虚词la格研究
索南才让
【期刊名称】《西藏大学学报（自然科学版）》
【年(卷),期】2013(028)002
【摘要】藏语虚词研究是藏语自然语言处理中一项不可缺少的基础性工作,有着极其广泛的实际应用价值.它是藏文信息处理的核心和藏语自然语言理解的基础,在藏文校对、信息检索、双语对译、自动分类等技术中有着广泛的应用前景.文章在前人研究的基础上,结合信息处理,从不自由虚词的分类体系、形式化描述等角度对藏语虚词la格的语法功能做了一些探讨,重点论述了藏语虚词la格的语法功能,提出藏语虚词规范的初步设想和处理方法.
【总页数】5页(P48-52)
【作者】索南才让
【作者单位】青海师范大学计算机学院青海西宁810008
【正文语种】中文
【中图分类】TP391.1
【相关文献】
1.基于文献计量的藏语自然语言处理研究分析 [J], 肖维霖
2.面向信息处理的藏语虚词知识库构建研究 [J], 才让三智;多拉
3.面向藏语自然语言处理的藏语语言资源建设 [J], 赵栋材
4.信息处理中藏语虚词"na"和"la"的标注研究 [J], 才让三智; 多拉
5.藏语虚词“dangsgra”和“ladon”表达“tsheskabs”的差异解析 [J], 普片多
因版权原因，仅展示原文概要，查看原文内容请购买。

藏文自动分词系统中虚词识别算法研究

藏文自动分词系统中虚词识别算法研究拉巴顿珠;欧珠;赵栋材【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)009【摘要】在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究.根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98％以上.%By analyzing a literature review of present Tibetan Auto-Segmentation solutions,we study on the difficult points of Tibetan function words recognition.According to the traditional Tibetan grammar,we described the forms of Tibetan function words in different texts.A holistic function word dictionary and rules set had been created by a rulesstatistics-combined method,and the function words segmentation algorithm had been implemented.We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields.The results show that the correct recognition rate of our system reaches up to 98％.【总页数】4页(P299-301,333)【作者】拉巴顿珠;欧珠;赵栋材【作者单位】西藏大学藏文信息技术研究中心西藏拉萨850000;西藏民族大学陕西咸阳712082;西藏大学藏文信息技术研究中心西藏拉萨850000【正文语种】中文【中图分类】TP391【相关文献】1.藏文自动分词系统中紧缩词的识别 [J], 才智杰2.藏文分词系统中紧缩格识别和藏字复原的算法研究 [J], 巴桑杰布;羊毛卓玛;欧珠3.藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究 [J], 卓玛吉4.基于Python的藏文不自由虚词校对算法研究与实现 [J], 索南尖措;陈家威5.基于正则表达式的藏文虚词"ཞཞཞ"类识别算法研究 [J], 更藏卓玛; 安见才让因版权原因，仅展示原文概要，查看原文内容请购买。

基于字典的藏文分词系统实现研究

基于字典的藏文分词系统实现研究作者：格桑多吉乔少杰何泽东来源：《电子技术与软件工程》2015年第15期摘要随着对语言文字信息处理研究工作的不断加深，藏文信息处理技术也逐渐从字信息处理走向了语言信息处理。

跟日语、汉语、韩语等语种的信息处理相同，藏文自动分词（ Tibetan Automatic Word Segmentation）是藏文信息处理中的一项必不可少的基础性工作，在此基础上才能划分短语、抽取概念以及分析主题，以至自然语言理解，最终实现智能化。

对于不同应用环境，藏文自动分词需要采用最合适的算法，本文通过对藏语语料的统计分析和藏语词的分布特点、语法功能的研究，提出了设计开发基于词典库的藏文自动分词系统，力求为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定基础。

【关键词】藏文信息处理技术藏文自动分词分词系统1 藏文分词研究现状随着中国西藏地区的科技和文化逐步发展，涉及到藏文信息的应用正在得到越来越多的关注和使用，基于藏文信息处理技术的应用因此应时而生。

其中出现了包括藏文输入法，藏文电子词典，藏文搜索引擎，藏文机器翻译系统等大量的基于藏文信息的应用。

但是，由于这些应用都需要藏文分词作为先决条件，这使得藏文分词的工作量急剧上升，而人工分词会耗费大量的人力物力，而且已经远远不能满足这些应用的需求和增长。

在这样的时代背景下，藏文自动分词的研究价值就体现出来了。

藏文自动分词可以为藏文输入法提供联想率最高的单词，可以为藏文电子词典提供藏语语料，可以为藏文搜索引擎提供关键词，为藏文机器翻译提供断句等等。

可见，藏文自动分词是藏文自然语言理解的一项基础性工程，也是一项必不可缺的工作。

藏语自然语言理解在机器翻译、信息检索、智能输入、校对、自动摘要、自动分类和词典编纂等领域有着广泛的应用价值。

藏文自然语言处理可以借鉴亲属语言汉语分词研究的已有成果和成功经验。

藏语自动分词中的数词识别方法研究

Identification of Numerals in Tibetan Word
Segmentation
作者：完么扎西[1];尼玛扎西[2]
作者机构： [1]青海师范大学民族师范学院,青海西宁810008;[2]西藏大学图书馆和现代教育技术中心,西藏拉萨850000
出版物刊名：西藏大学学报
页码： 96-104页
年卷期： 2015年第5期
主题词：藏语自动分词;藏语数词;藏语数词结构
摘要：藏语自动分词技术是藏语自然语言处理的基础。

文章通过分析藏语真实文本中的数词分类、数词词形以及数词结构等,提出了一种基于规则的识别方法。

文章中的藏语数词识别思想为：在自动分词过程中,通过判断待切分的词（w）i和已切分的词（wi-1）来重新组合。

经对小学一至六年级的数学藏文版教材及1500个含各类数词的句子语料进行测试后,数词的识别准确率达97.7%。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

藏文自动分词系统中虚词识别算法研究拉巴顿珠;欧珠;赵栋材【摘要】在分析现有藏文自动分词方法的基础上,针对藏文分词系统中虚词识别的难点进行深入研究.根据传统藏文文法,描述了藏文虚词在文本中不同的表现形式,用规则和统计相结合的方法,建立了较为全面的虚词知识库和规则库,并给出切分用虚词分块算法,该方法在不同领域的3 200个较典型的藏文句子进行了测试,结果表明,该方法的虚词识别率高达98％以上.%By analyzing a literature review of present Tibetan Auto-Segmentation solutions,we study on the difficult points of Tibetan function words recognition.According to the traditional Tibetan grammar,we described the forms of Tibetan function words in different texts.A holistic function word dictionary and rules set had been created by a rulesstatistics-combined method,and the function words segmentation algorithm had been implemented.We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields.The results show that the correct recognition rate of our system reaches up to 98％.【期刊名称】《计算机应用与软件》【年(卷),期】2017(034)009【总页数】4页(P299-301,333)【关键词】藏文自动分词;藏文信息处理;虚词识别;藏文虚词【作者】拉巴顿珠;欧珠;赵栋材【作者单位】西藏大学藏文信息技术研究中心西藏拉萨850000;西藏民族大学陕西咸阳712082;西藏大学藏文信息技术研究中心西藏拉萨850000【正文语种】中文【中图分类】TP391藏文自动分词研究是藏文自然语言处理的前提，是藏文信息处理的一项不可缺少的基础性工作，具有广泛的应用前景。

藏文自动分词为词性标注、藏文语料库的建设、藏文文本校对、藏文字词频统计、搜索引擎的设计与实现、机器翻译系统的开发、藏文拼写检查以及语句理解等方面的研究奠定良好的研究基础。

目前，国内有关学者提出了很多不同的分词方案和算法理论，但这些方法还是没能解决自动分词过程中的一些关键问题。

如何准确地把句子切分成块，这是自动分词的关键任务和难点之一。

该问题需要运用规则和统计相结合的方法，准确地识别藏文句子中的虚词，才能把句子切分成块，但藏文虚词数量较多，出现的频率也很高。

据统计，没有虚词的一个句子也可以能够表达句子的含义，例如：但这种情况在文本中实际出现的概率很低，一般一个完整的句子中至少会出现一个虚词，特别是对一些长句而言，虚词能够更好地表达句子的实际意义。

本文根据虚词本身的特点，结合目前藏文自动分词过程中的难点和所存在的问题，对虚词的识别、紧缩词的识别及还原等问题提出具体的解决方法并予以实现。

1.1 虚词的概述在语言学中，词分为实词和虚词两大类，实词指的是具有实际意义的词，是藏文自动分词中独立运用而能够表达一定意义的最小分词单位。

虚词是与实词相对而言的，在文本或者句子中不能表达任何意义，也不能独立承担句子的主要成分。

虚词本身没有实在意义，也没有词性变化，但一个文本或句子中没有虚词就不能形成完整的语句，也不能表达出完整的含义。

在自然语言处理中，藏语虚词对词法和句法结构起着至关重要的桥梁纽带作用，虚词的用途广，在句子结构中用法和意义十分复杂，出现的频率相当高。

在实现藏文自动分词系统中的主要难点之一，因此，信息处理用藏文虚词识别研究很重要。

目前，很多语言学家和有关学者对藏文虚词的定义不尽相同，根据传统的藏文文法“三十颂”()描述，藏语虚词共有85个，分为65个不自由虚词和20个自由虚词，不自由虚词与自由虚词的主要不同在于有无受到前一个后加字或再后加字的限制，不自由虚词具有严格的接续规则，而自由虚词不受前一个音节后置字的限制，可以自由使用[1]。

1.2 计算机识别藏文虚词的难点(1) 同一个虚词，在不同的语境中充当不同的角色，所表达的意义也不同，从而出现虚词的歧义问题，我们称之为虚词的兼类性。

通过整理发现，共有以下25个既是虚词又是实词，(谁)(山羊)(队)(年龄、生病)(坡)(烟、多少)(天)(路)(懂)(脸)(女)(一双、二)(尸体)(年)(吻)(田地)(木)(青稞) (职业、从，)(奶牛) (母亲、不)(人、不)(牙齿)(再，又、轻)(虱子)。

(2) 很多虚词与其他的字或词组合成新词，该新词一般都不作为虚词，例如：等，称之为虚词的组合性。

此类词很多诞生在自由虚词中，自由虚词本身没有严格的接续规则，其中大部分虚词与其他字、词组合成新的词后表达具体的意义，从而导致文本中出现较多的歧义现象。

(3) 指人名词缀词。

中嵌否定词结合它的前后字、词，例如：等。

9个指人名词后缀是它的前一个字、词结合成新词，例如：等，其中“”也受前一个音节后置字的限制，属于不自由虚词。

(4) 虚词变体性。

当虚词前面音节字的后加字是或者词尾没有后加字时，省略后该虚词黏着在前一个词尾，这样无法判断该词尾的字符为虚词还是后加字(再后加字)[2]，例如：该句子中的虚词黏着在词末，词尾出现的两个不是虚词，中的是再后加字，中的是的后加字。

例如：句子中的虚词黏着在词尾，他的原形为已还原的结果。

计算机识别藏文虚词根据虚词本身的特点和难点分析出发，按照一定的先后顺序进行判断，首先通过虚词兼类词典、单字词典、规则的不自由虚词词典库等进行划分，再识别紧缩词并还原，最后结合中嵌否定词、指人后缀来判断藏文虚词，如图1所示。

2.1 藏文虚词的识别过程计算机识别虚词的首要工作就是建立一个相对全面的词典库，为了提高词典库的质量，需要采用规则和统计相结合的方法，并进行大量的人工训练和测试。

另一方面，经实验和研究发现，藏文虚词在文本中表现形式相对复杂，单一形式的词典不能满足需求，因此要按照虚词在文本中的不同表现形式，建立几种不同的虚词词典(词典命名为xcself)。

(1) 虚词兼类词典(xcself1)。

通过对大量的语料进行训练，根据词频等特征，再结合虚词兼类性和组合性特点，收录比较固定，较常见的词，这样可以能够排除藏文分词中虚词兼类而导致分词不准确的问题。

例如，等。

另外不自由虚词中“”等虚词中间存在分隔符“·”的虚词也收录到该词典中。

(2) 单字词典(xcself2)：除了已收录到虚词兼类词典中的词外，藏文虚词“”在藏文文本中均以单字词的形式出现，这些虚词在分词过程中作为分割点。

(3) 不自由虚词词典(xcself3):收录需要根据不自由虚词的接续规则识别的藏文虚词，该词典格式为：<虚词—前导字符—后接字符>。

2.2 紧缩词识别及还原根据紧缩词的变体性及特殊性，分两种情况进行识别，分别是一般紧缩词的识别和特殊紧缩词的识别。

(1) 一般紧缩词的识别方法：当一个音节符后面出现“”这四个字时，判断该紧缩词前导符的编码在0F40～0F68之间[3]，并且切分紧缩词后的音节字长度为大于1，该音节字后面添加一个，否则，直接分离紧缩词。

(2) 特殊紧缩词(和)的识别方法：当出现“”这10个音节时，紧缩词和进行分离，分离后的还原成，还原成。

其中，以“”结尾的音节字，可能以“后加字”、“再后加字”、“紧缩词”3中不同形式出现，识别时还要先执行“再后加字”的识别算法，避免将“再后加字”和“紧缩词”混淆。

(3) “再后加字”的识别算法：首先计算机找出“”结尾的音节字，该音节字的长度大于等于4，并且从右起第二个字符在“”中，第三个字符编码不在0F40～0F68之间，或者，“”结尾的音节字长度大于等于3，并且从右起第二个字符在“”中，第三个字符的编码在0F40～0F68之间时，该音节字的最后一个字符“”为再后加字，这样可以排除大量“”结尾的音节字。

通过以上方法仍未能识别的紧缩词和，取出词末的和，去除紧缩词后的字符串与词典匹配，匹配成功，则和分离出来，并进行还原，若匹配不成功，紧缩词和分离后，前导字符的编码在0F40～0F68之间时，前导字符后面添加一个“”，与词典进行匹配，若成功，则紧缩词和进行还原。

2.3 自由虚词的识别方法在藏文传统文法中自由虚词没有变体性，而且不受前一个音节后置字的限制，可以自由使用，但自由虚词也并不是不受任何限制而随意使用，在文本中使用自由虚词时也具有一定的接续特点。

文中根据自由虚词本身的接续特点和出现歧义的问题，提出了较简单的自由虚词识别方法。

(1) 除了虚词兼类和虚词组合性的词外，例如：等词条均收录到虚词兼类词典库中[4]，连词“”、指示代词“”、疑问代词“”、否定词“”、位格助词“和”、从格助词“和”均以单词的形式出现，即作为分词单位，当文本中出现以上虚词时直接识别为虚词。

(2) 中嵌否定词“”结合前后字、词，指人名词后缀“”与前一个字、词结合的词与词典进行匹配，作为分词单位，即与前一个词结合的词不作为虚词。

3.1 测试结果本文采用的测试语料包含了法律、新闻类、教育类、医学类、诗歌类、文学类等各个领域。

从中选择了较典型的3 200句进行测试，同时还考虑了文献的年代、地域等问题。

对测试语料进行分词，统计语料中虚词出现的次数并计算准确率(准确率=正确识别的总次数/测试语料中出现的总次数×100%)，同时对虚词的兼类性、组合性、结合性、识别紧缩词及还原。

实验结果表明，文中提出的方法使虚词的识别率达到98.013 8%。

3.2 结果分析采用本虚词识别方法的结果分析发现，① 如：该句子中的，根据紧缩词的识别方法，去除紧缩词后的词在词典中，与词典匹配成功后紧缩词还原，错误地识别和还原成，导致成交集型歧义。

② 如：该句子中的词，既可以切分为“”，又可以切分为“”，但词在词典中，错误切分成“”，正确的切分结果为“”。

此类问题目前还未找到合适的处理方法，下一步将针对此类问题进行深入研究。

藏文虚词在文本中出现的频率极高，其应用广泛，表现形式复杂多变。

本文基于不同的语境中虚词的识别率和分词的准确度，根据传统的藏文文法，采用统计和规则相结合的方法，对较典型的3 200个语料句子进行了测试。

藏文自动分词系统中虚词识别算法研究

合集下载

藏文自动分词系统的设计

藏文不自由虚词的自动识别研究

藏文自动分词技术研究综述

藏语动词形态的自动识别系统研究

藏文自动分词技术研究综述

藏文自动分词技术研究综述

信息处理中藏语虚词“na”和“la”的标注研究

基于虚词切分的藏文分词系统的设计与实现

计算机识别藏语虚词的方法研究

藏文信息处理中自动分词方法的研究

初中藏文信息处理中自动分词方法研究

藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究

计算机识别藏语虚词的方法研究

面向自然语言处理的藏语虚词la格研究

藏文自动分词系统中虚词识别算法研究

基于字典的藏文分词系统实现研究

藏语自动分词中的数词识别方法研究

文档推荐

最新文档