藏文文本自动分类(精选)
- 格式:ppt
- 大小:1.91 MB
- 文档页数:32
基于匹配算法的藏文自动分词作者:陈硕赵栋材周欢欢来源:《电子技术与软件工程》2016年第01期实现了一种基于哈希表索引和匹配算法的藏文分词的系统。
进行分词时,为达到消除部分歧义的目的,采用了正向最大匹配和逆向最大匹配算法相结合的方式进行藏文分词,通过分别计算两种分词结果的频率,然后选择频率较大的一个。
最终,通过对26个不同大小的文本对该系统进行测试和分析,得出了分词准确率在92%以上的结论。
【关键词】藏文分词匹配算法哈希表词典机制1 引言藏文信息处理存在着分词的问题,而藏文分词是对藏文词性标注、藏语音合成、机器翻译、大型语料库建设和信息检索等藏文信息处理的基础。
藏文分词的效果会对进一步研究的藏文词性标注、藏语音合成、机器翻译、大型语料库建设和信息检索等藏文信息处理软件的性能和效果产生影响。
为了提高分词的准确率,需要有一个足够大的词库,面对足够大的词库,对词库中的词语的搜索技术就显得十分重要,对词库中词语的搜索速度直接关系到分词系统的性能。
词库目前主要是采用索引的机制来实现的,一般用到的索引结构的包括线性索引、倒排表、Trie树、二叉树等。
线性索引、倒排表都是静态的索引结构,不利于插入、删除等操作。
2 分词2.1 词典机制算法本系统采用的是基于Hash索引的分词词典。
分词词典机制可以看作包含三个部分:首字Hash表、词索引表、词典正文。
词典正文是以词为单位txt文件,匹配过程是一个全词匹配的过程。
首先,通过首字Hash表确定该词在词典中的大概位置,然后根据词索引表进行定位,进而找到在词典正文中的具体位置。
该系统是采用Myeclipse10平台,使用Java语言进行实现的,直接调用Java里的hashmap创建函数,找到该词之后,然后进行字符串匹配。
2.2 基于匹配算法分词主流的分词方法有三种:分别为基于语言学规则的方法、基于大规模语料库的机器学习方法、基于规则与统计相结合的方法,鉴于目前藏文方面还没有超大型的句子语料库。
1藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。
在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。
而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。
而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。
因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。
而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。
目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。
因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。
进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。
比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1];2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。
此外,祁坤钰提出了切分与格框架、标注一体化的藏语三级切分体系的藏文分词方法[3];才智杰实现了一种藏文分词方法,并首次提出了基于规则的方法“还原法”来处理藏语分词中紧缩词识别问题等[3]。
初中藏文信息处理中自动分词方法研究作者:格桑来源:《杂文月刊·教育世界》2016年第08期西藏自治区昌都市洛隆县初级中学【摘要】藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。
在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。
本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。
【关键词】信息处理藏文分词分词方法藏文分词是藏文信息处理中一项不可缺少的基础性工作。
从文本的输入系统(如智能语句输入法、语音输入、手写输入),到文字处理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要基础之一。
众所周知,英文以词为单位,以空格隔开。
计算机可以容易地理解英文单词。
而藏文句子中,词与词之间没有明显的分隔符(如空格)。
藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。
而对由词组成的藏文句子,必须通过藏文分词技术才得以理解。
把藏文的音节字序列切分成有意义的词,是藏文分词的研究工作。
通过研究和分析藏文分词的概念以及国内外相关成果,本文系统地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、交集型和组合型歧义的识别方法及未登录词识别方法。
进而提出了藏文自动分词的基础理论知识及分词技术方法。
一、制定藏语词性标记集规范为了使藏文与汉文信息处理同步,建立统一的中文多文种信息处理平台,本项研究借鉴北京大学现代汉语词类及词性标记集规范、语料库词性标记集,制定了藏语词性标记集规范。
藏文自动分词技术研究综述作者:于诗画赵小兵来源:《科技视界》2016年第06期【摘要】藏文分词是藏文信息处理中最为基础却又十分重要的工作,而藏文的自动分词是提高藏文信息处理工作效率的重要技术。
本文主要从藏文自动分词的意义、国内研究现状、分词方法以及目前所面临的主要问题等方面来简单阐述藏文自动分词技术的相关内容。
【关键词】分词;藏文分词;分词方法1 藏文自动分词的主要意义分词其实就是按照一定的标准或规范将一系列连续的字序列重新划分成词序列的过程。
在英文中,单词之间是以空格作为自然分界符的,因此在词的理解上较为直观,它直接跨越了分词这一处理过程。
而藏文的词与词之间是不具备任何形式的分界符的,这便给藏文的信息处理增加了一定的难度。
而一段藏文在经过分词后,如果让计算机来处理这样一段由词组成的藏文句子,它首先需要对句子的词法进行分析,然后才能够进一步去理解整个句子的具体含义。
因此,藏文词的正确切分在藏文信息处理工作中显得尤为重要。
在保障词的正确切分过程中,如果仅仅通过人工的方式进行分词处理,显然是一个庞大而复杂的过程,并且会存在许多的弊端。
而在飞速发展的信息技术社会背景下,如果用计算机按照一定的规则和程序来代替人工进行藏文文本的自动分词,将具有很大的研究意义。
目前,藏文信息处理技术的应用已经在文字处理的基础上逐渐面向语言信息处理,但是作为语言的基本组成单元,分词处理仍然是藏文信息处理中一项不可或缺的基础工作。
因为分词结果的质量将直接影响到藏文检索主题排序、藏文机器翻译、藏文语音识别等藏文信息处理技术的应用和发展。
进而,藏文自动分词技术的研究与发展也即将对藏族人民的生活、学习和工作等具有积极的作用和重要的意义。
2 国内藏文自动分词的研究现状迄今为止,随着藏文信息处理技术的不断研究与深入,藏文自动分词技术也取得了很多令人瞩目的成果。
比如,目前在国内公开发表的关于藏文分词方面的研究和系统有很多:1999年,中国藏学研究中心的扎西次仁所发表的“一个人机互助的藏文分词和词登录系统的设计”可以看作是藏语分词研究开始的标志[1]; 2001年,陈玉忠设计实现了《一个基于格助词和接续特征的藏文分词系统》[2]。
藏文文本分类技术研究综述作者:苏慧婧群诺来源:《电脑知识与技术》2021年第04期摘要:该文介绍了藏文文本分类技术的研究与进展。
首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。
关键词:藏文文本分类;文本表示;特征选择;机器学习中图分类号: TP391 文献标识码:A文章编号:1009-3044(2021)04-0190-03Abstract :This article introduces the research and development of Tibetan text classification technology. First, it analyzes and compares the commonly used text representation and text feature selection methods at this stage, then reviews the characteristics of Tibetan classification algorithms in machine learning, and discusses the application of different algorithms in Tibetan text classification technology. Finally, it points out the current problems and challenges of Tibetan text classification, and puts forward suggestions for future research.Key words :Tibetan text classification; text representation; feature selection; machine learning自然語言是人们日常使用的语言,是人类学习生活的重要工具。
中文信息学报第17卷第3期JOURNALOFCHINFSEINFORMATIONPROCESSINGV01.17No.3一。
—————————————————————————————————————————————————————————————————————————————————————一文章编号:1003—0077(2003)03—0015—06藏文自动分词系统的设计与实现陈玉忠,李保利,俞士汶(北京大学计算语言学研究所,北京100871)摘要:藏文自动分词系统的研制目前在国内仍是空白。
本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计厦其详细的自动分词过程实例。
文章最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性。
关键词:计算机应用;中文信息处理;格助词;接续特征;藏文;自动分词中图分类号:TP391文献标识码:AWordSegmentationSystemTheDesignandhnplementationofaTibetanCHENYu—zhong,LIBao-li.YUShi—wHl(1nstltuleofComputationalI蚰gulHj湛,PekingUniversity,Bc≈1ng100871,Chirm)Abstract:Wordsegmentationfor‘Hberanhasnotbeenwellstudiedyet.ThispaperreportsTibetanwordsegmenrationsystemthatwedesignedandimplementedSeveralissuesaboutthesystemexplained,whichincludesys—architecture,knowtedgebases,segmentationstrategy,andalgorithms.Inpreliminaryexperiments,thesystemdemonstrateshigheraccuracymaddomainindependencyinformationprocessing;cose_auxil|aryword;continuousfeature;tibetanKeywords:computerapplication;Chinesewordsegmenlation一、引言随着对语言文字信息处理研究工作的不断深入,藏文信息处理技术也从字信息处理逐步转向语言信息处理。
基于SVM藏文文本分类的研究与实现作者:贾宏云群诺苏慧婧次仁罗增巴桑卓玛来源:《电子技术与软件工程》2018年第09期摘要利用SVM(支持向量机)技术对复杂繁琐的汉文文本资源进行快速分类已经相当的成熟,但其在藏文文本分类中的应用还处于研究阶段,因此实验目的在于测试该方法是否在藏文文本分类中具有良好的性能。
主要过程包括:文本向量空间模型化,获取SVM中核函数的参数并进行常用核函数分类性能对比,最后与Logis tic回归分类器进行同等条件下的实验对比,验证了支持向量机模型在藏文文本分类中具有良好的分类效果。
【关键词】藏文文本分类支持向量机Logis tic回归1 引言由于文本记录着时代变迁的痕迹,文本的数量在历史的长河中不断增加,因人们在查阅和学习的过程中对相关文本的寻找显得十分麻烦,所以文本分类的有效性对上述问题的解决具有重要作用。
同时伴随着科学技术的发展,人们开始利用计算机的高效性进行文本自动分类,因此对分类数学模型的选择变得更为重要。
目前,机器学习算法已成为主流的方法,尤其在中文文本分类算法的研究上已经相当成熟,特别是SVM算法利用最小结构风险的原理使得分类性能更加优异,在武汉理工大学熊浩勇[1]的硕士毕业论文中已经详细描述,虽然其具有对模型参数的设置相当复杂并且耗费时间长等不足之处,但所获取的模型参数十分精确。
由于SVM的核函数很多,因此不同结构的文本使用的核函数具有差异性,藏文文本也存在这种情况。
因此实验目的在于测试该方法是否在藏文文本分类中具有良好的性能。
主要过程包括:文本向量空间模型化,获取SVM中核函数的参数并进行常用核函数分类性能对比,最后与Logistic回归分类器进行同等条件下的实验对比,验证了支持向量机模型在藏文文本分类中具有良好的分类效果。
2 SVM模型分类原理SVM是一种二分类模型,但可以在多分类中进行多次二分类,它的基本模型定义在样本特征数据空间上的间隔最大的线性分类器,有效的解决样本特征数据在低维空间中非线性(线性也是非线性的特殊情况)的情况下,通过核函数把样本数据映射到高维空间中,利用经验风险和结构风险最小化原理找到线性超平面实现样本分类。
藏文组字部件的自动识别与字排序研究才华【摘要】藏文字有着独特的构字规则,组字部件的自动识别在藏文字、词、句层面的信息化处理有重要的应用.文章提出的藏文字部件自动识别方法理念为,现代藏文字按其第一个部件字符的不同分成5种结构类型,每一种类型又按其字长分为若干个子类,在每个子类中定义各字的部件识别算法,最后在藏文组字部件识别的基础上,给每个部件赋予序值,实现藏文字的有效排序.【期刊名称】《西藏大学学报(自然科学版)》【年(卷),期】2014(029)002【总页数】7页(P81-86,101)【关键词】藏文信息处理;构字部件;字符序值;字排序【作者】才华【作者单位】西藏大学藏文信息技术研究中心西藏拉萨850000【正文语种】中文【中图分类】TP391.1微软公司以叠置引擎和Open Type字库技术为基础,于2007年推出了基于藏文国际标准编码Unicode字符动态组合的藏文系统。
该系统支持与藏文书写方式相一致的输入法,并能解决国内其他藏文系统普遍存在的缺字问题,[1]该系统成为藏文电子资源及藏文应用软件开发的主流平台,基于该系统的藏文字及其组字部件的自动识别,是藏文字、词层面信息化研究的一项基础工作。
根据现代藏文文法,揭示并实现组字部件的自动识别对藏文字、词、句法层面的信息化有着重要的作用。
藏语为单音节语种,属拼音文字。
现代藏文有30个辅音字母,4个元音字母。
图1为典型的藏文字结构图。
藏文字由一到七个不同数量的部件字符纵横叠加组合而构成,出现在不同位置上的部件字符有着确定的数量及字形。
[2]图1中,A、B、C、D、F、G分别代表字部件中辅音字符出现的位置及与之对应的辅音字符集,依次叫做前加字符、上加字符、基本字符、下加字符、后加字符及再后加字符;E代表元音出现的位置,元音字符只能附着在某个基本字符或叠加字的上下部分,不能单独成字;英文字母的顺序代表了藏文字的拼读与书写顺序。
在Unicode或小字符集编码体系中,藏文字是以纵横动态组合叠加技术而生成的。
基于藏文古籍传播图像信息自动分类方法研究作者:高飞,沈淑涛来源:《科技传播》 2017年第22期摘要藏文古籍是藏文化的重要载体,种类复杂,内容庞大,在对藏族文化进行研究时,必须要对藏文古籍的图像信息进行分类。
研究了一种藏文古籍图像信息自动分类方法,通过对藏文古籍传播图像信息进行预处理提取出具有明显特点的图像传播信息,利用文本表示法表示出不同的图像信息,从而完成整个分类,借助检测仪计算分类的召回率和准确率,判断分类准确性。
关键词藏文古籍;图像信息;自动分类方法中图分类号 G2 文献标识码 A 文章编号 1674-6708(2017)199-0182-02目前我国藏文古籍卷秩浩繁,数量惊人,内容广博,成为伟大中华民族文化遗产的重要组成部分,也代表了先辈伟大的思想理念。
但是藏文古籍涉及内容过多,种类复杂,在研究藏族知识时,想要从海量藏文古籍中选取出有用的藏文古籍是一项极为困难的事情,学者一直寻求有效的方法高效准确的对藏文古籍图像传播信息进行分类。
本文给出了一种藏文古籍图像信息自动分类方法,首选对藏文古籍传播图像信息进行预处理,然后提取出具有明显特点的图像传播信息,利用文本表示法表示出不同的图像信息,从而完成整个分类,最后再用检测仪计算分类的召回率和准确率,找出不足,并不断优化[1]。
1 藏文古籍传播图像信息预处理藏文古籍传播图像信息自动分类方法分为分类和检测两个阶段,利用文献调研法对藏文古籍传播图像的相关信息进行研究,通过机器将得到的古籍传播图像信息进行分类。
图像信息分类总体框架如图1 所示。
图1 中,分类阶段利用分类器对图像信息的特征进行提取,经过文本处理、信息设置、文献研究等阶段实现图像的分类,测试阶段利用测试仪调查准确率和召回率,完成对分类结果的检测。
藏文古籍传播图像信息自动分类过程主要包括图像信息预处理、图像信息特征提取、图像信息文本表示、图像信息自动分类评测,其中,最重要的一步为图像信息特征提取,最困难的一步为图像信息文本表示[2]。
机器翻译用藏文自动分词探究官却多杰【摘要】According to the Tibetan and Chinese Machine Translation pretreatment process, put forward phrases as segmentation unit, so as to reduce the complexity of the Tibetan word segmentation algorithm. The test can improve the effect of Tibetan and Chinese Machine Translation effectively, meet Tibetan and Chinese Machine Translation source text pretreatment requirements.%针对藏汉机器翻译过程中的藏文预处理,提出切分单元尽可能短语化,从而降低藏文分词算法的复杂度。
经测试能有效提高藏汉机器翻译的效果,符合藏汉机器翻译源文预处理的需求。
【期刊名称】《电子测试》【年(卷),期】2015(000)022【总页数】3页(P46-48)【关键词】机器翻译;藏文;自动分词【作者】官却多杰【作者单位】青海师范大学民族师范学院,青海共和,813000【正文语种】中文【中图分类】TP391在藏汉机器翻译过程中,首先要对源文藏文部分进行分词预处理。
源文切分粒度直接影响分词算法的复杂度,单纯意义的分词算法将会以词为单位进行自动切分,尽可能切分到最细小的词语单元。
但在藏汉机器翻译时,切分粒度太小则翻译单元随之增加,并且需要进一步考虑这些细小的翻译单元在目标语言中的位置。
由此可知,采用纯粹的分词算法进行藏汉机器翻译源文预处理,既增加了分词算法的复杂度,又降低了藏汉机器翻译的效率。
本文提出在藏汉机器翻译源文预处理时,藏文分词粒度尽可能短语化,与翻译词典中最长的词条匹配,减少翻译单元和语序调整等额外的开销,从而缩短预处理时间并有效提高藏汉机器翻译的效率和质量。
基于栏目的藏文网页文本自动分类方法胥桂仙;向春丞;翁彧;赵小兵;杨国胜【摘要】该文提出了一种简单、快速的藏文网页文本分类方法.该方法利用网页栏目中词条的类别特征,结合网页文本提取技术,实现了快速、精确地将藏文网页文本归于预定义类别中.实验表明,该方法具有很高的网页文本分类正确率,对构建高质量多类别藏文语料库有重要作用.%In this paper, we present a simple and fast classification approach for Tibetan web pages. It takes advantage of the class characteristics of term in the web page columns and combines the text extraction technology of web pages to classify the Tibetan web pages into the predefined classes. The experiments show that the approach has high classification accuracy for Tibetan web pages classification. It has helpful for the construction of high quality and multi-classes corpus of Tibetan.【期刊名称】《中文信息学报》【年(卷),期】2011(025)004【总页数】4页(P20-23)【关键词】藏文信息处理;文本分类;藏文网页分类【作者】胥桂仙;向春丞;翁彧;赵小兵;杨国胜【作者单位】中央民族大学信息工程学院,北京100081;国家语言资源监测与研究中心少数民族语言分中心,北京100081;中央民族大学信息工程学院,北京100081;中央民族大学信息工程学院,北京100081;国家语言资源监测与研究中心少数民族语言分中心,北京100081;中央民族大学信息工程学院,北京100081;国家语言资源监测与研究中心少数民族语言分中心,北京100081;中央民族大学信息工程学院,北京100081【正文语种】中文【中图分类】TP3911 引言在一个多民族的国度,保护少数民族文化遗产是我们每个人的责任。
藏文文本情感分类系统设计
李海刚;于洪志
【期刊名称】《甘肃科技纵横》
【年(卷),期】2011(040)001
【摘要】本论述采用藏语三级切分体系对藏文文本进行分词和词性标注,并借助手工建立的藏文情感分析用词表,与已有的特征选择方法相结合提取情感特征,用相似度分类算法进行藏文文本的情感分类,达到了较好的分类效果.
【总页数】2页(P106-107)
【作者】李海刚;于洪志
【作者单位】西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030;西北民族大学,中国民族信息技术研究院,甘肃,兰州,730030
【正文语种】中文
【相关文献】
1.《格萨尔》伏藏文本中的"智态化"叙事模式——丹增扎巴文本解析 [J], 诺布旺丹
2.基于深度学习的藏文多极情感分类方法的研究 [J], 曲塔吉;安见才让
3.基于Django的文本情感分类系统设计与实现 [J], 谢思雅;施一萍;胡佳玲;陈藩;刘瑾
4.从五色四夷与十六大国看《白史》的历史层次——比较藏文本与蒙古文本《彰所知论》 [J], 何启龙
5.藏文文本自动校对方法及系统设计 [J], 珠杰;李天瑞;刘胜久
因版权原因,仅展示原文概要,查看原文内容请购买。