信息处理用藏文分词单位研究
- 格式:pdf
- 大小:327.93 KB
- 文档页数:5
基于深度学习的藏文分词关键技术研究[ ]摘要:藏语信息化处理对于藏语的传承与发展具有重要意义。
目前我国对于藏语信息化研究已经具有较高水平。
其中,藏文分词是藏文信息处理的基础任务,受到藏文研究人员的广泛关注。
现阶段,在藏文分词任务中,主要的研究方法从传统的方法(字符串匹配和统计分词)转向深度学习。
本文结合传统方法和深度学习的优势,提出了基于条件随机场(CRF)和自注意机制(Self-Attention)的藏文分词算法Self-Attention CRF。
通过藏文分词数据集,并进行实验,本文的算法在精准率提升了1.9%、召回率提升了1.2%、F1分数指标提升了3.2%。
关键词:藏文信息化;藏文分词;深度学习;条件随机场;自注意力机制1.引言藏族文字(藏文)作为历史悠久的文字,用独特的书写符号记录和传承珍贵的藏族文化。
现阶段,随着数字化、信息化时代的到来,藏文信息化使得藏文研究换发出新的生命力。
藏文分词是藏文信息处理的基础和前提[1]。
而藏文与汉语在语法上存在较大差异,因此,需要针对藏文的特殊语法结构设计分词算法。
传统的藏文分词方法有字符串匹配方法和统计分词方法,取得了较为理想的分词效率和分词结果。
随着深度学习和藏语语料的不断发展,基于深度学习的[2,3,4]藏文分词方法获得了较大关注。
但是,现有分词方法存在以下局限:(1)传统藏文分词方法精度上低于深度学习方法;(2)深度学习的分词方法, 以循环神经网络(Recurrent neural network,RNN)[5]和长短期记忆网络(Long short-term memory, LSTM)[6]为例,训练效率较低,下一个分词结果需要等待前一个结果输出。
并且,该模型无法更大范围获得上下文信息。
因此,本文基于现有藏文分词方法,结合传统方法的和深度学习方法的优势,克服以上局限,主要贡献如下:(1)构建藏文分词数据集;(2)引入自注意力机制self-attention [7],并行提取藏文文本信息;(3)提出基于条件随机场CRF[8]和自注意机制self-attention[7]的藏文分词算法,进一步提升藏文的分词模型的精度和效率。
藏文文本分类技术研究综述苏慧婧,群诺(西藏大学信息科学技术学院,西藏拉萨850012)摘要:该文介绍了藏文文本分类技术的研究与进展。
首先对现阶段常用的文本表示以及文本特征选择方法进行了分析和比较,接着回顾了藏文在机器学习方面的分类算法特点,深入讨论了不同算法应用在藏文文本分类技术上的研究情况,最后指出了当前藏文文本分类所面临的问题和挑战,并对未来的研究提出了建议。
关键词:藏文文本分类;文本表示;特征选择;机器学习中图分类号:TP391文献标识码:A文章编号:1009-3044(2021)04-0190-03开放科学(资源服务)标识码(OSID):Summary of Research on Tibetan Text Classification TechnologySU Hui-jing,QUN Nuo(School of Information Science and Technology,Tibet University,Lhasa850000,China)Abstract:This article introduces the research and development of Tibetan text classification technology.First,it analyzes and com⁃pares the commonly used text representation and text feature selection methods at this stage,then reviews the characteristics of Ti⁃betan classification algorithms in machine learning,and discusses the application of different algorithms in Tibetan text classifica⁃tion technology.Finally,it points out the current problems and challenges of Tibetan text classification,and puts forward sugges⁃tions for future research.Key words:Tibetan text classification;text representation;feature selection;machine learning自然语言是人们日常使用的语言,是人类学习生活的重要工具。
藏语语言模型的研究现状及展望
2. 词法分析
词法分析是自然语言处理的基础工作,其目的是将连续的文字序列划分成有意义的词
汇单元。
针对藏语词法分析的研究,主要包括分词、词性标注和命名实体识别等任务。
分
词是最基础的任务,目前已有一些基于规则和统计的方法进行研究,并取得了一定的效果。
由于藏语的特殊性和复杂性,对于分词任务的研究还存在一定的挑战。
4. 机器翻译
机器翻译是利用计算机将一种语言的文本转化为另一种语言的任务。
针对藏语机器翻
译的研究,主要包括基于规则的方法和基于统计的方法。
基于规则的方法主要是利用语法
规则和词典进行翻译,但是对于复杂结构和低频词的处理存在一定的困难。
而基于统计的
方法则是通过建立双语平行语料库,采用统计模型进行翻译,如统计短语的翻译概率等。
最近,随着神经机器翻译(NMT)的兴起,基于深度学习的机器翻译方法也逐渐受到关注。
1. 语料资源的扩充
目前,虽然对藏语的语料资源进行了一定的整理和汇总,但是仍然存在规模较小和领
域较为有限的问题。
未来需要进一步扩充和丰富藏语的语料资源,包括不同领域、不同类
型和不同语境下的数据。
3. 神经机器翻译的应用
随着神经机器翻译的兴起,其在机器翻译任务上的性能已经超过了传统的方法。
未来,可以将神经机器翻译的方法应用到藏语的机器翻译任务上,以提高翻译质量和效果。
优先出版 计 算 机 应 用 研 究 第32卷--------------------------------基金项目:基金国家自然科学基金(61032008,61262052,61262054);西北民族大学中央高校基本科研业务费专项资金资助项目(31920140064);甘肃省青年科技基金(1208RJYA053);作者简介:何向真(1977-),男,宁夏固原人,讲师,主要研究方向为少数民族语言文字信息处理(5967148@);李亚超(1986-),男,河南汝州人,助教,主要研究方向为自然语言处理、词法分析;马宁(1981-),男,宁夏吴忠人,博士,副教授,主要研究方向为自然语言处理;于洪志(1947-),女,山东龙口人,教授,博导,主要研究方向为语音学、少数民族语言文字信息处理;.基于音节标注的藏文自动分词研究何向真,李亚超,马 宁,于洪志(西北民族大学 中国民族语言文字信息技术重点实验室,兰州730030)摘 要:分词是藏文信息处理的基础性关键问题,是把连续的藏文音节序列组合成词序列的过程。
针对藏文分词中的特殊问题,把藏文分词问题看成判断音节在词中的位置过程,分别实现了基于最大熵、条件随机场、最大间隔Markov 网络模型等模型下的分词系统,并在同等条件下进行了实验对比。
实验结果表明,在当前四字位的标注集下,基于条件随机场的藏文分词系统取得了最好的分词结果,同时其它序列标注模型也取得了较好的效果,说明基于音节标注的分词方法可以较为有效的处理藏文分词问题。
关键词:关藏文;分词;序列标注;最大熵;条件随机场;最大间隔Markov 网络模型 中图分类号:TP391.1Study on Tibetan automatic word segmentation as syllable taggingHE Xiang-zhen, LI Ya-chao, MA Ning, YU Hong-zhi( Key Lab of Chinese National Linguistic Information Technology, Northwest University for Nationalities, Lanzhou 730030 ) Abstract: Tibetan word segmentation (TWS) is the process of combination the syllables sequence into words sequence, and which is the basic problem for Tibetan natural language processing. To solve the special problems in TWS, the paper reformulated the segmentation as a syllable tagging problem, and comparative experiments are conducted at the same condition in different sequence label models. Experimental results show that the TWS system with conditional random fields achieves the best performance in the condition of four-tag, other models achieve good results at the same time, all the above show that, the segmentation as a syllable tagging problem is a better approach to deal with TWS .Key Words: Tibetan; word segmentation; sequence label; maximum entropy; conditional random field; max-margin markov networks0 引言藏文是一种拼音文字,有30个元音字母和4个辅音字母。
藏文信息处理的原理与应用电子版
1. 藏文字符编码:将藏文字符映射为计算机能够处理的二进制编码,通常采用Unicode编码或其他自定义编码方案。
2.藏文文本分词:将藏文文本进行分词,将文本按照词语单位进行切分,方便后续处理。
3.藏文词性标注:对分词后的词语进行标注,判断其词性和语法功能。
4.藏文语言模型:建立基于藏文语料库的语言模型,用于进行自动语
言识别、句子生成等自然语言处理任务。
5.藏文文本分类与情感分析:利用机器学习技术对藏文文本进行分类
和情感分析,可以应用于舆情监测、情感分析等领域。
1.藏文机器翻译:将中文或其他语言的文本翻译成藏文,或者将藏文
翻译成其他语言。
2.藏文信息检索:实现对藏文文本的检索和索引,方便用户查找相关
信息。
3.藏文语音识别:将藏文声音转化为文字,实现对藏文语音的识别和
转录。
5.藏文文本挖掘与知识发现:通过对大规模藏文文本数据的分析和挖掘,发现其中的规律和知识,用于文本分析、情报分析等领域。
总之,藏文信息处理的原理和应用的电子化,可以帮助加速处理藏文
信息的效率和精确度,推动藏文信息化的发展。
信息检索系统中藏文自动提示的研究与实现武强;边巴旺堆【期刊名称】《电脑知识与技术》【年(卷),期】2014(000)019【摘要】Information retrieval has become a part of people work in today’s information society. As one ancient language, Tibet-an has blended in with today’s information age. There are more and more web pages, e-mails etc. in the form of Tibetan. The paper mainly discusses the structure, encoding, term segmentation of Tibetan and implementation mechanism and method of Ti-betan term suggestion, and analyses deeply the Tibetan word segmentation and Tibetan sort, finally implements the function of Tibetan term suggestion based on the value of a Tibetan wordin documents. From testing, the function can distinguish Tibetan word and get the Tibetan term suggestion based on value properly.%在当今信息社会,信息检索已经成为人们日常工作的一部分。
藏文作为一种古老的文字,也融入了当今的信息时代,越来越多的网页、电子邮件等电子文档以藏文形式出现。
基于字典的藏文分词系统实现研究作者:格桑多吉乔少杰何泽东来源:《电子技术与软件工程》2015年第15期摘要随着对语言文字信息处理研究工作的不断加深,藏文信息处理技术也逐渐从字信息处理走向了语言信息处理。
跟日语、汉语、韩语等语种的信息处理相同,藏文自动分词( Tibetan Automatic Word Segmentation)是藏文信息处理中的一项必不可少的基础性工作,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。
对于不同应用环境,藏文自动分词需要采用最合适的算法,本文通过对藏语语料的统计分析和藏语词的分布特点、语法功能的研究,提出了设计开发基于词典库的藏文自动分词系统,力求为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定基础。
【关键词】藏文信息处理技术藏文自动分词分词系统1 藏文分词研究现状随着中国西藏地区的科技和文化逐步发展,涉及到藏文信息的应用正在得到越来越多的关注和使用,基于藏文信息处理技术的应用因此应时而生。
其中出现了包括藏文输入法,藏文电子词典,藏文搜索引擎,藏文机器翻译系统等大量的基于藏文信息的应用。
但是,由于这些应用都需要藏文分词作为先决条件,这使得藏文分词的工作量急剧上升,而人工分词会耗费大量的人力物力,而且已经远远不能满足这些应用的需求和增长。
在这样的时代背景下,藏文自动分词的研究价值就体现出来了。
藏文自动分词可以为藏文输入法提供联想率最高的单词,可以为藏文电子词典提供藏语语料,可以为藏文搜索引擎提供关键词,为藏文机器翻译提供断句等等。
可见,藏文自动分词是藏文自然语言理解的一项基础性工程,也是一项必不可缺的工作。
藏语自然语言理解在机器翻译、信息检索、智能输入、校对、自动摘要、自动分类和词典编纂等领域有着广泛的应用价值。
藏文自然语言处理可以借鉴亲属语言汉语分词研究的已有成果和成功经验。
青海师范大学藏文智能信息处理省级重点实验室简介扳档︽才稗︽拜扁︽涤邦︽蝶搬︽惭稗︽捶拜︽翟罢︽地罢︽忱稗︽搬郴︽伴窗稗︽败罢︽罢采拜︽尝︽罢稗邦﹀青海师范大学藏文信息处理与机器翻译实验室是依托国家高技术“863”计划项目建立起来的。
1994筹建,2001年经青海省教育厅评估验收,正式命名为“省级重点实验室”,被评为“优秀实验室”。
是集科研和教学为一体的计算机藏文信息处理与汉藏机器翻译方面的省级重点实验室。
实验室承担了1986年以来,青海省获得的第一个“863”项目——《汉藏科技机器翻译系统》,于1998年8月通过国家级鉴定,该项目填补了国内汉藏英语言文字机器翻译领域的空白,技术上处于国际先进水平,并于2001年获青海省科技进步二等奖;1999年承担了第二个“863”项目,—《实用化汉藏科技机器翻译系统》,是青海省获得的第二个“863”项目,于2000年通过了“863”计划智能计算机系统主题专家组的验收;另外还承担了《藏文自动分词系统》、《科技藏文名称术语翻译方法与标准研究》、《藏文视窗平台研究》和《藏文属性统计研究》等国家和省级项目。
2003年9月通过了《藏汉西文计算机操作平台设计与实现》省级鉴定,该项目填补了藏文词组输入法的国内空白,处于国际先进水平,同时鉴定了《藏汉英三语互译电子词典》的研制开发,填补了藏汉英三语互译电子词典的国内空白,处于国际领先水平,对于足进汉藏英文化交流,加速藏区的发展以及藏语言文字信息化建设具有重要意义。
《班智达汉藏翻译系统》分为科技翻译系统和公文翻译系统。
汉藏科技机器翻译系统经青海省科委组织的专家组测试表明:该系统对科技领域内封闭语料句子和文章的翻译可读性可达95%以上,对开放语料的翻译可读性可达80%以上。
同时,为提高翻译的正确性和加强规则的针对性,整个科技系统分为以下四个子系统:汉藏物理翻译系统、汉藏数学翻译系统、汉藏化学翻译系统、汉藏计算机翻译系统,从而使系统的翻译可读性在原有基础上有了很大的提高。
藏文信息处理研究进展
高定国
【期刊名称】《广西科学院学报》
【年(卷),期】2018(34)1
【摘要】藏文有着悠久的历史,是藏族人民交流思想的工具.1997年,藏文编码字符集国际、国家标准的制定作为藏文信息处理的开始,至今正好20年.这20年中藏文信息处理起步、发展,取得了较好的成绩.本文简要回顾了藏文信息处理中字、词、句、段、篇的特点、处理方法及取得的典型成果,也回顾了藏语资源建设和应用研究取得的成果,并对藏文信息处理未来的发展方向进行展望.希望能为迈入藏文信息处理的初学者展示一个藏文信息处理发展的脉络,提供一个参考.
【总页数】11页(P1-11)
【作者】高定国
【作者单位】西藏大学,藏文信息技术研究中心,西藏拉萨 850000
【正文语种】中文
【中图分类】TP317.2
【相关文献】
1.藏文信息处理相关技术研究 [J], 嘎玛扎西;
2.论大数据时代藏文信息处理技术课教学改革 [J], 多结仁欠
3.青海省藏文信息处理与机器翻译重点实验室 [J],
4.藏文信息处理教育部重点实验室青海省藏文信息处理与机器翻译重点实验室简介
[J],
5.藏文信息处理中的几个关键问题研究 [J], 头旦才让
因版权原因,仅展示原文概要,查看原文内容请购买。