藏语语料库词语分类体系及标记集研究
- 格式:pdf
- 大小:1.60 MB
- 文档页数:6
初中藏文信息处理中自动分词方法研究作者:格桑来源:《杂文月刊·教育世界》2016年第08期西藏自治区昌都市洛隆县初级中学【摘要】藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的关键所在。
在藏文分词的研究过程中藏文分词的准确性,直接制约着藏文输入法研究、藏文电子词典建设、藏文词频统计、搜索引擎的设计和实现、机器翻译系统的开发、藏文语料库建设以及藏语语义分析研究等高层藏文信息处理技术的进一步发展。
本文借鉴汉语的分词理论和方法,提出符合藏文特性的分词方法,以及歧义字段切分和未登录词识别等相关问题,并举例说明。
【关键词】信息处理藏文分词分词方法藏文分词是藏文信息处理中一项不可缺少的基础性工作。
从文本的输入系统(如智能语句输入法、语音输入、手写输入),到文字处理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要基础之一。
众所周知,英文以词为单位,以空格隔开。
计算机可以容易地理解英文单词。
而藏文句子中,词与词之间没有明显的分隔符(如空格)。
藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。
而对由词组成的藏文句子,必须通过藏文分词技术才得以理解。
把藏文的音节字序列切分成有意义的词,是藏文分词的研究工作。
通过研究和分析藏文分词的概念以及国内外相关成果,本文系统地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、交集型和组合型歧义的识别方法及未登录词识别方法。
进而提出了藏文自动分词的基础理论知识及分词技术方法。
一、制定藏语词性标记集规范为了使藏文与汉文信息处理同步,建立统一的中文多文种信息处理平台,本项研究借鉴北京大学现代汉语词类及词性标记集规范、语料库词性标记集,制定了藏语词性标记集规范。
语料库的分类一、介绍语料库是指用于语言学研究的大规模文本数据集合,是自然语言处理(NLP)领域的重要资源之一。
通过对语料库的分类和应用,可以帮助我们更好地理解和分析自然语言现象,提高机器对语言的理解能力和处理效果。
本文将介绍几种常见的语料库分类及其应用。
二、基于文本来源的分类1. 平衡语料库平衡语料库是指从各个领域、不同类型的文本中均匀采样得到的语料库。
这类语料库可以用于构建通用的语言模型,对各种领域的文本进行处理和分析。
2. 领域特定语料库领域特定语料库是指针对某一特定领域的语言样本进行收集和整理的语料库。
比如医学领域的语料库可以用于医学文本的分类、信息抽取和实体识别等任务。
3. 实时语料库实时语料库是指根据实时产生的文本数据构建的语料库,例如社交媒体上的实时文本。
这类语料库可以用于情感分析、事件检测和舆情分析等任务。
三、基于语言类型的分类1. 单语语料库单语语料库是指只包含一种语言的文本数据集合,例如中文语料库、英文语料库等。
这类语料库可以用于机器翻译、语言模型训练等任务。
2. 双语对照语料库双语对照语料库是指包含两种语言的文本数据集合,例如中英文对照语料库。
这类语料库可以用于机器翻译、跨语言信息检索等任务。
3. 多语语料库多语语料库是指包含多种语言的文本数据集合,例如欧洲各国的语料库。
这类语料库可以用于跨语言信息检索、语言联系研究等任务。
四、基于文本属性的分类1. 口语语料库口语语料库是指包含口语化文本的语料库,例如电话对话、社交媒体文本等。
这类语料库可以用于语音识别、对话系统等任务。
2. 书面语语料库书面语语料库是指包含书面语文本的语料库,例如新闻报道、学术论文等。
这类语料库可以用于文本分类、信息抽取等任务。
3. 平行语料库平行语料库是指包含相同内容但使用不同语言表达的文本对,例如中英文平行语料库。
这类语料库可以用于机器翻译、句子对齐等任务。
五、应用领域1. 机器翻译语料库是机器翻译系统的重要训练数据来源,通过对平行语料库的分析和建模,可以提高机器翻译的准确性和流畅度。
基于知识反馈的藏文词性标注研究作者:洛桑嘎登仁增多杰来源:《计算机时代》2018年第07期摘要:藏文词性标注是藏文信息处理的首要问题。
以条件随机场模型为基本框架,首先构建398万词条(78.5M)的词性标注模型,然后对条件随机场模型的标注结果进行修正,归纳总结基于藏文自身语言特征的标注规则,形成词性标注规则知识库。
详细分析模型构建过程中所选取的每个特征项对标注结果的影响,最终确定最优特征模板。
实验结果表明,本文提出的基于知识反馈的藏文词性标注方法可以显著提高词性标注效果,准确率达到98.75%,已基本满足实际使用。
关键词:藏文;词性标注;知识反馈;条件随机场中图分类号:N34 文献标志码:A 文章编号:1006-8228(2018)07-73-03Abstract: Tibetan part-of-speech tagging is the the most important problem in Tibetan information processing. In this paper, based on the basic framework of Conditional random fields (CRFs), a part-of-speech model with 3.8 million entries is constructed. The model is modified according to the Tibetan grammar characteristics. The optimal characteristic template is finally determined by analyzing the influence of each characteristic selected in the construction of the model. Experimental results show that the method proposed in this paper can significantly improve the effect of Tibetan part-of-speech tagging. The accuracy reaches 98.75%.Key words: Tibetan; part-of-speech tagging; knowledge feedback; CRFs0 引言词性标注(part-of-speech,POS)是根据句子的上下文信息确定词的类型,是自然语言处理中一项非常重要的基础性工作,被广泛应用于信息检索、机器翻译、语义理解等领域[1]。
西藏研究Tibetan Studies2028年2月第8期No. 8Feb. 2028藏语传统辞书词目编排法MN完么才旦(西南民族大学中国语言文学学院,四川 成都210242[关键词]藏语;传统辞书;词目;编排[摘要]藏语传统辞书不仅历史悠久、种类丰富,而且在词目编排时采用了许多与其他语言 的辞书截然不同的方法。
早期的《翻译名义大集》等综合类辞书及《藻饰词论•长寿藏》等词 藻类专业辞书,均使用了按语义分类词目的类序编排法。
随着藏语正字辞书的出现,编纂者开始采取以字母表为顺序的词目编排方法。
到1634年强巴林巴•索朗朗杰在编纂《词语分别显明庄严》时,已经使用了非常严谨地按字母顺序编排词目的方法。
另外,藏语传统辞书在编排词目时还运用了数序编排法、前置辅音编排法、上置辅音编排法、元音顺序编排法等藏语辞书 独有的词目编排方法。
[中图分类号]G255.2 [文献标识码]A [文章编号]1002 - 0023 ( 2221)21 -2 28 - 12藏语传统辞书在漫长的发展过程中,形成了双 语对照、正字、辞藻、新旧词汇对照等辞书形式。
由于收词内容与使用范围的差异,不同类型的辞书在 词目编排方法上也不尽相同。
纵观世界辞书发展的 历史,世界各民族语言的辞书,首先出现的都是以语义分类排列(気叭卵QR 卽号&4)词目的辞书,人们 在查阅辞书时不像现在这么方便。
随着时代的发展,世界各民族语言辞书中先后出现形序编排法 (增<第&4)①和音序编排法(q R 訥L&4)②等词目编排方法,大大提高了人们使用辞书查阅资料的便捷性和实用性。
历代先贤编纂了大量优秀的经典辞书著作,藏语传统辞书亦 是遵循这样的发展轨迹。
本文以几部著名的藏语 传统辞书为例,对藏语传统辞书的词目编排规律做初步探讨。
一、义序编排法纵览世界各种语言的辞书编纂史,最初多是按语义分类编排词目的辞书。
“从公元前七世纪在亚述编写的苏末文亚述文双语难字表”③7],到2世纪 编纂的《尔雅》,再到6世纪编纂的《翻译名义大集 4•網电)>[2]和《语合二卷(x I go.<勺4)》7〕等,无一不是参照语义来分类和排列词目① 形序编排法一般指根据文字书写形体的结构特征来编排辞 书条目的方法,包括笔画检字法和部首检字法等,例如:古代汉文辞书 在编排词目时会根据汉字的结构,分出偏旁部首,并按照部首的笔画顺序排列词目,《说文解字》《康熙字典》等采用的均是形序编排法。
1央金藏文分词系统史晓东*2卢亚军**3*厦门大学人工智能研究所 361005E-mail:**************.cn**西北民族大学科研处 730030E-mail:*****************摘要:藏文分词是藏文信息处理的一个基本步骤,本文描述了我们将一个基于HMM的汉语分词系统segtag移植到藏文的过程,取得了91%的准确率。
又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。
关键字:藏文分词、自然语言处理、HMMA Tibetan Segmentation System – YangjinXiaodong Shi*, and Yajun Lu***Institute of Artificial Intelligence, Xiamen University, Xiamen 361005, China**Northwest University for Nationalities, Lanzhou 730030, ChinaAbstract: We described the porting of a Chinese segmentation system to handle Tibetan. The F-measure of the new Yangjin system is above 91% over a test corpus although the training corpus is relatively small. We also described more processing upon error analysis which led to further improvement.Keywords:Tibetan Segmentation, natural language processing, HMM1 引言随着少数民族语言(主要是藏、维、蒙)到汉语的机器翻译研究逐渐进入人们的视野实验,相关的少数民族语言基础法分析工具也亟待完善。
藏语重叠词及联绵词构词规律新探藏语重叠词及联绵词构词规律新探在探讨藏语构词规律时,我们不得不提到藏语中常见的重叠词及联绵词。
重叠词和联绵词在藏语中既是一种基本的词汇形式,又是一种重要的语法现象。
对于学习和理解藏语的人来说,探究这些词汇形式的构词规律是十分有意义的。
本文将深入探讨藏语重叠词及联绵词的构成规律,以帮助读者更好地理解和应用这些词汇形式。
一、重叠词构成规律的初步认识重叠词是藏语中一种特殊的词汇形式,指的是将一个完整的词重复出现两次,通过重复的方式来表达某种含义。
重叠词一般由两个相同的音节组成,例如“拉巴拉巴”、“扎西扎西”等。
重叠词的构成规律基本上可以归纳为以下几点:1. 重叠的音节必须相同且相邻,例如“拉巴-拉巴”,不能出现“拉巴-扎西”这样的组合。
2. 重叠词的意义是通过重复来加强或强调原词的含义,例如“拉巴拉巴”表示非常高兴,强调了高兴的程度。
3. 重叠词在句子中可以作为形容词、副词或者名词使用,根据上下文的不同,可能会有不同的变化。
通过以上初步分析,我们可以看出重叠词在藏语中具有一定的语法特征,并且其构成规律比较固定。
理解这些构成规律对于准确地理解和运用重叠词是非常重要的。
二、联绵词构成规律的进一步探究联绵词是一种比较特殊的词汇形式,在藏语中用来表达两种或多种意义的词语连接在一起。
联绵词的构成规律较为灵活,可以通过一些特定的构词方式来形成。
以下是一些常见的联绵词构成规律:1. 组合型联绵词:两个或多个完整的词汇通过结合形成新的词语,例如“嘎-嘎巴”、“艺-术贡”等。
2. 并列型联绵词:两个或多个完整的词汇通过并列关系连接在一起,例如“红-黄色”、“美-丽”等。
3. 组分型联绵词:将一个完整的词汇分为两个或多个部分,然后通过连接形成新的词语,例如“姐-妹”、“儿-童”等。
通过联绵词的构成规律,我们可以看到其灵活性和多样性。
在实际运用中,可以根据需要将不同的词汇进行组合,以表达更加准确和丰富的意义。
新编藏语语法教程第一章:藏语的基本特点和语音系统1.1 藏语的历史背景藏语是属于藏缅语系的一种语言,主要分布在中国的西南地区和印度的北部地区。
作为一种传统的藏族语言,藏语具有浓厚的历史和文化底蕴。
1.2 藏语的语音系统藏语的语音系统较为复杂,包括辅音、元音、声调等要素。
辅音的发音有清浊、送气、浊化等特点,元音的发音也存在长短、鼻化等差异。
此外,声调在藏语中也起着重要的区分作用。
1.3 藏语的基本词汇和词序藏语的基本词汇以单音节词为主,多音节词较少。
在词序上,藏语采用主谓宾的基本结构,但也存在一些特殊的语序现象。
第二章:藏语的名词和代词2.1 藏语名词的性别和数藏语的名词有三个性别,即阳性、阴性和中性。
在数方面,名词的复数形式有多种变化方式。
2.2 藏语代词的人称和格藏语的代词包括人称代词和物主代词。
人称代词根据不同的人称和格而发生变化,从而表示不同的语境。
第三章:藏语的动词和句法结构3.1 藏语动词的时态和语气藏语的动词分为过去、现在和将来三个时态,并具有陈述、命令、疑问等不同的语气形式。
3.2 藏语句法结构的基本特点藏语的句法结构以主谓宾为基本形式,但也存在一些特殊的句子结构,如主谓状、主状谓等。
第四章:藏语的语法变化和语气助词4.1 藏语的语法变化藏语的语法变化主要包括名词、动词和代词的变化形式。
这些变化形式在不同的语境中起着不同的作用。
4.2 藏语的语气助词藏语中存在多种语气助词,如肯定、否定、疑问等,这些助词在句子中起着标记语气的作用。
第五章:藏语的修辞和修饰手段5.1 藏语的比喻和隐喻藏语修辞手段丰富多样,其中比喻和隐喻是常见的修辞手法,用来增强语言表达的效果。
5.2 藏语的修饰手段藏语修饰手段包括使用形容词、副词、定语从句等方式来修饰名词和动词,使语言更加生动。
结语:本教程对藏语的基本特点、语音系统、名词和代词、动词和句法结构、语法变化和语气助词、修辞和修饰手段等方面进行了系统的介绍。
面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究才让加【摘要】双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义.目前国内外已建立了各类汉荚双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库.为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础.主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术.最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库.%The obstruction of bilingual Corpus and its automatic alignment research are of vital importance for the development of the computational linguistics. So far various types of Chinese-English bilingual corpus, including substantial sentnece aligned corpus for MT, have been developed both in China and abroad. In order to start the MT research involving minority with the state-of-arts technology, the research on the automatic alignments at the discourse level, paragraph level and sentence level between the Chinese and Tibetan vi-texts are necessary. This paper introduces a project on the Sino-Tibetanbilingual corpus alignments, the Chinese -Tibetan bilingual dictionary extraction, and the key technologies in the corpus collection, storage and retrieval. The project has accomplished such technologies as the Tibetan coding identification and conversion, thTibetan corpus construction, the Sino-Tibetan bilingual dictionary extraction, the Sino-Tibetan sentence alignment and word alignments, and finally achieving a large-scale aligned Sino-Tibetan bilingual corpus for Chinese-Tibetan machine translation.【期刊名称】《中文信息学报》【年(卷),期】2011(025)006【总页数】5页(P157-161)【关键词】汉藏机器翻译;汉藏双语语料库;编码;对齐技术【作者】才让加【作者单位】青海师范大学计算机学院青海师范大学藏文信息处理省部共建教育部重点实验室青海省藏文信息研究中心,青海西宁810008【正文语种】中文【中图分类】FP3911 序言近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多学者的认可。
藏语口语语音语料库的设计与研究黄晓辉;李京;马睿【摘要】Based on the research and analysis of the construction method of traditional phonological corpus, combined with the related needs of natural spoken speech recognition and the characteristics of Tibetan natural spoken language, the construction scheme and annotation standard of spoken language corpus suitable for Tibetan speech recognition is designed. A 50-hour Tibetan Lhasa spoken corpus with five layers of annotation including phonemes, semitone, syllables, Tibetanword and sentences is also constructed. The statistic characteristics show that this corpus retains the natural properties of spoken language, andalso has a balanced coverage of commonly used modeling units such as phonemes, semitone, so it is able to provide reliable data support for speech recognition technology based on Tibetan spoken speech data.%基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库.统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑.【期刊名称】《计算机工程与应用》【年(卷),期】2018(054)013【总页数】5页(P231-235)【关键词】语音语料库;口语语音;语音识别;标注规范;藏语拉萨话【作者】黄晓辉;李京;马睿【作者单位】中国科学技术大学计算机科学与技术学院,合肥 230026;解放军外国语学院工程系,河南洛阳 471003 ;中国科学技术大学计算机科学与技术学院,合肥230026;解放军外国语学院工程系,河南洛阳 471003 ;中央民族大学藏学研究院,北京 100081【正文语种】中文【中图分类】TP3911 引言语音语料库在语音处理技术的研究和发展过程中起着基础性的数据支撑作用,基于语音语料库的语音识别技术已经在汉语、英语等大语种语音研究领域取得了巨大成功,是目前发展最快,成果最多,最具实用前景的语音处理技术。
四音格词在汉藏语研究中的价值引言四音格词是指按照音节的音调形式可以分为四个不同调型的词汇。
在汉藏语系中,四音格词在语音、语意、语法等方面都具有独特的特点。
本文将探讨四音格词在汉藏语研究中的重要价值。
1.汉藏语系概述汉藏语系是世界上使用人数最多的语系之一,包括汉语、藏语、尼泊尔语等语言。
这一语系的存在丰富多样,研究其语音学、语法学、语义学等方面对于深入了解汉藏语系及其成员语言的特点具有重要意义。
2.四音格词的定义和分类四音格词是指按照音节的音调形式可以分为四个不同调型的词汇。
在不同的汉藏语言中,四音格词的分类和使用方式各不相同。
有的汉藏语言字音丰富,四音格词的变化甚多;有的汉藏语言则使用相对简单的四音格音节。
3.四音格词的语音特点四音格词在语音层面上展现出一些独特的特点,这体现在音节的音调、音高、音强等方面。
通过对四音格词的音节结构和音调变化的研究,可以深入了解汉藏语系中音调的演化规律,以及汉藏语系成员语言之间的联系和差异。
4.四音格词的语义特征四音格词在语义方面也具有一定的独特性。
不同音调的四音格词所表达的含义可能存在细微的区别,这为研究语义学提供了有价值的线索。
通过对四音格词的语义分析,可以揭示出汉藏语系成员语言的文化内涵、词汇表达习惯等方面的特点。
5.四音格词在语法研究中的应用四音格词在汉藏语系的语法研究中占据着重要位置。
例如,在句法结构分析中,四音格词的出现和变化可以揭示出动词、名词等词类的特征和用法。
通过对四音格词的语法分析,可以进一步完善汉藏语系语法体系,有助于理解和解释汉藏语系成员语言的句法结构和语法规则。
6.汉藏语系的语言保护与文化传承汉藏语系作为人类重要的语言资源,其保护与传承也是当今研究的重要课题。
四音格词作为汉藏语系中的重要语言元素,通过对其研究的深入,可以促进对原汁原味的汉藏语言环境的保护与传承,有助于汉藏语系文化的传统和发展。
结论通过对四音格词在汉藏语研究中的探讨,我们可以更全面、深入地了解汉藏语系的语音、语义、语法等方面的特点。
基于藏语语义分析的机器翻译技术研究何向真;万福成;于洪志;吴玺宏【摘要】Tibetan-Chinese machine translation is different from Chinese-English machine translation. One important rea-son, Tibetan is more dependent on the role of function word like the case-auxiliary word in the sentences. Classes of case-auxiliary words are various and the use of them is extremely different. This paper is to analyze the Tibetan case-auxil-iary words, integrate the semantic cues on the basis of Tibetan syntax tree, form the method of Tibetan-Chinese machine translation which is based on semantic cues. Through the experiment between the model of phrase and semantic, this method can be useful for Tibetan-Chinese machine translation.%藏汉机器翻译技术跟汉英机器翻译技术有所不同,其中,很重要的一个方面,藏语更依赖于格助词等虚词在句子中的作用,格助词种类繁多,用法差异很大。
针对藏语格助词进行分析,在藏语短语句法树库的基础上,加入了藏语本体特征的语义信息,形成融合藏语语义信息的藏汉机器翻译方法。