藏语口语语音语料库的设计与研究
- 格式:docx
- 大小:45.46 KB
- 文档页数:11
语料库和知识库研究现状摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。
知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。
由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。
本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。
关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。
而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专著、论文等。
对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。
2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。
语音语料库的设计与实现一、引言语音语料库是指包含大量语音样本的数据库,其中包含了各种类型的语音数据,用于语音识别、语音合成、语音情感识别等领域的研究和应用。
语音语料库的设计与实现是建立一个高质量、丰富多样的语音资源库的关键步骤。
本文将从语料库的构建、数据采集、数据标注等方面,探讨语音语料库的设计与实现。
二、语料库的构建1. 语料库的构建目标语料库的构建目标决定了语料库的规模、内容和用途。
根据具体需求,可以构建面向特定领域的语料库,如医学领域的语料库、法律领域的语料库等;也可以构建通用领域的语料库,用于各种语音相关领域的研究和应用。
2. 数据来源语料库的数据来源可以包括实验室内部采集、公开数据集收集、众包数据采集等方式。
实验室内部采集可以保证数据质量和隐私安全,但成本较高;公开数据集收集可以节省成本,但数据质量和内容受限;众包数据采集可以快速获得大量数据,但需要注意数据的质量和标注准确性。
三、数据采集1. 采集设备语音数据采集需要使用高品质的麦克风和录音设备,以确保采集到的语音信号质量良好。
同时,应选择适当的采样率和位深度,以满足后续处理和分析的需求。
2. 采集环境语音数据的质量受到采集环境的影响,应选择安静的环境,并注意消除噪声和回声对语音质量的影响。
此外,还可以考虑采集多种环境下的语音数据,以提高语料库的多样性。
四、数据标注1. 标注内容语音数据的标注是为了提供与语音相关的丰富信息,如语音文本、语音发音、语音情感等。
标注内容需要根据语料库的使用场景和目标任务来确定,如语音识别需要标注准确的文本内容,语音情感识别需要标注准确的情感类别等。
2. 标注准则为了提高标注准确性和一致性,应制定详细的标注准则,并对标注人员进行培训和监督。
标注准则应包括对各种情况下的处理方式和标注规则,以避免标注歧义和错误。
五、语料库的管理与维护1. 数据存储与管理语料库的数据应存储在可靠的存储介质中,同时建立合理的数据管理系统,包括数据索引、备份、权限控制等。
藏语是藏族人民最主要的交际工具,其地域分布广阔,在国内主要分布于西藏、青海、甘肃、四川和云南等五省区,在国外则主要分布于毗邻中国西藏自治区的巴基斯坦、印度、尼泊尔、不丹等国的部分地区。
藏语有丰富多彩的方言,境内外藏语方言可分为中部方言(或卫藏方言)、东部方言(或康方言)、北部方言(或安多方言)、西部方言和南部方言。
早在20世纪三四十年代,部分学者就已开始运用现代语言学的理论和方法对藏语方言进行调查研究。
不过,这一时期从事藏语方言调查研究的学者还很少,成果寥寥。
新中国成立以后,运用现代语言学理论、方法来调查研究藏语方言的论著日益增多。
文章对新中国成立70年来在国内发表的关于藏语方言语音调查研究的汉文论著进行综述。
1藏语方言声母研究1.1声母的整体研究《藏语的复辅音》详细分析藏语复辅音的性质、特点、与声韵母和声调发展变化的关系及其在方言中的分布情况和发展趋势;王双成的《藏语鼻冠音声母的特点及其来源》考察鼻冠音在藏语方言分布以及鼻冠音声母在声学、演变上的特点,并分析其来源,认为基本辅音为浊音的鼻冠音声母来自不同前置辅音的“整化”或鼻音,而基本辅音为清音的鼻冠音声母一部分是从其他前置辅音“整化”来的,还有一部分是从前一类鼻冠音声母分化出来的,单纯的鼻音同时也能演变为鼻冠音声母[1]。
1.2各方言区的声母研究在对各方言区声母的研究中,讨论藏语安多方言声母的文章较多,主要有:华侃的《安多藏语声母中的清浊音——兼谈它与古藏语中强弱音字母的关系》[2]《安多方言复辅音声母和辅音韵尾的演变情况》[3]《安多藏语声母的几种特殊变化》[4]和《甘南夏河、玛曲藏语中复辅音声母比较》[5]、王荣德的《天峻藏语复辅音的特殊现象》[6]、王双成的《安多藏语轻重唇音的分化趋势》[7]及吕士良和于洪志的《藏语夏河话复辅音特点》[8]等。
其中,王双成的《安多藏语轻重唇音的分化趋势》详细讨论了久治、阿坝、红原等地口语和书面语中轻唇音f的来源,并将这一规律同汉语某些方言(如湘、粤、闽、赣等)进行比较,探究其历史演变模式。
浅谈中国少数民族濒危语言语音语料库的设计【关键词】:中国少数民族语音;濒危语言;语言语料库;设计策略分析一、引言语音语料库与传统的纯文本语料库具有很大区别,语音语料库的表达形式有三种,它对文本、语音以及声学参数进行了融合。
我们构建中国少数民族濒危语言语音语料库,不仅是为了系统而永久地保存那些濒临消失的少数民族语言的声音,也是为了给相关学者的研究提供便利。
当前,构建大型语料库并基于它来开展相关研究,已然成为了国内外语言学研究工作的一个重要趋势。
二、濒危语言语音语料库建设的实际价值分析计算机技术的应用使得语言学的研究机械工作量大大降低,那么相应的研究效率也就得到了很大的提升。
近年来,我国在语音语料库建设工作方面取得了长足的进步,建立并完善了许多新的语音语料库。
它们为语言研究及技术处理工作提供了许多重要的语料与技术参数,使得相关研究所取得的成功更加客观可靠,也更具实际应用价值。
我们建立濒危语言语音语料库不仅仅是为了给相关研究提供便捷条件,这同时也是对人类非物质文化遗产的必要保护。
随着经济的发展,全球化、城镇化等进程的不断深入,世界范围内使用非主体语言的人数锐减,逐渐地走到濒临消失的境地。
近年来,无论是政府相关部门还是一些民间团体,都开始为这些语言的保护工作付诸努力。
可以看到,许多的少数民族语言其实并没有具体的文字与书面语,对于这些语言的保护困难重重。
在意识到语言濒危的严重性,对语言多样性保护的重要性后,我国语言学界达成了共识,必须尽快采取更加多样化、系统化的形式与手段来帮助记录、保存那些濒临消失的语言。
因此,建立濒危语言语音语料库成为了一项刻不容缓的重要任务。
国家也建立相应的项目,即“中国少数民族濒危语言语音语料库”,该项目就是为了对中国境内那些濒危语言,通过语言、国际音标、录像等多样化的形式进行可能是最后一次的抢救性记录工作。
三、濒危语言语音语料库的具体设计策略语言语音语料库的构建工作不仅具有复杂性,还具有艰巨性,需要耗费大量的人力物力,在进行具体操作前要做好充分的准备工作,进行良好的整体规划,明确策略,规范步骤,从而有效减少返工与浪费问题的次数,提高工作效率。
藏语语言模型的研究现状及展望1. 引言1.1 研究背景藏语是一种属于藏缅语族的语言,在中国西藏自治区及周边地区被广泛使用。
随着社会发展和文化交流的深入,对藏语语言模型的研究需求日益增加。
藏语语言模型的研究不仅可以帮助人们更好地理解和使用藏语,还可以促进藏语信息处理技术的发展,为藏语文化的传承和发展提供坚实支撑。
深入研究藏语语言模型具有重要的现实意义和广泛的应用前景。
在过去的研究中,关于藏语语言模型的研究成果主要集中在语音识别、机器翻译、信息检索等领域。
研究者们通过构建大规模的语料库,利用统计方法和机器学习技术,不断提升藏语语言模型的性能和准确度。
当前的藏语语言模型研究还存在一些问题和挑战,如数据稀缺、语言风格变化等,限制了其在实际应用中的效果。
面对这些挑战,未来的发展方向应当着重在完善藏语语料库、提高语言模型的适应能力和准确性。
可以借鉴其他语言模型研究的经验,不断探索新的方法和技术,推动藏语语言模型研究向更深层次、更广泛领域发展。
通过不懈的努力和创新,相信藏语语言模型的研究将取得更加显著的成果,为藏语文化的传承和发展贡献力量。
1.2 研究意义藏语是世界上少数民族语言之一,拥有悠久的历史和丰富的文化内涵。
随着社会的发展和科技的进步,对藏语语言模型的研究意义日益凸显。
藏语语言模型的研究可以帮助我们更好地了解藏族文化和传统,促进文化的传承和发展。
随着藏区经济的蓬勃发展,对藏语语言模型的需求也越来越大,研究藏语语言模型可以为藏区的经济发展和信息化建设提供有力支撑。
藏语作为中国的少数民族语言之一,对于维护国家的语言文化多样性具有重要意义,研究藏语语言模型也是维护国家语言文化多样性的重要举措。
深入研究藏语语言模型的研究意义重大,不仅可以促进藏族文化的传承和发展,也可以为藏区的经济发展和国家语言文化多样性的维护做出积极贡献。
2. 正文2.1 现有研究成果目前关于藏语语言模型的研究已经取得了一些成果。
在语言模型的建模方面,研究者已经采用了深度学习技术来构建针对藏语的语言模型,使得在自然语言处理任务中能够更好地处理藏语文本。
藏语口语语音语料库的设计与研究黄晓辉;李京;马睿【摘要】Based on the research and analysis of the construction method of traditional phonological corpus, combined with the related needs of natural spoken speech recognition and the characteristics of Tibetan natural spoken language, the construction scheme and annotation standard of spoken language corpus suitable for Tibetan speech recognition is designed. A 50-hour Tibetan Lhasa spoken corpus with five layers of annotation including phonemes, semitone, syllables, Tibetanword and sentences is also constructed. The statistic characteristics show that this corpus retains the natural properties of spoken language, andalso has a balanced coverage of commonly used modeling units such as phonemes, semitone, so it is able to provide reliable data support for speech recognition technology based on Tibetan spoken speech data.%基于对普通语音语料库构建方法的研究与分析,结合自然口语语音识别研究相关需求以及藏语自然口语语音的基本特点,研究设计了适用于藏语语音识别的口语语音语料库建设方案以及相应的标注规范,并据此构建了时长50小时,包含音素、半音节、音节、藏文字以及语句共5层标注信息的藏语拉萨话口语语音语料库.统计结果显示,该语料库在保留口语语音自然属性的同时,对音素、半音节等常用语音建模单元也有均衡的覆盖,为基于藏语口语语音数据的语音识别技术研究提供了可靠的数据支撑.【期刊名称】《计算机工程与应用》【年(卷),期】2018(054)013【总页数】5页(P231-235)【关键词】语音语料库;口语语音;语音识别;标注规范;藏语拉萨话【作者】黄晓辉;李京;马睿【作者单位】中国科学技术大学计算机科学与技术学院,合肥 230026;解放军外国语学院工程系,河南洛阳 471003 ;中国科学技术大学计算机科学与技术学院,合肥230026;解放军外国语学院工程系,河南洛阳 471003 ;中央民族大学藏学研究院,北京 100081【正文语种】中文【中图分类】TP3911 引言语音语料库在语音处理技术的研究和发展过程中起着基础性的数据支撑作用,基于语音语料库的语音识别技术已经在汉语、英语等大语种语音研究领域取得了巨大成功,是目前发展最快,成果最多,最具实用前景的语音处理技术。
藏语是藏族人民普遍使用的地方语言,藏语语音处理技术的发展,可以有效地促进藏区与其他地区之间的语言沟通,增进民族间交流,从而支援藏区经济、科技、文化等领域的发展。
相比汉语、英语等大语种而言,由于使用人数少,地区经济基础薄弱,科教水平落后,面向藏语的语音识别不仅起步较晚,相关研究也滞后很多[1]。
尽管基于隐含马尔可夫模型(Hidden Markov Model,HMM)和深度神经网络(Deep Neural Network,DNN)的语音识别方法在汉语、英语等大语种语音识别中已经取得了显著成效[2],但在藏语口语语音识别上并没有同样出色的表现,即便采用深度神经网络进行特征提取[3],或是在大语种语料库上进行预训练,再迁移到藏语语料库上进行学习,其效果相较汉、英等大语种语言而言仍有很大差距[4],其原因就在于这些模型需要大量的语音数据进行训练才能发挥出潜能,而现实中面向藏语口语的可用语音数据极其稀缺,目前还无法满足这些模型的训练需求。
因此,构建适用于藏语口语语音识别的高质量语音语料库,对藏语口语语音识别技术的发展和应用具有重要意义,也是目前亟待解决的现实问题。
藏语语音语料库的构建通常以汉语、英语等大语种语音料库构建方法为基础,再依据藏语不同方言的语音学、语言学特点进行相应的改进,目前也取得了一定的成果,如杨阳蕊、李永宏等借鉴汉语连续语音语料库的构建方法,分别建立了基于半音节和三音素模型的藏语连续语音语料库[5-6]。
鲁茸江才等以藏语卫藏话为研究对象,建立了藏汉双语多模态生理语音数据库,并对其中的音频文件进行了文本标注[7]。
青海民族大学的德吉研究设计了语音识别语料库构建过程中音素选取的平衡算法,同时设计了安多藏语的机读音标[8]。
西藏大学的拉龙东智,采用自动与人工挑选相结合的方法来选取规整的文本语料,然后无噪声环境下以朗读方式录制语音,并在词和音节层面进行了语音的标注,同时建立了对应的发音字典[9]。
在语音合成领域,陈晨等参考汉语韵律标注的研究成果,结合藏语自身的语音特点,研究设计了面向藏语语音合成的语料库韵律标注规则[10]。
曲珍等则设计了包含音素、语调、音节、韵律4个层级的语料数据标注规则[11]。
在语音自动标注方面,李冠宇等以藏语拉萨方言为研究对象,基于迁移学习的思想,首先在英语音素集上充分训练GMM-HMM模型,再将其用于藏语语音的音素切分,有效提升了语音语料库的构建效率[12]。
张金溪等研究了基于单音素HMM和三音素HMM的语音自动切分算法,并将其应用于语音合成语料库的构建,提高了语音语料库标注信息的精确度和一致性[13]。
然而以上这些研究都是基于朗读语音的研究成果,并且面向不同的研究领域,在语料选取、语音特征等方面都与真实的藏语口语语音有较大差别,因此并不适用于藏语口语语音识别研究。
口语语音是最普遍、最常见的自然语言现象,具有丰富的语言现象和语义特征[14]。
基于口语语音可以进行说话人识别、内容识别、情感识别等多种语音处理技术的研究,因此具有很高的研究价值和应用前景。
面向语音识别的语料库要求其中的语音数据要覆盖尽可能多的语言现象,同时还要对不同语音现象有均衡的覆盖率,以避免因训练数据缺失或稀疏引起模型泛化性能较差的问题。
基于以上原因,本文对藏语口语语音数据库的构建方法进行了研究与实践,探索适用于语音识别的藏语口语语音数据库构建方案和标注规范,建立完备可靠的藏语拉萨话口语语音语料库,为藏语语音识别技术的发展提供可靠的基础数据支撑。
2 构建语音语料库的基本方法语音语料库的构建主要涉及声学、语音学和语言学3个领域,通常包括语料库设计和实现两个环节。
其中设计环节作为总的指导方向,重点针对说话者、说话内容、录音、存储、标注以及评估设计相应的规范和标准,实现环节则依据设计规范进行语料的采集、语音的录制和标注。
一个完整的语音库通常还包括一些必要的发音字典、统计特征等辅助信息,作为进一步完善或补充语音库的参考依据。
总体来讲,语音语料库的构建流程可以用图1来概括表示。
图1 语音语料库的构建过程根据语音数据的来源可将其分为朗读语音和口语语音两种类型,与之对应的语料库构建方法也有所区别。
朗读语音通常在录音房等安静环境下录制,由说话者依据正规书面语料朗读产生,如电视报道、新闻广播等,其典型特点是语调平缓、语速稳定、发音准确,所对应的文本语料语法规整、用词标准。
朗读语音语料库的一个优点就是语料是在录音之前就已经确定的,因此在录音完成之后,相应的标注文本也就自然形成。
基于朗读语音的语料库,语料资源丰富,构建效率高,语法规整,能够覆盖较多的语言现象,是目前常用的语料库构建方法。
但由于朗读语音的语料相对规整,说话者角色单一,因此与自然口语语音存在较大差别,导致基于朗读语音训练出的语音识别模型泛化性能较差,在真实口语环境下的识别性能并不理想。
口语语音是说话人在自然状态下表达观点时所发出的声音,是一种典型的自然语言现象。
口语的方言属性、用词习惯、语速语调以及不同说话场景下的背景噪音等特征都具有较大的随意性,因此带有鲜明的个性特点。
口语语音语料库的显著特点就是其语音数据的自然属性,能够鲜明地体现不同说话者以及说话内容的特征,因此具有较高的研究价值和应用前景。
由于口语语音能够准确反映真实的语音和语言现象,基于口语语音训练出的模型对真实的应用场景也具有更强的适应能力,这也是口语语音语料库的重要价值体现。
相比朗读语音而言,口语语音数据的获取和标注都要困难得多,主要有两方面因素:一是由于口语交谈内容可能涉及个人隐私问题,难以获得说话人的授权,尽管可以为说话人提供对话剧本,但这又不可避免的引入了朗读语音的特点,难以达到真正的自然口语效果;二是由于口语语音多发生于有背景噪声的自然场景中,通常有多人参与交谈,需要先进行录音以及必要的预处理操作之后,再由标注人员根据录音进行场景、说话者、说话内容等信息的文本标注,并且该过程是串行进行的,因此在人力、物力以及时间上都需要较大的成本投入。
3 藏语口语语音语料库的构建3.1 藏语口语语音学特点从语音学角度来看,藏语属于音素拼音型语言,即由音素组合构成声母以及韵母作为半音节,再由声母和韵母组合加上声调构成一个音节[15]。
因此,音素是藏语语音学上的最小发音基元。
标准的藏语拉萨话口语共计包含41种音素,其中辅音音素有28个,元音音素有13个,所有音素的拉丁转写及国际音标表示如表1所示。
表1 藏语拉萨话音素单元集音素类型辅音音素(28个)元音音素(13个)拉丁转写及国际音标b[p],d[t],gy[c],g[k],p[p'],t[t'],ky[c'],k[k'],z[ts],zh[tʂ],j[tc],c[ts'],ch[tʂ'],q[tɕ'],m[m],n[n],ny[ȵ],ng[ŋ],l[l],s[s],lh[ɬ],sh[ʂ],x[ɕ],hy[ç],h[h],r[ʐ],w[w],y[j]i[i],ii[i:],e[e],ee[e:],ue[y],oe[ø],ae[ɛ],a[a],aa[a:],u[u],uu[u:],o[o],oo[o:]音节是藏语发音的基本单元,音节由声母、韵母以及声调构成。