基于概率模型的汉语和越南语的人名音译方法_申文明
- 格式:pdf
- 大小:140.97 KB
- 文档页数:4
计算机辅助语言学习中基于KGMM模型的一种汉语声调识别技术及其应用研究计算机辅助语言学习中基于K—GMM模型的一种汉语声调识别技术及其应用研究一、引言汉语是我国的语言,其中官方通用语言为普通话,学习汉语主要是通过老师上课教、学生课后根据书本上的汉语拼音学习的方式进行。
这种方法对教师的依赖性过大,虽然教师通过普通话测试,但是仍然有一部分教师存在口音问题,同时这种学习方式对学生的普通话发音没有办法进行严格的评判。
随着计算机多媒体技术的发展,可以使用计算机通过评测系统进行计算机辅助语言学习。
而目前汉语普通话测试主要也是基于计算机辅助语言学习(Computer Assisted Language Learning ,简称CALL)[1]进行的。
本文从这个角度出发,首先获取模型设计的基频数据,设计并实现K-GMM模型,并初步分析这一技术应用于计算机辅助语言学习中的价值。
二、基于K-GMM模型的一种汉语声调识别技术汉语是声调语言,其单音节的声调模式共有五种,分别为阴平、阳平、上声、去声和轻声,[2]本文主要针对前四种声调进行分析。
汉语最重要的信息是通过声调的基频保持的,它是提高语音生动性的重要因素。
因此声调识别在汉语识别中十分关键,必须选用准确有效的方式方法提取基频,并对其进行必要的处理。
必要的处理手段主要有插值平滑处理、重采样处理以及归一化处理。
[3]通过这些必要的处理后,再通过建立一个识别模型才能够实现声调的识别。
识别模型的好坏在一定程度上决定了识别率的高低,因此本文为了实现非特定人声调识别而建立了K-GMM模型。
(一)基频提取算法原理为了保证提取基频的准确性,同时又要满足算法的复杂度较低以及算法的计算量小的要求,可选择自相关算法提取基频,并对基频数据进行后处理,得到一个较好的基频数据输入模型。
算法框图如图1所示。
假定随时间的变化语音信号的特性变化缓慢,因此可以将信号分割成一些短段(分帧)再加以处理,这些短段可以看作是来自一个持续声音片断,这个持续声音片段具有固定特性。
专利名称:一种融合发音特征汉语-越南语统计机器翻译方法专利类型:发明专利
发明人:史树敏,罗丹,黄河燕,陈友英,苏超
申请号:CN201910382004.3
申请日:20190506
公开号:CN110096715A
公开日:
20190806
专利内容由知识产权出版社提供
摘要:本发明公开了一种融合发音特征汉语‑越南语统计机器翻译方法,属于机器翻译及特征融合应用技术领域。
本方法通过汉语‑越南语平行语料,利用统计得到的汉语拼音声母与越南语的元音、韵母与辅音以及声调之间的相关性,将基于纯汉字的汉语语料转换为汉字辅以拼音‑声母‑韵母‑声调的格式,将基于纯音节的越南语语料转换成音节辅以元音‑辅音‑声调的格式;再将新格式语料输入机器翻译模型中进行训练,充分利用汉越双语独特的语言规律信息。
所述方法降低了稀缺资源统计机器翻译对大规模语料的依赖,解决了传统基于短语的统计机器翻译不能融合发音特征的缺点,提升资源稀缺型语言间的机器翻译性能。
申请人:北京理工大学
地址:100081 北京市海淀区中关村南大街5号
国籍:CN
代理机构:北京理工正阳知识产权代理事务所(普通合伙)
代理人:唐华
更多信息请下载全文后查看。
基于概率模型的汉语和越南语的人名音译方法
申文明;刘连芳;黄家裕;温家凯
【期刊名称】《广西科学院学报》
【年(卷),期】2010(026)004
【摘要】利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译.音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%.【总页数】4页(P439-442)
【作者】申文明;刘连芳;黄家裕;温家凯
【作者单位】广西大学计算机与电子信息学院,广西南宁,530004;广西大学计算机与电子信息学院,广西南宁,530004;南宁平方软件新技术有限公司,广西南
宁,530007;南宁平方软件新技术有限公司,广西南宁,530007;南宁平方软件新技术有限公司,广西南宁,530007
【正文语种】中文
【中图分类】TP391.2
【相关文献】
1.基于优选论的外国人名在两岸汉语中的音译变异研究 [J], 蔡晨
2.汉语人名地名音译词的"义溢出"现象探析 [J], 林木森
3.基于统计的改进音译单元的维文——汉文人名音译研究 [J], 谭煜辉
4.关于汉语人名、地名中几个辅音在藏语音译中的处理 [J], 张生民;
5.从变译理论看外国人名在海峡两岸汉语中的音译变异 [J], 蔡晨;
因版权原因,仅展示原文概要,查看原文内容请购买。
基于条件随机场的中文人名识别
葛文英;吕靖
【期刊名称】《安阳师范学院学报》
【年(卷),期】2010(000)005
【摘要】中文人名数量众多,规律各异,使得中文人名识别成为中文分词的重点和难点,中文人名识别技术的突破将对提高汉语自动分词和句法分析的准确性有着很重要的作用.本文根据中文人名的特点,利用条件随机场模型进行人名识别,通过第四届Bakeoff评测语料上测试,召回率为80.97%,准确率为94.42%,综合指标F为87.18%.
【总页数】3页(P16-18)
【作者】葛文英;吕靖
【作者单位】安阳师范学院,计算机与信息工程学院,河南,安阳,455002;安阳师范学院,计算机与信息工程学院,河南,安阳,455002
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于条件随机场的中文人名识别研究 [J], 邱莎;段玻;申浩如;丁海燕
2.条件随机场模型在中文人名识别中的研究与实现 [J], 唐钊
3.基于条件随机场的藏文人名识别研究 [J], 兰义湧;龙从军;赵小兵
4.基于条件随机场的蒙古文人名识别 [J], 白慧琨;王斯日古楞;宁静
5.基于条件随机场的藏文人名识别技术研究 [J], 珠杰;李天瑞;刘胜久
因版权原因,仅展示原文概要,查看原文内容请购买。
基于统计的中文四字姓名识别方法
近年来,随着中文信息处理技术的发展,中文四字姓名识别技术也受到了越来越多的关注。
基于统计的中文四字姓名识别方法是一种有效的中文四字姓名识别技术,它可以有效地识别出中文四字姓名。
基于统计的中文四字姓名识别方法是基于统计学的概率模型,它可以根据中文四字姓名的语言特征,构建出一个概率模型,从而实现中文四字姓名的识别。
首先,需要收集大量的中文四字姓名样本,并对其进行统计分析,以提取出中文四字姓名的语言特征,然后根据这些特征构建出一个概率模型,最后,根据概率模型对新的中文四字姓名进行识别。
基于统计的中文四字姓名识别方法具有计算简单、准确率高等优点,可以有效地识别出中
文四字姓名,为中文信息处理技术的发展提供了有力的支持。
然而,基于统计的中文四字姓名识别方法也存在一些不足之处,比如,它需要大量的样本
数据,而且模型的构建过程较为复杂,需要耗费大量的时间和精力。
因此,为了提高基于统计的中文四字姓名识别方法的准确率,需要不断改进模型,提高样
本数据的质量,并加强对模型的管理和维护。
总之,基于统计的中文四字姓名识别方法是一种有效的中文四字姓名识别技术,它可以有效地识别出中文四字姓名,为中文信息处理技术的发展提供了有力的支持,但是也存在一
些不足之处,需要不断改进模型,提高样本数据的质量,并加强对模型的管理和维护。
《基于CRF的蒙古文人名自动识别》篇一一、引言蒙古文文献中的人名识别是自然语言处理领域的一个重要任务。
随着信息技术的快速发展,自动识别蒙古文人名对于文献的数字化、信息提取和知识图谱构建具有重要意义。
传统的蒙古文人名识别方法往往依赖于规则或模板匹配,然而这些方法往往无法处理复杂的语言环境和多样化的命名习惯。
近年来,条件随机场(CRF)模型在序列标注任务中表现出色,因此本文提出基于CRF的蒙古文人名自动识别方法,旨在提高人名识别的准确性和可靠性。
二、CRF模型简介条件随机场(CRF)是一种统计学习方法,用于序列标注问题。
在自然语言处理中,CRF模型能够有效地处理具有依赖关系的序列数据。
其基本思想是在给定输入序列的条件下,预测输出序列的概率分布。
在蒙古文人名识别中,CRF模型可以根据上下文信息,预测人名的起始、中间和结束位置。
三、蒙古文人名特点及数据预处理蒙古文人名具有丰富的形态变化和语义信息,包括单名、双名、昵称、别名等。
此外,蒙古文书写系统中存在大量的同音字和近音字,增加了人名识别的难度。
因此,在进行人名识别之前,需要进行数据预处理工作,包括分词、去除标点符号、统一字形等。
此外,还需要构建一个包含人名及其上下文信息的标注语料库,为CRF模型提供训练和测试数据。
四、基于CRF的蒙古文人名自动识别方法本文提出的基于CRF的蒙古文人名自动识别方法主要包括以下步骤:1. 特征提取:从标注语料库中提取人名及其上下文信息作为特征。
这些特征包括人名前后词汇、词性、语法功能等。
2. 模型训练:利用CRF模型对提取的特征进行训练,学习人名识别的规律和模式。
在训练过程中,通过调整模型参数,优化人名识别的准确率和召回率。
3. 人名识别:将训练好的CRF模型应用于待识别文本中,预测人名的起始、中间和结束位置。
同时,结合上下文信息,提高人名识别的准确性和可靠性。
4. 结果评估:对识别结果进行评估,包括准确率、召回率和F1值等指标。