语音识别的发展及应用
- 格式:doc
- 大小:27.00 KB
- 文档页数:4
语音识别技术的进展与应用前景一、引言近年来,随着科技的快速发展和智能化的浪潮席卷全球,语音识别技术作为一种重要的人机交互方式,逐渐走入人们的生活。
本文将介绍语音识别技术的进展,探讨其应用前景,并对其未来的发展进行展望。
二、语音识别技术的发展历程语音识别技术起源于20世纪50年代,最初的应用主要集中在军事和情报领域。
经过多年的努力,随着计算机性能的提升和算法的改进,语音识别技术取得了长足的进步。
1. 统计模型方法从70年代开始,统计模型方法成为主流的语音识别技术。
该方法主要基于隐马尔可夫模型(HMM)理论,通过建立声学模型和语言模型,实现对语音的识别和转换。
这一方法的核心是将语音信号转化为概率分布,从而能够准确地识别用户的语音指令。
2. 深度学习方法21世纪初,深度学习方法的出现引起了语音识别技术的革命性进展。
通过深度神经网络(DNN)的训练,实现从原始语音信号到文字转录的端到端的转换。
深度学习方法在识别准确性和模型复杂度方面都取得了巨大的提升,成为目前最主流的语音识别技术。
三、语音识别技术的应用领域语音识别技术在众多领域中展现出广阔的应用前景,既提高了效率,也为人们带来了更便捷的交互方式。
1. 智能助手智能助手如Siri、小冰等使用了语音识别技术,能够通过用户的语音指令回答问题、提供服务。
这种人机交互方式更加自然、便捷,提升了用户的使用体验。
2. 语音输入语音输入技术的成熟应用使得人们可以通过语音输入文字,极大地提高了输入效率。
尤其对于一些视力或者手部受伤的用户来说,语音输入成为必不可少的工具。
3. 安防监控语音识别技术在安防监控中有着广泛的应用。
通过语音识别可以实时监听和分析环境中的声音,准确判断是否存在异常情况,提高安全性和预警能力。
4. 语音翻译语音识别技术可以将不同语言的声音实时转化为文字,为跨语言交流提供了便利。
在旅游、商务等领域,语音翻译技术的应用具有重要意义。
5. 无人驾驶自动驾驶技术中的语音交互系统能够通过语音指令实现对汽车的远程控制,帮助司机更加轻松地操作车辆,提高驾驶的安全性。
语音识别技术的发展与应用随着人工智能技术的发展,语音识别技术已经逐渐成为一项热门技术。
语音识别技术,就是指通过计算机系统识别和转换人声为数字信号,进而实现语音命令、语音输入和语音交互等功能。
本文将从语音识别技术的发展历程、应用领域以及未来发展趋势等方面进行探讨。
一、语音识别技术的发展历程语音识别技术的历程可以追溯到20世纪50年代。
那时的语音识别技术还很简单,只能通过分析语音信号的频率等参数进行简单的识别。
直到20世纪70年代,出现了基于隐马尔科夫模型的语音识别模型。
该模型利用语音的音频特征(如共振峰、时长等)和单词的概率分布,实现对语音信号的分析和识别。
此后,随着神经网络、深度学习等技术的不断发展,语音识别技术取得了重大突破。
二、语音识别技术的应用领域语音识别技术已经被广泛应用到生活和工作中。
以下是语音识别技术的主要应用领域:1. 语音助手:市面上出现了苹果的Siri、微软的Cortana、亚马逊的Alexa等语音助手,这些语音助手都是利用语音识别技术实现的。
2. 语音输入:在手机、电脑等设备中,用户可以使用语音输入代替打字。
3. 语音交互:智能家居、智能车载、金融、医疗等领域中,语音交互已经成为一种常见的方式。
4. 语音翻译:语音翻译技术可以实现不同语种之间的实时交流,具有很大的应用潜力。
三、语音识别技术的未来发展趋势未来语音识别技术的发展重点将在以下几方面:1. 强化语音识别的准确度和速度:在深度学习等技术的支持下,语音识别技术已经取得了巨大的提升,未来还需在准确度和速度上下功夫。
2. 拓宽语音识别的应用场景:目前应用场景仍然受到限制,未来语音识别技术需要不断拓宽应用领域,让语音交互变得更加普及。
3. 提升语音识别的多模态融合能力:多模态融合技术可以将不同传感器获取的信息进行整合,产生更加精准的结果,未来语音识别技术需要提升自身的多模态融合能力。
4. 加强语音识别与自然语言处理的结合:语音识别技术终究是以文字的形式输出,与自然语言处理紧密结合,可以进一步提升语音识别的准确度和实用性。
人工智能语音识别技术的应用与发展近年来,随着人工智能技术的飞速发展,语音识别技术也逐渐被广泛应用于我们的日常生活中。
通过语音指令,我们可以控制智能家居设备、查询天气情况、聆听音乐等一系列操作,不仅提高了生活效率,也为我们带来了极大的便利。
一、语音识别技术的基本原理语音识别技术是指利用电脑等设备来识别语音信号,将其转化为文字或者指令的一种技术。
其基本原理是利用语音信号的声学特征以及语音信号所携带的语音文本信息,经过一系列算法处理,转化为计算机可以理解的数字信号,最终转化为文字或者指令。
二、语音识别技术的应用领域语音识别技术已经广泛应用于我们的日常生活之中。
智能家居领域,语音识别技术可以帮助我们控制家中各种智能设备,如空气净化器、灯光、电视机等,以实现更加自动化的生活方式。
在智能交通领域,语音识别技术可以用于智能语音导航系统、语音交互式呼叫系统等方面,提高了人们出行的效率和安全性。
在医疗健康领域,语音识别技术可以应用于智能提醒、智能查房、语音交互式医疗咨询等方面,为医生和患者之间的交流提供更加便捷的途径。
三、语音识别技术的发展趋势随着人工智能技术的发展,语音识别技术也在不断地更新换代。
目前,其主要发展趋势包括以下几个方面:1. 深度学习技术的应用利用深度学习技术,可以针对语音识别中存在的语音噪声、语音变化等问题进行更为准确的处理。
同时,利用深度学习技术,还可以将语音识别技术和其他技术结合起来,如图像识别、机器翻译等,从而实现更加智能化的语音识别功能。
2. 云计算技术的应用利用云计算技术,可以将语音信号上传至云端进行处理,从而获得更强大的处理能力和更为准确的识别效果。
同时,云计算技术还可以支持多语种、多场景的语音信号处理,为语音识别技术的应用提供更大的便利。
3. 语音识别技术的个性化定制随着人们对语音识别技术的应用越来越普及,不同用户对于语音识别的要求也不尽相同。
因此,在语音识别技术的发展过程中,针对不同用户的个性化需求进行定制化,将会成为未来语音识别技术发展的重要方向。
语音识别技术发展概述随着人工智能技术的不断进步和应用,语音识别技术逐渐成为当下热门的领域。
语音识别技术是指将人类的语音信息转化为可理解的文本或指令的技术,它的应用范围非常广泛,涉及到语音助手、语音翻译、智能客服等多个领域。
本文旨在对语音识别技术的发展进行概述,介绍其演进历程以及应用场景。
1. 语音识别技术的发展历程在早期,语音识别技术的准确度较低,应用范围也相对有限。
但随着科技的进步,语音识别技术不断取得突破。
20世纪50年代初,贝尔实验室的科学家们首次提出了使用声学模型来进行语音识别的想法。
之后,随着数字信号处理、机器学习等领域的发展,语音识别技术逐渐趋于成熟。
20世纪90年代末,互联网技术的普及和计算能力的提高,为语音识别技术的大规模应用提供了条件。
2. 主要的语音识别技术(1)统计语言模型:统计语言模型是语音识别技术中的重要组成部分,它通过对语音数据进行建模和学习,来对输入的语音进行识别和转化。
传统的统计语言模型主要是基于隐马尔可夫模型(HMM)和最大熵模型等方法。
(2)深度学习模型:近年来,深度学习技术的兴起极大地推动了语音识别技术的发展。
深度学习模型以深度神经网络为基础,通过学习大量的语音数据,可以更准确地进行语音识别,并且在一些任务上取得了令人瞩目的成绩。
(3)端到端模型:端到端模型是近年来兴起的一种新型语音识别技术,其可以直接从输入的语音数据中生成文本结果,无需中间的声学模型和语言模型。
端到端模型简化了整个语音识别流程,使得系统更加高效和灵活。
3. 语音识别技术的应用场景(1)智能助手:语音识别技术被广泛应用于智能助手中,如Siri、Alexa、小度等。
用户可以通过语音与智能助手进行交互,实现语音控制、信息查询、日程安排等功能。
(2)语音翻译:语音识别技术在语音翻译领域也得到了广泛应用。
通过识别用户的语音输入,并将其翻译为其他语言的文本输出,可以实现实时语音翻译的功能,方便人们进行跨语言交流。
语音识别技术的发展及应用随着人工智能技术的快速发展,语音识别技术也逐渐成为众多研究者和企业关注的热点。
语音识别技术是一种将人的语音通过计算机程序进行识别和转换成可以被计算机处理的数据的技术。
近年来,语音识别技术已经得到了很大的发展,其应用范围也越来越广泛。
一、语音识别技术的发展历史语音识别技术的历史可以追溯到20世纪50年代。
那时,研究人员开始致力于开发机器可以理解人类语言的技术。
早期的语音识别技术主要采用基于规则的方法,即通过制定一系列语音识别规则来实现语音识别。
但这种方法需要大量的手动工作,而且无法适应不断变化的语言环境和人的语言变化。
随着计算机技术的迅速发展,在20世纪80年代,语音识别技术开始采用基于统计模型的方法。
这种方法通过收集大量语音数据来训练模型,并利用概率和统计方法来实现语音识别。
这种方法相对于基于规则的方法具有很大进步,但是在实际应用中仍然存在较大问题。
到了21世纪,人工智能和深度学习技术的快速发展带动了语音识别技术的进一步发展。
现代语音识别系统采用深度学习算法,利用深度神经网络来提取语音特征并进行识别。
这种方法能够利用海量的数据来训练模型,提高语音识别的准确率和速度,终于让语音识别技术得以实际应用。
二、语音识别技术的应用领域语音识别技术的广泛应用领域涵盖了个人生活、企业办公、医疗保健、智能制造等多个领域。
在个人生活方面,语音识别技术的应用主要集中在智能家居和智能手机上。
通过智能语音识别技术,人们可以通过声控指令来控制家庭设备,并实现智能家居的自动化控制。
同时,智能手机上的语音识别功能也可以帮助用户快速输入文本信息或进行语音搜索。
在企业办公方面,语音识别技术可以提高办公效率。
例如,通过语音识别软件可以将听取的录音转换成文字,大大提高了记录、纪要等工作的效率。
此外,语音识别技术可以用于电话客服系统,实现自动语音识别和自助处理。
在医疗保健领域,语音识别技术可以应用于医学诊断和病历记录。
语音识别技术的发展历程和应用语音识别技术是一种能够自动将语音信号转换成可识别的文本信息的技术,该技术最初的目的是为了减少打字员的工作量,现在已经发展到可以广泛应用于语音助手、智能家居、无人驾驶等多个领域。
在这篇文章中,我们将探讨语音识别技术的历程和应用。
一、语音识别技术的历程1. 20世纪50年代语音识别技术的发展可以追溯到20世纪50年代初期,当时人们发现可以将声波信号转换成电子信号进行处理,但是由于当时的计算机技术还很落后,无法进行复杂的语音信号处理。
因此,这项技术的实际应用还需要等到后续十多年的发展。
2. 20世纪60年代在20世纪60年代,IBM公司首次开发出了一款语音识别系统。
该系统的工作原理是通过将语音信号转换成数字形式进行处理,然后与存储在计算机中的语音词典进行比对,最终得到文本输出结果。
尽管该系统具有一定的识别准确度,但是由于当时计算机的处理能力还很有限,因此只能用于识别较短的语音片段。
3. 20世纪70年代在20世纪70年代,随着计算机技术的发展,语音识别技术得到了进一步的提升。
此时,人们开始利用隐马尔可夫模型(HMM)对语音信号进行分析和识别。
该模型是一种基于统计学原理的模型,可以有效地处理语音信号中的噪声、变化和语调等因素,从而提高了识别的准确率。
随后,HMM模型被广泛应用于语音识别系统中,成为了该领域的主要技术手段。
4. 20世纪80年代20世纪80年代是语音识别技术的快速发展阶段。
在这一时期,人们开始利用神经网络(NN)对语音信号进行识别。
该技术不仅可以处理噪声等干扰因素,还可以学习和适应不同的语音语境。
与此同时,人们还开始采用语音合成技术将文本信息转换成语音信号,从而实现双向语音交互。
5. 20世纪90年代至今在20世纪90年代至今,语音识别技术得到了持续的发展和完善。
此时,深度学习技术开始进入语音识别领域,利用深度神经网络(DNN)等模型对语音信号进行处理和分析。
同时,自然语言处理(NLP)技术也得到了进一步的发展,可以更好地理解和处理语音信号中的复杂语言信息。
语音识别技术的应用场景及未来发展趋势随着科技的不断更新换代,人们的生活方式也随之改变。
不管是在家里还是在办公室,日常工作中都少不了语音识别技术的应用。
本文将从语音识别技术的应用场景入手,探讨语音识别技术的未来发展趋势。
一、语音识别技术的应用场景1.1 家庭智能助理在家里,我们经常需要查看当天的天气、听取新闻、点播音乐或者观看电影等。
通过语音识别技术,我们可以通过和智能助理对话,进行各种操作。
正是因为智能助理的出现,我们的生活变得更加便利和高效。
1.2 身份识别与验证语音识别技术还可以用于身份识别和验证,比如在电话银行、电话销售、或者是电话客服中。
语音识别技术可以通过检测个人的声音特征来确认身份信息,从而确保交易的安全性。
1.3 教育和培训在学习与培训领域中,语音识别技术也扮演着重要角色。
通过语音识别技术,我们可以一边说,一边记录答案,加速课程的学习进度。
同时,语音识别技术还可以帮助教师和学生进行评估,为教师提供更好的反馈和评价。
1.4 医疗语音识别技术还可以应用于医疗诊断,例如帮助医生快速记录病历和诊疗记录,减少医疗问题的出现。
此外,语音识别技术还可以帮助患者通过语音来和医生交流,提高交流效率和质量,提高诊疗效果。
二、语音识别技术的未来发展趋势2.1 人工智能的崛起随着人工智能技术的不断崛起,语音识别技术的应用场景也将不断增加。
在未来,我们可以看到更为复杂的人机交互,也会有更多的语音应用场景出现。
2.2 机器学习技术的发展机器学习技术是语音识别技术不断发展的重要推手。
通过不断学习和积累数据,机器可以不断提高对语音的识别精度。
2.3 语音识别技术的安全问题语音识别技术的应用和发展还存在着一些安全隐患。
比如,黑客攻击、数据泄露等问题。
未来,需要加强与其他领域的整合,寻找更好的解决方案来推动技术的安全发展。
3. 语音识别技术的潜在风险在不断发展的同时,语音识别技术也带来了一些潜在风险。
比如,为了识别语音,我们需要录制和储存一部分个人的声音数据。
语音识别技术的发展随着科技的不断进步,语音识别技术正逐渐成为人们生活中不可或缺的一部分。
语音识别技术是指将语音输入转换成电子文本或命令的过程,在手机和智能助手等设备中得到了广泛应用。
本文将重点探讨语音识别技术的发展历程、应用领域和未来趋势。
一、发展历程语音识别技术的发展可以追溯到20世纪50年代。
当时,科学家们开始尝试将语音转化为文本,但受限于当时的计算能力和算法,识别准确率较低。
随着计算机性能的提升和机器学习算法的发展,语音识别技术在20世纪80年代取得了重大突破。
IBM的梅尔频率倒谱系数(MFCC)算法被广泛应用于语音识别系统中,大大提高了识别准确率。
二、应用领域1. 移动设备:语音助手成为智能手机的标配功能,例如Siri、Google Assistant和小冰等。
通过语音识别技术,用户可以通过语音指令完成拨打电话、发送短信、查询天气等操作,提高了用户的使用便捷性。
2. 智能家居:语音识别技术也逐渐应用于智能家居领域。
通过语音控制,用户可以打开照明灯、调整温度、播放音乐等,实现智能化的家居生活。
3. 医疗领域:语音识别技术为医疗数据的录入和整理提供了便利。
医生可以通过语音输入病例信息,减少了繁琐的文字录入过程,提高了工作效率。
此外,语音识别技术也可以应用于辅助医生对疾病的诊断。
4. 教育领域:语音识别技术在教学中有广泛的应用前景。
学生可以通过语音交互和智能助教进行学习,同时,教育机构也可以利用语音识别技术收集学生的语音数据,实现个性化的教学。
三、未来趋势随着人工智能技术的不断发展,语音识别技术也在不断演进。
未来的发展趋势主要包括以下几个方面:1. 提升准确率:目前的语音识别技术在正常语音环境下的识别准确率已经较高,但在嘈杂环境中识别效果还不够理想。
未来的研究将集中于进一步提高准确率,增强对不同语音情境的适应能力。
2. 多语种支持:随着全球化的推进,语音识别技术需要支持多语种和方言。
未来的语音识别系统将会涵盖全球范围内的语音输入和输出。
语音识别技术的发展趋势与应用前景随着科技的不断进步和智能化的发展,语音识别技术作为一项重要而炙手可热的技术,正逐渐进入人们的视野。
本文将介绍语音识别技术的发展趋势以及其在各个领域的应用前景。
一、语音识别技术的发展趋势1.1 神经网络技术的崛起随着深度学习技术的发展与应用,神经网络已经成为语音识别中的主流模型。
深度神经网络具有强大的泛化能力和学习能力,能够处理大量的数据和复杂的语音情境,这使得语音识别的准确率得到了极大的提高。
1.2 多模态融合技术的应用随着人机交互的要求越来越高,语音识别技术与其他感知技术的结合成为一种趋势。
例如,将语音识别与图像处理技术相结合,可以实现更精准的场景识别和语义理解,提升语音识别的效果和应用范围。
1.3 端到端的语音识别模型传统的语音识别系统通常由前端特征提取、声学模型和语言模型等多个模块组成,复杂而繁琐。
而端到端的语音识别模型直接将语音信号映射为文本,简化了模型结构,降低了系统延迟,提高了识别效果。
二、语音识别技术的应用前景2.1 智能助手语音识别技术在智能助手领域有着广泛的应用。
诸如苹果的Siri、微软的Cortana、亚马逊的Alexa等智能助手已经成为人们生活中不可或缺的一部分。
通过语音识别技术,智能助手能够以自然语言进行交互,为用户提供各种信息和服务。
2.2 无线耳机与智能音箱语音识别技术的进步也带来了无线耳机与智能音箱领域的革新。
我们可以通过声音指令来控制和操作这些设备,实现音乐播放、设备控制、智能家居管理等功能,为用户带来更加便捷的体验。
2.3 自动驾驶语音识别技术在自动驾驶领域的应用也日益广泛。
通过语音指令,驾驶员可以实现对车辆的操作和控制,避免分散注意力对驾驶安全产生的风险。
同时,语音识别也可以用于车辆内部的语音交互系统,提供更加智能的车内服务。
2.4 医疗领域语音识别技术在医疗领域的应用前景可谓广阔。
通过语音识别技术,医生可以通过语音指令快速记录病人的情况和诊疗方案,提高工作效率。
语音识别的定义,发展历程,基本原理和应用一、语音识别(voice recognition,speech recognition)的定义是:让机器通过识别和理解,将人的语音信号转换为相应的文本或命令的过程。
语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言的技术。
语音识别是一门多学科交叉技术,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。
语音识别的本质是基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定规则找出最佳匹配结果。
二、语音识别技术的发展历程可以分为以下几个阶段:1.20世纪50年代:这是语音识别的起步阶段,主要研究基于各种不同的语言特性,提取特征参数。
2.20世纪60年代:在这个阶段,研究者开始关注更具体的语言知识,包括句法、语义等,开始利用更复杂的信息来进行语音识别。
3.20世纪70年代:研究者们开始开发大型的语音数据库和语音识别的相关算法。
4.20世纪80年代:随着计算机技术的发展,语音识别的精度和效率得到了显著提高。
5.20世纪90年代:随着人工智能技术的兴起,语音识别技术得到了进一步的发展和应用。
6.21世纪:随着深度学习技术的发展,语音识别技术取得了重大突破,可以处理更加复杂和大规模的语音数据。
三、语音识别的基本原理:语音识别技术的基本原理是将人类语音信号转换为数字信号,然后通过计算机算法进行分析和处理,最终将其转换为文本或命令。
具体来说,语音识别系统通常包括以下步骤:声音信号的采集、预处理、特征提取、模式匹配和后处理等。
其中,模式匹配是语音识别的核心部分,它通过将输入的语音信号与预先训练好的模型进行比较,找到最匹配的模型,从而得到对应的文本或命令。
四、语音识别技术的应用非常广泛,包括但不限于以下几个方面:二、语音助手:这是语音识别技术在生活中的一个重要应用。
语音识别的发展及应用
本文介绍了隐马尔可夫模型(Hidden Markov Model,HMM),传统的人工神经网络语音识别方法以及改进的人工神经网络,针对最近研究热点深度学习在语音识别中的应用做了详细的描述,并对与人工神经网络在语音识别中的缺点进行阐述,就如何将HMM与深度神经网络联合起来运用到语音识别中进行详细的分析与介绍。
标签:隐马尔科夫模型人工神经网络深度学习
一、引言
伴随着计算机技术的不断进步以及人工智能学科的飞速发展。
人们对大脑学习、思维机能的研究逐渐深入。
人工神经网络作为借鉴人脑神经元互相连结构的信息处理网络,受到了广泛的关注。
深度学习作为人工神经网络的一个分支,能够从海量的数据中挖掘到有效的信息,成为语音识别领域的一个研究热点。
二、隐马尔科夫模型
隐马尔可夫模型[3](HMM)是马尔可夫链的一种,它的状态不能直接观察到,但能通过观测向量序列观察到,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
所以,隐马尔可夫模型是一个双重随机过程——具有一定状态数的隐马尔可夫链和显示随机函数集。
隐马尔科夫模型(HMM)可以用五个元素来表示,包括两个状态集合和三个概率矩阵:1.隐含状态S;2.可转移状态O;3aaaa.初始状态概率矩阵π;4.隐含状态转移概率矩阵A;5.观测状态转移概率矩阵B。
一般的,可以用λ=(A,B,π)三元组来简洁的表示一个隐马尔科夫模型。
应用隐马尔科夫模型通常解决三类基本问题:1.评估问题;2.解码问题;3.学习问题。
隐马尔可夫模型是目前进行声学建模的主流技术。
采用5状态的连续HMM 模型(见图1),其中1、5状态只起连接作用,没有观测概率,第2、3、4状态有高斯概率分布,假设特征参数是相互独立的,所以规定协方差矩阵为对角阵。
图1 五状态HMM模型结构
三、深度神经网络模型
1.神经网络的基本概念
神经网络即人工神经网络,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法的数学模型。
此网络依靠系统的复杂程度,通过调整内部大
量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力[1]。
神经网络包含三个要素[1]:
1.1神经元:它是神经网络的最基本的组成部分,也是网络核心的处理单元。
它的作用就是把输入加权求和,并做非线性处理;
1.2网络拓扑:即神经网络中神经元的互联模式。
神经系统稳定的拓扑结构规定且制约着神经网络的性质和信息处理能力的大小。
1.3学习方式:神经网络的一个重要特点是可以通过向环境学习来获得知识并改进自身的性能。
通过对网络种各神经元初始参数值的设定改善网络性能。
最终达到输入和输出误差值最小。
2.BP神经网络算法
传统的BP算法[2]是一种有监督式的学习算法,主要的运算方法是输入学习样本,采用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望的向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成。
BP算法实质上是把一组样本的输出与输入采用非线性优化的方法进行处理,通过负梯度下降算法和迭代运算来解决问题。
但是BP的收敛速度容易陷入局部极小,而改进的BP算法则解决该问题,即给定输入和输出模式,通过神经网络建立线性方程组,进而利用高斯消元法得出加权系数,然后利用上面介绍的传统的BP算法的非线性函数误差反馈得出最优的结果。
虽然BP算法在神经网络领域不断改进,但是一些问题也在暴露出来。
2.1在训练过程中容易出现过拟合的问题参数也比较难以训练一致。
2.2在训练三层以下网络时,训练结果并没有明显的优势,当训练多层网络时训练速度比较慢。
且残差传播到最前面的层已经变得太小,出现梯度扩散。
四、HMM与深度学习模型的建立
1.深度学习模型
深度学习本质上是一种采取多层非线性变换的信息提取技术,通过其层次化的结构特征,从而实现对数据间复杂关系的建模。
在过去的几十年间,深度神经网络作为语音识别的一项关键技术,吸引了国内外一大批专家学者、科研机构从事这一领域的研究。
2006年,Hinton提出了在非监督数据上建立多层神经网络的一个有效方法,简单的说,分为两步:1)每次训练一层网络;2)是调优,使原始表示x向上生成的高级表示r和该高级表示r向下生成的x’尽可能一致。
方法是:
1.1首先逐层构建单层神经元,这样每次都是训练一个单层网络。
1.2当所有层训练完后,Hinton使用wake-sleep算法进行调优。
2. HMM与深度学习模型的建立
2.1 MFCC特征参数
Mel 频率倒谱(MFCC)是将普通频率映射到Mel 频率,然后在求其倒谱系数,所求得的倒谱系数就是Mel 倒谱系数。
其计算方法如下:
倒谱的计算方法:首先将时域信号进行傅里叶变换,然后取其对数,最后再进行傅里叶反变换即得到倒谱。
Mel 频率倒谱系数是将普通频率先映射到Mel 频率,然后再求其倒谱。
本文中,语音特征参数一律采用MFCC特征参数,1维归一化短时能量,并求其一阶差分及二阶差分,共39维特征参数。
2.2建立和训练DNN-HMM声学模型
在训练过程中采用根据每一层建立相应的网络,根据每层来训练网络,通过第一层参数的学习来进行训练,模型容量有一定的限制和稀疏性的约束,从而得到的声学模型能够学习到数据本身的结构。
在学习到第n层的时候,把第n层的输出作为第n-1层的输入,通过不断的训练然后各层的参数。
深度学习的第一步不是随机初始化,而是通过学习输入数据的结构得到的,所以初值更接近全局最优,从而在语音识别中能够取得更好的效果。
五、结束语
深度学习在语音识别领域的应用已经越来越广泛了,而且国内外已经成功地将此应用在语音识别中,大大提高了语音识别率,相信在不久的将来,基于深度学习的语音识别产品将会应用在市场,给人类做出更大的贡献。
参考文献
[1]张雄伟,陈亮,杨吉斌.现代语音处理技术及应用.机械工业出版社,2003.
[2]张震男.人工神经网络技术在语音识别中的应用[J].甘肃政法学院.2008.
[3]吴义坚.基于隐马尔科夫模型的语音合成技术研究[D].中国科学技术大学.2006
作者简介:安蕾(1990-),女,河北石家庄人,在读研究生,研究方向为语音信号处理。