农产品信息采集作业场景下目标用户的语音识别研究
- 格式:pdf
- 大小:961.54 KB
- 文档页数:4
语音识别调研报告一、引言语音识别技术是一种让机器能够识别和理解人类语言的技术,它可以将人类语音转化为可识别的文本形式。
随着人工智能技术的不断发展,语音识别技术已经广泛应用于各个领域,包括自动驾驶、智能家居、智能助手和医疗等。
二、语音识别技术的分类根据语音识别技术的原理和方法,可以将其分为基于规则的语音识别和基于统计的语音识别两种类型。
基于规则的语音识别是通过事先定义好的语法规则和词汇库来进行语音识别。
而基于统计的语音识别是通过对大量语音数据的训练和模型建立来进行识别。
三、语音识别技术的应用1. 自动驾驶:语音识别技术可以用于车内指令的识别和交互操作,方便驾驶员操作车辆,提高驾驶安全性。
2. 智能家居:语音识别技术可以用于智能家居设备的控制,让用户可以通过语音指令来控制家庭电器、安防系统等。
3. 智能助手:语音识别技术可以用于智能助手的交互,让用户可以通过语音指令来查询信息、发送消息等。
4. 医疗:语音识别技术可以用于医疗记录的识别和整理,让医生可以更快速和准确地记录病历信息。
四、语音识别技术的挑战及解决方案1. 声音质量和环境噪音:语音识别技术对于声音质量和环境噪音敏感,不同的声音质量和环境噪音会对识别结果产生影响。
解决方案可以是通过降噪算法和增强语音信号的方法来提高识别准确率。
2. 语音特征提取:语音信号是一种时域信号,需要通过特征提取算法将其转化为可识别的特征向量。
常用的特征提取算法包括MFCC、PLP等。
3. 语音模型的训练:语音识别技术需要通过大量的语音数据来进行模型训练,但是获取和标注大规模的语音数据需要耗费大量时间和人力资源。
解决方案可以是利用迁移学习和半监督学习的方法来减少标注数据的需求。
五、结论随着人工智能技术的不断发展,语音识别技术在各个领域的应用越来越广泛。
尽管语音识别技术还面临一些挑战,但是随着技术的不断突破和改进,相信语音识别技术将会得到更好的发展和应用。
语音识别技术的研究调研报告一、引言语音识别技术是指通过计算机对人类语音进行自动识别和转换的技术。
近年来,随着人工智能的发展,语音识别技术在各个领域得到广泛应用,也引起了研究者们的广泛关注。
本次调研报告旨在对语音识别技术的发展现状、应用领域以及挑战进行深入研究,为学术界、工业界以及政府相关部门提供参考和借鉴。
二、语音识别技术的发展现状1. 历史发展语音识别技术的起源可以追溯到20世纪50年代,当时的语音识别准确率很低,限制了其应用的广泛性。
但随着科技的进步,特别是深度学习算法和大数据的兴起,使得语音识别技术有了长足的进步。
2. 技术原理语音识别技术主要通过将语音信号转化为数字信号,并利用特定的算法进行信号分析和特征提取,最终将其转化为文本信息。
其中关键的技术包括声学模型、语言模型和解码器等。
3. 研究成果目前,语音识别技术已经取得了许多令人瞩目的成果。
例如,谷歌公司的语音助手可以实现远场语音识别和智能交互,苹果公司的Siri 也具备较高的语音识别准确率。
三、语音识别技术的应用领域1. 智能音箱智能音箱是目前最常见的语音识别应用之一。
用户可以通过语音与音箱进行交互,实现音乐播放、天气查询、智能家居控制等功能。
2. 语音助手语音助手已被广泛应用于智能手机和电脑等设备中。
用户可以通过语音指令来实现拨打电话、发送短信、搜索信息等操作,提高用户体验。
3. 语音翻译随着全球化的发展,语音翻译成为人们交流的重要工具。
语音识别技术能够将一种语言的语音转化为另一种语言的文本,为跨语言交流提供了便利。
四、语音识别技术面临的挑战1. 多样性挑战人类的发音习惯、口音、方言等多样性因素对语音识别技术造成了一定的困扰,需要进一步提升算法的鲁棒性。
2. 噪音干扰噪音环境对语音识别的准确性有较大影响,特别是在公共场所应用时,需要进一步优化算法以提高识别精度。
3. 隐私保护语音识别技术需要通过收集用户的语音数据进行训练和改善,但随之而来的是对用户隐私的担忧。
语音识别技术在农业领域中的应用随着人工智能技术的发展,语音识别技术在各个领域中得到了广泛的应用,其中包括农业领域。
语音识别技术可以帮助农民提高工作效率,降低成本,更好地管理农田和农作物。
本文将探讨语音识别技术在农业领域的具体应用,并讨论其对农业生产的影响。
一、农业生产管理语音识别技术可以应用于农业生产管理中,帮助农民记录和管理农田信息。
例如,农民可以利用语音识别技术记录农田的面积、土壤情况、作物种植情况等信息,通过语音输入的方式快速记录这些信息,省去了手工记录的时间和麻烦。
这些信息可以被整合到农业管理软件中,帮助农民更好地管理农田和作物。
二、农作物种植管理语音识别技术还可以应用于农作物的种植管理中。
农民可以利用语音识别技术记录作物种植的时间、品种、施肥情况等信息,通过语音输入的方式快速记录这些信息,减轻了农民的劳动负担。
此外,语音识别技术还可以帮助农民识别和记录有害农药的使用情况,帮助农民更好地管理农田和保护作物。
三、农业机械操作语音识别技术可以应用于农业机械的操作中。
农民可以利用语音识别技术控制农业机械的运行,例如播种机、施肥机等。
通过语音指令控制农业机械的运行,可以提高农民的工作效率,降低工作强度。
此外,语音识别技术还可以帮助农民识别农业机械的故障,并给出相应的维修建议,帮助农民更好地维护农业机械。
四、农业市场信息查询语音识别技术还可以应用于农业市场信息的查询中。
农民可以利用语音识别技术查询农产品价格、市场需求等信息,通过语音输入的方式快速获取市场信息。
这些信息可以帮助农民更好地制定种植计划,选择合适的农产品种植,提高农产品的销售效益。
五、农业生产数据分析语音识别技术可以应用于农业生产数据的分析中。
农民可以利用语音识别技术输入农业生产数据,通过语音输入的方式快速记录和分析农业生产数据。
这些数据可以帮助农民分析农田和作物的生长情况,发现问题并及时调整农业生产措施,提高农业生产效率。
六、总结语音识别技术作为人工智能技术的一种,具有广泛的应用前景,特别是在农业领域中。
语音识别技术的前沿研究与应用一、引言语音识别技术是当今人工智能领域一个备受关注的方向。
它可以将语音信号转化为文本或者命令,为人们提供便利。
语音识别技术的应用不仅局限在智能助手、智能家居等领域,而且涉及到医疗、金融、交通等多个领域的创新与转型。
因此,对于语音识别技术的前沿研究和应用的深入探究,对于推动 AI 发展具有重要意义。
二、语音识别技术的基本原理语音识别技术是通过将语音信号转换成文本或其他指令的工具,其基本原理主要包括语音信号的采集、特征提取、音素匹配、拼接和句式识别等步骤。
语音信号采集是通过麦克风采集所得语音信号,在去除噪声后,将采集到的信号作为语音识别的输入。
特征提取则是将采集的语音信号制作成形式化的模型,凸显出语音信号中与声音发出者、语音环境等相关的特征。
音素匹配、拼接与句式识别的过程中,是通过将识别选用的语音信号与许多单元语音或语音序列进行对比和匹配,以确定语音信号最终的语义含义。
三、语音识别技术的主要应用领域语音识别技术应用领域十分广泛,主要包括以下领域:1. 智能手机:手机上的语音助手需要语音识别技术的支持。
用户可以通过语音助手完成电话拨打、信息发送等日常操作。
2. 智能家居:智能家居控制也需要语音识别技术的支持。
用户可以通过语音指令控制家电与设备的开关,调节光线等等。
3. 汽车行业:语音识别技术已经广泛应用于汽车的控制中心。
用户可以通过指令控制汽车的音响、导航等等。
4. 智能医疗:语音识别技术在医疗领域得到了应用,如采集医生与患者之间的对话,对患者的病情进行自动诊断等。
五、语音识别技术的发展趋势随着人工智能技术的不断成熟,语音识别技术也在不断更新和发展。
未来,随着技术不断发展,语音识别技术将会出现以下发展趋势。
1. 多语言支持:不同语言的语音识别是未来语音识别技术的大趋势之一。
2. 实时监控:语音识别还将从事对语音音频输入信号的实时监控与识别,以更好地处理日常生活中的任务。
3. 语音识别与图像处理的结合:语音和图像的结合能够更好地提高语音识别的精度。
农产品市场信息采集与人工智能技术结合的探索农业市场信息采集一直是一个重要的课题,对于农民、政府和企业来说都具有非常重要的意义。
随着人工智能技术的不断发展,如何将其应用到农产品市场信息采集中,已经成为研究者们关注的焦点。
本文将探讨农产品市场信息采集与人工智能技术结合的现状和趋势。
一、农产品市场信息采集的重要性农产品市场信息的准确性和及时性对于农民的决策和收益有着重要影响。
在信息不对称的情况下,农民往往无法准确了解市场需求和价格趋势,容易受到欺诈和不公平交易的影响。
因此,及时、准确地采集和传播市场信息对于农产品交易的规范化和市场化至关重要。
二、人工智能技术在农产品市场信息采集中的应用人工智能技术能够帮助农民和农产品企业更有效地采集、分析和利用市场信息。
通过大数据分析和机器学习算法,人工智能可以快速识别和汇总大量的市场信息,为农民提供准确的市场价格、供求信息和预测趋势,帮助他们做出更明智的决策。
三、人工智能技术在农产品质量监测中的应用除了市场信息采集,人工智能技术还可以应用在农产品质量监测领域。
通过图像识别、声音识别和传感器技术,人工智能可以快速、准确地检测农产品的品质、新鲜度和安全性,帮助消费者和企业选择优质的农产品,提升市场竞争力。
四、人工智能技术在农产品营销中的应用人工智能技术还可以帮助农产品企业实现精准营销。
通过分析消费者的购买行为和偏好,人工智能可以为农产品企业制定个性化的营销策略,提升销售额和客户忠诚度。
此外,人工智能还可以帮助企业优化供应链管理,提高生产效率和降低成本。
五、人工智能技术在农产品交易平台中的应用随着电子商务的快速发展,越来越多的农产品交易平台开始采用人工智能技术。
通过大数据分析和机器学习算法,这些平台可以实现自动化的交易撮合和风控管理,提高交易效率和减少交易风险。
同时,人工智能还可以为用户提供个性化的交易建议和投资组合管理,帮助他们获取更高的投资回报。
六、人工智能技术在农产品行业的未来发展未来,随着人工智能技术的不断进步和应用场景的拓展,农产品市场信息采集和管理将迎来新的机遇和挑战。
语音识别技术在农业领域中的应用随着科技的不断发展,语音识别技术也在不断地得到应用和发展。
在农业领域,语音识别技术也有着广阔的应用前景。
本文将探讨语音识别技术在农业领域中的应用,并分析其优势和挑战。
一、农业领域中的语音识别技术应用语音识别技术在农业领域中有着广泛的应用,其中最主要的就是农业机械设备的语音控制。
传统的农业机械设备需要人工操控,但是随着语音识别技术的进步,农民可以通过语音指令来控制农业机械设备的运行,从而提高了工作效率和减轻了工作负担。
此外,语音识别技术还可以应用于农业数据的采集和分析,比如农作物生长情况的监测和预测,土壤信息的采集和分析等。
二、语音识别技术的优势语音识别技术在农业领域中有着诸多优势。
首先,语音指令可以实现远程操控,农民不再需要亲自到田间地头,只需通过语音指令就可以完成对农业机械设备的操控,这样可以减少人力资源的浪费。
其次,语音识别技术可以提高工作效率,减少农民的劳动强度,使农业生产更加智能化、高效化。
另外,语音识别技术还可以帮助农民轻松获取农业信息,比如天气预报、农业政策等,为农民提供更多便利。
三、语音识别技术的挑战虽然语音识别技术在农业领域中有着广阔的应用前景,但是也面临着一些挑战。
首先,语音识别技术的准确性和稳定性还有待提高,特别是在复杂的环境中,比如嘈杂的田间作业环境,语音识别技术的应用效果可能会受到一定的影响。
其次,语音识别技术的成本较高,包括设备和系统的投入成本以及后期的维护成本,这对一些资源匮乏的农民来说可能存在一定的门槛。
四、展望尽管语音识别技术在农业领域中还面临一些挑战,但是随着技术的不断进步和应用场景的不断拓展,相信这些问题都会逐渐得到解决。
未来,随着5G技术的普及和农业智能化的发展,语音识别技术在农业领域中的应用前景将会更加广阔。
农民将能够通过语音指令轻松操控农业机械设备,实现远程智能化作业,从而提高农业生产的效率和质量。
同时,语音识别技术还可以与其他先进技术相结合,比如人工智能、大数据等,为农业生产提供更多的智能化解决方案。
随着科技的迅速发展,语音识别技术在各个领域中得到了广泛的应用。
而在农业领域,语音识别技术也正在发挥着越来越重要的作用。
在这篇文章中,我们将探讨语音识别技术在农业中的应用,以及它对农业生产、管理和农民生活的影响。
首先,语音识别技术在农业领域中的应用主要体现在农业生产和管理上。
农民们可以利用语音识别技术进行农田的管理和作业。
通过语音指令,农民可以控制农业机械的运行,完成播种、施肥、喷药、收割等工作。
这样不仅提高了生产效率,还减轻了农民的体力劳动,使农业生产更加智能化、便捷化。
同时,语音识别技术还可以帮助农民进行农业信息的查询和管理,通过语音输入,农民可以快速地记录和查询农田的情况、作物生长的情况,以及天气预报等信息,为农业生产提供了更加准确的数据支持。
其次,语音识别技术在农业领域中还可以帮助农民进行农作物病虫害的识别和防治。
通过语音识别技术,农民可以利用智能手机或其他设备,直接对农作物的病虫害进行语音描述,系统会通过语音识别技术快速地识别出病虫害的种类和程度,并给出相应的防治建议。
这样可以帮助农民及时有效地对农作物病虫害进行控制,减少农作物的损失,提高农产品的质量和产量。
除此之外,语音识别技术还可以在农业信息服务和农产品销售方面发挥重要的作用。
通过语音识别技术,农民可以直接向农业专家进行咨询,获取农业技术和市场信息。
同时,农产品的销售也可以通过语音识别技术进行广告推广和订单处理,使农产品的销售更加便捷和高效。
这样可以帮助农民更好地了解市场需求,提高农产品的销售效率,获得更好的经济收益。
在生活方面,语音识别技术也可以为农民提供更加便捷的生活服务。
在没有文字输入的环境下,农民可以通过语音识别技术进行语音搜索、语音查询,获取所需的信息。
同时,语音识别技术还可以帮助农民进行语音交流,发送语音信息,进行语音电话等,使农民在偏远地区也能享受到现代通讯技术带来的便利。
总的来说,语音识别技术在农业领域中的应用对农业生产、管理和农民生活都产生了积极的影响。
语音识别技术在农业助手中的应用随着科技的不断发展,语音识别技术逐渐成为人们生活中不可或缺的一部分。
它不仅可以应用于手机、智能音箱等消费电子产品中,还能在农业领域发挥重要作用。
本文将从语音识别技术在农业助手中的应用角度进行探讨。
一、语音识别技术的发展语音识别技术是指计算机通过分析和理解语音信号,将其转化为文本或命令的技术。
随着人工智能和深度学习技术的不断进步,语音识别技术已经取得了长足的发展。
目前,市面上已经有多种成熟的语音识别软件和硬件产品,例如苹果的Siri、亚马逊的Alexa等,它们可以准确、快速地识别用户的语音指令,为用户提供便利。
二、语音识别技术在农业中的应用在农业领域,语音识别技术也被广泛应用,为农民提供了极大的便利。
首先,语音识别技术可以用于农业助手产品中,为农民提供种植、养殖等方面的咨询和指导。
比如,一些智能农业助手产品可以通过语音识别技术分析农民的种植情况,并给出相应的种植建议,帮助农民提高产量和质量。
其次,语音识别技术还可以用于农业设备的控制和操作。
通过语音指令,农民可以轻松地操控农业机械设备,提高工作效率。
三、语音识别技术在农业管理中的应用除了在农田中的应用,语音识别技术还能在农业管理中发挥作用。
农业企业可以利用语音识别技术,对员工进行培训和指导。
通过语音助手,员工可以随时随地获取相关知识和技能,提升工作效率。
另外,语音识别技术还可以用于农产品的销售和营销。
农业企业可以通过语音助手向客户提供产品信息、价格等服务,提高销售业绩。
四、语音识别技术的挑战和未来发展尽管语音识别技术在农业领域已经取得了一定的进展,但仍面临一些挑战。
首先,语音识别技术的准确性和稳定性需要不断提高。
在农业环境中,噪音较大,语音信号的识别难度较大,需要针对性地进行优化。
其次,语音识别技术的安全性也是一个重要问题。
在农业领域,一些涉及隐私和商业机密的信息需要得到严格保护。
未来,随着人工智能和大数据技术的不断发展,语音识别技术将不断完善,为农业生产和管理带来更多的便利和可能。
语音识别对接调研报告语音识别对接调研报告一、引言语音识别是一种将人的口头语言转化为数字代码的技术,通过模拟人耳朵的听觉机制,识别并理解人类的口语表达。
随着人工智能技术的发展,语音识别已经成为一种越来越受关注和研究的技术领域。
本次调研旨在对接市场上主流的语音识别技术和产品,了解其应用场景及技术优劣势。
二、调研方法本次调研采用多种调研方法,包括网络调研、书面材料调研、专家访谈及实地考察等。
通过综合利用以上方法,对市场上主要的语音识别产品和技术进行评估和分析。
三、调研结果根据调研结果,市场上主流的语音识别技术可以分为基于规则的语音识别和基于统计的语音识别两种。
基于规则的语音识别技术是使用人工设定的规则和语法信息来进行语音识别,优点是识别准确度高,适合应用于特定场景,例如电话客服等。
基于统计的语音识别技术是根据大量的语音数据进行训练,通过机器学习算法来提取特征并识别语音,优点是适用范围广,可以应用于多种场景,例如智能助理、智能家居等。
在实际应用中,我们发现市场上主流的语音识别产品包括阿里云智能语音识别、腾讯云智能语音识别、百度智能语音识别等。
这些产品提供了丰富的接口和开发工具,方便开发人员对接和使用。
另外,语音识别技术在智能助理、智能家居、语音搜索等领域具有较大的应用潜力,可以提高用户体验和生活便利性。
四、技术优劣势分析基于规则的语音识别技术在特定场景下表现出色,准确度高,但存在规则难以扩展、适应性差等问题。
而基于统计的语音识别技术通过大量数据的训练,具有较好的适应性和普适性,但对于少样本和高噪声环境的语音识别仍存在一定的挑战。
因此,在实际应用中,需要根据具体场景选择合适的语音识别技术和产品。
五、结论语音识别作为人工智能技术的重要应用之一,具有广阔的应用前景。
市场上主流的语音识别技术包括基于规则的语音识别和基于统计的语音识别两种。
基于规则的语音识别在特定场景下准确度高,但适应性差;而基于统计的语音识别适用范围广,对样本要求较高。
语音识别调研报告语音识别是一项文本翻译技术,它可以将人类的语音信息转化成相应的文字信息。
近年来,随着语音识别技术的不断进步和应用场景的扩大,语音识别在社交媒体、智能家居、智能手机等领域得到了广泛应用。
本次调研报告将从语音识别技术的应用领域、发展趋势和挑战等方面进行介绍。
首先,语音识别技术的应用领域非常广泛。
在社交媒体方面,语音识别可以将用户的语音信息转化成文字信息,方便用户与他人进行沟通和交流。
在智能家居领域,语音识别可以让用户通过语音指令来操控智能家居设备,例如打开灯光、调节温度等。
在智能手机领域,语音识别可以帮助用户进行语音搜索、输入文字等操作。
此外,语音识别还广泛应用于语音助手、教育培训等领域,为用户提供更便捷的服务和体验。
其次,语音识别技术的发展呈现出几个主要趋势。
首先,语音识别技术逐渐成熟,准确率不断提升。
随着深度学习等人工智能技术的应用,语音识别技术在理解和转化语音信息方面取得了突破性进展。
其次,语音识别技术与其他技术结合,形成更加智能化的系统。
例如,将语音识别技术与自然语言处理、机器学习等技术相结合,可以进一步提高语音识别的准确性和智能化水平。
此外,语音识别技术还与人机交互、数据挖掘等领域进行深入合作,为用户提供更加个性化和智能化的服务。
然而,语音识别技术也面临着一些挑战。
首先,语音识别技术对语音环境的要求较高。
在嘈杂的环境中,语音识别的准确率可能会受到影响。
其次,不同语言、方言和口音对语音识别的影响也较大。
由于不同地区和个人的语音特点不同,语音识别技术需要做出相应的适应性调整。
此外,语音识别技术对大规模数据的需求较大。
只有通过大量的数据训练,才能提高语音识别系统的准确性和稳定性。
综上所述,语音识别技术在社交媒体、智能家居、智能手机等领域具有广阔的应用前景。
随着技术的不断进步和应用场景的不断扩大,语音识别技术将成为人机交互的重要组成部分,为用户提供更加便捷和智能的服务。
但是,语音识别技术在应用中还面临着噪音环境、语音差异等问题,需要进一步研究和改进。
农产品信息采集作业场景下目标用户的语音识别研究文/赵俊峰1,刘升平2,海占广2,诸叶平2(1.宁夏大学信息工程学院;2.中国农业科学院农业信息研究所)农产品信息采集的场所通常以大型集贸批发市场为主,其语音场景又以单语言、多口音、多目标、高噪声为特点,在此特定领域开展语音识别应用研究的关键在于解决多语音数据集之间的声学、通道和环境的不匹配问题。
本文考虑在小词汇量任务下,使用标准普通话和两种宁夏地方口音的数据,从目标用户群体中采集语音数据,在单语言多口音环境下分别训练连续概率密度隐马尔可夫模型(CDHMM)和子空间高斯混合模型(SGMM),通过基线实验对比了两种声学建模方法的性能特点。
摘 要:农产品信息采集场所通常以大型集贸批发市场为主,其语音场景又以单语言、多口音、多目标、高噪声为特点,在此特定领域开展语音识别应用研究的关键在于解决多语音数据集之间的声学、通道和环境的不匹配问题。
本文考虑在小词汇量任务下,使用标准普通话和两种宁夏地方口音的数据,从目标用户群体中采集语音数据,在单语言多口音环境下分别训练连续概率密度隐马尔可夫模型(CDHMM)和子空间高斯混合模型(SGMM),通过基线实验对比了两种声学建模方法的性能特点。
关键词:语音识别;CDHMM;SGMM表1 训练集和测试集的采集发音人数语音种类训练集(男)训练集(女)测试集(男)测试集(女)标准普通话8262银川口音普通话216143固原口音普通话165123一、背景随着农业信息化的发展和智能手机的广泛使用,移动设备的语音识别为信息采集提供了一种自然的方法。
传统以键盘输入为主的数据采集手段既需要时间、成本和效率的大量投入,又难以普及应用。
而语音识别作为统一的信息获取手段,特别针对在农产品交易领域中大量存在的受教育程度较低、信息化水平不高的用户群体,不需要良好的读写能力,仅需现有的手机设备即可,这对于一些非可测量信息(如农产品价格)有着广泛的适应性。
但在实际应用中,语音识别技术也面临着声学条件恶劣的现实,不同地域方言的变化和创建必要语言资源的高昂费用也成为语音识别普及应用的瓶颈。
因此,低成本、小规模以及可伸缩语音驱动的应用开发成为首选。
本文讨论此种应用模式中的声学建模,将子空间高斯混合模型(SGMM)应用于单语言多口音识别的声学建模上(Povery,2011),假设所采用的普通话和两种宁夏地方口音为语言高度相似而口音不同,同时,所使用的语音数据来源于实际使用该服务的用户,也代表此类用户的真实教育水平。
在此类研究领域,训练多语言声学模型常规以普通电话作为语言间共享数据的手段(Schultz、Waibel,2001),但复杂性极高;Burget(2010)认为当某一目标语言中的数据量有限时,SGMM参数化便于语言识别的目标语言从其他资源丰富的语言中可靠地估计参数;Lu et al.(2011)研究了有限的训练数据对SGMM的状态相关参数估计的影响,并建议作为此种应用的正则项修改;此外,Lu,et al.(2012)提出了一种最大后验(MAP)适应方法,以将在相关但资源丰富的语言中训练的SGMM声学模型适配到有限训练数据的目标语言中去。
以上的研究中,所有的语音数据都在近距离麦克和纯净环境下采集而得。
本文以农产品信息采集作业场景为对象,研究了对单语言多口音SGMM模型的声学训练,分析了单语言子词上下文之间问题集的获取问题,最后与基于单语言连续密度的隐马尔可夫模型(CDHMM)的基线做了性能对比,以探索语音识别声学模型在农业特定领域应用的选择策略。
二、语音数据采集过程本文所采用的语音数据采集过程为:前往宁夏银川市某大型农产品批发市场,征求从业人员参与(表1),通过智能手机呼叫特定号码,分别在室内安静环境、室外嘈杂人声环境和具有背景车辆和机器噪声的室外环境下,根据提示语音报告农产品名称、产地、价格等信息。
可以认为收集的语音环境是多种多样的,并且不做明确的标记。
采集的语音样本为8KHz,其中标准普通话只有约1小时的数据,两种地方口音约8小时的数据,并根据时间先后划分为训练集和测试集。
语音数据中的词汇为小词汇量,词汇中出现的大多数词汇对应于某种地方口音的农产品的名称,其余为产地名称、价格数字以及是与否。
为了允许不可预测的背景事件,例如突然噪声和电话铃声,用特殊符号做了标记,这些符号映射到词典中唯一的语音单元,并用专门的声学模型与之相关联,在语音单位的计数中列为填充语音。
三、连续概率密度隐马尔可夫模型(CDHMM)CDHMM的允许状态输出的观测矢量X具有连续性,某个状态j对应的观察值矢量的统计特性可由一个观察值概率密度函数b j (X)表示,b j (X)在实际应用中多采用若干高斯分布函数的线性叠加来逼近。
b j(X)=∑KK=1C jk N(X, μjk,∑jk),1﹤﹤j﹤﹤N (1)其中,N为正态高斯概率密度函数,(μjk )为其均值矢量,∑jk为方差矩阵,K为组成b j (X)的高斯混合度个数,C jk为组合系数,且∑KK=1C jk=1。
这种模型的好坏取决于假定的概率分布是否符合实际情况,CDHMM中的混合高斯密度函数的每个状态状态观测概率密度函数都有各自的均值矢量和协方差矩阵。
四、子空间高斯混合模型(SGMM)子空间高斯混合模型的描述为:对于配置有J个状态的语音识别系统,给定D维特征向量的观察密度,对于状态J∈{1,2,...,J},x的概率为:p(x|j)=∑Ii=1W ji N(x|μji,∑j) (2)其中:I全协方差高斯是在j状态之间共享的,对于状态的状态依赖均值向量μji是到由线性子空间投影矩阵M i定义的第i个子空间中的投影,μji=m i+M i v j(3)其中:v j是状态j的状态投影向量,子空间投影矩阵M i的维度为D×S,S是状态j的状态投影向量v j的维度,为了配置系统方便,令D=S,具有维度D的向量m i用于表示高斯混合分量i∈{1,2,...,I}的通用背景模型平均值,它用作在式(3)中μji的表达式m i v j的可选偏移量,使用线性对数模型从状态投影v j中获得式(2)的状态特定比重。
(expw i v j)(∑Ii =1expw i v j )w ji=(4)由此可见,这种声学模型形式具有大量共享参数和少量的状态特定参数,对于多语言声学建模,共享参数m i,w i和∑i,是通过汇集来自多种语言的数据进行训练的,多语言SGMM训练包括为每种语言维护单独的设备,这是通过向用户的每个设备添加语言特定标签,从而每个聚类HMM状态来实现的。
然后使用每种语言特有的数据来附加到聚类状态的每个状态投影向量v j。
五、实验系统设置描述单语言CDHMM实验系统采用HTK语音识别工具包配置每种语言的基线系统(Young,2006)。
基线系统基于常规的三状态左到右HMM三音子模型,在每种语言的系统的决策树聚类之后获得聚类状态,在CDHMM系统中,使用固定的决策树分裂阈值进行语境聚类过程(Mohan et al,2012)。
对普通话使用16 个高斯,对地方口音使用8 个高斯,通过观察测试集上的CDHMM系统性能来获得每个状态的高斯数选择。
各语言的CDHMM系统使用对角协方差高斯,使用的方法是与第一和第二差频倒谱系数级联的13 个MFCC系数,用大小为25ms的分析窗口提取特征,在连续的语音帧之间使用10ms的跳跃,对每个语句执行倒谱平均归一化。
在语言中设置语音识别系统的一个关键在于子词上下文的定义,当使用决策树聚类来定义时,需要定义构成决策树问题集的语音语境列表,而由语音学专家为决策树聚类准备的问题集在小数据量语言中却难以获取。
实际中采用了上下文无关的电话语音聚类CDHMM状态分布程序,获得一组用于聚类三音子上下文的语言问题集,可以为每类语音获得与HTK兼容的最终问题集。
单语言SGMM实验系统采用了附加库的HTK扩展(Rose et al,2011),使用从CDHMM中获得的聚类三重态来初始化系统,SGMM的训练仍然采用CDHMM系统,基本设置相同,每个语言的特定SGMM系统用来自语言特定的通用背景模型(UBM)的高斯初始化,由于语音数据有限,每种语言数据集的特异性仅来自语音段的训练。
与等效的SGMM系统相比,CDHMM系统倾向于具有更多参数(Povey et al,2011)。
增加CDHMM系统中参数数量的唯一方法是增加所述相关高斯密度的数量,在实验中尝试增加状态依赖性混合的数目,当混合数超过8时,识别性能显著降低。
另一方面,在SGMM系统的单个子状态中,状态相关参数仅为D维向量,由于数据量有限,因此可以可靠地估计状态相关参数,其中,语料库中的所有数据都可用于训练的共享参数。
六、单语言识别对比实验结果在单语言CDHMM和单语言SGMM的识别对比实验中,将单语言CDHMM作为基线,使用词性准确性(WAc)作为识别的性能度量,并对正确百分比(%Corr)进行比较,这是因为对于口语语音系统,重要的是能对语音中的单词转录可以由语音识别引擎正确地检索,才可以对识别结果进行后处理以使其适合语音数据采集系统的其他组件配合工作。
表2中具有511 个词汇的单语言地方口音CDHMM 系统具有74.2%的基线性能,普通话65.8%的表现可能是由于缺乏数据,在测试集上调整CDHMM解码器的插入惩罚和语言缩放因子以给出最佳性能。
多语SGMM系统的性能结果如(表3),对于普通话的SGMM系统,相对于基线系统WAc有3.5%的绝对增加,固原口音则有3.4%的增长。
SGMM的插入惩罚和语言缩放因子没有在测试集上调整,从以上结果可以得出结论,SGMM具有有效的语音建模变异性能力,可以提供更好的性能。
七、结束语本文针对语音识别技术在农产品信息采集作业场景下的应用,通过实验研究声学模型配置语音识别在多地方口音识别上的作用,用采集的小词汇量,小数据集进行实验研究,比较了单声道语音识别的两种声学建模技术,常规CDHMM和SGMM建模技术。
结果表明,在拥有足够的声学训练数据时,CDHMM仍然是声学模型的首选,在小训练数据的情况下,SGMM 单语言模型优于其对应的CDHMM模型。
完基金项目:国家自然科学基金面上项目“农产品质量安全信息采集作业场景下的语音识别鲁棒性研究”(编号:61271364)。
作者简介:赵俊峰(1973-),男,博士,研究方向:农业信息化。
通信作者:诸叶平(1959-),女,博士,研究员,研究方向:农业信息化。
收稿日期:2017-03-10表2 CDHMM和基线识别性能对比语音种类%WAc %Corr 标准普通话65.868.7银北口音普通话74.282.1固原口音普通话71.777.3表3 SGMM识别性能语音种类协方差个数%WAc %Corr 标准普通话30069.271.0银北口音普通话40077.784.7固原口音普通话25674.180.3参考文献。