15智能手机语音输入法识别研究-report
- 格式:pdf
- 大小:1.26 MB
- 文档页数:20
语音识别技术的研究报告研究报告:语音识别技术的研究摘要:本研究报告旨在探讨语音识别技术的研究进展和应用。
首先介绍了语音识别技术的背景和意义,然后讨论了该技术的发展历程和主要方法。
接着,重点分析了当前语音识别技术面临的挑战和未来发展方向。
最后,总结了语音识别技术的应用领域和前景。
1. 引言语音识别技术是一门研究如何将语音信号转化为可识别文本的技术。
它在自然语言处理、人机交互、智能家居等领域具有广泛的应用前景。
随着计算机硬件性能的提升和机器学习算法的发展,语音识别技术取得了显著的进展。
2. 语音识别技术的发展历程语音识别技术起源于20世纪50年代,当时主要采用基于模板匹配的方法。
随着隐马尔可夫模型(Hidden Markov Model,HMM)的引入,语音识别技术进入了统计建模时代。
近年来,深度学习方法的兴起使得语音识别技术取得了突破性的进展。
3. 语音识别技术的主要方法目前,主要的语音识别方法包括基于模板匹配的方法、基于隐马尔可夫模型的方法和基于深度学习的方法。
其中,基于深度学习的方法在大规模数据集上训练神经网络,通过多层次的特征提取和模式识别实现语音信号到文本的转换。
4. 语音识别技术面临的挑战尽管语音识别技术取得了巨大的进展,但仍然面临一些挑战。
首先是语音信号的多样性和噪声干扰问题,这需要提高算法的鲁棒性和适应性。
其次是语音识别系统的实时性和准确性,这需要进一步优化算法和提高硬件性能。
5. 语音识别技术的未来发展方向未来,语音识别技术的发展方向主要包括以下几个方面:一是深度学习算法的进一步优化和创新,提高识别准确率和性能;二是结合其他感知技术,如图像识别和自然语言处理,实现多模态信息的融合;三是研究更加高效的训练方法和模型压缩算法,提高语音识别系统的实时性和资源利用率。
6. 语音识别技术的应用领域和前景语音识别技术在多个领域都有广泛的应用,如智能助理、智能家居、智能交通等。
随着人工智能技术的不断发展,语音识别技术将在更多领域发挥重要作用,为人们提供更加智能化和便捷的服务。
语音识别技术的研究调研报告一、引言语音识别技术是指通过计算机对人类语音进行自动识别和转换的技术。
近年来,随着人工智能的发展,语音识别技术在各个领域得到广泛应用,也引起了研究者们的广泛关注。
本次调研报告旨在对语音识别技术的发展现状、应用领域以及挑战进行深入研究,为学术界、工业界以及政府相关部门提供参考和借鉴。
二、语音识别技术的发展现状1. 历史发展语音识别技术的起源可以追溯到20世纪50年代,当时的语音识别准确率很低,限制了其应用的广泛性。
但随着科技的进步,特别是深度学习算法和大数据的兴起,使得语音识别技术有了长足的进步。
2. 技术原理语音识别技术主要通过将语音信号转化为数字信号,并利用特定的算法进行信号分析和特征提取,最终将其转化为文本信息。
其中关键的技术包括声学模型、语言模型和解码器等。
3. 研究成果目前,语音识别技术已经取得了许多令人瞩目的成果。
例如,谷歌公司的语音助手可以实现远场语音识别和智能交互,苹果公司的Siri 也具备较高的语音识别准确率。
三、语音识别技术的应用领域1. 智能音箱智能音箱是目前最常见的语音识别应用之一。
用户可以通过语音与音箱进行交互,实现音乐播放、天气查询、智能家居控制等功能。
2. 语音助手语音助手已被广泛应用于智能手机和电脑等设备中。
用户可以通过语音指令来实现拨打电话、发送短信、搜索信息等操作,提高用户体验。
3. 语音翻译随着全球化的发展,语音翻译成为人们交流的重要工具。
语音识别技术能够将一种语言的语音转化为另一种语言的文本,为跨语言交流提供了便利。
四、语音识别技术面临的挑战1. 多样性挑战人类的发音习惯、口音、方言等多样性因素对语音识别技术造成了一定的困扰,需要进一步提升算法的鲁棒性。
2. 噪音干扰噪音环境对语音识别的准确性有较大影响,特别是在公共场所应用时,需要进一步优化算法以提高识别精度。
3. 隐私保护语音识别技术需要通过收集用户的语音数据进行训练和改善,但随之而来的是对用户隐私的担忧。
手机应用中智能化语音识别技术研究和应用智能化语音识别技术是现代科技中的一项重要技术。
受益于智能化语音识别技术的变革和推广,我们的日常生活更加便捷和高效。
而手机应用中的智能化语音识别技术更是为我们的便捷带来了质的飞跃。
手机应用中最主要的应用之一就是智能化语音识别,它使得人们可以轻松地进行语音输入和指令控制,极大地提高了生活和工作的效率。
由于技术的再次提升,智能化语音识别技术已经逐渐成为人工智能领域中的一个热门研究方向。
首先,我们来了解一下智能化语音识别技术的工作原理。
在手机应用中,我们使用的语音识别是一种机器学习技术,它可以接收用户的语音,将其转换成文本或指令。
语音识别技术主要有两个重要的组件:识别引擎和语音合成器。
这两个组件在手机应用中起到了核心的作用。
识别引擎是指应用程序用来分析、处理和识别语音输入的部分,而语音合成器则是一个在语音输出中提供合成的音频的系统。
这两个组件通过应用深度神经网络、卷积神经网络等技术实现智能化语音识别的功能。
通过这些技术的不断更新和优化,智能化语音识别技术在手机应用中的应用也日益丰富和完善。
然而,尽管现代技术水平的进步已经使得智能化语音识别技术得以迅速发展,但是它仍然面临着一些挑战。
其中最重要的挑战是语音识别技术的准确性。
在精度方面,智能化语音识别技术仍需要不断的提升和完善。
为了在识别方面获得更好的结果,智能化语音识别技术不仅需要准确识别每一个单词,还需要从后文中获得更多的信息来推断确切的单词是什么,这就需要识别引擎和语音合成器之间的密切协作。
为了迎接这一挑战,现在许多应用程序利用特定的技术来提高智能化语音识别技术的准确性。
其中之一是语调识别,它可以使智能化语音识别技术理解语言的上下文和感情。
另一个是使用深度学习技术,它可以使智能化语音识别技术更易于理解不同的人群、背景和方言。
到目前为止,在智能化语音识别技术中还存在一些人为障碍。
许多识别系统都需要网络连接才能正常运作,而对于一些无网络连接的应用,这成为了使用这些应用的障碍。
人工智能语音助手技术研究报告人工智能(Artificial Intelligence,AI)语音助手是一种基于语音识别和自然语言处理技术开发的智能系统,可以通过语音交互与用户实现智能对话和执行任务。
随着人工智能技术的快速发展,语音助手已经成为人们生活中不可或缺的一部分,广泛应用于智能手机、智能音箱等设备中,为用户提供方便、高效的服务。
本报告将对人工智能语音助手技术进行深入研究与探讨。
一、人工智能语音助手的工作原理人工智能语音助手的工作原理是基于语音识别、自然语言处理和机器学习等技术实现的。
首先,语音助手会通过麦克风等录音设备获取用户的语音输入,并对语音信号进行预处理,去除噪音、增强语音清晰度,然后将语音信号转换为对应的文本信息,这一过程称为语音识别。
接下来,语音助手会对用户的文本输入进行自然语言处理,将其转化为机器可理解的语义表达,通过语法分析、语义理解等技术对用户意图进行解析。
最后,语音助手会根据用户的指令或需求,执行相应的任务或提供相应的信息。
二、人工智能语音助手的核心技术1. 语音识别技术语音识别技术是人工智能语音助手的核心技术之一。
它涉及到信号处理、模式识别、机器学习等领域的知识。
语音识别技术主要包括声学模型训练、语言模型训练和解码等过程。
声学模型训练是指通过大量的语音数据,训练出可以准确识别不同语音信号的声学模型。
语言模型训练则是通过大规模的文本数据,训练出可以理解和预测用户自然语言输入的语言模型。
解码是将声学模型和语言模型相结合,进行最终的语音识别和文本转换的过程。
2. 自然语言处理技术自然语言处理技术是实现人工智能语音助手的另一个关键技术。
它涉及到语法分析、语义理解、上下文推理等方面的内容。
语法分析是对用户输入的文本进行句法分析,确定其语法结构和词法特征。
语义理解则是通过对用户输入的文本进行语义解析,理解其意图和含义。
上下文推理是指在对话过程中,根据上下文信息进行推理和理解,使语音助手能够更好地理解用户的需求和上下文。
新手眼中的语音识别技术最早接触语音识别技术是最开始使用智能机的时候,小米手机的智能语音识别助手,可以识别人说出的名字进行通讯录查找,进行短信发送,电话拨打等基本动作,但是误差不低,体验较差。
后来接触到越来越多的语音识别及其相关技术,应用范围也越来越广,比如听歌识曲,用户体验更好的苹果语音助手Siri,语音记事本,科大讯飞的语音输入,微信的语音识别登入。
这激发了我对语音识别的浓厚兴趣,对语音识别技术的发展历史,当下现状,未来走向进行了了解和思考,于是有了此文的诞生。
一语音识别技术的发展史追溯语音识别技术的发展壮大历史,已有六、七十年。
随着近代计算机科学和电子信息工程等学科的逐步成长,语音识别技术也经历了不同的技术改进,其发展历程也历经坎坷。
最早的科研工作者从对发音音素的特征研究出发,对语音识别进行探索。
1952年,美国AT&T的Bell实验室的研究人员实现了针对特定说话人的英文数字孤立词语音识别系统。
最开始的语音识别系统采用的还是模拟电子元器件,主要提取数字发音中元音的共振峰信息,借助模板匹配的方式进行特定人的孤立数字识别,不过这种模板匹配的方法还是较为简单的水平。
与此同时,和它同时代的普林斯顿大学的RCA(Radio Corporation of America)实验室,在1956年,独立地用类似的原理(利用模拟滤波器组获得元音部分的频谱),完成了能够针对固定说话人的包括十个单音节词的识别系统。
1959年,伦敦大学的科学家构建了一个可以识别四个元音和九个辅音的音素识别器,这项研究的光辉之处在于它第一次使用统计学的原理,用可以被使用的音素序列的统计信息作为限定来提高多音素词的音素的识别率,这项研究创造性的引入了数学的方法,为以后语音识别的发展打下了坚实的基础。
同年,麻省理工大学的林肯实验室实现了十个元音单元的识别器,虽然它仍然是通过分析声道的共振峰信息,但是它的进步在于识别是针对非特定人的。
智能手机中的语音识别技术研究智能手机中的语音识别技术是一个十分重要且受人关注的研究领域。
现代社会因为信息爆炸和快节奏的生活方式而导致人们想要更加便捷和高效的沟通方式,因此语音识别技术的研究就变得越来越重要。
目前,智能手机中的语音识别技术已经发展到了比较成熟的阶段,并且受到了很多消费者的欢迎。
语音识别技术是指电子设备可以识别人类语音信息,并且将其转化为计算机可以理解的格式。
这种技术的实现需要强大的算法和计算能力,而智能手机正好满足了这些条件。
由于智能手机具备了高速处理器、先进的操作系统和强大的存储容量等特点,因此可以实现比较先进的语音识别功能。
根据统计数据,智能手机中的语音识别技术已经比较普及了,超过了一半以上的人都使用了这种功能。
智能手机语音识别技术的原理智能手机中的语音识别技术的原理是通过分析语音信号,将其转化为数字表示,然后通过对数字表示的处理得到语音内容。
这个数字信号的处理过程包括特征提取、模板匹配和语音识别三个步骤。
下面分别介绍一下这三个步骤的运作原理。
1. 特征提取特征提取是指从输入信号中提取出有用的特征,而误差较小的地方则被滤除。
该步骤利用了数字信号处理中的滤波和谐波分析等技术,获取语音中的音频特征,比如包络线的形状、音高、音量等。
这个过程将信号转化为一种更加抽象的形式,从而便于计算机识别。
2. 模板匹配模板匹配是指将输入信号与预先存储的模板进行比对,找到相似度最高的一组模板并作为识别结果。
该步骤需要依赖于模式分类和机器学习等技术,将语音特征转化为机器可以比对的数字信息。
系统会记住不同语音词汇的频率、周期、能量等属性,以便更快更准确的输出预期结果。
3. 语音识别语音识别过程中,对称遗传算法、动态规划和神经网络等技术十分重要。
在这个步骤中,计算机会用模板匹配的结果,结合上下文环境和语法知识,来决定语音输入字符串的含义。
具体来说,这个过程包括音位或音素分析、语句的分解和语句识别等。
智能手机语音识别技术的发展趋势智能手机中的语音识别技术相对成熟,但是随着新技术的发展,促进该领域的创新发展和拓宽应用范围。
基于智能手机的语音识别技术研究随着智能手机技术越来越普及,语音识别技术也变得越来越普遍。
智能手机的语音识别技术可以为我们带来很多便利,极大地提高我们的工作效率。
本文将探讨基于智能手机的语音识别技术的研究,并分析其在不同领域的应用。
一、智能手机语音识别技术的技术路线智能手机的语音识别技术是基于自然语言处理(NLP)和机器学习技术的。
它通常由语音识别模块、语音信号处理模块、自然语言理解模块、知识库和搜索引擎模块等组成。
语音识别模块是语音识别的核心。
它将语音信号转化为文本流,这个模块需要大量的语音数据来训练模型,以提高语音识别率。
语音信号处理模块将语音信号进行降噪、去除回声、语音增强等处理,可以提升语音信号的质量,从而增加语音识别的准确性。
自然语言理解模块将文本流转化为语义表示,进一步提高语音识别的准确性。
最后,知识库和搜索引擎模块用于检索和匹配文本流中的语义信息。
二、智能手机语音识别技术的应用智能手机语音识别技术已经广泛应用于不同领域。
下面将详细介绍其在以下两个方面的应用。
1.日常生活中的应用智能手机语音识别技术在日常生活中的应用非常广泛。
例如:(1) 语音助手:可以使用语音识别技术执行各种指令,如播放音乐、发送邮件、查看天气等等。
(2) 实时翻译:用户可以使用语音识别技术即时将语音翻译为其它语言。
(3) 语音录入:用户可以使用语音识别技术将其语音转换为文本,更方便地进行输入和编辑。
(4) 语音搜索:用户可以使用语音识别技术进行语音搜索,以更快地获取所需信息。
(5) 语音导航:可以使用语音识别技术获取导航路线和指引。
2. 医疗保健领域的应用语音识别技术在医疗保健行业也有着广泛的应用。
例如:(1) 医生记录:使用语音识别技术可以方便地记录和存储医生的病历信息、医嘱和诊断结果。
(2) 病人记录:使用语音识别技术可以方便地帮助病人记录并跟踪其病情。
(3) 医学教育:使用语音识别技术可以方便地向医学生提供解剖、病理和生理学等科目的信息。
基于智能手机的语音识别系统研究随着科技的不断进步,智能手机已经成为了人们生活中不可或缺的重要组成部分。
随着智能手机功能的不断普及和完善,人们对其的需求也不断提升。
其中一项重要的功能便是语音识别系统,它不仅便于用户实现手放口控,还可以提高手机的交互性和人性化。
因此基于智能手机的语音识别系统研究成为了当前的热点话题之一。
一、语音识别系统的原理语音识别系统是利用计算机技术对人声进行分析和处理,使计算机能够理解人类语言的一种技术。
其识别的过程主要分为语音信号的采集、声音的数字处理、语音特征提取、模式匹配和识别决策几个步骤。
其中,模式匹配是识别过程中最核心的环节。
模式匹配需要依靠训练好的模型,将待识别语音与模型进行比对,匹配度越高,识别的准确率也越高。
二、基于智能手机的语音识别系统的实现方式目前,基于智能手机的语音识别系统主要有两种实现方式:一种是本地识别,另一种是网络识别。
1、本地识别本地识别是将语音识别模型和识别引擎嵌入到智能手机中,称为离线识别或本地识别。
本地识别需要在智能手机上预装语音识别引擎,用户在使用时无需联网,只需在手机上按下开启语音识别的功能键,即可进行语音输入。
因为本地识别不需要联网,所以识别速度快,实时性强,而且不受网络状态的限制。
不过本地识别也有一定的局限性,由于模型嵌入在手机中,因此模型的训练和更新需要通过软件更新或者升级系统来实现。
此外,由于语音数据需要存储在手机上,随着用户的录入量增加,会占据手机存储空间,手机的运行速度也会受到影响。
2、网络识别网络识别是基于云计算的语音识别技术,其识别引擎和模型存储在云服务器上,用户在使用时需要联网上传语音数据进行识别。
相对于本地识别,网络识别可以通过云服务器动态更新语音识别模型,因此准确率更高,而且不受手机存储空间的限制。
但是,网络识别需要联网,因此对网络速度和网络状态的要求较高,对于一些没有网络的环境,无法进行语音识别。
同时,网络识别的隐私性和信息安全性也是需要考虑的问题。
手机语音识别技术研究及其应用随着移动端设备的普及和越来越多的人喜欢使用语音输入,手机语音识别技术成为了近年来非常热门的话题。
在这个前提下,本文将从多个方面探讨手机语音识别技术,并展望其未来应用的发展。
一、语音识别技术的概述手机语音识别技术指的是将人类自然语言转换成机器可理解的语言。
在实现这一转换过程中,需要涉及语音信号分析、信号处理、特征提取、语音模型建立等多个步骤,所以说其技术难度较高,需要大量的基础研究。
目前,手机语音识别技术已经发展到了相当成熟的阶段,一些大公司如谷歌、百度、苹果、微软等纷纷发布了自己的语音识别技术。
除此之外,国内的科研机构和公司也在研究这方面的技术,并取得了不少成果。
二、手机语音识别技术实现的方法要在手机上实现语音识别功能,需要用到一些具体的技术实现方式,主要包括如下三类:1. 离线识别离线识别是指在手机设备上预先安装好语音识别模型,用户在使用时不需要联网,手机利用本地模型进行语音识别。
这种方式不需要网络支持,识别速度较快,但需要占用大量手机存储空间。
苹果的语音助手Siri就采用了这种方式。
2. 在线识别在线识别需要连接网络,将语音信号发送到云端进行识别。
这种方式通常需要国内外各大厂商提供的识别API支持,比如Google的Google Voice服务、百度的语音识别API等。
在线识别不需要占用手机存储空间,但需要联网,且其可靠性还存在着一定的问题。
3. 混合式混合式识别技术结合了离线和在线识别的功能,既能够利用本地模型进行识别,又能够借助云端服务器进行联网识别,如苹果发售的iPhone5s就采用了这种方式。
三、手机语音识别技术的应用场景语音识别技术的应用场景十分广泛,几乎涉及到智能手机所有的功能和应用。
下面就来介绍几种比较典型的应用场景:1. 语音助手语音助手可以在用户的语音指令下完成很多功能,譬如发送短信、拨打电话、设置闹钟等任务。
这种功能在一些第三方软件中也广泛使用,例如百度地图、淘宝等。
智能手机语音输入法识别研究vs组员:黄鑫玉(1031214241)谭乐(1301214218)郑秀玉(1301214322)组长:陈诗洋(1301214291)目录1研究意义 (3)2相关研究或者相关产品的现状 (3)3研究方案及步骤 (4)3.1研究方案 (4)3.2研究步骤 (4)4实验数据 (4)4.1数据的采集 (4)4.2数据的处理 (6)5数据分析 (6)5.1单元统计分析 (7)5.2多元统计分析 (14)6总结与思考 (19)1研究意义语音输入法,是以语音方式进行输入的方法。
随着技术的发展,人们越来越不满足于手写、拼音等输入方式带来的不便。
同时随着3G的发展,使联网处理语音数据成为可能。
基于此语音输入法越来越受到人们的欢迎,极有可能在未来成为主流输入法。
而语音输入法的识别率成为这一项应用能否得到广泛发展的重要因素,不同公司开发的语音识别软件识别率不同,同一家公司开发的同一款软件在不同的使用环境下识别率也有所不同。
因此我们通过控制变量的方法,在多种不同环境下对比主流语音识别软件的识别率帮助不同类型的用户找到最符合自身应用特质的语音输入软件。
2相关研究或者相关产品的现状目前市场上出现的语音输入法种类繁多,有百度手机输入法、讯飞语音输入法、谷歌语音输入法、云龙语音输入法、QQ云语音面板等等,本次研究我们只关注比较主流的两种语音输入法软件:百度手机输入法和讯飞语音输入法。
百度手机输入法Android3.0版本首次加入了百度自主研发的语音功能。
被称为是“最智能,最省流量的语音输入法”。
这项技术基于百度智能语音输入引擎,边说边识别,自动添加合适的标点,支持整句输入,整段整段的说都不费力。
全新语音技术,省时、省力,省流量。
同时,百度语音输入技术吸收了国际上众多语音输入系统的技术特点,结合百度海量文本数据的技术优势,在海量语料的语言模新快速构建、语言模型的时效性更新、以及多种文体语言模型的信息融合上做了大量扎实的基础理论研究,取得了丰硕的国际领先的研究成果。
在解决海量语言模型的解码技术上,锐意进取,大胆创新,一举解决语音识别中海量语言模型的快速一遍解码的技术难题,实现了对现有国际主流技术的大胆超越,为输入法产品的性能提升打下坚实的基础。
同时,针对现有声学训练数据不足的特点,百度语音技术坚持走技术特长弥补资源不足的道路,大力发展声学模型的区分度技术。
在一定程度上,依靠技术积累弥补了声学模型训练数据不足的缺陷,使得输入法产品短时间内成功推出。
讯飞输入法是由中文语音产业领导者科大讯飞推出的一款输入软件,集语音、手写、拼音、笔画等多种输入方式于一体,又可以在同一界面实现多种输入方式平滑切换,符合用户使用习惯,大大提升输入速度。
这款输入法是全球首款基于“云计算”方式实现的智能语音输入法,支持普通话、粤语和英文输入,语音识别率超过95%;首创“随意写”输入模式:5种手写方式免切换,中英文数字混合手写,准确率超过98%!讯飞的推广宣传口号为“思想有多快,输入就有多快!”产品,目标同样是创造极致输入体验。
但不可否认,不论是你百度还是讯飞,在终端用户日常使用时都不能保证有百分之百的准确率,每款软件都有其特定的优势以及劣势所在。
3研究方案及步骤3.1研究方案将百度手机输入法和讯飞语音输入法下载到相同客户端,通过控制变量法收集两款软件对相同语音输入情况的正确识别率。
3.2研究步骤数据获取:通过控制变量法实验,采集两款软件在不同输入下的正确识别率数据处理:数据清洗、数据分析、得出结果数据分析:根据对数据分析所得图表,分析调研得出两款软件各自不同的优劣势4实验数据4.1数据的采集考虑从使用的语音输入法(百度、讯飞),识别的类型(词语、句子、段落),语速(慢、正常、慢)三个方面探究语音输入法的准确率。
对于准确率的判定分为两个方面,断句的准确率和具体内容的准确率。
其中,对于短语和句子,不存在断句准确率的问题。
据此,我们设计如下表格,来进行数据的采集工作。
表4.1针对短语及句子的数据采集表格编号输入法识别类型语速原文原文字数结果结果字数正确字数正确率表4.2针对段落的数据采集表格编号输入法识别类型语速原文原文字数原文断句数结果结果字数结果断句数文字正确率断句正确率因为是要测试在日常使用中,语音输入的效果,由此我们从人们日常生活的用语中分别收集了20个词语、20个句子、20个段落进行分析。
对于每个词语或句子,分别在两种输入法、三种不同的语速下进行测试,即对于每个词语或句子分别测试六次。
对于段落,由于经过测试,在语速为慢的情况下,两种输入法基本上完全失去效果,为了不影响其对整体结果的影响,对于段落,只采用正常语速和快速两种语速,再结合两种输入法,因此对于每个段落,分别测试4次。
下图分别给出对于词语句子和段落的例子。
图4.1词语句子数据采集表格样例图4.2段落数据采集表格样例4.2数据的处理完成数据的收集工作后,需要对数据进行基本的处理。
得到文字正确率和断句正确率。
每个项目的统计标准如下所示:原文字数:原文中除去标点符号后,纯文字的字数,离散变量;原文断句数:将语义上的句号、逗号、分号等标点符号统一认为是断句的符号,计算这些符号将原文分成的句子个数,离散变量;结果字数:识别结果中除去标点符号后,纯文字的字数,离散变量;结果断句数:根据测试结果显示,两种输入法在断句出都只是用了逗号,因此结果断句数即为结果中逗号将段落分成的句子个数,离散变量;正确字数:原文中与结果中相同的字数,并要求这些字在原文中的顺序与在结果中的顺序相同,离散变量;正确断句数:结果中所有断句中正确的断句数,离散变量;文字正确率:连续变量,衡量正确字数占原文中的百分比,因此其计算公式如下:断句正确率:连续变量,衡量正确的断句数占原文中断句数的百分比,因此其计算公式如下:对于词语及句子,由于不存在断句问题,因此只统计原文字数、结果字数、正确字数、文字正确率几个数据项。
对于段落,则需要计算上述所有数据项。
经过上述处理,即完成了对原始的处理,得到的结果可以直接导入到SAS系统中进行进一步分析。
5数据分析因为对短语、句子的识别与对段落的识别是两个相对独立的部分,因此我们将两部分分开进行探索,以分别分析两种不同输入类型的识别效果。
在分析过程中,利用单元统计分析的方法,分别分析影响短语、句子的文字正确率和段落的文字正确率的原因。
利用多元统计分析的方法,分析影响段落的文字正确率和断句正确率两个方面综合的正确率的原因。
5.1单元统计分析(1)数据描述和分布分析对数据的进行分析的基础是了解数据的基本情况,首先对数据进行汇总统计量的分析,汇总统计量的结果和对象分布的直方图如下所示:图5.1数据基本性质表图5.2数据分布直方图由直方图中可以看出,数据分布呈现了两个极端,特别是在接近于完全正确的部分,占到了超过数据总量的60%。
(2)Two-sample t-Tests要想进行Two-sample t-Tests,需要进行满足以下三点假设:独立的观察变量每组数据呈现正态分布每组数据的方差相等本数据符合独立的观察变量,接下来对它们的分布情况进行分析。
对象的Q-Q图如下所示:图5.3不同输入法的对象分布Q-Q图图5.4不同输入类型的对象分布Q-Q图从上面几张对象的Q-Q图可以看出,上述数据的分布明显不符合正态分布的特点,因此,不满足假设,无法进行Two-sample t-Tests数据分析。
(3)ANOVA要进行ANOVA测试,同样需要满足三点假设:独立的观察变量残差呈现正态分布残差的方差相等本数据符合独立的观察变量,接下来验证其分布情况,残差的Q-Q图分别如下所示:不同输入法不同的输入类型不同的输入速度图5.5不同情况下的残差Q-Q图从上面几张残差的Q-Q图中可以看出,它们明显不符合正态分布,因此,不满足假设,即也不能进行ANOVA测试通过分析我们发现,在以上两组分析中,样本值分布均不满足正态分布,其原因可能是:所采集的样本总量仅为240,样本总量不够大。
另一方面,对于讯飞和百度两款语音输入法软件,作为已经发布使用的正式版本,其识别率对于词语及短句的识别率是相对成熟的,因此在测试过程中,对于正常情况下的常见语音输入,其表现良好。
(4)逻辑回归通过上述分析,我们发现,我们的数据既不能满足Two-sample t-Tests的假设也不能满足ANOVA的假设,即,我们将正确率作为一个连续变量进行分析是行不通的,分析原因,作为一个成熟的产品,对于词语、句子这种相对简单的语音的识别能力应该是十分强的,因此会出现大量正确率为1的结果,同时,由于词语句子的字数较少,特别是词语,相信语音输入法在进行处理的时候,也会进行优化,每次尽量返回一个有意义的词语,因此一旦判断错误,很可能导致词语中一个字也不正确,由此导致正确率为0的结果也出现了一个小的峰值;另外,由于词语和句子的字数相对较少,因此正确率会呈现集中于相对有限的几个数值的现象,即使正确率是一个连续的变量,但是可能也只会集中与有限的几个数值。
鉴于以上几点原因,我们只得放弃将正确率作为一个连续变量来对比不同情况下的正确率高低,而是将正确率这一连续变量转变为一个离散的变量进行分析。
这里设定,正确率在0.8以下的认为是识别失败,用数字0表示,0.8以上的认为是识别成功,用数字1表示,增加了分类变量Identified。
经过上述处理,数据的分布情况如下所示:图5.6数据基本情况输入法输入类型输入速度图5.7数据统计分析值从图5.7中的列百分比可以看得出,输入法类型和输入类型没有太大差别,而在输入速度上,则识别失败的,正常语速(SpeedLve=1)所占比例只为5.88%,慢速(SpeedLev=0)所占比例最高,为61.18,快速的为32.94。
因此,可以看出输入速度对识别正确率有很大的影响,正常语速的最好,快速次之,慢速的最差。
接着,为了获得一个更有说服力的说法,我们对数据进行了逻辑回归分析。
首先,分析不同的速度,对识别情况的影响。
以识别的情况作为分析变量,输入速度作为分类变量,并将速度快的情况作为参考。
得到如下执行结果:图5.8数据分布情况由图5.8可知,语速正常的识别正确的概率是语速为快的8.076倍,语速慢时的识别正确的概率是语速为快的0.29倍,即,语速正常时的识别率是最高的,其次是语速快的时候,当语速很慢的时候,识别正确的概率是最低的。
两者的优比置信区间都不包括1,因此我们可以以95%的置信度认为语速正常的要比快的好,语速快的要比语速慢的好。
另外,从图5.8中可以看到,我们的预测效果很好,一致部分百分比达到66.1,c值为0.785。
接着分析不同的输入类型对识别情况的影响。
以识别的情况作为分析变量,输入类型作为分类变量,并将句子的情况作为参考。