15智能手机语音输入法识别研究-report

  • 格式:pdf
  • 大小:1.26 MB
  • 文档页数:20

下载文档原格式

  / 20
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智能手机语音输入法识别研究

vs

组员:黄鑫玉(1031214241)

谭乐(1301214218)

郑秀玉(1301214322)

组长:陈诗洋(1301214291)

目录

1研究意义 (3)

2相关研究或者相关产品的现状 (3)

3研究方案及步骤 (4)

3.1研究方案 (4)

3.2研究步骤 (4)

4实验数据 (4)

4.1数据的采集 (4)

4.2数据的处理 (6)

5数据分析 (6)

5.1单元统计分析 (7)

5.2多元统计分析 (14)

6总结与思考 (19)

1研究意义

语音输入法,是以语音方式进行输入的方法。随着技术的发展,人们越来越不满足于手写、拼音等输入方式带来的不便。同时随着3G的发展,使联网处理语音数据成为可能。基于此语音输入法越来越受到人们的欢迎,极有可能在未来成为主流输入法。而语音输入法的识别率成为这一项应用能否得到广泛发展的重要因素,不同公司开发的语音识别软件识别率不同,同一家公司开发的同一款软件在不同的使用环境下识别率也有所不同。因此我们通过控制变量的方法,在多种不同环境下对比主流语音识别软件的识别率帮助不同类型的用户找到最符合自身应用特质的语音输入软件。

2相关研究或者相关产品的现状

目前市场上出现的语音输入法种类繁多,有百度手机输入法、讯飞语音输入法、谷歌语音输入法、云龙语音输入法、QQ云语音面板等等,本次研究我们只关注比较主流的两种语音输入法软件:百度手机输入法和讯飞语音输入法。

百度手机输入法Android3.0版本首次加入了百度自主研发的语音功能。被称为是“最智能,最省流量的语音输入法”。这项技术基于百度智能语音输入引擎,边说边识别,自动添加合适的标点,支持整句输入,整段整段的说都不费力。全新语音技术,省时、省力,省流量。同时,百度语音输入技术吸收了国际上众多语音输入系统的技术特点,结合百度海量文本数据的技术优势,在海量语料的语言模新快速构建、语言模型的时效性更新、以及多种文体语言模型的信息融合上做了大量扎实的基础理论研究,取得了丰硕的国际领先的研究成果。在解决海量语言模型的解码技术上,锐意进取,大胆创新,一举解决语音识别中海量语言模型的快速一遍解码的技术难题,实现了对现有国际主流技术的大胆超越,为输入法产品的性能提升打下坚实的基础。同时,针对现有声学训练数据不足的特点,百度语音技术坚持走技术特长弥补资源不足的道路,大力发展声学模型的区分度技术。在一定程度上,依靠技术积累弥补了声学模型训练数据不足的缺陷,使得输入法产品短时间内成功推出。

讯飞输入法是由中文语音产业领导者科大讯飞推出的一款输入软件,集语音、手写、拼音、笔画等多种输入方式于一体,又可以在同一界面实现多种输入方式平滑切换,符合用户使用习惯,大大提升输入速度。这款输入法是全球首款基于“云计算”方式实现的智能语音

输入法,支持普通话、粤语和英文输入,语音识别率超过95%;首创“随意写”输入模式:5种手写方式免切换,中英文数字混合手写,准确率超过98%!讯飞的推广宣传口号为“思想有多快,输入就有多快!”产品,目标同样是创造极致输入体验。

但不可否认,不论是你百度还是讯飞,在终端用户日常使用时都不能保证有百分之百的准确率,每款软件都有其特定的优势以及劣势所在。

3研究方案及步骤

3.1研究方案

将百度手机输入法和讯飞语音输入法下载到相同客户端,通过控制变量法收集两款软件对相同语音输入情况的正确识别率。

3.2研究步骤

数据获取:通过控制变量法实验,采集两款软件在不同输入下的正确识别率

数据处理:数据清洗、数据分析、得出结果

数据分析:根据对数据分析所得图表,分析调研得出两款软件各自不同的优劣势

4实验数据

4.1数据的采集

考虑从使用的语音输入法(百度、讯飞),识别的类型(词语、句子、段落),语速(慢、正常、慢)三个方面探究语音输入法的准确率。对于准确率的判定分为两个方面,断句的准确率和具体内容的准确率。其中,对于短语和句子,不存在断句准确率的问题。

据此,我们设计如下表格,来进行数据的采集工作。

4.1针对短语及句子的数据采集表格

编号输入法

识别类

语速原文原文字

结果结果字

正确字

正确率表4.2针对段落的数据采集表格

编号输入

识别

类型

原文字

原文断

句数

结果

字数

结果断

句数

文字正

确率

断句正

确率因为是要测试在日常使用中,语音输入的效果,由此我们从人们日常生活的用语中分别

收集了20个词语、20个句子、20个段落进行分析。对于每个词语或句子,分别在两种输入法、三种不同的语速下进行测试,即对于每个词语或句子分别测试六次。对于段落,由于经过测试,在语速为慢的情况下,两种输入法基本上完全失去效果,为了不影响其对整体结果的影响,对于段落,只采用正常语速和快速两种语速,再结合两种输入法,因此对于每个段落,分别测试4次。下图分别给出对于词语句子和段落的例子。

图4.1词语句子数据采集表格样例

图4.2段落数据采集表格样例

4.2数据的处理

完成数据的收集工作后,需要对数据进行基本的处理。得到文字正确率和断句正确率。每个项目的统计标准如下所示:

原文字数:原文中除去标点符号后,纯文字的字数,离散变量;

原文断句数:将语义上的句号、逗号、分号等标点符号统一认为是断句的符号,计算这些符号将原文分成的句子个数,离散变量;

结果字数:识别结果中除去标点符号后,纯文字的字数,离散变量;

结果断句数:根据测试结果显示,两种输入法在断句出都只是用了逗号,因此结果断句数即为结果中逗号将段落分成的句子个数,离散变量;

正确字数:原文中与结果中相同的字数,并要求这些字在原文中的顺序与在结果中的顺序相同,离散变量;

正确断句数:结果中所有断句中正确的断句数,离散变量;

文字正确率:连续变量,衡量正确字数占原文中的百分比,因此其计算公式如下:

断句正确率:连续变量,衡量正确的断句数占原文中断句数的百分比,因此其计算公式如下:

对于词语及句子,由于不存在断句问题,因此只统计原文字数、结果字数、正确字数、文字正确率几个数据项。对于段落,则需要计算上述所有数据项。

经过上述处理,即完成了对原始的处理,得到的结果可以直接导入到SAS系统中进行进一步分析。

5数据分析

因为对短语、句子的识别与对段落的识别是两个相对独立的部分,因此我们将两部分分开进行探索,以分别分析两种不同输入类型的识别效果。