智能语音
- 格式:doc
- 大小:23.00 KB
- 文档页数:5
智能语音助手工作原理智能语音助手(Smart Voice Assistant)是一种通过语音交互来实现人机对话和操作的人工智能技术。
它能够理解人类语言并根据语音指令提供各种服务和功能。
智能语音助手背后的工作原理是复杂而丰富的,本文将深入探讨其工作原理及相关技术。
1. 语音识别技术智能语音助手首先需要进行语音识别,即将人类语音转化为可理解的文本。
这一过程涉及音频信号的采集、分析和处理。
当用户说出指令时,麦克风会将声音转化为模拟电信号,接着经过模数转换器转化为数字信号。
然后,语音识别引擎使用一系列算法来将数字信号转化为文本,使计算机能够理解并处理。
2. 语义理解技术语音识别之后,智能语音助手需要通过语义理解技术来解析用户的指令和意图。
语义理解是将用户的自然语言输入进行解析和分析的过程。
它需要通过自然语言处理和机器学习技术对输入进行分类、分词、命名实体识别等处理,以便准确理解用户的意图,并根据意图提供相应的服务。
3. 对话管理技术对话管理技术是智能语音助手实现自然对话的关键技术之一。
通过对话管理技术,智能语音助手可以识别和理解用户的对话行为,进而决定应该做出怎样的回应。
这种技术通常基于一系列规则或机器学习算法,通过分析对话的上下文、意图和目标来生成合适的回复。
4. 语音合成技术语音合成技术是将计算机生成的文本转化为人类可听懂的语音信号的过程。
通过语音合成技术,智能语音助手可以将经过处理的文本指令转化为自然语音输出,与用户进行交互和对话。
5. 个性化学习技术现代智能语音助手通常具备个性化的能力,即能够根据用户的喜好和需求提供个性化的服务和建议。
这一功能是通过个性化学习技术实现的。
智能语音助手会根据用户的使用习惯、搜索历史等信息来提供相关的内容和建议,以提高用户体验。
6. 云计算和大数据技术智能语音助手的工作离不开云计算和大数据技术的支持。
云计算技术使得智能语音助手可以通过远程服务器来存储和处理大量的数据,从而提供更为准确和快速的服务。
智能语音使用指南第1章产品简介 (3)1.1 产品概述 (3)1.2 功能特点 (3)1.3 系统要求 (4)第2章安装与配置 (4)2.1 开箱检查 (4)2.2 连接电源与网络 (4)2.3 与安装APP (4)第3章快速入门 (5)3.1 首次使用设置 (5)3.1.1 开机与激活 (5)3.1.2 账号与网络配置 (5)3.1.3 语音唤醒词设置 (5)3.2 语音唤醒与识别 (5)3.2.1 唤醒智能语音 (5)3.2.2 提高语音识别准确性 (5)3.3 基本操作与指令 (5)3.3.1 播放音乐 (5)3.3.2 查询天气 (6)3.3.3 设定闹钟 (6)3.3.4 控制智能家居设备 (6)3.3.5 其他功能 (6)第4章语音功能详解 (6)4.1 智能问答 (6)4.1.1 日常咨询 (6)4.1.2 生活 (6)4.1.3 娱乐八卦 (6)4.2 音乐播放 (6)4.2.1 音乐搜索 (7)4.2.2 在线听歌 (7)4.2.3 歌曲收藏 (7)4.3 天气查询与提醒 (7)4.3.1 实时天气查询 (7)4.3.2 天气预警 (7)4.3.3 定制天气提醒 (7)第5章个性化设置 (7)5.1 语音唤醒词修改 (7)5.2 语音声音设置 (7)5.3 通知与提醒设置 (8)第6章智能家居控制 (8)6.1 支持的智能家居设备 (8)6.1.2 家电设备 (8)6.1.3 安防设备 (9)6.1.4 环境调节设备 (9)6.2 配置智能家居设备 (9)6.2.1 连接网络 (9)6.2.2 并安装对应APP (9)6.2.3 添加设备 (9)6.2.4 绑定智能语音 (9)6.3 语音控制智能家居设备 (9)6.3.1 照明设备 (9)6.3.2 家电设备 (10)6.3.3 安防设备 (10)6.3.4 环境调节设备 (10)第7章娱乐与生活服务 (10)7.1 听新闻与广播 (10)7.2 听书与有声读物 (10)7.3 生活信息查询 (10)第8章通话与短信 (11)8.1 通话功能介绍 (11)8.1.1 基本通话 (11)8.1.2 通话记录管理 (11)8.1.3 语音拨号 (11)8.1.4 语音接听 (11)8.2 短信功能介绍 (11)8.2.1 发送短信 (11)8.2.2 管理短信 (11)8.2.3 语音输入 (11)8.2.4 群发短信 (11)8.3 通讯录管理 (11)8.3.1 添加联系人 (11)8.3.2 修改联系人信息 (12)8.3.3 删除联系人 (12)8.3.4 查找联系人 (12)8.3.5 导入导出联系人 (12)第9章高级功能 (12)9.1 语音技能拓展 (12)9.1.1 技能拓展概述 (12)9.1.2 技能拓展方法 (12)9.1.3 技能拓展实例 (12)9.2 语音场景模式 (12)9.2.1 场景模式概述 (12)9.2.2 场景模式设置 (13)9.2.3 场景模式应用实例 (13)9.3.1 多轮对话概述 (13)9.3.2 多轮对话实现方法 (13)9.3.3 多轮对话应用实例 (13)第10章常见问题与解决方案 (14)10.1 语音识别问题 (14)10.1.1 识别准确率低 (14)10.1.2 无法识别特定词汇或口音 (14)10.2 网络连接问题 (14)10.2.1 网络连接不稳定 (14)10.2.2 无法连接云端服务器 (14)10.3 系统故障处理 (15)10.3.1 系统崩溃或卡死 (15)10.3.2 无法正常更新系统 (15)10.4 客服与售后服务 (15)第1章产品简介1.1 产品概述本产品是一款智能语音,旨在为用户提供便捷的语音交互体验。
智能语音技术原理智能语音技术是一种基于人工智能的语音识别和语音合成技术,其原理主要包括语音信号的处理和语音识别、语音合成的算法。
语音信号的处理主要包括预处理、特征提取和语音编码。
预处理阶段主要是对语音信号进行去噪、增强和均衡处理,以提高信号的质量。
特征提取阶段则是将语音信号转换为特征向量,常用的特征包括梅尔频率倒谱系数(MFCC)和线性预测编码(LPC)等。
语音编码阶段主要是对特征向量进行压缩编码,以减少数据量并提高传输效率。
语音识别是指将语音信号转换为文字或命令的过程。
语音信号经过预处理和特征提取后,使用机器学习算法进行模型训练。
训练过程包括建立声学模型和语言模型。
声学模型主要是建立语音特征向量与语音单元(如音素)之间的映射关系,常用的算法包括隐马尔可夫模型(HMM)和深度神经网络(DNN)等。
语言模型则是建立语音信号与语义之间的关系,常用的算法包括n-gram模型和循环神经网络(RNN)等。
在实际识别过程中,将输入的语音信号与模型进行匹配,得到最有可能的识别结果。
语音合成是指将文字或命令转换为语音信号的过程。
在语音合成中,首先需要将文字进行文本处理和音素转换,得到对应的音素序列。
然后使用声学模型将音素序列转换为语音特征向量,最后通过声码器将语音特征向量转换为语音信号。
声学模型和声码器的训练过程类似于语音识别的建模过程,通过模型匹配得到最合理的语音合成结果。
综上所述,智能语音技术的原理主要涉及语音信号的处理、语音识别的模型训练和匹配,以及语音合成的文本处理、音素转换和模型匹配等步骤。
通过不断的模型优化和算法改进,智能语音技术在语音识别和语音合成方面取得了显著的进展,为人机交互提供了更加便捷和自然的方式。
智能语音助手的工作原理智能语音助手(Intelligent Voice Assistant)是一种人工智能技术,能够通过语音识别、自然语言处理和机器学习等技术,对语音指令进行识别、理解和执行,在实现人机交互、提高工作效率、改善用户体验等方面有着重要的应用。
本文将详细介绍智能语音助手的工作原理。
一、语音识别技术语音识别是智能语音助手实现命令识别的关键技术,它的基本原理是将语音信号转化为文本信号。
具体实现方式为:首先将语音信号通过模拟或数字信号转换成数字信号,然后采用数字信号处理技术对其进行预处理,包括去噪、特征提取和端点检测等操作。
接下来,通过概率模型、神经网络等技术对特征向量进行匹配和分类,最终得到对应的文本结果,实现语音转换成文本的过程。
语音识别技术的难点在于语音信号的多样性和变异性,需要面对不同的说话人、语言、口音、环境声音等各种干扰因素。
因此,实现高质量的语音识别需要通过大量的数据采集和模型训练,并不断优化算法和技术,以提高准确度和稳定性。
二、自然语言处理技术智能语音助手能够实现对语音指令的理解和分析,是通过自然语言处理技术实现的。
自然语言处理是一种将自然语言转换为计算机可读形式的技术,包括语音识别、分词、词性标注、句法分析、语义理解等各种技术,其主要目的是实现将自然语言操作转化为计算机操作的过程。
自然语言处理技术可以通过机器学习、深度学习等技术进行实现。
通过模型训练和数据标注的方式,构建出适合于自然语言处理的算法模型,实现对语音指令进行理解和分析。
三、对话管理技术对话管理是指针对用户发出的不同语音指令,智能语音助手能够进行不同的分析和回答。
对话管理技术的核心是实现对语音指令的分类和回答,其基本思路是将语音指令与事先定义好的关键词进行匹配,进而实现对不同情境下的语音指令进行分类和回答。
此外,对话管理技术还可以实现基于上下文分析的对话,在对不同的语音指令进行分类和回答时,可以综合考虑之前的对话内容和用户的操作习惯等,并不断调整改善对话回答的效果。
智能语音方案一、引言随着科技的不断发展,智能语音技术逐渐成为人们生活中不可或缺的一部分。
智能语音方案通过人工智能技术的应用,实现了语音识别、语音合成、语音交互等功能,为用户带来了更加便捷、智能的体验。
本文将就智能语音方案的应用场景、技术原理、发展趋势进行探讨。
二、智能语音方案的应用场景1. 智能音箱智能音箱是智能语音方案的主要应用场景之一。
用户可以通过语音指令控制智能音箱播放音乐、查询天气、调控家居设备等。
智能音箱内置的语音助手功能能够根据用户的需求为其提供相应的服务,使人机交互更加便捷。
2. 汽车语音助理智能语音方案还广泛应用于汽车领域,在汽车内部搭载语音助理能够实现多种功能。
用户可以通过语音指令进行导航、播放音乐、发送短信等操作,避免了驾驶过程中的分心操作,提升了驾驶安全性。
3. 语音客服智能语音方案在客服行业也有广泛的应用。
通过语音识别、语义理解等技术,智能语音方案能够实现对客户问题的自动识别和解决,实现自助服务。
这不仅提高了客户满意度,也降低了企业的人力成本。
三、智能语音方案的技术原理1. 语音识别技术语音识别技术是智能语音方案的核心。
它利用语音信号处理、语音特征提取和模式识别等技术,将输入的语音信号转换为文本信息。
通过建立语音信号与文字之间的对应模型,实现对不同人的语音进行准确识别。
2. 语音合成技术语音合成技术是智能语音方案的另一个重要组成部分。
它通过将文字信息转换为语音信号并进行音频合成,实现了计算机生成的语音合成。
语音合成技术的发展使得人机交互更加自然流畅,并且能够与用户进行自然对话。
3. 语音交互技术语音交互技术是智能语音方案实现用户与设备之间交互的关键。
它通过自然语言处理、智能对话管理等技术,实现了用户与设备之间的实时交流。
语音交互技术使得用户能够通过语音指令获取所需信息,提高了用户体验。
四、智能语音方案的发展趋势1. 智能语音与其他技术的结合智能语音方案将会与其他技术进行更深入的结合,如人脸识别、机器学习等。
智能语音系统原理智能语音系统是一种基于人工智能技术的语音交互系统,它可以通过语音识别、语音合成、自然语言处理等技术实现与人类的交互。
智能语音系统的原理主要包括语音信号的采集、语音信号的预处理、语音信号的特征提取、语音识别、自然语言处理和语音合成等几个方面。
首先,智能语音系统需要采集用户的语音信号。
语音信号采集可以通过麦克风、话筒等设备实现。
采集到的语音信号需要进行预处理,包括去除噪声、增强语音信号等操作,以提高语音识别的准确率。
其次,语音信号的特征提取是智能语音系统的关键步骤。
语音信号的特征提取可以通过短时能量、短时平均幅度差、梅尔倒谱系数等方法实现。
这些特征可以用来描述语音信号的频率、能量、谐波等特征,以便进行语音识别。
接下来,语音识别是智能语音系统的核心技术之一。
语音识别可以通过基于模板匹配、隐马尔可夫模型、深度学习等方法实现。
语音识别的过程是将语音信号转换为文本或命令,以便智能语音系统进行下一步的处理。
自然语言处理是智能语音系统的另一个重要技术。
自然语言处理可以通过分词、词性标注、句法分析、语义分析等方法实现。
自然语言处理的过程是将文本或命令转换为计算机可以理解的形式,以便智能语音系统进行下一步的处理。
最后,语音合成是智能语音系统的最后一步。
语音合成可以通过基于规则、基于统计、基于深度学习等方法实现。
语音合成的过程是将计算机生成的文本或命令转换为语音信号,以便智能语音系统与用户进行交互。
总之,智能语音系统的原理是基于语音信号的采集、预处理、特征提取、语音识别、自然语言处理和语音合成等技术实现的。
随着人工智能技术的不断发展,智能语音系统将会在更多的领域得到应用,为人们的生活带来更多的便利和效率。
智能语音相关知识点总结一、概念解析1. 智能语音智能语音是指通过语音输入进行交互的技术,以理解和处理语音指令并作出相应响应。
它基于自然语言处理技术,能够模拟人与人之间的交流,实现语音识别、语音合成、语义理解等功能。
2. 语音助手语音助手是一种为用户提供语音交互服务的人工智能应用,如苹果的Siri、亚马逊的Alexa、谷歌的Google Assistant等,能够回答问题、执行指令、提供信息等功能。
3. 语音识别语音识别是将声音转换为文字的过程,通过语音识别技术可以将用户的语音指令转化为文本,以实现语音交互。
4. 语音合成语音合成是将文本转换为声音的过程,通过语音合成技术可以将计算机生成的文本转化为自然流畅的语音。
5. 语义理解语义理解是指计算机技术对语言信息进行分析,从而理解语言表达的含义,包括语法、语境、逻辑等方面。
6. 语音识别技术语音识别技术是指通过使用语音信号处理技术,将语音信号识别为对应的文本。
7. 智能家居智能家居是指通过智能语音技术实现的家庭设备互联及智能控制,如智能音箱、智能灯具、智能门锁等。
二、技术原理1. 自然语言处理自然语言处理是指对自然语言文本和语音进行处理和分析的人工智能技术,包括语音识别、语义理解、语音合成等子领域。
2. 声音信号处理声音信号处理是指对声音信号进行数字处理的技术,包括语音信号的采集、降噪、特征提取等过程,以支持语音识别和语音合成。
3. 机器学习机器学习是智能语音技术的重要支撑,包括监督学习、无监督学习、强化学习等方法,用于训练语音模型,提高语音识别和语义理解的准确性。
4. 深度学习深度学习是机器学习的一个分支,通过构建深层神经网络来处理大规模数据,已经成为智能语音技术的重要手段,包括卷积神经网络、循环神经网络等模型。
5. 语音模型语音模型是指通过机器学习方法训练得到的能够识别语音和理解语义的模型,包括语音识别模型、语义理解模型等。
6. 语音数据库语音数据库是用于语音识别和训练语音模型的大规模语音数据集,包括多种语言、各种口音的语音数据。
智能语音技术的分类智能语音技术是指利用人工智能技术和语音处理技术实现语音交互的一种技术。
它可以将人的语音转化为文字或者命令,并能够理解和执行这些文字或命令。
智能语音技术已经广泛应用于语音助手、语音识别、语音合成等领域。
根据其功能和应用领域的不同,智能语音技术可以分为以下几类。
一、语音识别技术语音识别技术是智能语音技术的核心。
它通过分析人的语音信号,将其转化为相应的文字或命令。
语音识别技术可以分为离线语音识别和在线语音识别。
离线语音识别是指将语音信号转化为文字的过程在本地设备上进行,不需要依赖云服务器。
在线语音识别则需要将语音信号上传至云服务器进行处理。
目前,语音识别技术已经能够实现高准确率的语音转文字,广泛应用于智能助手、语音输入等场景。
二、语音合成技术语音合成技术是将文字转化为语音的过程。
它可以根据输入的文字内容,生成与之对应的语音信号。
语音合成技术可以分为基于规则的合成方法和基于统计的合成方法。
基于规则的合成方法是根据语音合成规则和音库中的语音片段进行合成。
基于统计的合成方法则是通过学习大量的语音数据,利用统计模型生成语音信号。
语音合成技术在无障碍阅读、智能客服等领域有着广泛的应用。
三、语音唤醒技术语音唤醒技术是通过识别特定的唤醒词或音频信号,实现设备的语音唤醒功能。
语音唤醒技术可以分为基于语音指令的唤醒和基于声音模式的唤醒。
基于语音指令的唤醒需要用户喊出特定的唤醒词,设备才能被唤醒。
基于声音模式的唤醒则是通过识别特定的声音模式来实现设备的唤醒。
语音唤醒技术在智能音箱、智能家居等领域得到了广泛应用。
四、语音交互技术语音交互技术是指通过语音来实现人机之间的交互。
它可以使人们通过语音指令来控制设备,获取信息或执行操作。
语音交互技术可以通过语音识别、语音合成等技术实现。
目前,语音交互技术已经广泛应用于智能助手、智能音箱、智能车载等领域,为用户提供了更加便捷的交互方式。
五、情感识别技术情感识别技术是指通过分析语音中的情感信息,来判断说话人的情感状态。
智能语音开发与应用技术手册第一章概述 (3)1.1 智能语音发展历程 (3)1.1.1 早期语音识别技术 (3)1.1.2 智能语音的诞生 (4)1.1.3 我国智能语音的发展 (4)1.2 智能语音技术架构 (4)1.2.1 语音识别模块 (4)1.2.2 自然语言处理模块 (4)1.2.3 语音合成模块 (4)1.2.4 对话管理模块 (4)1.2.5 知识库与推理模块 (4)第二章语音识别技术 (5)2.1 语音信号处理 (5)2.1.1 引言 (5)2.1.2 语音信号预处理 (5)2.1.3 特征提取 (5)2.2 声学模型 (5)2.2.1 引言 (6)2.2.2 常用声学模型 (6)2.3 (6)2.3.1 引言 (6)2.3.2 常用 (6)2.4 识别算法优化 (6)2.4.1 引言 (6)2.4.2 识别算法优化方法 (6)第三章语音合成技术 (6)3.1 文本预处理 (7)3.1.1 文本规范化 (7)3.1.2 分词 (7)3.1.3 词性标注 (7)3.1.4 语法分析 (7)3.2 基于拼接的语音合成 (7)3.2.1 语音库构建 (7)3.2.2 语音拼接 (7)3.2.3 语音后处理 (7)3.3 基于深度学习的语音合成 (7)3.3.1 模型训练 (8)3.3.2 文本编码 (8)3.3.3 语音 (8)3.4 语音合成效果评估 (8)3.4.1 自然度 (8)3.4.3 语音质量 (8)3.4.4 功能 (8)第四章语音理解与对话管理 (8)4.1 语义解析 (8)4.2 意图识别 (9)4.3 对话管理策略 (9)4.4 多轮对话优化 (10)第五章语音交互设计 (10)5.1 交互界面设计 (10)5.2 交互流程设计 (10)5.3 交互反馈机制 (11)5.4 用户体验优化 (11)第六章人工智能技术在智能语音中的应用 (12)6.1 自然语言处理 (12)6.1.1 (12)6.1.2 语音识别 (12)6.1.3 语义理解 (12)6.1.4 对话 (12)6.2 机器学习 (12)6.2.1 特征提取 (12)6.2.2 模型训练 (12)6.2.3 模型优化 (12)6.3 深度学习 (13)6.3.1 声学模型 (13)6.3.2 (13)6.3.3 语音合成 (13)6.4 强化学习 (13)6.4.1 对话策略学习 (13)6.4.2 用户意图识别 (13)6.4.3 个性化推荐 (13)第七章智能语音硬件平台 (13)7.1 麦克风阵列 (13)7.2 语音处理器 (14)7.3 输出设备 (14)7.4 硬件集成与调试 (14)第八章智能语音软件平台 (15)8.1 操作系统 (15)8.1.1 Android操作系统 (15)8.1.2 iOS操作系统 (15)8.1.3 Windows操作系统 (15)8.2 应用开发框架 (16)8.2.1 Android开发框架 (16)8.2.2 iOS开发框架 (16)8.3 数据库管理 (16)8.3.1 关系型数据库 (16)8.3.2 NoSQL数据库 (17)8.4 软件集成与调试 (17)8.4.1 集成测试 (17)8.4.2 调试工具 (17)8.4.3 持续集成与持续部署 (17)第九章智能语音测试与评估 (17)9.1 语音识别测试 (18)9.1.1 测试目的与原则 (18)9.1.2 测试内容与方法 (18)9.1.3 测试工具与平台 (18)9.2 语音合成测试 (18)9.2.1 测试目的与原则 (18)9.2.2 测试内容与方法 (18)9.2.3 测试工具与平台 (18)9.3 对话系统测试 (19)9.3.1 测试目的与原则 (19)9.3.2 测试内容与方法 (19)9.3.3 测试工具与平台 (19)9.4 功能评估与优化 (19)9.4.1 功能评估指标 (19)9.4.2 功能优化方法 (19)第十章智能语音市场与产业发展 (19)10.1 市场规模与趋势 (19)10.2 产业链分析 (20)10.3 应用场景拓展 (20)10.4 未来发展展望 (21)第一章概述智能语音作为一种新兴的人机交互方式,正逐渐改变着我们的生活。
智能语音作者:霍娜来源:《中国计算机报》2014年第21期这是一个最好的时代,这是一个声控的时代,这是个光明的季节,也是个希望的春日。
从几年前苹果Siri将语音迅速升温推至消费者面前,到现在语音助手几乎已成为智能手机、汽车电子、智能家居的标配,从人们过去在路边招手打车到现在先用微信与出租车师傅说好再出门……似乎,智能语音产业似乎已经迎来生机盎然的春天。
语音一时间成为舆论的焦点:“语音将彻底替代鼠标、键盘”,“语音将成为移动互联网主流信息入口”,“谁掌控语音谁就将掌控一切”……看好、赞扬语音之声不绝于耳。
但一个技术从萌芽期开始不断发展,要酝酿多久会到爆发期?智能语音产业是真的到爆发期了还是被提前过度炒作了?智能语音产业现状和未来发展方向如何?中国智能语音企业又该如何选择适合自己的成长路径?带着这些疑问,本报记者先后采访多位智能语音专家,力求探知一二。
莫错失赶超良机智能语音是新一代的人机交互技术手段之一。
就像人与人之间对话交流一样,智能语音是要通过语音实现人与机器之间的交互,即机器能听懂,并能回答提问,实现对话互动。
“智能语音技术主要包括语音识别、自然语言理解和语音合成三个环节,完成让机器听懂人说话,再让机器说人话的过程。
这种交互需要基于海量的语料库,通过模型实现语音识别和语义理解,包括对语法、分词、情景、甚至是情绪等的理解,再通过知识库系统找到答案,然后通过语音合成技术说出答案,来回交互。
”在接受记者采访时,中国语音产业联盟副秘书长李德升这样给出他对智能语音的理解。
人机智能语音交互,说着容易做起来难。
从20世纪50年代,AT&T开发出第一个语音识别系统Audry;到20世纪80年代,智能语音技术研究由传统的基于标准模型匹配的技术思路开始转向基于统计模型的技术思路;再到21世纪初,智能语音从技术研究走向实用并进入产业化,进入呼叫中心、家电、汽车等领域;一直到近期以苹果SiRi发布为重要引爆点,智能语音应用才开始向移动互联网等新兴领域延伸,智能语音产业进而不断积累、发展。
智能语音技术是人工智能的研究领域之一,其原理涉及声学、语言学、数字信号处理和计算机科学等多个学科,研究周期长。
投入成本大,技术壁垒高。
全球和中国智能语音市场基本形成寡头垄断的格局。
随着智能语音产业的快速发展,产业竞争进一步加剧,也吸引了IT巨头和中小创业团队争相进入,与传统语音技术提供商共同角逐智能语音市场。
在国际市场,既有像Nuance这样的占据全球62%语音市场的传统语音技术巨头,也有谷歌、苹果、微软、IBM等IT巨头的竞争参与。
在国内市场,李德升告诉记者,目前我国语音技术厂商基本分为三类:一类是传统语音技术厂商,一般从科研院所基础研究脱胎,包括像科大讯飞(中国科技大学)、捷通华声(清华大学、中科院声学所、北京大学)、中科模识(中科院自动化所)、中科信利(中科院声学所)等;第二类是互联网厂商,包括百度、腾讯、搜狗等,他们为给其广大的互联网用户提供更好的增值服务,普遍采用战略合作或者收购等方式,掌握智能语音技术,推广语音服务;第三类是创业企业,像云知声、思必驰等,他们专注于某些行业领域,比如汽车、家电、教育、社交网络来推广自己的语音技术和产品。
近几年来,移动互联网蓬勃发展,基于互联网海量数据的深度神经网络技术的有力推进,智能家电、汽车电子、可穿戴设备等领域加速应用,汽车、医疗、智能家居、教育等行业应用不断拓展,智能语音作为新的信息入口,开始引领产业重大变革。
这一两年来,我国智能语音市场也是风起云涌:2012年8月中国移动以13.6亿元战略投资科大讯飞,科大讯飞受二级市场机构投资者追捧市值超过200亿元;云知声创立仅一年就先后获得两轮投资,其中一次融资金额高达1亿元;2013年5月,捷通华声宣布来自百度、清华大学战略投资;2013年8月,百度正式宣布向开发者开放语音生态系统,包括底层的语音识别技术应用程序开发接口(API)、百度语音助手软件开发工具包(SDK);同样在这个月腾讯在微信5.0中增加语音输入功能,一出来便风靡大众,微信APP已经成为消费者每天必刷的强大APP之一;直到最近,2014年4月12日,云知声组织创业公司牵头成立“全智能交互联盟”;2014年4月29日,科大讯飞的讯飞输入法继支持粤语、四川话、河南话等方言之后宣布支持东北话语音输入;5月20日晚,锤子科技首款智能手机Smartisan T1发布,借科大讯飞智能语音技术实现语音搜索、语音输入等特色功能……整个产业一片欣欣向荣。
“智能语音是人机智能交互的手段之一,而人机智能交互是目前中国技术企业有可能赶超国际的为数不多的产业机遇之一。
产业变革是以技术为先导的。
在PC/互联网时代,我国技术企业在计算机技术尤其是操作系统等方面,因为起步晚,所以赶超微软、谷歌等国际技术公司可能比较难,但在智能交互这个技术领域,相对而言,目前中西方起步差不多,如果我们能把握好现在的机会,好好练内功,发展我们自己的包括智能语音在内的交互技术,也许在这方面我们可以真正和国际公司一较高下,真正从中国制造走向中国创造。
”北京捷通华声语音技术有点公司(简称捷通华声)董事长张连毅这样告诉记者。
与张连毅持相同观点的还有科大讯飞信息科技股份有限公司(简称科大讯飞)副总裁江涛和北京云知声信息技术有限公司(简称云知声)CEO黄伟。
在他们看来,智能语音是难得的一次产业良机,错过语音,中国技术企业很难再有机会赶超国际了。
磨一根针破一片天“做语音是需要慢慢熬的。
”这话记者不止在一个被采访人口中听到。
1989年从清华大学毕业任职紫光推进OCR(图像扫描识别),中间赴美,2000年与中国科学院声学所研究员吕士楠共同创办捷通华声的张连毅称自己是语音乃至整个智能交互行业的老兵。
在他看来,从“入口说”、“门槛说”到“血统说”再到“技术说”,这两年来的语音热其实更多是一种炒作,而这种炒作对行业本身未必有多大好处。
“我只认可…技术说‟。
因为语音只是交互的方式之一,智能语音就是一门技术,它与应用结合,这项技术就能发挥出巨大价值。
而这门技术的特点是厚积薄发,需要慢慢积累,所以这就决定智能语音产业是要用一根针顶破天的专业领域,而不是用一个铁锤砸出一片声势的产业,必须专注、专业,精耕细作,深耕久酿。
”而所谓的积累,在云知声CEO黄伟看来,就是算法、数据和团队经验的积累。
他告诉记者,作为创业型公司,“在数据的积累方面,云知声不占优势,我们的优势在于算法。
从云知声成立第一天起,我们就用了比对手少一个数量级的数据来训练算法模型,最终达到甚至超越对手产品性能,这个过程我们也积累了丰富而宝贵的团队经验。
而现在开放的语音云平台已经让我们有了很多用户数据,我们的数据短板已经得到了弥补。
”黄伟毕业于中国科学技术大学,后加入摩托罗拉并带队研发出世界上首个手机声纹认证系统。
金融危机期间,摩托将整个语音识别团队出售给Nuance。
黄伟拒绝被Nuance收编,于2009年7月加入盛大网络旗下的创新院,2010年10月创建了语音分院,2013年年底正式出任公司CEO。
黄伟告诉记者,在技术方面云知声先后四次升级语音识别内核,目前识别准确率达96.26%,技术领先,并且可提供中、英、粤多语言识别;在商业化方面,云知声单月签约额突破千万元,合作伙伴超过3200家,云知声智能语音已广泛应用在移动互联网、智能家电、车载、可穿戴设备、呼叫中心、教育、医疗等领域。
无独有偶,科大讯飞副总裁江涛也同样是语音界的老人。
毕业于中国科技大学自动化与计算机专业的他是科大讯飞的元老,作为科大讯飞创业团队成员,一直在从事语音技术在通信和互联网方向的应用推广。
在江涛看来,语音技术和其他技术一样,都在沿技术成熟曲线不断发展。
几年前苹果Siri带动语音走进向上发展阶段,那时整个产业被看好,很多资本投入进来至一个小高潮,而现在是小高潮过后走入技术成熟曲线下行阶段,很多人开始悲观,资本撤离,只有坚持下来的公司能做成。
而他判断,带语音走入下一波上行曲线的动力很可能是穿戴设备、智能家居、智能汽车等。
江涛向记者回忆,在上世纪90年代,当时公认语音做得最好是南北二“王”,南“王”就是中国科技大学的王仁华老师,他也是科大讯飞第一任董事长,也是他支持科大讯飞现任董事长刘庆峰创业的;北“王”指的就是清华大学的王作英老师,语音识别和语音合成做得都很不错。
在江涛看来,语音成为人机交互的主要信息入口这是大势所趋,毋庸置疑,只是语音真正价值的实现还有赖于技术的成熟和应用的普及。
应用的普及需要慢慢来,引导、教育市场,培养人们的使用习惯在一点点形成,但要推广、普及还是需要过程的。
“几年前要是有人在电梯里对着自己手机喃喃自语大家都会觉得奇怪,不知道这人干嘛呢,但现在因为微信的普及,这种行为习惯已经被接受认可。
”而对于技术的成熟,江涛同样认为是需要专注投入、不断积累的。
江涛向记者介绍目前的语音识别技术现状,他以环境从嘈杂到安静的程度为横轴,以人说话的配合清晰程度为纵轴,划分四个象限。
在第一象限,也就是环境也安静、人说话也清楚的情况下,目前各家语音厂商技术实力差距不大,语音识别率都很高。
在第二象限,也就是环境嘈杂、网络不好的情况下,目前科大讯飞做得很不错。
噪音大、网络信号时断时续非常影响语音识别效果。
“车载语音识别最大的对手就是噪音。
2013年8月,奔驰在全球对云技术提供商进行选型发布的报告中分别按不同时速按照几种情况(包括60、100、140公里/小时)测噪,科大讯飞是唯一在100公里/小时时速上识别率超过90%的厂商。
”江涛自豪地介绍。
在第三象限,也就是环境不错、人发音不太配合(最典型的各种口音)的情况下,看的就是对语言种类,尤其是方言的支持程度。
云知声实现对粤语、英语的识别支持。
科大讯飞除了实现对粤语、英语的识别支持,2014年以来陆续发布了对河南话、四川话、东北话等方言的识别。
江涛透漏今年还会陆续发布湖南话、山东话、武汉话、合肥话、闽南话的方言识别。
除了口音之外,语速、讲话模式等也会对语音识别带来不同挑战,比如演讲与开会的语音识别的识别算法和模型都不一样。
“今年年底科大讯飞将推出一个产品实现普通话开会过程中,将语音转变为文字,识别率很高。
”江涛透露。
而在第四象限,即环境又不好、发音又不好的情况是世界性的难题,很难有谁能攻克。
各展所长开放竞合随着谷歌、微软、IBM等IT巨头加快对智能语音领域的布局,以及Nuance在中国的本土化不断加强,国内语音企业将面临越来越大的竞争压力。
相较于Nuance等国际巨头,国内语音企业在研发力量、创新能力、集成应用、行业应用拓展等方面还有不小差距。
国内语音企业间的合作、并购、整合步伐也相对要缓慢一些。
对于国内语音企业的发展,作为行业专家李德升在接受记者采访时给出了他的见解和建议。