腾讯云-语音识别服务平台概述
- 格式:docx
- 大小:61.54 KB
- 文档页数:5
文字识别服务平台产品概述目录产品简介产品概述 (5)通用文字识别 (6)产品介绍 (6)产品功能 (6)通用印刷体识别 (6)通用印刷体识别(高精度版) (6)通用印刷体识别(精简版)(免费公测版) (6)通用印刷体识别(高速版) (6)通用手写体识别 (6)英文识别 (6)快速文本检测(免费公测版) (7)二维码和条形码识别 (7)产品优势 (7)能力全面 (7)算法领先 (7)鲁棒性强 (7)应用场景 (7)纸质文档电子化 (7)内容审核与管理 (7)随手拍扫描 (7)卡证文字识别 (8)产品介绍 (8)产品功能 (8)身份证识别 (8)营业执照识别 (8)银行卡识别 (8)名片识别 (8)港澳台通行证识别(免费公测版) (8)护照识别(免费公测版) (8)事业单位法人证书识别(免费公测版) (9)组织机构代码证识别(免费公测版) (9)不动产权证识别(免费公测版) (9)房产证识别(免费公测版) (9)企业证照识别(免费公测版) (9)产品优势 (9)算法领先 (9)稳定可靠 (9)鲁棒性强 (9)应用场景 (10)用户身份认证 (10)商户身份核验 (10)商务职场社交 (10)票据单据识别 (11)产品介绍 (11)产品功能 (11)增值税发票识别 (11)运单识别 (11)增值税发票(卷票)识别(免费公测版) (11)定额发票识别(免费公测版) (11)通用机打发票识别(免费公测版) (11)火车票识别(免费公测版) (11)出租车发票识别(免费公测版) (11)机票行程单识别(免费公测版) (11)汽车票识别(免费公测版) (12)轮船票识别(免费公测版) (12)过路过桥费发票识别(免费公测版) (12)购车发票识别(免费公测版) (12)完税证明识别(免费公测版) (12)混贴票据分类(免费公测版) (12)混贴票据识别(免费公测版) (12)金融票据整单识别(免费公测版) (12)金融票据切片识别(免费公测版) (12)产品优势 (13)能力全面 (13)算法领先 (13)场景丰富 (13)应用场景 (13)企业财务报销 (13)金融票据管理 (13)生活记账理财 (13)汽车相关识别 (14)产品介绍 (14)产品功能 (14)驾驶证识别 (14)车牌识别 (14)车辆 VIN 码识别 (14)机动车登记证书识别(免费公测版) (14)产品优势 (14)能力全面 (14)算法领先 (14)鲁棒性强 (15)应用场景 (15)车主身份认证 (15)道路违章检测 (15)车主信息服务 (15)行业文档识别 (16)产品介绍 (16)产品功能 (16)表格识别 (16)算式识别 (16)数学试题识别(免费公测版) (16)数学公式识别(免费公测版) (16)保险单据识别(免费公测版) (16)产品优势 (16)能力全面 (16)算法领先 (17)鲁棒性强 (17)应用场景 (17)智能核保和理赔 (17)数学作业批改 (17)物流单据电子化 (17)产品简介产品概述19-12-31 16:58:56腾讯云文字识别(Optical Character Recognition,OCR )基于行业前沿的深度学习技术,将图片上的文字内容智能识别成为可编辑的文本。
基于云与语音识别的手机智能通话系统——SkyTalk基于云与语音识别的手机智能通话系统SkyTalk简介本项目提出一种手机智能通话系统(SkyTalk),能够方便人们在双方通话中简单、快捷、实时地通过语音获取信息、完成用户指定任务,从而避免大量复杂、耗时的操作。
在拨出SkyTalk智能电话时,手机中的基站编号、GPS 坐标、移动速度、通讯录等数据会上传至服务器,并由服务器建立智能通话。
在通话的过程中,服务器作为第三方通过语音识别和语音合成响应用户的语音请求,可以发送通讯录中的号码、说出用户的具体位置、计算到达对方的时间、播送天气预报、进行实时语音翻译等。
SkyTalk通过云计算提供反向地址解析、获取互联网信息,不仅简化了服务器构架,还能为用户提供更多精彩应用。
移动电话拉近了人与人之间的距离。
电话的发展,从贝尔到摩托罗拉,再到今天的4G,技术不断革新,但人们的通话方式却始终没有改变。
SkyTalk 手机智能通话系统通过云资源、语音识别与合成,可以使用户在通话过程中,不必挂断手机、亲自编辑短信、查阅信息或打开GPS定位,而只需说出问题,SkyTalk便能够用语音加以回答。
总之,SkyTalk是信息化、智能化社会下人们通话方式的革新。
项目原理基本构架SkyTalk通话系统在电话语音通道之外建立一条互联网智能通道。
手机上的GPS位置、通讯录、个人偏好等信息通过这条通道传输到中间服务器,在云的辅助下对之进行处理与交换。
而中间服务器通过语音识别(SR)和文本到语音转换(TTS)在电话通道上与用户双方进行交互。
这样,一方面可以利用互联网通道交换基本数据,另一方面又利用现有电话通道进行语音传输,从而避免产生大量的语音数据包。
更为详细的SkyTalk的构架(如图1)分为3个部分:手机客户端(SkyTalk Client)、服务器(SkyTalk Server)和云(Cloud)。
客户端(SkyTalk Client)一方面取代原有电话的拨号界面,另一方面通过手机平台的API获取手机的各类信息(GPS、电子罗盘、通讯录等),并通过UI交互获取用户的定制偏好及信息。
智能硬件 AI 语音助手产品概述目录智能硬件 AI 语音助手 (1)产品简介产品概述 (3)多场景接入方式 (3)丰富便捷的技能接入 (3)支持厂商伴生 App (3)产品优势 (5)技术行业前沿 (5)开放定制 (5)快速便捷 (5)多种方式接入 (5)优质内容服务 (5)软硬一体化 (5)客户收益 (5)应用场景 (6)智能音箱产品 (6)智能家电产品 (6)智能穿戴产品 (6)产品简介产品概述19-12-06 16:20:58智能 AI 语音助手提供行业前沿的 AI 语音全链路能力、硬件方案咨询及认证服务,整合腾讯系优质内容和服务,面向智能硬件行业打造全方位的自然人机交互体验。
该方案支持 Linux、Android、RTOS 多种操作系统,灵活提供云端API 和设备 SDK 两种接入方式,让硬件迅速获得本地智能和云端智能。
目前已经在音箱、家电、穿戴、儿童故事机等产品上大规模商用。
产品功能智能 AI 语音助手以 TVS SDK 或 API 方式接入,为各类有屏、无屏智能硬件厂商及方案商提供便捷、标准的 AI 语音助手全链路服务。
多场景接入方式智能 AI 语音助手以 TVS SDK 接入为例,主要能力如:基础 AI 会话能力支持离线语音唤醒,在线及流式语音会话(包括语音识别、语义理解、语音合成等),支持多轮会话,支持语音压缩及本地 VAD 检测。
标准化技能接入包括问答、闲聊、百科、天气等播报类技能,音乐、有声节目、新闻等媒体播放类技能,闹钟、提醒、电话等控制指令,有屏设备支持标准化的 UI 数据模板,厂商自定义技能支持数据透传。
全局控制能力媒体播控、Push 推送、打开第三方 App、音量及亮度调节、系统开关(摄像头、麦克风、显示器、Wi-Fi、蓝牙等)、关机、重启、模式切换等。
丰富便捷的技能接入内置丰富的腾讯系优质内容和技能,包括 QQ 音乐、腾讯新闻、有声内容、问答、天气等。
所有技能均采用标准的 UI 模板数据格式,如图文模板、长文本模板、音频模板等,一次性接入所需技能 UI 模板后,便可零成本接入同类型模板的所有技能。
腾讯智能对话平台产品简介产品文档【版权声明】©2013-2019 腾讯云版权所有本文档著作权归腾讯云单独所有,未经腾讯云事先书面许可,任何主体不得以任何形式复制、修改、抄袭、传播全部或部分本文档内容。
【商标声明】及其它腾讯云服务相关的商标均为腾讯云计算(北京)有限责任公司及其关联公司所有。
本文档涉及的第三方主体的商标,依法由权利人所有。
【服务声明】本文档意在向客户介绍腾讯云全部或部分产品、服务的当时的整体概况,部分产品、服务的内容可能有所调整。
您所购买的腾讯云产品、服务的种类、服务标准等应由您与腾讯云之间的商业合同约定,除非双方另有约定,否则,腾讯云对本文档内容不做任何明示或模式的承诺或保证。
文档目录产品简介产品概述产品优势应用场景产品概述最近更新时间:2019-03-22 17:34:44腾讯智能对话平台(Tencent Bot Platform,TBP)专注于“对话即服务”的愿景,全面开放腾讯对话系统核心技术,为大型企业客户、合作伙伴提供开发平台和机器人中间件能力,实现高效、便捷、多样化、低成本人机对话体验。
功能机器人中间件腾讯智能对话平台为用户提供强大的机器人中间件能力,开发者可自行在平台上定义 Task-based Bot(任务型机器人)语义模型和 QnA Bot(问答型机器人)问答集合,或直接调用平台内建机器人能力。
服务配置腾讯智能对话平台为用户提供多样化服务配置能力,开发者可灵活配置后端业务逻辑。
腾讯智能对话平台后续会提供云函数能力,为机器人开发降低门槛。
网页模拟器腾讯智能对话平台为用户提供网页模拟器能力,开发者可通过网页模拟器对机器人进行自然语言理解和业务逻辑测试。
应用接入腾讯智能对话平台为用户提供多渠道应用集成能力,可使开发者大幅度减少多平台开发的工作量,将其开发完成后的机器人集成到移动 App、网站、 IoT 设备等多终端、并与微信公众号运营平台进行打通,支持零代码接入微信公众号。
您好,欢迎来到语音云开放平台! 请登录 免费注册首页平台介绍在线演示开发者专区下载专区应用推荐语音通行证论坛语音平台· 什么是MSP· 为何选择MSPmsp 主要功能语音技术· 语音合成· 语音识别· 语音转写首页 > 平台介绍目录[隐藏]1. MSP 主要功能1.1 概述1.2 语音合成1.3 语音识别1.4 语法功能1.5 语音听写1.6 开发功能1. MSP 主要功能1.1 概述MSP 语音云平台目前集成了语音识别引擎InterReco 、语音合成引擎InterPhonic 、语音听写引擎IAT ,能够提供语音合成、语音识别、语音听写等语音服务,产品的功能也能够体现这些语音引擎的特点。
1.2 语音合成InterPhonic 语音合成系统是科大讯飞公司推出的新一代文语转化引擎,采用最先进的中文文本、韵律分析算法和大语料库的合成方法,合成语音已经接近真人的自然效果。
主要功能有:1) 高质量语音,将输入文本实时转换为流畅、清晰、自然和具有表现力的语音数据;2) 多语种服务,整合了多语种语音合成引擎,可提供中文、中英文混读、纯正英文、粤语、粤英文混读的语音合成服务;3) 多音色服务,提供丰富、风格多样化的音色选择,如浑厚淳正的男声,温柔甜美的女声,标准地道的英语男女声等等,所有音色库均继承科大讯飞语音合成技术一贯的优良品质。
用户可供根据不同应用业务需要,选择最适合应用场景的语音风格,并支持实时动态的音色切换;4) 高精度文本分析技术,保证了对文本中未登录词(如地名)、多音字、特殊符号(如标点、数字)、韵律短语等智能分析和处理;5) 多字符集支持,支持输入GB2312、GBK 、Big5、Unicode 和UTF-8等多种字符集,普通文本和带有CSSML 标注等多种格式的文本信息;6) 多种数据输出格式,支持输出多种采用率的线性Wav ,A/U 率Wav 和Vox 等格式的语音数据;7) 提供预录音合成模板,对合成文本中符合语音模板固定成分的文本使用发音人预录语音,非固定成分使用合成语音。
语音识别服务平台产品概述
目录
产品介绍产品简介 (3)
产品优势 (4)
海量数据积累 (4)
算法业界领先 (4)
支持多平台设备 (4)
支持语种丰富 (4)
噪声环境识别佳 (4)
海量内外部业务验证 (4)
应用场景 (5)
语音输入法 (5)
语音消息转写 (5)
字幕生成 (5)
会议纪要 (5)
电话质检 (5)
产品介绍
产品简介
20-01-13 15:38:17
语音识别(Automatic Speech Recognition,ASR)为开发者提供语音转文字服务的最佳体验,开放实时语音识别、一句话识别和录音文件识别三种服务形式,满足不同类型开发者需求,具备识别准确率高、接入便捷、性能稳定等特点。
产品简介详情请观看视频:
点击查看视频
产品功能
实时语音识别
对实时音频流进行识别,达到“边说边出文字”的效果,可应用于语音输入、电话机器人等实时音频流场景。
一句话识别
对60秒之内的短音频文件进行识别,达到快速准确识别较短语音的效果,可应用于语音消息转写等场景。
录音文件识别
对录音文件进行识别,达到识别较长的非实时语音的效果,可用于字幕生成、录音资料转写等场景。
产品优势
20-01-13 15:38:44
产品优势详情请观看视频:
点击查看视频
海量数据积累
立足于腾讯庞大的社交数据平台,积累了数十万小时的语音标注数据,拥有丰富多样的语料库,为高识别率奠定数据基础。
算法业界领先
基于多种序列神经网络结构(LSTM、Attention Model、DeepCNN),采用 Multitask 训练方法,结合T/S方式,在通用以及垂直领域有业内领先的识别精度。
支持多平台设备
提供 REST API 和 SDK,支持智能硬件、移动应用、网站、桌面客户端和物联网等多种设备终端。
支持语种丰富
现阶段已经支持中文普通话语音识别、英语语音识别和粤语语音识别,后续将陆续开放其他语种或方言的识别能力。
噪声环境识别佳
语音识别模型鲁棒性佳,识别精度高,抗噪声的干扰能力强,能够识别来自嘈杂环境的音频信息,不需要客户进行降噪处理。
海量内外部业务验证
经过微信、腾讯视频、王者荣耀等内部业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户,性能稳定。
应用场景
20-01-13 15:39:14
语音识别应用场景请观看视频:
点击查看视频
语音输入法
智能语音输入,由实时语音识别实现,为用户节省输入时间、提升输入体验。
语音消息转写
将用户的语音信息转成文字信息,由一句话识别服务实现,提升用户阅读效率。
字幕生成
将直播和录播视频中的语音转换为文字,由录音文件识别服务实现,轻松便捷地生成字幕文件。
会议纪要
将会议、庭审、采访等场景的音频信息转换为文字,由实时语音识别服务实现,降低人工记录成本、提升效率。
电话质检
将坐席通话转成文字,由实语音识别服务或录音文件识别服务实现,全面覆盖质检内容、提升质检效率。