客服录音数据标注规范(完整版)
- 格式:docx
- 大小:13.45 KB
- 文档页数:3
输入法数据标注规范地址栏内输入标注系统地址:一定使用谷歌浏览,并将其设置为默认浏览器1.登陆界面:百度的账户一律实名认证不可修改个人信息及密码严格保证账号安全做到一人一号实名认证,不得修改密码信息如果导致账号丢失的账户内的时长及账户成本费用个人承担。
导致数据错乱造成损失的对其追究相应赔偿。
红框内显示为音频可点击播放暂停蓝色框框选的部分就是我们要标注的内容了标注信息,默认选择为第一个选项:第一项: 判断是否为无效语音例控制在15%左右,不要超过90%的有效数据,让公司一看就是刷F5出的数据。
质检判罚尺度在标注无效数据时,除非这条语音是明显有效的,你标成无效算错,如果这条语音可有效也可无效,你标记成无效,质检不能判错。
这些无效数据的共性是文本不清晰,有歧义,文本是死扣出来的。
不要为了文本标注有语义,硬猜去写文本。
标成有效可能会错;标成无效,质检不能判错。
第二项: 噪音:☆☆☆耳朵所能听到的文本【也就是当前说话人】以外的声音标注为有噪音。
说话以外的声音包括咳嗽声,打喷嚏,喷麦。
背景人说话,汽笛声、能听到我们就标注为噪音,反之安静。
第四项:语音内容;(文本)1.结巴,语气口语词诸如嗯啊呀这些照录。
【一律带口字边,嗯啊呀喂哦。
】2.”写成井号键“*”写星号键。
没有阿拉伯数字,数字以汉字形式,如“一二三”,而不是“123”。
注意区分“一”和“幺”。
“二”和“两”。
3地名,古诗词,名人名字这些不能用同音字代替。
没有正常的逻辑思维能力也要有常识,没有常识的问度娘。
不行就F5刷新!全角wifi半角 wifi第五项:性别能听出是儿童的标为“儿童”。
男就是男,女就是女,分不清性别的标男或女都行。
第六项:口音☆☆☆发音不标准的普通话,跟标的这个字的字典发音不同,就标记口音。
因为地域不同而造成的普通话的差异不算口音,如同儿化音不算口音只因北方人说话都是差不多调调。
标注结束后,点击“标注提交”即可工作量查询➢点击右上角查询,将会出现工作量查询页面查询起始时间是2015年5月1号至表单日期止为了方便区分检查,把“有效语音”和“无效语音”显示成黑色和红色。
电话信道音乐搜索数据标注规范
一、内容栏
1.内容栏里面文字需要修改准确,
2.发音人说话只说了一个汉字(是音乐)的需要转写出来
3.歌手名/歌曲名/歌手名或歌曲名/歌手名或歌曲名前后加了前后缀的都需要转写出来
4.专辑名称,电视剧的主题曲,音乐种类(DJ音乐)需要转写出来
5.歌曲名与歌手名不一致也需要转写出来
6.发音人只说了电视剧名称且该剧不是歌曲名需要转写出来。
7.发音人说完话后,低噪音持续达到1.5秒的,在标签栏加标低噪音标签
8.模棱两可的语音按照正确语意来标注,(如张杰和张姐,标注张杰)
9.英文字母大写不要空格,单词小写中间空一格,汉字与字母(单词)不用空格
二、拼音栏不用管
三、标签栏不用标注
四、坏数据
1)✧左右截断/发音人的声音中途被截/信号差的声音/与音乐无关;
2)✧整句纯环境噪音,纯方言,纯人声噪音;唱出来的或拼读或歌词内容;
3)✧说话只说一个字母;说英文听不清或听不懂的;
4)✧整条音频声音异常、回音、喷麦严重、说话不清楚、结巴严重,虚着嗓子说话的;5)✧发音人声音小无法听清内容、发音人语速极快听不清内容、;发音跑偏厉害
✧音频整句是系统播报音即机器人的声音,例:公交车报站音、银行叫号音,语点6)
声音等;
7)✧静音段达到0.5s,歌手名或歌曲名不完整
✧人声噪音/环境噪音/设备噪音/人声非语音(笑、哭、咳嗽、清嗓子等)/背景音8)
乐声音过大
9)✧除英语以外的其他外语(如日语、韩语、泰语等),口音严重。
腾讯音频标注规范一、标注内容本次针对语音标注以下内容:有效性判定:有效,无效。
有效则进行后续标注。
无效的判别标准:1)无法听清音频中的内容(不论部分还是全部)2)音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等3)音频中出现了除了中文、英文之外的语言4)音频中无人声5)音频中全部都是歌曲、电视声等6)背景人声音量大于主说话人1/4的7)音频中内容仅有一个汉字或一个英文单词8)音频中内容仅有一些语气词,例如:嗯,啊,哈对于有效的音频:进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。
每个分段标注内容:1)标注文本:语音对应的文本2)性别、儿童:发音人的性别,发音人是否为儿童3)语言:中文、英文、中英4)是否有口音:发音人发音是否有口音5)是否有变音:发音人是正常人声,还是娱乐性质的变音6)发音边界:按照规定标记处发音的起点和终点(毫秒)二、标注内容具体说明1、标注文本A)正常标注中,1)文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“ ”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格2)标注文本以发音人实际发音为准a)缺字或者多字时,不用进行人工纠正(即加字或者去除字)b)儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:音调上有变化)3)文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。
如:NBA,标注为N_B_AI love you 标注为I_LOVE_YOU我爱China 标注为我爱CHINA我要听ABC 标注为我要听A_B_C4)出现语气词,尽量选用带“口”字部首的字5)阿拉伯数据标注为中文,如1998年:标注为:一九九八年数字24标注为:二十四6)出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可7)出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用同音字代替(要是同音字发音和音调都完全相同的)8)儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”9)如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,将截断的音刨除,文本标注也只标注发音边界内的内容。
标注规范及标准一.简单介绍对每个语音段,分别标注文本内容、说话人性别、口音、底噪、儿童音。
二.操作步骤及方法1.登录界面如下图,用给定的账号和密码登录;http://123.56.137.109:18002.登录进去之后,选择申请任务,在项目名称下面选择对应负责人团队的任务(申请“陈思团队”,选错做完不结算工资),然后同意保密协议,就进入工作页面开始工作;3.工作页面如下图所示,具体的切分标注步骤如下:1)首先,框1是音频播放波形图,上边的箭头用作前后翻页,但是只起到浏览作用。
还有需要在波形前后标注时间边界(直接在波形上拖动鼠标即可),波形下边是时间轴,底下的快捷键避免使用,免得出现语句错乱。
2)框2中是对属性的标记。
(尤其注意底噪和口音,不能全标有也不能全选无,要根据每句话的音频断定)3)框3是文本输入区,要求输入的文本必须与音频完全一致,不能出现多字漏字错别字的现象。
左下角的是跳转翻页,如果想跳到第五页,则输入数字五后直接回车即可。
4)框4是三种标签。
注意:时间轴第一个字到最后一个字,文字前后噪音划在红线外就不用标注口音是这句有口音味或者其中1-2个字带口音都算有口音底噪是本句的第一个字到最后一个字持续明显有才标有,如果中间出现一个突发明显噪音,在出现处标noise标签句子有标点,句尾必须有标点可点击跳转第几句到相应的句子,或者上面箭头前后翻页点击“保存继续下一句”本句就自动保存了三.切分标注的标准3.1 时间边界添加时间边界的方法:直接在波形上拖动鼠标,前后语音不用有静音预留(第一字到最后一个字),即波形两边不用留空白时长3.2文本标注规范1.录音转写的第一要求忠实地按照音频录音念什么就转写成什么的原则,如真实发音为“我们去哪哪里啊”,“哪”字有重复,就要忠实地录成“我们去哪哪里啊”,。
2.口音问题由于口音或个人习惯导致的音变,按普通话标注音录入。
多音字或者生活中有不同发音的字,也按照普通话标注音录入。
2024手机通话录音规范合同编号:__________地址:联系人:联系电话:地址:联系人:联系电话:鉴于甲方为手机通话录音的提供方,乙方为手机通话录音的使用方,双方为了规范手机通话录音的提供和使用,经友好协商,达成如下协议:第一条手机通话录音的提供1.1 甲方应保证手机通话录音的真实性、准确性和完整性。
1.2 甲方应在录音中明确标识出通话的起始时间和终止时间。
1.3 甲方应在录音中明确标识出通话双方的姓名或号码。
1.4 甲方应对录音进行妥善保管,确保录音不被未经授权的第三方获取。
第二条手机通话录音的使用2.1 乙方应在合法范围内使用手机通话录音,并确保不会将录音用于非法目的。
2.2 乙方不得将录音提供给第三方,除非法律有明确规定。
2.3 乙方应在取得甲方书面同意后,才能对录音进行复制、编辑或删除。
第三条保密条款3.1 除非依法应当向行政机关、司法机关提供本协议外,双方应对本协议的内容和签订过程予以保密,未经对方同意不得向第三方披露。
3.2 本协议的保密义务自本协议签订之日起生效,至本协议终止或履行完毕之日止。
第四条违约责任4.1 任何一方违反本协议的约定,导致本协议无法履行或造成对方损失的,应承担违约责任,向对方支付违约金,违约金为本协议金额的__%。
4.2 违约方应承担因违约所产生的相关费用,包括诉讼费、律师费等。
第五条争议解决5.1 双方在履行本协议过程中发生的争议,应通过友好协商解决;协商不成的,任何一方均有权向合同签订地人民法院提起诉讼。
5.2 诉讼费用由败诉方承担,但法律另有规定的除外。
第六条其他条款6.1 本协议自双方签字或盖章之日起生效。
6.2 本协议一式两份,甲乙双方各执一份,具有同等法律效力。
甲方(盖章):乙方(盖章):签订日期:____年____月____日多方为主导时的,附件条款及说明一、当甲方为主导时,增加的多项条款及说明7. 甲方权利和义务7.1 甲方有权要求乙方按照约定使用手机通话录音,并确保乙方的使用行为符合法律法规的要求。
语音转写规范一、语音转写总体目标针对给定的语音片段,人工判断其是否为有效语音,对于有效语音,给出其中语音的起止时间段、标准的文本标注以及语音本身的相关属性,对于无效语音直接抛弃。
操作说明1.下载并安装chrome浏览器(必须条件);2.用给定的账号和密码登陆网址http://182.92.174.146/index.php?c=login3.登陆成功后,点击菜单栏“申请任务”,如果有任务的话,便可以点击“项目名称下”给定的项目进入,如下图:4.同意保密协议开始工作后,工作界面如下所示:操作顺序分为五步:1首先判断声音的有效性,如果有效的话,再继续进行下面步骤;如果声音无效,则只需选择无效原因即可(选中“无效声音”后,自动下一句)。
2在上图1所框波形中,通过鼠标拖拽的方式,标记出有效声音的起止时间点;3对有效声音进行“性别,底噪,口音、儿童音”四种属性的标记;4两条红色竖线内的音频即为需要转写的音频段(我们把这一段称为有效声音,转写校对时只需要转写校对有效声音段内的内容)转写内容写到下面文本框内。
5需要加标签的地方加上标签,单击即可加入;6标记完毕后,点击“保存继续下一句”7点击1of150处的箭头的话,本句的标注结果是不保存的,只是浏览8做到每个任务包的最后一句时,波形图的右上方会显示“提交“按钮,点击即可提交任务。
注:账户中如果存在没有提交的任务,则无法领取新任务。
先校对文字,再点生成拼音。
二、有效语音判断标准单个发音人的清晰普通话语音是标注中需要处理的有效语音;对于带有一定口音,导致发音不标准的普通话以及由于发音习惯,导致个别发音改变的普通话,都属于有效语音;对于背景存在噪声,但不影响说话内容辨识的语音,也属于有效语音;其它情况的语音都属于无效语音,直接抛弃,无需进行任何标注,典型的无效语音有:1.音频中无人说话,只有背景噪声或音乐等。
2.音频背景噪声过大,影响说话内容辨识。
3.语音不是普通话发音,如广东话、唱歌、其它语言(普通话中夹杂少量英语情况除外)等。
音频数据标注规范_离线标注(1)腾讯音频标注规范一、标注内容本次针对语音标注以下内容:有效性判定:有效,无效。
有效则进行后续标注。
无效的判别标准:1)无法听清音频中的内容(不论部分还是全部)2)音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等3)音频中出现了除了中文、英文之外的语言4)音频中无人声5)音频中全部都是歌曲、电视声等6)背景人声音量大于主说话人1/4的7)音频中内容仅有一个汉字或一个英文单词8)音频中内容仅有一些语气词,例如:嗯,啊,哈对于有效的音频:进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。
每个分段标注内容:1)标注文本:语音对应的文本2)性别、儿童:发音人的性别,发音人是否为儿童3)语言:中文、英文、中英4)是否有口音:发音人发音是否有口音5)是否有变音:发音人是正常人声,还是娱乐性质的变音6)发音边界:按照规定标记处发音的起点和终点(毫秒)二、标注内容具体说明1、标注文本A)正常标注中,1)文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“ ”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格2)标注文本以发音人实际发音为准a)缺字或者多字时,不用进行人工纠正(即加字或者去除字)b)儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:音调上有变化)3)文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。
如:NBA,标注为N_B_AI love you 标注为I_LOVE_YOU我爱China 标注为我爱CHINA我要听ABC 标注为我要听A_B_C4)出现语气词,尽量选用带“口”字部首的字5)阿拉伯数据标注为中文,如1998年:标注为:一九九八年数字24标注为:二十四6)出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可7)出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用同音字代替(要是同音字发音和音调都完全相同的)8)儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”9)如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,将截断的音刨除,文本标注也只标注发音边界内的内容。
客服录音数据标注规范(完整版)
用谷歌浏览器(至少32.0以上版本)来标注。
其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。
质量要求:
●文字错误率:3%以内
⏹注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算
错。
●其他错误率:5%以内
⏹注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项
错,该条语音就算错。
客服语音内容说明:
都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。
1. 当前语音是否包含有效语音
无效语音(即不包含有效语音)的类型:
●文件播放不了;
●音频全部是静音或噪音;
●许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。
●两个人同时说话超过3个字(包括3个字)并且听内容不清楚的或者噪音声
音盖住说话人声大于3个字(包括3个字)导致内容听不清楚的
2.当前语音的噪声情况
如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。
常见噪音举例(但不限以下):
●其他人说话声
●背景音乐声
●动物叫声
●汽车滴滴声
●咳嗽声
●明显的电流声
3.说话人数量(即标注的语音内容是几个人说的)
●一人说话(主体说话人):只有一个人说话
●多人说话:有多个人说话(因为是客服语音,一般是两个人)
4.说话人性别
如果有多个人说话,则标第一个说话人的性别。
标注项:
●男
●女
5.是否包含口音
如果有多个人说话,则标第一个说话人是否有口音。
标注项:
●否:无口音
●是:有口音
⏹有口音是指说话人发音的拼音或声调和正确发音的不一致。
常见情形
包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻
音,平翘舌,以及其他情况。
6.语音内容
如果两个人同时说话,以主体说话人声音大的为准来转写文字。
如果一条语音中,低于3个字有两个人同时说话,并听不清楚的,将听不清的部分用“[d]”表示。
如果一条语音中,低于3个字部分噪音太大,盖住说话人声音导致听不清的,将听不清的部分用“[n]”表示。
文字转写具体要求:
●语音内容必须和听到的语音完全一致,不能多字、少字、错字。
●阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。
注意区分“一”
和“幺”。
“二”和“两”
●语气词: 音频中说话人清楚地讲出的语气词,如“呃啊嗯哦唉呐”
等,要按照正确发音进行转写。
语气词除了“了不”没有口字旁,其他基本上都有口字旁。
●转写内容的完整性要与实际发音一致,不得删减;
⏹如发音为:我是北北京人;“北”字有重复现象,那转写的时候要
写成:我是北,北京人。
●英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)
一律大写,按词读的则小写,例如“APPLE”表示用户是逐个字母念的,“apple”表示用户按单词念的。
●明显的儿化音必须标注出来。