【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《麦克风阵列数据标注规范》,欢迎阅读!

内部公开
文档密级:内部公开
麦克风阵列数据标注规范
1. 标注任务目标
标注任务就是标注声音文件内容,把“内容栏”的文本与音频真实发音修改一致,最终
获取到语音正常的声音文件。 2. 标注任务方式
1) 标注采用标注+检查的方式,保证数据质量;
2) 标注音频数据总分两大类,好数据、坏数据。好数据指发音人是在与系统对话,且语音
波形完整、内容清晰的正常数据;坏数据指无效数据;
3) 内容与音频一致指音频发出内容与内容栏文本完全一致(没有错别字);内容与音频不
一致指音频发出内容与内容栏文本不一致,需要人工操作修改一致。详细说明见下表: 数据分类
子分类 内容与音频一致
好数据
内容与音频不一致
坏数据
3. 好数据文本通用录入标准
3.1 转写内容要反应真实读音且遵循词语固定搭配,带口音用普通话意思转写合理文本,音
频读音都需转写,标点符号及特殊符号无需录入,必须用简体字录入,不可增减字、错字;人名、小区名、道路名无法确定用字时,录入准确发音的常用字;
3.2 真实发音为“我去哪哪里呀”,“哪”字有重复,就要忠实地录成“我去哪哪里呀”。另
由于口音或个人习惯导致的音变,按普通话标注音录入;
3.3 多音字或生活中有不同发音的字,也按普通话标注音录入。例如,“办公室”的“室”,
有人说成shǐ,有人说成shì,都录成“办公室”;
3.4 常见固定方言、外语:例如四川话“瓜娃子、滚犊子”,如日语“卡哇伊,莫西莫西”,
泰语“萨瓦迪卡”等需转写;
网络用语热门:童鞋、灰常、杯具、表酱紫,坏银、鸡冻等可按此转写; 常见互联网热词:讯飞输入法,灵犀,讯飞语点,苹果siri,wlan,wifi等; 常见语气词或脏话:语气词反应真实读音,例如唉、哎,哦、噢;脏话如 二屄 屌丝 我
无
内容栏文本根据音频修改一致,点击“下一句”
点击“标记不可用”,继续标注
标注方式
无需操作完成本条标注,点击“下一句”
内部公开
肏 等,切误用字母代替;
3.5 对于儿化音,也要忠实于发音录入。例如,发音是“哪儿”,就录成“哪儿”,没有发出
儿化音的,就录成“哪”;
3.6 发音停顿录入文本连续,不需要空格或添加符号,英文缩写除外;例如,“what’s your
name”中的撇号必须是英文状态下录入,特殊符号读法“#”录入“井号键”;“*”录入“星号键”;
3.7 不允许录入阿拉伯数字,需转换汉字,例如,“1”转”一“或“幺”根据真实发音录入,
如读“120”可录入“幺二零”;也可点击【数字转中文】【数值转中文】进行“阿拉伯”到“汉字”转换;
3.8 语句中包含英文单词或字母,根据发音录入,字母要大写,字母与字母之间空一格,“单
词要小写”,单词与单词之间空一格,汉字与字母或单词之间不需要空格;
例如,发音一个字母读“O P P O”则按照字母录入,若是连读“oppo”,则按照单词录入;例如:如“三W点”则根据真实发音录入; 3.9 麦克风阵列规范补充:
1) 一人说话,能听清的都需要标注,听不清则标坏;
2) 两人以上说话,说话人语音都听清的都需要标注,若其中一人或多人说话重合严重听不
清,则直接标坏;
3) 截断数据若能听清楚被截断的字词,则需要标注有语音的听到的内容,被截断的字词若
听不清,则为坏数据;
4) 对于音频中含异常噪音(电流声、噗噗..)算作好数据,能听清的需要标注; 5) 对于其他说话声、环境噪音和设备噪音(手机滴滴音、手机震动音、log音)都为背景
噪音,不需要转写;
6) 对于包含唤醒词的除了标注文本还需要加注标签,其他的均只要标注音频文本内容即可,
不需打标签;
每批数据都需要向众包说明唤醒词是什么;
如小白小白、公子小白、公子小哥为纯唤醒词,标签注明为:纯唤醒词; 如小白小白你好吗、公子小哥在干嘛„,标签注明为:含唤醒词;
如小白在干嘛,小白、小哥„,此类标签注明为:唤醒词不完整;
7) 说话参杂人声非语音(咳嗽、清嗓子、打喷嚏、笑声等),只转写主发音人说话内容,
对于笑声是说出来的要转写,若是自然笑无需转写;
本文来源:https://www.wddqxz.cn/da935a753868011ca300a6c30c2259010202f3b8.html