输入法数据标注规范标准_第1页
输入法数据标注规范标准_第2页
输入法数据标注规范标准_第3页
输入法数据标注规范标准_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

输入法数据标注规范地址栏内输入标注系统地址:一定使用谷歌浏览,并将其设置为默认浏览器1.登陆界面:百度的账户一律实名认证不可修改个人信息及密码严格保证账号安全做到一人一号实名认证,不得修改密码信息如果导致账号丢失的账户内的时长及账户成本费用个人承担。导致数据错乱造成损失的对其追究相应赔偿。红框内显示为音频可点击播放暂停蓝色框框选的部分就是我们要标注的内容了标注信息,默认选择为第一个选项:第一项:判断是否为无效语音TOC\o"1-5"\h\z1只含有噪声或者静音,则标注为无效语音。I2只有一个字的“嗯、啊、为”等等,标为无效语音。3如果一个人唱歌,则标注为有无效语音。|■■听不清,听不懂,听不明白的,|就标无效,不要瞎猜。保证标有效的语音■■写出的文本是清晰的、无歧义的。确定不了就F5刷新,但是注意无效的比例控制在15%左右,不要超过90%的有效数据,让公司一看就是刷F5出的数据。质检判罚尺度在标注无效数据时,除非这条语音是明显有效的,你标成无效算错,如果这条语音可有效也可无效,你标记成无效,质检不能判错。这些无效数据的共性是文本不清晰,有歧义,文本是死扣出来的。不要为了文本标注有语义,硬猜去写文本。标成有效可能会错;标成无效,质检不能判错。第二项:噪音:☆☆☆耳朵所能听到的文本【也就是当前说话人】以外的声音标注为有噪音。说话以外的声音包括咳嗽声,打喷嚏,喷麦。背景人说话,汽笛声、能听到我们就标注为噪音,反之安静。第四项:语音内容;(文本)不要一味去依赖编辑好的文本,写出的内容与音频完全一致,并且有语意有逻辑。不单单是音的罗列。不能多字、少字、错字。央文结巴,语气口语词诸如嗯啊呀这些照录。【一律带口字边,嗯啊呀喂哦。。】”写成井号键“*”写星号键。没有阿拉伯数字,数字以汉字形式,如“一二三”,而不是“逻辑。不单单是音的罗列。不能多字、少字、错字。央文结巴,语气口语词诸如嗯啊呀这些照录。【一律带口字边,嗯啊呀喂哦。。】”写成井号键“*”写星号键。没有阿拉伯数字,数字以汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”。3地名,古诗词,名人名字这些不能用同音字代替。没有正常的逻辑思维能力也要有常识,没有常识的问度娘。不行就|5刷新!全角wifi半角wifi第五项:性别能听出是儿童的标为“儿童”。男就是男,女就是女,分不清性别的标男或女都行。第六项:口音☆☆☆发音不标准的普通话,跟标的这个字的字典发音不同,就标记口音。因为地域不同而造成的普通话的差异不算口音,如同儿化音不算口音只因北方人说话都是差不多调调。标注结束后,点击“标注提交”即可工作量查询>点击右上角查询,将会出现工作量查询页面查询起始时间是2015年5月1号至表单日期止为了方便区分检查,把“有效语音”和“无效语音”显示成黑色和红色。Ctrl+f可通过搜索speech时间或者speechid来找到相应的条目。注意表单speech日期时间会随着修改重置,speechid是最准确的语音终身编号,搜索不会出错。标注员可以对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论