版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据标注工作汇报什么是数据标注?当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告。产业勃兴,数据标注员因此成为新兴职业。多名业内人士告诉记者,目前国内至少有大小近千家标注公司,共20余万名数据标注员。其实大部分的工作内容很简单的,就是听听语音然后把提示字幕修改一下,或者看一张图片,把里面文字也打出来,这是我们做数据标注常常做的事,只要有电脑,就可以随时随地的去做任务,如果有想深入了解请加微信TYY1999-06-06第2客服录音数据标注规范(完整版)客服录音数据标注规范(完整版)用谷歌浏览器(至少32.0以上版本)来标注。其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。质量要求:文字错误率:3%以内注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算错。其他错误率:5%以内注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项错,该条语音就算错。客服语音内容说明:都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。.当前语音是否包含有效语音无效语音(即不包含有效语音)的类型:文件播放不了;音频全部是静音或噪音;许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。两个人同时说话超过3个字(包括3个字)并且听内容不清楚的或者噪音声音盖住说话人声大于3个字(包括3个字)导致内容听不清楚的.当前语音的噪声情况如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。常见噪音举例(但不限以下):其他人说话声背景音乐声动物叫声汽车滴滴声咳嗽声明显的电流声.说话人数量(即标注的语音内容是几个人说的)一人说话(主体说话人):只有一个人说话多人说话:有多个人说话(因为是客服语音,一般是两个人).说话人性别如果有多个人说话,则标第一个说话人的性别。标注项:男女.是否包含口音如果有多个人说话,则标第一个说话人是否有口音。标注项:否:无口音是:有口音有口音是指说话人发音的拼音或声调和正确发音的不一致。常见情形包括:l和n不分,h和f不分,n和ng不分,e和uo不分,前后鼻音,平翘舌,以及其他情况。.语音内容如果两个人同时说话,以主体说话人声音大的为准来转写文字。如果一条语音中,低于3个字有两个人同时说话,并听不清楚的,将听不清的部分用"[d]”表示。如果一条语音中,低于3个字部分噪音太大,盖住说话人声音导致听不清的,将听不清的部分用“[n]”表示。文字转写具体要求:语音内容必须和听到的语音完全一致,不能多字、少字、错字。阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”语气词:音频中说话人清楚地讲出的语气词,如“呃啊嗯哦唉呐”等,要按照正确发音进行转写。语气词除了“了不”没有口字旁,其他基本上都有口字旁。转写内容的完整性要与实际发音一致,不得删减;如发音为:我是北北京人;“北”字有重复现象,那转写的时候要写成:我是北,北京人。英文比较复杂,转写的原则是:按字母读的情况(如缩写词,网址等)一律大写,按词读的则小写,例如“APPLE”表示用户是逐个字母念的,“apple”表示用户按单词念的。明显的儿化音必须标注出来第3轻松标注Excel表格中的无效数据轻松标注Excel表格中的无效数据校对数据是我们在日常办公中经常要做的工作,对于含有大量数据的表格,如何快速找到无效的录入数据、提高我们校对的效率是不少朋友急于想了解的,今天我教大家两招我出来的心得,希望对大家有所启发。图1为单位第一季度的加班统计表,领导让会计室小卜统计出来好计发加班费以调动职工的积极性,小卜花了一晚上时间终于把全厂2000多名职工的加工统计表搞出来了,实在累得够呛,再也没有精力校对了。他让我想想办法能不能把超出范围的错误数据快速找出来,由于单位规定,每人每月的加班时间不得超过90小时(出于职工的健康着想),我给他介绍了下面的两种办法:图11.使用条件格式选中表格中的数据区域(从C列到F列),单击“格式”菜单中的“条件格式”命令,在弹出的“条件格式”的对话框的“条件1”列表中选择“公式”,在其右侧的文本框中输入公式“=or(c190)”(如图2),单击“格式”按钮,此时弹出“单元格格式”对话框,切换到“字体”选项卡,将文字“颜色”选择为“红色”,完成设置后依次单击“确定”按钮返回到数据表格中,浏览一下表格,是不是看到超出范围的数字已经被标注了红颜色,这样改起来就方便多了。图22.利用数据有效性圈释无效数据一般情况下,在录入数据之前设置数据的有效性可避免录入超出指定范围的非常规数据,但数据录入完成后设置数据的有效性有什么作用呢?通过下面的介绍大家就会明白了。选中表格中需要设置有效性的数据区域,单击“数据”菜单中的“有效性”命令,弹出“数据有效性”对话框,切换到“设置”选项卡,按图3所示进行相应的设置,单击“确定”按钮返回数据表中(此时表格的数据中看不到有什么变化)。图3右击工具栏打开“公式审核”工具栏,单击工具栏中的“圈释无效数据”按钮,此时我们会发现表格中的无效数据都被清清楚楚地标注出来了(如图4)。图4Cico提示:以上两种方法都可以轻松地标注表格中的无效数据,这些无效数据只要修改到指定的范围内,标注就会同时被取消,不会影响数据的分析和打印。第4如何运营一家数据标注公司资源特点篇如何运营一家数据标注公司(资源特点篇)在“基础架构篇”中我们提到的资源,也就是数据标注公司要面对的甲方:AI公司、AI企业、AI研究所。那么问题来了,人工智能公司、人工智能企业、人工智能研究所多种多样,作为一个数据标注公司应该如何定义自己的服务方向呢?首先我们要能够准确的了解资源公司的特点,这样才能更好的为其提供符合自身特点的服务。目前市场上的AI公司、AI企业、人1研究所大致分为以下几种,对于与数据标注公司的合作来说他们各有各的优势和劣势,这里对以下突出的几类进行分析:.初创型这里指的初创型公司一般指未进行过阶段融资的初次创业型公司。优势:a)沟通成本低初创型公司的核心创始人一般都是公司的核心技术人员,所以他们对数据标注的结果有清晰的需求认知,能够清楚严谨的表述出需要标注数据的规则,数据标注公司与此类资源公司在沟通上比较简单,能够快速的直入主题,迅速建立供需关系,省去冗长的上报、各级的批复等沟通环节。b)结算时间快这类资源公司本身公司架构也相对简单,对于标注完成后的结款时间相对也较短。劣势:a)需求连贯性不强因为初创型公司很多没有稳定的甲方,同时公司在同一时期对接的甲方数量并不是一定的,有可能在某个月中会有很多,同样也可能一个没有。这就导致了在数据的需求连贯性上并不是很强。b)标注需求量不大在与甲方沟通合作的路上,展示型项目产品并不需要大量数据的验证。更多时候都是以小批量数据进行产品的小样展示,因为初创公司也要考虑项目的成功率和标注成本之间的关系。.企业型这里指已经形成一定规模的人工智能企业,同时可能已经获得多轮融资。优势:a)数据连贯性强这里指的一定规模的人工智能企业可能已经是市场上第一梯队的领跑者,因为有成熟的产品和合作对象,其在产品需要进行迭代和研发关联产品时是需要大量标注数据作为模型训练的。同时因为其在业界的影响力,与新的需求商进行合作时的成单率也要远高于初创AI公司。b)数据价值高因为大型公司需要综合保密、质量、工期等多方面因素,同时因为已经与需求公司建立了正式的合作关系,此类型的AI公司在提供的数据标注单价上是要略高于初创型企业。劣势:a)结算周期长因为此类公司的结构相对复杂,同时结构越复杂的公司其对于支出资金的流程也越谨慎,这种谨慎就会导致合同内的结款周期远远高于初创型企业。b)沟通成本高因为此类公司的架构相对复杂,一般一个项目的启动流程是“算法团队将需求提供给项目经理,项目经理联系数据标注公司试标-数据标注公司试标完毕反馈-项目经理检查并反馈给算法团队”。这其中就避免不了多人传达规则时出现的模糊情况,需要大量的时间进行沟通和验证。同时在项目启动时的流程也相对复杂,不仅需要算法确认规则,需要财务确认支付方式,需要法务进行合同审核,需要项目主管领导批准,这些都会使数据标注公司的沟通成本大大增加。.科研型这里指各类政府、大学等行政事业单位的科研部门。优势:a)结算时间短一般的科技机构的审批方式都是先进行项目报备,在项目报备通过的时候其实这部分的项目资金就已经预留出来了,只要数据标注公司能够按时按量的完成项目内容同时提供合同内规定的相关发票,就可以顺利结算。b)沟通成本低一般的科研机构都是由项目负责导师指定联系人进行与数据标注公司的沟通,同时被指定人一般也都是项目的参与人,所以在规则的制定上更为清晰,与初创公司一样,能够快速的进入主题,大大节省了数据标注公司在沟通方面所花费的时间。劣势:a)数据连贯性不强因为此类科研所的项目基本都是阶段性的,一类产品上线后,相关产品再进行上线需要周期。b)找寻成本高因为科研机构的特殊性,在市场上很难准确就定位到需求部门,在众多部门中确立需求部门并与之建立起合作关系是需要耗费大量的时间和精力。.综合型向AI化转型的各类传统行业企业。优势:a)数据连贯性强因为涉及传统生产的转型,该类企业一般都有独立的AI产品研发组,同时因为此类公司本身的体量和市场占有率,会使其对于需要转型的领域和需求产品更为宽泛。b)数据量大因为AI转型除了成熟的技术支撑之外,最重要的就是时间,越快将生产结合AI的企业,其市场竞争力也就越明显。而如何能让计算机快速的进行训练呢?除了算法团队的技术支撑,剩下的就是给计算机提供大量的符合模型识别的标注数据。劣势:a)结算周期长和企业型公司性质相同,由于庞大的内部结构,项目资金的结款周期相较于初创型公司和研究所会大大增长。^工期紧张因为有转型这个宏观任务,所以一般此类企业都对转型项目的落地时间有明确的规定,说简单一些就是工期紧、任务重。由于这种特点,数据标注公司在承接此类公司的项目时,需要有大量的人手进行数据标注,这对于公司本身的管理无疑也是巨大的挑战。本文所说的每种公司都有各自的渠道获取特点,请持续关注博客,我们会在接下来更新更多的相关内容。第5入库数据清理清查工作汇报2012年入库数据清理清查工作汇报根据省、市、区文件要求,将全员人口数据清理清查工作作为当前重点工作来抓,解放思想,放下包袱,深入、彻底地开展入库数据清理清查,特别是历年(含当年)漏报、错报、瞒报人口出生数、“四术”数、查环查孕数、社会抚养费征收数等,全面录入系统。现将这项工作总计如下:一、领导高度重视为了确保清理清查工作取得实效,我街道成了以街道分管领导XXX任组长,相关人员为成员的“人口计生统计数据核实清查”活动领导小组,领导小组在计生科下设办公室,具体负责监督及统筹管理全员人口信息系统数据质量检查、信息采集和录入等工作。领导小组由街道分管领导陈伟元主持召开了协调会议,进一步明确了科室人员分片包干的社区工作站,根据我街道实际分为3个清理清查工作小组,整合了社区工作站各种资源,为清理清查的顺利进行提供了组织和队伍保障。二、突出重点、深化措施,确保流动人口清理清查质量流动人口管理是计划生育工作的重点,也是难点,因此开展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度畜禽养殖技术委托管理合同3篇
- 2025年度工厂整体搬迁及设备转让合同3篇
- 2025年度干洗店衣物洗涤与衣物护理技术研发合同
- 2025年度高校实习生就业实习协议书3篇
- 2024年甲乙双方关于航空器材制造的合同
- 企业培训外包合同(2篇)
- 银川能源学院《食品加工类综合技能训练》2023-2024学年第一学期期末试卷
- 2024年移动应用开发与推广服务合同3篇
- 益阳职业技术学院《软件工程专业综合实验》2023-2024学年第一学期期末试卷
- 2024年甲乙双方关于建筑工程居间服务合同
- 《客户开发技巧》课件
- 《防范于心反诈于行》中小学防范电信网络诈骗知识宣传课件
- 口腔执业医师定期考核试题(资料)带答案
- 2023-2024学年北京市通州区九年级(上)期末语文试卷
- 2024-2030年中国瑜伽培训行业运营模式及投资战略规划分析报告
- 人教版七年级语文上册《课内文言文基础知识 》专项测试卷及答案
- 2023-2024学年广东省深圳市龙岗区八年级(上)期末英语试卷
- DB23-T 3768-2024北方种鹅节水生态旱养管理技术规程
- 事业单位招聘《综合基础知识》考试试题及答案
- 城镇燃气经营安全重大隐患判定及燃气安全管理专题培训
- 东营房地产市场月报2024年08月
评论
0/150
提交评论