大语言模型通识微课课件:数据标注的执行_第1页
大语言模型通识微课课件:数据标注的执行_第2页
大语言模型通识微课课件:数据标注的执行_第3页
大语言模型通识微课课件:数据标注的执行_第4页
大语言模型通识微课课件:数据标注的执行_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大语言模型通识微课

数据标注的执行常识性标注的规则比较简单,标注一部分样本即可总结出较通用的规则,但专业性标注的规则比较复杂,制定专业的标注规则需要遵循的原则主要如下。(1)多维分析与综合分析相结合。简历与职位的匹配度影响因素肯定是多维的,不能只参考工作经历或专业要求一个因子,或者某几个因子,要多维分析,最终再给出综合评分结果。简历与职位的匹配标注也不可能一上来就能给出综合的评分。要先给单一因子打分,然后参考每个因子的评分结果,最终再进行综合分析,给出评分结果。微课4.2数据标注的执行(2)因子权重影响因素场景化。简历与职位匹配度评估需要给每个因子打分,要结合具体场景把所有因子进行归类分析,比如设定一些重要因子,如果重要因子不匹配可能就直接不给分,比如工作经历代表的是一个人的胜任力,如果该候选人不具备该岗位的胜任力,总分肯定是0分。还有一些因子虽然不是很重要,但会影响评分,有些因子时而重要时而不重要,比如年龄,人力资源经理想要1~3年经验的行政专员,候选人40岁,该情况肯定会影响最终评分且很有可能总分是0分。所以把所有影响因子结合场景进行归类分析是十分必要的。4.2.1制定标注规则(3)问题类型标签化、结构化。一般情况下标注结果会以分数的形式展示。前期制定标注规则时,要把原因分析考虑进去,列出不匹配的原因,形成结构化的原因标签,有利于最终分析坏样例的分类与占比,然后,算法或者策略团队在优化时可以优先解决占比高或影响恶劣的样例。数据标注是一项看似简单实际却十分繁杂的工作,涉及标注分类、标注规则制定、标注原因分析、标注系统搭建、标注团队管理等,尤其涉及到专业领域的标注则更困难。4.2.1制定标注规则图像标注专家阿德拉·巴里乌索在实践中积累了丰富的标注工作经验,她记录了标注过程中曾遇到的困难和采用的解决方案,以便得到一致性高的注释。巴里乌索在数据标注中的主要心得如下。(1)在标注图像时,首先对图像进行整体评估,衡量标注难度。有些乍一看标注难度较大的图像,实际上图中的元素很少,很容易标记。(2)标注时,通常由大到小进行标注。比如开放空间中先标注天空,封闭空间内先标注天花板,然后再继续添加其他东西。4.2.2执行数据标注(3)标记顺序不重要,但标注时最好一行行地进行,将一行内所有类型相同的对象全都标注上,降低标签写错的可能。(4)一般不标注镜子里反射的物体,这很容易造成误导。(5)在图像中有很多线条性物体时需要特别注意,有可能标注出与所需完全相反的内容(如孔内被标记为对象)。4.2.2执行数据标注(6)标注图像中出现打开的门窗等情况时,不仅仅是标注门窗,也应将门窗内的物体也标注上,这有助于增加深度感。(7)标注时的标注线条要好看一些,尽量避免弄成一块一块的。

4.2.2执行数据标注(8)对于过于复杂的图片,如果对图中的内容不够熟悉,就干脆跳过。(9)如果一个物体被另一个物体遮挡,在给两个物体做标注时,给两个物体贴上标签,确保它们的边缘重合。

4.2.2执行数据标注(10)标注时有时需要放大和缩小。放大有助于标注一些小细节,但在标注之后需缩放至原始大小进行审核。(11)标注室内空间时,一般单独标记不同方向的墙。(12)如图,图像的复杂性是由于墙壁和拱门形成的不同深度平面造成的,在标记时需要给拱门内的元素进行标记。首先从两堵墙开始,然后给墙壁和容易分辨的大物体进行标注,最后再去标注小的一些细节。4.2.2执行数据标注(13)有时候某些容器是透明的,比如透明的容器内装着一些饼干,这时候是标注“容器”还是“饼干”呢?一般标注为容器,重点在于要保持标注原则的前后一致。(14)有时候标注标签并非自己的母语,当标注的目标物种类较多时,一定要建立一个标签的对应关系,方便查找,如“bed:床”。4.2.2执行数据标注数据标注团队主要由标注师和质检员组成,在完成标注后,数据交给算法工程师,他们会用数据对大模型做测试。看看哪些方面还有不足,再有针对性的做下一轮标注和调试。通常,大模型标注员岗位的要求比普通标注员要高很多。除了对专业能力或综合能力要求,有时会要求具有专业领域工作经验。4.2.3标注团队管理未来,大模型流水线上还会出现更多细分岗位,例如模型评估师(指导大模型调优方向)、指令工程师(研究与大模型交互更高效的方式)、视频音频标注

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论