版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大语言模型通识微课
什么是数据标注数据标注是大模型数据能力链上的重要一环。数据是人工智能的基础,更是大模型源源不断的养分来源,数据标注直接决定了大模型有多聪明。OpenAI在数据标注上的方式是先做出预训练模型,再用强化学习加上人工反馈来调优,也就是RLHF(从人类反馈中强化学习)。他们找了很多家数据公司来共同完成数据标注,自己组建一个质检团队检查标注好的数据。数据标注不是以对错来评估,而是给每个问题选出多个匹配的结果,再经过多人多轮的结果排序,直至模型数据符合常人思维,甚至某些专业领域的结果要达到特定要求的知识水平。微课4.1人工数据标注人工智能是通过机器学习方法大量学习已知样本,有了预测能力之后再预测未知样本,以达到智能化的效果。实际应用中有监督的深度学习方式是主流。监督学习对标注数据有着强依赖性需求。未经标注处理过的原始数据多以非结构化数据为主,这些数据难以被机器识别和学习。只有标注处理后的结构化数据才能被算法模型训练使用。数据标注通过人工标注方式,把需要机器识别和分辨的语音、图片、文本、视频等数据打上标签,进行加工处理,为机器系统提供大量的学习样本,然后让计算机不断地学习这些数据的特征,最终实现计算机自主识别。4.1.1什么是数据标注大模型数据标注的特点主要如下。(1)非结构化。早期的数据标注工作主要以“打点”和“画框”为主,就是让机器学习什么是“人脸”,什么是“障碍物”,需要严格按照客户给定的标注规范进行,标注要求也偏客观。大模型标注则更像是在做阅读理解,模型学习应该给出什么样的内容,大模型生成的多个结果哪个更接近满分答案,标注要求偏主观,难以形成统一的标准。标准从客观到主观,非常考验标注师的主观能动性以及解决问题的能力。4.1.1什么是数据标注(2)知识密集型。大模型背景下的标注工作主要分为两类:通识大模型标注、领域大模型标注。大模型产品多数是通识大模型,需要标注师具备较强的自然语言能力。领域大模型标注对学历、能力、专业度的要求更高。大多数行业或企业需要具备领域知识的专业人才,他们要重点解决金融、医疗、科技等领域的专业问题,最终形成专业的高质量数据。(3)学历要求高。早期的数据标注工作者算是人工智能领域的流水线工人。如今的标注师们属于互联网公司的白领,甚至很多专业领域的标注人员都是硕士或博士学历,其身份是领域标注专家。4.1.1什么是数据标注从不同的角度思考,数据标注有许多不同的分类。(1)从难易程度方面,数据标注可划分为常识性标注与专业性标注。例如地图识别标注多为常识性标注,标注道路、路牌、地图等数据,语音识别标注也多为常识性标注。难点在于需要大量标注训练样本,因为应用场景多样且复杂,一般对标注员无专业技能要求。医疗诊断领域标注多为专业性标注,因为病种、症状的分类与标注需要有医疗专业知识的人才来完成。4.1.2数据标注的分类(2)从标注目的方面,数据标注可划分为评估型标注与样本型标注。评估型标注一般是为了评估模型的准确率,发现一些不好的样例,然后优化算法模型。样本型标注是为模型提供前期的训练样本作为机器学习的输入。为了样本的均衡性,标注样本大都是随机抽取的。这样可在一定程度上避免样本偏差,但缺点是要标注大量数据。4.1.2数据标注的分类数据标注从标注对象方面,可划分为图像、语音、视频和文本标注。图像标注是对未经处理的图片数据进行加工处理,转换为机器可识别信息,然后输送到人工智能算法和模型里完成调用。常见的图像标注方法有语义分割、矩形框标注、多边形标注、关键点标注、点云标注、3D立方体标注、2D/3D融合标注、目标追踪等。图4-4图像标注4.1.3图像标注语音标注是标注员把语音中包含的文字信息、各种声音先“提取”出来,再进行转写或者合成。标注后的数据主要用于机器学习,使计算机可以拥有语音识别能力。常见的语音标注类型有语音转写、语音切割、语音清洗、情绪判断、声纹识别、音素标注、韵律标注、发音校对等。
图4-5语音标注4.1.3语音标注点云数据一般由激光雷达等3D扫描设备获取空间若干点的信息,包括XYZ位置信息、RGB颜色信息和强度信息等,是一种多维度的复杂数据集合。3D点云数据可以提供丰富的几何、形状和尺度信息,并且不易受光照强度变化和其它物体遮挡等影响,可以很好地了解机器的周围环境。常见的3D点云标注类型有3D点云目标检测标注、3D点云语义分割标注、2D3D融合标注、点云连续帧标注等。图4-63D点云标注4.1.43D点云标注文本标注是对文本进行特征标记的过程,对其打上具体的语义、构成、语境、目的、情感等数据标签。通过标注好的训练数据,可以教会机器识别文本中所隐含的意图或者情感,使机器可以更好地理解语言。常见的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度土地储备土地使用权无偿移交合同
- 2025至2031年中国AKT感应IC卡行业投资前景及策略咨询研究报告
- 2025至2030年中国语音功放播放机数据监测研究报告
- 2025至2030年中国箅子板数据监测研究报告
- 无人驾驶卡车-深度研究
- 2025至2030年中国水晶打磨机数据监测研究报告
- 智能交通网络化-深度研究
- 二零二五年度高标准厂房出售合同规范文本3篇
- 2025年中国高频汽化电刀市场调查研究报告
- 2025年中国轧辊磨床市场调查研究报告
- 变压器搬迁施工方案
- 单位转账个人合同模板
- 八年级语文下册 成语故事 第十五课 讳疾忌医 第六课时 口语交际教案 新教版(汉语)
- 中考语文二轮复习:记叙文阅读物象的作用(含练习题及答案)
- 老年外科患者围手术期营养支持中国专家共识(2024版)
- 子宫畸形的超声诊断
- 2024年1月高考适应性测试“九省联考”数学 试题(学生版+解析版)
- (正式版)JBT 11270-2024 立体仓库组合式钢结构货架技术规范
- EPC项目采购阶段质量保证措施
- T-NAHIEM 101-2023 急诊科建设与设备配置标准
- 针灸与按摩综合疗法
评论
0/150
提交评论