




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
动化评估及与知识图谱的结合刘焕勇-360人工智能研究院-算法专家(老刘说NLP公众号作者)DataFunSummit#2023目录CONTENT01大模型研发中的数据工程DataFunSummit#2023什么是大模型的数据工程-以数据为中心的AI>以数据为中心的AI:模型不变,通过改进数据集质量提升模型效果>大模型的数据工程需要解决的几个关键问题:回顾:现有大模型基本情况回顾:现有大模型应用场景起底:GPT背后的预训练数据起底:英文主流大模型预训练数据的构成-多语种能力起底:英文主流大模型预训练数据的构成大语言模型数据集多模态大模型数据集起底:英文主流大模型预训练数据的构成起底:英文主流大模型预训练数据的构成起底:英文主流大模型常用预训数据-维基百科、书籍>维基百科:维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编写和起底:英文主流大模型常用预训数据-论文期刊>期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。>ArXiv是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。起底:英文主流大模型常用预训数据-WebText、Commoncrawl接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输出优质链接和后续文本数据具有指导作用。究人员、公司和个人免费提供互联网副本,用于研究和分析,它的数据包含原始网页、元数据和文本提取,文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。C4前23个域名(不包括维基百科)Wikipedia等在内的22个不同的高质量数据集组成,包括已经建立的自然语言处理数据集和几个新引入的数据集。>除了训练大型语言模型外,ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。起底:中文主流大模型预训数据构成起底:中文主流大模型的预训练数据构成起底:中文主流大模型预训练数据的构成-中英对比起底:中文主流大模型预训练数据的构成-中英语料对应问题的提出:我们需要怎样的预训练数据>高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,减少训练时长。识law),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。>数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。>相关性:回答是否和问题相关,避免答非所>准确性:是否准确,事实性回答要求完全一致,开放性问答要求语义相近。>完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。>连贯性:是否表达流畅、有条理、有逻辑性。>安全性:是否包含粗鲁、侮辱性等词汇。>专业性:不口水话,不啰嗦,书面用语,专业表达。>敏感性:是否涉及到政治领域、黄反、敏感事件等负面信息。预训练模型的数据要求AI会话场景下的质量要求问题的提出:以数据为中心的预训模型更高质量、更丰富的训练数据是GPT模型成功的驱动力,除模型权重变化之外,模型架构保持相似解决方案:领域预训模型的训练链路-以caMA为例解决方案:以数据为中心的大模型预训数据工程框架>以数据为中心的AI:模型不变,通过改进数据集质量提升模型效果解决方案:以数据为中心的大模型预训数据工程-工作流拆解解决方案:以数据为中心的大模型预训数据工程-采集、标注与评估解决方案:以数据为中心的大模型预训数据工程解决方案:以数据为中心的大模型预训数据工程-数据源的选取>目标:构建起大规模、多样性的数据,需要广泛收集并标准化各类语料,建立数据体系、数据来源,分开收集。>解决方案:>数据源的选取依据>数据体系是否完备>站点来源是否权威>数据规模是否大>数据实时性是否足够>下游任务是否有需求>下游技能有哪些表现差的能力>代码推理数据>任务评测数据集解决方案:以数据为中心的大模型预训数据工程-站点过滤与噪声信息清洗>目标:语料中存在大量不干净、广告、隐私、敏感数据,需要进行剔除,保证高质量。>质量分档模型>......>边缘文本剔除模型>使用不含title-ce分类器>......>垂直网页处理>定制化边缘文本剔除>......>基于规则的噪声清洗>空格、特殊符号剔除,繁简体转换>敏感信息,如脏话、煽动性言论和其他非法内容剔除>...>基于模型的噪声清洗>......解决方案:以数据为中心的大模型预训数据工程-网页分类建模>目的:网页分类建模的目的在于挖掘细粒度的网页数据,以满足不同类别数据的需求>文本关键词提取>人工审核标签>下游技能迭代反馈标签>......>等细分领域标签>构造语料分类器,完成语料标签分类:基于BERT>......解决方案:以数据为中心的大模型预训数据工程-数据质量控制>目标:经过模型自动化质量评估后,可以得到质量较高的数据,但数据质量如何量化,如何给出定性的质量分?>数据质量评分>标计算得分计算-举例3分*样本量+2分*样本量+1分*样本量+0分*样本量)/(总量*3)*100>人工确定质量评分标准>正文的语句通顺连贯>存在噪音标签/文本>存在边框、或者非规范文本>......>数据版本控制>根据数据生成流程的各个阶段备份管理>数据各阶段信息标引>......>预训数据索引管理>......>数据随机抽样>根据数据源抽样送评>人工质量评分>按数据源进行质量分高低排序>......解决方案:以数据为中心的大模型预训数据工程-预训数据采样>先初始化数据分布,训练一个小参数模型>用领域权重对数据集进行重新取样,训练一个更大的、全尺寸的模型。解决方案:以数据为中心的大模型预训数据工程-微调数据生成>基于人工标注>设定SFT数据标签体系,建立标签体系大类、子类。>基于大模型进行数据蒸馏解决方案:以数据为中心的大模型预训数据工程-微调数据清洗>基于规则的清洗>过滤敏感词规则>过滤无效输入输出>基于模型的多样性控制>基于语义相似度模型的指令去重>基于主题控制的指令多样化>指令数据复杂化开放数据问题:预训数据是否会不够?02大模型研发中的自动化评估DataFunSummit#2023问题的提出:如何进行模型性能的自动化评分基于chatgpt打分成打分评估基于人工业务评估人工通过列举相关测试样本,建立评估维度,完成多维度打分基于下游任务评测利用下游评测榜单,任务数据集,进行性能评估>中文测试集包含由BELLE项目产生的不同指令类型、不同领域的测试集,总共有12个指令类型,总共1K测试集。>测试集类别分布,每个类别的指令的字数长度,以及指令的词语分布评分结果。基于众包投票进行评估的基准平台,以众包方式提供匿名、随机的战斗基于下游评测任务进行评估03大模型与知识图谱的结合DataFunSummit#2023知识图谱认识>知识图谱:基于二元关系的知识库,用以描述现实世界中的实体或概念及其相互关系,基本组成单位是【实体-关系-实体】三元组(triplet实体之间通过关系相互联结,构成网状结构。知识图谱起源:无标准约束下的语义网络知识图谱的核心:本体实例双层结构知识图谱的认识:不同视角下的图谱认识知识图谱VS大语言模型>本质上都是一种知识库;>在实时性和时效性上面临的挑战一致:>知识图谱是一种知识的形式化表示>结构化知识很难构建(因为要设计知识的结构体系但易于推理(因为有体系结构)>非结构化知识易于构建(直接存起来就行但很难用于推理(没有体系结构)。非结构化数据计算机难以理解多源异构数据难以融合数据使用专业程度过高大模型用于知识图谱:从知识图谱构建到业务需求应用非结构化数据计算机难以理解多源异构数据难以融合数据使用专业程度过高业务需求技术方案数据挑战语义理解数据关联探索业务动态扩展智能检索与问答 数据结构化 自由扩展数据模式 数据融合 自由扩展数据模式 行业智能问答数据模式动态变迁困难大模型可以提速从知识图谱构建到应用的整体流程大模型用于知识图谱构建:schema生成与数据标注大模型用于知识图谱构建:知识抽取、推理与知识问答知识图谱用于大模型研发的几个阶段>利用大模型于数据清洗,其作为领域经验知识对特定语料进行错误检测或过滤;>利用知识图谱直接显式的进行形式化拼接,引入预训练语料;>将知识图谱隐式地加入到模型训练中>构建以领域知识图谱为中心的下游评测任务,作为模型训练评估>引入涉及实体的上下文进行丰富,增强结果可用性>对模型生成后的结果进行知识校验,减少模型事实性错误;>结合外部知识库进行生成干预知识图谱用于大模型训练前阶段:构造预训练数据与微调数据>百科数据进行模板化,生成事实性描述文本>根据模板来生成问题并偏头痛和恶寒发热。\n\n问:偏头痛有哪些相关症状?\n答:偏头断的隆隆声以及晨起头痛加重等。\n\n问:偏头痛属于哪\n答:偏头痛一般归中西医结合科或内科治疗。\n\n问:偏头痛发病知识图谱用于大模型训练中阶段:融合知识的预训练模型>两条路:预训练的时候做一个内嵌融合,下游任务上做一个外挂融合。>预训练语言模型的训练花费巨大、训练困难,在内嵌知识图谱时仅融入一些相对静态的知识>动态变化的内容不需要在内嵌时融入,否则模型更新的代价太高。>对于动态变化的知识图谱,更可能的融合方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年互换轮岗面试试题及答案
- 2025年面试题辩证类模板及答案
- 2025年心理猜数测试题及答案
- 2025年产科护理面试题及答案
- 2025年国防保密考试试题及答案
- 2025年呼吸暂停症测试题及答案
- 2025年信用资格培训考试题及答案
- 2025年呐喊红宝石测试题及答案
- 2025年数字算命考试题及答案
- 2025年视力防控考试题及答案
- NB-T 47013.7-2012(JB-T 4730.7) 4730.7 承压设备无损检测 第7部分:目视检测
- 【高中语文】《社会历史的决定性基础》课件49张+统编版+选择性必修中册
- oecd 税收协定范本
- 我的家乡聊城临清宣传介绍模板
- DL∕T 547-2020 电力系统光纤通信运行管理规程
- GB/T 31402-2023塑料和其他无孔材料表面抗菌活性的测定
- 应用文写作中职全套教学课件
- 部编版六年级下册语文文言文二则《学弈》说课课件
- 小学科学学科知识与拓展PPT完整全套教学课件
- 小学数学-【课堂实录】圆柱和圆锥的认识教学设计学情分析教材分析课后反思
- 海水浸泡伤早期救治原则
评论
0/150
提交评论