




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CONTENTS3.赋予模型精准性与可解释②剖析大模预训练:从大数据到小数少量特定领域标注数据大数据(低成本无标注)预训练大模型(学习共性)微调小模型1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练;2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。3以英文电子病历后结构化为示英文电子病历后结构化A英文电子病历后结构化B懂英文②剖析大模英文电子病历后结构化B懂英文后结构化英文C懂英文的医生后结构化英文C懂英文的医生3②剖析大模Transformer架构:预训练的基石从word2vec到Transformer3②剖析大模BERT和GPT两类典型的大语言模型BERT:BidirectionalEncoderRepresentationsfromTransformers双向模型,同时考虑前文和后文采用掩码语言模型(maskedlanguagemodel)和下一句预测任务(nextsentenceprediction)进行预训练,使得模型能够学习到上下文关系和词汇语义通常用于文本分类、序列标注、问答等任务GPT:GenerativePre-trainedTransformer单向模型,只考虑前文,不考虑后文采用自回归(autoregressive)的方式生成文本,即逐个生成下一个词通常用于生成文本、对话、问答等任务3②剖析大模BERT主要采用掩码语言模型(maskedlanguagemodel,对应图MaskLM)和下一句预测任务(nextsentenceprediction预训练好的BERT也可以通过微调(fine-tuning)方式适配各类NLP任务:TheStanfordQuestionAnsweringDataset问答(SQuAD)、命名实体识别(NER)、MNLI任务(大规模分类任务,目标是预测第二个句子相对于矛盾还是中立)第一个句子是包含,矛盾还是中立)②剖析大模SymbolicSpaceSymbolicSpace3BERT类模型BBERTaBBERTaERT②剖析大模②剖析大模.BBERTaBBERTaETTRABERT大事BERT大事'IiE1.0-2019年8月清华大学提出知识注入3GPT发展史2019年2月2022年2019年2月2017年6月OpenAI2017年6月数据量40GB2020年5月数据量402017年6月2023年第一季度2017年6月2023年第一季度②剖析大模多模态生成多模态生成GPT训练过程②剖析②剖析大模Datasets:300billiontokensoftextObjective:PredictthenextwordExample:aa?CHIMACHIMAGPT应用vveb(PIInstructapvveb(PIInstructapLhatapILhatapIkjkj3模型内部本质上是基于统计的文字生成通过对海量文本的学习,自动构建了一个含有1750亿参数的大模型,建立了对这个世界基本的逻辑认知,由此产生了基于逻辑的推理能力但,ChatGPT≠模型②剖析②剖析大模ChatGPT负责根据这张表选出下一个记号,再让模型算再下一个记号的概率表3可以理解为高阶的马尔可夫后续状态按一定概率取决于过去状态的随机过程,被称为马尔可夫链m阶马尔可夫链模型可以根据前m个记号算出下一个记号的概率分布②剖析大模②剖析大模ChatGPT根据前4095个记号猜下一个记号,所以是一个4095阶的马尔可夫链如果ChatGPT遇到它在训练时从没见过的记号串怎么办?c?如果ChatGPT遇到它在训练时从没见过的记号串怎么办?3②剖析大模②剖析大模概念:嵌入向量(embeddingvector)•在GPT里面,把一个记号作为一个N维浮点数向量来表示。这种用一个向量来表示一个单词或记号的方法按神经网络的术语就叫做嵌入•一个单词对应的向量叫这个单词的嵌入向量•把每个单词或记号(token)在GPT内部都会通过一层简单的神经网络映射层对应到一个嵌入向量,这个向量代表了记号的语言特征•GPT-3是1600维,GPT-3.52048维3位置信息的引入使用Transformer摆脱了人工标注数据集的缺陷,模型在质量上更优、更易于并行化,所需训练时间明显更少②剖析大模•第一步:将离散的顺序号转换成一个与嵌入向量长度相同的向量,②剖析大模•第三步:输入向量会被送到多层Transformer进行后续处理,每层Transformer的参数不同,但都会让输入先经过一个线性投影层•第四步:线性投影层将输入向量投影到另一个维度空间,剔除不重要的维度,将高维向量简化为低维向量3ChatGPT待优化的部分0101②剖析大模03020406053如何让ChatGPT更靠谱②②剖析大模ChatGPT不是每次都选概率最大的记号两个关键参数:•temperature参数•top_p参数3temperature参数•控制语言模型输出的随机性或创造性的参数•temperature参数越大,生僻的选择变得更容易被选中•openAI试验场(playground)限制temperature参数在0到1的区间②剖析大模t=0t=0.4t=0t=0.4t=2t=2top_p参数•拿到候选字的原始概率分布后,先把这些字按概率从高到低排序,按顺序依次选取,选到总概率超过top_p值的时候即停止,剩下的候选字彻底放弃•top_p=0,只保留最高频的一个字②剖析大模•top②剖析大模•top_p=1,全部候选字都考虑top_p=0top_p=0.1top_p=13②剖析大模大模型精确性提升思路:知识嵌大模型语言本身具有很强的语言理解或生成能大模型语言本身具有很强的语言理解或生成能力,然而为了提高其叙述内容的真实性和严谨性,需要采用特定的技术路线,例如将知识图谱中的事实描述融入大模型的训练过程中。知识嵌入:Zhang等人通过将知识图谱的表示向量加入到BERT中对应的tokens编码内,从而使得模型学习到与知识相关的事实信息,增强了模型在相应知识领域的准确性。[1]相关模型在FewRel和TACRED上的表现3②剖析大模大模型精确性提升思路:知识预知识图谱应用于大模型训练后阶段:Liu知识图谱应用于大模型训练后阶段:Liu等人提出了知识生成式大模型提示方法,让模型进行知识预测,通过将知识图谱的三元组形式转化成Questionandanswer的形式,让模型生成一些知识,然后将这些知识进行聚合,从而得到最终的更为精确靠谱的结果。模型在数值常识(NumerSense)、一般常识(CommonsenseQA2.0)和科学常识(QASC)基准测试中进行实验,得出了将外部知识融入到大模型中能够提升其常识推理任务的精度的结论。[1]参考:[1]Liu,Jia3②剖析大模大模型精确性提升思路:少样本提ChatGPT作为一种生成模型,存在一些问题。ChatGPT作为一种生成模型,存在一些问题。其中最主要的问题是不确定性和预训练语料库中存在的某些局限性,这可能导致ChatGPT在回答一些问题时存在时效性、事实性以及内容不合规等情况。[1]少样本提示:尽管大型语言模型展现出惊人的零样本能力(泛化能力),但在复杂的任务中使用零样本设置时仍然表现不佳。为了提高模型的性能,我们可以采用少样本提示技术来启发上下文学习。这种技术可以通过给模型提供示例演示来引导其生成更好的响应。演示作为后续示例的条件,可以有效地提高模型的准确性和可靠性。[2]3②剖析大模由于ChatGPT的训练机制主要专注于由于ChatGPT的训练机制主要专注于“单字接龙”,其在涉及算术和常识推理的任务中的精确性仍有待提升。自我一致性:由Wang等人提出,其核心思想是在链式思考的prompt[1]基础上,通过采样适量的多个不同推理路径,根据这些方案的一致性情况得出最合理的结果,从而提高模型的准确性和可靠性。[2]3大模型精确性提升思路:提示语工②剖析大模通过适当的Promptengineering,可以提升ChatGPT在相应任务上的精确性。ImpressionGPT:使用“动态prompt”来构建具有相似诊断报告的“动态上下文”环境;对生成的报告进行评估,利用评估结果来指导ChatGPT生成增强的响应,让ChatGPT能够从好样本和坏样本中学习到相关内容。[1]ChatCAD:设计了三种不同的Prompt,将视觉模型得到的结果通过Prompt更好的让语言模型理解,通过ChatGPT与CAD结合,得到了诊断的性能提升。[2]CHIMACHIMA②剖析大模大模型可解释性机器学习模型的可解释性基于attention机制:大模型如BERT和ChatGPT等大都基于attention机制构建,但随着模型参数量不断增大,通过attention机制也无法进行模型内部的解释PromptEngineering思路:对话中的post-hoc(事后)可解释性3②剖析大模传统可解释性思路白箱算法的可解释性与模型构造本身高度相关,因此对于大模型可以根据相关思路设计更具有白箱算法的可解释性与模型构造本身高度相关,因此对于大模型可以根据相关思路设计更具有针对性的可解释性方法。主流的模型相关可解释性方法:•基于梯度显著性[1]•基于因果启发[2]•基于注意力机制[3]•基于神经元分析[4]3针对大模型的可解释性思路:多层注意力机BERTBERT、GPT等大预言模型的基础框架为transformer,因此对于此类大模型的可解释性多与transformer模型的架构与机制有关。多层注意力机制:在Transformer模型中,通常包含大量的attention层。因此,每个attention层对于模型最终输出的影响很难用单层的热力图来解释。如果想要探究这类大型模型的可解释性,就必须从多层注意机制入手,并深入探究多个层之间以及同一层中不同multi-head之间的关系,以及它们对最终结果的影响。[1]注意力头探查•注意力头探查•探查个别注意力头•探查注意力头组合•注意力聚类注意力中的表层模式•注意力模块的相对位置•分隔符标记•集中注意力与广泛注意力②剖析大模3②剖析大模针对大模型的可解释性思路:信息流解信息流解析信息流解析:注重模型处理过程中,过程信息流的可视化,这样做的意义和价值在于模型的使用者能够非常清晰的找出模型的输出结果与哪些输入有关,以及这些关联机制在模型的内部是怎样提现的。由于Transformer中注意力层的数量众多,其黑箱特性使得信息在其中的传递变得错综复杂。通过追踪tokens在Transformer内部结构中的信息流向,能够帮助追溯预测结果的依据来源,从而增加模型的透明度并提高其可信度。[1]3②剖析大模针对大模型的可解释性思路:PromptEngineering(ChatGPT时代)通过Promptengineering,ChatGPT能够对相关的结果做出一定的事后解释,这样的解释以自然语言的形式给出,让人更易理解。链式思考:Wei等人引入链式思考(CoT)提示通过中间推理步骤实现了复杂的推理能力,这样的方法不仅可以提升任务结果的准确性,同时也能使得模型的推理过程一定程度上透明化,从而平衡其黑箱特性带来的过程不可见性,增加结果的可行度。3②剖析大模针对大模型的可解释性思路:PromptEngineering思路背景生成知识提示背景生成知识提示:大模型精准性的板块所讲到的生成式知识大模型提示方法,实际上,这种方法类似于链式思考方法,它让大模型针对一个问题生成特定的知识,并以这些知识作为其思考过程的基础。然后将这些知识进行聚合,最终得出一个答案。这样的过程也是一种可解释性。通过生成式知识提示,我们可以了解大模型在推理和生成答案时所参考的具体知识,从而更好地理解其决策过程。这种方法可以帮助我们发现模型可能存在的偏见或错误,并进一步优化模型性能。同时,由于知识的结构化特点,它还可以为人们提供更加结构化的模型解释,增强模型的可解释性。参考:[1]Liu,Jia3医疗领域应用场景②剖析大模ChatGPT应用于自动印象生成②剖析大模②剖析大模挑战:对放射科医生来说,写下大量“印象”既费力又容易出错。尽管最近的研究中基于预训练和微调预训练模型在医学文本领域中的自动印象生成方面取得了不错的效果,但此类模型通常需要大量的医学文本数据并且泛化性能较差。ImpressionGPT技术流程图思路:ImpressionGPT[1]使用动态提示(dynamicprompt)和迭代优化(iterativeImpressionGPT技术流程图CHIMACHIMAChatGPT应用于自动印象生成最近的研究表明,设计prompt以引导模型关注输入的相关方面,可以产生更精确和一致的输出。因此promptengineering对自动印象生成非常重要。②剖析大模首先使用标签器对报告的“发现”部分进行分类并提取疾病标签,然后基于疾病类别,在现有的诊断报告语料库中搜索相似的报告。使用“动态提示”来构建具有相似诊断报告的“动态上下文”环境,以便ChatGPT可以学习总结与当前疾病相关的诊断报告。3ChatGPT应用于自动印象生成②剖析大模ImpressionGPT在AIGImpressionGPT在AIG任务的两个经典数据集MIMIC-CXR和OpenI上取得了不少的性能提升。对生成的报告进行评估,利用评估结果来指导ChatGPT生成增强的响应:采用“Instruction+ChatGPT应用于医学图像辅助诊断②剖析大模②剖析大模ChatCAD技术流程图挑战:LLM目前难以从这些医学图像中解释和提取信息,从而限制了他们全面支持临床决策过程的能CAD与ChatGPT结合后的交互式问答系统示例思路:ChatCAD[1]将LLMCAD与ChatGPT结合后的交互式问答系统示例CHIMACHIMAChatGPT应用于医学图像辅助诊断②剖析大模使用了三种不同的prompt设计,prompt作为2)Prompt#1将这些输出(通常是张量Outputtensor)翻译成自然语言(LLM的提示句)3)Prompt4)Prompt#3是一个简洁的prompt,报告在Outputtensor中诊断分数高于0.5的疾病,如果五种疾病都没有预测,则提示“未发现”3ChatGPT应用于医学图像辅助诊断②剖析大模3ChatGPT应用于医学图像辅助诊断②剖析大模⑤数基生命交互式ChatCAD的两个示例ChatCAD利用ChatGPT与三种不同的prompt设计生成的报告基于视觉模型的结果和语言模型中预训练的医学知识,交互式ChatCAD可以进行有关症状、诊断和治疗的对话疗的对话团队目前在医疗领域的探索与工医学影像报告中的所见->影像学报告中的印大模型:参数化的知识②剖析大模型:参数化的知识②剖析大模利用知识图谱直接显式的进行形式化拼接,引入预训练语料,通过微调的开源大模型,得到精确性与可解释性更好的模型。知识图谱:形式化的知识库Prompt是两类知识相互融合的桥梁2)知识图谱在promptengineering知识图谱:形式化的知识库Prompt是两类知识相互融合的桥梁知识图谱本身具有可读性和一定可解释性,在大模型中引入知识图谱使得模型的输入更可靠3②剖析大模提出了新的模型架构:EnhancedBERT1.使用密集连接的方式可以连接不同层的表示到最顶层,有助于增强BERT表示的能力。2.融合图结构,一方面可以使大模型编码图结构信息,另一方面有助于提升大模型建模序列中的精确语义信息。使用BookCorpus和WikiPedia训练4层的tiny使用BookCorpus和WikiPedia训练4层的tinyBERT和tinyEnhancedBERT,结果显示EnhancedBERT相较于原始BERT有较大的提升。3医疗领域应用实践与探一些问题仍待探索②剖析大模1在多机构场景中所涉及的数据隐私和安全问题2知识图谱(KG)在promptdesign中的使用,以使其更符合现有领域知识(如不同疾病之间的关系)3“人在回路”在prompt优化迭代的过程中的重要作用4更丰富的数据集和基准(如包含患者主诉信息的基准数据集)5多模态数据6)ⅆⅆ3②剖析大模型清华大学数基生命交叉创新群群体带头人张学工群体顾问李衍达戴琼海董家鸿WingH.Wong谢震魏磊谢震魏磊群体骨干汪小我3智能医疗的关键:信息获取、理解与呈损失的生命浪费的资源损失的生命②②剖析大模科学发现未能转化为应用科学发现未能转化为应用CHIMACHIMA解决思路:数基生命-医疗行业研究与产业发展的新范②剖析大模通过全方位、多尺度、多模态生物医学数据感知,把人体表征为在数字化实体中,实现贯穿人体分子、细胞、组织、器官和系统的数学模型,让数字实体“活起来”,模拟生老病死各种生命过通过模拟个体健康演化和疾病发生发展过程,推演各种因素作用,定量评估重要生命过程,提供精准的动3②剖析大模通过模型化重构应用生数基生命实验数基生命实验----------数基设计靶向治疗---数基设计靶向治疗--器官-器官-----数碳耦合组织工程---数碳耦合组织工程-------生命机理数基重现生命机理数基重现智能健康管理智能健康管理智能精准医疗智能精准医疗智能公共健康智能公共健康
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3.1温度说课稿 2025年初中 人教版物理八年级上册
- 《跨境电商》课件-3.其他平台注册
- 《Linux操作系统》课件-10.Linux进程管理
- 高质量三农田水利设施建设指南
- 农民创业创新培训作业指导书
- 沉淀池施工安全措施
- 蛋糕店项目可行性研究报告
- 机场工程车辆租赁合同范本
- 二零二五年度北京市网吧装修工程网络设备采购合同
- 加油站安全管理预案
- 统计法律知识培训课件
- 活动三《垃圾“流浪”记》(教学设计)-2023-2024学年三年级下册综合实践活动沪科黔科版
- 2025年2月广东省深圳市罗湖区联考初三年级质量检测英语试卷(含答案)
- 政治-广西壮族自治区考阅评·2025届(年)2月高三毕业班联合调研测试试题和答案
- 2025年合伙协议模板
- 2025年南京铁道职业技术学院单招职业适应性测试题库及答案一套
- 对外汉语综合课教案集成
- 北京市朝阳区2024-2025学年高一上学期期末质量检测数学试题【含答案解析】
- 2025年南京科技职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 信息系统监理师教程笔记版
- 龙门吊拆除合同
评论
0/150
提交评论