清华大学-2023预训练大模型与医疗_第1页
清华大学-2023预训练大模型与医疗_第2页
清华大学-2023预训练大模型与医疗_第3页
清华大学-2023预训练大模型与医疗_第4页
清华大学-2023预训练大模型与医疗_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预训练大模型与医疗:从算法研究到应用1.预训练大模型概述2.理解大模型的内在机理3.赋予模型精准性与可解释性4.医疗领域应用5.清华探索:数基生命大数据(低成本无标注)微调小模型大数据(低成本无标注)微调小模型预训练大模型1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练;2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤。后结构化C懂英文的医生后结构化C懂英文的医生 B懂英文A不懂英文不懂英文英文英文到到Transformers(nextsentenceprediction)进行预训练,使得模型能够学习到上下文关系和词汇语义BERT主要采用掩码语言模型(maskedlanguagemodel,对应图MaskLM)和下一句预测任务(nextsentenceprediction,对应图NSP)进行预训练,使得模型能够学习到上下文关系和词汇语义。预训练好的BERT可以用于对输入文本进行编码,得到具有语义的向量表示。预训练好的BERT也可以通过微调(fine-tuning)方式适配各类NLP任务:TheStanfordQuestionAnsweringDataset问答(SQuAD)、命名实体识别(NER)、MNLI任务(大规模分类任务,目标是预测第二个句子相对于第一个句子是包含,矛盾还是中立)BERT的表小能力空间(向量空间)LatentSpace守号空间SymbolicSpaceROBERTa2019年7月FacebookAI基于BERT模型的扩展参数量1.15亿,3.4亿数据量约160ROBERTa2019年7月FacebookAI基于BERT模型的扩展参数量1.15亿,3.4亿数据量约160GBDeBERTa2021年10月MicrosoftAI在BERT模型上引入解码与注意力解耦参数量3.4亿数据量约78GBLECTRA2020年3月GoogleAI在BERT模型引入GAN参数量3.4亿数据量约16GBBERT2018年10月GoogleAI提出BERT模型参数量1.15亿,3.4亿数据量约16GBALBERT2020年2月GoogleAI提出的轻量化BERT模型数据量约16GBRNIE1.O-3.02019年8月清华大学提出知识注入BERT模型,后由BaiduAI更新迭代到3.0版本数据量约12GB,22.9G,4TBBERTBERTBERT赋予GPT推理能力赋予GPT预测下一个字符串能力赋予GPT处理多任务的能力赋予GPT推理能力赋予GPT预测下一个字符串能力赋予GPT处理多任务的能力解码器部分为GPT发展奠定基础参数量15亿参数量1750亿增加GPT解释翻译能力--Datasets:300billiontokensoftextObjective:PredictthenextwordExample:a chatGPT使GPT具有与人类对话的能力chatGPT使GPT具有与人类对话的能力GPTAbilityGpi应用亮点codexwebGPTInstructGPTwebGPTInstructGPT通过对海量文本的学习,自动构建了一个含有1750亿参ChatGPT根据前4095个记号猜下一个记号,所以是一个ChatGPT根据前4095个记号猜下一个记号,所以是一个4095阶的马尔可夫链如果ChatGPT遇到它在训练时从没见过的记号串怎么办?——神经网络能很好解决这个问题后续状态按一定概率取决于过去状态的随机过m阶马尔可夫链模型可以根据前m个记号算出下一个记号的概率分布•在GPT里面,把一个记号作为一个N维浮点数向量来表示。这种用一•一个单词对应的向量叫这个单词的嵌入向量•把每个单词或记号(token)在GPT内部都会通过一层简单的神经网络映射层对应到一个嵌入向量,这个向量代表了记号的语言特征•第一步:将离散的顺序号转换成一个与嵌入向量长度相同的向量,称为位置编码(positionalencoding)•第二步:将位置编码与嵌入向量相加(即对应的元素相加结果作为后续处理的输入向量•第三步:输入向量会被送到多层Transformer进行后续处理,每层Transformer的参数不同,但都会让输入先经过一个线性投影层要的维度,将高维向量简化为低维向量使用Transformer摆脱了人工标注数据集的缺陷,模型在质量上更优、更易于并行化,所需训练时间明显更少0102010203040506•控制语言模型输出的随机性或创造性的参数•temperature参数=0,模型每次都挑最佳候选字,从不偏离•temperature参数越大,生僻的选择变得更容易被选中•openAI试验场(playground)限制temperature参数在0到1的区间t=0t=0.4t=2.top_p=0top_p=0top_p=0.1top_p=1•top_p=0,只保留最高频的一个字•top_p=0.5,考虑总概率占50%的那些最高频的字•top_p=1,全部候选字都考虑•拿到候选字的原始概率分布后,先把这些字按概率从高到低排序,按顺序依次选取,选到总概相关模型在FewRel和TACRED上的表现参考:[1]Liu,Jiacheng,etal."Generatedknowledgepromptingforcommonsensereasoning."arXivpreprintarXiv:2110.08387(2021)人提出了知识生成式大模型提示方法,让模型进行知识预测,通过将知识图谱的三元组形式转化成Questionandanswer的形式,让模型而得到最终的更为精确靠谱的结果。模型在数值常识(NumerSense)、一般常识(CommonsenseQA2.0)和科学常识知识融入到大模型中能够提升其常识推理任务ChatGPT作为一种生成模型,存在一些问题。其中最主要的问题是不确定性和预训练语料库其中最主要的问题是不确定性和预训练语料库中存在的某些局限性,这可能导致ChatGP回答一些问题时存在时效性、事实性以及内容不合规等情况。[1]使用零样本设置时仍然表现不佳。为了提高模型的性能,我们可以采用少样本提示技术来启示例演示来引导其生成更好的响应。演示作为后续示例的条件,可以有效地提高模型的准确[2]参考:[1]/TgqDT3gGaMdkHasLZv/article/details/130211938[2]mptingguide.ai/zh/techniques/fewshot参考:[1]mptingguide.ai/zh/techniques/cot[2]mptingguide.ai/zh/techniques/fewshot由于ChatGPT的训练机制主要专注于“单字接龙”,其在涉及算术和常识推理的任务中的精确性仍有待提升。自我一致性:由Wang等人提出,其核心思想是在链式思考的prompt[1]基础上,通过采样适量的多个不同推理路径,根据这些方案的一致性[2][2]Wang,Sheng,etal."Chatcad:Interactivecomputer-aideddiagnosisonm机器学习模型的可解释性.基于attention机制:大模型如BERT和ChatGPT等大都基于attention机制构建,但随着模型参数量不断增大,通过attention机⑤数基生命参考:[1]Wang,Junlin,etal."Gradient-basedanalysisofNLPmodelsismanipulable."arXivpreprintarXiv:2010.05419(2020).[2]Meng,Kevin,etal."Locatingandeditingfactualknowledgeingpt."arXivpreprintarXiv:2202.05262(2022).[2]Clark,Kevin,etal."Whatdoesbertlookat?ananalysisofbert'sattention."arXivpreprintarXiv:1906.04341(2019).[4]Dai,Damai,etal."Knowledgeneuronsinpretrainedtransformers."arXivpreprintarXiv:2104.08696(2021).白箱算法的可解释性与模型构造本身高度相关,因此对于大模型可以根据相关思路设计更具有针对性的可解释性方法。主流的模型相关可解释性方法:•基于梯度显著性[1]•基于注意力机制[3]注意力中的表层模式注意力头探查•探查个别注意力头•探查注意力头组合•注意力聚类•注意力模块的相对位置•分隔符标记•集中注意力与广泛注意力BERTBERT、GPT等大预言模型的基础框架为transformer,因此对于此类大模型的可解释性多与transformer模型的架构与机制有关。多层注意力机制:在Transformer模型中,通常包含大量的attention层。因此,每个层对于模型最终输出的影响很难用单层的热力图来解释。如果想要探究这类大型模型的可解释性,就必须从多层注意机制入手,并深入探参考:[1]Clark,Kevin,etal."Whatdoesbertlookat?ananalysisofbert'sattention."arXivpreprintarXiv:1906.04341(2019).息流的可视化,这样做的意义和价值在于模型的使用者能够非常清晰的找出模型的输出结果与哪些输入有关,以及这些关联机制在模型的层的数量众多,其黑箱特性使得信息在其中的传递变得错综复杂。通过追踪tokens在Transformer内部结构中的信息流向,能够帮助参考:[1]Lu,K.,etal."InfluencePatternsforExplainingInformationFlowinBERT."(2020).通过Promptengineering,ChatGPT能够对相关的结果做出定的事后解释,这样的解释以一自然语言的形式给出,让人自然语言的形式给出,让人更易理解。链式思考:Wei等人引入链式思考(CoT)提示通过中间推理步骤实现了复杂的推理能力,这样的方法不仅可以提升任务结果的准确性,同时也能使得模型的推理过程一定程度上透明化,从而平衡其黑箱特性带来的过程不可见性,增加结果的可行度。参考:[1]mptingguide.ai/zh/techniques/cot背景生成知识提示:大模型精准性的板块所讲到的法类似于链式思考方法,它让大模型针对一个问题生成特定的知识,并以这些知识作为其思考过程的基础。然后将这些知识进行聚合,最终得出一个答案。这样的过程也是一种可解释型在推理和生成答案时所参考的具体知识,从而更好地理解其决策过程。这种方法可以帮助我们发现模型可能存在的偏见或错误,并进一步优化模型性能。同时,由于知识的结构化特释,增强模型的可解释性。参考:[1]Liu,Jiacheng,etal."Generatedknowledgepromptingforcommonsensereasoning."arXivpreprintarXiv:2110.08387(2021)ImpressionGPT技术流程图首先使用标签器对报告的“发现”部分进行分有的诊断报告语料库中搜索相似的报告。首先使用标签器对报告的“发现”部分进行分有的诊断报告语料库中搜索相似的报告。的“动态上下文”环境,以便ChatGPT可以学习总结与当前疾病相关的诊断报告。最近的研究表明,设计prompt以引导模型关注输入的相关方面,可以产生更精确和一致的输出。因此promptengineering对自动印象生成非常重要。MIMIC-CXR和MIMIC-CXR和OpenI上取得了不少的性能提升。对生成的报告进行评估,利用评估结果来指导Response”的形式,让ChatGPT能够从好样本和坏样本中学习到相关内容。ChatCAD技术流程图ChatCAD技术流程图CAD与ChatGPT结合后的交互式问答系统示例参考:[1]Wang,Sheng,etal."Chatcad:Interactivecomputer-aideddiagnosisonmedicalimageusinglargelanguagemodels."arXivpreprintarXiv:2302.07257(2023).背景用于医学图像的计算机辅助诊断(CAD)网络通过使用先进的深度学习算法来支持临床决策,在医学领域取得了重大成功。大型语言模型(LLM)最近展示了在临床应用中的潜力,其提供了宝贵的医学知识挑战:LLM目前难以从这些医学图像中解释和提取信息,从而限制了他们全面支持临床决策过程的能思路:ChatCAD[1]将LLM的医学领域知识和逻辑推理的优势与现有医学图像CAD模型的视觉理解能力相结合,为患者提供了一个更加用户友好和易使用了三种不同的prompt从医学图像得到prompt的策略:1)2)Prompt#1将这些输出(通常是张量Outputtensor)翻译成自然语言(LLM的提示句)4)Prompt#3是一个简洁的prompt,报告在Outputtensor中诊断分数高于0.5的疾病,如果五种疾病都没有预测,则提示“未发现”ChatCAD利用ChatGPT与三种不同的prompt设计生成的报告ChatCAD利用ChatGPT与三种不同的prompt设计生成的报告交互式ChatCAD的两个示例基于视觉模型的结果和语言模型中预训练的医学知识,交互式ChatCAD可以进行有关症利用知识图谱直接显式的进行形式化拼接,引入预训在prompt前进行一定约束,可以提供更可靠Prompt是两类知识相互融合的桥梁使用BookCorpus和WikiPedia训练4层的tinyBERT和tinyEnhancedBERT,结果显示1.使用密集连接的方式可以连接不同层的表示到最顶层,有助于增强BERT表示的型建模序列中的精确语义信息。参考:[1]Qiu,Jianing,etal."LargeAIModelsinHealthInformatics:Applications,Challenges,andtheFuture."arXivpreprintarXiv:2谢震古槿魏磊张静汪小我江瑞谢震古槿魏磊张静汪小我江瑞李衍达李衍达中国科学院院士戴琼海中国工程院院士董家鸿中国工程院院士戴琼海中国工程院院士董家鸿中国工程院院士WingH.Wong美国科学院院士生物信息与机器学习专家国际计算生物学学会会士群体骨干闾海荣闾海荣科学发现未能转化为应用在数字化实体中,实现贯穿人体分子、细胞、组织、器官和系统的数学模型,让数字实体“活起来”,模拟生老病死各种生命过通过模拟个体健康演化和疾病发生发展过程,推演各种因素作用,定量评估重要生命过程,提供精准的动态健康指导和疾病治疗方案。通过全方位、多尺度、多模态生通过全方位、多尺度、多模态生物医学数据感知,把人体表征为数字化实体。群体宏观--个体---系统---器官------细胞-数碳耦合组织工程--群体宏观--个体---系统---器官------细胞-数碳耦合组织工程--应用智能化全场景智能化精准医健全场景智能化精准医健机理模型化数据-知识双驱动构建大模型数据-知识双驱动构建大模型生命数字化全方位跨尺度数据感知全方位跨尺度数据感知微观分子微观数基-碳基融合生命系统调控数基智能精准医健数基孪生数基-碳基融合生命系统调控数基智能精准医健数基孪生从基因、细胞到系统的数字画像数基生命大模型10万小时语音训练数据100+万级语音专业词汇训练10G专业医疗文本、文献语料100G日常文本训练数据语音识别+语音合成•以多项专利技术、GPT和海量数据为支撑建立面向专业医学场景的识别模型,识别准确率高达97.5%;•应用GAN网络技术,对高噪声低采样率信号进行了优化,场景测试准确率领先其它厂商5%;•知识谱图与语音识别技术相结合,内嵌百万级医学专有名词,支持符号、单等自定义格式输出•利用迁移学习技术实现对垂直场景术语2-3天快速训练迭代,及时满足各类语音识别需求•支持基于用户真人语音快速训练语音合成音色

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论