闾海荣-预训练大模型与医疗从算法研究到应用

上传人：策*** IP属地：山西上传时间：2024-08-16 格式：DOCX 页数：98 大小：8.90MB 积分：19.9 举报 版权申诉

已阅读5页，还剩93页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

预训练大模型与医疗：从算法研究到应用闾海荣博士|清华大学自动化系1.预训练大模型概述2.理解大模型的内在机理3.赋予模型精准性与可解释性4.医疗领域应用5.清华探索：数基生命大数据（低成本无标注）微调小模型大数据（低成本无标注）微调小模型预训练大模型1.模型角度：模型参数不再是随机初始化，而是通过一些任务（如语言模型）进行预训练；2.数据角度：将训练任务拆解成共性学习和特性学习两个步骤。A不懂英文英文B懂英文后结构化C懂英文的医生A不懂英文英文B懂英文后结构化C懂英文的医生两类典型的大语言模型两类典型的大语言模型BERT：BidirectionalEncoder双向模型，同时考虑前文和后文（nextsentenceprediction）进行预训练，使得模型能够学习到上下文关系和词汇语义关系和词汇语义通常用于文本分类、序列标注、问答等任务GPTGPT：GenerativePre-trainedTransformer单向模型，只考虑前文，不考虑后文采用自回归（autoregressive）的方式生成文本，即逐个生成下一个词通常用于生成文本、对话、问答等任务BERTBERT主要采用掩码语言模型（maskedlanguagemodel，对应图MaskLM）和下一句预测任务（nextsentenceprediction，对应图NSP）进行预训练，使得模型能够学习到上下文关系和词汇语义。预训练好的BERT可以用于对输入文本进行编码，得到具有语义的向量表示。预训练好的BERT也可以通过微调（fine-tuning）方式适配各类NLP任务：TheStanfordQuestionAnsweringDataset问答（SQuAD）、命名实体识别（NER）、MNLI任务（大规模分类任务，目标是预测第二个句子相对于第一个句子是包含，矛盾还是中立）号空间SymbolicSpace号空间SymbolicSpace-司(向量空间)LatentLatentSpace类模型类模型2019年7月Facebook2019年7月FacebookAI基于BERT模型的扩展参数量1.15亿,3.4亿数据量约160GB2021年10月MicrosoftAI在BERT模型上引入解码与注意力解耦参数量3.4亿数据量约78GB2020年3月GoogleAI在BERT模型引入GAN参数量3.4亿数据量约16GB.20182018年10月GoogleAI提出BERT模型参数量1.15亿,3.4亿数据量约16GB__BERT2020__BERT2020年2月GoogleAI提出的轻量化BERT模型参数量0.2亿，0.61亿，2.4亿数据量约16GB大事心大事心3.020193.02019年8月清华大学提出知识注入BERT模型，后由BaiduAI更新迭代到3.0版本参数量1.15亿，1.25亿，100亿数据量约12GB，22.9G，4TB参数量15亿参数量15亿参数量1750亿增加GPT解释翻译能力解码器部分为GPT发展奠定基础赋予GPT推理能力赋予GPT处理多任务的能力赋予GPT预测下一个字符串能力Datasets:300billiontokensoftextObjective:PredictthenextwordExample:a Instructup[Instructup[codexcodex使GPT具有与人类对话的能力使GPT具有与人类对话的能力GPTGPTAbility通过对海量文本的学习，自动构建了一个含有1750亿参通过对海量文本的学习，自动构建了一个含有1750亿参后续状态按一定概率取决于过去状态的随机过m阶马尔可夫链模型可以根据前m个记号算出下一个记号的概率分布ChatGPTChatGPT根据前4095个记号猜下一个记号，所以是一个4095阶的马尔可夫链如果如果ChatGPT遇到它在训练时从没见过的记号串怎么办？————神经网络能很好解决这个问题•在GPT里面，把一个记号作为一个N维浮点数向量来表示。这种用一••一个单词对应的向量叫这个单词的嵌入向量•把每个单词或记号（token）在GPT内部都会通过一层简单的神经网络映射层对应到一个嵌入向量，这个向量代表了记号的语言特征•GPT-3是1600维，GPT-3.52048维使用Transformer使用Transformer摆脱了人工标注数据集的缺陷，模型在质量上更优、更易于并行化，所需训练时间明显更少••第一步：将离散的顺序号转换成一个与嵌入向量长度相同的向量，称为位置编码（positionalencoding）•第二步：将位置编码与嵌入向量相加（即对应的元素相加），结果作为后续处理的输入向量•第三步：输入向量会被送到多层Transformer进行后续处理，每层Transformer的参数不同，但都会让输入先经过一个线性投影层•第四步：线性投影层将输入向量投影到另一个维度空间，剔除不重要的维度，将高维向量简化为低维向量010102练成本在875万-1093.75万美元之间03040506•控制语言模型输出的随机性或创造性的参数•temperature参数=0，模型每次都挑最佳候选字，从不偏离•openAI试验场（playground）限制temperature参数在0到1的区间t=0t=0t=0.4t=2t=2•拿到候选字的原始概率分布后，先把这些字按概率从高到低排序，按顺序依次选取，选到总概•top_p=0，只保留最高频的一个字•top_p=0.5，考虑总概率占50%的那些最高频的字•top_p=1，全部候选字都考虑toptop_p=0toptop_p=0.1top_p=1相关模型在相关模型在FewRel和TACRED上的表现知识嵌入：Zhang等人通过将知识图谱的表示参考：参考：[1]Zhang,Zhengyan,etal."ERNIE:Enhancedlanguagerepresentationwithinformativeentities."人提出了知识生成式大模型提示方法，让模型进行知识预测，通过将知识图谱的三元组形式转化成Questionandanswer的形式，让模型而得到最终的更为精确靠谱的结果。模型在数值常识（NumerSense）、一般常识（CommonsenseQA2.0）和科学常识知识融入到大模型中能够提升其常识推理任务参考：参考：[1]Liu,Jiacheng,etal."Generatedknowledgepromptingforcommonsensereasoning."arXivpreprintarXiv:2110.08387(2021)ChatGPTChatGPT作为一种生成模型，存在一些问题。其中最主要的问题是不确定性和预训练语料库回答一些问题时存在时效性、事实性以及内容不合规等情况。[1]零样本能力（泛化能力），但在复杂的任务中使用零样本设置时仍然表现不佳。为了提高模型的性能，我们可以采用少样本提示技术来启示例演示来引导其生成更好的响应。演示作为后续示例的条件，可以有效地提高模型的准确参考：参考：[1]/TgqDT3gGaMdkHasLZv/article/details/130211938[2]mptingguide.ai/zh/techniques/fewshot由于由于ChatGPT的训练机制主要专注于“单字接龙”，其在涉及算术和常识推理的任务中的精确性仍有待提升。自我一致性：由Wang等人提出，其核心思想是在链式思考的prompt[1]基础上，通过采样适量的多个不同推理路径，根据这些方案的一致性参考：参考：[1]mptingguide.ai/zh/techniques/cot[2]mptingguide.ai/zh/techniques/fewshotChatGPT生成增强的响应，让ChatGPT参考：参考：[1]Ma,Chong,etal."ImpressionGPT:AnIterativeOptimizingFrameworkfo[2]Wang,Sheng,etal."Chatcad:Interactivecomputer-aideddiagnosisonmedical机器学习模型的可解释性大模型的可解释性思路基于attention机制：大模型如BERT和ChatGPT等大都基于attention机制构建，但随着模型参数量不断增大，通过attentionPromptEngineering思路：对话中的post-hoc（事后）可解释性白箱算法的可解释性与模型构造本身高度相关，白箱算法的可解释性与模型构造本身高度相关，因此对于大模型可以根据相关思路设计更具有针对性的可解释性方法。主流的模型相关可解释性方法：•基于梯度显著性[1]•基于注意力机制[3]⑤⑤数基生命参考：[1]Wang,Junlin,etal."Gradient-basedanalysisofNLPmodelsismanipulable."arXivpreprintarXiv:2010.05419(2020).[2]Meng,Kevin,etal."Locatingandeditingfactualknowledgeingpt."arXivpreprintarXiv:2202.05262(2022).[2]Clark,Kevin,etal."Whatdoesbertlookat?ananalysisofbert'sattention."arXivpreprintarXiv:1906.04341(2019).[4]Dai,Damai,etal."Knowledgeneuronsinpretrainedtransformers."arXivpreprintarXiv:2104.08696(2021).BERTBERT、GPT等大预言模型的基础框架为transformer，因此对于此类大模型的可解释性多与transformer模型的架构与机制有关。多层注意力机制：在Transformer模型中，通常包含大量的attention层。因此，每层对于模型最终输出的影响很难用单层的热力图来解释。如果想要探究这类大型模型的可解释性，就必须从多层注意机制入手，并深入探究多个层之间以及同一层中不同multi-he注意力头探查•注意力头探查•探查个别注意力头•探查注意力头组合•注意力聚类注意力中的表层模式•注意力模块的相对位置•分隔符标记•集中注意力与广泛注意力参考：参考：[1]Clark,Kevin,etal."Whatdoesbertlookat?ananalysisofbert'sattention."arXivpreprintarXiv:1906.04341(2019).息流的可视化，这样做的意义和价值在于模型的使用者能够非常清晰的找出模型的输出结果与哪些输入有关，以及这些关联机制在模型的层的数量众多，其黑箱特性使得信息在其中的传递变得错综复杂。通过追踪tokens在Transformer内部结构中的信息流向，能够帮助明度并提高其可信度。[1]参考：参考：[1]Lu,K.,etal."InfluencePatternsforExplainingInformationFlowinBERT."(2020).通过通过Promptengineering，ChatGPT能够对相关的结果做出一定的事后解释，这样的解释以自然语言的形式给出，让人更易理解。链式思考：Wei等人引入链式思考（CoT）提示通过中间推理步骤实现了复杂的推理能力，这样的方法不仅可以提升任务结果的准确性，同时也能使得模型的推理过程一定程度上透明化，从而平衡其黑箱特性带来的过程不可见性，增加结果的可行度。参考：参考：[1]mptingguide.ai/zh/techniques/cot背景背景生成知识提示：大模型精准性的板块所讲到的法类似于链式思考方法，它让大模型针对一个问题生成特定的知识，并以这些知识作为其思考过程的基础。然后将这些知识进行聚合，最终得出一个答案。这样的过程也是一种可解释型在推理和生成答案时所参考的具体知识，从而更好地理解其决策过程。这种方法可以帮助我们发现模型可能存在的偏见或错误，并进一步优化模型性能。同时，由于知识的结构化特释，增强模型的可解释性。参考：参考：[1]Liu,Jiacheng,etal."Generatedknowledgepromptingforcommonsensereasoning."arXivpreprintarXiv:2110.08387(2021)参考：参考：[1]Qiu,Jianing,etal."LargeAIModelsinHealthInformatics:Applications,CImpressionGPTImpressionGPT技术流程图参考：参考：[1]Ma,Chong,etal."ImpressionGPT:AnIterativeOptimizingFrameworkfo最近的研究表明，设计prompt以引导模型关注输入的相关方面，可以产生更精确和一致的输出。因此promptengineering对自动印象生成非常重要。首先使用标签器对报告的“发现”部分进行分首先使用标签器对报告的“发现”部分进行分有的诊断报告语料库中搜索相似的报告。使用“动态提示”来构建具有相似诊断报告的“动态上下文”环境，以便ChatGPT可以学习总结与当前疾病相关的诊断报告。MIMIC-CXR和OpenI上取得了不少的性能提升。对生成的报告进行评估，利用评估结果来指导对生成的报告进行评估，利用评估结果来指导Response”的形式，让ChatGPT能够从好样本和坏样本中学习到相关内容。参考：参考：[1]Qiu,Jianing,etal."LargeAIModelsinHealthInformatics:Applications,C背景背景用于医学图像的计算机辅助诊断(CAD)网络通过使用先进的深度学习算法来支持临床决策，在医学领域取得了重大成功。大型语言模型(LLM)最近展示了在临床应用中的潜力，其提供了宝贵的医学知识挑战：LLM目前难以从这些医学图像中解释和提取信息，从而限制了他们全面支持临床决策过程的能思路：ChatCAD[1]将LLM的医学领域知识和逻辑推理的优势与现有医学图像CAD模型的视觉理解能力相结合，为患者提供了一个更加用户友好和易ChatCADChatCAD技术流程图CAD与CAD与ChatGPT结合后的交互式问答系统示例参考：参考：[1]Wang,Sheng,etal."Chatcad:Interactivecomputer-aideddiagnosisonmedicalimageusinglargelanguagemodels."arXivpreprintarXiv:2302.07257(2023).使用了三种不同的使用了三种不同的prompt设计，prompt作为tensor到text的纽带从医学图像得到prompt的策略：1)将检查图像（例如X射线）输入经过训练的CAD模型以获得输出2)Prompt#1将这些输出（通常是张量Outputtensor）翻译成自然语言（LLM的提示句）3)Prompt#2将使用评分系言描述五个观察值中每一个的可能性4)Prompt#3是一个简洁的prompt，报告在Outputtensor中诊断分数高于0.5的疾病，如果五种疾病都没有预测，则提示“未发现”ChatCAD利用ChatCAD利用ChatGPT与三种不同的prompt设计生成的报告交互式ChatCAD的两个示例基于视觉模型的结果和语言模型中预训练的医学知识，交互式ChatCAD可以进行有关基于视觉模型的结果和语言模型中预训练的医学知识，交互式ChatCAD可以进行有关利用知识图谱直接显式的进行形式化拼接，引入预训PromptPrompt是两类知识相互融合的桥梁使用使用BookCorpus和WikiPedia训练4层的tinyBERT和tinyEnhancedBERT，结果显示参考：参考：[1]Qiu,Jianing,etal."LargeAIModelsinHealthInformatics:Applications,Challenges,andtheFuture."arXivpreprintarXiv:2303.11群体带头人张学工生物信息与机器学习专家清华大学自动化系教授国际计算生物学学会会士李衍达中国科学院院士戴琼海中国工程院院士董家鸿中国工程院院士WingH.Wong美国科学院院士群体骨干群体骨干古槿谢震汪小我江瑞闾海荣魏磊张静古槿谢震汪小我江瑞闾海荣魏磊张静科学发现科学发现未能转化为应用未能转化为应用通过全方位、多尺度、多模态生物医学数据感知通过全方位、多尺度、多模态生物医学数据感知，把人体表征为数字化实体。通过模拟个体健康演化和疾病发生发展过程,推演各种因素作用,定量评估重要生命过程,提供精准的动态健康指导和疾病治疗方案。在数字化实体中，实现贯穿人体分子、细胞、组织、器官和系统的数学模型，让数字实体“活起来”，模拟生老病死各种生命过群体宏观--个体群体宏观--个体---系统---器官----厂-- 应用智能化全场景智能化精准医健机理模型化数据-知识双驱动构建大模型生命数字化细胞-数碳耦合组织工程--全方位跨尺度数据感知细胞-数碳

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

闾海荣-预训练大模型与医疗从算法研究到应用

文档简介

温馨提示

最新文档

评论

闾海荣-预训练大模型与医疗 从算法研究到应用

文档简介

温馨提示

最新文档

评论

相关文档

闾海荣-预训练大模型与医疗从算法研究到应用