大语言模型通识微课课件:强化学习方法_第1页
大语言模型通识微课课件:强化学习方法_第2页
大语言模型通识微课课件:强化学习方法_第3页
大语言模型通识微课课件:强化学习方法_第4页
大语言模型通识微课课件:强化学习方法_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大语言模型通识

微课

强化学习方法通过有监督微调,大语言模型初步具备了遵循人类指令完成各类型任务的能力。然而,由于需要大量指令和标准回复,耗费了大量人力和时间成本。有监督微调目标是调整参数使模型输出与标准答案完全相同,因此不能判断整体输出质量,不能适应自然语言多样性,不能解决微小变化敏感性问题。强化学习则将模型输出文本作为一个整体进行考虑,其优化目标是使模型生成高质量回复。此外,强化学习方法不依赖于人工编写的高质量回复,其模型根据指令生成回复,奖励模型针对所生成的回复给出质量判断。强化学习方法更适合生成式任务,也是大模型构建中必不可少的关键步骤。微课9.1强化学习方法1997年“深蓝”击败国际象棋世界冠军加里·卡斯帕罗夫,仅仅20年后,阿尔法狗就超越了人类围棋冠军。阿尔法狗得益于对人类棋手过去数十万场棋局的研究以及对团队中围棋专家的知识提炼。后继项目AlphaZero则是通过游戏规则自我学习,在围棋、国际象棋和日本将棋领域中击败了包括人类和机器在内的所有对手。与此同时,人类选手也在各种游戏中被人工智能系统击败,包括《危险边缘》、扑克以及电子游戏《刀塔2》《星际争霸11》《雷神之锤3》。这些进展显示了强化学习的巨大作用。9.1.1什么是强化学习强化学习让智能体在环境里学习,每个行动对应于各自的奖励。智能体通过分析数据,关注不同情况下应该做怎样的事情。比如,智能体要学着玩一个新的游戏。强化学习过程可以用一个循环来表示:·智能体在游戏环境里获得初始状态S0(游戏的第一帧);·在S0的基础上,智能体做出第一个行动A0(如向右走);·环境变化,获得新的状态S1(A0发生后的某一帧);·环境给出第一个奖励R1(没死或成功:+1)。于是,这个回合输出的就是一个由状态、奖励和行动组成的序列,而智能体的目标就是让预期累积奖励最大化。9.1.1什么是强化学习作为机器学习的一个分支,强化学习是一种广泛应用于创建智能系统的模式,描述和解决智能体在与环境的交互过程中,以“试错”方式通过学习策略达成回报最大化或实现特定目标问题。强化学习侧重于在线学习并试图在探索和利用之间保持平衡,其目标是使智能体在复杂且不确定的环境中,只依靠对环境的感知和偶尔的奖励情况下,对某项任务变得精通,使奖励最大化。9.1.2强化学习的定义强化学习基本框架由智能体和环境组成,两者不断交互。智能体在环境中获取某个状态后,会根据该状态输出一个动作,也称为决策。动作在环境中执行,环境根据智能体采取的动作,给出下一个状态及当前动作带来的奖励。由于强化学习涉及的知识面广,尤其是涵盖了诸多数学知识,更需要对强化学习有系统性的梳理与认识。强化学习讨论信息论、博弈论、自动控制等领域,解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能,可以在围棋和电子游戏中达到人类水平。9.1.2强化学习的定义从严格意义上说,阿尔法狗程序的成功用到了人工智能、机器学习和深度强化学习,但用得更多的还是深度强化学习。所谓深度强化学习,是在强化学习里加入深度神经网络。例如,Q学习是利用一个传统算法创建Q表,帮助智能体找到下一步要采取的行动;而DQN是利用深度神经网络来近似Q值。强化学习和监督学习的共同点是两者都需要大量的数据进行学习训练,但两者的学习方式不相同,所需的数据类型也有差异。监督学习需要多样化的标签数据,强化学习则需要带有回报的交互数据。9.1.3与无监督和监督学习的区别与监督学习和无监督学习的最大不同是,强化学习里并没有给定的一组数据供智能体学习。强化学习中的智能体要在变化的环境里做出一系列动作的决策,结合起来就是策略。强化学习就是通过不断试错更新策略的过程。强化学习与监督学习、无监督学习不同之处体现在以下5个方面。(1)没有监督者,只有奖励信号。智能体不能够马上获得监督信号,只是从环境的反馈中获得奖励信号。(2)反馈延迟。有时候需要完成一连串动作,甚至是完成整个任务后才能获得奖励。9.1.3与无监督和监督学习的区别(3)试错学习。智能体要与环境不断交互,通过试错来获得最优策略。(4)智能体的动作会影响其后续数据。智能体选择不同动作会进入不同的状态,下一个时间步获得状态变化,环境的反馈也会随之发生变化。(5)时间序列很重要。强化学习更加注重输入数据的序列性,下一个时间步t

的输入依赖于前一个时间步t-1的状态。9.1.3与无监督和监督学习的区别强化学习在大模型上的重要作用可以概括为以下几个方面。(1)相较于有监督学习,强化学习更有可能考虑整体影响。强化学习针对整个输出文本进行反馈,并不针对特定词元,使强化学习更适合大模型,既可以兼顾表达多样性,又可以增强对微小变化的敏感性。自然语言十分灵活,可以用多种不同的方式表达相同的语义。强化学习可以允许模型给出不同的表达。另外,强化学习可以通过奖励函数同时兼顾多样性和微小变化敏感性两个方面。9.1.4大模型环境下的强化学习(2)强化学习更容易解决幻觉问题。在模型并不包含或者不知道答案的情况下,有监督训练仍然会促使模型给出答案。而使用强化学习方法,可以通过定制奖励函数,将正确答案赋予非常高的分数,使模型学会依赖内部知识选择放弃回答,从而在一定程度上缓解模型的幻觉问题。(3)强化学习可以更好地解决多轮对话奖励累积问题。多轮对话是否达成最终目标,需要考虑多次交互过程的整体情况,因此很难使用有监督学习的方法构建。而使用强化学习方法,可以通过构建奖励函数,根据整个对话的背景及连贯性对当前模型输出的优劣进行判断。9.1.4大模型环境下的强化学习深度学习的一般方法与传统机器学习中监督学习的一般方法相比少了特征工程,从而大大降低了业务领域门槛与人力成本。强化学习不需要依赖先验知识数据。例如线上游戏,越来越多的用户使用移动终端进行游戏,使数据的获取来源更为广泛。强化学习通过自我博弈方式产生更多的标准数据,它可以利用较少的训练信息,让系统不断地自主学习,自我补充更多的信息,进而免受监督者的限制。9.1.5先验知识与标注数据另外,可以使用迁移学习来减少标注数据的数量。迁移学习是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论