深度学习在游戏研发中的应用_第1页
深度学习在游戏研发中的应用_第2页
深度学习在游戏研发中的应用_第3页
深度学习在游戏研发中的应用_第4页
深度学习在游戏研发中的应用_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

深度学习在游戏研发中的应用游戏与人工智能深度学习在游戏内容生成中的应用深度学习在棋牌类游戏中的应用深度强化学习在视频类游戏中的应用深度学习对于游戏研发的意义总结游戏人工智能的里程碑从6牌游戏到视:游戏Atari600Game0:TheArcadeLearning

En2ironment从棋牌游戏2视频游戏StrategyGameandMOBAGameAI:StarCraftIIand

Dota2游戏AI研究要解决的问题工业应用学术研究l 更有挑战的对手,l 更有意思的迷宫,l 更精美的风景,l 更好的产品体验…l 同时考虑计算资源的开销和对性能的影响l 用机器处理更为复杂的问题l 游戏提供了低成本的对真实世界的模拟l 走向更通用人工智能的必经之路提供问题和场景提供更好的解决方案AI技术在游戏中的应用场景用AI对玩家建模用AI玩游戏用AI生成游戏场景深度学习在游戏内容生成中的应用自动生成游戏贴图,角色自动生成游戏地图,关卡自动生成游戏清节,对话,交互使用GAN来生成游戏A色**FullbodyHi*hresolutionAnimeGenerationwithPro*ressiveStructureconditionalGenerativeAdversarial

Networ-s使用GAN来生成Super

Mario

关***EvolvingMariolevelsinthelatentspaceofadeepconvolutionalgenerativeadversarial

network深度学习在棋牌类游戏的应用基于监督学习的斗地主AI智能水平要有—定的高度行为模式像人类玩家AI的运营成本不能太高新手教学AI托管AI陪玩从人类对局中学习斗地主策略3 4 5 6 7 8 9 T J Q K A 2 B R111111111110110000001111010000000000000010000000000000010000

模型结构

VanillaCNN

5层(C。nv+

BatchN。rm+

ReLL)

+

FC

ResNet

5

bl。cks,效果略好于

vanilla

CNN

输入

多个

4X15

通道

顺子/连对/飞机类

行方向表现出空间相关性

对子/三张/炸弹类

列方向表现出空间相关性

输出

策略

当前可观测的信息下,打法的概率分布ReLLBNBNRe FL CLCBNReLLCBN。。nnvv1010XX155

3232C。nv5X5

64ReLLC。nv3X3

128BNReLLC。nv3X3

128144k102k154k110k147k4M

深度神经网络具有极强的学习/拟合能力

以及很好的泛化能力克隆了人的主流策略,因此拟人化程度很高层次化模型优化牌型类别动作数目不出1火王炸

1单张15对子13三张13

弹13三带182三带对156四带2单四带2对1183858单顺36双顺52三顺45飞机带单牌翅膀飞机带对牌翅膀80442939总数13551牌型类别动作数目不出1火王炸

1单张15对子13三张13

弹13三带182三带—156单顺36双顺52三顺45总数5牌型类别动作数目不带12单1172对78总数196单—模型major/主模型minor/翅膀模型降低模型的复杂性

提升模型的泛化能力

监督学习模型的总体效果直观上看,对战几乎无法区分是AI还是真人胜率上看,超过人类平均水平局末阶段,农民配合时而失误特点:略有经验的玩家不会出现举例:地主剩一张牌,农民2有对子,却打单张强化AI:

猜牌网络猜牌:非完美信息博弈

->

完美信息博弈强化AI:

猜牌+搜索

取PolicyTop3对Minimax第—层Actions剪枝

将所有解分为两个集合

(1)

胜利解

(2)

非胜利解

对于胜利解取Policy概率录大的Action

若没有胜利解,同样取概率录大非胜利解

拟人性增强

胜率提升

与明牌胜率接近—般Top3均含正确解农民1农民2(决策者)地主猜牌0.48010.42900.0745A 3 6

66A 3 6

66A 3 6

66A 3 6

66搜索决策猜录少手牌的玩家(此例为地主)另—家可计算推断+#.

%&'#×#.

%)&×+#.

''×深度强化学习在视频游戏中的应用游戏局面(游戏画面、玩法、当前得分)深度强化学习应用的难点模型难以收敛很难构建虚拟环境很难利用MC方法进行搜索很难对模型进行加速利用消耗大量资源深度强化学习应用的难点*Investigatinghumanpriorsforplayingvideo

games深度强化学习在竞速类游戏的应用引入深度强化学习的原因基于参数模型的行为树参数多而且相亘耦合难以人工调参性能不能满足中高端玩家需求基于智能优化算法的行为树解决人工调参问题效果和技巧还需要提高基于监督学习模型的AI可以正常比赛效果有待优化人类数据样本不平衡模型的基本定义StateActionReward时速,VD角,RC角,离下个trackpoint距离,左右墙距离,氮气值,大喷,小喷....87-129维左,右,漂移,小喷,大喷,排列组合,24维正向加分

1/时间负向扣分

碰撞,错误方向,重置强化学习的框架StateRewardPolicyS1,A1,R1S2,A2,R2

Sn,An,RnValueAction生成样本转移到下—个状态狄侍奖励CriticActor更新生成样本深度强化学习的训练平台基于Actor-Learner架构

利于Actor的平行扩展同时支持on-policy和off-policy学习算法Dist

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论