网络游戏运营中的数据挖掘技术及相关案例分析_第1页
网络游戏运营中的数据挖掘技术及相关案例分析_第2页
网络游戏运营中的数据挖掘技术及相关案例分析_第3页
网络游戏运营中的数据挖掘技术及相关案例分析_第4页
网络游戏运营中的数据挖掘技术及相关案例分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 网络游戏运营中的数据挖掘技术及相关案例分析摘 要窗体底端数据挖掘掘技术在在网络游游戏客户户关系管管理中的的应用现现今,数数据挖掘掘技术已已经在各各个领域域得以应应用,并并有了相相当的发发展。许许多学者者对数据据挖掘 的研究究及其在在客户关关系管理理中的应应用上获获得了相相当的突突破,很很多行业业因此获获益匪浅浅。 在在我国,网络游游戏作为为一个新新兴不久久的行业业,拥有有着巨大大的市场场和庞大大的潜力力,但随随之而 来的是是愈发激激烈的市市场竞争争, 一一些主流流的游戏戏运营商商已经把把目光投投向了在在传统行行业中取取得了巨巨大 成成功的客客户关系系管理体体制。但但是,不不同于其其他行业业,

2、网络络游戏是是建立在在网络信信息交流流平台之之上, 它所搜搜集到的的客户数数据更为为庞大和和繁杂, 那么么怎样从从如此庞庞大的数数据中找找到有效效资料呢呢?这就就需 要要应用到到数据挖挖掘技术术。 本本文简要要介绍了了网络游游戏客户户关系管管理的模模式和内内容以及及几种主主要的数数据挖掘掘技术;着重 利用决决策树玩玩家进行行了分类类、 利利用神经经网络对对玩家流流失进行行了分析析、 利利用粗糙糙集对玩玩家信息息进行 了挖掘掘。通过过上述分分析论证证了数据据挖掘技技术在网网络游戏戏客户关关系管理理中应用用的可行行性和有有效性。 关键词:网络游游戏;客客户关系系管理;数据挖挖掘;应应用 1 综述述

3、 “网络游游戏”也被成成为“在线游游戏”(Onnlinne GGamees),是通过过互联网网进行、可以多多人同时时参 与与的电脑脑游戏,是通过过人与人人之间的的互动以以达到交交流、娱娱乐和休休闲的目目的。 网络游游戏不同同于其他他行业,它建立立在网络络信息交交流平台台之上,因此,它所搜搜集到的的客户数数 据更更为庞大大和繁杂杂, 那那么如何何从如此此庞大的的数据中中找到有有效资料料, 又又如何应应用于客客户关系系管理之之 上,这便是是我们需需要去研研究的问问题。 在我国国,网络络游戏是是一个新新兴的行行业,对对其研究究多集中中于法律律的虚拟拟财产案案件上,网络游游 戏客客户关系系管理方方面的

4、研研究寥寥寥无几。 虽然然如此, 但我我们仍旧旧可以通通过数据据挖掘技技术在其其他行业业 上的的客户关关系管理理中的应应用里进进行参考考, 进进而对数数据挖掘掘技术在在网络游游戏客户户关系管管理中的的应用 的可行行性,有有效性进进行探讨讨。 哈哈尔滨工工程大学学的鞠伟伟平,邓邓忆瑞所所刊登的的基于于决策树树的数据据挖掘方方法在 C RR M 中的应应 用研研究中中指出:“客户关关系管理理是一种种旨在加加强企业业与客户户之间关关系的新新的管理理机制。其如何何 利用用数据挖挖掘技术术对客户户数据进进行深层层分析,保留高高价值客客户、发发掘潜力力客户,实现在在恰当的的时 间间,为客客户提供供合适产产

5、品和服服务是现现在客户户关系管管理中的的研究重重点。本本文将数数据挖掘掘中的 ID33 分类类算法应应用于 CRMM 系统统中,不不仅可以以使企业业更好地地发现客客户群特特征,掌掌握市场场动态,同时也也 将有有助于企企业的管管理全面面走向信信息化。3” 山东东财政学学院的董董宁所刊刊登的数据挖挖掘技术术在 CCRM 中的应应用中中指出:“数据挖挖掘技术术 帮助助企业管管理客户户生命周周期的各各个阶段段,包括括客户的的识别、获取新新的客户户、让已已有的客客户创造造更 多多的利润润、保持持住有价价值的客客户等。它能够够帮助企企业确定定客户的的特点,使企业业能够为为客户提提供有 针对性性的服务务客户

6、户识别的的关键问问题是确确定对企企业有意意义客户户的标准准数据据挖掘技技术应用用在 对对营销的的反映情情况的预预测上。根据历历史数据据运用数数据挖掘掘技术建建立“客户行行为反应应”预测模模型,对对 客户户的未来来行为进进行预测测解决决客户流流失问题题,可以以使用数数据挖掘掘方法对对已经流流失客户户进行分分 类,并对每每类流失失客户的的特征进进行描述述。然后后,使用用关联、近邻等等挖掘技技术和方方法对现现有客户户消 费费行为进进行分析析, 以以确定每每类客户户流失的的可能性性, 其其中着重重于发现现那些流流失可能能性大的的优质客客户。 4” 华中中师范大大学经济济学院的的曹萍刊刊登的利用数数据挖

7、掘掘技术(DM)提升客客户关系系管理(CRMM) 中指出出:“客户关关系管理理系统随随着信息息技术的的发展和和企业管管理理念念的转变变,己受受到国内内外企业业的广 泛重视视。在实实际应用用中 CCRM 还可进进一步延延伸企业业供应链链管理,与 EERP (企业业资源计计划)进进行整合合, 将将客户、经销商商、销售售和人力力资源等等方。面面链接起起来,构构成企业业完整的的管理信信息系统统。CRRM 作作为 企企业的前前台提供供供应链链中的下下游链管管理,实实现企业业对客户户个性化化需求的的快速反反应。DDM 作作为 CCRM 中的关关键信息息技术,其在 CRMM 中的的应用与与发展,必将为为企业

8、在在信息时时代提供供看得见见的优势势。55” Peenziias 曾在计算机机世界上评论论说:“DM 将变得得更加重重要,由由于 DDM 如如此有价价值以至至于 企企业不再再会丢失失与其客客户有关关的任何何事物。如果你你不在这这方面做做些什么么,那么么你将失失去你的的生 意意。” 还有有许多专专家和研研究者提提出了许许多观点点,都说说明 DDM 在在 CRRM 中中的应用用是可行行的,是是必要 的,是是具有强强大竞争争力的。随着社社会信息息化的不不断建设设,网络络设备的的不断提提升以及及社会需需求的不不 断增增加,DDM 技技术在 CRMM 领域域运用将将得到普普及。 1.1 研究意意义及思思

9、路 至 20007 年 11 月,中国互互联网用用户已经经达到 1.337 亿亿人,其其中 226.66%的用用户为网网络游戏戏用户 群体,市场规规模已达达到 993.66 亿元元人民币币。随着着中国互互联网发发展,网网络游戏戏市场还还会持续续增加。 22”但是激激烈的竞竞争是不不可避免免的,面面对平均均粘稠度度仅为 7.99 个月月的网络络游戏玩玩家来说说,如何何吸 引引及留住住玩家,如何掌掌握优质质客户已已经成为为各游戏戏运营商商的当务务之急。 在其其它行业业取得巨巨大成功功的客户户关系管管理体系系已越来来越受到到网络游游戏运营营商的重重视,几几个 主主流运营营商:网网易,世世纪,久久游,

10、九九城,盛盛大等都都在近年年纷纷建建立和完完善客服服体系,以应对对愈发 激烈的的市场竞竞争。 如今的的客户关关系管理理已从“被动型型”转向“主动型型”,如果果能够通通过各种种数据挖挖掘技术术,对庞庞 大的的玩家数数据进行行挖掘分分析, 对玩家家进行分分类, 判断玩玩家行为为, 预预测玩家家流失, 分析析玩家兴兴趣等, 就可可以使客客户关系系管理目目标更明明确化,客服更更主动化化,形式式更人性性化,以以达到利利益最大大化。 论文将将通三大大版块进进行分析析探索: 1、通过对对网络游游戏的介介绍,网网络游戏戏客户关关系管理理内容的的分析,并对一一种类型型网络游游戏 (MMOORPGG)生命命周期的

11、的分析,使读者者对网络络游戏及及其客户户关系管管理有一一个相对对具体的的概念, 以方方便数据据挖掘案案例分析析的说明明。 22、介绍绍十种主主流的数数据挖掘掘技术,让读者者对数据据挖掘技技术有个个相当的的概念,以方便便数据挖挖 掘案案例分析析的说明明。 33、着重重通过利利用决策策树对玩玩家进行行了分类类;利用用神经网网络对玩玩家流失失进行了了分析判判断;利利 用粗粗糙集对对玩家信信息进行行了挖掘掘。 这这三个案案例, 来论证证数据挖挖掘技术术在网络络游戏客客户关系系管理中中 应用用的可行行性和有有效性。 2 网络络游戏的的客户关关系管理理 2.1 网络游游戏分类类 网络游戏戏其实是是电子游游

12、戏中的的一种(详见图图 2.1.11),其其中角色色扮演类类网络游游戏(MMMORRPG) 和大大中型休休闲游戏戏占据了了大多数数的市场场份额, 因此此本文所所有的研研究内容容都是针针对这两两种网游游形式 进行分分析的。 一角色扮扮演类网网络游戏戏 MMMORPPG(MMasssivee Muultiiplaayerr Onnlinne RRolee Pllayiing Gamme), 即大大型多人人在线角角色扮演演 类游游戏, 这是目目前最主主流的在在线游戏戏类型, 游戏戏构筑了了一个有有基本健健全的社社会体制制和经济济系统的的 虚拟拟世界,玩家在在游戏虚虚拟世界界中扮演演特定角角色,通通过

13、自己己的游戏戏技能及及其它各各方面投投入,实实现 自自己所扮扮演的角角色在游游戏虚拟拟社会中中的生存存和成长长, 并并参与游游戏虚拟拟世界的的人际沟沟通及社社会活动动 等。目前有有 566%的玩玩家分布布在其中中。 二二休闲闲游戏 休闲对对战类网网络游戏戏(Caasuaal / Loobbyy Gaame),简称称休闲游游戏,包包括大中中型休闲闲网络游游戏 和和游戏平平台上的的游戏。休闲游游戏本身身是网络络游戏的的一种,休闲游游戏的特特点在于于回合制制、阶段段性, 玩一盘盘所耗费费的时间间一般不不会超过过 100 分钟钟。通过过玩休闲闲游戏这这种娱乐乐方式,玩家通通常可以以得到 放松、休息。目

14、前 40%玩家分分布在大大中型休休闲游戏戏中;44%玩家家分布在在平台类类游戏中中 。 2.2网网络游戏戏客户关关系管理理范围 2.2.1游戏戏帐号及及安全措措施服务务 帐号的安安全是网网络游戏戏客户关关系管理理的重中中之重!是在客客户关系系管理涉涉及到的的范围中中客户 流失率率最高的的一个。如果一一个 MMMORRPG 游戏帐帐号被盗盗,考察察期的玩玩家流失失率基本本为百分分百, 形成期期流失率率也很高高,即使使是稳定定期的玩玩家,如如果帐号号不安全全了,也也会考虑虑退出,所以一一个游戏戏 想延延长他的的生命周周期就必必须要最最大限度度的保证证安全措措施做到到位。 2.2.2游戏戏内容及及玩

15、法服服务 这是吸引引新玩家家,延长长老玩家家生命周周期的重重要手段段。一个个游戏是是否让玩玩家有归归属感,除了游游戏本身身 和游游戏内玩玩家的交交流,游游戏管理理人员和和玩家的的交流也也是一大大因素。 2.2.3游戏戏线下活活动 组织玩家家举行游游戏外的的各种活活动,对对于稳定定期的玩玩家来说说具有极极大的吸吸引力。这样的的活动能能极大地地 延长长玩家的的生命周周期,很很好地宣宣传游戏戏。 2.2.4游戏戏的更新新及版本本 当游戏出出现问题题,更新新是很好好的解决决方法。当玩家家进入稳稳定后期期,开始始迈向衰衰退期的的时候,游戏的的 新版版本,新新玩法能能延长玩玩家的生生命周期期,乃至至延长整

16、整个游戏戏的生命命周期。2.2.5客户户分析及及客户正正面引导导 客户分析析包括很很多,也也是需要要运用数数据挖掘掘最多的的地方。比如玩玩家资料料分析,玩家行行为分析析,玩 家流失失分析,玩家期期望分析析,玩家家导向分分析,玩玩家流动动分析等等等。凡凡是涉及及到游戏戏利益有有关的玩玩 家数数据都是是其分析析的目标标。 客客户正面面引导就就是利用用客户服服务系统统,对玩玩家进行行有利于于运营商商的行为为引导。比如:正面言言论 引引导,客客户流失失引导(当一个个优质客客户必定定离开该该游戏时时,客户户服务就就需要利利用各种种方法,尽可 能地引引导其进进入该运运营商运运营的其其他游戏戏, 即即使失败

17、败也要使使玩家对对运营商商存在好好感, 当运营营商推 出新游游戏时就就有极大大可能使使该玩家家再次消消费)等等等。 3 客户户生命周周期 客客户生命命周期 根据 Dwyyer 的五阶阶段模型型,MMMORPPG 客客户关系系发展分分为:考考察期,形成期期,稳定定期,退退 化期期;其简简要描述述如下 3.1考考察期 这是关系系的探索索和实验验阶段,在该阶阶段,玩玩家测试试和考察察游戏是是否值得得自己继继续玩下下去。 考察期期内的客客户,客客户的消消费量很很少或者者根本没没有消费费量; 而服务务成本和和交易成成本却是是最高的的; 间间接效益益基本没没有,最最多只是是聚集人人气; 利润很很低甚至至可

18、能是是负利润润; 由于不不确定性性很高,这段时时期内的的客户流流失可能能性很大大,新游游戏出现现,不好好玩,家家人反对对 朋友友离开等等都有可可能造成成客户流流失。 3.2形形成期 这是关系系的快速速发展阶阶段,双双方关系系能进入入这一阶阶段,表表明考察察期玩家家对该游游戏基本本满意, 建立立了一定定的好感感与依赖赖。 形形成期的的客户,客户的的消费量量开始呈呈上升趋趋势,而而到形成成后期更更加明显显 而服服务成本本和交易易成本开开始明显显下降; 间接接效益有有所形成成但不是是很明显显,只有有到形成成后期才才有扩大大趋势; 利润润快速上上升,到到形成后后期开始始向最高高点接近近; 在在这一阶阶

19、段,由由于玩家家对游戏戏的了解解与依赖赖的增加加,玩家家开始对对游戏产产生一定定感情,游戏 虚拟财财产开始始累加,客户流流失情况况开始好好转。但但是流失失数量还还是很多多,特别别是“盗号”对该阶阶段客 户的打打击是毁毁灭性的的, 一一旦玩家家虚拟财财产损失失过大就就会导致致玩家放放弃游戏戏, 所所以对游游戏客户户安全 服务,特别是是防盗,帐号找找回,损损失挽回回等工作作要特别别细致。 3.3稳稳定期 这是关系系发展的的最高阶阶段,在在这个阶阶段,玩玩家已经经沉迷于于游戏中中,对游游戏有了了相当的的好感 与依赖赖。 稳稳定期的的客户,客户的的消费量量是最大大的也是是最稳定定的; 而服务务成本和和

20、交易成成本开始始降到一一个最低低点; 间接效效益已经经相当明明显,并并且进一一步扩大大中; 利润进进入一个个稳定的的高水平平; 在在这个阶阶段被称称为“铁杆玩玩家”,对游游戏的关关注度和和期望度度会相当当高,会会对游戏戏提出各各种意 见和建建议,会会主动拉拉拢朋友友进入游游戏;这这个阶段段的玩家家外界干干扰对其其影响也也是最小小的,即即使有人人 劝阻阻玩家游游戏,号号被盗而而损失严严重,游游戏中朋朋友流失失等情况况也很难难让他放放弃游戏戏。所以以管理人人员 要要重视这这部分玩玩家,积积极听取取他们意意见,甚甚至可以以给予他他们一部部分游戏戏中的管管理权限限,尽可可能延 长稳定定期。 3.4退退

21、化期 这是关系系发展过过程中关关系水平平逆转的的阶段。关系的的退化并并不一定定在稳定定期之后后,其实实任何 一个时时期都有有可能因因为各种种原因退退化。 退化期期的客户户,客户户的消费费量开始始回落,也可能能是直接接消失; 而服服务成本本和交易易成本开开始回升升,因此此要尽量量挽留这这些客户户,但一一般不会会超过考考察期的的费 用用,所以以挽留客客户比建建立个新新客户成成本要低低的多; 间接接效益开开始缩小小,如果果玩家开开始传播播坏的口口碑,那那么间接接效益将将成为负负效益; 利润润开始下下降,甚甚至直接接消失; 进入入这个阶阶段的玩玩家一般般是由于于长期玩玩该游戏戏而进入入一个疲疲劳阶段段

22、,一些些小的影影响就可可能 使使之离开开。但由由于玩家家已经投投入巨大大的经历历,对游游戏的感感情还是是比较深深厚的,所以挽挽留这部部分的 玩家就就成为管管理者的的当务之之急。更更新游戏戏的新玩玩法,新新活动,出新的的版本,新的虚虚拟装备备虚拟宠宠 物等等都可以以在一定定程度上上延迟退退化期的的形成。 表 2.44.1 对上述述四个周周期的各各种影响响因素作作了个总总结。 4 网络络游戏客客户关系系管理中中的数据据挖掘 4.11客户分分类 4.1.1区区分“优质客客户” CRRM 中心思想想就是“优质客客户”概念,即:220%客客户贡献献 800%利润润。在网网络游戏戏中,特特 别是是免费游游

23、戏,由由于其不不收取在在线服务务费,单单纯依靠靠变卖“虚拟道道具”来盈利利,“优质客客户”更为重重 要,那么如如何区分分出这些些“优质客客户”,就成成为首要要解决的的问题。 4.1.2区分分“热心玩玩家” 对于网络络游戏运运营商来来说,“热心玩玩家”不可缺缺少,他他们可能能不是“优质客客户”,但他他们肯定定 是铁铁杆玩家家,是拥拥护该网网络游戏戏的稳定定期玩家家。他们们会热心心提供游游戏 BBUG,举报非非法玩家家,帮 助和介介绍新玩玩家,帮帮助管理理更新网网站论坛坛,提高高游戏正正面影响响力。所所以找到到这些玩玩家并给给予一定定 的权权限有助助于游戏戏正常运运营。 4.1.3区分分“非正常常

24、玩家” “非正常常玩家”那些虚虚拟数据据有异常常的帐号号,出现现的可能能有:使使用外挂挂等非法法软件;盗号或或 利用用 BUUG 非非法获得得大量虚虚拟物品品或经验验;利用用交易转转移非法法获得的的物品;不过也也可能是是玩家通通 过线线下交易易获得大大量虚拟拟物品。如何区区分出这这些帐号号,并时时刻监视视这些帐帐号,对对延长游游戏寿命命有 很很大的作作用。 4.1.4发掘掘潜在客客户 在考察期期间的玩玩家中就就有相当当一部分分是潜在在客户,他们现现在可能能没有消消费或者者消费不不多, 但只要要他们觉觉得这个个游戏好好玩或者者其他需需要的时时候就可可能变成成“优质客客户”,比如如:一个个被游戏戏

25、所 吸吸引的玩玩家,其其本身没没大量时时间且希希望变强强,并有有这个经经济条件件,那么么他就是是一个有有消费能能力和 欲望的的“潜在客客户”。 4.2客客户行为为分析 4.2.1安排排 GMM(GWW)在线线时间 从理论上上来说,一对一一的营销销战略是是最好的的,但是是从成本本论来说说在网络络游戏的的 CRRM 中中这 是是不可能能的,那那么如何何让 GGM(GGW)的的作用发发挥到最最大呢?这就需需要去分分析挖掘掘数据,分析玩玩家 在在线时间间,游戏戏流量。分析一一天中哪哪个时间间段玩家家在线最最多,一一月中各各个时间间段玩家家在线波波动, 及一年年中玩家家上线时时间波动动变化差差异,根根据

26、玩家家数量,分配 GM(GW)的在线线时间和和数量。 4.2.2建立立自动反反馈系统统 玩家的数数量是庞庞大的,因此对对客服所所提出的的问题也也有大量量是重复复的,特特别是新新游戏,大量 玩家的的重复提提问会导导致本就就不多的的 GMM(GWW)重复复工作,效率下下降。因因此设置置一个自自动反馈馈系统, 对玩玩家大量量提到的的问题进进行数据据库自动动反馈成成为有效效的解决决方法之之一, 那么如如何筛选选数据库库中的 问题及及答案就就成为需需要解决决的问题题。 4.2.3客户户流失分分析 在竞争愈愈发激烈烈的游戏戏市场,即使是是没有任任何消费费的玩家家也是运运营商的的一种资资源,因因为“优 质质

27、客户”是建立立在比没没有消费费的“普通客客户”更为“强大”的基础础上,才才愿意投投入资金金玩游戏戏的,所所 以,只有大大量的“普通客客户”的存在在才能吸吸引“优质客客户”。因此此维系老老玩家,是十分分重要的的,不同同 于其其他产业业, 网网络游戏戏是人们们在线交交流的一一个平台台, 某某个玩家家的流失失很有可可能出现现联动性性流失玩玩 家。所以监监视玩家家数据动动态,比比如上线线时间变变化,消消费数量量变化等等,预测测可能流流失的玩玩家,及及时 做做好与玩玩家的交交流,有有助于维维护老客客户。 4.2.4客户户细分 由于国家家强制推推出防沉沉迷系统统,身份份验证更更为真实实(不排排除玩家家使用

28、他他人身份份证,导导致获 得数据据有偏差差) 另另外, 。 由由于网络络游戏虚虚拟物品品现实价价值越来来越高, 非法法盗取帐帐号行为为越发猖猖狂, 因此玩玩家对帐帐号安全全也越来来越重视视, 注注册帐号号时填写写真实资资料的比比例越来来越高, 这对对玩家数数据分 析极为为有利。 通过过数据分分析,游游戏运营营商可以以了解“优质客客户”的身份份,职业业,地域域,喜好好以及在在线时间间 等资资料,可可以因此此而进行行有效决决策。比比如:线线下活动动及宣传传的地点点安排,各种活活动奖励励的物品品内 容容,点卡卡发放地地点的比比例安排排,周边边产品的的推出地地点,客客服中心心的安排排地点及及针对方方向

29、等等等。 4.2.5客客户期望望分析 客户期望望分析是是通过客客户行为为分析,历史数数据分析析,综合合客户资资料,来来分析客客户对游游戏的 各种期期望。比比如:游游戏中举举行个活活动,发发放多少少虚拟物物品作为为奖励,这需要要经过严严格计算算的。因因 为发发放过多多虚拟物物品会影影响游戏戏内市场场稳定,导致玩玩家流失失,影响响玩家消消费道具具的热情情;发放放过 少少会引起起玩家不不满,游游戏评价价会降低低。这时时就要分分析客户户期望,找到客客户期望望的下限限,结合合市场 情况,来设定定虚拟物物品奖励励的发生生几率。 5 数据据挖掘技技术介绍绍 5.1 数据挖挖掘概论论 数据挖掘掘(daata

30、minningg,DMM)就是是从大量量的、不不完全的的、有噪噪声的、模糊的的、随机机的实际际 应用用数据中中,提取取隐含在在其中的的、人们们事先不不知道的的但又是是潜在有有用的信信息和知知识的过过程。数数据 挖挖掘功能能用于指指定数据据挖掘任任务中要要寻找的的模式类类型。 数据挖挖掘任务务一般可可以分为为两类: 描述述和 预预测。 描述性性挖掘任任务刻画画数据库库中数据据的一般般特性。 预测测性挖掘掘任务是是在当前前数据上上进行推推断, 以进行行预测。 5.2 数据挖挖掘技术术 5.2.1统计计技术 统计技术术对数据据集进行行挖掘的的主要思思想是:统计的的方法对对给定的的数据集集合假定定了一

31、个个分布 或者概概率的模模型(比比如一个个正态分分布),然后根根据模型型采用相相应的方方法进行行挖掘。5.2.2关联联规则 数据关联联是数据据库中存存在的一一类很重重要的可可以发现现的知识识。若两两个或者者多个变变量的取取值之 间存在在某种规规律性,就成为为关联。关联可可分为简简单关联联,时序序关联,因果关关联。关关联分析析的目的的 是找找出数据据库中隐隐含的关关联网,有时并并不知道道数据库库中的关关联函数数,即使使知道也也是不确确定的,因 此此关联分分析生成成的规则则带有可可信度。 5.2.3基于于历史的的分析 MBR(Memmoryy-baasedd Reeasooninng) MBRR

32、的本本质是: 先根根据经验验知识寻寻找相似似情况, 然后后再将这这些情况况的信息息应用于于当前的的例 子子中。使使用的三三个问题题是:寻寻找确定定的历史史数据;决定表表示历史史数据的的最有效效方法;决定距距离函 数、联联合函数数和邻近近的数量量。 5.2.4遗传传算法 GA(Gennetiic AAigooritthmss) 该算法是是基于进进化理论论,并采采用遗传传结合、遗传变变异及自自然选择择等方法法优化结结果。主主要思 想是:根据适适者生存存的原则则,形成成由当前前群体中中最适合合的规则则组成新新的群体体,以及及这些规规则的后后 代。规则的的适合度度(Fiitneess)是对训训练样本本

33、分类准准确性的的评估。 5.2.5聚集集检测 将物理或或者抽象象对象的的集合,分组成成为由类类似的对对象组成成的多个个类的过过程被成成为聚类类。在 由聚类类生成的的数据对对象集合合中,这这些对象象具有相相似性,并与其其他集合合中的对对象具有有相异性性。这种种 相异异度是根根据描述述对象的的属性值值来计算算的,距距离是经经常被采采用的度度量方法法。 5.2.6连接接分析(Linnk aanallysiis) 连接分析析( ) 它的的基本理理论是图图论,图图论的思思想是寻寻找一个个可以得得出好的的结果但但不是完完美结果果的算法法。 这这种不完完美但是是可行的的思想模模式,可可以使之之运用到到更广的

34、的用户群群中。 5.2.7决策策树(ddeciisioon ttreee) 决策树( ) 决策树树是能够够被看成成一棵树树的预测测模型。树的每每个分支支都是一一个分类类的问题题,内部部节点表表 示在在一个属属性上的的测试,树叶代代表类或或者分布布。 决决策树算算法是目目前应用用最广泛泛的归纳纳推理算算法之一一,是一一种逼近近离散值值函数的的方法,也可 将它看看作是一一个布尔尔函数。它是以以实例为为基础的的归纳学学习算法法,通过过对一组组训练数数据的学学习,构构 造出出决策树树形式的的只是表表示, 在决策策树的内内节点进进行属性性值的比比较并根根据不同同的属性性值判断断从该 节点向向下的分分枝,

35、 从而在在决策树树叶节点点得到结结论。 所以从从根到叶叶节点的的一条路路径就对对应着一一条规 则,整整棵决策策树就对对应着一一组吸取取表达式式规则。 5.2.8神经经网络(Nerruall Neet) 神经网络络( ) 神经经网络是是指由大大量神经经元互联联而成的的网络,类似于于服务器器互联而而成的因因特网。它主要要由 “神经元元”的互联联,或按按组织的的结点构构成。通通常神经经网络模模型由三三个层次次组成:输入层层,中间间层, 输出层层。 在在神经元元求得输输入值后后,再汇汇总计算算总输入入值;由由过滤机机比较总总输出值值,确定定网络的的输出 值。可可以通过过模拟判判断,来来不断修修正计算算

36、的“权值”来达到到学习的的目的,增加判判断的正正确性。 5.2.9粗糙糙集 粗糙集是是一种研研究不确确定性问问题的工工具,它它根据已已有的给给定问题题的知识识,对问问题论域域进行 划分。 然后后对划分分后的每每个组成成部分确确定其对对某个概概念的支支持程度度。 它它用于从从数据库库中发现现分类 规则的的基本思思路是将将数据库库中的属属性分为为条件属属性和结结论属性性。 对对数据库库中的元元组根据据各个属属性 不不同的属属性值分分成相应应的子集集, 然然后对条条件属性性划分的的子集与与结论属属性划分分的子集集之间上上下近似似 关系系生成判判定规则则。 5.2.10回回归分析析 回归分析析分为线线

37、性回归归、多元元回归和和非线性性回归。线性回回归中,数据是是用直线线建模;多元 回归是是线性回回归的扩扩展, 涉及多多个预测测变量。 非线线性回归归是在基基本线性性模型上上添加多多个项式式项形 成非线线性回归归模型。 6 数据据挖掘技技术在网网络游戏戏 CRRM 中中的具体体应用 6.1利利用决策策树归纳纳分类方方法进行行玩家分分类 6.1.1信息息增益的的计算 决策树的的核心问问题是选选择最佳佳的划分分标准。ID33 算法法运用信信息熵理理论,选选择当前前样本属属性 集集中具有有最大信信息增益益值的属属性作为为测试属属性。 该属性性使得对对结果划划分中的的样本分分类所需需的信息息 量最最小,

38、并并反映划划分的最最小随机机性或“不纯性性”。这种种信息理理论方法法使得对对一个对对象分类类所需的的期 望望测试数数目达到到最小,并确保保找到一一棵简单单树。 设 SS 是 s 个个数据样样本的集集合。假假定类标标号属性性具有 m 个个不同值值,定义义 m 个不同同类 CCi(ii=1,m)。设 Si 是类 Ci 中的样样本数。对一个个给定的的样本分分类所需需的期望望信息,即系统统的总 熵由式式(4.1.11.1)给出: 其中中 Pii 是任任意样本本属于 Ci 的概率率,并用用 Sii/S 估计。可以看看出,系系统总熵熵是属于于各个类类的 信信息量的的加权平平均。 设属性性 A 具有 v 个

39、个不同值值a11,a22,a33.avv,可可以用属属性 AA 将 S 划划分为 v 个个子集 ss1,ss2,ss3.ssv ,;其其中,SSj 包包含 SS 中这这样一些些样本,他们在在 A 上具有有值 aaj。如如果 AA 选作作测试属属 性,则这些些子集对对应于由由包含集集合 SS 的节节点生长长出来的的分枝。设 SSij 是子集集 Sjj 中类类 Cii 的样样本数。 那么么,这时时按 AA 的每每个属性性值进行行分割后后的信息息量,也也就是系系统总熵熵或期望望信息由由式(44.1.1.22) 给给出: 项充当当第 jj 个子子集的权权,并且且等于子子集中的的样本个个数除以以 S 中

40、的样样本总数数。熵值值越小,子集划划分 的的纯度越越高。 引入一一个量:信息增增益(IInfoorm atiion Gaiin)表表示系统统由于分分类获得得的信息息量,由由系统熵熵的 减减少值定定量描述述。用属属性划分分样本集集 S 后所得得的信息息增益值值为式(4.11.1.3): Gaain(A)=I(ss1,ss2,smm)-EE(A) (44.1.1.33) 6.1.2利用用决策树树归纳分分类方法法进行网络络游戏中中玩家(客户)分类 利用决决策树归归纳分类类方法,进行网网络游戏戏中玩家家(客户户) 我我们现在在要通过过一个案案例来进进行玩家家分类。首先,我们要要在游戏戏的玩家家数据库库

41、中找到到我们 需要的的关键字字,经过过筛选,以下三三个关键键字将被被作为游游戏玩家家分类的的依据: 玩家家收入(高收入入者更容容易成为为优质客客户) 玩家在在线时间间(长时时间在线线的玩家家更容易易成为优优质客户户) 玩玩家消费费情况(只有消消费的玩玩家才会会成为优优质客户户) 表表(4.1.22.1)是对 5 种种不同客客户(类类别标记记)及其其判断依依据的解解释。 表(44.1.2.22)是计计算机经经过处理理后得出出的 116 种种判断。 由表表(4.1.22.1)“类别标标记”这一类类别属性性,划分分为:优优质客户户,消费费客户,潜在客客户,普普通 客客户和无无效帐号号 5 类。 类优

42、质质客户有有 8 个样本本;类消消费客户户有 44 个样样本;类类潜在客客户有 1 个个样本;类普通通客户有有 1 个样本本;类无无效帐号号有 22 个样样本。 因此给给定本分分类所需需信息增增益为: 各属属性相应应的信息息增益为为: GGainn(长期期在线)= II(S11 ,SS2 ,S3 ,S44 ,SS5)- E(长期在在线)=1.8875-1.55=0.3755 Gaain(高收入入)= I(SS1 ,S2 ,S33 ,SS4 ,S5)- EE(高收收入)=1.8875-1.775=00.1225 GGainn(消费费)= I(SS1 ,S2 ,S33 ,SS4 ,S5)- EE(

43、消费费)=11.8775-11.0665=00.811 Gaain(高消费费)= I(SS1 ,S2 ,S33 ,SS4 ,S5)- EE(高消消费)=1.8875-0.8875=1 GGainn(持续续高消费费)= I(SS1 ,S2 ,S33 ,SS4 ,S5)- EE(持续续高消费费)=11.8775-11.566=0.3155 由此此可以看看住 GGainn(高消消费)最最大,高高消费在在属性中中具有最最高信息息增益,以此作作为根节节点, 并出现现两个分分歧,对对应两个个结果,以此类类推生成成决策树树图(44.1.2.33)。 从这个个决策树树中,可可以很清清楚地分分析出不不同类型型的

44、客户户,这样样在 CCRM 决策中中可以对对不同 类型的的客户选选择不同同的策略略。 由由决策树树可以很很容易地地得到“IF-THEEN”形式的的分类规规则: IF “高消费费”=“Y” THHEN 类别标标记=“优质客客户” THHEN 类别标标记=“优质客客户” IFF “高消费费”=“N”ANDD 消费费=“Y” ANND “持续高高消费”=“N” THHEN 类别标标记=“消费客客户” IFF “高消费费”=“N”ANDD 消费费=“N” ANND “长期在在线”=“Y” ANND “高收入入”=“Y” THHEN 类别标标记=“潜在客客户” IFF “高消费费”=“N”ANDD 消费

45、费=“N” ANND “长期在在线”=“Y” ANND “高收入入”=“N” THHEN 类别标标记=“普通客客户” IFF “高消费费”=“N”ANDD 消费费=“N” ANND “长期在在线”=“N” THHEN 类别标标记=“无效帐帐号” 6.2利利用神经经网络型型知识挖挖掘技术术进行玩玩家流失失预测 我们可以以利用神神经网络络挖掘技技术来预预测玩家家流失的的可能性性。 首首先我们们通过对对历史数数据的统统计分析析,发现现多数流流失玩家家都有一一些共同同的数据据变化,比如: 自身身帐号上上的虚拟拟币或者者虚拟物物品大量量减少或或转移;消费明明显下降降;上线线时间明明显减少少;在“好 友友

46、”中有一一定数量量的好友友离开游游戏(上上线时间间减少或或不上线线)等等等; 然然后,我我们根据据这些共共同点,对现在在的玩家家数据进进行比较较,对玩玩家的某某一项内内容的现现状给 定一个个计算机机判断值值, 并并乘以通通过大量量数据得得出的一一个“权值”, 然然后把所所有项目目得出的的数据相相加, 就得到到了一个个代表玩玩家流失失的可能能性的数数值。 如图(4.22.1):某玩玩家好友友里有 3 名名已被判判断为流流失客户户,计算算机根据据函数公公式得出出判断值值(其 实就是是玩家好好友流失失程度)为 00.9,而通过过大量历历史数据据“学习”得出该该项目权权值(其其实就是是好友流流 失对对

47、玩家离离开游戏戏的影响响度)为为 0.15,所以该该项目最最终值为为 0.1355。所有有项目最最终值相相加结果果为 00.8445,因因为逼近近于原给给定的参参考值 1,所所以计算算机判断断玩家将将会流失失。 事事实上,神经元元预测值值完全取取决于联联结网络络的权值值,输出出结果的的正确率率也取决决于权值值的判定定。 因因此神经经网络挖挖掘技术术需要不不断“学习”历史数数据来修修正其权权值,以以达到趋趋于正确确的判定定结果。 6.3利利用粗糙糙集型知知识挖掘掘技术进进行玩家家信息挖挖掘 粗糙集理理论的出出发点是是假定所所研究的的每个对对象涉及及的一些些信息,比如对对流失玩玩家信息息进行 挖掘

48、,可以得得到流失失玩家的的一些相相似信息息,并对对目前玩玩家相比比较,以以预测玩玩家是否否会流失失。 现现在我们们通过对对整个玩玩家数据据库进行行粗糙集集数据挖挖掘,以以得到一一些看不不到的有有效信息息。 表表(4.3.11)是玩玩家数据据库中的的一段资资料截取取,我们们要通过过它来说说明如何何对玩家家资料进进行有 效的信信息挖掘掘。 策策略 11:去掉掉没有意意义的属属性。比比如“玩家 ID”,虽然然全部为为不同属属性值,但其本本身对数数据 : 挖掘掘毫无意意义,我我们可以以直接去去除,无无需计算算; 策策略 22:面向向属性进进行概念念提升。比如“IP 地址”,“常州”和“无锡”都属于于江苏,那么都都提升 : IIF “高消费费”=“N”ANDD 消费费=“Y” ANND “持续高高消费”=“Y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论