关联规则在健身服务项目组合中的数据挖掘_第1页
关联规则在健身服务项目组合中的数据挖掘_第2页
关联规则在健身服务项目组合中的数据挖掘_第3页
关联规则在健身服务项目组合中的数据挖掘_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、关联规则在健身服务项目组合中的数据挖掘韦艳玲(柳州职业技术学院 信息工程系 ,广西 柳州 545006)摘 要 :采用一种改进的频繁项目集数据挖掘算法 ,设计与实现了某健身俱乐部关联规则挖掘系统 。该系统能够高效灵活地从该俱乐部的客户数据中挖掘出对服务项目组合有用的关联规则 ,对俱乐部的运营具有一定的指导意义 。关 键 词 :关联规则 ;健身服务项目组合 ;数据挖掘中图分类号 : tp311113文献标识码 :b0引言随着生活水平的提高 ,人们日益注重提高生活质量 。目前 ,越来越多的人关注健身 ,大批健身俱乐部形式的机构也应运而生 。某健身俱乐部是一家提供多种健身服务及相关服务的会员制俱乐部

2、 ,多年的经营积累了大量的会员数据 。面对这些海量的数据 ,很难通过一般的查询得到客户服务行为模式等有用信息 。随 着市场竞争的加剧 ,有必要通过数据挖掘找出该健身俱乐部的各种有用信息 。采用基于关联规则的数据挖掘技术 ,发现该健身俱乐部客户数据的关联规则 ,是研究和探讨的重点 。发 现关联规则的目的在于找出哪些服务项目会一起进行 ,如“一般选择健美操运动的女士同时也会选择购买运 动营养品”。关联规则的挖掘对市场调节和争取客户方面的应用是极有价值的 。利用数据挖掘技术可以分析客户的消费行为 ,找出服务项目间彼此的关联性 。决策者可针对所得到的关联规则 ,对服务项目进行设 计 ,面对不同的客户进

3、行促销活动 。这不但有利于提升该俱乐部的竞争力 ,同时也可提升相关服务的利润 , 从而更好地生存和发展 。该健身俱乐部在经营过程中 ,需要解决以下问题 : 防止客户流失 ,对消费金额明显下降的客户 ,要分析 其下降原因 ; 对客户所选择的服务进行挖掘 ,看哪些服务项目会被同一个人选择 ,这样可以将两种或多种服务项目合并起来进行促销 ; 通过对老客户消费行为 、年龄等因素的分析挖掘 ,得到相关客户的消费习惯 ,预测新客户会选择哪一种服务 。对问题 ,可采用偏差分析的方法 ,找出异常值 ;问题 ,可从利用客户以往的数据 ,从中找出规律 ,建立预测模型 ;重点是问题 如何解决好问题 ,有利于俱乐部设

4、计更优的服务项目组合 ,稳定客户 ,提升利润 。下面对问题 进行分析讨论 。1关联规则算法选择客户的服务信息可以很方便的存放在数据库中 ,针对上述的实现目标 ,如何发现它们之间存在的关联是关键问题 。关联规则的挖掘问题就是在事务数据库中找出用户给定的最小支持度和最小置信度的关联规则1 ,2。关联规则挖掘可以分以下两步完成 :(1) 找出事务数据库中所有大于等于用户指定最小支持度的频繁项目集 。(2) 利用频繁项目集生成所期望的关联规则 ,即这些规则必须满足最小支持度和最小置信度 。 数据挖掘所面临的最大挑战是计算效率 ,解决这一问题的途径是采用高效的数据挖掘算法 。当找到所收稿日期 :2008

5、 - 04 - 02基金项目 :广西自然科学基金项目 ( 桂科自 0481016) .作者简介 :韦艳玲 ( 1970 - ) ,女 ,广西罗城人 ,柳州职业技术学院信息工程系工程师 ,软件工程硕士 。有的频繁项目集后 ,相应的关联规则将很容易生成 。因此 ,有必要采用快速算法从事务数据库中挖掘关联规则 。关联规则的算法相当多 ,其中经典算法 ap rio ri 是最有影响的挖掘布尔关联规则频繁项目集的算法 ,同 时大部分关联规则算法也都是经典算法 ap rio ri 的演绎和改进 。ap rio ri 算法基于这样的事实 : 算法使用频 繁项目集性质的先验知识 ,根据关联规则和频繁模式集合的

6、定义 ,频繁模式集合中应该存储了挖掘关联规则所需的全部信息 ,因此 ,得到一个完整的 、正确的频繁模式集合是产生关联规则的前提 。 发现频繁模式的集合需要对源数据 (指数据库中存储在表中用来挖掘的数据) 进行多次遍历 ,这种频繁进行的 i/ o 操作需要大量的时间 ,成为数据挖掘算法的瓶颈 ,如何减少对数据的频繁读取所消耗的时间 ,是 改进关联规则算法的关键 。在不能对源数据进行修改的情况下 ,减少对源数据扫描的次数 ,是减少算法的时 间消耗 、提高算法效率的最直接有效的方法 。选用文献 3 改进的频繁项目集数据挖掘算法 ,整个过程只须扫瞄数据库一次 ,就可获得所有可能的项 目集组合 ,大大地

7、降低 i/ o 存取的时间 。算法效率得到很大提高 。2健身俱乐部关联规则挖掘系统设计关联挖掘算法模块 、数据预处理模块和可视化分析模块是健身俱乐部关联规则挖掘系统的三大主要功能模块 。系统结构如图 1 所示 。(1) 数据预处理模块 。从大量的会员数据中获取相 关的数据 ,对原始数据进行预处理 ,将处理好的数据放入 数据挖掘数据库中保存 ,主要存储客户的职业及服务项 目类型数据 , 本系统数据存储层采用 sql server 数据库4。(2) 挖掘处理模块 。挖掘处理模块是整个系统的核心部分 。为了提高本系统的计算效率 ,采用文献 3 一种改进的频繁项目集数据挖掘算法 。该算法利用拆分交易

8、记录的方式 ,将每一笔交易记录拆分到最小项目为止 ,进 而得到单笔交易记录所有的项目集组合 ,以当整个数据 库读取完毕时 ,所有的交易记录也就随之拆分完成 ,同时 可以得到所有的项目集组合 。而后 ,便可动态的任意输入最小支持度与最小信任度来产生所需的频繁项目集以及关联规则 。图 1 系统结构图(3) 可视化界面模块 。使用图形化界面作为用户界面 ,方便用户的操作以及得到的规则能够可视化显示 。3 健身俱乐部关联挖掘规则系统的实现311 数据来源及数据预处理俱乐部经营积累的数据已存于原有的俱乐部计算机管理系统数据库中 。当对健身俱乐部服务项目组合 进行关联数据挖掘时 , 需要从俱乐部管理系统数

9、据库中提取客户信息及消费信息 。随机抽取 2006 - 082007 - 07 间的交易数据共 6 500 笔 。客户信息表提供了客户编号 、职业 、姓名 、年龄 、性别 、地址等属性 ;消 费信息表提供了操作日期 、客户编号 、服务项目编号等属性 。消费信息表作为事实表 ,客户信息表是与之关 联的维度表 。缩写可用 sql 语句进行修改替换 。数据存储层采用 sql server 2005 数据库 。把客户信息及消费信息导入到 sql server 2005 数据库中 ,导入后的记录格式不变 。由于客户所选择的服务项目与其所在的阶层有很大的关系5 ,在本系统挖掘中还要把客户的阶层考虑 进去

10、。目前学术界对于社会分层的研究最具代表性的成果 ,当属中国社会科学院社会学研究所“当代中国社 会阶层结构研究”课题组推出的关于当代中国社会阶层研究报告6 。该项研究成果提出了以职业分类为 基础 ,以组织资源 、经济资源和文化资源的占有作为标准来划分社会阶层的理论框架 ,将中国社会划分为十 大社会阶层 (国家与社会管理者阶层 、经理人员阶层 、私营企业主阶层 、专业技术人员阶层 、办事人员阶层 、个 体工商户阶层 、商业服务业员工阶层 、产业工人阶层 、农业劳动者阶层 、城乡无业失业半失业者阶层) 。该项 研究成果得到了学术界的广泛认同 。原始数据中没有阶层这个属性 ,只有职业这个属性 ,把各种

11、职业转成相 应的阶层 ,可用 sql 语句进行修改替换 。数据预处理后转化为事务数据 ,如表 2 所示 。表 1客户消费数据表 2预处理后的事务数据操作日期客户编号职业服务项目编号客户编号服务项目编号2007 - 06 - 25a12058企业经理h09a12058h09 ,c11 ,b05312挖掘过程本系统的关联规则挖掘算法模块由一个基于一种改进的频繁项目集数据挖掘算法的数据挖掘引擎构 成 。预处理得到的文本文件作为参数入口 , 对事务数据库进行挖掘 。改进的频繁项目集数据挖掘算法用v c + + 实现 ,通过 ado 与数据库连接 ,最后得出相关的规则并显示 。测试计算机的基本配置为 :

12、 cpu p42166 ghz ,内存 512 m ,操作系统 window s xp p rofessio nal 。31211 ado 访问数据库本系统通过 ado 访问 sql server 数据库 ,理由如下 : ado 使用对象链接与嵌入 (ol e) 式数据库 (db) 接口作为数据提供者 ,访问速度更快 ,更易使用 ,同 时更节省资源 。 ado 是基于组件对象模型 ( com) 的访问技术 ,其产生的应用程序占用内存及磁盘空间少 。根据 ol e db 提供者的不同 ,ado 连接数据库有很多种方法 ,比较典型的连接方法有两种 :一种是为数 据库建立 odbc 数据源 ,即 a

13、do2ol e db provider fo r odbcodbc driver fo r sol server2sql server 数据库 ;另一种是通过 ol e db 提供程序直接访问数据库 ,即 ado2ol e db provider fo r sql server2sql server数据库 。第一种方法要配置 odbc 数据源 ,且连接数据库效率较低 ;第二种方法不用配置 odbc 数据源 ,且 易动态配置 ,比较灵活 ,因此第二种方法优于第一种 。把原始数据导入 sql 数据库后数据库 (表) 的每一行只描述了某次交易行为 ,这种格式的数据不符合关 联规则算法的输入要求 ,是

14、不能直接进行关联规则采掘的 。ss is 是 sql server2005 所带的实用程序 ,提供 输入 、输出与转换数据的功能 ,利用 ss is 工具可将数据转换成算法所需要的布尔型事务数据库供数据挖掘工具进行挖掘4 。从数据源中选取客户阶层 、客户号和交易号做进一步分析 ,将原始数据转化为事务数据 ,做好关联挖掘的准备 。31212 挖掘步骤就挖掘交易关联规则来说 ,挖掘过程分三个步骤 : 从数据挖掘数据库中读取事务数据 ,把其所有的事务数据项目进行一连串“拆分”的动作 ,如某条记录选的服务项目类型事务数据项目为“h1 , a3 ,b5”, 则把“h1 , a3 ,b5”拆分为“h1a3

15、”、“h1b5”、“a3b5 ”、“h1”“、a3”“、b5”等组合 ,把这些被拆分的事务数据项目都会暂存在某临时表中 ,而拆分的主要目的是要将服务项目记录拆分到最小项目为止 ,当服务项目记录拆分完成后 ,即可得到此条服务项目记录的所有项目组 合 。把每个记录拆分完后 , 统一存入表 bluewj 中 , 表结构如表 3 所示 , co unt 字 段 用 于 给 项 目 组 合 计 数 。若此项目组合已存在 bluewj 表中 ,则将 co unt 加 1 ;若未存在则将该项目集组合加入此 bluewj 表中 ,并给 co unt 赋初值 1 . 重复上述的动作直到最后 一条记录读完为止 。

16、 根据俱乐部决策者设定的最小支持度 ,从 bluewj 表中取出符合条 件的项目集 ,即称之频繁项目集 。表 3 项目组合计数表( blue wj) 结构 利用步骤 产生的频繁项目集以及俱乐部决策者所设定的最小支持度与最小信任度 ,推导出符合俱乐部决策者所需的关联规则 。而且整个过程只须扫瞄数据库一次 ,就可获得所有可能的项目集组合 ,大大地 降低 i/ o 存取的时间 。最重要的是俱乐部决策者可动态地随意更新最小支持度 ,而这个过程不须再重新扫 描整个数据库 ,即可实时 、有效地得到所需的信息 。但俱乐部决策者无法预知什么大小的支持度可以过滤出 合适的数据 ,如何设定恰当的最小支持度与最小信

17、任度呢 ? 可通过对局部数据进行数据挖掘 ,如分阶层对局部客户的信息进行挖掘后 ,把支持度 、可信度与关联规则数目进行对比 ,最后确定相对理想的支持度和可信 度的值供决策者参考 。4挖掘结果及评价(1) 挖掘结果 。在挖掘中得到许多形如“x = y”形式的有用规则 。例如 ,发现选择拳击服务项目的客户常常同时选择器械健身服务项目 ,可以向选择拳击服务项目的客户推荐器械健身服务项目 ,从而使得器械健身服务项目利润能够增加到最大 。选择网球服务项目的客户中常常选择购买网球运动服装 ,可以采用选择网球服务项目 的客户可以打折购买运动服装等等 。(2) 挖掘结果评价 。把挖掘的结果与俱乐部的实际情况和

18、对客户的调查相对比 ,得到的结论是比较吻合的 。在实际应用挖 掘的结果中起到了较好的效果 ,如下所述 : 对决策者而言 ,可以更好地了解俱乐部的现状 ,对有较高频繁集 的服务项目提供完善的服务 ,采购相关的新设备 ,从而起到稳定客户的作用 。 运用所挖掘出来的规则 ,对客户推荐相关的服务项目 ,如 x 、y 关联性强的两项服务 ,当客户办理了 x 服务时 ,可以推荐 y 服务给他 ,从 而达到扩大业务的目的 。 使用关联规则分析对健身俱乐部运营方面的效果是很明显的 ,在 2007 年第四季 度的财务指标中显示 :俱乐部净利润同比增长 4514 % ,营业总收入同比增长 2116 % ,是近两年

19、来俱乐部各季 度净利润和营业总收入同比增长最快的季度 。5结论使用关联规则数据挖掘技术对某大型健身俱乐部的客户数据进行挖掘 ,发现了客户同时选择的多种服务项目间的关联关系 ,并采取相应措施 ,稳定了客户 ,营业利润得到了相应提高 ,说明使用关联规则分析对健身俱乐部的运营是有效和实用的 ,对文化体育娱乐业等类似企业的运营也具有指导意义 。参考文献 :123456(美) to m mitchell . 机器学习 m .曾华军 ,张银奎 ,译 . 北京 :机械工业出版社 ,2003 .(加) j iawei han ,micheline kamber . 数据挖掘概念与技术 m . 范 明 ,孟小峰

20、 ,译 . 北京 :机械工业出版社 ,2001 .吴振光 . 一个改进的关联规则的频繁项目集数据挖掘算法 j . 计算机科学 , 2007 ,34 (9) :146147 .胡百敬 ,姚巧玫 . sql server 2005 数据库开发详解 m . 北京 :电子工业出版社 ,2006 . 周进国 . 从社会分层的视角看我国社会体育 j . 体育学刊 ,2007 ,14 (1) :138140 . 陆学艺 . 当代中国社会阶层研究报告 m . 北京 :社会科学文献出版社 ,2002 .sidzhcou n txi e cui2lan , zh en g yi2ling(depart ment

21、of info r matio n engineering ,liuzho u vocatio nal & technical college , liuzho u 545006 ,china)abstract :int ra2p redictio n mo de selectio n in h. 264 is t he bot tleneck of enco ding. a f ast mo de selectio n algo rit hm is p ropo sed based o n t he analysis of h. 264 . acco rding to sad value o

22、f int ra216 16 , t he algo rit hm decides w het her int ra24 4 can be skipped. on t he ot her way ,it utilizes t he sad values of 4 4 block to filter o ut so meless p ro bable mo des. experimental result s show t hat t he p ropo sed algo rit hm increases t he speed of int ra co ding significantly and guarantees t he image qualit y.key w

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论