下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于粗集的数据挖掘在电子商务中的应用摘要 电子商务是现代商业的主流趋势,基于数据挖掘技术可以充分利用企业的信息数据,从海量数据中挖掘出对企业有用的信息。文中主要介绍了基于粗糙集的数据挖掘过程:数据预处理、约简和规则提取。 关键词 电子商务 粗集 数据挖掘 决策规则 一、引言 在当前信息化时代,世界电子商务发展速度非常快,传统行业的电子商务也得到了广泛的应用。在日益激烈的电子商务买方市场竞争中,任何与消费者行为有关的信息对商家来说都是非常宝贵的。虽然电子商务网站的后台数据库能够记录下来丰富的交易信息和顾客相关的数据,但是这些数据资源中所蕴涵的大量有益信息至今却未能得到充分地挖掘和利用。粗糙集作为
2、一种新的数据挖掘的手段,在这一领域的应用有不错的前景。在数据挖掘的过程中,存在大量冗余数据影响我们的决策,粗糙集理论在得到的决策规则和推理过程方面是最有利的工具,它不但可以在不影响数据所表达的信息下使原来的数据量大为减少,而且可以产生决策规则,从而可以挖掘数据中的有效的模式。 二、基于粗集的数据挖掘方法 1.粗集的基本概念 粗糙集(Rough Set,简称RS)理论由波兰逻辑学家Pawlak教授于1982年提出,由于它能有效处理不精确、不一致及不完整等不完备信息,并从中发现隐含的知识,揭示潜在的规律,近年来越来越多的研究人员开始对它进行研究,从理论上建立了Rough集理论的数据模型,还提出了很
3、多算法,在机器学习、数据挖掘、人工神经网络等方面得到了广泛应用。粗糙集理论和数据挖掘关系密切,它为数据挖掘提供了一种新的方法和工具。 在粗集理论中,“知识”被认为是一种将现实或抽象的对象进行分类的能力。关于U的一个知识库可以理解为一个关系系统,其中U为论域,R是U上的一簇等价关系。决策表信息系统又叫决策表,他是一类特殊而重要的知识表达系统,也是一种特殊的信息表,它表示当满足某些条件时决策(行为、操作、控制)应当如何进行。它是一张二维表格,每一行描述一个对象,每一列描述对象的一种属性。属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类。 2.基于粗集的数
4、据挖掘过程 数据挖掘研究的实施对象多为关系型数据库,关系表可被看作为粗糙集理论中的决策表,这给粗糙集方法的应用带来极大的方便,现实世界中的规则有确定性,也有不确定性的,从数据库中发现不确定性的知识,为粗糙集方法提供了用武之地。数据挖掘中采用的其它技术,如神经网络的方法,不能自动地选择合适的属性集,而利用粗糙集方法进行预处理,去掉多余属性,可提高发现效率,降低错误率。基于粗糙集的数据挖掘过程主要有数据预处理、约简(包括属性约简和属性值约简)及规则提取。 (1)数据预处理 在利用粗糙集进行自动规则获取时,第一步要进行的工作是数据的预处理。 数据预处理主要包括两个方面:数据的补齐和数据的离散化。运用
5、粗糙集理论处理决策表时,要求决策表中各值用离散值表达。如果决策表中某些条件属性或决策属性的值域为连续取值(浮点数表达),则在处理前必须经过离散化。离散化在整个规则获取过程中起着至关重要的作用,好的离散化算法不仅丢失信息很少,而且得到的规则的适应性较强。 (2)属性约简 基于粗糙集的数据挖掘方法的一个显著的特点就是它具有显式的知识表达形式。根据粗糙集理论中信息系统的定义,把属性A分为了条件属性C和决策属性D,那么我们很容易根据信息表得到If C Then D的产生式规则。理论上我们针对信息系统中的每一条记录,都可以得到这样一条规则。但是直接由信息表得到的规则,条件项较多,规则的泛化能力弱,适用范
6、围窄。 一般情况下,信息系统中的条件属性并不是同等重要的,有些条件属性是多余的,删除这些属性并不影响原来的系统。属性约简就是在不影响原来的系统的情况下,删除不相关或不重要的条件属性,使原有的系统得到简化。通过应用粗糙集理论对决策表约简,就是约简决策表中的条件属性及属性值,约简后的决策表具有约简前决策表相同功能,但条件属性达到最小化从而使我们用最少的信息量即可做到一个正确的判断,决策表的约简很有意义。 (3)属性值约简 值约简的目的是为了提取决策规则,那么这些缺失的属性值是肯定要被约简掉的,和属性约简不同,值约简是针对每一个对象而言的。虽然对整个决策表来说没有冗余的属性,但对于每一个对象来说,仍
7、然存在着属性冗余,去掉这些属性对今后决策规则的提取、规则的简化有重要的作用。根据定义一般值约简算法基本描述如下:对于规则集合中的每条规则,对于该规则中的任意条件属性,如果去掉该属性,该规则不和集合中的其他规则冲突,则可以从该规则中去掉该条件属性。 (4)规则提取 对进行属性约简和值约简后的信息表,就可以进行规则的获取,使用一个约简集RED从决策系统S=(U,A)中产生规则的过程相当直接。直观地,将每个约简用在决策表的每个对象上,只要简单地从表中读出适当的属性值来形成决策规则。用类似逻辑语言中的形式表示决策规则,和分别称为决策规则的前件和后件,代表条件属性值的组合。三、应用实例 1.数据收集与预
8、处理 在数据挖掘中有一个很重要的步骤就是要为挖掘算法找到合适的数据。在客户通过电子商务网站进行交易的过程中,企业获取相关数据的来源主要有两个方面:(1)服务器数据;(2)客户登记信息。在本应用实例中,将收集某企业的客户登记信息进行基于粗集的数据挖掘, 对某企业的部分客户资料信息经过初步处理,得到对决策属性有潜在因果关系的条件属性和决策属性的字段列表,并对其进行编号。由于运用Rough set理论处理决策表时,要求决策表中各值用离散值,经过离散处理后得到如表1所示的决策表。S =< U,R,V, f>,设论域为抽取样本,其中R=CD,设U=1,2,.,条件属性C=年龄,性别,婚否,学
9、历,收入,决策属性D=是否购买。在用相应的算法进行属性约简前,所有的数据都必须是整型数据或浮点型数据,将表1中的数据转换为整型数据,结果如表2。 2.约简 属性约简的算法有很多,在本例中采用归纳属性约简,约简后的决策表如表3。在该决策表中,约掉了性别、婚否两个属性,说明客户中性别、婚否不是是否购买公司产品的决定性因素,年龄、学历和收入才是决定性因素。 经过属性约简后的决策表中的每一个记录可以作为一条规则,但其中包含着大量的冗余信息,即在约简后的信息系统,并不是每一条记录的每一个属性值都对信息系统最后决策规则的提取产生作用,必须对属性约简后的结果
10、继续简化。剔除经过属性约简后的决策表中的冗余信息即为属性值约简。其实,属性值的约简是更进一步的约简,是真正实现了决策表的最简化,就实际意义而言,属性值简化了的决策表更突出了关键属性及其关键属性值对决策属性的影响。采用启发式属性值约简对表3进行属性值约简,得到表4。 3.决策规则提取 根据值约简后的决策表,可得如下的规则: 规则1:IF (a4=3) THEN d=1 规则2:IF (a5=3) THEN d=1 规则3:IF (a1=3) AND (a4=4) AND (a5=4) THEN d=1 规则4:IF (a5=4) THEN d=1 规则5:IF (a1=1) AND (a4=1)
11、 THEN d=0 从规则1至规则4可以分析得到年龄在30岁40岁之间,学历为硕士以上且收入在4000元以上的客户购买了公司的商品,规则5则说明了年龄在30以下,学历为大专及以下的客户没有购买。由挖掘得到的规则,可以为公司在促销和锁定目标客户的决策上起到重要作用。 四、结束语 电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用基于粗集的数据挖掘技术,可以充分利用电子商务企业现有的信息数据,从中发现有利的规则,为企业管理提供决策支持,使企业在在电子商务的潮流中立于不败之地。随着数据挖掘算法的不断发展和成熟,数据挖掘一定会有更加广阔的应用前景。 参考文献: 1Pawlak Z. Rough set. International Journal o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育心理学题库综合试卷B卷附答案
- 2024年图书馆管理服务项目资金申请报告代可行性研究报告
- 五年级数学(小数乘除法)计算题专项练习及答案
- 文化自信背景下民族传统体育文化的传承与发展
- 鲁教版高三上学期期末地理试题及解答参考
- 2024年定制出口业务销售协议模板
- 保安公司门卫服务承揽协议范本
- 2024高品质彩钢房建设协议书
- 2024批次高品质片石购买协议
- 2024年健身机构业务合作伙伴协议
- 2023-2024学年北京海淀区首都师大附中初二(上)期中道法试题及答案
- (正式版)HGT 6313-2024 化工园区智慧化评价导则
- 二级公立医院绩效考核三级手术目录(2020版)
- 新苏教版六年级上册《科学》全一册全部课件(含19课时)
- 精密贴片电阻阻值对照表
- 第四章有机反应中的活性中间体
- 《Fishing with Grandpa》RAZ分级阅读绘本pdf资源
- 《VCS-仿真验证》ppt课件
- 亲子阅读ppt课件
- 爱心妈妈结对帮扶记录表
- 农贸市场建设项目装饰工程施工方案
评论
0/150
提交评论