版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE2《数据挖掘论文》数据挖掘分类方法及其应用课程名称:数据挖掘概念与技术姓名学号:指导教师:数据挖掘分类方法及其应用作者:来煜摘要:社会的发展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏这许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求和社会发展各方面的迫切需要而发展起来一种新的信息分析技术,这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术和新领域的不断出现,对分类方法提出了新的要求。。关键字:数据挖掘;分类方法;数据分析Abstract:Thedevelopmentofthesocietyenteredthenetworkinformationage,massproducevariousformsofdata,hiddenbehindthedatathatanumberofimportantinformation,howtofindoutsomerulefromthesedata,findusefulinformation,moreandmoreattention.Inordertomeetthenewdemandinformationprocessingandtheurgentneedsofthesocialdevelopmentinallaspectsanddevelopedanewkindofinformationanalysistechnology,thissituationiscalleddatamining.Classificationtechniqueiswidelyappliedindataminingfieldofoneoftheimportanttechnology.Allkindsofclassificationalgorithmhasitsownadvantagesanddisadvantages,andsuitablefordifferentfields.Nowwiththenewtechnologyandnewfieldsappearconstantly,putsforwardnewrequirementsforclassificationmethod.Keywords:datamining;Classificationmethod;Dataanalysis2.2基于统计的分类贝叶斯分类算法是基于贝叶斯定理的一种统计学分类算法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。如果出现类别重叠现象,贝叶斯分类算法采用两种方法处理这种情况:一是选择后验概率最大的类别,二是选择效用函数最大(或损失最小)的类别。贝叶斯分类也是一种常用的分类方法,它是一种对属性集和类变量的概率关系建模的方法。其理论基础是贝叶斯定理,可用式2.2.[1]表示。p(c|x)=p(x|c)p(c)/p(x)2.2.[1]其中x是类标号未知的数据样本。设c为某种假定,如数据样本I属于某特定类民则P(c|x)为c成立的概率,也称为类c的先验概率;P(x)为x的支持度。P(c|x)是规定数据样本x,假定c成立的概率,称作类c的后验概率。P(xvc)是假定c成立的情况下,样本x的支持度,也称为类条件概率。准确估计类标号和属性值的每一种可能组合的后验概率非常困难,因为即便属性数目不是很大,仍然需要很大的训练集。此时,贝叶斯定理很有用,因为它允许我们用先验概率P(c)、类条件概率P(x|c)和P(x)来表示后验概率。在比较不同类c的后验概率时,分母P(x)总是常数,因此可以忽略。先验概率P(c)可以通过计算训练集中属于每个类的训练记录所占的比例很容易地估计。因此类c的后验概率P(x|c)的确定取决于对类条件概率P(x|c)的估计。对类条件概率P(x|c)的估计,常使用两种贝叶斯分类方法来实现:朴素贝叶斯分类和贝叶斯信念网络。2.3基于神经网络的分类2.3.1基本思想。经常用于分类的还有人工神经网络方法。神经网络[3]为解决大复杂度问题提供了一种相对来说比较有效的简单方法,它是模仿人脑神经网络的结构和某些工作机制而建立的一种非线形预测模型,经过学习进行模式识别的。其工作机理是通过学习改变神经元之间的连接强度。神经网络有前向神经网络、反馈神经网络、自组织神经网络等,在神经网络中,由权重和网络的拓扑结构决定了它所能识别的模式类型。神经网络分类过程可以分为训练和分类两个阶段。在训练阶段,首先定义网络的拓扑结构,再对训练样本中的每个属性的值进行规范化预处理,然后用神经网络对已预处理的输入进行学习。训练完毕后,用训练好的神经网络对标识样本进行分类。最流行的神经网络学习算法是后向传播算法。后向传播算法是在多层前馈神经网络上进行学习的。这种神经网络具有一个输入层和一个输出层,在两者之间可能包含多个中间层,这些中间层叫做隐藏层。后向传播通过迭代地处理一组训练样本,将每个样本的网络预测与实际知道的类标号比较,进行学习。对于每个训练样本,修改权值,使得网络预测和实际类之间的均方误差最小。这种修改后向进行,即由输出层,经由每个隐藏层,到第一个隐藏层。一般的,权将最终收敛,学习过程停止。算法的每一次迭代包括两个阶段:前向阶段和后向阶段。在前向阶段,使用前一次迭代所得到的权值计算网络中每一个神经元的输出值。计算是向前进行的,先计算第k层神经元的输出,再计算第k+1层的输出。在后向阶段,以相反的方向应用权值更新公式,先更新k+1层的权值,再更新第k层的权值。2.3.2优缺点。神经网络法的优点是有较强的抗噪能力,对未经训练的数据也具有较好的预测分类能力。神经网络的主要缺点是用加权链连结单元的网络所表示的知识很难被人理解、学习时间较长,仅适用于时间容许的应用场合;对于如网络结构等关键参数,通常需要经验方能有效确定。2.4基于源自关联规则挖掘概念的分类2.4.1基本思想。关联规则聚类系统是基于聚类挖掘关联规则,然后使用规则进行分类。挖掘形如Aquan1∧Aquan2→Acat的关联规则;其中,Aquan1,Aquan2是在量化属性区间上的测试,为给定训练数据的分类属性指定一个类标号。关联规则画在2-D栅格上。算法扫描栅格,搜索规则的矩形聚类。由ARCS产生的聚类关联规则用于分类,其准确率与C4.5差不多,精确度比C4.5高一点。关联分类挖掘形如condset→y的规则,condset是项属性一值对的集合,y是类标号。若给定数据集中的样本s%包含condset并且属于类y,则规则的支持度为s。若规则满足预先指定的最小支持度,则该规则是频繁;若给定数据集中包含conset的样本c%属于类y,则规则的置信度为c;若满足最小置信度,则该规则是精确的。如果一个规则项集具有相同的condset,则选择具有最高置信度的规则作为可能规则,代表该集合。2.4.2关联分类方法由两步组成。第一步是找出所有频繁的、精确的PR集合。算法使用迭代方法,类似Apriori。第二步使用一种启发式方法构造分类,发现的规则按支持度和置信度递减的优先次序组织,用满足新样本满足该样本的第一个规则对其分类。CBA是关联分类的经典算法,该方法比c4.5更精确。2.5其他分类方法用于数据分类的方法还有:基于案例的推理分类法、遗传算法等。2.5.1基于案例的推理分类法。基于案例的推理分类法是基于要求的,其存放的样本是复杂的符号描述。当给定一个待分类的新案例时,基于案例的推理首先检查是否存在一个同样的训练案例。如果找到一个,则返回附在该案例上的解。如果找不到同样的案例,则基于案例的推理将搜索具有类似于新案例成分的训练案例,这些训练案例可视为新案例的邻接者。2.5.2遗传算法。遗传算法结合了自然进化的思想。遗传学习开始时创建了一个由随机产生的规则组成的初始群体,每个规则可以用一个二进制位串表示。根据适者生存的原则,形成由当前群体中最适合的规则组成的新群体,以及这些规则的后代。后代通过使用诸如交叉和变异等遗传操作来创建。由先前的规则群体产生新的规则群体的过程继续进化,直到群体中每个规则满足预先指定的适合度值3.数据挖掘的应用数据挖掘技术已应用于许多领域,如在学校、银行、电信、股市、保险、交通、零售等领域已得到广泛的应用。3.1数据挖掘技术在高校中的应用随着招生规模的扩大,高校的学生人数就达到上万人,甚至几万人,考试成绩达到几十万个数据,还有大量的学习成绩以外的影响因素,传统的学习成绩分析方法已不能完全满足需要,对此引入数据挖掘技术以找到影响学生成绩的真实原因,制定相应的措施,提高教育教学质量。3.2数据挖掘技术在金融企业中的应用3.2.1数据挖掘技术在证券行业中得到广泛应用,数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。3.2.2数据挖掘技术也应用于银行业,数据挖掘可以从大量的历史记录中发现或挖掘出这种关联关系更深层次的、更详尽的方面。3.2.3数据挖掘技术也应用于保险业保险金的确定:对受险人员的分类有助于确定适当的保险金额度。通过数据挖掘可以得到对不同行业的人、不同年龄段的人、处于不同社会层次的人的保险金该如何确定。险种关联分析:分析购买了某种保险的人是否同时购买另一种保险。预测什么样的顾客会购买新险种。3.3数据挖掘技术在零售企业中的应用从超市销售管理系统、客户资料管理及其他运营数据中,可以收集到关于商品销售、客户信息、库存及超市店面信息等的信息资料。数据从各种应用系统中采集,经按不同条件分类,存放到数据仓库,允许管理人员、分析人员、采购人员、市场人员和客户访问,利用数据挖掘工具对这些数据进行分析,为管理者提供高效的科学决策工具。4.数据挖掘应用实例4.1提出问题。一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息,计划将广告册和礼品投递给这些会员。但是投递广告册是需要成本的,不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传,有的人就算得到广告册不会购买。所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可能购买自行车。4.2自行车厂商首先从所有会员中抽取了1000个会员,向这些会员投递广告册,然后记录这些收到广告册的会员是否购买了自行车。数据如表1所示。表1.
会员实例模型数据事例列会员编号12496141772438125597…………输入列婚姻状况MarriedMarriedSingleSingle性别FemaleMaleMaleMale收入40000800007000030000孩子数1500教育背景BachelorsPartialBachelorsBachelors职业SkilledManualProfessionalProfessionalClerical是否有房YesNoYesNo汽车数0210上班距离0-1Miles2-5Miles5-10Miles0-1Miles区域EuropeEuropePacificEurope年龄42604136预测列是否购买自行车NoNoYesYes
在分类模型中,每个会员作为一个事例,居民的婚姻状况、性别、年龄等特征作为输入列,所需预测的分类是客户是否购买了自行车。4.3训练数据集填充模型使用1000个会员事例训练模型后得到的决策树分类如图1所示:
图1.会员事例训练模型后得到的决策树分类4.3.1图中矩形表示一个拆分节点,矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色最深。经过第一次基于年龄的拆分后,年龄大于67岁的包含36个事例,年龄小于32岁的133个事例,年龄在39和67岁之间的602个事例,年龄32和39岁之间的229个事例。所以第一次拆分后,年龄在39和67岁的节点颜色最深,年龄大于67岁的节点颜色最浅。节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄>=67”节点中,包含36个事例,其中28个没有购买自行车,8个购买了自行车,所以蓝色的条比红色的要长。表示年龄大于67的会员有74.62%的概率不购买自行车,有23.01%的概率购买自行车。
4.3.2在图中,可以找出几个有用的节点:1.年龄小于32岁,居住在太平洋地区的会员有72.75%的概率购买自行车;2.年龄在32和39岁之间的会员有68.42%的概率购买自行车;3.年龄在39和67岁之间,上班距离不大于10公里,只有1辆汽车的会员有66.08%的概率购买自行车;4.年龄小于32岁,不住在太平洋地区,上班距离在1公里范围内的会员有51.92%的概率购买自行车;
4.4模型训练后,还无法确定模型的分类方法是否准确。可以用模型对300个会员的检验集进行查询,查询后,模型会预测出哪些会员会购买自行车,将预测的情况与真实的情况对比,评估模型预测是否准确。如果模型准确度能满足要求,就可以用于对新会员进行预测。4.5在得到了分类模型后,将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大。随后自行车厂商就可以有选择性的投递广告册。
5.结束语本文总结了数据挖掘的定义、目标、相关领域及其一般方法,基于数据挖掘技术数据资料之丰富,现在在论文中提到的相关领域已有了一些数据挖掘技术的模型,限于篇幅不再一一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论