数据挖掘论文_第1页
数据挖掘论文_第2页
数据挖掘论文_第3页
数据挖掘论文_第4页
数据挖掘论文_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

pa车行数据挖掘案例——电子商务数据挖掘应用内容摘要本论文讨论了电子商务中应用数据挖掘工具的现状与主流方法,并通过pa车行的数据挖掘案例分析C4.5、k-means聚类、贝叶斯聚类三种方法的原理、实现与案例并讨论不同方法的优缺点和局限性。关键字C4.5;k-means聚类;贝叶斯聚类目录1电子商务和数据挖掘概述 11.1电子商务 11.2数据挖掘技术 11.3.数据挖掘过程 21.3.1确立目标 21.3.2数据准备 21.3.3模式分析 22.数据挖掘的具体应用场景和意义 32.1决策树分类算法 32.1.1C4.5算法简介 32.1.2C4.5算法的实现 42.1.3C4.5算法的基本原理 52.1.4实例:本论文以C4.5算法计算pa车行的各项指标对其影响 72.2k-means算法 82.2.1k-means算法简介 82.2.2K-means原理 82.2.3实例:本论文以k-means算法计算pa车行的各项指标聚类结果 92.3贝叶斯分类算法 92.3.1贝叶斯分类算法简介 92.3.2贝叶斯分类算法原理 102.3.3实例:本论文以贝叶斯分类算法算法计算pa车行的各项指标聚类结果 101电子商务和数据挖掘概述1.1电子商务电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。目前国内已有网上商情广告、电子票据交换、网上订购,网上、网上支付结算等多种类型的电子商务形式。电子商务正以其低廉、方便、快捷、安全、可靠、不受时间和空间的限制等突出优点而逐步在全球流行。电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务1.2数据挖掘技术数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。而电子商务中的数据挖掘是一项综合技术涉及到Internet技术学、人工智能、、信息学、学等多个领域。1.3.数据挖掘过程挖掘数据过程可以分为3个步骤:确立分析目标,数据预准备,模式分析,挖掘结果的表述和评价。1.3.1确立目标清晰地定义业务问题和认清数据挖掘的目标是进行数据挖掘的第一步,也是最重要步。要想充分发挥数据挖掘的价值,首要的条件是要对用户的目标有一个清晰明确的定义因此,在挖掘之前要明确业务的目标和需求。1.3.2数据准备实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。

1.3.3模式分析模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。电子商务是现代信息技术发展的必然结果,也是未来商业运作模式的必然选择。利用数据挖掘技术来分析大量的数据,可以挖掘出商品的消费规律与客户的访问模式,帮助企业制定有效的营销策略,充分发挥企业的独特优势,促进管理创新和技术创新,提高企业竞争力。在大多数的商业领域中,业务发展的主要指标包括新客户的获取能力。企业的市场部门人员可以采用传统的方法来发展新客户,如开展广告活动;也可以根据所了解的目标客户群,将他们分类,然后进行直销活动。但是,随客户数量不断增长和每位客户的细节因素增多,要得出选择出相关的人口调查属性的筛选条件也会变得很困难。而数据挖掘技术可以帮助完成潜在客户的筛选工作。算法能够以图形化的形式表现挖掘的结果,从而方便于使用者快速做出决定或预测。决策树实际在各行业应用非常广泛,如客户资源管理(CRM)系统等。4.挖掘结果的表述和评价这个阶段分为结果表述和结果评价两个步骤。将挖掘出的结果以一种易于理解的形表示出来,并进行分析和评价。具体包括消除无关的、多余的模式,过滤出要呈现给用的信息。利用可视化技术将有意义的模式以图形或逻辑可视化的形式表示,转化为用户以理解的语言。成功的应用数据挖掘技术可以把原始数据转换为更简洁、更易理解、可确定义关系的形式,此外还可以解决发现的结果与以前知识的潜在冲突及利用统计方法模式进行评价,从而决定是否需要重复以前的操作,以得到最优、最适合的模式。我们可将分析所得到的知识集成到业务信息系统的组织结构中去,实现知识的同化。综上所述,数据挖掘是一个多种专家合作的过程,也是一个在资金上和技术上高投的过程,这一过程要反复进行。在反复过程中,不断地趋近事物的本质,不断地优化问的解决方案。2.数据挖掘的具体应用场景和意义2.1决策树分类算法2.1.1C4.5算法简介数据挖掘中最常用、最经典的分类算法,是决策树(DecisionTree)用于分类和预测的主要技术,它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下分支,在决策树的叶节点得到结论。因此,从根节点到叶节点就对应着一条合理规则,整棵树就对应着一组表达式规则。基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识,只要训练事例能够用属性即结论的方式表达出来,就能使用该算法进行学习。决策树技术是一种对海量数据集进行分类的非常有效的方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树的典型算法有ID3、C4.5和CART等,基于决策树的分类模型有如下几个特点:(1)决策树方法结构简单,便于理解;(2)决策树模型效率高,对训练集较大的情况较为适合;(3)决策树方法通常不需要接受训练集数据外的知识;(4)决策树方法具有较高的分类精确度。本论文主要通过分析C4.5算法来研究决策树算法。在决策树算法中,最常用的、最经典的是C4.5算法,它在决策树算法中的主要优点是:形象直观。该算法通过两个步骤来建立决策树:树的生成阶段和树的剪枝阶段。该算法主要基于信息论中的熵理论。熵在系统学上是表示事物的无序度,是系统混乱程度的统计量。C4.5基于生成的决策树中节点所含的信息熵最小的原理。它把信息增益率作为属性选择的度量标准,可以得出很容易理解的决策规则。C4.5算法的优点是产生的分类规则易于理解,准确率较高。缺点就是在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5算法只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。2.1.2C4.5算法的实现假设用S代表当前样本集,当前候选属性集用A表示,则C4.5算法C4.5formtree(S,A)的伪代码如下。 算法:Generate_decision_tree由给定的训练数据产生一棵决策树 输入:训练样本samples;候选属性的集合attributelist 输出:一棵决策树创建根节点N;IFS都属于同一类C,则返回N为叶节点,标记为类C;IFattributelist为空ORS中所剩的样本数少于某给定值则返回N为叶节点,标记N为S中出现最多的类;FOReachattributelist中的属性计算信息增益率informationgainratio;N的测试属性test.attribute=attributelist具有最高信息增益率的属性;IF测试属性为连续型则找到该属性的分割阈值;Foreach由节点N一个新的叶子节点{If该叶子节点对应的样本子集S’为空则分裂此叶子节点生成新叶节点,将其标记为S中出现最多的类 Else 在该叶子节点上执行C4.5formtree(S’,S’.attributelist),继续对它分裂; }计算每个节点的分类错误,进行剪枝。2.1.3C4.5算法的基本原理设S是s个数据样本的集合。假定类标号Ci(I=1,……,m)具有m个不同的值,设si是类Ci中的样本数。对一个给定的样本分类所需的期望信息由下式给出:I(I(s1,……,sm)=i=1m 其中,pi是任意样本属于Ci的概率,并用s 设属性A具有v个子集s1,……,sv;其中,sj包含S中这样一些样本,它们在A上具有值aj。如果A选作测试属性,则这些子集对应于由包含集合S的节点生长出来的分枝。设sij是子集E(A)=E(A)=i=1v 其中,项sij+…+SmjS充当第j个子集的权I(I(S1j,S其中,pij=SijSj是sj 在A上分枝将获得的编码信息是:Gain(A)=I(Gain(A)=I(s1,……,sm)– 以上和ID3算法的基本原理相同,而C4.5所不同的是在后面使用信息增益比例来取代信息增益。SplitInfo(S,A)=SplitInfo(S,A)=-i=1c 其中,s1到sc 这时,在属性A上所得到的信息增益比为:GainRatio(S,A)=GainRatio(S,A)=Gain(S,A)SplitInfo(S,A) C4.5算法计算每个属性的信息增益比。具有最高信息增益比的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。当然C4.5算法本身也存在一些不足之处,如处理连续属性比较耗时、计算信息增益率的速度还有待提高等,2.1.4实例:本论文以C4.5算法计算pa车行的各项指标对其影响C4.5可以看出不同层级分类,但无法发现其中关键因素所在点,也即无法处理模糊数据的聚类分组,因此我们引入k-means算法。2.2k-means算法2.2.1k-means算法简介k-means算法接受参数k;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。假设要把样本集分为c个类别,算法描述如下:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c个中心的距离,将该样本归到距离最短的中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的c个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束,否则继续迭代。2.2.2K-means原理K-means面对的第一个问题是如何保证收敛,前面的算法中强调结束条件就是收敛,可以证明的是K-means完全可以保证收敛性。下面我们定性的描述一下收敛性,我们定义畸变函数(distortionfunction)如下:J函数表示每个样本点到其质心的距离平方和。K-means是要将J调整到最小。假设当前J没有达到最小值,那么首先可以固定每个类的质心,调整每个样例的所属的类别来让J函数减少,同样,固定,调整每个类的质心也可以使J减小。这两个过程就是内循环中使J单调递减的过程。当J递减到最小时,和c也同时收敛。2.2.3实例:本论文以k-means算法计算pa车行的各项指标聚类结果k-means聚类分析可以发现不同关键点并找出其关联性,但对于目标函数的实现无法寻找具体的线性关系,因此我们引入贝叶斯分类算法2.3贝叶斯分类算法2.3.1贝叶斯分类算法简介贝叶斯分类算法是统计学分类方法,它是一类利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论