数据挖掘的功能及应用作业

上传人：小*** IP属地：天津上传时间：2022-09-15 格式：DOC 页数：6 大小：63.50KB 积分：20 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。关联规则挖掘具有很多应用领域，如一些研究者发现，超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。1、基本概念设1i,i,i是项组合的记录，d为项组合的一个集合。如超市的每一张购12m物小票为一个项的组合(一个维数很大的记录)，而超市一段时间内的购物记录就形成集合D。我们现在关心这样一个问题，组合中项的出现之间是否存在一定的规则，如A游泳衣，B太阳镜，AB,但是BA得不到足够支持。在规则挖掘中涉及到两个重要的指标：支持度n(AB)支持度(AB)，显然，只有支持度较大的规则才是较有价值n的规则。置信度n(AB)置信度(

2、AB)，显然只有置信度比较高的规则才是比较可靠n(A)的规则。因此，只有支持度与置信度均较大的规则才是比较有价值的规则。一般地，关联规则可以提供给我们许多有价值的信息，在关联规则挖掘时，往往需要事先指定最小支持度与最小置信度。关联规则挖掘实际上真正体现了数据中的知识发现。如果一个规则满足最小支持度，则称这个规则是一个频繁规则；如果一个规则同时满足最小支持度与最小置信度，则通常称这个规则是一个强规则。关联规则挖掘的通常方法是：首先挖掘出所有的频繁规则，再从得到的频繁规则中挖掘强规则。在少量数据中进行规则挖掘我们可以采用采用简单的编程方法，而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。关联

3、规则挖掘可以使我们得到一些原来我们所不知道的知识。应用的例子：*日本超市对交易数据库进行关联规则挖掘，发现规则：尿片一啤酒，重新安排啤酒柜台位置，销量上升75%。*英国超市的例子：大额消费者与某种乳酪。那么，证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则，这些关联规则究竟说明了什么？关联规则挖掘通常比较适用与记录中的指标取离散值的情况，如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。二、特征化与比较1、特征化是一种描述性

4、数据挖掘，特征化通过数据挖掘的方法提供给定数据汇集的简洁汇总，如银行优质客户的特征，从而发现潜在的优质客户；转向其他银行的优质客户的特征，从而设法留住可能会转向其他银行的优质客户，特征化在银行客户关系管理等领域具有很大作用。描述性数据挖掘特征化的基本原理属性删除某一类的特征化就是找出某一类的共性，因此如果某个属性具有大量不同的值，而且每个值所占的比率都不能达到事先给定的临界值，同时在这个属性上没有概化操作符（指标上卷），则数据挖掘对其进行属性删除。属性概化如果在属性上存在概化操作符，并且原属性取值没有达到事先给定的临界值，则数据挖掘就将这个属性概化到较高层次，即使原属性取值已经达到临界值，数据

5、挖掘也可以继续进行属性概化。通过属性删除和属性概化，可以得到特征化的数据挖掘。2、比较特征化是给定某一类样本的特征，而比较则是区分不同的类，比较又通常称为挖掘类比较。如信用卡诈骗者和非诈骗者，这两类信用卡持有者的比较。类比较通常是一个指定的类与一个其它的类、或者几个其它的类进行比较，类比较的基本方法是：首先在目标类上发觉特征，然后在对比类上进行同步概化，这样就可以挖掘类比较。特征化与类比较具有很广泛的应用领域。如：被外资并构公司与没有被外资并构公司进行类比较；不同审计意见的公司的类比较；信用卡诈骗与非诈骗类的比较；银行优质客户中忠诚客户与转向其他银行的原优质客户的比较；等等。三、聚类分析聚类分

6、析就是根据样本之间的相似程度，将样本分成几个不同的类。如我国各城市社会经济发展程度的聚类分析，利用聚类分析研究我国女子成衣的尺寸标准。原来测量了成年女子14个部位的指标数据：上体长、手臂长、胸围、颈围总肩宽、前胸宽、后背宽、前腰节高、后腰节高、总体长、身高、下体长、腰围、臀围。经过聚类分析发现可以聚集为几类，每类主要在反映身高与反映胖瘦上有所区别，这样就可以制定几种标准尺寸，可以照顾到我国绝大多数成年女子的购衣要求。聚类分析在金融领域中有广泛应用，如根据股票价格的波动情况，可以将股票分成不同的类，总共可以分成几类，各类包含哪些股票，每一类的特征是什么，这对投资者、尤其对投资基金来说，可能就是很

7、重要的信息。聚类分析也是分类，但是要划分的类是未知的，这是聚类分析与一般判别分析的区别。聚类分析的基本原理，样本间距离的度量。距离采用绝对值距离、欧氏距离、切比雪夫距离等，其中：d（x,y）maxIx（y（丨，利用距离可以度量不同1tp样本之间的相似程度，在测量距离时，往往首先需要进行标准化变换，以消除量纲带来的影响。当指标为非数值指标时，相似程度的测量。最短距离法是测量相似程度的一种方法，利用最短距离法进行聚类分析的基本过程。采用测量相似程度的不同方法，所得到的聚类分析结果可能有所不同。在聚类分析中，希望得到的类数可以事先确定。聚类分析即可以对样本进行聚类，也可以对指标进行聚类，因此可以采用

8、这样的思路来考虑建立借款人违约概率预测模型。关联规则：关联规则是形式如下的一种蕴含或规则，XPY,其中X和Y分别是两个物品集合，这两个物品集中没有共同的物品。用于关联规则发现的对象主要是事务型数据库（transactionaldatabases），其中针对的应用则是售货数据，也称货篮数据。一个事务一般由如下几个部分组成：事务处理时间，一组顾客购买的物品（items），有时也有顾客标识号（如信用卡号）。由于条形码技术的发展，零售部门可以利用前端收款机收集存储大量的售货数据。因此，如果对这些历史事务数据进行分析，则可对顾客的购买行为提供极有价值的信息。例如，可以帮助如何摆放货架上的商品（如把顾客经

9、常同时买的商品放在一起），帮助如何规划市场（怎样相互搭配进货）。由此可见，从事务数据中发现关联规则，对于改进零售业等商业活动的决策非常重要。我们对电信行业的客户电话记录事实表作为测试数据，利用关联规则进行分析，得到较为有意义的规则。决策树是一种非常有效的机器学习分类算法。决策树方法的起源是概念学习系统CLS,然后发展到ID3方法而为高潮，最后又演化为能处理连续属性的C5.0。有名的决策树方法还有CART和Assistant。决策树学习着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的

10、分支，在决策树的叶结点得到结论。所以从根到叶结点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式规则。基于决策树的学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识（这也同时是它最大的缺点），只要训练例子能够用属性结论式的方式表达出来，就能使用该算法来学习。考虑到递归算法对大数据量而言，系统的开销较大，我们设计了非递归且能处理连续属性的决策树算法。同时，为了能使用户能清楚直观的理解产生的决策规则树，我们设计了m-叉树的画法，这两个算法在广东地税稽查案例应用中，收到良好效果。粗糙集：波兰的Z.Pawlak针对G.Frege的边界线区域思想提出了Rough集。他

11、把那些无法确认的个体都归属于边界线区域，而这种边界线区域被定义为上近似集和下近似集之差集。由于它有确定的数学公式描述，所以含糊元素数目是可以计算的，即在真假二值之间的含糊度是可以计算的。我们对粗糙集中的一种重要表示方法差别矩阵进行了拓广，提出了广义差别矩阵的表示和可变属性度量的概念。可变属性度量用于属性选取的启发式评价函数时较好地克服了粗糙集中的属性重要度方法的一个限制：由于只考虑异类对象之间的差别致使偏向于选取不同值个数多的属性。实验结果表明，在采用粗糙集技术的分类规则发现方法中使用可变属性度量方法与属性重要度方法相比，能得到更高的预测准确度和更简洁的规则。统计分析：本课题中，我们主要研究多

12、个的统计模型的综合。通过对不同的统计模型的比较和组合，可以得到更为理想的结果，同时，我们的系统中包括了常用的统计模型，应用范围方面受到的限制要少一些。我们包括的统计模型有：线性回归模型、非线性回归模型、确定型时间序列模型、随机型时间序列模型、自回归一移动平均模型（ARMA）、相关分析。神经网络：是指一类新的计算模型，它是模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型。这种计算模型的特点是，利用大量的简单计算单元（即神经元）连成网络，来实现大规模并行计算。神经网络的工作机理是通过学习，改变神经元之间的连接强度。常用的神经计算模型有多层感知机、反传网络、自适应映射网络等。在神经网络中，由

13、权重和网络的拓扑结构决定了它所能识别的模式类型。一个学习算法是用于发现给定任务的权值的程序。最流行的神经网络学习算法是BP算法（Back-propagationalgorithm）。支持向量机（SVM是一种建立在统计学习理论基础上的机器学习方法。通过学习算法，SVM可以自动寻找那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔，因而有较好的推广性能和较高的分类准确率。SVM主要思想是针对两类分类问题，在高维空间中寻找一个超平面作为两类的分割，以保证最小的分类错误率。而且SVM一个重要的优点是可以处理线性不可分的情况。用SVM实现分类，首先要从原始空间中抽取特征，将原始

14、空间中的样本映射为高维特征空间中的一个向量，以解决原始空间中线性不可分的问题。模糊聚类：通常使用基于传递闭包的方法,该方法是否失真最小在理论上缺乏保障，为解决这一问题，我们提出了基于摄动的模糊聚类方法，简称FCMBP模糊聚类。FCMBP模糊聚类比传递闭包法失真小，而且在基于模糊相似阵的模糊聚类方法中,FCMBP方法是失真最小的。FCMBP方法不仅失真最小，而且有时与传递闭包法的聚类结果还有本质差异。FCMBP方法比传递闭包法计算复杂，但聚类层次丰富。基于范例的推理（Case-BasedReasoning简称CBR）：为了解决一个新问题（目标范例TargetCase），CBR进行回忆，从记忆或范

15、例库（CaseBase）中找到一个与新问题相同或相似的源范例（SourceCase），然后把该范例的有关信息和知识进行修改就复用到新问题的求解之中，得到问题的解答。因此，这种由源范例来指导目标范例求解的方法，具有简化知识获取，通过直接复用提高求解效率，求解质量较高，适用于非计算推导的优点。考虑到存储和检索（空间和时间）的开销，CBR对海量数据是不适合的。因此，我们研究了利用Lattice、Moment理论对原始数据进行压缩、降维，改变消极学习中推迟处理的策略，积极地对数据进行综合总结，形成不同层次的不同粒度的模型。在测试的阶段，用这些模型代替原始的数据/实例，提高分类和预测的性能。贝叶斯预测：

16、贝叶斯网络是用来表示变量集合连接概率的图形模式，它提供了一种自然的表示因果信息的方法，用来发现数据间的潜在关系。在这个网络中，用节点表示变量，有向边表示变量间的依赖关系。在数据挖掘中具有以下优点：可以处理不完整和带有噪声的数据集。它用概率测度的权重来描述数据间的相关性，从而解决了数据间的不一致性，甚至是相互独立的问题；用图形的方法描述数据间的相互关系，语义清晰、可理解性强，这有助于利用数据间的因果关系进行预测分析。可视化技术：信息可视化和数据挖掘是两个可互为补充利用的相关研究领域。当信息可视化作为数据挖掘的技术之一时，同其它技术相比，它有一个独特之处：能极大地发挥用户的主动参预性。由于对数据进

17、行了可视化，用户愿意进行探索（Explore），在探索过程中有可能发现意外的知识。决策树与客户细分、客户关系管理近年来，数据挖掘成为一些企业进行客户关系管理的有力工具。比如，企业可以通过数据挖掘方式进行客户细分，从而进行更加行之有效的客户关系管理；又比如，发现潜在的优质客户、发现可能转向竞争对手的优质客户等。数据挖掘中有多种方法可用于客户细分与客户关系管理，决策树方法是其中之一，下面对此进行介绍。案例1：如何发现潜在的优质客户？基本思路：对已确定客户性质的银行客户数据，利用数据挖掘中的决策树方法可以进行优质客户细分（代表优质客户的每片叶子实际上就是优质客户的一种细分），即发现分别具有什么特征的

18、客户会成为银行的优质客户，将这些特征与新客户相对照，可以从新客户中发觉出潜在的优质客户。案例2：可能转向竞争对手的客户有哪些特征，从而需要有针对性地开展工作。案例3：对贷款违约者的细分其它方面的应用例子：不按照医嘱服药（没有服完疗程）的患者细分一类患者认为如果过多服药会产生抗药性，这会使得他们真正需要服用药物时不再那么有用，因此病情稍有好转就停止服药；一类患者根本不相信药物是安全无害的，因此他们只服用使他们的症状减轻的剂量，当他们感觉好些了就马上停止服药。数据挖掘的评分（评级）系统及其应用：使用数据挖掘方法建立预测模型后，就可以用它来预测新的数据。通常情况下，一个好的模型会被使用许多次，也可以

19、用于对不同的数据集评分。从而满足应用的需要。案例：基于新资本协议框架的银行内部评级系统构建数据库：某银行客户借贷的原始记录数据库，包含数于千计的客户信息记录：是否违约（必要时需参照新资本协议的参考定义调整分类）、申请贷款时的企业的财务指标值和其他变量指标值。构建方案1：步骤如下：数据整理；指标的聚类分析，通过SAS软件实现；各指标预测借款企业违约的信息含量测定信号、噪音差分析方法，通过数据挖掘软件实现；预测指标的选取和原始指标到信号指标的转换；基于信号数和信号预测能力的银行内部评级体系构建，按照新资本协议要求的等级数构建；确定各信用等级借款人的违约概率估计值（可以频率作为概率的估计值）；参照巴塞尔协

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘的功能及应用作业

文档简介

温馨提示

最新文档

评论

数据挖掘的功能及应用作业

文档简介

温馨提示

最新文档

评论

相关文档