两步聚类中文版详解.doc_第1页
两步聚类中文版详解.doc_第2页
两步聚类中文版详解.doc_第3页
两步聚类中文版详解.doc_第4页
两步聚类中文版详解.doc_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录第一节 摘要2第二节 介绍2第三节 统计方法2第四节 两步聚类方法的分析3第五节 案例研究7第六节 输入7第七节 输出8第八节 讨论10第九节 结论11第一节 摘要本文利用SPSS两步聚类的方法将现有的数据分为三个集群以分析银行客户的信息。对于我们的案例研究,这个方法是完美的,因为与其他经典聚类方法相比,两步聚类方法采用混合数据(包括连续和分类变量),它也发现了最优数量的集群。两步聚类方法创建三个客户的配置文件,最大的一组包括最有资历(与银行合作时间悠久)的客户,其信用卡申请的目的是教育或者公司业务。第二组主要包括拥有房产的客户,但主要是失业,他们信用卡申请的目的在于再培训或者添置家庭用品。第三组主要是包括那些拥有未知属性的人,他们申请额度的目的在于购买汽车、添置电视或者教育。本文所涉及的研究目的主要在于便于本行更好的管理以加强公司的利润空间。第二节 介绍在不同的领域中,不同的应用程都序可以使用聚类算法。然而,大多数的这些算法只处理数值数据和分类数据。然而,现实世界的数据可能包含数值和分类属性。两步聚类的方法是SPSS中解决这个问题的一个途径之一。在本文中,我们打算从一个银行提供的公共数据集中使用两部聚类的方法来确定银行客户的资料。该方法的优势在于可以确定适当数量的集群,所以我们的目标是找到这个概要文件的数量,有效地管理现有的和可能存在的客户。在下面几节中,我们介绍两步聚类的方法和案例研究中的输入、输出和结果的分析。第三节 统计方法数据分组(或数据集群)是一种方法,可以形成具有类似特征的类的对象。集群通常是与分类混淆,但有一个主要的区别,即分类时,对象被分配到预定义的类,而在集群的情况下,必须定义这些类。我们预计数据时使用集群技术自然得分组到不同的类别。集群类别的物品有很多共同的特点,例如,客户、事件等等。如果问题是复杂的,在聚类数据前,其他数据挖掘技术也可以应用(如神经网络和决策树)。经典的聚类方法使用分层或分区算法。分层算法在集群的基础之上建立集群,而分区算法在同一时间确定所有的集群,建立不同的分区,然后评估他们某些标准。在SPSS中,聚类分析可以使用两步聚类、分层集群或k - means聚类,每个方法都依赖不同的算法来创建集群。最后两个经典的分类方法是基于分层、分区的算法,而二步聚类方法在SPSS 中是特别设计和实现的方法。对于应用程序而言,考虑到不同的数据类型这种情况,分层集群方法是有限的小数据集,k - means仅限于连续值,而两步聚类方法基于连续和分类变量的情况下可以创建集群模型。接下来,我们将探讨两步聚类方法,突出其优势之处。第四节 两步聚类方法的分析两步聚类方法是设计用来分析大型数据集的算法。这个算法会用标准方法将不同的观察结果分组到不同的集群之中。这个过程会使用一个凝聚的层次聚类方法。与经典的聚类分析方法相比,两步聚类分析方法使用连续的分类属性。此外,该方法可以自动确定最优数量的集群。两步聚类分析方法的实现主要包括下面几个步骤:o 预聚类o 解决处理非典型值(异常值)- 噪声处理,可选o 聚类在预聚类步骤中,它会扫描数据记录,基于标准的距离决定当前记录是否可以添加到一个以前形成的集群或开始一个新的集群。测距的方法使用了两个类型:欧式距离和对数似然距离。预聚类过程的实现通过构建一个数据结构(称为CF(集群特性)树),其中包含集群中心。CF树有水平的节点,每个节点有一个条目的数量。叶子节点是最后的子类。对于每一个记录,从根节点开始,找到最近的子节点递归,沿着CF树下行。一旦到达一个叶子节点,该算法找到最近的叶子节点中的叶条目。如果记录的数量在一个阈值距离之内,就会记录添加到叶子节点并且CF树更新。否则,它会创建一个新的叶子节点的值。在构建CF树的过程中,该算法实现了一个可选的步骤:可以解决非典型值(异常值)。离群值被认为并不能很好的适合任何集群的一个记录。在SPSS,在一片叶子中如果记录的数量小于一定比例的规模最大的CF树中的叶子条目就会被认为是离群值;默认情况下,这个比例是25%。在重建CF树之前,会搜索潜在的典型值,将他们放在一边。CF树重建后,程序检查这些值是否恰当,是否可以不增加树的大小。最后,值不恰当会被认为是离群值。如果CF树超过允许的最大尺寸,它会基于现有的CF树,通过增加阈值距离重建CF树,。新的CF树会小很多,也允许输入新的记录。预聚类作为输入的一个步骤会产生有子类的聚类(没有噪声,如果你选择了处理非典型值这个选项)并且组成有价值的聚类的数量。因为子类的数量远小于初始时的记录数量,因此经典的聚类方法可以成功地使用。两步聚类方法使用一个凝结的自动分层方法决定了集群的数量。层次聚类方法是指集群不断融合的过程,直到一个集群组包括所有的记录。这个过程始于为每个子集定义一个初始集群。然后,所有集群进行比较并且集群之间的距离是最小的两个集群会合并成一个集群。这个过程会一直重复直到所有集群已经合并。因此,它是相当简单的比较不同数量的集群解决方案。计算集群之间的距离,可以使用欧式距离和对数似然距离。欧式距离只有所有变量是连续的情况下可以使用。欧式距离是在m维空间中两个点的真实距离。对于集群来说,两个集群之间中心之间的距离被定义为欧式距离。集群中心被定义为集群中变量的容器。可以使用对数似然距离来分析连续和分类变量。两个集群之间的距离与似然函数的自然对数的减少是相关的,因此他们会被分组到一个集群。计算对数似然距离,假定连续变量正态分布和分类变量的多项式分布,以及变量是相互独立的。定义i和j两个集群之间的距离为: 其中在公式(2)中是i和j两个集群之间的距离;索引代表通过集群i和j的结合后生成的新的集群;是所有连续变量的总数;是所有分组变量的总数;是第k个分类变量的数量;是S集群中所有数据记录的数量;是S集群的数量,分类变量k分成了l个分组;是分组变量k分成l个分组的记录的数量;对整个数据集来说,是对连续变量k的方差(离散)的估计,在集群j中,对于连续变量k的方差估计。为了自动确定集群的数量,该方法使用两个阶段。在第一个阶段,指示器BIC(施瓦兹-贝叶斯准则)或AIC(Akaike准则)计算为每个集群从一个指定范围中计算数量;然后这个指示器用于寻找一个初始估计集群的数量。对于J集群,两个指示器通过公式(4)和(5)计算得出,过程如下其中变量的相对贡献形成了集群计算的两种类型的变量(连续和分类)。连续变量的重要性的衡量标准是基于:在这个公式中:是连续变量估计值的意思,并且是集群j中连续变量k的估计值。在H0(零假设),重要性衡量中学生分布呈Nk-1的自由度分布。显著性水平是双侧的。对于分组变量,重要性衡量是建立在X2的基础上的:在零假设中,作为一个X2和LK的自由度。对于项目的集群成员,记录被分配用于解决非典型值的规范(噪声)和选择测量的距离。如果解决非典型值的选择不使用,根据距离测量的方法,值会分配给最近的集群中。否则,该值是区别对待的,如下:1) 在欧几里得的方法的情况下,一个项目被分配到最近的集群,如果它们之间的距离小于临界值:否则,该项目被声明为噪声(异常)2) 如果选择对数似然方法,它假定噪声均匀分布,并且计算对数似然对应于一个有噪声项目且分配到最近的无噪声集群。然后,项目分配给集群获得对数的最高价值。这相当于将一个项目分配给最近的集群,如果它们之间的距离小于临界值。否则,项目被指定为噪音。总之,该方法的一个重要优点是它与混合数据操作(包括连续和分类数据)。另一个优势是,尽管两步聚类方法处理大型数据集,就所需处理这些数据的时间而言,这种方法比其他方法需要更短的时间。缺点是两步聚类方法不允许丢失值且缺失值的项目不考虑分析第五节 案例研究自从两步聚类方法开始成为大型数据集和处理混合数据的首选后,我们应用此方法并使用一些从银行获取的的公共数据聚类数据。(另一方面,这些数据被用在另一个应用程序来减少维度应用PCA(主成分分析)。并在下文给出了该方法的输入和输出。第六节 输入供给我们研究的数据集是从一家银行提供的公共数据库中的信息,数据真实可靠,在SPSS中,大致有14000条记录。这个表包含信用卡还款的的持续时间信息,信用历史,信用卡申请用途,信贷金额,储蓄账户,工龄,还款周期,个人状态、居住权、财产、年龄、住房、银行信用额度,工作,家属和信用批准状态等等。表1中给出这个数据的一部分。数据库包含3个分类变量和4个连续变量。默认情况下,连续变量被标准化。因为我们使用混合数据,我们在距离度量上只有对数似然的选择。在第一次运行,我们选择BIC确定聚类的数量,虽然我们可以重写此步骤并指定一个固定的数字。但是结果使用AIC运行是和BIC运行结果是一致的,所以目前我们使用BIC指标。关于对于我们数据集的噪声处理方面,我们决定不检查噪声。异常值定义为在CF树的情况下,其他的叶子不超过规定的最大叶大小的百分比。通过SPSS软件的一个重要选择是XML格式的CF树或整个模型的导出。这允许模型进行更新,以增加额外的数据集。第7节 输出1.点击“分析|分类|两步聚类”命令,弹出“二阶聚类分析”对话框,如下所示 2.将个人税前年收入,申请人申请信用额度和工龄拖入分类变量中,并且将如下变量拖入连续变量中,账户信用额度、教育程度、申请日年龄、卡片最高卡种等级。3.在距离变量对话框中选择“对数相似值”4.在聚类数量中选择“指定固定值”5.在聚类准备中,选择“施瓦兹贝叶斯准则”。6.本案例不选择噪声处理7.点击确定,出现如下多个图表。在SPSS中,自动聚类统计表可以用来评估我们的分析中最佳聚类的数量,如表2所示表2 在表2中,虽然最低的BIC系数是四簇,根据统计算法,最佳聚类数是三,因为距离最大的比率是三簇。集群分布如表3所示。表3 图1所示的群集饼图显示了我们三个集群解决方案的相对大小。 图1对于分类变量,集群内的百分比图显示了每个变量在每个集群内是如何分裂。在图2中,它显示了三个簇中每个变量的占比。 图2第八节 讨论:经过两步聚类的方法,我们得出以下结论。第一集群,其中占比19.4%,其中包含的主要是单一的男性客户,占据管理职位(34.5%)或失业(27.3%),他们有未知的属性并且他们的信用卡申请通过率是一个小百分比(11.9%)。集群2占比24.9%,包含女性或已婚男性客户(54.6%),主要是失业(54.5%)或非技术(47.5%),而他们申请信用卡的目的是购置设备,再培训(因为失业所以再培训以寻找新的工作)和购买家具。最重要的集群是第三集群。这是最大的集群(55.7%),其中大部分是单身男性或离婚的男性客户,拥有最大的储蓄账户,占管理职位(54.7%)或技术工人(50.6%),有良好的信用的历史,信用卡申请的目的是为业务,汽车(新的或二手的),或教育;他们有自己的住房(65.1%),故他们的信用卡申请的通过率是在一个大的百分比(55.9%)。第九节 结论聚类方法可以使用大量的数据来应用于各种领域,只是为了寻找隐藏的模式。由于大多数来自现实世界的数据(如在银行领域,本文所涉及的分析案例)包含的数值和分类属性,经典的聚类算法不能在大量数据的情况下有效地分析。为了解决这个问

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论