第4讲 聚类分析及其在金融运用_第1页
第4讲 聚类分析及其在金融运用_第2页
第4讲 聚类分析及其在金融运用_第3页
第4讲 聚类分析及其在金融运用_第4页
第4讲 聚类分析及其在金融运用_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

聚类分析及其在金融运用第四讲章前导读在大数据时代中,如何从庞杂的数据资源中挖掘优质信息成为重要问题。01大数据聚类是数据密集型科学的基础性、普遍性问题,是数据分析的重要基础,聚类分析就是数据挖掘的实用方法之一。02聚类分析是何概念?有哪些具体的分析方法?其在各领域尤其是金融领域是怎样应用的?03CONTENT聚类的基本概念聚类的原理与算法聚类的金融案例目

录01聚类的基本概念聚类分析(clusterAnalysis)指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类所要求划分的类是未知的。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析方法基于划分的聚类算法对散点进行聚类,挑选几个点作为初始中心点,根据一定规则迭代重置聚类中心点;适用于小规模数据。K-means:计算样本点与类簇质心的距离,与类簇质心相近的样本点划分为同一类簇,通过样本间的距离来衡量相似度。K质心:选择原有样本中的样本点作为代表对象来代表这个簇,计算剩下的样本点与代表对象的距离,将样本点划分到与其距离最近的代表对象所在的簇中。基于层次的聚类算法平衡迭代削减聚类法:构建聚类特征树,利用树结构快速聚类。基于层次的聚类算法该算法能够用于挖掘任意形状的簇,并且能有效过滤掉噪声样本对于聚类结果的影响。DBSCAN:将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,将簇定义为密度相连的点的最大集合。聚类分析方法商业领域——面向客户确定客户群描绘客户特征定制化客户管理其他领域动植物聚类、基因聚类,获取对种群固有结构的认识压缩图片、影像,修复文档20XX年创收指标和业务完成情况股票投资策略分析股票内在价值投资策略投资风险等聚类的金融应用场景金融机构资产配置业务收益业务条线偏好平均期限等精准营销策略制定客户基本特征消费习惯风险偏好等02聚类的原理与算法聚类的原理与算法K均值系列算法K-meansK质心层次聚类算法平衡迭代削减聚类法平衡迭代削减聚类法基于密度的聚类算法DBSCAN算法(1)K均值系列算法:K-meansK-Means算法是计算样本点与类簇质心的距离,与类簇质心相近的样本点划分为同一类簇。对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。聚类迭代过程步

骤01020304选择若干个初始质心,初始质心随机选择即可,每一个质心为一个类。对剩余的每个样本点计算它们到各个质心的欧式距离,并将其归入到相互间距离最小的质心所在的簇。计算各个新簇的质心。在所有样本点都划分完毕后,根据划分情况重新计算各个簇的质心所在位置,然后迭代计算各个样本点到各簇质心的距离,对所有样本点重新进行划分。重复步骤(2)和(3)直到质心不再发生变化。(1)K均值系列算法:K质心01/PartK质心算法通过选择原有样本中的样本点作为代表对象来代表这个簇,计算剩下的样本点与代表对象的距离,将样本点划分到与其距离最近的代表对象所在的簇中。02/Part该算法减小了由于异常数据的严重离群所引起的平均值偏离,克服了原有K-means算法容易受异常数据影响的缺点。03/Part当数据存在离群点和噪音点时,K质心算法要比K均值算法更加稳健。步

骤01020304任意选取K个点作为质心。按照与质心最近的原则,将剩余点分配到当前最佳的质心代表的类中。在每一个类中,计算每个成员点对应的准则函数,选取准则函数最小时对应的点作为新的质心(其中准则函数为每一类中某个成员点和其他成员点的距离之和)。重复步骤(2)和(3),直到所有的质心点不再发生变化。也称系统聚类(2)层次聚类算法首先计算网络节点间的相似性或距离;然后采用单连接层次聚类或全连接层次聚类将网络节点组成一个树状图层次结构。聚合聚类(自下而上):层次凝聚聚类算法、平衡迭代削减聚类法分裂聚类(自上而下):分裂的层次聚类算法最后根据树状结构划分类别。单连接vs全连接单连接两个类间的距离定义为一个类的所有实例到另一个类的所有实例之间最短的那个距离。(A1,B1)。全连接两个类间的距离定义为一个类的所有实例到另一个类的所有实例之间最长的那个距离。(B1,C1)。平衡迭代削减聚类法主要步骤如下适用数据量大、类别数较多的情况;1.将所有的样本一次读入,在内存中建立一颗聚类特征树;利用聚类特征树快速聚类,每一个节点是由若干个聚类特征组成;2.将第一步建立的聚类特征树进行筛选,去除一些异常聚类特征节点,对于一些超球体距离非常近的元组进行合并;3.利用其他聚类算法对所有的聚类特征元组进行聚类,得到一颗较好的聚类特征树;4.利用(3)生成的聚类特征树的所有聚类特征节点的质心,作为初始质心点,对所有的样本点按距离远近进行聚类。层次凝聚聚类算法将每个对象作为一个簇,根据准则一步步合并这些簇,反复进行直到所有的对象最终满足给定的簇数目。01020304对象作为一个簇,根据准则一步步合。计算任意两个簇的距离,并找到最近的两个簇。合并两个簇,生成新的簇的集合。直到终止条件得到满足。(3)基于密度的聚类算法:DBSCAN01DBSCAN算法一般假定类别可以通过样本分布的紧密程度(密度)决定;02该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合;03基于密度的聚类算法是根据密度而不是距离来计算样本相似度,所以基于密度的聚类算法能够用于挖掘任意形状的簇,且能够有效过滤掉噪声样本。定义描述DBSCAN算法是基于一组邻域来描述样本集的紧密程度的,参数用来描述邻域的样本分布紧密程度。01ϵ邻域给定对象半径ϵ内的区域称为该对象的ϵ邻域。02核心对象对于任意一个样本,如果其ϵ邻域对应的样本点数大于等于MinPts,则该对象是核心对象。03密度直达

04密度可达

法01任意选择一个没有类别的核心对象作为种子。020304通过计算找到所有这个核心对象能够密度可达的样本集合,即为一个聚类簇

。继续选择另一个没有类别的核心对象去寻找密度可达的样本集合,得到另一个聚类簇

。按照此方法一直运行到所有核心对象都有所在类别为止。Python代码03聚类的金融案例案例1:银行客户分群案例

已知一组企业的财务数据

银行需要有针对性地推荐服务:负债类业务资产类业务

试分析应该如何聚类?财务指标企业财务指标流动比率有形资产比率净资产收益率速动比率流动负债比率投入资本回报率现金比率经营负债比率营业毛利率资产负债率应收账款收入比营业利润率长期借款总资产比存货与收入比营业收入现金含量有形资产负债率资产报酬率营业收入增长率固定资产比率总资产净利润率所有者权益增长率市盈率市净率托宾Q值聚

类确定需求选择合适的字段(变量)提取主要因子,利用因子进行聚类分析结果必要的时候可以降维聚类前对不同变量进行标准化的处理引流、用户画像和精准营销在实际问题中如何聚类?因子特征值的改变从第四个因子变得平缓;因此,选择前三个因子作为最终的指标

。碎石图系数排序因子1因子2因子31流动比率投入资本回报率流动负债比率2速动比率总资产净利润率经营负债比率3现金比率净资产收益率托宾Q值第一个因子流动比率、速动比率、现金比率等指标的权重高;第二个因子资产报酬率、净资产收益率的权重高;第三个因子流动负债比率和经营负债比率的权重高。排序表不同企业的聚类散点图如下所示:绘

图类偿债能力盈利能力杠杆率业务类型业务示例1低低低高流动性负债类业务存款2中高中高风险资产类业务发债3高中高低风险资产类业务贷款4中低中低流动性负债类业务理财服务推荐案例2:探究居民消费指数的异质性基于如下家庭数据进行聚类,并分别提供财务规划建议:收入、收入结构支出、支出结构对风险的感知金融知识……数

据消费类别平均值(%)标准差(%)观测值食品烟酒32.3612.095,247衣着8.986.065,247居住23.5212.725,247生活用品及服务6.335.935,247交通通信9.609.425,247教育文化娱乐10.3210.385,247医疗保健6.469.425,247其他用品和服务2.433.835,247聚类:K-means消费类别温饱型(%)务实型(%)服务型(%)食品烟酒

46.5226.3426.49衣着9.108.009.84居住18.8935.2215.93生活用品及服务5.736.147.01交通通信7.5811.419.50教育文化娱乐5.056.1818.75医疗保健5.094.799.25其他用品和服务2.051.923.24观测值1,5521,8281,867描述性统计温饱型务实型服务型可支配收入67,21795,88695,889年龄44.0143.6239.68教育程度4.014.824.92新婚(%)32.9931.7320.89观测值1,5521,8281,867结

论010203温饱型家庭用于食品类的消费高达46.5%与其较低的可支配收入水平有着紧密的联系。温饱型家庭的年可支配收入平均为6万7千元,相比较于其他两类家庭的年收入低了大约2万8千元。务实型家庭用于食品类的消费占比在26.4%左右,居住和交通通信总占比约为46.6%,平均年龄在44岁左右,大约有32%的家庭是新婚家庭。服务型家庭用于食品类的消费占比在26.4%左右,服务类总占比约为39%,平均年龄在40岁左右,只有约21%的家庭是新婚家庭。本章小结聚类分析是用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类簇,从而

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论