




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多元分析参考资料李卫东:应用多元统计分析王静敏:多元统计分析方法SPSS软件应用主要内容1 概述2 多元分析的描述性统计3多元分析方法及SPSS实现1 概述多元数据的广泛存在企业文化:领导风格、能力绩效导向、人际和谐、凝聚力卓越创新、组织学习、文化认同人格特质:外向性、接纳性、责任感、情绪稳定性、开放性自我价值感:自我评价、自我感受、自我价值判断、自我体验、人格倾向1 概述定义多元分析也叫多变量统计分析,以多维数据集合为对象,进行统计数据的收集、整理、显示、分析,以揭示各类现象内在数量规律性的理论和方法。2 多元分析的描述性统计多元分析的数据结构n个样品p个变量的数据n个样品 (样本点/cas
2、e)p个变量 (指标/variable) 变量1 变量2 . 变量p样品1样品2样品n2 多元分析的描述性统计描述统计量均值向量方差和协方差矩阵相关系数矩阵图形散点矩阵图轮廓图闪电图雷达图2.1 描述统计量方差和协方差矩阵方差表示变量离散程度,协方差变量间的协同关系变量k的方差变量i和变量k的协方差当i=k时2.1 描述统计量相关系数矩阵第i个和第k个变量的相关系数为相关系数是协方差的标准化形式;相关系数的取值在-1到+1之间;相关系数衡量的是变量间线性关系的强度2.2 图形散点矩阵图多个变量之间的关系轮廓图闪电图雷达图可以很直观进行样品间的比较,并且可以用于样品的初步分组和验证聚类分析的结果
3、n很小,p比较大2.2 图形轮廓图横坐标取p个点,表示p个变量;对于某一样品,纵坐标表示每个变量的取值,将p个点用直线连起来;依次画n个样品的图。2.2 图形闪电图类似于轮廓图旋转90度直观上便于各样品之间的比较3多元分析方法及SPSS实现聚类分析判别分析主成分分析3.1 聚类分析聚类分析是根据“物以类聚”的道理,对样品或变量进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性进行分类,事先没有任何模式可供参考或依据,即是在没有先验知识的情况下进行的。其基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大
4、。3.1 聚类分析变量按测量尺度分类间隔尺度变量(定量)连续变量,如长度、重量、速度、温度等有序尺度变量(定性)等级变量,不可加,但可比,如一等品、二等品、三等品名义尺度变量(定性)类别变量,不可加也不可比,如性别、职业等3.1 聚类分析聚类分析的分类距离Q型聚类相似系数R型聚类聚类的方法系统聚类法动态聚类法有序样品聚类法3.1 聚类分析的主要步骤选择变量计算相似性(距离、相似系数)聚类聚类结果的解释3.1.1 距离Q型聚类主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的分类)明氏距离(包括:绝对距离、欧氏距离、切比雪夫距离)兰氏距离马氏距离3.1.1 距离Q型聚类数据的变换方法中心
5、化变换标准化变换(Z分数)对数变换3.1.1 距离Q型聚类距离明氏距离3.1.1 距离Q型聚类距离马氏距离马氏距离又称为广义欧式距离。马氏距离考虑了观测变量之间的相关性,而且也考虑了各个观测指标取值的差异程度,它消除了各观测变量不同量纲的影响。由于计算马氏距离需要计算协方差阵,在实际中效果不是很好,因而,在实际聚类分析中,马氏距离也不是理想的距离。通常人们仍喜欢应用欧氏距离进行聚类。3.1.1 距离Q型聚类距离定性变量样品间的距离:3.1.2 相似系数R型聚类主要用于对变量分类常用的相似系数有:夹角余弦皮尔逊相关系数3.1.2 相似系数R型聚类夹角余弦Pearson相关系数3.1.3 系统聚类
6、法初始每个样本自成一类,并规定样品间的距离和类与类间的距离;然后距离最近的两类合并成为新类,并计算新类与其它类间的距离;接下去再将最近小类聚成一类,如此反复,直到所有样本聚成一类为止。3.1.3 系统聚类法基本步骤计算n个样品两两间的距离,构成距离矩阵,记作D(0)。n个样品自成一类,类与类间的距离与样品间的距离相同(除离差平方和外),即D(1) = D(0) 。合并距离最近的两类为一新类。计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。画聚类图。决定类的个数,及各类包含的样品数。3.1.3 系统聚类法类间距离最短距离法最长距离法重心法类平均法Ward最小方差法
7、3.1.3 系统聚类法类间距离S1S3S2S4S5最短距离(single linkage)最长距离(complete linkage)3.1.3 系统聚类法类间距离S1S3S4S53.1.3 系统聚类法类间距离S1S3S2S4S5重心间距离(centroid)3.1.3 系统聚类法类间距离S1S3S2S4S5平均距离(average)3.1.3 系统聚类法类间距离离差平方和法(Ward法)同一类内样品的离差平方和应该较小,不同类之间样品的离差平方和应该较大必须采用平方欧氏距离两类合并后增加的离差平方和为类间的平方距离。6个不同民族的标化死亡率与出生时的期望寿命 民族原始数据标准化数据标化死亡率
8、()出生时期望寿命(岁)标化死亡率()出生时期望寿命(岁)满族 5.8070.59-1.59 1.44朝鲜族 7.4467.14-0.62 0.73蒙古族 8.1165.48-0.22 0.38维吾尔族10.2158.88 1.03-0.99藏族 9.5159.24 0.61-0.91哈萨克族 9.81 60.47 0.79-0.66均数8.480063.6333 0.00 0.00标准差1.68664.8167 1.00 1.00各民族之间的欧氏距离(标准化资料)D(1)满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1=S1G2=S2G3=S3G4=S4G5=S5G6=S6满族G1=S10朝鲜族G2
9、=S21.2080蒙古族G3=S31.7320.5260维吾尔族G4=S43.5702.3741.8510藏族G5=S53.2242.0481.5390.4220哈萨克族G6=S63.1731.9731.4480.4060.3110最短距离系统聚类D(2) G1=S1G2=S2G3=S3G4=S4G7=S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S63.1731.9731.4480.4060最短距离系统聚类D(3)G1=S1G2=S2G3=S3G8=S4,S5,S6G1=S10G2=S21.2080G3=S3
10、1.7320.5260G8=S4,S5,S63.1731.9731.4480最短距离系统聚类D(4)G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.2080G8=S4,S5,S63.1731.4480最短距离系统聚类D(5)G10=S1,S2,S3G8= S4,S5,S6G10=S1,S2,S3 0G8= S4,S5,S61.4480谱系聚类图(最短距离法) 藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族 Dendrograms (cluster trees) 0.3110.4060.5261.2081.448最长距离系统聚类各民族之间的欧氏距离(标准化资料)D(
11、1)满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1=S1G2=S2G3=S3G4=S4G5=S5G6=S6满族G1=S10朝鲜族G2=S21.2080蒙古族G3=S31.7320.5260维吾尔族G4=S43.5702.3741.8510藏族G5=S53.2242.0481.5390.4220哈萨克族G6=S63.1731.9731.4480.4060.3110最长距离系统聚类D(2) G1=S1G2=S2G3=S3G4=S4G7=S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G4=S43.5702.3741.8510G7=S5,S63.2242.0481.5390.4
12、220最长距离系统聚类D(3)G1=S1G2=S2G3=S3G8=S4,S5,S6G1=S10G2=S21.2080G3=S31.7320.5260G8=S4,S5,S63.5702.3741.8510最长距离系统聚类D(4)G1=S1G9=S2,S3G8=S4,S5,S6G1=S10G9=S2,S31.7320G8=S4,S5,S63.5702.3740最长距离系统聚类D(5)G10=S1,S2,S3G8= S4,S5,S6G10=S1,S2,S3 0G8= S4,S5,S63.5700谱系聚类图(最长距离法) 藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族 Dendrograms (clus
13、ter trees) 0.3110.4220.5261.7323.570最段距离与最长距离差异最长距离与最短距离的并类步骤完全一致,也是将各样品先自成一类,然后将非对角线上最小元素对应的两类合并。最长距离与最短距离只有两点不同:类与类之间的距离定义不同计算新类与其他类的距离所用的公式不同3.1.3 系统聚类法类个数的确定观察谱系聚类图直观确定由适当的阀值确定藏族哈萨克族 维吾尔族 朝鲜族 蒙古族 满族 0.3110.4220.5261.7323.5703.1.3 动态聚类法最终分类选凝聚点初始分类分类是否合理修改分类3.1.3 动态聚类法凝聚点的选择凝聚点就是一批有代表性的点,是欲形成类的中心
14、。凝聚点的 选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点 的不同选择,其最终分类结果也将出现不同。3.1.3 动态聚类法凝聚点的选择3.1.3 动态聚类法初始分类人为地分类,凭经验将样品进行初步分类选择凝聚点后,每个样品按与其距离最近的凝聚点归类选择一批凝聚点后,每个凝聚点自成一类,将样品一次归入其距离最近的凝聚点,并立即重新计算该类的中心,以此替代原来的凝聚点,再计算下一个样品的分类,直到所有样品都归类为止3.1.3 动态聚类法修改分类K均值法(K-Means)人为指定分类数k,凝聚点取前K个样品对剩下的n-k个样品,分别计算每个样品到凝聚点的距离,将每个样品归入最近的凝聚点的
15、那一类。这时归类方法有:将n-k个样品逐个进入,每当把一个样品归入某类后,立即重新计算该类的重心,将重心作为新的凝聚点。这个方法也称为逐个修改法。将n-k个样品一次全部归入k个类,然后计算各类的重心,作为新的凝聚点。计算每个点的密度(半径=d)确定初始凝聚点,初始分类调整重心,修改分类聚类分析的spss实现第一类:北京、天津、上海文化程度较高的地区第三类:12安徽、23贵州、24云南、27甘肃、28青海、29宁夏文化程度较落后的地区第四类:25西藏文化程度最落后的地区第二类:其他省、市、自治区文化程度中等水平的地区3.2 判别分析判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,
16、是一种在已知研究对象用某种方法分成若干类的情况下,确定新样品的观测数据,判定新样品所属类别的方法。总体G1,G2所测量的变量X1.肿瘤良性与恶性肿瘤的大小、生长速度、质地2.是高鹗写与不是高鹗写句子的长度、某些词语的出现频率3.两年内企业破产与不破产某些财务变量4.新产品的速购者与迟购者教育、收入、家庭大小、曾更换品牌的次数5.有偿付力与无偿付力的保险公司总资产、股票与债券价值、签订的保付金额等3.2 判别分析3.2 判别分析判别分析与聚类分析不同。判别分析要求具有一定的先验信息,是在一直研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,然后在此基础上根据某些准则建立判别
17、式,然后对未知类型的样品进行判别分类。对于聚类分析来说,对于一批给定样品要划分的类型事先并无先验信息,需要通过聚类分析以确定分类。因此,判别分析和聚类分析往往联合起来使用,例如判别分析要求先知道各类总体情况才能判断新样品的归类。当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式对新样品进行判别。3.2 判别分析基本步骤已知k个总体G1,G2,Gk。确立判别准则根据训练样品建立判别函数根据判别函数对待判样品进行归类3.2 判别分析判别准则:用于衡量新样品与各已知组别接近程度的思路原则常用的有:距离准则、Fisher准则、贝叶斯准则判别函数:基于一定的判别准则计
18、算出的用于衡量新样品与各已知组别接近程度的描述指标3.2 判别分析按照判别组数划分有两组判别分析和多组判别分析; 按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析; 按照处理变量的方法不同有逐步判别、序贯判别等; 按照判别准则来分有距离准则、费希尔准则与贝叶斯判别准则。3.2 判别分析判别方法距离判别法(距离准则)费希尔判别法(费希尔准则)贝叶斯判别法(贝叶斯准则)3.2.1 距离判别法基本思想:按就近原则归类判别准则:根据已知分类的数据,分别计算各类的重心;对于任给一次观测值,若它与第 i 类的重心距离最近,就认为它来自于第i 类。马氏距离3.2.2 费希尔判别基本思想:投影
19、判别准则:即把K类的m维数据投影(变换)到某一个方向;判别的结果应该使类间区别最大,使类内部离散性最小通常用于两类判别3.2.1 费希尔(Fisher)判别YXL=b1X+b2YG1G23.2.2 费希尔判别判别函数设有A、B两个总体,分别有n1和n2个历史样本数据,每个样本有p个观测指标,每个样本可看作p维空间中的一点。Fisher借助于方差分析的思想构造一个线性判别函数:3.2.2 贝叶斯判别法基本思想考虑总体出现的概率的 (先验概率)判别准则:计算被判样本 x 属于 k 个总体的条件概率P(n|x) (n=1,2.k)(后验概率). 比较 k 个概率的大小,将样本判归为来自出现概率最大的
20、总体(或归属于错判概率最小的总体)的判别方法.3.2.2 贝叶斯判别法确定先验概率先验概率表示对各总体的先知认识。先验概率并不容易获得,下面介绍几种获得先验概率的方法:基于经验或者历史资料进行估计利用训练样本中各种样品所占的比例假定q1 = q2 = qk =1/k 办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2。一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人? 3.2.2 贝叶斯判别法确定后验概率B
21、ayes公式:3.2.2 贝叶斯判别法判别函数判别分析的spss实现类别国家名称出生时预期寿命(岁)成人识字率(%)人均GDP(美元)(发达国家)美国76.099.08374.00日本79.599.05359.00瑞士78.099.05372.00阿根廷72.195.95254.00阿联酋73.877.75370.00(发展中国家)保加利亚71.293.04250.00古巴75.394.93412.00巴拉圭70.091.23390.00格鲁吉亚72.899.02300.00南非62.980.63799.00待判样品中国68.579.31950.00罗马尼亚69.996.92840.00希腊7
22、7.693.85233.00哥伦比亚69.390.35158.00Bayes判别函数:Y1=6.053X1-0.606X2+0.008X3-225.216Y2=5.295X1-0.380X2+0.005X3-178.921Fisher判别函数:Y=0.24X1-0.072X2+0.001X3-14.6773.2 主成分分析主成分分析又称主分量分析,通过线性变换,将多个指标化为少数几个综合指标的统计分析方法。变量之间有一定的相关性,主成分分析可将相关的指标化为一些不相关的指标,避免了信息重叠带来的虚假性。另外,变量太多会增大计算量和增加分析问题的复杂性。3.2 主成分分析一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后,竟以9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 综合安全培训
- 二零二五年度能源项目评审合同节能减排
- 二零二五年度员工期权激励计划执行与退出协议
- 二零二五年度艺人经纪违约金赔偿及违约责任界定合同
- 二零二五年家庭内部遗产继承遗产继承权法律咨询协议
- 门诊的护理礼仪规范
- 二零二五年度家庭私人家教全方位培养计划协议
- 管理学中的决策
- 编程流程图画法
- 中国球墨铸铁市场发展态势与前景策略分析报告2025-2030年
- GB/T 15934-2008电器附件电线组件和互连电线组件
- GA/T 765-2020人血红蛋白检测金标试剂条法
- 第2章-西周-春秋战国时期的音乐-1-3节课件
- 提高白云石配比对烧结生产的影响
- 公安基础知识考试题库(含各题型)
- 选矿试车方案
- 小课题专题研究参考题目
- 《最好的未来》合唱曲谱
- GB∕T 8081-2018 天然生胶 技术分级橡胶(TSR)规格导则
- 教学课件个人理财-2
- 航空航天概论(课堂PPT)
评论
0/150
提交评论