多元统计分析_第1页
多元统计分析_第2页
多元统计分析_第3页
多元统计分析_第4页
多元统计分析_第5页
已阅读5页,还剩97页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元分析参考资料李卫东:应用多元统计分析王静敏:多元统计分析方法—SPSS软件应用主要内容§1概述§2多元分析的描述性统计§3多元分析方法及SPSS实现§1概述多元数据的广泛存在企业文化:领导风格、能力绩效导向、人际和谐、凝聚力卓越创新、组织学习、文化认同………人格特质:外向性、接纳性、责任感、情绪稳定性、开放性自我价值感:自我评价、自我感受、自我价值判断、自我体验、人格倾向§1概述定义多元分析也叫多变量统计分析,以多维数据集合为对象,进行统计数据的收集、整理、显示、分析,以揭示各类现象内在数量规律性的理论和方法。问题内容方法数据或结构性化简尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析分类和组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。判别分析、聚类分析、主成分分析、可视化分析变量之间的相关关系变量之间是否存在相关关系,相关关系又是怎样体现。多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析预测与决策通过统计模型或最优准则,对未来进行预见或判断。多元回归、判别分析、聚类分析、可视化分析假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。多元总体参数估计、假设检验§2多元分析的描述性统计多元分析的数据结构n个样品p个变量的数据n个样品(样本点/case)p个变量(指标/variable)

变量1变量2….

变量p样品1样品2……样品n§2多元分析的描述性统计描述统计量均值向量方差和协方差矩阵相关系数矩阵图形散点矩阵图轮廓图闪电图雷达图§2.1描述统计量—均值向量集中趋势,平均水平第K个变量的平均值第一个变量的平均值P个变量的均值向量k=1,2,…,p§2.1描述统计量—方差和协方差矩阵方差表示变量离散程度,协方差变量间的协同关系变量k的方差变量i和变量k的协方差当i=k时§2.1描述统计量—相关系数矩阵第i个和第k个变量的相关系数为相关系数是协方差的标准化形式;相关系数的取值在-1到+1之间;相关系数衡量的是变量间线性关系的强度§2.2图形散点矩阵图——多个变量之间的关系轮廓图闪电图雷达图可以很直观进行样品间的比较,并且可以用于样品的初步分组和验证聚类分析的结果n很小,p比较大§2.2图形—散点矩阵图p=2时,可以用散点图表示两个变量之间的关系p>2时,对p个变量两两配对生成散点图矩阵§2.2图形—轮廓图横坐标取p个点,表示p个变量;对于某一样品,纵坐标表示每个变量的取值,将p个点用直线连起来;依次画n个样品的图。§2.2图形—闪电图类似于轮廓图旋转90度直观上便于各样品之间的比较§2.2图形—雷达图作一圆,将圆周p等分连接圆心和各分点,这p条半径即为p个坐标轴将每一个样品的p个变量取值分别标注在p个坐标轴上用直线连接成p边形n个样品即有n个p边形§3多元分析方法及SPSS实现聚类分析判别分析主成分分析§3.1聚类分析聚类分析是根据“物以类聚”的道理,对样品或变量进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性进行分类,事先没有任何模式可供参考或依据,即是在没有先验知识的情况下进行的。其基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。§3.1聚类分析变量按测量尺度分类间隔尺度变量(定量)连续变量,如长度、重量、速度、温度等有序尺度变量(定性)等级变量,不可加,但可比,如一等品、二等品、三等品名义尺度变量(定性)类别变量,不可加也不可比,如性别、职业等§3.1聚类分析聚类分析的分类距离Q型聚类相似系数R型聚类聚类的方法系统聚类法动态聚类法有序样品聚类法§3.1聚类分析的主要步骤选择变量计算相似性(距离、相似系数)聚类聚类结果的解释§3.1.1距离Q型聚类主要用于对样本分类常用的距离有(只适用于具有间隔尺度变量的分类)明氏距离(包括:绝对距离、欧氏距离、切比雪夫距离)兰氏距离马氏距离§3.1.1距离Q型聚类—数据的变换方法§3.1.1距离Q型聚类—数据的变换方法中心化变换标准化变换(Z分数)对数变换§3.1.1距离Q型聚类—距离明氏距离§3.1.1距离Q型聚类—距离兰氏距离这是无量纲的量,由于它对大的奇异值不敏感,这样使得它特别适合于高度偏倚的数据。虽然这个距离有助于克服明氏距离的第一个缺点,但它也没有考虑指标之间的相关性。§3.1.1距离Q型聚类—距离马氏距离马氏距离又称为广义欧式距离。马氏距离考虑了观测变量之间的相关性,而且也考虑了各个观测指标取值的差异程度,它消除了各观测变量不同量纲的影响。由于计算马氏距离需要计算协方差阵,在实际中效果不是很好,因而,在实际聚类分析中,马氏距离也不是理想的距离。通常人们仍喜欢应用欧氏距离进行聚类。§3.1.1距离Q型聚类—距离定性变量样品间的距离:§3.1.2相似系数R型聚类主要用于对变量分类常用的相似系数有:夹角余弦皮尔逊相关系数§3.1.2相似系数R型聚类夹角余弦Pearson相关系数§3.1.3系统聚类法初始每个样本自成一类,并规定样品间的距离和类与类间的距离;然后距离最近的两类合并成为新类,并计算新类与其它类间的距离;接下去再将最近小类聚成一类,如此反复,直到所有样本聚成一类为止。§3.1.3系统聚类法—基本步骤计算n个样品两两间的距离,构成距离矩阵,记作D(0)。n个样品自成一类,类与类间的距离与样品间的距离相同(除离差平方和外),即D(1)

=D(0)。合并距离最近的两类为一新类。计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。画聚类图。决定类的个数,及各类包含的样品数。§3.1.3系统聚类法—类间距离最短距离法最长距离法重心法类平均法Ward最小方差法§3.1.3系统聚类法—类间距离S1S3S2S4S5最短距离(singlelinkage)最长距离(completelinkage)§3.1.3系统聚类法—类间距离S1S3S4S5§3.1.3系统聚类法—类间距离S1S3S2S4S5重心间距离(centroid)§3.1.3系统聚类法—类间距离S1S3S2S4S5平均距离(average)§3.1.3系统聚类法—类间距离离差平方和法(Ward法)同一类内样品的离差平方和应该较小,不同类之间样品的离差平方和应该较大必须采用平方欧氏距离两类合并后增加的离差平方和为类间的平方距离。6个不同民族的标化死亡率与出生时的期望寿命民族原始数据标准化数据标化死亡率(‰)出生时期望寿命(岁)标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59-1.591.44朝鲜族7.4467.14-0.620.73蒙古族8.1165.48-0.220.38维吾尔族10.2158.881.03-0.99藏族9.5159.240.61-0.91哈萨克族9.8160.470.79-0.66均数8.480063.63330.000.00标准差1.68664.81671.001.00各民族之间的欧氏距离(标准化资料)D(1)满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110最短距离系统聚类D(2)

G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G4={S4}3.5702.3741.8510G7={S5,S6}3.1731.9731.4480.4060最短距离系统聚类D(3)G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G8={S4,S5,S6}3.1731.9731.4480最短距离系统聚类D(4)G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.2080G8={S4,S5,S6}3.1731.4480最短距离系统聚类D(5)G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}1.4480谱系聚类图(最短距离法)

藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertrees)0.3110.4060.5261.2081.448最长距离系统聚类

各民族之间的欧氏距离(标准化资料)D(1)满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.3110最长距离系统聚类D(2)

G1={S1}G2={S2}G3={S3}G4={S4}G7={S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G4={S4}3.5702.3741.8510G7={S5,S6}3.2242.0481.5390.4220最长距离系统聚类D(3)G1={S1}G2={S2}G3={S3}G8={S4,S5,S6}G1={S1}0G2={S2}1.2080G3={S3}1.7320.5260G8={S4,S5,S6}3.5702.3741.8510最长距离系统聚类D(4)G1={S1}G9={S2,S3}G8={S4,S5,S6}G1={S1}0G9={S2,S3}1.7320G8={S4,S5,S6}3.5702.3740最长距离系统聚类D(5)G10={S1,S2,S3}G8={S4,S5,S6}G10={S1,S2,S3}0G8={S4,S5,S6}3.5700谱系聚类图(最长距离法)

藏族哈萨克族维吾尔族朝鲜族蒙古族满族Dendrograms(clustertrees)0.3110.4220.5261.7323.570最段距离与最长距离差异最长距离与最短距离的并类步骤完全一致,也是将各样品先自成一类,然后将非对角线上最小元素对应的两类合并。最长距离与最短距离只有两点不同:类与类之间的距离定义不同计算新类与其他类的距离所用的公式不同§3.1.3系统聚类法—类个数的确定观察谱系聚类图直观确定由适当的阀值确定藏族哈萨克族维吾尔族朝鲜族蒙古族满族0.3110.4220.5261.7323.570§3.1.3动态聚类法最终分类选凝聚点初始分类分类是否合理修改分类§3.1.3动态聚类法—凝聚点的选择凝聚点就是一批有代表性的点,是欲形成类的中心。凝聚点的选择直接决定初始分类,对分类结果也有很大的影响,由于凝聚点的不同选择,其最终分类结果也将出现不同。§3.1.3动态聚类法—凝聚点的选择§3.1.3动态聚类法—初始分类人为地分类,凭经验将样品进行初步分类选择凝聚点后,每个样品按与其距离最近的凝聚点归类选择一批凝聚点后,每个凝聚点自成一类,将样品一次归入其距离最近的凝聚点,并立即重新计算该类的中心,以此替代原来的凝聚点,再计算下一个样品的分类,直到所有样品都归类为止§3.1.3动态聚类法—修改分类K均值法(K-Means)人为指定分类数k,凝聚点取前K个样品对剩下的n-k个样品,分别计算每个样品到凝聚点的距离,将每个样品归入最近的凝聚点的那一类。这时归类方法有:将n-k个样品逐个进入,每当把一个样品归入某类后,立即重新计算该类的重心,将重心作为新的凝聚点。这个方法也称为逐个修改法。将n-k个样品一次全部归入k个类,然后计算各类的重心,作为新的凝聚点。计算每个点的密度(半径=d)确定初始凝聚点,初始分类调整重心,修改分类聚类分析的spss实现第一类:北京、天津、上海文化程度较高的地区第三类:12安徽、23贵州、24云南、27甘肃、28青海、29宁夏文化程度较落后的地区第四类:25西藏文化程度最落后的地区第二类:其他省、市、自治区文化程度中等水平的地区§3.2判别分析判别分析是多元统计分析中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法分成若干类的情况下,确定新样品的观测数据,判定新样品所属类别的方法。总体G1,G2所测量的变量X1.肿瘤良性与恶性肿瘤的大小、生长速度、质地2.是高鹗写与不是高鹗写句子的长度、某些词语的出现频率3.两年内企业破产与不破产某些财务变量4.新产品的速购者与迟购者教育、收入、家庭大小、曾更换品牌的次数5.有偿付力与无偿付力的保险公司总资产、股票与债券价值、签订的保付金额等§3.2判别分析§3.2判别分析判别分析与聚类分析不同。判别分析要求具有一定的先验信息,是在一直研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,然后在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,对于一批给定样品要划分的类型事先并无先验信息,需要通过聚类分析以确定分类。因此,判别分析和聚类分析往往联合起来使用,例如判别分析要求先知道各类总体情况才能判断新样品的归类。当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式对新样品进行判别。§3.2判别分析基本步骤已知k个总体G1,G2,…Gk。确立判别准则根据训练样品建立判别函数根据判别函数对待判样品进行归类§3.2判别分析判别准则:用于衡量新样品与各已知组别接近程度的思路原则常用的有:距离准则、Fisher准则、贝叶斯准则判别函数:基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的描述指标§3.2判别分析按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费希尔准则与贝叶斯判别准则。§3.2判别分析判别方法距离判别法(距离准则)费希尔判别法(费希尔准则)贝叶斯判别法(贝叶斯准则)§3.2.1距离判别法基本思想:按就近原则归类判别准则:根据已知分类的数据,分别计算各类的重心;对于任给一次观测值,若它与第i类的重心距离最近,就认为它来自于第i类。马氏距离§3.2.2费希尔判别基本思想:投影判别准则:即把K类的m维数据投影(变换)到某一个方向;判别的结果应该使类间区别最大,使类内部离散性最小通常用于两类判别§3.2.1费希尔(Fisher)判别YXL=b1X+b2YG1G2§3.2.2费希尔判别—判别函数设有A、B两个总体,分别有n1和n2个历史样本数据,每个样本有p个观测指标,每个样本可看作p维空间中的一点。Fisher借助于方差分析的思想构造一个线性判别函数:§3.2.2贝叶斯判别法基本思想考虑总体出现的概率的(先验概率)判别准则:计算被判样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论