多元统计分析课件-杜子芳_第1页
多元统计分析课件-杜子芳_第2页
多元统计分析课件-杜子芳_第3页
多元统计分析课件-杜子芳_第4页
多元统计分析课件-杜子芳_第5页
已阅读5页,还剩113页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析

统计学院杜子芳课程内容描述统计典型相关主成分和因子分析聚类分析判别和logistic回归推荐参考书目张尧庭,方开泰,《多元统计分析引论》,北京:科学出版社,1982。高惠璇,《应用多元统计分析》,北京:北京大学出版社,2005。陈峰,《医用多元统计分析方法》,北京:中国统计出版社,2000。[美]RichardA.Johnson,DeanW.Wichern著,陆璇叶俊译,《实用多元统计分析》(第6版),北京:清华大学出版社,2008。多元统计分析的数据结构n个样品p个变量的数据n个样品(样本点/case)p个变量(指标/variable)多元统计分析的数据结构(续)

变量1变量2…

变量p样品1样品2……样品n变量的分类性质分类顺序数值——定量(quantitative)功能自变量因变量定性(qualitative)三类变量三类变量的举例分类:姓名,性别,民族,籍贯顺序:学历,“成份”,职称数值:身高,收入,年龄变量对应的数据容许的最高计算等级分类

顺序

数值

三种数据的变化升级变化手段:编码后果:计算高级化信息可能扭曲降级变化手段:分组后果:计算低级化信息可能减少一个降级的例子学生成绩原本是数值数据:0~100分分组后成顺序数据:优,良,中,及格,差后果:无法进行加减计算了。信息减少,95与100分的差异不见了。课程框架自变量之间的关系聚类分析主成分分析因子分析自变量与因变量之间的关系

因变量自变量分类型数值型分类型列联分析、对应分析方差分析、联合分析数值型判别分析、Logistic回归分析回归分析、结构方程模型多元分析的描述统计描述统计量均值向量方差和协方差矩阵相关系数矩阵图形散点矩阵图三维曲面图轮廓图闪电图雷达图调和曲线图切尔谢夫脸谱图一元分析的描述统计量分类变量的数字特征集中性趋势:众数分散性趋势:异众比例顺序变量的数字特征集中性趋势:中位数分散性趋势:四分位数数值变量的数字特征集中性趋势:平均值分散性趋势:标准差多元的描述统计量——均值向量集中趋势,平均水平第一个变量的平均值第k个变量的平均值p个变量的均值向量多元的描述统计量——方差和协方差矩阵方差表示变量离散程度,协方差变量间的协同关系变量k的方差变量i和变量k的协方差变量i越大,变量k越大,则协方差为正数;变量i越大,变量k越小,则协方差为负数;若两个变量关系不大,则协方差接近0当i=k时多元的描述统计量——方差和协方差矩阵多元的描述统计量——相关系数矩阵第i个和第k个变量的相关系数为相关系数是协方差的标准化形式;相关系数的取值在-1到+1之间;相关系数衡量的是变量间线性关系的强度多元的描述统计量——相关系数矩阵图形散点矩阵图——多个变量之间的关系三维曲面图——两个变量的联合分布轮廓图闪电图雷达图调和曲线图切尔谢夫脸谱图n很小,p比较大可以很直观进行样品间的比较,并且可以用于样品的初步分组和验证聚类分析的结果散点图矩阵——多个变量间的关系p=2时,可以用散点图表示两个变量之间的关系p>2时,对p个变量两两配对生成散点图矩阵散点图矩阵——多个变量间的关系三维曲面图轮廓图横坐标取p个点,表示p个变量;对于某一样品,纵坐标表示每个变量的取值,将p个点用直线连起来;依次画n个样品的图。轮廓图闪电图类似于轮廓图旋转90度直观上便于各样品之间的比较柱形图vs条形图12345购票方便准时等待时间短舒适物有所值方便安全可靠性高配套设施齐全座位宽敞有空调注:红线代表地铁,蓝线代表公交车。购票不方便不准时等待时间长不舒适物非所值不方便安全可靠性低配套设施不齐全座位拥挤无空调地铁公交服务优劣比较生均占地面积生均建筑面积百生均计算机数生均设备价值师生比生均图书册数生均占地面积生均建筑面积百生均计算机数生均设备价值师生比生均图书册数国家标准60㎡50㎡70㎡16.5㎡18㎡15㎡10台5台15台5000元4500元5500元1:161:201:2580册,35元/册70册,30元/册80册,40元/册推荐方案投资方案雷达图作一圆,将圆周p等分;连接圆心和各分点,这p条半径即为p个坐标轴;将每一个样品的p个变量取值分别标注在p个坐标轴上,用直线连接成p边形;n个样品即有n个p边形。调和曲线图Andrews,1972提出用二维空间的一条曲线表示多维空间的点各变量数值悬殊时,要先标准化同类的曲线拧在一起,不同类拧成不同的束切尔诺夫脸谱图每个样品用一个脸谱表示用脸部特征如脸的长度、高度、眼睛大小、发型等表示各变量的值可以根据脸的相似程度,将样品分组无法在同一框架下进行比较Chernoff,H.“UsingFacestoRepresentPointsinK-DimensionalSpaceGraphically.”(1973)多元统计学的应用——文学《红楼梦》作者研究(文本挖掘)选定数十个与情节无关的虚词,把《红楼梦》120回作为120个样品,统计每一回选定的这些虚词出现的频数作为变量方法:聚类分析李贤平,“红楼梦成书新说”,《复旦学报》社会科学版,1987年第5期多元统计学的应用——营销消费者偏好研究消费者对具有不同属性的各种产品进行打分,用联合分析确定具有哪种属性组合的产品最受欢迎,消费者最看重哪种属性……属性水平系统(system)WindowsXPWindowsVista颜色(color)黑红CPUAMD羿龙Intel酷睿双核多元统计学的应用——医学胃癌的鉴别事先有一些经手术后病理化验确诊的病理资料,如三个总体,胃癌患者、萎缩性胃炎患者、非胃炎患者,每人化验了4项生化指标(血清铜蛋白、蓝色反应、尿吲哚乙酸、中性硫化物),根据这些资料可以建立诊断准则。以后对来就诊的病人,就可以根据这几项生化指标的结果以及之前建立的准则判断病人的疾病种类。方法:判别分析多元统计学的应用——工业设计服装定型问题服装公司希望生产的成衣能适应大多数顾客的要求。首先做抽样调查,测量身体身高、坐高、胸围、腰围、裤长、袖长等指标,确定服装的每种型号是由身体的哪几个主要尺寸决定的方法:主成分分析典型相关---统计相关的集大成有两组变量(x1,x2,…xp),(y1,y2,…,yq),我们对两组变量之间的关系感兴趣。两组共p+q个变量,如果进行两两相关分析可以得到p×q或(p+q)(p+q-1)/2个相关系数。但是这两组变量或两个随机向量之间的“整体”相关关系是什么呢?典型相关分析的思想两组随机变量的相关系数我们并未接触,以前接触的是一对一的:分类之间,顺序之间,数值之间一对多的:数值对分类(方差),数值对数值(回归)多对多的:数值对数值如何反映多对多的相关呢?多元统计分析最重要的框架更细的分类典型相关分析的思想每组变量都进行线性组合,生成代表性变量;计算不同组任意两个代表性变量的相关系数;找到相关系数最大对应的两个代表性变量作为一对“典型”,将“典型”之间的相关系数用来代表两组变量的线性相关程度,乘为典型相关系数,又称广义相关系数。广义相关系数典型相关系数的检验广义相关系数的性质所有广义相关系数除满足对称性外还具有以下性质:时,代表U和V不相关,从而任一与任一中的随机变量都不相关时,代表U和V可以相互线性表出时,等于Pearson相关系数的平方时,等于复相关系数的平方或决定系数。典型相关分析的数学表达对于两组变量和,寻找系数向量和使得新的综合变量(称典型变量)

有尽可能大的相关关系。令典型相关分析的数学表达典型相关分析的数学表达典型变量的性质:1.X的典型变量U1,U2,…Up不相关,Y的典型变量W1,W2,…Wq不相关;2.X和Y的同一对典型变量Ui和Wi之间的相关系数为,不同对的Ui和Wi之间不相关。典型相关(续5)

注意点:

在实际例子中一般并不知道。因此在只有样本数据的情况下,只要把用样本协差阵或样本相关阵代替就行了。但是这时的特征根可能不在0和1的范围,因此会出现软件输出中的特征根(比如大于1)不等于相关系数的平方的情况,这时,各种软件会给出调整后的相关系数。证明(1)证明(2)分类对分类相关的例子:

受访者性别与种族的相关关系的测度不相关

完全相关完全相关的另一种情形列联表的结构行合计列合计合计列标题行标题分类对分类相关的原理事件相关程度事件相关程度?变量相关程度?变量相关程度?最终的类类相关系数分类对数值相关的例子:

受访者性别与姊妹数的相关关系的测度普通情形线性无关情形完全线性相关情形分类对数值的相关关系总平方和=组间平方和+组内平方和

证明两种组间平方和的关系两种证明证明1证明21对1之数值与数值的线性相关原理

1对1之数值与数值的线性相关原理典型相关分析的程序INCLUDE'C:\ProgramFiles\SPSS\Canonicalcorrelation.sps'.CANCORRSET1=salarysalbegin/SET2=jobtimeprevexpeduc.因子与主成分分析—简化之至因子与主成分分析的思想在多元条件下,一些变量彼此存在很高的相关关系,其本质是所含信息具有重叠性。在回归分析里,对这些相关程度很高(多重共线性)的变量其处置方式之一是去除一部分变量,只保留极少的变量做代表;另一种处置思路是用这些变量的线性组合替代原有变量(同时认为这些组合表征的是深层的原因—称为因子),而尽量不减少它们所包含的信息。不仅如此,在不怎么减少原来变量所含信息的前提下,还要达成三个目标:减少变量个数;新变量彼此之间不再线性相关,最好正交;新变量与原变量之间的关系清晰容易判断。三个关键问题以何表示原来变量所含信息?如何寻找达成上述目标的线性组合(即新变量)?此处线性组合与回归分析和判别分析里的组合有何区别?第一节主成份分析回归分析

判别分析主成份分析主成份分析主成份分析(续)类似判别分析那样,应用拉格朗日方法求极值将所有特征根降序排队,条件极值求法主成份分析(续)将最大特征根代入方程,求得,然后求得称为的第一主成份(实际上是变换后的第一个新变量),而类似得到的称为第i个主成份,最多有r个主成份。。主成份的个数通常有两种取法(1)取为(2)特征根>1主成份的性质主成份(新变量)是原变量的线性变换彼此独立(源于何种原因?)方差递减(是什么原因?)方差总和守恒(又是什么原因?)主成分分析(续1)找出…向量ai主成分分析(续2)因此,

一般情况下,取使得总方差中累积的解释比例达到85%的前几个主成分。因子分析基本思想

很多变量间存在着某种相似性(彼此之间相关系数较高),本质上影响这些变量观测值结果的可能是其背后看不到的共同原因所致。因子分析就是要从彼此相关的变量中找出这些原因。作法用较少数个公共因子的线性组合与特殊因子的之和来表示原观察变量,以便达到降维的目的,并清楚暴露新变量与原变量间的相关关系。主成份分析是寻求因子的一种方法。因子分析(续1)因子分析(续2)共性方差

因子载荷aik是Xi与fk的协方差特殊方差表示m个公共因子对Xi的方差贡献相当于回归中的什么指标?因子分析(续3)

虽然该式表示的很精确,但后面p-m个特征值较小的并不是很有用,可以近似略去因子分析(续4)因子分析的参数估计极大似然法主成分估计法(迭代)主因子估计法因子旋转原理因子得分加权最小二乘法巴特莱特极大似然法最小二乘法汤普森回归法聚类分析分布的两种表达方式给定的、整齐数表达的组限配以非整齐的频数(率)给定的、整齐数表达的频数(率)配以非整齐的组限(分位点)分类的常规作法依据先验的、专业的给定标准(界限)分类聚类的作法根据后验的、统计的逻辑上的标准划定类别谱系聚类的步骤定义点间距;定义类间距;所有样品看成n类;计算点间距并将距离最小者归为一类,其余不变;确定各类之间的类间距,并将距离最小者归为一类,其余不变;以此类推,直至所有样品归为一类。点间距绝对值距离欧式距离欧式平方距离马氏(标准欧式平方)距离契氏距离兰氏距离明氏距离组间距最短距离法最远距离法中间距离法重心距离法类平均距离法可变类平均距离法可变距离法Wa

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论