版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3讲1.3多元数据的数字特征与相关分析2、相关分析,偏相关分析本节要求掌握知识点:1、二元,多元数据的数字特征:均值,协方差矩阵,相关系数多元数据特征与相关分析全文共63页,当前为第1页。相关关系的类型相关关系非线性相关线性相关正相关正相关负相关负相关完全相关不相关多元数据特征与相关分析全文共63页,当前为第2页。不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关相关系数的直观图示多元数据特征与相关分析全文共63页,当前为第3页。相关关系的测度
(相关系数)对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简单相关系数若相关系数是根据总体全部数据计算的,称为总体相关系数若是根据样本数据计算的,则称为样本相关系数,r多元数据特征与相关分析全文共63页,当前为第4页。相关关系的测度
(相关系数取值及其意义)
r
的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关
r=0,不存在线性相关关系-1r<0,为负相关0<r1,为正相关|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切多元数据特征与相关分析全文共63页,当前为第5页。选择不同的方法计算相关系数
Pearson:双变量正态分布资料,连续变量
Kendall:资料不服从双变量正态分布或
总体分布未知,等级资料
Spearman:等级资料(非参数检验)。多元数据特征与相关分析全文共63页,当前为第6页。§1.3多维数据的数字特征及相关分析
1.3.1二维数据的数字特征及相关系数设是二维总体,从中取得样本数据,,……,数据观测矩阵多元数据特征与相关分析全文共63页,当前为第7页。1.样本数据的数字特征与相关系数记均值向量:记,为变量X,Y的观测数据的方差.多元数据特征与相关分析全文共63页,当前为第8页。记为变量X,Y的观测数据的协方差.观测数据的协方差矩阵且有,S≥0.多元数据特征与相关分析全文共63页,当前为第9页。样本相关系数(Pearson相关系数)且有.多元数据特征与相关分析全文共63页,当前为第10页。2.二维总体的相关系数设是二维总体,定义总体相关系数为由于观测数据的相关系数是总体相关系数的相合估计,故当n充分大时,有多元数据特征与相关分析全文共63页,当前为第11页。3.相关分析
当二元总体的两个分量X与Y不相关,即时,而利用样本数据算得的相关系数,这时用样本数据相关系数来度量X与Y的关联性是不合适的.因此,需要做假设检验1)2)检验统计量多元数据特征与相关分析全文共63页,当前为第12页。3.相关分析3)当H0为真时,统计量t~t(n﹣2)检验p的值为对于给定的显著水平,若p<
,则拒绝H0,这时,认为X与Y相关,用样本数据算得的相关系数反映了两变量的线性关联性的强弱.式中的t0为通过样本数据算得的统计量t的值.多元数据特征与相关分析全文共63页,当前为第13页。SPSS操作:相关分析1.做散点图:标题、标目、散点Graphs-Scattert-Simple-Defind双击Title加标题、标目2.相关分析:Analyze-Correlation-Bivariate-Variables
DASC操作多元数据特征与相关分析全文共63页,当前为第14页。例1.2:一个产科医师发现孕妇尿中雌三醇含量与产儿的体重有关。于是设想,通过测量待产妇尿中雌三醇含量,可以预测产儿体重,以便对低出生体重进行预防。因此收集了31例待产妇24小时的尿,测量其中的雌三醇含量,同时记录产儿的体重。问尿中雌三醇含量与产儿体重之间相关系数是多少?是正相关还是负相关?分析问题:目的、变量、关系
多元数据特征与相关分析全文共63页,当前为第15页。编号
(1)尿雌三醇mg/24h(2产儿体重kg(3)编号
(1)尿雌三醇mg/24h(2)产儿体重kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2
待产妇尿雌三醇含量与产儿体重关系
多元数据特征与相关分析全文共63页,当前为第16页。计算结果从计算结果可以知道,31例待产妇尿中雌三醇含量与产儿体重之间程正相关,相关系数是0.61。多元数据特征与相关分析全文共63页,当前为第17页。问题:我们能否得出结论:待产妇尿中雌三醇含量与产儿体重之间成正相关,相关系数是0.61?为什么?多元数据特征与相关分析全文共63页,当前为第18页。对例子中相关系数必须进行假设检验
例中的相关系数r等于0.61,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。
多元数据特征与相关分析全文共63页,当前为第19页。H0:
=0
H1:
≠0=0.05r=0.61,n=31,代入公式
t==n-2=31-2=29
t=4.14查t值表,t0.05(29)=2.045,查t值表,t0.05(29)=2.045,上述计算t=4.14>2.045,由t所推断的P值小于0.05,按=0.05水准拒绝,接受,认为临产妇24小时内尿中雌三醇浓度与产儿体重之间有正相关关系。
多元数据特征与相关分析全文共63页,当前为第20页。多元数据特征与相关分析全文共63页,当前为第21页。多元数据特征与相关分析全文共63页,当前为第22页。
等级相关
rankcorrelation
适用资料:⑴不服从双变量正态分布⑵总体分布类型未知⑶原始数据用等级表示
等级相关系数qxy(即SpearmanCorrelationCoefficient)——反映两变量间相关的密切程度与方向。多元数据特征与相关分析全文共63页,当前为第23页。3.Spearman相关系数秩的概念将一容量为n的样本观测值x1,x2,…,xn按升序排列成
x(1)≤x(2)≤‥‥‥≤x(n)若xi
=x(k),则称xi
的秩为k,记作Ri,称R1,R2,…,Rn为秩统计量.多元数据特征与相关分析全文共63页,当前为第24页。3.Spearman相关系数如下的样本观测值
-0.8,-3.1,1.1,-5.2,4.2按升序排列成
-5.2,-3.1,-0.8,1.1,4.2秩统计量R1,R2,…,Rn的取值为3,2,4,1,5多元数据特征与相关分析全文共63页,当前为第25页。3.Spearman相关系数设二维总体(X,Y)T
的样本观测数据为(x1,y1)T,(x2,y2)T,…,(xn,yn)T
对于分量X,其样本数据x1,x2,…,xn的秩统计量是R1,R2,…,Rn多元数据特征与相关分析全文共63页,当前为第26页。3.Spearman相关系数对于分量Y,其样本数据y1,y2,…,yn的秩统计量是S1,S2,…,Sn记多元数据特征与相关分析全文共63页,当前为第27页。3.Spearman相关系数Spearman相关系数定义为Spearman相关系数qxy就是把Pearson相关系数rxy中X,Y的样本值用X,Y的秩来代替的.多元数据特征与相关分析全文共63页,当前为第28页。3.Spearman相关系数由于经过某些运算,可得可以推出,Spearman相关系数具有Pearson相关系数一样的性质,如|qxy|≤1.多元数据特征与相关分析全文共63页,当前为第29页。1.3.2多维数据的数字特征及相关矩阵
设是p维总体.样本数据
多元数据特征与相关分析全文共63页,当前为第30页。样本数据观测矩阵记称为第i个样品.X的p个列分别是变量X1,X2,…,Xp的n个观测数据.多元数据特征与相关分析全文共63页,当前为第31页。⑴第j列数据的均值样本数据观测矩阵可以写成多元数据特征与相关分析全文共63页,当前为第32页。⑵第j列数据的方差⑶第j,k列数据的协方差并且有多元数据特征与相关分析全文共63页,当前为第33页。样本观测数据的均值向量样本观测数据的协方差矩阵多元数据特征与相关分析全文共63页,当前为第34页。⑷X的第j,k列数据的Pearson相关系数可见,rjj=1,X的Pearson相关矩阵多元数据特征与相关分析全文共63页,当前为第35页。注意到,样本协方差矩阵成为多元数据特征与相关分析全文共63页,当前为第36页。若记则有,S=DRD多元数据特征与相关分析全文共63页,当前为第37页。⑸对数据作标准化变换标准化数据的观测矩阵是多元数据特征与相关分析全文共63页,当前为第38页。标准化变换后的样品观测矩阵可以写成多元数据特征与相关分析全文共63页,当前为第39页。注意到就有所以多元数据特征与相关分析全文共63页,当前为第40页。即S*=R就是说,从标准化数据观测矩阵X*计算得到的协方差阵就是由原数据观测矩阵X计算得到的相关阵。多元数据特征与相关分析全文共63页,当前为第41页。1.3.3总体的数字特征、相关矩阵及
多维正态分布总体的数字特征
p维总体:
总体CDF:连续型总体的PDF:其中,多元数据特征与相关分析全文共63页,当前为第42页。总体均值向量其中,总体协方差矩阵多元数据特征与相关分析全文共63页,当前为第43页。其中,总体分量Xj与Xk的协方差总体分量Xj与Xk的相关系数总有,jj=1,|jk|≤1.多元数据特征与相关分析全文共63页,当前为第44页。总体的相关矩阵为若记则有多元数据特征与相关分析全文共63页,当前为第45页。2.均值向量与协方差阵的性质设设A,B为常量矩阵,则E(AX)=AE(X)=ACov(AX)=ACov(X)AT=AATCov(AX,BY)=ACov(X,Y)BT
这里,Cov(X,Y)=E[(X-E(X))(Y–E(Y))],称为X与Y的协方差阵.多元数据特征与相关分析全文共63页,当前为第46页。当n充分大时,有多元数据特征与相关分析全文共63页,当前为第47页。3.多维正态分布若多维总体具有概率密度则称总体X服从p维正态分布,记为X
~多元数据特征与相关分析全文共63页,当前为第48页。多维正态分布的性质⑴若Y=AX+b,其中Al×p,bl×1为常量矩阵,则设X
~Y
~多元数据特征与相关分析全文共63页,当前为第49页。X(1)
~,X(2)
~⑵将X,和作如下划分这里,p1+p2=p,且,则多元数据特征与相关分析全文共63页,当前为第50页。⑶正态总体X的两个分量Xi和Xj相互独立的充要条件是ij=0(i
≠j).又若则X(1)和X(2)相互独立的充要条件是多元数据特征与相关分析全文共63页,当前为第51页。1、概念
当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。2、偏相关系数
偏相关系数是用来衡量任何两个变量之间的关系的大小。多元数据特征与相关分析全文共63页,当前为第52页。
Analyze-----Correlation-----Partial把分析变量选入Variable框把控制变量选入Controllingfor框点击Options点击Statistics:选择
MeanandstandarddeviationZero-ordercorrelationContinueOK3.SPSS操作:偏相关分析多元数据特征与相关分析全文共63页,当前为第53页。第1章例3例3:已知某地29名13岁男童身高X1(cm)、体重X2(kg)和肺活量Y(ml),请计算身高与肺活量,体重与肺活量的相关关系。多元数据特征与相关分析全文共63页,当前为第54页。身高与肺活量的简单相关系数1、身高与肺活量的简单相关系数多元数据特征与相关分析全文共63页,当前为第55页。2、体重与肺活量的简单相关系数多元数据特征与相关分析全文共63页,当前为第56页。3、身高与体重的简单相关系数多元数据特征与相关分析全文共63页,当前为第57页。VariableMeanStandardDevCasesX1(身高)152.57598.362229Y(肺活量)2206.8966448.554129X2(体重)37.30695.670429例子偏相关分析结果:多元数据特征与相关分析全文共63页,当前为第58页。体重为控制变量,身高与肺活量的偏相关系数PARTIALCORRELATIONCOEFFICIENTSControllingfor..X2(体重)
Y(肺活量)X1(身高)Y(肺活量)1.0000.2361(0)(26)P=.P=.226X1(身高).23611.0000(26)(0)P=.226P=.多元数据特征与相关分析全文共63页,当前为第59页。PARTIALCORRELATIONCOEFFICIENTSControllingfor..X1(身高)
Y(肺活量)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 购销合同贷款申请技巧分享
- 二年级品德与生活上册 爱护我们的生活环境教案3 北师大版
- 八年级历史上册 第六单元 中华民族的抗日战争第18课 从九一八事变到西安事变教案 新人教版
- 2024-2025学年高中物理 第一章 机械振动 2 单摆教案 教科版选修3-4
- 2023四年级数学上册 1 大数的认识第5课时 将整万数改写成用“万”作单位的数教案 新人教版
- 北京中南红星足球学校九年级化学上册 第三单元 课题1 分子和原子教学设计 (新版)新人教版
- 坐班合同协议书范本(2篇)
- 租的民房租房合同(2篇)
- 装修管理费合同(2篇)
- 浮选 课件 演示
- 金属挤压共(有色挤压工)中级复习资料练习卷含答案
- 江苏省启东市长江中学2023-2024学年七年级上学期12月月考道德与法治试题
- 护患沟通情景实例
- 往复式压缩机常见故障与排除
- 高速铁道工程职业生涯规划书
- 护理查房-膝痹病课件
- 圆球幕墙施工方案
- 歌剧《洪湖水浪打浪-》课件
- 手术后气胸的护理课件
- 现浇砼路缘石施工方案百度
- 组织文化与领导力 详解报告
评论
0/150
提交评论