多元统计应用分析课件_第1页
多元统计应用分析课件_第2页
多元统计应用分析课件_第3页
多元统计应用分析课件_第4页
多元统计应用分析课件_第5页
已阅读5页,还剩285页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析研究的对象

一元统计分析是研究一个随机变量统计规律性的学科。

多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。它的内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。多元统计分析是一类范围很广的理论和方法。多元统计分析研究的对象1多元统计分析研究的内容和方法简化数据结构(降维问题)箱式数据平面数据变换主成分分析PrincipleAnalysis因子分析FactorAnalysis多元统计分析研究的内容和方法简化数据结构(降维问题)箱式数据2按观测点分类或按变量分组分类比较是一切科学比较的基础和开端对观测点分类:银行发放贷款对各企业财务指标、信用状况进行分析对变量分组:股票市场是宏观经济的晴雨表经济指标与股票市场各种指标间的群组关系多元统计分析研究的内容和方法聚类分析判别分析ClusterAnalysisDiscriminantAnalysis按观测点分类或按变量分组多元统计分析研究的内容和方法聚类分析3多元统计分析研究的内容和方法变量间的依存关系、相互关系寻找变量间的依存关系是一切科学研究的主要内容寻找一般的规律:预测、控制回归分析RegressionAnalysis典型相关分析

Canonicalcorrelatinalanalysis多元统计分析研究的内容和方法变量间的依存关系、相互关系回归分4多元数据的统计推断关于参数估计和假设检验问题。特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题。多元统计分析的理论基础

包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导其分布和性质,研究它们的抽样分布理论。多元统计分析研究的内容和方法多元数据的统计推断多元统计分析研究的内容和方法5多元统计分析的应用多元统计分析是解决实际问题的有效的数据处理法。它已广泛地应用于自然科学、社会科学的各个方面。如:教育学、医学、气象学、环境科学、地质学、考古学、服装工业——服装的定形分类问题、经济学、农业、社会科学、文学、体育科学、军事科学、心理学、生物学、生态学、火警预报、地震预报、保险科学等领域。多元统计分析的应用多元统计分析是解决实际问题的有效的6内容提要多元正态分布与参数估计1多元正态总体参数的检验2回归分析3判别分析45主成分分析6因子分析7聚类分析典型相关分析8内容提要多元正态分布与参数估计1多元正态总体参数的检验27教学内容结构多元正态参数估计、检验OneTwoThree回归分析聚类分析判别分析主成分分析因子分析多元统计分析典型相关分析教学内容结构多元正态参数OneTwoThree回归分析聚类分8参考书目应用多元统计分析(高惠旋编著)北京大学出版社AppliedMultivariateStatisticalAnalysis

RichardA.Johnson&DeanW.Wichern

PrenticeHall.2001,(4thed).

多元统计分析引论(张尧庭方开泰编著)科学出版社参考书目应用多元统计分析(高惠旋编著)9第一章多元正态分布与参数估计第一章10多元正态分布与参数估计1随机向量及其数字特征2多元正态分布的定义与基本性质3条件分布与独立性5多元正态分布的参数估计多元正态分布与参数估计1随机向量及其数字特征2多元正态分布的111随机向量及其分布

P维随机向量联合分布函数联合密度函数1随机向量及其分布P维随机向量12特征函数一元随机变量

的特征函数:二元随机向量的特征函数:P元随机向量的特征函数:求1.边缘密度.

2.与是否相互独立?3.的特征函数例1特征函数一元随机变量的特征函数:求1.边缘密度.例113条件分布与独立性两随机向量间的条件分布的D.Fd.fc.f的D.Fd.fc.f的D.Fd.fc.f给定时,的条件密度函数条件分布与独立性两随机向量间的条件分布的D.F14条件分布与独立性

两随机向量独立的充分必要条件

与相互独立相互独立不成立条件分布与独立性两随机向量独立的充分必要条件15

随机向量的数字特征随机向量的数学期望随机向量X的方差阵或协方差阵标准差矩阵:

随机向量的数字特征随机向量的数学期望标准差16随机向量的数字特征两随机向量间的协方差阵随机向量X的相关系数阵随机向量的数字特征两随机向量间的协方差阵17随机向量的数字特征的性质随机向量X与Y不相关:若X,Y相互独立,则;反之不一定成立。均值向量和协方差阵的性质:对称、非负定矩阵随机向量的数字特征的性质随机向量X与Y不相关:对称、非负定18随机向量的数字特征的性质

其中L为非负定矩阵.当矩阵(正定)时,矩阵L称为的平方根矩阵,记为协方差阵还可分解为(A为可逆阵)随机向量的数字特征的性质其192多元正态分布的定义与基本性质一元正态分布一元正态分布密度函数形式特征函数形式一般正态与标准正态之间的关系多个独立正态变量的线性组合仍为正态变量2多元正态分布的定义与基本性质一元正态分布一元正态分布密20多元正态分布的定义与基本性质定义1

p维标准正态分布设独立同分布于,则称随机向量服从p维正态分布,记特征函数:密度函数:多元正态分布的定义与基本性质定义1p维标准正态分布特征函21多元正态分布的定义与基本性质定义2

p维一般正态分布

设,A为实数矩阵,为p维实数向量,则

是p维正态分布,记为:其中为非负定阵。多元正态分布的定义与基本性质定义2p维一般正态分布22多元正态分布的定义与基本性质性质1若服从,则

(1),

(2)定义3若p维随机向量X的特征函数为则称X服从p元正态分布,记为多元正态分布的定义与基本性质性质1若服从23多元正态分布的定义与基本性质

性质2:若服从

(1)

令,为实数矩阵,为维实数向量,则服从

(2)

服从,c为实数.

性质3:服从为一元正态随机变量.

定义4:设为p维随机向量,若,为一元正态随机变量,则称

X服从p元正态分布,记为用于验证用于验证多元正态分布的定义与基本性质性质2:若服从24多元正态分布的定义与基本性质

定义5:若p维随机向量的联合密度函数为其中,则称X服从p元正态分布,记为

性质4:若为正定矩阵,则服从具有密度函数多元正态分布的定义与基本性质定义5:若p维随机向量25多元正态分布的四个等价定义

其中为一元正态随机变量特征函数密度函数多用于验证多用于证明多元正态分布的四个等价定义多用于验证多用于证明26二元正态分布的密度函数二元正态分布的等高线(面)是一族中心在的椭圆.二元正态分布的密度函数二元正态分布的等高线(27p元正态分布密度函数的等高面

p元正态分布密度函数的等高面为椭球面,即在距离的平方为常数的表面上多元正态密度是常数,这些密度曲线称为轮廓线。常数概率密度轮廓线={满足的所有x}=中心在的椭球的表面。常数密度的每个椭球面的中心在u且轴在的特征向量的方向上,而且其长度是与的特征值的平方根的倒数成比例的。p元正态分布密度函数的等高面p元正态分布密28(11=1,22=1,12=0)

二元正态分布曲面(11=1,22=1,12=0)二元正态分布曲面29二元正态分布曲面(11=1,22=1,12=0)二元正态分布曲面(11=1,22=1,12=0)30二元正态分布曲面(11=2,22=4,12=-0.75

)二元正态分布曲面(11=2,22=4,12=-0.731二元正态分布曲面(11=2,22=4,12=0.75)二元正态分布曲面(11=2,22=4,12=0.75)32二元正态分布曲面(11=2,22=4,12=-0.75

)二元正态分布曲面(11=2,22=4,12=-0.733二元正态分布曲面剖面(11=1,22=1/2,12=-0.75)二元正态分布曲面剖面(11=1,22=1/2,12=-343条件分布与独立性定理1

若服从,

(1)

服从,服从;

(2)与相互独立.

(不相关)定理2若相互独立,且

则.3条件分布与独立性定理1若35条件分布与独立性说明正态总体独立性与不相关性是等价的推论2若,则相互独立推论1若对角阵,则

相互独立.推论3:若不服从正态分布,则不服从正态分布.条件分布与独立性说明正态总体独立性与不相关性是等价的推论236条件分布与独立性定理3设则

Y与Z相互独立定理4设则Y与Z相互独立?定理5设则当给定时,的条件分布为其中条件分布与独立性定理3设?定理5设37p元正态分布的性质每一个变量均服从正态分布。变量的线性组合服从正态分布。p元正态分布中的任意k(0<k<m)个变量服从k元正态分布。p元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。p元正态分布的性质每一个变量均服从正态分布。385多元正态分布的参数估计多元样本及数字特征多元样本的概念——P维随机样本

P维总体的一个容量为n的样本:的样本的样本5多元正态分布的参数估计多元样本及数字特征的样本39样本数据阵(样本资料阵)样本数据阵(样本资料阵)40样本均值其中样本均值其中41样本离差阵样本离差阵样本离差阵样本离差阵42样本方差阵样本方差阵其中为的样本方差;称为的样本标准差.样本方差阵样本方差阵其中为的样本方差;43样本相关系数阵与的样本相关系数样本相关系数阵与的样本相关系数44多元正态均值向量及协方差阵的极大似然估计定理1设是p元正态总体的随机样本,,则为的极大似然估计,即

样本的似然函数多元正态均值向量及协方差阵的极大似然估计定理1设45多元正态均值向量及协方差阵的极大似然估计定理2

当时,的极大似然估计是多元正态均值向量及协方差阵的极大似然估计定理2当46极大似然估计量的性质定理3若和分别是正态总体的样本均值和样本离差阵,则(1)(2),其中独立同分布于(3)与相互独立(4)证明:设是n阶正交阵,极大似然估计量的性质定理3若和分别是正态总体47极大似然估计量的性质极大似然估计量的性质48极大似然估计量的性质极大似然估计量的性质49极大似然估计量的性质极大似然估计量的性质50极大似然估计量的性质定理4,若为正定矩阵,则

可作为检验统计量极大似然估计量的性质定理4,51极大似然估计量的性质无偏性与分别是和的无偏估计, 即有效性

与分别是和的最小方差无偏估计量.相合性(一致性)

当时与分别是和的强相合估计.充分性与分别是和的充分统计量.极大似然估计量的性质无偏性与52第二章多元正态总体参数的假设检验第二章53多元正态总体参数的假设检验1几个重要统计量的分布2单总体均值向量的检验3多总体均值向量的检验5独立性检验66正态性检验及其SAS实现多元正态总体参数的假设检验1几个重要统计量的分布2单总体均值541几个重要统计量的分布一、正态变量二次型的分布

1.分量独立的n维随机向量X的二次型定义1中心分布与矩阵表达设独立同分布于,则若记,且则

推广:若则

1几个重要统计量的分布一、正态变量二次型的分布55分量独立的n维随机向量X的二次型定义2非中心分布与矩阵表达设且则随即变量服从自由度为n,非中心参数为的卡方分布,并记为或推广:若则若则其中分量独立的n维随机向量X的二次型定义2非中心56分量独立的n维随机向量X的二次型性质

(i)设相互独立,则(ii)设则(iii)(iv)若则X

特征函数为分量独立的n维随机向量X的二次型性质57分量独立的n维随机向量X的二次型定理1设则(A为对称幂等阵)证明:分量独立的n维随机向量X的二次型定理1设58分量独立的n维随机向量X的二次型分量独立的n维随机向量X的二次型59分量独立的n维随机向量X的二次型定理2设 则(A为对称幂等阵)其中对称幂等阵的性质:1.I-A是对称幂等的;2.A的特征值是1或0;

3.

r(A)=tr(A)分量独立的n维随机向量X的二次型定理2设60证明要点:若A是对称幂等的,则存在正交矩阵P,使令,

若,则存在正交矩阵P,使

分量独立的n维随机向量X的二次型证明要点:分量独立的n维随机向量X的二次型61定理3设则定理4设 则

分量独立的n维随机向量X的二次型定理5(Cochran定理)已知(1)服从(2)为阶实对称阵;且

(3)则服从与服从且相互独立定理3设分量独立的n维随机向量X的二次型定理562分量独立的n维随机向量X的二次型定理6设(1)(2)(3)非负定则且与相互独立.分量独立的n维随机向量X的二次型定理6设63一般p维正态随机向量的二次型定理1若则(1),其中(2)用于构造检验统计量并检验异常点定理2若 则定理3若则一般p维正态随机向量的二次型定理1若64非中心t分布和非中心F分布当时,F服从自由度为m,n中心F分布记为:定义3非中心t分布设与相互独立,令则随机变量T

服从自由度为n,非中心参数为非中心t分布,并记为:当时,T服从自由度为n中心t分布记为:定义4非中心F分布设与相互独立,令则随机变量F服从自由度为m,n,非中心参数为非中心F分布,并记为:非中心t分布和非中心F分布当时,F65非中心分布、非中心t分布和非中心F分布利用非中心分布、非中心t分布和非中心F分布可以计算一元统计检验中犯第二类错误的概率。例未知,检验检验统计量为犯第一类错误的概率为犯第二类错误的概率为非中心分布、非中心t分布和非中心F分布利用非中心66威沙特(Wishart)分布定义1随机矩阵的分布定义2(中心Wishart分布)设服从且相互独立,则称随机矩阵服从中心Wishart分布,并记为,其中定义3(非中心Wishart分布)设服从且相互独立,则称随机矩阵服从非中心Wishart分布,并记为其中为非中心参数,威沙特(Wishart)分布定义1随机矩阵的分布67威沙特(Wishart)分布性质

结论1分布是Wishart分布的特例结论2

性质1若且相互独立,则性质2若(1)且独立同分布于(2)是秩为r的实对称阵,则威沙特(Wishart)分布性质结论1分布是68威沙特(Wishart)分布性质性质3设p阶随机阵是常数阵,则特例(1)(2)设则性质4设相互独立,其中则(1)(2)当时,威沙特(Wishart)分布性质性质3设p阶随机阵69威沙特(Wishart)分布性质性质5设p阶随机阵性质6(Cochran定理)若(1)且独立同分布于(2)为阶实对称阵;且

(3)则服从与服从且相互独立威沙特(Wishart)分布性质性质5设p阶随机阵70服从正态分布服从卡方分布服从多元正态分布服从Wishart分布推广服从服从正态分布服从卡方分布服从多元正态分布服从Wishart分71霍特林(Hotelling)T2分布Hotelling

分布

定义1设且相互独立,则称服从自由度为n的霍特林T2分布。若则称服从自由度为n的非中心霍特林T2分布。

结论1分布是t分布的推广性质1独立同分布于,

则霍特林(Hotelling)T2分布Hotelling分72分布与分布之间的关系性质2若和是的样本均值和样本离差阵,记

分布与分布之间的关系性质2若和是73霍特林(Hotelling)T2分布性质4若和是的样本均值和样本离差阵,记则其中性质5T2统计量的分布只与p,n有关,而与无关.性质6T2统计量对可逆变换保持不变.性质3若和是的样本均值和样本离差阵,记

则霍特林(Hotelling)T2分布性质4若和是74威尔克斯(Wilks)统计量及分布威尔克斯分布定义1设则称协方差阵的行列式为X的广义方差.若为p元总体X的随机样本,A为样本离差阵,则称或为样本广义方差.定义2设则称广义方差比为威尔克斯统计量或统计量,其分布称为威尔克斯分布,记为威尔克斯(Wilks)统计量及分布威尔克斯75统计量与或F统计量的关系结论1

统计量与或F统计量的关系结论176统计量与或F统计量的关系结论2结论3结论4结论5统计量与或F统计量的关系结论2结论3结论477一元正态总体参数的假设检验设来自总体第一步:建立零假设第二步:寻找检验统计量及其在下的分布第三步:依据小概率原理建立检验准则若

则拒绝零假设.一元正态总体参数的假设检验设来自总78一元正态总体参数的假设检验设来自总体第一步:建立零假设第二步:寻找检验统计量及其在下的分布第三步:依据小概率原理建立检验准则由于,故若则拒绝零假设.不应含有未知数一元正态总体参数的假设检验设79单总体均值向量的检验及置信域单总体均值向量的检验设总体随机样本检验

1.当已知时,均值向量的检验

检验统计量及其分布是:单总体均值向量的检验及置信域单总体均值向量的检验检验统计量802.当未知时,均值向量的检验单总体均值向量的检验检验统计量是:且2.当未知时,均值向量的检验单总体均值向量的检验检验统81p值的计算p值通常由下面公式计算而得到:p=P{|W|≥|W0|}=2P{W≥|W0|}(拒绝域为两边对称的区域时)p=min{P{W≥W0},P{W

W0}}(拒绝域为两边非对称区域时)p=P{W≥W0}(拒绝域为右边区域时)p=P{W

W0}(拒绝域为左边区域时)只需根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或不能拒绝原假设的决定.p值的计算p值通常由下面公式计算而得到:82似然比统计量设p元总体的密度函数为其中是未知参数,且是来自总体X的容量为n的样本,检验样本的似然函数为似然比统计量为否定域似然比统计量设p元总体的密度函数为83似然比统计量定理1当样本容量n很大时,

其中似然比统计量定理1当样本容量n很大时,84多元总体均值向量的检验两个正态总体均值向量的检验零假设

情形1

i.i.d于

i.i.d于(1)

正定且已知时,检验统计量及其分布(2)

正定且未知时,检验统计量及其分布相互独立多元总体均值向量的检验两个正态总体均值向量的检验零假设85例1.两组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)A组B组X1X2X1X23.92104.82704.21904.71803.72405.42304.01704.52454.42204.62705.22304.42202.71605.92902.42605.52203.62404.32905.51805.13102.92003.3300例1.两组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万86检验假设或两个正态总体均值向量的检验检验假设两个正态总体均值向量的检验87检验统计量由样本值得两个正态总体均值向量的检验检验统计量由样本值得两个正态总体均值向量的检验88p=0.0030.两个正态总体均值向量的检验p=0.0030.两个正态总体均值向量的检验89两正态总体协方差阵不等时均值向量的检验情形2

i.i.d于

i.i.d于

检验统计量及其分布(1)构造新样本:(2)构造统计量:相互独立相互独立两正态总体协方差阵不等时均值向量的检验情形290两正态总体协方差阵不等时均值向量的检验情形3

i.i.d于

i.i.d于

检验统计量及其分布(1)构造新样本:

(2)构造统计量:相互独立且相互独立.两正态总体协方差阵不等时均值向量的检验情形391多个正态总体均值向量的检验——多元方差分析多元方差分析Multivariateanalysisofvariance,MANOVA一元方差分析的基本思想:对方差的分解多元方差分析的基本思想:对方差-协方差阵的分解。多个正态总体均值向量的检验——多元方差分析多元方差分析Mul92一元方差分析k个一元正态总体均值向量的检验零假设

相互独立i.i.d于i.i.d于················································总偏差平方和组内偏差平方和组间偏差平方和一元方差分析k个一元正态总体均值向量的检验零假设相互93一元方差分析平方和分解公式SST=SSA+SSE多元方差分析设第i个p元正态总体的数据阵为一元方差分析平方和分解公式SST=SSA+SSE多94总离差阵T的分解总离差阵T=组内离差阵A+组间离差阵B.k个p元正态总体均值向量的检验零假设

检验统计量及其分布否定域总离差阵T的分解总离差阵T=组内离差阵A+组间离差阵B.k95例2.三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)A组B组C组X1X2X1X2X1X23.92104.82704.42504.21904.71803.73053.72405.42302.92404.01704.52454.53304.42204.62703.32305.22304.42204.51952.71605.92903.82752.42605.52203.73103.62404.32905.51805.13102.92003.3300例2.三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万96检验假设设第i组为2元正态总体来自3个总体的样本容量检验:检验假设设第i组为2元正态总体97结论2结论4k个p元正态总体均值向量的检验取检验统计量结论2结论4k个p元正态总体均值向量的检验取检验统计量98例2.(续)三组的均向量和离差矩阵例2.(续)三组的均向量和离差矩阵99三组的离差矩阵之和(组内变异)总离差矩阵组间离差矩阵例2.(续)三组的离差矩阵之和(组内变异)例2.(续)100多元方差分析表变异来源SSCPn组间Bn1=k-1组内An2=n-k总Tn-1多元方差分析表变异来源SSCPn组间Bn1=k-1组内An2101p=2,k=3,n=30:n1=n-k=27,n2=k-1=2;2n2=4,2(n1-1)=52.p=0.001161.例2.(续)p=2,k=3,n=30:例2.(续)102独立性检验(正态总体)若,则相互独立检验似然比统计量及其分布独立性检验(正态总体)若103独立性检验独立性检验104正态性检验p元正态分布的性质每一个变量均服从正态分布。变量的线性组合服从正态分布。p元正态分布中的任意k(0<k<m)个变量服从k元正态分布。p元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。正态随机向量的概率密度等高线为椭球。正态性检验p元正态分布的性质每一个变量均服从正态分布。105一维边缘分布的正态性检验把p元正态性检验化为p个一元数据的正态性检验,常用的方法有以下几种:检验:用于连续型或离散型随机变量分布的拟合优度检验.Kolmogorov检验:用于连续型分布的拟合优度检验.仅用于正态性检验的方法偏峰(Skewness)检验:在SAS中:

●关于均值对称的数据其偏度为0;●左侧更为分散的数据,其偏度为负,称为左偏;●右侧更为分散的数据,其偏度为正,称为右偏。一维边缘分布的正态性检验把p元正态性检验化106一维边缘分布的正态性检验峰度(Kortosos)检验:利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若近似于标准正态分布,则峰度接近于零;尾部较正态分布更分散,则峰度为正,称为轻尾,尾部较正态分布更集中,则峰度为负,称为厚尾.W(Wilks)检验和D检验.(0<W<1)W统计量是基于次序统计量线性组合平方的方差最佳估计与通常校正平方和估计之比.当样本来自正态总体时,由样本构造的W的值接近1.若一维边缘分布的正态性检验峰度(Kortosos)检验:107一维边缘分布的正态性检验Q-Q(Quantile-Quantile)图形检验法.P-P(Probability-Probability)图形检验法.

QQ图是一种散点图。对应于正态分布的QQ图由点构成,其横坐标为标准正态分布的分位数,纵坐标x(i)(i=1,2,…,n)是将x1,…,xn从小到大排序后的数列,为总体i/n分位点的估计。若观测数据近似正态分布N(μ,2),则QQ图上这些点近似在直线y=x+μ附近。(n<2000),则否定正态性假设.当n>2000时,采用D统计量,若否定正态性假设.一维边缘分布的正态性检验Q-Q(Quantile-Quan108(1)分布函数与分位数设随机变量X的分布函数为,若则称是的上侧分位数或的下侧分位数.此时有:F的上侧分位数F的下侧分位数Q-Q图形检验法(1)分布函数与分位数F的上侧分位数F的109(2)样本分布函数

设为一组样本,将它们按大小序排列:,于是样本分布函数为:(2)样本分布函数110(3)X

的样本分位数将按大小序排列:它的样本分布函数为:于是,的下侧分位数分别是:样本分位数(3)X的样本分位数样本分位数111(4)X

的理论分位数由的理论下侧分位数可以通过查标准正态分布表得到:若X确实服从理论分位数(4)X的理论分位数理论分位数112(5)Q-Q图(5)Q-Q图113原则检验法:若则检验法.比较样本经验分布函数与原假设指定的分布函数间的差异来检验原假设。等概椭圆检验法.(二元数据的正态性检验).

统计量的Q-Q图(或P-P图)检验法.(p元数据的正态性检验).原则检验法:若114正态性检验的SAS实现家庭编号地区编号家庭总收入家庭总支出家庭编号地区编号家庭总收入家庭总支出121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316不同地区居民家庭收入和支出情况正态性检验的SAS实现家庭编号地区编号家庭总收入家庭总支出家115多元统计应用分析课件116多元统计应用分析课件117多元统计应用分析课件118多元统计应用分析课件119多元统计应用分析课件120databldk1(8个字符以内);Inputnum($)x1x2x3x4x5;(@@;)(labelnum=‘分行编号’x1=‘不良贷款(亿元)’····;Cards;10.967.36.8551.9;Run;编写SAS数据文件databldk1(8个字符以内);编写SAS数据文件121多元统计应用分析课件122在Insight模块中绘制分布拟合图和QQ图在Insight中打开数据集sryzc;选择主采单analysedistributions….在Insight模块中绘制分布拟合图和QQ图在Insight123多元统计应用分析课件124多元统计应用分析课件125多元统计应用分析课件126多元统计应用分析课件127多元统计应用分析课件128多元统计应用分析课件129多元统计应用分析课件130多元统计应用分析课件131多元统计应用分析课件132在Analyze中绘制分布拟合图和QQ图在Analyze中打开数据集sryzc;选择主采单statistcdescriptivedistributions….在Analyze中绘制分布拟合图和QQ图在Analyze中打133多元统计应用分析课件134多元统计应用分析课件135多元统计应用分析课件136多元统计应用分析课件137多元统计应用分析课件138多元统计应用分析课件139多元统计应用分析课件140多元统计应用分析课件141多元统计应用分析课件142多元统计应用分析课件143多元统计应用分析课件144多元统计应用分析课件145多元统计分析研究的对象

一元统计分析是研究一个随机变量统计规律性的学科。

多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。它的内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。多元统计分析是一类范围很广的理论和方法。多元统计分析研究的对象146多元统计分析研究的内容和方法简化数据结构(降维问题)箱式数据平面数据变换主成分分析PrincipleAnalysis因子分析FactorAnalysis多元统计分析研究的内容和方法简化数据结构(降维问题)箱式数据147按观测点分类或按变量分组分类比较是一切科学比较的基础和开端对观测点分类:银行发放贷款对各企业财务指标、信用状况进行分析对变量分组:股票市场是宏观经济的晴雨表经济指标与股票市场各种指标间的群组关系多元统计分析研究的内容和方法聚类分析判别分析ClusterAnalysisDiscriminantAnalysis按观测点分类或按变量分组多元统计分析研究的内容和方法聚类分析148多元统计分析研究的内容和方法变量间的依存关系、相互关系寻找变量间的依存关系是一切科学研究的主要内容寻找一般的规律:预测、控制回归分析RegressionAnalysis典型相关分析

Canonicalcorrelatinalanalysis多元统计分析研究的内容和方法变量间的依存关系、相互关系回归分149多元数据的统计推断关于参数估计和假设检验问题。特别是多元正态分布的均值向量及协方差阵的估计和假设检验等问题。多元统计分析的理论基础

包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导其分布和性质,研究它们的抽样分布理论。多元统计分析研究的内容和方法多元数据的统计推断多元统计分析研究的内容和方法150多元统计分析的应用多元统计分析是解决实际问题的有效的数据处理法。它已广泛地应用于自然科学、社会科学的各个方面。如:教育学、医学、气象学、环境科学、地质学、考古学、服装工业——服装的定形分类问题、经济学、农业、社会科学、文学、体育科学、军事科学、心理学、生物学、生态学、火警预报、地震预报、保险科学等领域。多元统计分析的应用多元统计分析是解决实际问题的有效的151内容提要多元正态分布与参数估计1多元正态总体参数的检验2回归分析3判别分析45主成分分析6因子分析7聚类分析典型相关分析8内容提要多元正态分布与参数估计1多元正态总体参数的检验2152教学内容结构多元正态参数估计、检验OneTwoThree回归分析聚类分析判别分析主成分分析因子分析多元统计分析典型相关分析教学内容结构多元正态参数OneTwoThree回归分析聚类分153参考书目应用多元统计分析(高惠旋编著)北京大学出版社AppliedMultivariateStatisticalAnalysis

RichardA.Johnson&DeanW.Wichern

PrenticeHall.2001,(4thed).

多元统计分析引论(张尧庭方开泰编著)科学出版社参考书目应用多元统计分析(高惠旋编著)154第一章多元正态分布与参数估计第一章155多元正态分布与参数估计1随机向量及其数字特征2多元正态分布的定义与基本性质3条件分布与独立性5多元正态分布的参数估计多元正态分布与参数估计1随机向量及其数字特征2多元正态分布的1561随机向量及其分布

P维随机向量联合分布函数联合密度函数1随机向量及其分布P维随机向量157特征函数一元随机变量

的特征函数:二元随机向量的特征函数:P元随机向量的特征函数:求1.边缘密度.

2.与是否相互独立?3.的特征函数例1特征函数一元随机变量的特征函数:求1.边缘密度.例1158条件分布与独立性两随机向量间的条件分布的D.Fd.fc.f的D.Fd.fc.f的D.Fd.fc.f给定时,的条件密度函数条件分布与独立性两随机向量间的条件分布的D.F159条件分布与独立性

两随机向量独立的充分必要条件

与相互独立相互独立不成立条件分布与独立性两随机向量独立的充分必要条件160

随机向量的数字特征随机向量的数学期望随机向量X的方差阵或协方差阵标准差矩阵:

随机向量的数字特征随机向量的数学期望标准差161随机向量的数字特征两随机向量间的协方差阵随机向量X的相关系数阵随机向量的数字特征两随机向量间的协方差阵162随机向量的数字特征的性质随机向量X与Y不相关:若X,Y相互独立,则;反之不一定成立。均值向量和协方差阵的性质:对称、非负定矩阵随机向量的数字特征的性质随机向量X与Y不相关:对称、非负定163随机向量的数字特征的性质

其中L为非负定矩阵.当矩阵(正定)时,矩阵L称为的平方根矩阵,记为协方差阵还可分解为(A为可逆阵)随机向量的数字特征的性质其1642多元正态分布的定义与基本性质一元正态分布一元正态分布密度函数形式特征函数形式一般正态与标准正态之间的关系多个独立正态变量的线性组合仍为正态变量2多元正态分布的定义与基本性质一元正态分布一元正态分布密165多元正态分布的定义与基本性质定义1

p维标准正态分布设独立同分布于,则称随机向量服从p维正态分布,记特征函数:密度函数:多元正态分布的定义与基本性质定义1p维标准正态分布特征函166多元正态分布的定义与基本性质定义2

p维一般正态分布

设,A为实数矩阵,为p维实数向量,则

是p维正态分布,记为:其中为非负定阵。多元正态分布的定义与基本性质定义2p维一般正态分布167多元正态分布的定义与基本性质性质1若服从,则

(1),

(2)定义3若p维随机向量X的特征函数为则称X服从p元正态分布,记为多元正态分布的定义与基本性质性质1若服从168多元正态分布的定义与基本性质

性质2:若服从

(1)

令,为实数矩阵,为维实数向量,则服从

(2)

服从,c为实数.

性质3:服从为一元正态随机变量.

定义4:设为p维随机向量,若,为一元正态随机变量,则称

X服从p元正态分布,记为用于验证用于验证多元正态分布的定义与基本性质性质2:若服从169多元正态分布的定义与基本性质

定义5:若p维随机向量的联合密度函数为其中,则称X服从p元正态分布,记为

性质4:若为正定矩阵,则服从具有密度函数多元正态分布的定义与基本性质定义5:若p维随机向量170多元正态分布的四个等价定义

其中为一元正态随机变量特征函数密度函数多用于验证多用于证明多元正态分布的四个等价定义多用于验证多用于证明171二元正态分布的密度函数二元正态分布的等高线(面)是一族中心在的椭圆.二元正态分布的密度函数二元正态分布的等高线(172p元正态分布密度函数的等高面

p元正态分布密度函数的等高面为椭球面,即在距离的平方为常数的表面上多元正态密度是常数,这些密度曲线称为轮廓线。常数概率密度轮廓线={满足的所有x}=中心在的椭球的表面。常数密度的每个椭球面的中心在u且轴在的特征向量的方向上,而且其长度是与的特征值的平方根的倒数成比例的。p元正态分布密度函数的等高面p元正态分布密173(11=1,22=1,12=0)

二元正态分布曲面(11=1,22=1,12=0)二元正态分布曲面174二元正态分布曲面(11=1,22=1,12=0)二元正态分布曲面(11=1,22=1,12=0)175二元正态分布曲面(11=2,22=4,12=-0.75

)二元正态分布曲面(11=2,22=4,12=-0.7176二元正态分布曲面(11=2,22=4,12=0.75)二元正态分布曲面(11=2,22=4,12=0.75)177二元正态分布曲面(11=2,22=4,12=-0.75

)二元正态分布曲面(11=2,22=4,12=-0.7178二元正态分布曲面剖面(11=1,22=1/2,12=-0.75)二元正态分布曲面剖面(11=1,22=1/2,12=-1793条件分布与独立性定理1

若服从,

(1)

服从,服从;

(2)与相互独立.

(不相关)定理2若相互独立,且

则.3条件分布与独立性定理1若180条件分布与独立性说明正态总体独立性与不相关性是等价的推论2若,则相互独立推论1若对角阵,则

相互独立.推论3:若不服从正态分布,则不服从正态分布.条件分布与独立性说明正态总体独立性与不相关性是等价的推论2181条件分布与独立性定理3设则

Y与Z相互独立定理4设则Y与Z相互独立?定理5设则当给定时,的条件分布为其中条件分布与独立性定理3设?定理5设182p元正态分布的性质每一个变量均服从正态分布。变量的线性组合服从正态分布。p元正态分布中的任意k(0<k<m)个变量服从k元正态分布。p元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。p元正态分布的性质每一个变量均服从正态分布。1835多元正态分布的参数估计多元样本及数字特征多元样本的概念——P维随机样本

P维总体的一个容量为n的样本:的样本的样本5多元正态分布的参数估计多元样本及数字特征的样本184样本数据阵(样本资料阵)样本数据阵(样本资料阵)185样本均值其中样本均值其中186样本离差阵样本离差阵样本离差阵样本离差阵187样本方差阵样本方差阵其中为的样本方差;称为的样本标准差.样本方差阵样本方差阵其中为的样本方差;188样本相关系数阵与的样本相关系数样本相关系数阵与的样本相关系数189多元正态均值向量及协方差阵的极大似然估计定理1设是p元正态总体的随机样本,,则为的极大似然估计,即

样本的似然函数多元正态均值向量及协方差阵的极大似然估计定理1设190多元正态均值向量及协方差阵的极大似然估计定理2

当时,的极大似然估计是多元正态均值向量及协方差阵的极大似然估计定理2当191极大似然估计量的性质定理3若和分别是正态总体的样本均值和样本离差阵,则(1)(2),其中独立同分布于(3)与相互独立(4)证明:设是n阶正交阵,极大似然估计量的性质定理3若和分别是正态总体192极大似然估计量的性质极大似然估计量的性质193极大似然估计量的性质极大似然估计量的性质194极大似然估计量的性质极大似然估计量的性质195极大似然估计量的性质定理4,若为正定矩阵,则

可作为检验统计量极大似然估计量的性质定理4,196极大似然估计量的性质无偏性与分别是和的无偏估计, 即有效性

与分别是和的最小方差无偏估计量.相合性(一致性)

当时与分别是和的强相合估计.充分性与分别是和的充分统计量.极大似然估计量的性质无偏性与197第二章多元正态总体参数的假设检验第二章198多元正态总体参数的假设检验1几个重要统计量的分布2单总体均值向量的检验3多总体均值向量的检验5独立性检验66正态性检验及其SAS实现多元正态总体参数的假设检验1几个重要统计量的分布2单总体均值1991几个重要统计量的分布一、正态变量二次型的分布

1.分量独立的n维随机向量X的二次型定义1中心分布与矩阵表达设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论