多元统计分析-第三章多元正态分布_第1页
多元统计分析-第三章多元正态分布_第2页
多元统计分析-第三章多元正态分布_第3页
多元统计分析-第三章多元正态分布_第4页
多元统计分析-第三章多元正态分布_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三章 多元正态分布多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。第一节 一元统计分析中的有关概念多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。一、随机变量及概率分布函数(一)随机变量随机变量是

2、随机事件的数量表现,可用、等表示。随机变量有两个特点:一是取值的随机性,即事先不能够确定取哪个数值;二是取值的统计规律性,即完全可以确定取某个值或在某个区间取值的概率。(二)随机变量的概率分布函数随机变量的概率分布函数,简称为分布函数,其定义为:随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。1、离散型随机变量的概率分布若随机变量在有限个或可列个值上取值,则称为离散型随机变量。设为离散型随机变量,可能取值为,取这些值的概率分别为,记为()称()为离散型随机变量的概率分布。离散型随机变量的概率分布具有两个性质:(1),(2)2、连续型随机变量的概率分

3、布若随机变量的分布函数可以表示为对一切都成立,则称为连续型随机变量,称为的概率分布密度函数,简称为概率密度或密度函数。连续型随机变量的概率密度函数具有两个性质:(1)(2)二、随机变量的数字特征(一)离散型随机变量的数字特征若为离散型随机变量,其概率分布为,则的数学期望(或称均值)和方差分别定义为: (二)连续型随机变量的数字特征若为连续型随机变量,其密度函数为,则的数学期望和方差分别定义为:方差的一个简便计算公式为(三)数学期望的数学性质1、设是常数,则2、设是随机变量,是常数,则3、设、是任意两个随机变量,则4、设、是任意两个相互独立的随机变量,则(四)方差的数学性质1、设是常数,则2、设

4、是随机变量,是常数,则3、设、是任意两个相互独立的随机变量,则三、一些重要的一元分布1、二项分布重复进行次相互独立的试验,若每次实验仅有两个可能结果,每次实验成功的概率均为,设为次独立实验中成功出现的次数,则离散型随机变量的分布律为:, 其中,为自然数,称服从二项分布。二项分布中,方差为。2、超几何分布若个产品中有个不合格品,从中随机不放回地抽取个进行调查,为出现的不合格品数,则离散型随机变量的分布律为:,则称服从超几何分布。当很大,相对较少时,超几何分布近似于二项分布。3、泊松分布若离散型随机变量的分布律为:, 其中,则称X服从泊松分布。泊松分布中,。在恒定的条件下,当趋于无穷,趋于零时,二

5、项分布趋向于泊松分布。4、正态分布若连续型随机变量的概率密度函数为:,则称服从正态分布,记作,其中参数、分别是随机变量的数学期望和方差。当,时,随机变量的分布为标准正态分布。当很大,和都不太大时,二项分布可用正态分布近似计算。5、卡方分布设随机变量皆服从,且相互独立,则其平方和所服从的分布称为卡方分布,记为:,为自由度,表示平方和中独立随机变量的个数。6、分布设随机变量,且与相互独立,则随机变量的分布称为分布。记为,为自由度。随着自由度趋向于无穷大,分布以标准正态分布为极限。7、分布设随机变量,且与相互独立,则随机变量服从第一自由度为、第二自由度为的分布,记为。第二节 多元统计分析中的基本概念

6、在社会、经济及自然科学等许多领域,常常需要同时研究多个指标,例如,要研究上市公司的盈利状况,就涉及到公司的主营业务利润、营业利润、利润总额和净利润等总量指标,主营业务利润率、经营净利率、资产利润率、资产净利率、净资产收益率、总资产报酬率等相对指标,每股收益、加权每股收益等平均指标。这些变量都是随机变量,随机变量之间往往存在一定的联系,因而需要把这些随机变量作为一个整体来研究。一、随机向量及概率分布(一)随机向量设有个随机变量,且它们之间有一定的联系,这些随机变量组成的整体就是随机向量,记为。在多元统计分析中,仍将所研究对象的全体称为总体,它是由许多个体构成的集合,如果构成总体中的个体是有个观测

7、指标的个体,称这样的总体为维总体,或元总体。由于从维总体中随机抽到一个个体,其个指标观测值不能事先精确知道,它依赖于被抽到的个体,因此,维总体可用维随机向量来表示,这里的维或元表示共有几个分量。(二)随机向量的概率分布设是维随机向量,它的多元概率分布函数定义为:,记为,其中:,表示维空间。1、离散型随机向量的概率分布定义3.1:若是维随机向量,若存在有限个或可列个维数向量记(),且满足,则称为离散型随机向量,并称()为离散型随机向量的概率分布。2、连续型随机向量的概率分布定义3.2:设,若存在一个非负函数,使得对一切都成立,则称为连续型随机向量,称为分布密度函数。一个维变量的函数能作为中某个随

8、机向量的分布密度函数,当且仅当(1),(2) 例3.1:试证函数, 为随机向量的密度函数。证:只要验证函数满足密度函数的两个条件即可。(1) 显然,(2) =1二、边际分布设是维随机向量,由它的个分量组成的子向量的分布为的边际(或边缘)分布,相对的把的分布称为联合分布。通过变换中各分量的次序,总可假定正好是的前个分量,其余个分量为,即,相应的取值也可以分为两部分,即,当的分布函数是时,的分布函数即边际函数为: 所以的边际密度为 例3.2:对例1中的求边际密度函数。解: , , 三、多元变量的独立性定义3.3:若个随机变量的联合分布等于各自边际分布的乘积,称个随机变量相互独立。由相互独立可以推知

9、任何与()独立,但反之不真。例3.3:例2中的和是否相互独立?解: , ,所以,故和相互独立。四、随机向量的数字特征(一)随机向量的数学期望定义3.4:设,若存在且有限,则称为的均值向量或数学期望,或者用表示,用表示。均值向量有以下性质:1、2、3、其中:、为随机向量,、为适合运算的常数矩阵。(二)随机向量的协方差阵定义3.5:设,称 为的协方差阵。通常将记为,记为,从而有。 (三)随机向量和的协方差阵设,称 为和的协方差阵当时,即为。协差阵有如下数学性质:1、,即的协差阵为非负定阵。2、对于常数向量,有3、设为常数矩阵,则4、其中,为适合运算的常数向量和矩阵。(四)随机向量的相关系数矩阵 若

10、随机向量的协方差阵存在,且每个分量的方差都大于零,则随机向量的相关阵为其中: ,为与之间的相关系数(线性)。若,则与不相关。(五)协方差阵和相关系数矩阵的关系设标准离差阵为=则有,或在统计分析时为了克服由于指标的量纲不同对统计分析的影响,往往在使用某种统计分析方法之前,对每个指标进行标准差标准化处理,处理后的指标均值为0,方差为1,这时,随机向量的协方差矩阵和其相关系数矩阵完全相同。例3.4:2003年河南省31家上市公司年报数据中的相应资料如表31:表31 2003年河南省31家上市公司的有关数据主营业务利润(万元)营业利润(万元)利润总额(万元)净利润(万元)中原高速48457.83416

11、14.7542088.0427126.34中原油气84061.0769453.2260599.0052165.27安阳钢铁175514.79128972.69126422.2182439.22神火股份31436.5723968.0223842.2416289.60新乡化纤31121.2322463.6922408.3619310.49安彩高科69994.7539903.3539315.6623036.17许继电气53048.4525881.1926769.4216877.17羚锐股份15639.45892.911842.921417.61华兰生物9001.814241.094175.64354

12、9.03瑞贝卡11480.397222.467168.264723.31双汇发展95295.7840315.5242493.9926368.50竹林众生 8379.92921.841661.321477.24焦作万方34086.9420451.5122562.6614290.03思达高科12769.173820.984308.773195.90郑州煤电27296.3613007.4312863.378512.59天方药业21449.068187.448068.435424.50白鸽股份13546.85456.404185.113960.40豫能控股12678.025721.656932.125

13、749.71中孚实业13716.8910393.5510327.717434.20宇通客车58220.5118669.5618442.5212825.46黄河旋风10656.584819.594848.073240.43风神股份40970.2412149.1511948.346370.63ST春都1428.16813.042490.762508.56豫光金铅15356.329227.718843.465835.39银鸽投资7685.473030.533098.093061.48焦作鑫安4246.311288.341306.64932.07平高电气14101.742816.362933.0823

14、10.34神马实业13159.932776.032262.73890.49ST冰熊1460.10-878.86-814.49-814.49莲花味精13856.23-10310.32-13494.73-14537.71*ST洛玻 14014.60-27015.00-34021.80-34251.30资料来源:金融界数据中心,网址为根据资料计算:均值向量、协方差矩阵、相关系数矩阵、并验证协方差矩阵和相关系数矩阵的关系。解:均值向量为: 协方差矩阵为:相关系数矩阵:标准离差阵: 第三节 多元正态分布的定义及基本性质多元正态分布是一元正态分布的推广,多元分析的主要理论都是直接或间接建立在多元正态总体基

15、础上的,多元正态分布是多元分析的基础。此外,在实际中遇到的随机向量常常服从正态分布或近似服从正态分布。因此,现实世界许多实际问题的解决办法都是以总体服从正态分布或近似服从正态分布为前提的。一、 多元正态分布的定义一元正态分布的密度函数(),可以改写为,由于、均为一维的数字,转置与否都相同。将一元正态分布的概率密度函数推广,可得出多元正态分布的定义。定义3.6:若维随机向量的密度函数为:()其中:,是维均值向量,则称服从元正态分布 ,记为 。当等于1时,元正态分布变成一元正态分布,也就是说一元正态分布是元正态分布的一个特例。上述定义实际上是在时给出的,当,不存在通常意义下的概率密度。当时,也有正

16、态分布的定义。定义3.7:独立标准正态变量的有限线性组合称为维正态随机向量,记为,其中,注意的分解一般不是唯一的。当时,利用参数、可将二元正态分布的密度函数写成:这是因为所以, 而 这与概率统计中的结果是一致的。二、多元正态变量的基本性质在讨论多元统计分析的理论和方法时,经常用到多元正态变量的某些性质,利用这些性质可使得正态分布的处理变得容易一些。1、若随机向量,是对角阵,则相互独立。2、设,为阶常数阵,为维常数向量,则 即多元正态随机向量的任意线性变换仍然服从多元正态分布。3、若,将做如下剖析则,即多元正态分布随机向量的任何一个分量子集的分布(边际分布)仍然遵从正态分布。但是,若一个随机向量

17、的任何边际分布均为正态分布,并不能推导出该随机向量是多元正态分布。例3.5:若,其中:,设则: (1)其中:即正态随机向量的线性函数还是正态的。(2)记,则 ,即多元正态分布随机向量的任何一个分量子集的分布仍然遵从正态分布。多元分析中的许多方法,大都假定数据来自多元正态总体。但要判断已有的一批数据是否来自多元正态总体,是很困难的。可是反过来要肯定数据不是来自多元正态总体,比较容易,即如果,则它的每个分量必服从一元正态分布,因此把每个分量的个样品值作成直方图,如果断定不是正态分布,就可以断定随机向量也不服从正态分布。三、条件分布和独立性(一)条件分布若和是任意两个事件,且,则称为在事件发生的条件

18、下,事件发生的条件概率。由此可以引出条件分布这一概念。设,将做如下剖析在给定时的条件分布仍服从正态分布,这个结论是通过下列定理给出的。定理3.1:设,则其中:,该定理告诉我们,的分布与的分布均为正态分布,它们的协方差阵分别为和,由于,故。协方差阵是用来描述指标关系及散布程度的,说明在已知的条件下,的散布程度比不知道的情况要小,当时,两者相同。可以证明,等价于和相互独立,这时。即使给出,对的分布也没有影响。定理3.2:设,将做如下剖析,则 其中 ;,。例3.6:在制定服装标准时需抽样进行人体测量,对某年龄段女子的测量结果如下:为身高,为胸围,为腰围,为上体长,为臀围,已知,其中:,若取,则=而

19、可见利用条件协方差阵可以求出和的偏相关系数。定义3.8.:若给定时,和的偏相关系数为例6中,设,则(二)独立性定理3.3:设,将做如下剖析,其中,则相互独立,当且仅当时,对于一切。第四节 多元正态分布的参数估计在多元统计分析中,通常假定被研究的对象服从多元正态分布,但分布中的参数和往往是未知的,一般的做法是通过样本指标对总体的参数进行估计。一、多元样本的概念 设从多元总体中随机抽取个个体,若相互独立,且与总体同分布,则称为该总体的一个多元随机样本。每个称为一个样品,为第个样品对第个指标的观测值,显然每个样品都是维向量,将个样品对个指标都进行观测,得到如下一个随机矩阵(观测矩阵、样本资料阵):一

20、旦样本观测值取定,随机矩阵就是一个数据矩阵。多元分析中的很多方法就是运用各种手段从观测矩阵出发去提取有关信息。值得注意的是:1、多元样本中的每个样品,对个指标的观测值往往是有相关关系的,但不同样品之间的观测值一定是相互独立的。2、多元分析所处理的多元样本观测数据一般都属于横截面数据,即在同一时间不同空间上的数据。二、多元样本的数字特征定义3.9:设为来自元总体的样本,则1、样本均值向量为:2、样本离差阵为: 3、样本协差阵为:三、的最大似然估计及基本性质通过样本来估计总体参数叫参数估计,参数估计有各种不同的方法,各有其适用的场合。这里用最常用的且具有很多优良性质的最大似然法给出和的估计量。设来

21、自于正态总体样本容量为的样本,每个样本观察个指标,根据样本资料阵,用最大似然估计法求出和的估计量分别为:的估计量具有如下性质1、,即是的无偏估计; ,即不是的无偏估计,即是的无偏估计;2、分别是和的有效估计;3、或分别是和一致估计。 第五节 和的抽样分布一、样本均值向量的分布1、正态总体设,是从总体中抽到的一个样本,则样本均值的分布服从正态分布,即2、非正态总体在实际问题中,总体分布能够作正态近似的毕竟是少数,更多的总体分布不能用正态近似,甚至我们对总体的情况一无所知,这时,可借助中心极限定理,给出的抽样分布。中心极限定理:是来自总体的一个样本,该总体有均值和有限协方差阵,则当样本容量很大且相

22、对于也很大时,样本平均数的分布近似于正态分布,即二、样本离差阵的分布样本均值向量的分布服从正态分布,样本离差阵的分布服从怎样的分布呢?为解决这一问题,现给出维希特(Wishart)分布。维希特分布是统计学家Wishart在1928年推导出来的,维希特(Wishart)分布是用这位统计学家的名字命名的。定义3.10:设(),且相互独立,则由组成的随机矩阵:的分布称为非中心Wishart分布,记为:。其中,为非中心参数,当时称为中心Wishart分布,记为。当=1时,此时有,可见Wishart分布是分布在维正态情况下的推广。Wishart分布的基本性质:1、设(),且相互独立,则样本离差阵。2、若

23、,且相互独立,则3、若,为非奇异矩,则第六节 上机操作利用Excel的宏功能可以很方便的实现随机向量协方差阵和相关系数矩阵的计算。在利用描述统计宏功能之前,首先要加载“宏”,方法是:在Excel的“工具”菜单下,点击“加载宏”,出现加载宏对话框,在该对话框中,用鼠标选择可用的加载宏,确定后,在“工具”菜单下出现了“数据分析”,在数据分析对话框中,就可以实现随机向量协方差阵和相关系数矩阵的计算。 图3-1 加载宏对话框一、协方差阵的计算在Excel中实现以本章的例3.4为例加以说明。第一步:在Excel中输入数据。 图3-2 数据输入第二步:在“工具”菜单下,单击“数据分析”选项,在出现数据分析

24、对话框,如图3-3所示。图3-3 数据分析对话框第三步:在“分析工具”中选择“协方差”,确定后出现如图3-4的对话框。图3-4 协方差对话框 第四步:在协方差对话框的“输入区域”输入数据区域“B2:E32”,在输出选项中选择“输出区域”并输入“f2”,表示在f2单元格输出计算结果。待确定后,即可得出计算结果如图3-5所示。 图3-6 协方差的计算结果二、相关系数矩阵的计算在Excel中实现相关系数在Excel中实现的步骤如同协方差阵在Excel中实现,这里从略。三、均值阵(向量)的计算在SPSS中实现利用SPSS数据分析软件计算随机向量的均值阵的比Excel方便一些。(一)SPSS软件的简单介

25、绍。SPSS的数据录入和统计运算有窗口式和编程式两种。窗口式直观,与Excel的界面风格相同,为一般用户所熟悉,在这种方式下,可以实现绝大部分的统计运算和处理,后者则为高级用户所知晓,通过它可以进行更为复杂或特殊的计算。本书仅在窗口方式下进行操作运算。建立SPSS数据文件的第一步就是定义变量,现仍以本章的例3.4为例加以说明。进入SPSS界面后,可以发现它有Data View(数据视窗)和Variable View(变量视窗)两个界面。单击Variable View来到变量视窗,如图3-7。图3-7 SPSS的变量视窗在Name(变量名称)下输入“公司名称”,单击Type(变量类型),出现如图

26、3-8的变量类型对话框。、图3-8 变量类型对话框在所列的Numeric(数值型)、Comma(带逗号的数值型)、Dot(带圆点的数值型)、Scientific notat(科学计数法)、Data(日期型)、Dollar(带美元符号的数值型)、Custum currency(自定义型)、String(字符串型)中,一般场合多使用Numeric和String。由于公司名称要用汉字表示,所以,选择变量是String,按OK即可。而主营业务利润、营业利润、利润总额和净利润皆为Numeric的变量类型。图3-9 变量窗口对话框的内容输入对话框的Width(数据宽度)和Decimal(小数点位数)的缺省

27、值分别为8和2,但可以改变数据宽度和小数点位数。接着可以定义Lable(变量标签),因为SPSS的变量名长度为8个标准字符(4个汉字),因此,为了醒目和阅读的需要,可给出变量名更具体的说明,它就是变量标签。定义变量的下一个重要环节就是Values(变量值标签)。变量值标签实际上就是数据本身的含义,如果变量是主营业务利润,其涵义自然就靠输入的数值大小来表达,但若是性别之类的变量,如“性别”,为了录入方便,就可以用“1”代表“男性”,“0”代表女性,此时就需要定义变量值标签,单击该变量名称后面的“Values”单元格,出现图3-10对话框。图3-10 Value Labels对话框在上方的Value框中输入1,在下方的Value中输入男性,单击“Add”,在大方框中就出现1=“男性”,照此定义0=“女性”。如果需要改变或删除,单击大方框中的输入结果,分别选择“Chang”和“Remove”即可。如果已经定义了变量值标签,在菜单“View”下选择“Value Lable”起用变量值标签即可。此外,定义变量还有Missing(缺失值)、Columns(变量的显示宽度)、Align

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论