版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元总体和多元样本第1页,课件共61页,创作于2023年2月从总体中随机抽取进行观测的对象叫做样本。
一个样本单元的观测结果(p个数值)可以看作这个p元变量的一次取值,第i号样本单元的第α个属性的观测结果记为xαi每个样本单元,例如第i号样本单元,可以得到p个观测值,用一个p维向量来表示。
因为p维向量是欧氏空间中的一个点,所以通常也把一个样本单元叫做一个(样本)点。因此,一个样本单元,一个p维向量,或p维空间中一个点,是同一个东西,分别为研究对象的实体,代数表示或几何表示。第2页,课件共61页,创作于2023年2月
对n个样本单元进行观测的全部结果,共有p×n个数据,为了方便,用一个矩阵来表示,
矩阵X是进行各种统计分析的基础资料,称为原始数据矩阵或(多元)样本数据。
第3页,课件共61页,创作于2023年2月例:总体(身高,体重,成绩)样本(n=4)第4页,课件共61页,创作于2023年2月二、定量数据和定性数据
变量基本上可以分为二类:
1.一类变量取值为实数,称为定量数据
例如长度、百分含量等,这一类变量的观测值称为定量数据。
2.另一类变量不是表示为数量,而是表示样本是否具有某种性质,但它们可数量化。
例如研究的对象是出生婴儿的比例,可以这样记录:当样本具有这种属性(例如为女婴)记为1,当样本没有这种属性(例如为男婴)时,记为0,这里的1或0并不表示观测对象的数量关系,只是表示观测对象具有某种属性。
这种观测数据叫做0、1型数据,或定性数据。
第5页,课件共61页,创作于2023年2月还有一种情况是变量的观测结果是表示某种等级的编号,例如某天的下雨情况可以分为无、小、中、大四个等级,自然可以用0、1、2、3分别表示这四个等级.这是界于定量数据与定性数据之间的一种数据(分级数字)。有时可以近似地把这类数据作定量数据处理,但更一般的是将它当成定性数据来处理。
用定性数据来表示这类分级数字的方法如下:用一个向量来表示,它的每个分量分别对应一个等级,某个分量取值0表示不属于这个等级,取值1表示属于这个等级,每个分量都是0或1。例如这天是小雨天气就可以表示成(0,1,0,0)。今后将会经常用到这种表示定性数据的定性化方法。第6页,课件共61页,创作于2023年2月例:总体(性别,籍贯(云、贵、川))样本(n=3)第7页,课件共61页,创作于2023年2月
定量数据也可以表示为定性数据,只要将它可能取值的结果分成n个等级,然后用上述增加变量维数的办法即可化为0、1型数据。第8页,课件共61页,创作于2023年2月三、多元随机变量的概念
一个多元总体可以看成一个多元变量,称为多元随机变量或称为随机向量。这个多元变量在每个样本单元上取一个向量值。在不同样本单元上取不同向量值.
随机向量的每一个分量,都是一个一元随机变量。随机向量是描述多元变量随机现象的基本工具。为此,我们需要讨论随机向量的分布函数及密度函数,一阶二阶矩的情况。第9页,课件共61页,创作于2023年2月
总之,如果考查一个p元总体,就是考查这个总体中每个对象的p个属性或者说考查一个p元随机变量(p维随机向量)。为此,需要从总体中随机地抽取n个对象(样本单元)进行观测,得到p×n个观测数据。多元统计分析的主要任务是
1.分析各观测数据之间的关系,
2.推断总体的某些性质。第10页,课件共61页,创作于2023年2月四、随机向量的分布函数及密度
设,,…,为p个随机变量,由它们组成的向量称做一个p维随机向量。这种随机向量在林业生产和科研中随处可见,如表示一株树木的高,表示其胸径,表示其材积,则就是一个随机向量。第11页,课件共61页,创作于2023年2月
描述随机变量最基本的工具是分布函数,类似地描述随机向量的最基本的工具也是分布函数。现在给出随机向量的分布函数的定义:设是一个随机向量,它的(多元)分布函数是:对任何上式也可以写成向量函数的形式:第12页,课件共61页,创作于2023年2月由定义容易验证,多元分布函数具有性质:
(1)是每个变量的单调非降右连续函数;(2)
(3)(4)例2.1若随机向量(
)的分布函数为容易验证,F(x,y)满足上面的四个性质。
第13页,课件共61页,创作于2023年2月若某个随机向量的取值为有限个或可列个向量(p维欧氏空间的点)则称为离散型的,下面是一个重要的离散型分布。若随机向量
满足下列条件:
(ⅰ),且;(ⅱ)若m1,m2,…,mn,为任意非负整数,且满足
m1+m2+…+mn=N,则有则称随机向量服从多项分布记作
x~P(N;p1,…,pn-1)。第14页,课件共61页,创作于2023年2月例:某遥感照片上,有林地占50%,水域占20%,岩裸地占30%,现从该照片中任意抽取100个象元,分别表示其中有林地,水域,岩裸地的象元数,则:
多项分布是二项分布的直接推广,当p=2时,就是二项分布。
第15页,课件共61页,创作于2023年2月设若存在一个非负的函数
使得
对于一切成立,则称
(或
)有分布密度函数,并称为连续型随机变量。一个p元变量的函数能作为中某个随机向量的分布密度,就有性质:
(ⅰ),(ⅱ)
第16页,课件共61页,创作于2023年2月若为的连续点,则式中为对应的分布函数。例2.2若随机向量有密度函数0<x1<1,0<x2<2,0<x3<容易验证它符合分布密度函数的两条性质。最重要的连续型多元分布——多元正态分布将在下章详细讨论。
第17页,课件共61页,创作于2023年2月
同样,p元分布密度函数也可写成向量函数的形式式中第18页,课件共61页,创作于2023年2月
五、总体平均向量(数学期望)
p元随机变量的数学期望,即此总体的平均向量,定义为其中为的第α分量的数学期望,或第19页,课件共61页,创作于2023年2月六、总体协方差矩阵
作为一元总体方差的推广,称下述p×p矩阵为p维总体的协方差矩阵:
其中对角线元素为的第α分量的方差非对角线元素为的第α第β分量的协方差:第20页,课件共61页,创作于2023年2月在多元统计分析中,经常要对随机向量进行线性变换。
所谓线性变换就是用一个新的随机向量代替原向量,使的每一个分量均为的各分量的线性组合。用矩阵形式可将线性变换写成:七、平均向量与协方差矩阵的性质
其中A一般是一个q×p矩阵,是q维随机向量,矩阵A叫做线性变换矩阵。
第21页,课件共61页,创作于2023年2月
对于线性变换,平均向量与方差有下述性质:(ⅰ)
(ⅱ)(ⅲ)特别,当A为1×p的矩阵,即行向量时,有
第22页,课件共61页,创作于2023年2月
八、两个随机向量的协方差矩阵若是p维随机向量是q维随机向量,称p×q矩阵为和的协方差矩阵,其中为与的协方差,即两个随机向量的协方差矩阵一般不是对称的第23页,课件共61页,创作于2023年2月注意,若令p+q维向量
,则
对于线性变换,协方差公式为特别第24页,课件共61页,创作于2023年2月§1.2多元样本一、概述
一般,我们总是无法得到多元总体的各项数字特征,而只能从我们所测定的样本出发确定其数字特征的估计值。
假定在p元总体中抽取了n个样本单元组成样本进行观测,得到多(p)元样本数据
第25页,课件共61页,创作于2023年2月
显然p元总体的每一个分量是一个一元总体,这个一元总体在所抽取的n个样本单元上的取值,就是矩阵X中的α行。也就是说多元样本数据中的每一行是一个一元总体的一个样本,因此可以定义相应的数字特征。例如样本平均数,样本标准差,样本协方差,样本相关系数等。作为一元样本统计量的直接推广,可以定义多元样本的统计量(向量或矩阵)。对于每一个定义,采用二种符号写出来:一般记号和矩阵记号,以便对照。
第26页,课件共61页,创作于2023年2月二、样本平均值(向量)
或
其中n为样本单元数,样本平均值就是各变量样本平均数组成的向量。
n个样本单元是p维空间中的n个点,样本平均值(作为一个点)就是n个(样本)点的重心。第27页,课件共61页,创作于2023年2月例:总体(身高,体重,成绩)样本(n=4)则样本平均值为:第28页,课件共61页,创作于2023年2月
为了方便,经常将每个原始数据减去该变量样本平均数后,用所得数据作为研究的出发点,新的数据(矩阵)叫做中心化数据(矩阵)。例如我们用表示中心化数据矩阵,则:
三、中心化数据
如果用表示元素全为1的列向量,即,那么中心化数据与原始数据之间的关系可以写成:第29页,课件共61页,创作于2023年2月例:样本(n=4)样本平均值为:中心化为第30页,课件共61页,创作于2023年2月四、标准化数据
由于原始数据矩阵中各行数字的单位不同,往往给数据分析造成一定困难,因此有时先将原始数据标准化,形成标准化数据。标准化数据,是将中心化数据矩阵中的各个数据除以该行的样本标准差得到的数据,即指下述矩阵中的数据:
第31页,课件共61页,创作于2023年2月其中,是原始数据矩阵中第α行的标准差。标准化数据矩阵可以用矩阵乘法由中心化数据矩阵算出来。即
以后,在不会经起混乱的情况下,原始数据矩阵、中心化数据矩阵或标准化数据矩阵,均可用X表示之。最后指出一个事实:中心化及标准化数据矩阵各行数字之和都是0。第32页,课件共61页,创作于2023年2月例:样本(n=4)样本平均值为:中心化为标准化样本各变量标准差为:第33页,课件共61页,创作于2023年2月五、离差(平方乘积和)矩阵Q和样本协方差矩阵S
离差(平方乘积和)矩阵
其中易见Q是对称矩阵,并且是非负定矩阵。第34页,课件共61页,创作于2023年2月例:样本(n=4)样本平均值为:中心化为离差平方和矩阵第35页,课件共61页,创作于2023年2月样本协方差矩阵
样本协方差矩阵是一元统计学中方差的直接推广。其中非对角线元素就是第α号变量和第β号变量的样本协方差,对角线元素sαα就是第α号变量的样本方差。显然,S也是非负定矩阵。第36页,课件共61页,创作于2023年2月例:样本(n=4)离差平方和矩阵协方差阵第37页,课件共61页,创作于2023年2月六、样本相关矩阵
其中矩阵中非对角元素是第α号变量与第β号变量的相关系数,对角线元素=1
R也是对称非负定阵,因为
第38页,课件共61页,创作于2023年2月七、二个样本的协方差矩阵
有时我们确定了二个样本的数据,每个样本都有n个单元,则称
为二个样本的协方差矩阵。其中为和的样本协方差,即
第39页,课件共61页,创作于2023年2月
样本协主差矩阵可以用矩阵相乘公式表示为
注意,二个样本的协方差矩阵一般不是对称的,即,并且当时,容易看出:第40页,课件共61页,创作于2023年2月八、平均值和协方差矩阵的数学期望
在一元统计学中,已经证明过样本平均数是总体平均数的无偏估计;是的无偏估计,将此结果用于多元总体得到:若分别为二个总体,则第41页,课件共61页,创作于2023年2月§1.3距离一、概述
在一个p元总体中观测了n个样本单元,得到原始数据(或已中心化后的数据,或已标准化后的数据),如何判断二个样本单元之间有多元的差异,进而判断二个样本之间有多大的差异。例如,在育种学中选择亲本时,希望在一定程度内使父本或母本之间有较大的差异。因此需要有一个数值中衡量这个差异。类似的问题在各专业中都可以举出很多,根据这种实际要求,在数学中抽象出一个概念叫做“距离”,用于描述样本之间的差异程度。第42页,课件共61页,创作于2023年2月二、距离的定义
根据上述直观的想法来分析距离应该满足如下一些要求:首先任何二个样本单元和之间的距离,应该是与相同时,也就是二样本单元之间无差异该距离才会为0,最后和之间的距离应等于和之间的距离。用数学语言可这样进行表达:
第43页,课件共61页,创作于2023年2月
定义如果第i号样本和第j号样本的函数满足:(ⅰ)当且仅当时,;(ⅱ)对一切,;(ⅲ)。就称dij是一种广义距离。显然,满足上面三个条件的函数有多种。因此可以定义多种广义距离,以适应不同的需要。在数学中往往还再加上一条要求,即(ⅳ)dij≤dik+dkj这是几何学中三角不等式的推广。满足上面四个条件的函数也有多种,下面列举一列常用距离的例子供参考。第44页,课件共61页,创作于2023年2月三、常用的几种统计距离(ⅰ)欧氏(Euchiled)距离就是几何数学中欧几里德空间中二点之间的距离。由欧氏空间的直观性,容易看出它满足上述距离的四个条件。此外,欧氏距离还具有我们所熟悉的下述一些性质:①平移不变性。用原始数据或中心化数据算出的样本点之间的距离相同.第45页,课件共61页,创作于2023年2月
②对正交变换U的不变性。这条性质是说对原空间中的任何两点和,通过正交变换U变为 则
因为正交变换也可以看成将空间的坐标轴进行一个旋转。因此,正交变换不会改变二点间的距离。第46页,课件共61页,创作于2023年2月(ⅱ)马氏(Mahalanobis)距离
欧氏距离虽然很有用,很也有明显的缺点。例如,当改变测量单位时,算出的距离数值就不相同。再则它将样本的不同属性(即各变量)之间的差别等同看待,有时不能满足实际要求,因为事物个体间不同属性的差异对于区别个体有着不同的重要性。
若X是原始数据,S是其协方差矩阵,
称为马氏距离第47页,课件共61页,创作于2023年2月
注意,马氏距离以及以下各种距离,均不是欧氏空间中二点之间的距离,但也可以直观地想象为用经过某种比例变换后算出的数字,当做二点间的距离。在统计学中,马氏距离具有很多优良的性质,这些性质可用数学语言叙述如下:①平移不变性。②对任意可逆线性变换的不变性。所谓可逆线性变换是指用一个可逆矩阵T,对任何一个点x进行变换Tx=y,而得到一个新点y间的距离不变。第48页,课件共61页,创作于2023年2月
若X是中心化数据矩阵,对每个点都进行了变换,那么变换以后的数据矩阵为:变换后的协方差矩阵为:变换后的二点之间的距离为:
第49页,课件共61页,创作于2023年2月中心化不改变马氏距离
用原始数据或中心化数据算出的样本点之间的马氏距离相同.第50页,课件共61页,创作于2023年2月例如,标准化数据是经可逆线性变换由中心化数据得到的。所以,由标准化数据和中心化数据算出的二点之间的马氏距离相同;二点之间马氏距离与原始数据的测量单位无关,因为测量单位的变换也是一种可逆线性变换。不仅如此,如果我们设计了p个新变量y1,,y2,…,yp代替原观测变量,只要新旧变量之间具有线性关系,则也不会改变二点之间的马氏距离。马氏距离虽然与测量单位无关,但它又会夸大缩小变量的作用,这是马氏距离在实用中的不足。第51页,课件共61页,创作于2023年2月(ⅲ)B模距离
任意取一个正定矩阵B,由
所算出的距离叫做B模距离。当B为单位矩阵I时,它就成为欧氏距离。当时,它又成为马氏距离。也可以取B为其他p×p的正定矩阵,以适应不同的要求。
第52页,课件共61页,创作于2023年2月例如,当各变量对区分样本有不同的作用时,可以给各变量以不同的权重。如果给第α变量赋于权重,这时就可采用B模距离,令:简言之,矩阵B的主对角线元素表示第α分量在区分样本时所占权重,非对角线元素则表示第α变量与第β变量的交互作用,在区分变量时只占权重的一半。第53页,课件共61页,创作于2023年2月(ⅳ)绝对距离
(ⅴ)切比雪夫(гебышев)距离
四、注释以上几种是比较常用的距离。它们主要用于定量数据的情况,有些也可用于定性数据的情况。以后还会出现一些特殊距离。我们还可以根据实际课题的要求,自己设计出具有不同性质的距离,以满足实际工作的要求。第54页,课件共61页,创作于2023年2月§1.4相似系数
也可以从另一个角度来描述样本间的差异,对第i号和第j号样本之间定义一个数字,使得当二样本之间差异越大时,越小,反之,二样本越相似,就越大。这样一个两点之间的函数称为样本和之间的相似系数,记为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢结构课程设计 2 b
- 设施规划课程设计感想
- 2024年中国普通胶二爪市场调查研究报告
- 2024至2030年中国超宽态背光补偿数码摄像机数据监测研究报告
- 机械课程设计欧拉公式
- 鲁迅文学课程设计
- 2024年中国酚醛层压胶木板市场调查研究报告
- 中国门窗市场深度调查研究报告(2024-2030版)
- 中国铁路贯通地线行业现状调研与竞争格局展望研究报告(2024-2030版)
- 中国金卡纸包装盒行业市场运营模式及未来发展动向预测研究报告(2024-2030版)
- 护士工作站系统发生故障时的应急预案与流程
- 【教师必备】部编版四上语文上册第第五单元【集体备课】
- 附件3-“三高共管六病同防”医防融合慢性病管理工作台账(参考模板)
- 石化项目设备及管道防腐保温施工方案
- Unit 1 Food comments 课件-高中英语外研版(2019)必修第二册
- 《安徒生童话》读书分享名著导读ppt
- 苏教版(SJ)2022~2023学年四年级数学(上册)期中质量检测试卷
- 提高六年级数学教学成绩的建议
- 安全隐患排查记录表
- 运动员个人信息表格
- 养老护理员中级培训精编ppt
评论
0/150
提交评论