




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、多 元 统 计 分 析(1)题 目: 多元统计分析知识点目录第一章绪论11.1什么是多元统计分析11.2多元统计分析能解决哪些实际问题21.3主要内容安排2第二章多元正态分布22.1基本概念22.2多元正态分布的定义及基本性质81.(多元正态分布)定义92.多元正态变量的基本性质102.3多元正态分布的参数估计111.多元样本的概念及表示法122. 多元样本的数值特征123.和 的最大似然估计及基本性质154.wishart分布17第五章 聚类分析185.1什么是聚类分析185.2距离和相似系数191q型聚类分析常用的距离和相似系数202.r型聚类分析常用的距离和相似系数255.3八种系统聚类
2、方法261.最短距离法272.最长距离法303.中间距离法324.重心法355.类平均法376.可变类平均法387.可变法388.离差平方和法(word方法)38第六章判别分析396.1什么是判别分析396.2距离判别法401、两个总体的距离判别法402.多总体的距离判别法456.3费歇(fisher)判别法461.不等协方差矩阵两总体fisher判别法462.多总体费歇(fisher)判别法516.4贝叶斯(bayes)判别法581.基本思想582.多元正态总体的bayes判别法596.5逐步判别法611.基本思想612.引入和剔除变量所用的检验统计量623.bartlett近似公式6369
3、 第一章绪论1.1什么是多元统计分析在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。例如,要衡量一个地区的经济发展,需要观测的指标有:总产值(x1)、利润(x2)、效益(x3)、劳动生产率(x4)、万元生产值能耗(x5)、固定资产(x6)、流动资金周转率(x7)、物价(x8)、信贷(x9)及税收(x10)也就是说一个地区的经济发展,受多种指标共同作用的影响,我们把每一个指标看成一个随机变量,可以单独研究每个随机变量,但这只能揭示该地区经济发展的一个方面,更多的时候需要把把这诸个随机变量一起研究揭示多个随机变量对该地区经济发展的共同影响,以及揭示这些随机变量内在变化规律。例如,研究
4、某公司的经营状况,需要观测公司的财务指标有:每股净资产(x1)、净资产收益率(x2)、每股收益(x3)、每股现金流(x4)、负债率(x5)、流动比率(x6)及速动比率(x7)。可以单独研究每个随机变量,更多的时候需要把这诸个随机变量一起研究,揭示这些随机变量内在变化规律。多元统计分析研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。多元统计分析包括的主要内容:多元(正态)总体的参数估计和假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析、多重多元回归分析等。介绍多元统计分析方法时,需要的时候增加一些线性代数的知识。1.2多元统计分析能解决哪些实际问题经济
5、学:对我国32个省市自治区的社会情况进行分析。工业:服装厂生产服装。为了适应大多数顾客的需要,如何确定服装的主要指标及分类的型号。指标:身长、袖长、胸围、腰围、肩宽、肩厚等十几个指标(主要指标:长度、胖瘦)投资组合:1.3主要内容安排多元(正态)总体的参数估计、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等。上机操作。第二章多元正态分布2.1基本概念1.随机向量的概率分布定义1 将p个随机变量的整体称为p维随机向量,记为在多元统计分析中,仍然将所研究对象的全体称为总体。一元总体分布函数和分别密度定义:为随机变量x的概率分布,记为。离散型: k=1,2,3,; 连续型:1 ; 定义2
6、设是p维随机向量,它的多元分别函数定义为记为,其中记为。定义3 设是p维随机向量,若存在有限个或可列个p维数向量,,记 (k=1,2,3,),且满足,则称x为离散型随机向量,称(k=1,2,3,)为的概率分布。设p维随机向量,若存在一个非负函数,使得对一切,有则称x为连续随机向量,称为分布密度函数,易见1 , 例1试证函数为随机向量的密度函数。证:(1)易见(2)定义4 设是p维随机向量,称由q(0,则存在可逆矩阵t使与同时对角化。证明:b0,则存在可逆矩阵,使得 (b0,则b合同于单位矩阵i)易见是实对称矩阵,那么存在正交矩阵,使得是对角形矩阵,记,则。(预备知识)矩阵的微商设为是向量,为的
7、实函数。则关于的微商定义为, 若,则由上述定义,不难推出以下公式(1)若,则实际上,(2)若,则(3)若,为对称矩阵,则 设是第i个总体的第个样本,;。假定(所建立的)判别函数为记和分别是第i总体内的样本均值向量和样本协方差矩阵,则在上的样本均值和样本方差为, (此处)记为总的均值向量,则。1. fisher准则就是要选取系数向量c,使得(注意:是总体第i个总体中个的代表值(j=1,2,k),所以分子乘以;分子是组间方差,分母是组内方差。)达到最大,其中是认为的正加权系数,可以取先验概率系数。若取,将,代入上式,则有,其中e组内方差阵,a总体之间样本协方差矩阵。为求的最大值,根据极值存在的必要
8、条件,令,即即满足此式的为矩阵a、e的广义特征根,非零向量c是属于的一个广义特征向量。有非零解的充要条件是,可以求得a、e矩阵个非零广义特征根且,对应的单位特征向量记为(驻点:)(2012.11.6)于是可以构造个判别函数:其判别能力指标定义为:个判别函数的判别能力定义为则认为个判别函数就够了。有了判别函数,如何对待判样本分类?fisher判别法本身并没有给出最适合的分类方法,实际中常常用下面两类分类法。(1)当取时)不加权法若则判。 (画图说明)加权法将按大小次序排列,记为,相应的判别函数的标准差为,相应的总体记为,其中,令 (画图说明)则可作为与之间的分界点,如果x使得,则判,从而判。(2
9、)当取时)不加权法记对待判样本,计算若,则判,从而判。(此处给出的几何说明图)加权法(考虑每个判别函数的判别能力不同)记其中是由求出的广义特征根,若,则判,从而判。6.4贝叶斯(bayes)判别法1.基本思想条件概率 全概率公式。设构成样本空间的一个划分,则贝叶斯(bayes)公式此处为先验概率,为后验概率,为条件概率。(举例说明)设有k个总体,它们的先验概率分别为,各总体的密度函数为,观察到一个样本x,由bayes公式计算x来自第g总体的后验概率为(分母是常数)并且当时,判x来自第h总体。2.多元正态总体的bayes判别法(1)判别函数的导出使用bayes判别法作判别分析,需要知道待判总体的
10、先验概率和密度函数,若先验概率不好确定,可用样本频率代替,或者用代替,此时先验概率不起作用。p元正态分布密度函数为把代入的表达式中,因为我们只关心寻找使最大的g,而分时中的分母不论g为何值都是常数。当时,判x来自第h总体。取对数,并去掉中与g无关的项,记为当时,判x来自第h总体。(2)假设协方差矩阵相等中含有k个总体的协方差矩阵(逆矩阵及行列式),而且对于x还是二次函数,实际计算工作量大,进一步假定协方差矩阵相等,则中、与g无关,求最大值时可以去掉。可的如下线性判别函数和判别准则【】(关于x的线性判别函数)当时,判x来自第h总体。(3)计算后验概率【】因为其中是中与g无关的部分。(分母是常数)
11、作分类计算时,主要是根据判别式的大小,而不是后验概率,。6.5逐步判别法 前面介绍的判别法都是用全部变量建立判别式,一般来说各变量在判别式中的作用,有重要的、有可忽略不计的,应该把重要的变量留下来,忽略作用低微的,得到一个经济的判别式,也就是说筛选出判别能力显著的变量,逐步判别法可以做到这一点。1. 基本思想:采用“有进有出”的方法,逐步引入变量。每引入一个“重要”变量进入判别式,要检验原先引入变量判别能力的显著性,把不显著的剔除,然后在引入新的“重要”的变量,直至没有“重要”的变量可引入为止。2.引入和剔除变量所用的检验统计量设有k个正态总体,(协方差矩阵相同)第个总体抽得的样本(此处样本都
12、是行向量)假设接受h10,说明k个总体差异不显著,在此基础上建立的判别函数效果一般不显著,除非增加新的变量,拒绝h10,建立的判别式有意义。根据第三章检验h10的似然比统计量为检验h10的统计量(h10成立时,服从wilks分布)其中 ,反映组内方差,组内方差与组间方差之和, 越小,则组内方差小,组间方差大,则p个变量建立的判别函数的判别能力强。给定显著性水平,由分布确定临界值使得,拒绝域。由于wilks分布一般书上没有,可用近似公式。3.bartlett近似公式:(h10成立时,近似服从分布)rao近似公式:(h10成立时,近似服从f分布)(1) 引入变量检验统计量设样本都是p维的,若每个样
13、本的最后一个分量去掉,记为都是p-1维的。第(*)组的方差记为第(*)组的组内方差为,组间方差阵与总方差阵也是如此划分,即假设计算步,已经入选变量,今考察第步,添加一个新变量的判别能力,这个变量的组内离差矩阵和总离差矩阵分别记为和其中,。只要,则有 此时有其中,同样有其中,于是即 其中。越小,说明的引入增加了组间的方差,增强了判别能力。把代入rao近似式中,得到引入变量的检验统计量(h10成立时)越大,引入的判别能力越强。给定显著性水平,可得临界值,从而得到否定域。若实际值,则的判别能力显著,将判别能力显著的变量中最大的对应变量作为入选变量记为,(同时作对的消去变换。最大,则对应的最小)(2) 剔除变量的检验统计量检验零假设h20:的判别能力不显著(h20成立时) 此时在已经入选的所有变量中,找出具有最大(即最小)的一个变量进行检验。若,则认为的判别能力不显著,可把它从判别式中剔除。(并作相应的消去变换)1. 具体计算步骤(1) 准备工作)计算各总体中各变量的均值和总均值以及和)规定临界值和(2) 计算步骤假设已经计算了步,在判别式中引入某l个变量,设为,则第步计算内容如下:)计算全部入选变量的“判别能力”对已经入选变量计算,取最大的(即最小的),假设,作f检验(h20成立时)若,剔除,然后对和作消去变换,继续作剔除变量检验,直至没有变量可剔除为止。)计算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 本溪市明山区2024-2025学年小升初复习数学模拟试卷含解析
- 云南旅游职业学院《混凝土和砌体结构设计》2023-2024学年第二学期期末试卷
- 广西中远职业学院《形体训练与健美》2023-2024学年第一学期期末试卷
- 宁波财经学院《趣味逻辑学与人生智慧》2023-2024学年第二学期期末试卷
- 兴义民族师范学院《数字系统设计》2023-2024学年第二学期期末试卷
- 渤海理工职业学院《外国电影史》2023-2024学年第二学期期末试卷
- 柱上式无功补偿装置项目风险评估报告
- 广州科技贸易职业学院《心理学核心理论专题研究》2023-2024学年第一学期期末试卷
- 贵州体育职业学院《童装结构与工艺设计》2023-2024学年第二学期期末试卷
- 右江民族医学院《英语学术文献阅读》2023-2024学年第二学期期末试卷
- 【真题】2023年淮安市中考道德与法治试卷(含答案解析)
- (2024年)《蛙泳》说课稿
- 内镜中心护士长如何管理
- 养老保险9大知识讲座
- 太原市2024年高三一模(高三年级模拟考试一)英语试卷(含答案)
- 社区获得性肺炎临床路径全套
- 小学英语学科项目化学习案例-
- 微观经济学复习题
- 老年带状疱疹诊疗专家共识
- 现代汉语词汇学课件
- 大学课件-机电传动控制(完整)
评论
0/150
提交评论