已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 实用多元统计分析,7.1.1 引言 前述研究的总体(或观测指标)都是一个变量(一维)的情形。 研究一维随机变量的分布、数字特征等统计特性一元统计方法。 多元统计分析是运用概率论、数理统计线性代数和一元统计方法为基础来研究多维随机变量(指标)问题的一类数学方法,是一元统计学的推广。 在实际问题中,多维随机变量普遍存在。很多随机现象涉及到的变量不止一个,且这些变量间又存在一定的联系。,71 多元分析的基本概念,例:表11 12名学生5门课程的考试成绩,如果仅用一元统计方法作成绩分析,每次分析处理一门课程的成绩,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失的信息太多,分析的结果不能全面反映全年级的学习情况。 需要研究很多问题:用各科成绩的总和作为综合指标,来比较学生学习成绩的好坏;根据各科成绩相近程度对学生进行分类(如成绩好的和成绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之间的相关关系(如物理与数学成绩的关系,文科成绩与理科成绩的关系等); 都属于多元统计分析的研究内容。,多元分析是以p个变量的n次观测数据所组成的数据矩阵 为依据,对p维总体 进行统计推断的。,英国著名统计学家肯德尔(Kendall)在多元分析一书中把多元统计分析的研究内容和方法概括为以下几个方面: 简化数据结构(降维问题) 将复杂的数据结构通过变量代换等方式使相互依赖的变量(较多)变成(较少)互不相关的;或把高维空间的数据投影到低维空间,使问题简化而损失的信息又不太多。例如,主成分分析、因子分析等一类方法;,分类与判别(归类问题) 对所考察的观测点(变量)按相似程度进行分类(或归类)。如聚类分析、判别分析等; 变量间的相互联系 相互依赖关系:分析一个变量或几个变量的变化是否依赖于另一些变量的变化?如果是,建立变量间的定量关系式,并用于预测或控制回归分析; 变量间的相互关系:分析两组变量间的相互关系典型相关关系。 参数估计与假设检验 检验由多元总体参数表示的某种统计假设,据此证实假设条件的合理性。,7.1.2 多元统计分析的应用,教育学:体育运动项目的研究(因子分析); 医学:利用多元统计方法可建立诊断的准则(即专家系统); 气象学:气候预测,气候信息分析; 环境科学:大气污染问题(假设检验、回归分析); 地质学地质数学:矿石归类(判别分析); 考古学; 服装工艺; 经济学:经济现象分析,预测,实证研究; 工、农业:试验方案的优化; 社会科学:根据研究对象进行某种分类(聚类分析); 文学; 其它.,7.1.3 样本与常用统计量,多维随机向量(P381-P389) 多元统计分析的基本概念包括分布、数字特征、正态随机向量等,与一元统计分析类似有关概念如下: 统计总体G,用p个数量指标来刻画: 视X为一个p维随机变量。,对总体进行n次独立的观察(抽样)得到观测数据称为样本,每个称为样品,记为 矩阵 X称为原始数据矩阵或(多元)样本数据矩阵。,总体的均值向量、协方差矩阵、相关矩阵分别为 其中,多元统计分析的任务:,一是分析各观测数据之间的关系; 二是推断总体的某些性质。,常用统计量,样本均值(向量)、样本协方差矩阵、样本相关矩阵分别为,其中 是一元统计中样本统计量的自然推广。 对于i, j= 1,2,p, 有:,讲解例7.1(P270),定义7.1: 如果样品 的函数,满足 1) 2) 3) 则称是样品之间的距离。,7.1.4 距离,为测度p维空间两个样品之间的差异,对样品进行分类,引入”距离”。 数学上对距离(如欧氏距离)的三个公理: 非负性、对称性和三角不等式。,常用的距离,欧氏距离 不足之处:各分量的单位不同时,比较没有意义。 如考察患病指标(白血球数,体温),有三个样品 但从医学常识看,显然是个谬误。(“大数吃小数”,数值分析)。 因此要考虑各项数值的加权问题。,马氏距离 定义: 为样品之间的马氏距离; 为样品到总体的马氏距离。 其中:,V分别是总体G的均值向量和协方差。 离差大的分量在距离中相应削弱它的影响程度。 不足之处:马氏距离与测量单位无关,夸大了变化微小的变量的作用。,B模距离 对于给定的正定矩阵B,定义 为样品Xi与Xj之间的B模距离; 闵可夫斯基距离 为样品Xi与Xj之间的闵可夫斯基距离 q=2时为欧氏距离, q=1时为绝对距离, q=+时为切比雪夫距离。,讲解例7.2(P274),7.2 多元正态分布的参数估计与检验 7.2.1 预备知识,与一元类似,多元正态分布在多元统计分析中处于中心地位。 原因有三: 大量实际问题服从正态分布; 由中心极限定理,正态分布是其它分布的极限分布; 理论完善。,多元正态分布的定义: 设 其中 是相互独立的标准正态随机变量,则称 为p维正态随机向量,记为 其中 是常向量,A是pn的常数矩阵。 特别,基本性质,设总体 则 X的密度函数为 设 则,设 是总体X的样本,样本数据矩阵如前。 由样本得到关于未知参数 的似然函数为,主要结论,(1)(引理7.1)A与S有关系式 (2)(引理7.2) 证明:(见P276),(3)(引理7.3) 设 是总体 的样本,则样本均值 (4)(引理7.4) 设 ,令 则 证明:(见P277),7.2.2 参数和V的估计,定理7.1设总体 是X的样本,且np,则 1) 是的极大似然估计(引理7.2); 2)若已知,则 是V的极大似然估计; 3)若未知,则 是V的极大似然估计。,定理7.2 :设条件同前,则 1) 分别是和V的无偏估计; 2)分别是和V的最小方差无偏估计; 3)分别是和V的相合估计; 定理7.3 :设条件同前,则 是R的极大似然估计和相合估计。 例7.3 (P280),7.2.3 参数的检验,仅讨论均值的检验问题 (一)单个多元正态总体 的情形 其中0是已知的p维向量。 设 是总体的样本, 分别是样本均值向量和样本协方差矩阵。 构造假设的检验统计量,(1)当V已知时 回顾,p = 1时 当假设为真时, 。 为推广至多元,改写为,类比引入统计量 由引理7.4知,当 为真时, 当 为假时,D将会变大。因此,给定显著性水平,假设的拒绝域为,(2)当V未知时 用S取代V, 可以证明,当 为真时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 四年级数学(四则混合运算)计算题专项练习与答案汇编
- 电冰箱、空调器安装与维护电子教案 3.2 组装制冷系统
- 小学S版二年级语文下册教案设计
- DB11T 1249-2015 居住建筑节能评价技术规范
- 《电气控制系统设计与装调》教案 项目一-任务1:安全操作规程
- 剂量计产业深度调研及未来发展现状趋势
- 提供全球计算机网络用户接入服务行业经营分析报告
- 发光极管LE产业运行及前景预测报告
- 工业用X光装置产业运行及前景预测报告
- 人教版英语八年级上册 Unit10 期末训练-句子
- 英语语音教程ppt课件
- GS069电动工具直流调速电路
- 二十五项反措(汽机专业)
- (交通运输)智慧城市系列之智能交通系统(完整版)
- 全国教师信息管理系统信息变更修改操作方法
- 翻板滤池设计计算
- 理想别墅的数学_Colin R Microsoft W
- 电流互感器选用参考
- 附件2:跨境业务人民币结算收款说明
- 污水处理厂350KW分布式光伏发电项目初步设计方案
- 民航货物运输PPT课件
评论
0/150
提交评论