多元统计分析基础_第1页
多元统计分析基础_第2页
多元统计分析基础_第3页
多元统计分析基础_第4页
多元统计分析基础_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多样性多样性复杂性复杂性随机性随机性从看起来从看起来杂乱无章杂乱无章的数据中的数据中发现提炼发现提炼规律性的结论规律性的结论为什么学习多元统计分析良好的良好的专业训练专业训练必要的必要的统计分析工具统计分析工具多元统计研究的内容简化数据结构(降维问题)简化数据结构(降维问题) 将复杂的数据通过变量变化变得互补相关 将高维数据投影到低维空间(问题简化,信息丢失较少) 主成分分析 因子分析分类与判别(归类问题)分类与判别(归类问题)按照相似度进行分类 聚类分析 判别分析等 变量间的相互关系变量间的相互关系 回归分析 典型相关分析 多元数据统计推断多元数据统计推断 参数估计参数估计 假设检验假设检验

2、 多元统计的理论基础多元统计的理论基础 多元随机向量的分布及其性质多元随机向量的分布及其性质 抽样分布理论等抽样分布理论等 随着计算机的发展,多元统计已经在自然科学、随着计算机的发展,多元统计已经在自然科学、社会科学的各个领域得到广泛的应用。社会科学的各个领域得到广泛的应用。 教育学教育学 医学医学 气象学气象学 环境科学环境科学 地理学地理学 考古学考古学 服装工业服装工业 经济学经济学 农业农业 社会科学社会科学 文学文学 以及其他各个领域以及其他各个领域 多元统计的应用多元统计的应用在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过在自然界中,有些变量在每次观察前,不可能事先确

3、定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为大量反复观察,其取值又有一定的规律,这种变量称为。例例 (1). 掷骰子出现某点数的概率为掷骰子出现某点数的概率为1/6,若掷,若掷100次,则出现该点数的次,则出现该点数的次数次数X是随机变量是随机变量; (2). 332路公车每路公车每10分钟发一趟车,某人在随机的时间到达车站等分钟发一趟车,某人在随机的时间到达车站等车,则等车时间车,则等车时间X是随机变量。是随机变量。 X的所有可能取值是有限个或可列个。的所有可能取值是有限个或可列个。 最常见的一类非离散型随机变量。最常见的一类非离散型随机变量。 对连续型随机变量,考察事件对

4、连续型随机变量,考察事件aXb的概率。若存在非负的可的概率。若存在非负的可积函数积函数p(x),使得:对任意的,使得:对任意的a, b(ab),都有,都有 则称则称p(x)为随机变量为随机变量X的的 对所有随机变量对所有随机变量X,可以定义以下的概率分布函数,可以定义以下的概率分布函数F(x): ( )xF xP Xxp t dt ( )p xFx( )0( )1p xp x dxP(x)的性质:的性质:( )baP aXbp x dx收敛,则称收敛,则称E(X)为随机变量为随机变量X的的或或。xi:质点质点i的坐标;的坐标;pi: 质点质点i的质量的质量E(X): 质心坐标质心坐标设离散型随

5、机变量设离散型随机变量X的分布律为:的分布律为:,1,2,3,.iiP Xxpi若若1iiiE Xx p设设X为连续型随机变量,它的概率密度函数为为连续型随机变量,它的概率密度函数为p(x) ,若,若 E Xxp x dx收敛,则称收敛,则称E(X)为随机变量为随机变量X的的或或。小结:小结:E(X)反映随机变量反映随机变量X的统计平均性质,代表随机变量取值的一般水平的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体细节。或集中的位置,略去了随机变量概率分布规律的具体细节。设随机变量设随机变量X的均值为的均值为E(X),则:,则:2XD XE XE XXD

6、 X的方差:的标准差或均方差:对于离散型随机变量对于离散型随机变量X,其方差为:,其方差为:21iiiD XxE Xp对于连续型随机变量对于连续型随机变量X,其方差为:,其方差为: 2D XxE Xp x dx计算计算D(X)的简单公式:的简单公式:22D XE XE X小结:小结:D(X)反映随机变量反映随机变量X的相对于均值的相对于均值E(X)的偏的偏离程度,代表随机变量取值的分散性,也离程度,代表随机变量取值的分散性,也是统计平均的性质。是统计平均的性质。设随机变量设随机变量X的概率密度为:的概率密度为:2221( )2xp xex 其中其中- 0均为常数。称均为常数。称,记,记作作 :

7、均值;:均值; :方差:方差 =0; 2=1时,称为标准正态分布,记为时,称为标准正态分布,记为遵从正态分布的遵从正态分布的随机变量随机变量X,其正态分布函数为:,其正态分布函数为:2221()2txP Xxedtx 正态分布完全由其均值正态分布完全由其均值 和方差和方差 2决定决定;正态分布的概率密度函数曲线呈对称的正态分布的概率密度函数曲线呈对称的“钟形钟形”;经验规则(经验规则(3 准则):准则):0.682620.954530.9973PxPxPx689599 2 3 2 3 p(x)x2221( )2xp xe(population) 研究对象的某种特征值的全体组成的集合。研究对象的

8、某种特征值的全体组成的集合。用用X表示。表示。X1, X2, , Xn (sample) 在总体中选取部分有代表性的子集称为(随机)样本。在总体中选取部分有代表性的子集称为(随机)样本。 一个样本是来自总体一个样本是来自总体X的一组相互独立同的一组相互独立同X分布的随机变分布的随机变量。量。x1, x2, , xn 从总体从总体X随机抽取的一组随机抽取的一组观测值,常用观测值,常用x1, x2, , xn来表示来表示样本或样本值样本或样本值。 (statistical quantity) 设设X1, X2, , Xn为总体为总体X的的n个样本,个样本,g(x1, x2, , xn)为连为连 续

9、函数,则称续函数,则称g(X1, X2, , Xn) 为一个统计量。为一个统计量。显然,统计量显然,统计量g(X1, X2, , Xn)也是一个随机变量。也是一个随机变量。 总体均值总体均值 :刻划总体的平均取值:刻划总体的平均取值总体方差总体方差 2:刻划总体取值的分散(涨落)程度:刻划总体取值的分散(涨落)程度样本均值样本均值 :11niixxn样本方差样本方差s s:22111niisxxn2211niisxxn显然,样本均值显然,样本均值、样本方差都属于统计量。、样本方差都属于统计量。通常用样本均值通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。、样本方差作为总体均值、总体

10、方差的无偏估计量。无偏估计无偏估计:当当n取得充分大取得充分大,样本均值、样本方差分别逼近总体均值,样本均值、样本方差分别逼近总体均值和总体方差。和总体方差。或或(当当n较大时较大时)x 假定假定总体总体X的分布函数形式已知,对其中的某些参数进行估计。的分布函数形式已知,对其中的某些参数进行估计。 估计方法:矩估计估计方法:矩估计法、最小二乘法、最大似然法,法、最小二乘法、最大似然法, 从样本值出发从样本值出发,判断关于总体分布的某种假设是否成立。,判断关于总体分布的某种假设是否成立。 值用以衡量(或拒绝)原假设成立所需证据的指标。值用以衡量(或拒绝)原假设成立所需证据的指标。 值越小,否定原

11、假设的条件越高,不容易否定原假设;值越小,否定原假设的条件越高,不容易否定原假设; 值越大,否定原假设的条件越低,比较容易否定原假值越大,否定原假设的条件越低,比较容易否定原假设。设。 多元统计数据的图表示法 图形有助于对所研究数据的直观了解,一元或二元的数据都可以用图画出来,给研究人员一个直观理解。但是对于高维数据,在平面上用图画出来不是一件容易的事情。许多统计学家给出了多元数据的图示方法,但是对于这些方面的研究还处于不成熟的状态,到目前为止还没有公认的方法。书中介绍的是一些在当今比较流行的方法。 设变量的个数为p,观察的次数为n,第k次观察值记为( )12(,)1,2,kkkkpXxxxk

12、nN次观测数据组成的矩阵记为()ijn pXx例:考察北京、上海、陕西、甘肃四个省市人均消费支出情况,选取以下五项指标,具体数据如下表肉禽及制品肉禽及制品住房住房医疗保健医疗保健交通通讯交通通讯文娱用品文娱用品及服务及服务北京563.51227.78147.76253.99510.78上海678.92365.07112.82301.46465.88陕西237.38174.48119.78141.07245.57甘肃253.41136.13102.96108.13212.20 轮廓图的作图步骤为:在直角坐标系中,横坐标取p个点,以表示p个变量;对于给定的一个观测值,在p个点上的纵坐标与对应的变量

13、值取正比;连接p个点得一折线,既得该次观察值的一条轮廓线;对于n次观察值,每次都重复上述步骤,可画出n条折线,构成n次观察值的轮廓图。多元统计数据的图表示法多元统计数据的图表示法轮廓图轮廓图 雷达图的作图步骤为:作一个圆,并把此圆分为p等分;连接圆心和各分点,把这p条半径依次定义为各变量的坐标轴,并标以适当的刻度;对给定的一次观测值,把p个观测值分别标在相应的坐标轴上,然后将它们连成一个p边形;对于n次观察值,可画出n个p边形。多元统计数据的图表示法多元统计数据的图表示法雷达图雷达图多元统计数据的图表示法多元统计数据的图表示法调和曲线图调和曲线图 从数学的角度,较为完美的多元数据图表示的方法可能就是Andcews在1972年提出的三角多项式法,其思想是把多维空间中的一个点对应于二维平面上的一条曲线。1212345( ,) ,( )sincossin2cos22(- ,)pXpXx xxxftxtxtxtxtt设 维数据则对应的曲线是当 在区间上变化时,其轨迹就是一条曲线。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论