第一讲-多元描述统计分析和均值的比较检验_第1页
第一讲-多元描述统计分析和均值的比较检验_第2页
第一讲-多元描述统计分析和均值的比较检验_第3页
第一讲-多元描述统计分析和均值的比较检验_第4页
第一讲-多元描述统计分析和均值的比较检验_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计学

Multivariatestatistics

沈琪shenqi@2/5/20231教师主讲教师:沈琪E-mail:shenqi@

课程介绍2/5/20232教材《多元统计分析与SPSS应用》,汪冬华等主编,华东理工大学出版社,2010年教参书籍《应用统计学》,张建同、孙昌言、王世进主编,清华大学出版社,2010年。《应用多元统计分析》,(德)沃尔夫冈·哈德勒,(比)利奥波德·西马著,陈诗一译,北京大学出版社,2011年。《应用统计学》,马庆国编著,科学出版社,2005年。《应用多元统计分析》朱建平主编,科学出版社,2006年。《多元统计分析》,何晓群编著,人民大学出版社,2008年。课程介绍2/5/20233课堂资料下载内容:补充资料、课件、案例讨论、教学大

纲、复习要点等。公共Email:Msta2013@163.com

密码:Msta2013

课程介绍2/5/20234内容安排第一讲多元描述统计分析和均值的比较检验第二讲方差分析第三讲相关分析第四讲聚类分析第五讲判别分析第六讲主成分分析第七讲因子分析第八讲典型相关分析实验教学课堂教学中穿插实验教学教学内容安排课程介绍2/5/20235多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于多个领域,已经成为解决实际问题的有效方法。随着Internet的日益普及,各行业、单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。引言2/5/20236引言显然,大量信息在给人们带来方便的同时也带来一系列问题。信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辩;信息组织形式的不一致性导致难以对信息进行有效统一处理;传统的数据库技术和数据处理手段已经不能满足要求;在Internet中进行信息的查找如大海捞针。2/5/20237引言多元分析的开端——1928年Wishart发表论文《多元正态总体样本协差阵的精确分布》;20世纪30年代R.A.Fisher、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作;20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响;20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法得到广泛得应用;20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大;20世纪70年代初期在我国才受到各个领域的极大关注。在20世纪末与本世纪初,多元统计与人工智能和数据库技术相结合,已在经济、商业、金融等行业得到了成功的应用。2/5/20238引言一

统计学的生命力在于应用统计学的发展过程中可以看出统计学产生于应用,它在应用中诞生,在应用中成熟、独立,在应用中扩充自身的方法内容,同时扩展了应用领域,又在应用中与其他学科紧密结合形成新的边缘学科。它的生命力在于应用。2/5/20239二

多元统计分析方法的应用引言2/5/202310引言—应用实例城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。2/5/202311在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。引言—应用实例2/5/202312第一讲

(一)多元描述统计分析

descriptive

statistics

沈琪shenqi@2/5/202313描述统计—基本概念总体是根据一定目的确定的所要研究的事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。总体单位(简称单位)是组成总体的各个个体。样本是由总体的部分单位组成的集合。标志总体各单位普遍具有的属性或特征。2/5/202314说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。离散型变量是指变量的其取值是整数值,可以一一列举。描述统计—基本概念2/5/202315描述统计—数据统计数据是总体单位标志或统计指标的具体数量表现。定类尺度定序尺度定距尺度定比尺度2/5/202316横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。描述统计—数据时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。2/5/202317描述统计—数据多元数据的表格形式设p个变量来记录事物的特征,对于每个个体或单位,记录下这些变量的测量值。我们用记号表示第i个样本上第j个变量的测量值,即xij=第j个变量的第i项测量值2/5/202318描述统计—数据多元数据的矩阵形式X=(xij)n×p2/5/202319例题分析描述统计—数据消费者物价指数(CPI)是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标。商品零售价格指数是反映一定时期内商品零售价格变动趋势和程度的相对数。两者都能为研究市场流通、进行国民经济核算提供依据。2/5/202320样本数据的矩阵形式为:描述统计—数据2/5/202321描述统计—统计量样本均值矩阵形式其中,2/5/202322样本协方差描述统计—统计量矩阵形式其中,事实上,sjk是变量j和k的协方差当j=k时,sjj是变量j的方差,也常记为sjk=skj,即S是对称矩阵。2/5/202323样本相关系数描述统计—统计量矩阵形式其中,R也为对称矩阵2/5/202324描述统计—数据标准化标准差标准化公式其中,此时2/5/202325描述统计—SPSS应用SPSS应用2/5/202326描述统计—统计图表统计表:把统计数据按一定的顺序排列在表格上,就形成了统计表。它清楚地、有条理地显示统计资料,直观地反映统计分布特征,是统计分析的一种重要工具。2/5/202327描述统计—统计图表利用统计图表示数据时,首先要确定数据所属类型是定性数据还是定量数据定性数据常用的图形表示:条形图饼图环形图定性数据常用的图形表示:直方图茎叶图箱线图散点图气泡图雷达图2/5/202328描述统计—案例分析案例2/5/202329第一讲

(二)均值的比较检验沈琪shenqi@2/5/202330推断样本与总体或者两个总体之间的差异是否显著均值的比较检验—作用2/5/202331均值的比较检验—实例在企业市场结构的研究中,起关键作用的指标有市场分额、企业规模、资本收益率、总收益增长率等。为了研究市场结构的变动,研究人员通常需要将调查所得的数据与历史数据进行比较。通过均值比较检验,就能比较出现在的市场结构与过去是否存在显著性差异。在临床上,医生需要对病人治疗前后的状况进行控制。例如通过对比一组病人使用某种药物后的身体指标,可以判断该药物对病人是否有效,效果是否显著。2/5/202332均值的比较检验—内容一

单一样本的均值检验二

独立样本的均值检验三

配对样本的均值检验2/5/202333-检验样本所在总体的均值与给定的已知值之间是否存在显著性差异单一样本均值的检验2/5/202334只对单一变量的均值加以检验如检验今年新生的统计学平均成绩是否和往年有显著差异;推断某地区今年的人均收入与往年的人均收入是否有显著差异等等。要求样本数据来自于服从正态分布的单一总体假设的基本形式:

当然也可以有单侧检验的假设形式。单一样本均值的检验2/5/202335单一样本均值的检验—基本步骤提出假设确定检验统计量若总体方差已知,此时可构造标准正态分布Z检验统计量通常总体方差都是未知的,此时总体方差由样本方差代替,采用t分布构造t检验统计量其中S为样本标准差,定义为做出统计推断2/5/202336!注意在SPSS中,给出的是总体方差未知时的t检验统计量,因为通常总体方差是未知的。单一样本均值的检验2/5/202337以学生的身高为例,已知某年级15个学生的身高数据,如表所示,检验其平均身高是否与整个年级的平均身高165cm相同序号123456789101112131415身高175174168173164169170166158165156152156168160单一样本均值的检验—案例2/5/202338提出假设:确定检验统计量:由于总体方差未知,因此采用t检验统计量经计算得:

=164.93,S=7.126,df=15-1=14,则该例为双侧检验,显著性水平α=0.05,查t分布表可得临界值。,说明t值落在接受区域内,即原假设与样本描述的情况无显著差异,不能拒绝原假设。因此可以得出结论:15个学生的平均身高与整个年级的平均身高无显著差异。 单一样本均值的检验—案例2/5/202339-比较两个独立没有关联的正态总体的均值是否有显著性差异独立样本均值的检验2/5/202340独立样本的均值检验,实质是总体均值是否相等的显著性检验如分析两个地区居民的人均收入、人均消费等指标是否存在显著性差异;男生与女生的身高是否存在显著性差异。要求两个样本来自的总体为正态分布,且相互独立如果两总体相互独立,则分别从两总体得到的样本也相互独立。因为要检验两总体的均值是否相等,需要通过样本进行检验,所以称为独立样本的均值检验。独立样本均值的检验2/5/202341提出假设确定检验统计量需要分为总体方差、是否已知两种情况进行讨论做出统计推断独立样本均值的检验—步骤2/5/202342若总体方差已知,可构造标准正态分布Z检验统计量独立样本均值的检验—检验统计量2/5/202343独立样本均值的检验—检验统计量若总体方差未知,可构造t检验统计量当时,构造的t检验统计量为:

式中,,、分别为两样本标准差。2/5/202344当时,构造的t检验统计量为:检验统计量仍服从t分布,其修正的自由度为:独立样本均值的检验—检验统计量2/5/202345在统计分析中,如果两个总体的方差相等,则称之为满足方差齐性。确定两个独立样本的方差是否相等,是构造和选择检验统计量的关键,因此在决定要用哪一个t统计量公式前,必须进行方差齐性的检验。SPSS中利用LeveneF方差齐性检验方法检验两个独立总体的方差是否存在显著性差异。!注意独立样本均值的检验2/5/202346提出假设确定检验统计量采用的是F检验统计量做出统计推断拒绝域为:方差齐性的检验步骤2/5/202347仍以学生的身高为例,比较男生和女生的平均身高是否相等。男生12345678身高175174168164173169170166女生1234567身高158165156152156160168独立样本均值的检验—实例2/5/202348独立样本均值的检验—实例第一步,进行方差齐性检验已知:n1=8,n2=7。经计算:于是,检验统计量F的值为:取显著性水平α=0.05,查F分布表得临界值为说明F值落在接受区域内,即不能拒绝原假设,认为男生的身高的方差与女生的身高的方差无显著差异。2/5/202349第二步,在方差齐性的假定下,进行均值的比较检验此时,取显著性水平=0.05,进行双侧检验,查t分布表可得临界值。,说明t值落在拒绝区域内,应该拒绝原假设。因此可以得出结论:男生和女生的平均身高有显著差异。独立样本均值的检验—实例2/5/202350-比较两个配对总体的均值是否有显著性差异配对样本均值的检验2/5/202351指不同的均值来自具有配对关系的不同样本,此时样本之间具有相关关系,配对样本的两个样本值之间的配对是一一对应的,并且两个样本具有相同的容量。如,一组病人治疗前和治疗后身体的指标;一个年级学生的期中成绩和期末成绩等等。配对样本均值的检验什么是配对样本2/5/202352配对样本的数据形式配对样本均值的检验观察序号样本1样本2差值1x1y1D1=x1-y12x2y2D2=x2-y

2MMMMixiyiDi=xi

-y

iMMMMnxny

nDn=xn-y

n2/5/202353配对样本均值的检验基本思想配对样本均值的检验就是根据两个配对样本,推断两个总体的均值是否存在显著性差异。其基本思想是:先求出每对配对样本的观测值之差,形成一个新的单样本,再对差值求均值,检验差值的均值是否为0。若两个样本的均值没有显著性差异,则样本之差的均值就接近为0,这类似于单一样本均值的检验。配对样本均值的检验也叫作配对样本的t检验(Paired-SamplesTTest)。2/5/202354检验步骤提出假设确定检验统计量做出统计推断配对样本均值的检验2/5/202355配对样本均值的检验检验统计量配对样本均值检验要求两个样本的差值服从正态分布。总体差值D服从正态分布,为总体差值的均值。t检验统计量为:式中,S为样本差值的标准差,定义为:。2/5/202356配对样本均值的检验例题分析

一个以减肥为主要目标的健美俱乐部声称,参加其训练班至少可以使减肥者平均体重减重8.5kg以上。为了验证该宣称是否可信,调查人员随机抽取了10名参加者,得到他们的体重记录如下表:在α=0.05的显著性水平下,调查结果是否支持该俱乐部的声称?训练前94.5101110103.59788.596.5101104116.5训练后8589.5101.5968680.58793.593102左侧检验2/5/202357配对样本均值的检验样本差值计算表训练前训练后差值Di94.5101110103.59788.596.5101104116.58589.5101.5968680.58793.5931029.51189.57.51114.5合计—98.5配对样本的t检验(例题分析)2/5/20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论