版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计学
Multivariatestatistics
沈琪shenqi@9/28/20231教师主讲教师:沈琪E-mail:shenqi@
课程介绍9/28/20232教材《多元统计分析与SPSS应用》,汪冬华等主编,华东理工大学出版社,2010年教参书籍《应用统计学》,张建同、孙昌言、王世进主编,清华大学出版社,2010年。《应用多元统计分析》,(德)沃尔夫冈·哈德勒,(比)利奥波德·西马著,陈诗一译,北京大学出版社,2011年。《应用统计学》,马庆国编著,科学出版社,2005年。《应用多元统计分析》朱建平主编,科学出版社,2006年。《多元统计分析》,何晓群编著,人民大学出版社,2008年。课程介绍9/28/20233课堂资料下载内容:补充资料、课件、案例讨论、教学大
纲、复习要点等。公共Email:Msta2013@163.com
密码:Msta2013
课程介绍9/28/20234内容安排第一讲多元描述统计分析和均值的比较检验第二讲方差分析第三讲相关分析第四讲聚类分析第五讲判别分析第六讲主成分分析第七讲因子分析第八讲典型相关分析实验教学课堂教学中穿插实验教学教学内容安排课程介绍9/28/20235多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于多个领域,已经成为解决实际问题的有效方法。随着Internet的日益普及,各行业、单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。引言9/28/20236引言显然,大量信息在给人们带来方便的同时也带来一系列问题。信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辩;信息组织形式的不一致性导致难以对信息进行有效统一处理;传统的数据库技术和数据处理手段已经不能满足要求;在Internet中进行信息的查找如大海捞针。9/28/20237引言多元分析的开端——1928年Wishart发表论文《多元正态总体样本协差阵的精确分布》;20世纪30年代R.A.Fisher、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作;20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响;20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法得到广泛得应用;20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大;20世纪70年代初期在我国才受到各个领域的极大关注。在20世纪末与本世纪初,多元统计与人工智能和数据库技术相结合,已在经济、商业、金融等行业得到了成功的应用。9/28/20238引言一
统计学的生命力在于应用统计学的发展过程中可以看出统计学产生于应用,它在应用中诞生,在应用中成熟、独立,在应用中扩充自身的方法内容,同时扩展了应用领域,又在应用中与其他学科紧密结合形成新的边缘学科。它的生命力在于应用。9/28/20239二
多元统计分析方法的应用引言9/28/202310引言—应用实例城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。9/28/202311在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。引言—应用实例9/28/202312第一讲
(一)多元描述统计分析
descriptive
statistics
沈琪shenqi@9/28/202313描述统计—基本概念总体是根据一定目的确定的所要研究的事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。总体单位(简称单位)是组成总体的各个个体。样本是由总体的部分单位组成的集合。标志总体各单位普遍具有的属性或特征。9/28/202314说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。离散型变量是指变量的其取值是整数值,可以一一列举。描述统计—基本概念9/28/202315描述统计—数据统计数据是总体单位标志或统计指标的具体数量表现。定类尺度定序尺度定距尺度定比尺度9/28/202316横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。描述统计—数据时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。9/28/202317描述统计—数据多元数据的表格形式设p个变量来记录事物的特征,对于每个个体或单位,记录下这些变量的测量值。我们用记号表示第i个样本上第j个变量的测量值,即xij=第j个变量的第i项测量值9/28/202318描述统计—数据多元数据的矩阵形式X=(xij)n×p9/28/202319例题分析描述统计—数据消费者物价指数(CPI)是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标。商品零售价格指数是反映一定时期内商品零售价格变动趋势和程度的相对数。两者都能为研究市场流通、进行国民经济核算提供依据。9/28/202320样本数据的矩阵形式为:描述统计—数据9/28/202321描述统计—统计量样本均值矩阵形式其中,9/28/202322样本协方差描述统计—统计量矩阵形式其中,事实上,sjk是变量j和k的协方差当j=k时,sjj是变量j的方差,也常记为sjk=skj,即S是对称矩阵。9/28/202323样本相关系数描述统计—统计量矩阵形式其中,R也为对称矩阵9/28/202324描述统计—数据标准化标准差标准化公式其中,此时9/28/202325描述统计—SPSS应用SPSS应用9/28/202326描述统计—统计图表统计表:把统计数据按一定的顺序排列在表格上,就形成了统计表。它清楚地、有条理地显示统计资料,直观地反映统计分布特征,是统计分析的一种重要工具。9/28/202327描述统计—统计图表利用统计图表示数据时,首先要确定数据所属类型是定性数据还是定量数据定性数据常用的图形表示:条形图饼图环形图定性数据常用的图形表示:直方图茎叶图箱线图散点图气泡图雷达图9/28/202328描述统计—案例分析案例9/28/202329第一讲
(二)均值的比较检验沈琪shenqi@9/28/202330推断样本与总体或者两个总体之间的差异是否显著均值的比较检验—作用9/28/202331均值的比较检验—实例在企业市场结构的研究中,起关键作用的指标有市场分额、企业规模、资本收益率、总收益增长率等。为了研究市场结构的变动,研究人员通常需要将调查所得的数据与历史数据进行比较。通过均值比较检验,就能比较出现在的市场结构与过去是否存在显著性差异。在临床上,医生需要对病人治疗前后的状况进行控制。例如通过对比一组病人使用某种药物后的身体指标,可以判断该药物对病人是否有效,效果是否显著。9/28/202332均值的比较检验—内容一
单一样本的均值检验二
独立样本的均值检验三
配对样本的均值检验9/28/202333-检验样本所在总体的均值与给定的已知值之间是否存在显著性差异单一样本均值的检验9/28/202334只对单一变量的均值加以检验如检验今年新生的统计学平均成绩是否和往年有显著差异;推断某地区今年的人均收入与往年的人均收入是否有显著差异等等。要求样本数据来自于服从正态分布的单一总体假设的基本形式:
当然也可以有单侧检验的假设形式。单一样本均值的检验9/28/202335单一样本均值的检验—基本步骤提出假设确定检验统计量若总体方差已知,此时可构造标准正态分布Z检验统计量通常总体方差都是未知的,此时总体方差由样本方差代替,采用t分布构造t检验统计量其中S为样本标准差,定义为做出统计推断9/28/202336!注意在SPSS中,给出的是总体方差未知时的t检验统计量,因为通常总体方差是未知的。单一样本均值的检验9/28/202337以学生的身高为例,已知某年级15个学生的身高数据,如表所示,检验其平均身高是否与整个年级的平均身高165cm相同序号123456789101112131415身高175174168173164169170166158165156152156168160单一样本均值的检验—案例9/28/202338提出假设:确定检验统计量:由于总体方差未知,因此采用t检验统计量经计算得:
=164.93,S=7.126,df=15-1=14,则该例为双侧检验,显著性水平α=0.05,查t分布表可得临界值。,说明t值落在接受区域内,即原假设与样本描述的情况无显著差异,不能拒绝原假设。因此可以得出结论:15个学生的平均身高与整个年级的平均身高无显著差异。 单一样本均值的检验—案例9/28/202339-比较两个独立没有关联的正态总体的均值是否有显著性差异独立样本均值的检验9/28/202340独立样本的均值检验,实质是总体均值是否相等的显著性检验如分析两个地区居民的人均收入、人均消费等指标是否存在显著性差异;男生与女生的身高是否存在显著性差异。要求两个样本来自的总体为正态分布,且相互独立如果两总体相互独立,则分别从两总体得到的样本也相互独立。因为要检验两总体的均值是否相等,需要通过样本进行检验,所以称为独立样本的均值检验。独立样本均值的检验9/28/202341提出假设确定检验统计量需要分为总体方差、是否已知两种情况进行讨论做出统计推断独立样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度农产品品牌推广与营销合同
- 2024年度国际市场品牌推广合同
- 2024年度压路机行业培训与人才交流合同
- 软骨替代品市场发展现状调查及供需格局分析预测报告
- 2024年度0KV变电站工程安全防护合同
- 球拍用保护罩市场发展预测和趋势分析
- 2024年度建筑设计与监理合同
- 2024年度兰州土地使用权转让合同
- 合成材料制圣诞树市场发展现状调查及供需格局分析预测报告
- 2024年度品牌方与带货主播合作推广特定商品的合同范本
- 心血管内科专业知识:冠状动脉粥样硬化性心脏病考试答案一
- 不履行合同告知函模板范文
- (新版)高级服装制版师考试题库(浓缩300题)
- 重大事故隐患判定标准培训记录、培训效果评估
- 《医疗物品多旋翼无人机运输技术规范(征求意见稿)》
- 初中科学-浙教版-专家讲座-初中科学复习策略
- 心理学:学前儿童发展心理学试题预测
- 艾滋病人的护理课件
- 珠海2024年广东珠海市总工会招聘社会化工会工作者7人笔试历年典型考题及考点附答案解析
- 2024版合同范本之二手车场地租赁合同
- 8队淘汰赛-对阵表
评论
0/150
提交评论