应用多元统计分析1_第1页
应用多元统计分析1_第2页
应用多元统计分析1_第3页
应用多元统计分析1_第4页
应用多元统计分析1_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用多元统计分析

趙博娟编著

参考书目:《从数据到结论》,吴喜之编著,中国统计出版社BusinessStatistics:ADecision-makingApproach(D.F.Groebner&P.W.Shannon)《Applied

Multivariate

Statistical

Analysi》第6版,R.A.JohnsonandD.W.Wichern清华大学出版社,2008。《应用多元统计分析》,高惠旋编著,北京大学出版社,2005。《多元统计分析》何晓群编著,中国人民大学出版社。

第一章数据收集和描述

第一节数据收集

第二节两变量图描述和量化分析

第三节多变量图描述

第四节上机实现

第一节数据收集

1.1.1一手和二手数据

一手数据(primarydata,也叫原始数据)是一些组织或个人为了某些特定的应用或研究目的,必须自己来收集的数据.二手数据(secondary

data)是其他人收集的(对于他们来说是一手数据),而你仅仅用它来进行分析或进行数据挖掘,该数据对你来说则是二手数据.常见的二手数据包括从期刊和网络上找到的,由政府、机构、公司、组织专门收集和维护的数据,比如:外汇牌价、房价、人口抽样调查结果等数据在开展一手数据收集前,要先调研一下是否已经有相应的二手数据存在.而在使用二手数据的过程中,要了解数据的来源及其真实和可靠程度,是否符合研究目的,以便恰当地进行分析并解释结果.试验数据和观测数据

试验数据(experimental

data)中的自变量取值是可以人为改变的.比如,通过调节冶炼金属的时间、温度和原料配比,寻找最佳组合条件,以炼成满足某些性能指标的金属材料;这类数据便于分析因果关系.实践中,我们遇到的绝大部分二手数据都是观测数据(observational

data).如跟踪观测研究吸烟与罹患癌症的关系等.这类数据的自变量不能随意调节,我们不能在身体健康状况完全类似的人中随机抽样,强迫一部分人吸烟而另一部分不吸,之后观测他们将来是否罹患癌症.

第一节数据收集

1.1.2数据的度量级别和类型

名义数据(nominaldata),也叫定性数据或分类数据(categoricaldata),是最低级形式的数据,我们可以对数据取值任意编号.如对婚姻状态,可以用1∼4或M,S,D和O分别标记,即是M(已婚),S(未婚),D(离婚)和O(其他)有序数据(ordinal

data)-比名义数据高一级别,数据的类别是有序的.如健康状态:1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).

级别--从低到高包括:

区间数据(intervaldata)是有序的,而且任意两点的距离是可以精确度量出来的.如华氏(Fahrenheit)和摄氏(Celsius)温度.比率数据(ratiodata)有真正有意义的零点,度量级别最高.如体重、高度、距离、钱包里的钱数等等.口袋没钱,不管是美元还是人民币元,都是0.

第一节数据收集

数据的类型

定量数据(quantitivedata)-指可以用数字量化的数据,具体地又可以分为连续型(如身高)数据和离散型(如某路口每月交通事故次数)数据;定性数据(qualititivedata)-指取值分类别的数据,如性别为男女.定性数据可以是名义数据,也可以是有序数据.定量数据可以是区间数据,也可以是比率数据.从数据整体特点来看,数据类型还可以分为:横截面数据(cross-sectional)是在某个固定的时间点观测得到的一组数据,如某校大学生高考入学成绩;时间序列数据(timeseriesdata)和纵向数据(longitudinaldata)中,每个对象都有重复观测,这些重复观测可能是按某种顺序的不同的时间点或不同的状况采集的.许多社会和医学领域的前瞻群组跟踪研究(prospectivecohortstudy)和回顾群组调查研究(retrospectivecohortstudy)都在不同时间点有多次观测值.

第一节数据收集

1.1.3数据存放格式

截面数据的存放很简单.以用Excel进行数据收集整理为例,-可将第一行存放变量名(variable),-从第二行开始,每一行存放一个样品或对象的观测值,即一行数据对应一个样本观测.-每个变量名所对应的列为各样本点的观测值.

对于时间序列,前瞻群组跟踪研究数据和回顾群组调查研究数据,每一个观测对象可以在几个不同时间点有观测值,这种数据有两种存放方式:(1).每一个对象有几行观测值,常称长表格式(longform);(2).每一个对象仅有一行观测值,不同时间观测点用不同的变量名,常称短表或宽表格式(shortform或wideform).

对于一些整合后的列联表数据,也可以存成矩形表格形式.-可在变量名中添加一个频数(计数),-将表格中的数值放在这个频数变量所在的列.-这类数据在分析中通常要做加权处理.

第二节两变量图描述和量化分析

对于这个数据,我们一般会关心casual(临时用户人数)、regist(注册用户人数)或cnt(临时用户和注册用户人数之和)受天气和季节的影响情况,也就是把这三个定量变量之一看成因变量(dependentvariable),其他的定性或定量变量看为自变量(independentvariable),做回归分析.本节我们先就数据中的不同变量类型,介绍如何用图描述和简单量化分析了解变量之间的关系.

第二节两变量图描述和量化分析

其结果显示四个季节人数均值相等的零假设被拒绝,而且后三个季度各自的平均人数都分别显著高于第一季度的平均人数.

第二节两变量图描述和量化分析

二、量化分析在两个变量不相关(即变量的相关系数r=0)的零假设下,其中n是样本量.此检验与两个变量之间线性回归系数是否为零的假设检验是等价的,它们有相同的p值,详见第3章内容.结果表明,对于给定的显著性水平0.05,--

temp,atemp,windspd与cnt不相关的零假设被拒绝,

--但hum和cnt无关的零假设没被拒绝.--温度temp和体感温度atemp越高,人数cnt越多;--风速windspd越高,人数cnt越少.

一、图描述

观察两个定性变量之间的关系,如季节season和天气情况weathsit,可用列联表(contingencytable),也可用旁置或摞在一起的条形图通过比较各行(或列)观测频数是否成比例,判断两个定性变量取值之间是否独立.

1.2.3两个定性变量

第二节两变量图描述和量化分析

第三节多变量图描述

在用脸谱图对观测对象进行比较分析时,脸谱形状受各变量次序的影响很大.如果将本例中8个变量的次序换一下,得到的脸谱图会很不一样.另外,不同人关注的脸的部位有很大不同,有人在意胖瘦,有人在意五官.实践中脸谱图必须与聚类分析等量化分析方法结合使用.与脸谱图相比,雷达图和星图受变量排序和人为主观偏好的影响较小.注意:

第三节多变量图描述

1.3.3轮廓图--把多个变量(或样品)的取值放在同一个图中用线连起来,就是轮廓图(又称折线图).--图1.7展示了8个变量在31个地区的取值.--当然,我们也可以行列颠倒,画31条折线,以显示31个地区在8个变量(方面)的取值.它们都有助于比较31个地区取值的不同.--轮廓图的优点是直观明了,缺点是在变量或样品多的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论