![应用多元统计分析课件_第1页](http://file4.renrendoc.com/view5/M01/36/09/wKhkGGYRRyOAPx6FAAECJ9jB4LM031.jpg)
![应用多元统计分析课件_第2页](http://file4.renrendoc.com/view5/M01/36/09/wKhkGGYRRyOAPx6FAAECJ9jB4LM0312.jpg)
![应用多元统计分析课件_第3页](http://file4.renrendoc.com/view5/M01/36/09/wKhkGGYRRyOAPx6FAAECJ9jB4LM0313.jpg)
![应用多元统计分析课件_第4页](http://file4.renrendoc.com/view5/M01/36/09/wKhkGGYRRyOAPx6FAAECJ9jB4LM0314.jpg)
![应用多元统计分析课件_第5页](http://file4.renrendoc.com/view5/M01/36/09/wKhkGGYRRyOAPx6FAAECJ9jB4LM0315.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据收集和描述
第一节数据收集
第二节两变量图描述和量化分析
第三节多变量图描述
第四节上机实现
第一节数据收集
1.1.1一手和二手数据
一手数据(primarydata,也叫原始数据)是一些组织或个人为了某些特定的应用或研究目的,必须自己来收集的数据.二手数据(secondary
data)是其他人收集的(对于他们来说是一手数据),而你仅仅用它来进行分析或进行数据挖掘,该数据对你来说则是二手数据.常见的二手数据包括从期刊和网络上找到的,由政府、机构、公司、组织专门收集和维护的数据,比如:外汇牌价、房价、人口抽样调查结果等数据在开展一手数据收集前,要先调研一下是否已经有相应的二手数据存在.而在使用二手数据的过程中,要了解数据的来源及其真实和可靠程度,是否符合研究目的,以便恰当地进行分析并解释结果.试验数据和观测数据
试验数据(experimental
data)中的自变量取值是可以人为改变的.比如,通过调节冶炼金属的时间、温度和原料配比,寻找最佳组合条件,以炼成满足某些性能指标的金属材料;这类数据便于分析因果关系.实践中,我们遇到的绝大部分二手数据都是观测数据(observational
data).如跟踪观测研究吸烟与罹患癌症的关系等.这类数据的自变量不能随意调节,我们不能在身体健康状况完全类似的人中随机抽样,强迫一部分人吸烟而另一部分不吸,之后观测他们将来是否罹患癌症.
第一节数据收集
1.1.2数据的度量级别和类型
名义数据(nominaldata),也叫定性数据或分类数据(categoricaldata),是最低级形式的数据,我们可以对数据取值任意编号.如对婚姻状态,可以用1∼4或M,S,D和O分别标记,即是M(已婚),S(未婚),D(离婚)和O(其他)有序数据(ordinal
data)-比名义数据高一级别,数据的类别是有序的.如健康状态:1(非常健康),2(健康),3(一般),4(不健康)和5(非常不健康).
级别--从低到高包括:
区间数据(intervaldata)是有序的,而且任意两点的距离是可以精确度量出来的.如华氏(Fahrenheit)和摄氏(Celsius)温度.比率数据(ratiodata)有真正有意义的零点,度量级别最高.如体重、高度、距离、钱包里的钱数等等.口袋没钱,不管是美元还是人民币元,都是0.
第一节数据收集
数据的类型
定量数据(quantitivedata)-指可以用数字量化的数据,具体地又可以分为连续型(如身高)数据和离散型(如某路口每月交通事故次数)数据;定性数据(qualititivedata)-指取值分类别的数据,如性别为男女.定性数据可以是名义数据,也可以是有序数据.定量数据可以是区间数据,也可以是比率数据.从数据整体特点来看,数据类型还可以分为:横截面数据(cross-sectional)是在某个固定的时间点观测得到的一组数据,如某校大学生高考入学成绩;时间序列数据(timeseriesdata)和纵向数据(longitudinaldata)中,每个对象都有重复观测,这些重复观测可能是按某种顺序的不同的时间点或不同的状况采集的.许多社会和医学领域的前瞻群组跟踪研究(prospectivecohortstudy)和回顾群组调查研究(retrospectivecohortstudy)都在不同时间点有多次观测值.
第一节数据收集
1.1.3数据存放格式
截面数据的存放很简单.以用Excel进行数据收集整理为例,-可将第一行存放变量名(variable),-从第二行开始,每一行存放一个样品或对象的观测值,即一行数据对应一个样本观测.-每个变量名所对应的列为各样本点的观测值.
对于时间序列,前瞻群组跟踪研究数据和回顾群组调查研究数据,每一个观测对象可以在几个不同时间点有观测值,这种数据有两种存放方式:(1).每一个对象有几行观测值,常称长表格式(longform);(2).每一个对象仅有一行观测值,不同时间观测点用不同的变量名,常称短表或宽表格式(shortform或wideform).
对于一些整合后的列联表数据,也可以存成矩形表格形式.-可在变量名中添加一个频数(计数),-将表格中的数值放在这个频数变量所在的列.-这类数据在分析中通常要做加权处理.
第二节两变量图描述和量化分析
对于这个数据,我们一般会关心casual(临时用户人数)、regist(注册用户人数)或cnt(临时用户和注册用户人数之和)受天气和季节的影响情况,也就是把这三个定量变量之一看成因变量(dependentvariable),其他的定性或定量变量看为自变量(independentvariable),做回归分析.本节我们先就数据中的不同变量类型,介绍如何用图描述和简单量化分析了解变量之间的关系.
第二节两变量图描述和量化分析
其结果显示四个季节人数均值相等的零假设被拒绝,而且后三个季度各自的平均人数都分别显著高于第一季度的平均人数.
第二节两变量图描述和量化分析
二、量化分析在两个变量不相关(即变量的相关系数r=0)的零假设下,其中n是样本量.此检验与两个变量之间线性回归系数是否为零的假设检验是等价的,它们有相同的p值,详见第3章内容.结果表明,对于给定的显著性水平0.05,--
temp,atemp,windspd与cnt不相关的零假设被拒绝,
--但hum和cnt无关的零假设没被拒绝.--温度temp和体感温度atemp越高,人数cnt越多;--风速windspd越高,人数cnt越少.
一、图描述
观察两个定性变量之间的关系,如季节season和天气情况weathsit,可用列联表(contingencytable),也可用旁置或摞在一起的条形图通过比较各行(或列)观测频数是否成比例,判断两个定性变量取值之间是否独立.
1.2.3两个定性变量
第二节两变量图描述和量化分析
第三节多变量图描述
在用脸谱图对观测对象进行比较分析时,脸谱形状受各变量次序的影响很大.如果将本例中8个变量的次序换一下,得到的脸谱图会很不一样.另外,不同人关注的脸的部位有很大不同,有人在意胖瘦,有人在意五官.实践中脸谱图必须与聚类分析等量化分析方法结合使用.与脸谱图相比,雷达图和星图受变量排序和人为主观偏好的影响较小.注意:
第三节多变量图描述
1.3.3轮廓图--把多个变量(或样品)的取值放在同一个图中用线连起来,就是轮廓图(又称折线图).--图1.7展示了8个变量在31个地区的取值.--当然,我们也可以行列颠倒,画31条折线,以显示31个地区在8个变量(方面)的取值.它们都有助于比较31个地区取值的不同.--轮廓图的优点是直观明了,缺点是在变量或样品多的时候,折线易摞在一起,难以分清.
第三节多变量图描述
总之,各种图示方法虽然直观,但也容易受主观因素的影响.因此,实践中要与有关量化分析方法结合使用.得到图1.7的R语句
线性回归分析案例
第一节房地产公司预测房价
第二节Bikeshare数据
第三节上机实现因变量自变量定性定量或定性定量AnoVa线性回归定性(0-1两类)??定性(三类或以上,有序、无序)??离散(泊松分布)???:广义线性回归模型数据有解释变量和被解释变量,而且被解释变量是连续型数据,可以考虑线性回归模型.两个案例:1、问题导向,
需先找到影响房价的因素,收集数据,再建立预测房价的模型;2、数据导向的,利用现有的二手数据进行数据挖掘,看看数据中包含哪些有价值的信息.第一节房地产公司预测房价3.1.1数据介绍和初步分析3.1.2模型合理性检查3.1.3分类自变量的处理方法3.1.4其他改进模型的思路3.1.1数据介绍和初步分析FirstCity房地产公司想建立一个预测房价的模型,如何选择自变量呢?公司找一些部门经理开了一个头脑风暴讨论会,选出几个候选自变量,包括:房屋面积(sqf:平方英尺),房龄(age:年),卧房个数(bed),卫生间个数(bath)和车库车位个数(garage).还有其他一些变量,如房屋状况,也对房价有影响,但由于缺乏量化的数据,只能暂时去掉.从某区域两个月内卖出的居民住房中抽取了319个样本(firstcity1.csv),包括销售价格(price,Y,单位美元)和前面提到的5个自变量sqf,age,bed,bath,garage,部分数据见图3.1.1数据介绍和初步分析变量都看作连续变量,散点图和相关系数及其显著性表明,房屋价格与房屋面积、卧房个数、卫生间个数和车库车位个数线性正相关,与房龄负相关,而且相关系数是否为零的假设检验,在显著性水平0.001下统计显著.3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析第一节房地产公司预测房价第一节房地产公司预测房价3.1.1数据介绍和初步分析3.1.1数据介绍和初步分析3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.2模型合理性检查3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法3.1.3分类自变量的处理方法在其他变量取值相同时,
房屋面积(sqf)每增加1平方英尺,平均价格增加54.83美元,房龄(age)每增加1年,均价减少261.30美元;每多一车位(garage),均价增加26753.30美元;建在山坡上(1-foothill)的房子比建在平地上(0-flatland)的平均贵60578.05美元.3.1.3分类自变量的处理方法解释符合大家的认知,即山坡上因多挖地基会增加建筑费用,多要车位也会单独多加钱,而新房的价格都按面积计算价格,不会把卧室个数和卫生间个数代入价格计算公式.还有,模型中系数的正负符号也与单个变量分析的正负相关性一致,没有得到与通常认识相违背的结论.3.1.3分类自变量的处理方法买新房时,房价计算公式中都没有加入卧室和卫生间的个数,但当我们拿到数据时,发现卧室个数(bed)和卫生间个数(bath)分别与房屋价格有关,这主要是因为价格与面积(sqf)有关,而面积(sqf)又与卧室个数(bed)和卫生间个数(bath)有较强的相关性.3.1.3分类自变量的处理方法此模型中,房面积(sqf)、房龄(age)、车库车位数(garage)、建在山坡/平地上这4个变量相关性较弱,能够说固定其他变量不变时,某个自变量增加1个单位,因变量价格(Y)的变化.3.1.3分类自变量的处理方法相反,像3.1.1节模型I中房屋面积(sqf),卧房个数(bed)和卫生间个数(bath)之间有强相关性,很难说固定面积(sqf)和卫生间个数(bath)等不变,卧房个数(bed)增加一个,售价如何变化之类,因为每增加一个卧房数(bed),面积(sqf)肯定会增加,不可能不变.3.1.3分类自变量的处理方法3.1.1节模型I中有5个连续变量,共有6个参数,均方差为27350,而本节模型有3个连续变量,一个分类自变量,共5个参数,均方差为20250.本节模型的拟合效果比模型I要好.3.1.3分类自变量的处理方法应用中,不是自变量越多越好,应该尽量找各有特色的自变量,从不同角度解释因变量取值的差异.信息类似的自变量对解释因变量取值差异.不但没有帮助,还会产生不合理的参数估计值.3.1.4其他改进模型的思路虽然二倍标准差40650美元,比模型I的54700美元要小,但要做预测,误差还是比较大,现实中,还可考虑:(1)房屋是否有中央空调(centralairconditioning)?(2)房屋所在邮政编码,因编码不同价格也会很不同.(3)房屋建筑是一层,还是二层?房屋本身状况,能直接搬入,还是需要装修等.庭院是否做过专业美化设计(landscaping)?房屋的建筑材质等.第二节Bikeshare数据2012年Capital自行车租用公司每天租车人次数据及有关当天天气、季节等。
具体变量:dteday(日期),分类自变量season(季节,1-春,2-夏,3-秋,4-冬),mnth(月,1-12),holiday(是否节假日,0-否,1-是),weekday(星期几,0-6),workday(是否工作日,1-不是周末或节假日,0-是周末或节假日),weathsit(天气情况,1-晴,无云或少云或局部多云,2-有雾或多云,3-小雪或小雨等,4-大雪或大雨或大雾或冰雹等连续自变量temp(0-1,标准化后的温度),atemp(0-1,标准化后的体感温度),hum(0-1,标准化后的湿度),windspd(0-1,标准化后的风速).可能关心的因变量有casual(临时用户人数),regist(注册用户人数),cnt(临时用户和注册用户人数之和).我们关心因变量cnt,想建立线性回归模型描述因变量与其他自变量的关系.对于数据中的每个分类自变量,利用方差分析和单个分类自变量的回归分析查看cnt的取值是否与分类自变量取值有关,各类的平均差异如何.比如对season,读入数据X后,在R中运行M=lm(cnt~factor(season),data=X);anova(M);summary(M);
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年微商联盟合同
- 2025年工业园区合作创新协议范本
- 2025年企业绩效考核与奖励协议
- 2025年兼职人员合作协议样本
- 2025年全彩砖铺装施工合同样本
- 2025年度股权投资合作策划协议书范文
- 2025年朔州货运从业资格模拟考试
- 2025年物业服务质量策划修订协议书
- 2025年协商解除合作协议
- 2025年公立医院慢性疾病转诊转院协议
- 清华大学考生自述
- 新人教版初中初三中考数学总复习课件
- 机械制造有限公司组织架构图模板
- 哗啦啦库存管理系统使用说明
- 小学生读书卡模板
- 8.3 摩擦力 同步练习-2021-2022学年人教版物理八年级下册(Word版含答案)
- 初中足球选拔测试标准
- 《现代汉语词汇》PPT课件(完整版)
- 生理学教学大纲
- 环保铁1215物质安全资料表MSDS
- “君子教育”特色课程的探索
评论
0/150
提交评论