《应用统计分析》课件-第7章 相关分析与列联表分析_第1页
《应用统计分析》课件-第7章 相关分析与列联表分析_第2页
《应用统计分析》课件-第7章 相关分析与列联表分析_第3页
《应用统计分析》课件-第7章 相关分析与列联表分析_第4页
《应用统计分析》课件-第7章 相关分析与列联表分析_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章相关分析与列联表分析1、概述2、定量数据相关3、定序数据相关分析—Spearman秩相关系数4、定类数据相关分析—列联表分析5、SPSS使用举例12短视频获赞数与发表时间之间的关系不可置疑的是,短视频在获贵的数量与其内容和质量密切相关,除此之外,短视频的获赞数逐与什么因素有关呢?。本例将讨论短视频在24小时内的获赞总数与发表时间的相关关系,即研究这样的问题∶短视频在24小时内的获赞总数与其发表时间有关吗?它们之间相关的程度有多大?为解决上连问题,我们从某短视频播放平台收集了30名作者的视频获赞记录,这些作者的粉丝数量相近且发表的视频类型均为人物随拍引入案例3时刻获赞总数时刻获赞总数时刻获赞总数10:2538915:4223820:18161711:0125416:1057720:34159711:3530316:3775120:56115212:3245616:59125621:17128312:5353318:17182921:38112013:1478218:42213421:46115613:4895118:55186022:09154514:3757619:26244522:39206714:4938019:52188823:19143215:2127420:08177323:491021观察以上数据,我们发现,短视频的获赞数确实可能与发表的时间存在相关关系。为了科学地判断两者间的相关关系,需引入新的统计手段,即相关分析。引入案例第1节概述1、概念2、相关关系与函数关系47.1.1概念当一个或几个相互联系的变量取一定的数值时,与之相对应的另一变量的值虽然不能确定,但它仍按某种规律在一定的范围内变化。变量间的这种相互关系,称为具有不确定性的相关关系。5什么是相关关系?7.1.1概念因果关系是由于发生了某种原因,导致了特定的结果,而相关关系间不存在这样的原因和结果关系。6相关关系与因果关系7.1.1概念相关分析是讨论两个以上处于同等地位的随机变量间的相关关系的统计分析方法,其分析的对象为各个总体间具有某种联系的标志。按照被研究数据的数据结构,可将相关分析分为数值数据相关分析、定序数据相关分析以及定类数据相关分析。77.1.1概念根据变量特征以及研究背景的不同,可将数值数据相关分析大致分为简单相关分析、复相关分析以及偏相关分析。简单相关分析主要研究两个变量之间的相关关系复相关分析主要用于研究一个变量与另外两个以上变量之间的关系偏相关分析主要应用于控制一个变量的条件下,研究其他变量之间的相关关系。87.1.2相关关系与函数关系

9函数关系7.1.2相关关系与函数关系

10函数关系7.1.2相关关系与函数关系

11相关关系7.1.2相关关系与函数关系在相关关系下的散点图中,观测点并不全落于某一可观测的曲线之上,而将落于某一可观测的曲线周围。12相关关系第2节定量数据相关1、相关关系的描述与测度2、相关系数的显著性检验3、偏相关系数137.2.1相关关系的描述与测度为了更好地对以上问题进行分析。在进行相关分析时有两个假定:①变量之间呈线性关系;②研究的变量都是随机变量。为了更加直观地描述变量之间的相关关系,通常以散点图的形式进行变量间关系的表达。按照观测值的分布情况,散点图大致可分为完全正线性相关、正线性相关、完全负线性相关、负线性相关、非线性相关和不相关。14相关关系的描述7.2.1相关关系的描述与测度157.2.1相关关系的描述与测度16【例7.1】银行在全国各个省份设有分行,以贷款、咨询、信托等为主要业务赚取营业收入。为了实现预期的营业额涨幅,管理者希望利用银行业务的有关数据进行定量分析,从而指定合理的方案,以增加营业收入。该银行在30个地区的分行的年度营业数据。(单位∶百万元)散点图的应用7.2.1相关关系的描述与测度1730家银行部分数据展示(教材图7-4)7.2.1相关关系的描述与测度18作出散点图,如下图所示通过散点图,可以清晰地得到营业收入与营业支出、营业收入与资本性支出之间存在的相关关系。7.2.1相关关系的描述与测度

19相关关系的测度7.2.1相关关系的描述与测度

20相关关系的测度7.2.1相关关系的描述与测度

21相关关系的测度7.2.1相关关系的描述与测度

22相关系数五个性质7.2.1相关关系的描述与测度

237.2.1相关关系的描述与测度

247.2.1相关关系的描述与测度

25相关系数的经验解释7.2.1相关关系的描述与测度【例7.2】例7-1已通过散点图直观地得到了银行营业收入与营业支出、营业收入与资本性支出之间存在的相关关系,现我们通过计算相关系数来度量它们之间相关关系的强度。26相关系数的应用7.2.1相关关系的描述与测度解通过公式可得到如图所示的结果。可见,营业收入与营业支出的相关系数为0.934,营业收入与资本性支出的相关系数为0.975,因此可认为营业收入与营业支出、资本性支出是密切相关的。27相关系数的应用7.2.2相关系数的显著性检验

287.2.2相关系数的显著性检验

29相关系数的分布7.2.2相关系数的显著性检验

307.2.2相关系数的显著性检验

31分析步骤7.2.2相关系数的显著性检验

32

7.2.3偏相关系数在一个含有多个要素的系统中,简单相关系数不能够准确反映出变量间的相关关系,这时候采用偏相关系数往往可以得到理想的结果。例如,研究男性的体重与血压收缩压之间的关系,而血压收缩压不仅仅与男性的体重有关,还与年龄、身高等诸多因素相关,因此,在研究的过程中,要排除这些因素的干扰。在不考虑其他变量的基础上对两个要素之间的密切程度进行研究,这样计算得到的数值称为偏相关系数,也称部分相关系数。337.2.3偏相关系数

347.2.3偏相关系数35偏相关系数检验

7.2.3偏相关系数36偏相关系数应用【例7.4】某减肥茶销售商宣称肥胖将更容易引发心血管疾病,以此来促进其产品的销售。为获得广告宣传的理论依据,销售商欲通过研究体重对收缩压的影响来讨论肥胖与心血管疾病发病之间的关系。一般经验认为,在人的身高相同的情况下,收缩压与人的体重和年龄都有关系。现销售商收集了12名身高相同的男子的收缩压、体重及年龄数据,7.2.3偏相关系数37偏相关系数应用

78123298612936791213292145348112830671142474125431011574283135417111728851334264109267.2.3偏相关系数38偏相关系数应用

第3节定序数据相关分析

—Spearman秩相关系数39

Spearman秩相关系数40它是一个非参数性质(与总体分布无关)的秩统计参数。可用于度量更加广义的单调关系(不局限于线性关系)。斯皮尔曼秩相关系数分析定序数据的基本思想是在分析数据的过程中,将原始数据在计量尺度上进行降级,把数值型数据看作品质型数据来分析,利用原始数据的秩来度量变量间的相关关系。Spearman秩相关系数41

Spearman秩相关系数42

Spearman秩相关系数检验43

Spearman秩相关系数应用44

Spearman秩相关系数应用45

第4节定类数据相关分析

—列联表分析

467.4.1列联表的定义47

7.4.1列联表的定义48121212…1…2….••::•……

7.4.1列联表的定义49【例7.6】现某高校欲对大一到大四年级进行教学改革,此改革将会在一定程度上造成教师的授课模式、学生的考核方式以及成绩评定方法的改变,因此学校采用抽样调查的方法,从大一到大四年级抽取了共500名学生,以此来了解学生对改革的看法。调查结果如表所示。态度年级大一大二大三大四合计赞成教学改革72748581312不赞成教学改革38465549188合计110120140130500

50

列联表的分布

511.观察值的分布列联表的分布态度年级大一大二大三大四合计赞成教学改革72748581312行百分数/%

23.123.727.226.062.4列百分数/%65.461.760.762.3—总百分数/%14.414.817.016.2—不赞成教学改革38465549188行百分数/%0.2024.529.326.137.6列百分数34.638.339.337.7—总百分数/%7.69.211.09.8—合计/%11012014013050022.024.028.026.0100.0

52

列联表的分布态度年级大一大二大三大四合计赞成教学改革实际频数72748581312理论频数69758781不赞成教学改革实际频数38465549188理论频数41455349合计110120140130500

53

列联表独立性检验

54

列联表独立性检验

55

列联表独立性检验

56【例7.7】某制衣厂商的棉花分别从三个不同地区采购,按照棉花的马克隆值(棉花纤维细度与成熟度的综合指标)将棉花分为a、b、c等,其中a等品质最佳,b等次之,c等品质最差。现从这批棉花中随机抽取50吨进行检测,将满足不同等级的棉花重量分别列入下表中。列联表独立性检验的应用地区a等b等c等合计甲地区145322乙地区55414丙地区16714合计20161450

57

列联表独立性检验的应用地区a等b等c等合计甲地区14(8.8)5(7.04)3(6.16)22乙地区5(5.6)5(4.48)4(3.92)14丙地区1(5.6)6(4.48)7(3.92)14合计20161450解

58

列联表独立性检验的应用7.4.3列联表中的定性相关系数59

60

7.4.3列联表中的定性相关系数合计合计简化的2×2列联表61

7.4.3列联表中的定性相关系数62

7.4.3列联表中的定性相关系数63

7.4.3列联表中的定性相关系数64

7.4.3列联表中的定性相关系数65

7.4.3列联表中的定性相关系数66

7.4.3列联表中的定性相关系数67

7.4.3列联表中的定性相关系数68

三个相关系数应用7.4.3列联表中的定性相关系数69

7.4.3列联表中的定性相关系数70

7.4.4列联分析应注意的问题1.条件百分表的方向71

【例7.9】某教育结构欲研究参加第二课堂对中小学生在创意大赛中获奖情况的影响。设某创意大赛有5100名学生参加,获奖的学生有100名。如果从未获奖的学生中抽取2%,即对100名学生进行研究,则用相同比例从获奖学生中抽取的样本容量仅为2人。为满足研究的需要,现对获奖学生的抽样比扩大到1/2,即抽取50人。目前调查结果如表所示。7.4.4列联分析应注意的问题1.条件百分表的方向727.4.4列联分析应注意的问题学生获奖情况学生参加第二课堂的情况合计不曾参加第二课堂曾参加第二课堂获奖173350未获奖5446100合计7179150学生参加第二课堂与创意大赛获奖情况学生获奖情况学生参加第二课堂的情况合计不曾参加第二课堂曾参加第二课堂获奖23.94%41.77%50未获奖76.06%58.23%100合计7179150按学生参加第二课堂情况计算的百分表学生参加第二课堂的情况学生获奖情况合计获奖未获奖不曾参加第二课堂34%54%71曾参加第二课堂66%46%79合计50100150按学生获奖情况计算的条件百分表12737.4.4列联分析应注意的问题学生获奖情况学生参加第二课堂的情况合计不曾参加第二课堂曾参加第二课堂获奖23.94%41.77%50未获奖76.06%58.23%100合计7179150按学生参加第二课堂情况计算的百分表学生参加第二课堂的情况学生获奖情况合计获奖未获奖不曾参加第二课堂34%54%71曾参加第二课堂66%46%79合计50100150按学生获奖情况计算的条件百分表1对比表1、表2可以发现,学生参加第二课堂情况与获奖情况应存在因果关系,且学生参加第二课堂情况为自变量,学生获奖情况为因变量。若单元中以自变量方向计算条件百分数,表2比表1更加能够直观地表现出参加第二课堂对学生获奖情况的影响。274(1)当数据划分为两类时,通常要求每一类别的理论频数不少于5。例如,被调查者按照以往病史被分为未曾患过百日咳和患过百日咳两类,其中,患过百日咳的人数的理论频数小于5,因此不宜进行列联分析。7.4.4列联分析应注意的问题

以往病史未曾患过百日咳532531患过百日咳5475(2)当数据被划分为两个以上类别时,通常要求每一类别的理论频数小于5的比例不应超过20%,否则我们应将理论频数小于5的类别与相邻的类别合并。

例如,数据分为A、B、C、D、E和F类,其中,D类数据的理论频数为4小于5,但由于在该列联表中理论频数小于5的类别个数占比小于20%,因此我们依然可以对其直接进行分析。7.4.4列联分析应注意的问题

类别A2826B4947C1823D64E9288F2025合计21321376我们可以看到类别E、F和G类别的理论频数小于5,且在该列联表中,理论频数小于5的类别个数占比超过20%,因此我们需要将类别E、F和G合并后再进行列联分析。7.4.4列联分析应注意的问题

类别A3032B110113C8687D2324E52F54G41合计21321377第一步将时间以早上0点为原点进行排序并将排序后的序号代替每组中的时间数据,写入SPSS中,截取部分数据如下。第5节SPSS使用举例引入案例分析:短视频获赞数与发表时间之间的关系78第二步选择【分析】→【相关】→【双变量】,将左侧框内【时刻】及【获赞总数】选入【变量】框中,在【相关系数】一栏选中【斯皮尔曼】,在【显著性检验】一栏中选中双尾】、并在最后勾选【标记显著性相关性】,点击【确定】,即可得到如表所示的分析结果。第5节SPSS使用举例79第二步选择【分析】→【相关】→【双变量】,将左侧框内【时刻】及【获赞总数】选入【变量】框中,在【相关系数】一栏选中【斯皮尔曼】,在【显著性检验】一栏中选中双尾】、并在最后勾选【标记显著性相关性】,点击【确定】,即可得到如表所示的分析结果。第5节SPSS使用举例由输出结果可知相关系数为0.664,且P值小于显著性水平0.05,因此我们拒绝零假设,认为短视频在24小时内的获赞数与发表时间显著相关,这与例7.4中的结论是一致的。时刻获赞总数斯皮尔曼Rho时刻相关系数1.0000.664*Sig.(双尾)0.0000.000N

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论