第10讲 散点图、相关系数_第1页
第10讲 散点图、相关系数_第2页
第10讲 散点图、相关系数_第3页
第10讲 散点图、相关系数_第4页
第10讲 散点图、相关系数_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、假设检验假设检验假设检验就是事先对总体参数或总体分布形式做出一个假设,然后利用样本的实际资料来判断原假设是否合理的一种统计分析方法。1.方差齐性原假设H0:认为两总体方差之间不存在显著性差异,方差齐性。2.K-S检验或S-W检验原假设H0是数据服从指定的分布(如正态分布)。3.卡方检验是以2分布为基础的一种假设检验方法,主要用于分类变量,根据样本数据推断总体的分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立。其原假设H0为:两个分类变量相互独立1上节回顾均值比较单样本T检验 AnalyzeCompare MeansOne Sample T Test独立样本T检验Analyze

2、 Compare MeansIndependentSamples T Test配对样本T检验 Analyze Compare MeansPaired-Sample T Test上节回顾单样本单样本T检验检验l 概念概念 是检验样本均值与已知总体均值(检验值)之间是否存在差异。l 统计的前提条件是:样本总体服从正态分布。l H H0 0(单样本(单样本T T检验的检验的零假设零假设): :样本均值和总体均值之间样本均值和总体均值之间不存在显著差不存在显著差异异。(即。(即两者差异不大,或没有差异两者差异不大,或没有差异)l 检验结果的判断检验结果的判断 (1)如果相伴概率值(P值或Sig.值)小

3、于或等于用户假设的显著性水平0.05,则拒绝H0,认为样本均值和总体均值之间存在显著性差异。 (2)相反,相伴概率值(P值或Sig.值)大于显著性水平0.05,则接受H0,认为样本均值和总体均值之间不存在显著性差异 上节回顾独立样本独立样本T检验检验l 概念概念就是检验独立的正态总体下样本均值之间是否存在显著差异。l 前提条件前提条件检验前,要求进行比较的两个样本相互独立,并且服从正态分布,方差齐性。l 独立样本独立样本T T检验的检验的H H0 0假设:假设:男女学生入学考试成绩(两个独立样本)之间不存在显著差异不存在显著差异。l 检验结果的判断检验结果的判断 (1)如果相伴概率值(P值或S

4、ig.值)小于或等于用户假设的显著性水平0.05,则拒绝H0,认为2个样本均值之间存在显著性差异。 (2)相反,相伴概率值(P值或Sig.值)大于显著性水平0.05,则接受H0,认为两个样本均值之间不存在显著性差异 上节回顾配对样本配对样本T检验检验l 概念概念 就是根据样本数据对样本来自的两配对总体的均值是否有显著差异进行判断。l 前提条件前提条件(1)两样本必须是配对的,即配对要求两组同质受试样本配成对子或同一受试样本分别接受两种不同的处理;(2)样本来自的两个总体必须服从正态分布。l 配对样本配对样本T T检验的零假设为检验的零假设为H0H0:配对样本的总体均值之间不存在显著差异。l 解

5、释:解释:如果相伴概率值小于或等于用户设想的显著性水平=0.05,则拒绝H0,认为两配对样本总体均值之间存在显著性差异。相反,相伴概率值大于显著性水平=0.05,则接受H0,认为两配对样本总体均值之间不存在显著性差异。上节回顾均值比较T检验原假设:xxxx的均值与yyyy的均值无显著差异方法方法检验的目的检验的目的方法的前题条件方法的前题条件举举 例例单样单样本本T检检验验检验样本均值与已知总体均值之间是否存在差异样本总体服从正态分布正态分布某地区高考数学成绩与全国数学高考成绩均值是否存在显著差异独立独立样本样本T检验检验总体正态分布下,两个独立样本均值之间是否存在显著差异进行比较的两个样本是

6、独独立立的,并且服从正态分布正态分布1F检验方差齐性2T检验样本顺序可调换,样本数样本顺序可调换,样本数量可不同量可不同某大学随机抽取若干个大学一年级学生,分析他们的大学入学考试成绩在性别上是否存在显著差异。配对配对样本样本T检验检验两配对样本总体的均值之间是否存在显著差异1配对要求两组同质受两组同质受试对象配成对子试对象配成对子或同一受同一受试对象分别接受两种不同试对象分别接受两种不同的处理的处理。2样本来自的两个总体样本来自的两个总体必须服从正态分布必须服从正态分布样本顺序不可调换,且样样本顺序不可调换,且样本数必须相同。本数必须相同。1针对实验前学习成绩和智商相同的两组学生,分别进行不同

7、教学方法的训练,比较参与实验的两组学生的学习成绩是否存在显著差异。2某班学生在接爱一种新的教学方法培训后,学习成绩是否有显著变化。上节回顾7上节回顾8第第10讲讲散点图、相关系数散点图、相关系数9相关概念相关概念10一、相关的概念一、相关的概念1.1.变量之间关系的概念变量之间关系的概念 客观世界中,事物之间存在相互依存、相互制约、相互影响的关系。用于描述事物数量特征的变量之间也存在一定的关系。 这些关系分为两种: (1)函数关系:函数关系:变量之间的一一对应的关系,当自变量x取一定值时,因变量y依据函数关系取唯一的值。 如:在单价确定时,销售量与销售额之间的关系:y=f(x) 销售额价格 *

8、 销售量 圆的面积与圆的半径之间的关系: 圆面积3.14 * 半径211一、相关的概念一、相关的概念1.1.关系的概念关系的概念 (2)相关关系:相关关系:如果变量之间存在密切的关系,但又不能由一个或几个变量的值确定另一个变量的值,当自变量x取一定值时,因变量y的值可能有多个,这种变量之间的非一一对应的、不确定的关系,称之为相关关系。 如:子女身高与父母身高之间的关系 证券指数与利率之间的关系12一、相关的概念一、相关的概念2.2.相关关系的分类相关关系的分类 (1)按相关的程度分为:完全相关:一个变量的取值完全取决于另一个变量,数据点落在一条直线(或曲线)上相关:一个变量的取值部分取决于另一

9、个变量,数据点围绕分布在一条直线(或曲线)上不相关:两个变量的数据点分布很分散,无任何规律 就是函数关系13一、相关的概念一、相关的概念2.2.相关关系的分类相关关系的分类 (2)按相关的表现形式分为:线性相关:两个变量之间的关系近似地表现为一条直线非线性相关:两个变量之间的关系近似地表现为一条曲线14一、相关的概念一、相关的概念2.2.相关关系的分类相关关系的分类 (3)按相关的方向分为: 正相关:一个变量增加(减少),导致另一个变量增加(减少) 负相关:一个变量增加(减少),导致另一个变量减少(增加)15一、相关的概念一、相关的概念3.3.线性相关的四种相关关系线性相关的四种相关关系 u强

10、正线性相关: 一个变量x增加,导致另一个变量y明显增加,说明x是影响变量y的主要因素u弱正线性相关: 一个变量x增加,导致另一个变量y增加,但不明显,说明x是影响变量y的因素,但不是唯一的影响因素u强负线性相关: 一个变量x增加,导致另一个变量y明显减少,说明x是影响变量y的主要因素u弱负线性相关: 一个变量x增加,导致另一个变量y减少,但不明显,说明x是影响变量y的因素,但不是唯一的影响因素16一、相关的概念一、相关的概念4.4.相关分析的概念相关分析的概念 相关分析就是描述两个或两个以上变量间关系密切程度的统计方法,有效地揭示事物之间相关关系的强弱程度。5.5.相关分析的方法相关分析的方法

11、 图形(散点图):常用的一种直观的分析方法,将样本数据点绘制在二维平面或三维空间上,根据这些数据点的分布特征,能够直观地研究变量间的统计关系以及它们的强弱程度和数据对的可能走向。 数值(相关系数):变量间关系的密切程度常以一个数量性指标描述,这个指标称相关系数r=0.817一、相关的概念一、相关的概念SPSSSPSS提供了三种相关分析的方法提供了三种相关分析的方法二元变量分析( Bivariate ):偏相关分析( Partial ):距离相关分析( Distances ):18相关分析的方法相关分析的方法19二、相关分析的方法二、相关分析的方法1.1.散点图散点图散点图是相关分析过程中常用的

12、一种直观的分析方法; 将样本数据点绘制在二维平面或三维空间上,根据数据点的分布特征,直观的研究变量之间的统计关系以及强弱程度。就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图(a)和(b);如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关,如图(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图(d) 。(a)(b)(c)(d)20二、相关分析的方法二、相关分析的方法2.2.相关系数相关系数 散点图能够直观地反映变量之间的关系,但不精确。 相关系数以数值的方式精确地反映了变量之间线性关系的强弱程度。 相关系数通过正、负表

13、示相关的方向,相关系数r的取值在-1+1之间: 下表中是通过相关系数来描述相关程度 不同类型的变量采用不同的相关系数指标,但取值范围和含义都是相同的相关系数取值范围r=0|r|0.8|r|=1相关程度无相关微弱相关低度相关显著相关高度相关完全相关21二、相关分析的方法二、相关分析的方法3.3.相关系数的分类相关系数的分类uPearsonPearson简单相关系数简单相关系数( (皮尔逊皮尔逊) ) 用来度量正态分布的正态分布的定距变量间的线性相关关系 Pearson简单相关系数要求变量来自的总体 分布正态uSpearmanSpearman秩相关系数秩相关系数( (斯皮尔曼斯皮尔曼) ) 采用非

14、参数检验方法来度量定序变量间的线性相关关系 不要求总体正态分布 由于数据为非定距变量,因此不能直接采用原始数据,而是利用数据的秩uKendallKendall秩相关系数秩相关系数( (肯德肯德和谐系数和谐系数、一致性系数一致性系数) ) 采用非参数检验方法来度量定序变量间的线性相关关系 多用于计算评价者的评定一致性看备注页变量的值之间可以比较大小,两个值的差有实际意义,这样的变量叫定距变量。在调查被访者的“年龄”和“每月平均收入”,都是定距变量。定序变量定序变量 区别同一类别个案中等级次序的变量。定序变量能决定次序,也即变量的值能把研究对象排列高低或大小,具有与的数学特质。例如文化程度可以分为

15、大学、高中、初中、小学、文盲22二、相关分析的方法二、相关分析的方法4.4.利用利用相关系数相关系数进行变量之间进行变量之间线性线性关系的分析关系的分析 利用相关系数进行变量之间线性关系的分析分两步: (1)利用样本数据计算样本相关系数r; (2)对样本的总体是否存在显著的线性线性关系进行推测。 注:显著的相关性并不能导出任何因果结论。23二、相关分析的方法二、相关分析的方法5.5.对样本的线性关系进行对样本的线性关系进行推测步骤推测步骤 由于存在抽样的随机性以及样本数量较少等原因,通常样本相关系数不能直接反映样本是否存在显著的线性相关关系,需要通过假设检验的方式对样本的总体进行统计推测。推测

16、步骤 (1)提出零假设H0:两总体线性不相关(或相关系数与0无显著性差异) (2)选择检验统计量:对不同变量采用不同的相关系数,同时也采用不同的检验统计量 (3)计算统计量的观测值和对应的概率p值; (4)对总体的相关性进行推断24二、相关分析的方法二、相关分析的方法6.6.根据概率根据概率P P进行进行解释解释 检验统计量的概率p值小于等于给定的显著性水平值(0.05),拒绝零假设,认为总体相关。 若检验统计量的概率p值大于给定的显著性水平值(0.05),接受零假设,认为总体不相关。 25二元变量分析二元变量分析26三、二元变量分析三、二元变量分析1.1.概念概念 二元变量分析(Bivari

17、ate)是研究和分析两个变量之间相关程度的统计方法。2.2.应用应用 很多时候都是通过两个变量进行相关分析,所以两个变量之间相关程度的分析应用十分广泛。 如:家庭收入与家庭消费支出之间关系是否相关 商品销售价格与商品销售额之间关系是否相关 客户满意度与商业企业综合竞争力之间关系是否相关 广告投入和销售额之间关系是否相关27三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析 例一:例一:为了研究某项职业技能和员工年龄之间的关系,对员工进行职业技能测试,得到有关上述两变量的数据表。 现以年龄作为自变量x,职业技能测试得分为因变量y,以两变量数据为依据,绘制散点图分

18、析两变量之间的相关关系。注意:通过散点图只是初步分析两变量之间的相关关系 通常用散点图描述相关关系的表达方式: 完全相关 较强(正/负)相关 较弱(正/负)相关 不相关28三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析结果分析:结果分析: 从散点图中可以看出,点的分布比较分散,在拟合线上或周围的点分布较少,说明两变量之间相关程度较弱。 从拟合线的趋势来看,职业技能和员工年龄之间之间有一定的相关关系,而且是随着年龄的增加,职业技能测试得分会随之上升,但上升幅度较小。 所以上述两变量之间具有较弱正相关的关系。通过对散点图的编辑,可以添加拟合线29三、二元变量分

19、析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析操作步骤操作步骤 Graphs Legacy Dialogs Scatter/Dot数据文件:8-Bivariate_age.sav保存文件: 8-Bivariate_age.spv常用的散点图类型简单散点图重叠散点图矩阵散点图三维散点图单点散点图30三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析散点图的其他应用散点图的其他应用(1)在散点图中设置散点标记。31三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析散点图的其他应用散点图的其他应用(2)在散点

20、图中设置散点标签。3.3.SPSSSPSS操作及案例分析操作及案例分析散点图的其他应用散点图的其他应用(3)在散点图中添加拟合线。32三、二元变量分析三、二元变量分析1.双击该图区3.3.SPSSSPSS操作及案例分析操作及案例分析散点图的其他应用散点图的其他应用(4)计算相关系数。 AnalyzeCorrelateBivariate.33三、二元变量分析三、二元变量分析解释: 1.Sig.=0.0410.05,拒绝H0假设,表明两变量之间是相关的。 2.由于r=0.2290.3,为微弱正相关。34三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析 例二:例二

21、:在有氧训练中,人的耗氧量y(毫升/分*千克体重)是衡量人的身体状况的重要指标,它与多项指标有关。为了研究人的耗氧量与多项指标之间的关系,对31名测试者进行测试。 现以人的耗氧量y为因变量,多项指标中之一1.5英里跑所用时间x3为自变量,通过散点图和相关系数,分析研究耗氧量y与1.5英里跑所用时间x3之间的相关关系。35三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析结果分析:结果分析: 从散点图中可以看出,耗氧量y与1.5英里跑所用时间x3之间存在较强负相关的关系,即1.5英里跑所用时间增加,耗氧量会随之降低。 伴随概率P=0.0000.01,说明两变量之

22、间是明显相关关系;在相关系数表中,r =-0.832,说明两变量之间高度负相关。CorrelationsCorrelations1-.832*.0003131-.832*1.0003131Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N1.5英里跑所用时间耗氧量1.5英里跑所用时间耗氧量Correlation is significant at the 0.01 level (2-tailed).*. 36三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析结果分析:结果

23、分析: 拟合线。37三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析例三:例三:利用例二的数据,分析因变量y(人的耗氧量),与自变量x1、x2、x3、x4、x5、x6之间的关系。与耗氧量有关的因素年龄x1(岁)体重x2(次/分)1.5英里跑所用时间x3(分)静止时心跳速率x4(次/分)跑步时心跳速率x5(次/分) 跑步时最大心跳速率x6(次/分)38三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析结果图:结果图:C Co or rr re el la at ti io on ns s1-.832*.189.144.429*

24、.314.226.000.309.441.016.086.22131313131313131-.832*1-.270-.104-.436*-.420*-.253.000.142.579.014.019.16931313131313131.189-.2701-.234-.086-.338-.433*.309.142.206.647.063.01531313131313131.144-.104-.2341-.052.182.249.441.579.206.780.328.17631313131313131.429*-.436*-.086-.0521.260.215.016.014.647.780.

25、159.24531313131313131.314-.420*-.338.182.2601.930*.086.019.063.328.159.00031313131313131.226-.253-.433*.249.215.930*1.221.169.015.176.245.00031313131313131Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPears

26、on CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N1.5英里跑所用时间耗氧量年龄体重静止时心跳速率跑步时心跳速率跑步时最大心跳速率1.5英里跑所用时间耗氧量年龄体重静止时心跳速率跑步时心跳速率跑步时最大心跳速率Correlation is significant at the 0.01 level (2-tailed).*. 39三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析结果分析:结果分析: 从相关系数计

27、算结果来看: (1)耗氧量y与1.5英里跑所用时间x3、静止时心跳速率x4、跑步时心跳速率x5相关程度较高,其中耗氧量与1.5英里跑所用时间的r =-0.832,伴随概率P=0.0000.01,属于高度负相关;其他两项r =-0.436,r=-0.420,伴随概率P分别等于0.014和0.019大于0.01,但小于0.05属于低度负相关; (2)上述三个变量与耗氧量之间的关系都属于负相关。 结论:结论: 跑步速度快、静止时心跳速率慢、跑步时心跳速率慢的人,耗氧量大;反之,耗氧量小。40三、二元变量分析三、二元变量分析3.3.SPSSSPSS操作及案例分析操作及案例分析操作步骤:操作步骤: 操作

28、步骤:Analyze Correlate Bivariate 数据文件:8-Bivariate.sav 保存文件:8-Bivariate_all.spv41偏相关分析偏相关分析42四、偏相关分析四、偏相关分析1.1.概念概念在多元相关分析中,由于受到其他变量的影响,在计算某两个变量之间的相关系数时,得到的结果往往不能真实反映变量之间的相关关系所以在多元相关分析中,通常将其他变量固定(控制),而计算某两个变量之间的相关系数,称为偏相关系数。偏相关分析用于计算变量之间的偏相关系数,可以判断自变量对因变量的影响程度,舍弃影响较小的自变量,保留影响较大的自变量,从而更准确地判断变量之间的相关关系和相关

29、程度。43四、偏相关分析四、偏相关分析2.2.SPSSSPSS操作及案例分析操作及案例分析 例四:以数据文件“Cars.sav”为例,分析在油耗不变的情况下、汽车马力(horse)和加速度(accel)的偏相关系数。44四、偏相关分析四、偏相关分析2.2.SPSSSPSS操作及案例分析操作及案例分析结果分析结果分析 汽车马力和加速度的偏相关系数为-0.622,有效样本数为389,显著性水平为0.000,这两个变量的伴随概率P=0.000小于0.01,属于显著负相关关系。结论:结论: 在油耗量不变的情况下,汽车发动机功率越大,汽车加速到某个速度的时间越短。C Co or rr re el la

30、at ti io on ns s1.000-.622.0000389-.6221.000.000.3890CorrelationSignificance (2-tailed)dfCorrelationSignificance (2-tailed)dfHorsepowerTime to Acceleratefrom 0 to 60 mph (sec)Control VariablesMiles per GallonHorsepowerTime toAcceleratefrom 0 to 60mph (sec)45四、偏相关分析四、偏相关分析2.2.SPSSSPSS操作及案例分析操作及案例分析 同样是上述例子,同样是上述例子,(1)不考虑不考虑油耗量 汽车马力和加速度的相关系数为-0.701,显著性水平为0.000( 即:Analyze Correlate Bivariate )(2)考虑考虑油耗量 汽车马力和加速度的偏相关系数为-0.622,显著性水平为0.000(即: AnalyzCorrelate Partial )C Co or rr re el la at ti io on ns s1.000-.622.0000389-.6221.000.000.3890CorrelationSignificance (2-

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论