第四章分析数据间的相关性_第1页
第四章分析数据间的相关性_第2页
第四章分析数据间的相关性_第3页
第四章分析数据间的相关性_第4页
第四章分析数据间的相关性_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章分析数据间的相关性第1页,共61页,2023年,2月20日,星期三第四章分析数据间的相关性

世间万物总是存在不同程度的联系函数关系统计关系例:正方形体积与边长,年龄与身高,父母身高与孩子身高,身高与体重,考试成绩与学习时间,学历与收入,收入与幸福感,物品价格与质量第2页,共61页,2023年,2月20日,星期三线性相关XY正线性相关负线性相关第3页,共61页,2023年,2月20日,星期三XY非线性相关第4页,共61页,2023年,2月20日,星期三4.2两数值型数据间的相关性(1)图形分析法散点图是统计关系分析中最常用的图形工具,它将数据以点的形式画在直角平面上,它将一组数据作为纵轴,将另一组数据作为纵轴,事物对象的每个个体以点的形式出现。第5页,共61页,2023年,2月20日,星期三第6页,共61页,2023年,2月20日,星期三(1)若所有点落在一条直线上,说明数据间是线性相关,是函数关系,不是统计关系。(2)所有点杂乱无章,从形态上看不出任何特征和规律,表明数据间不相关(3)图形点大致呈某种曲线形态,表明数据间存在非线性相关(4)所有点大致落在一条直线周围,表明数据间有线性相关性。第7页,共61页,2023年,2月20日,星期三实践1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据,现要求利用散点图法分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性。第8页,共61页,2023年,2月20日,星期三(2)数值分析法图形能够直观展现数据间的相关关系,但并不精确。简单相关系数通过数字准确描述数据间线性相关的方向和强弱程度。第9页,共61页,2023年,2月20日,星期三简单相关系数简单相关系数取值范围[-1,1]简单相关系数>0,表示两个数据正线性相关简单相关系数<0,表示两个数据负线性相关简单相关系数=0,表示两个数据不存在线性相关简单相关系数>0.8,表示两个数据相关性很强简单相关系数<0.3,表示两个数据相关性较弱第10页,共61页,2023年,2月20日,星期三求简单相关系数的方法:(1)简单相关系数可通过函数Correl或Pearson实现(2)“数据分析”中相关系数命令第11页,共61页,2023年,2月20日,星期三实践1999年31个省市自治区个人购买商品住房住宅面积与商品住宅销售额的数据,现要求函数和“数据分析”命令分析个人购买商品住房住宅面积与商品住宅销售额之间的相关性。思考:是否容易受到极端值的影响?“练习”sheet中求两组的相关性第12页,共61页,2023年,2月20日,星期三4.3两品质数据间的相关性分析性别跟职称是否相关?学历与收入是否相关?(1)图形分析法复式柱形图是柱形图的扩展,主要用于对事物两个或多个特征的分类对比。**实践第13页,共61页,2023年,2月20日,星期三(2)数值分析法---列联表在该图基础上进一步计算一些简单的百分比。**分别按行与按列对上表进行分析。第14页,共61页,2023年,2月20日,星期三实践给定的性别与受教育程度数据进行相关性分析,做出他们的列联表。请进行分析,并得出结论第15页,共61页,2023年,2月20日,星期三列联表示例获不获得学分与性别是有关系的,男生获得学分的可能更大一些第16页,共61页,2023年,2月20日,星期三列联表示例获不获得学分与性别是不相关的???专业选修课男女合计获得51015未获得153045合计204060公共选修课男女合计获得301040未获得301040合计602080第17页,共61页,2023年,2月20日,星期三4.4相关的可靠性检验总体与样本常常存在这样的情况,我们所观察的只是部分或有限的个体,而需要判断的总体对象范围却是大量的,甚至是无限的。比如说为了考察某公司生产的一批电脑芯片的质量,需要了解芯片使用寿命这一指标。我们关心的是这一整批芯片的质量,但由于各种原因,只能抽取其中的一小部分进行测试。这时,这一整批芯片的质量和被抽取出来的那一部分的质量就构成了“整体”和“部分”的关系了。

可靠性研究的就是分析样本数据所体现的相关或不相关在总体数据间是否依然存在第18页,共61页,2023年,2月20日,星期三假设检验的基本原理第19页,共61页,2023年,2月20日,星期三显著性水平显著性水平α是当原假设正确却被拒绝的概率通常人们取0.05或0.01这表明,当做出接受原假设的决定时,其正确的可能性(概率)为95%或99%第20页,共61页,2023年,2月20日,星期三(1)数值型数据相关的可靠性检验数值型数据相关的可靠性检验步骤如下:(1)首先提出两总体是否相关的假设,通常假设是两总体不相关。(2)计算差距。计算当前相关系数与所提假设成立之间的差距。(3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。统计中国,通常的把握程度为0.95,0.90,0.99第21页,共61页,2023年,2月20日,星期三第22页,共61页,2023年,2月20日,星期三相关系数的差距

0.95把握度下的差距TINV函数:TINV(probability,degrees_freedom),probability为1-把握程度;degrees_freedom为n-1

第23页,共61页,2023年,2月20日,星期三实践个人购买商品住在面积与商品住宅销售额之间的相关性进行可靠性检验。1)求差距2)求95%决策标准3)求99%决策标准4)比较与结论第24页,共61页,2023年,2月20日,星期三卡方分析的主要步骤:(1)首先提出两总体是否相关的假设,通常假设行变量总体与列变量总体不相关。(2)计算差距。计算目前列联表中的频数数据所呈现的实际相关性与行列变量总体不相关之间的差距有多少(3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。统计中,通常的把握程度为0.95,0.90,0.99(2)品质型数据相关的可靠性检验第25页,共61页,2023年,2月20日,星期三计算差距

为列联表每个单元格中的实际频数为列联表每个单元格中的期望频数第26页,共61页,2023年,2月20日,星期三实践对性别与受高等教育程度之间的相关性进行可靠性检验。方法一:利用卡方分析1)计算2)计算3)计算CHIINV4)比较及结论第27页,共61页,2023年,2月20日,星期三方法二:利用Chitest函数(1)假设性别与高等教育程度无关,得到期望频数区域。(2)利用Chitest函数,求得chitest(实际频数,期望频数)的值,该值代表假设成立的概率。(3)若该概率为小概率事件,则认为假设不成立,反之,则成立。第28页,共61页,2023年,2月20日,星期三实践实验内容(一)随机抽取由10名大学生组成的样本,研究他们在高中与大学的英语成绩得出下表结果:(单位:分)

试测定其相关程度。

第29页,共61页,2023年,2月20日,星期三(二)下面是几家百货商店销售额和利润率的资料:第30页,共61页,2023年,2月20日,星期三1.以纵轴表示利润率,横轴表示每人月平均销售额,画出散点图,观察并说明两变量之间存在何种关系。2.计算每人月平均销售额与利润率之间的相关系数,并说明其相关的密切程度。3.检验每人月平均销售额与利润率之间的相关程度,显著性水平取0.01第31页,共61页,2023年,2月20日,星期三4.5数据的线性回归分析回归效应1887年生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想。1888年他又引入“相关”(Correlation)的概念。原来,他在研究人类身高的遗传时发现,不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。高尔顿由此的出结论,人的生理结构是稳定的,所有有机组织都趋于标准状态,这种效应叫回归效应第32页,共61页,2023年,2月20日,星期三人均收入是否会显著影响人均食品消费支出;贷款余额是否会影响到不良贷款;航班正点率是否对顾客投诉次数有显著影响;广告费用支出是否对销售额有显著影响;一元回归的例子第33页,共61页,2023年,2月20日,星期三回归分析的概念因变量与自变量之间的关系用一条线性方程来表示;因变量(dependentvariable):被预测或被解释的变量,用y表示。自变量(independentvariable):预测或解释因变量的一个或多个变量,用x表示。涉及一个自变量的回归为一元回归分析第34页,共61页,2023年,2月20日,星期三回归分析的步骤第35页,共61页,2023年,2月20日,星期三实例分析为便于控制某产品的生产成本,需要研究该产品产量与生产成本之间的数量变化关系,并预算当产量达到一定水平时的成本是多少。第36页,共61页,2023年,2月20日,星期三第一:确定自变量和因变量第37页,共61页,2023年,2月20日,星期三第二:确定回归方程根据收集的数据确定自变量与因变量之间的数学关系式,一元线性回归中估计的回归方程为:其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值。第38页,共61页,2023年,2月20日,星期三使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小第39页,共61页,2023年,2月20日,星期三xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^第40页,共61页,2023年,2月20日,星期三

根据最小二乘法的要求,可得求解和的公式如下第41页,共61页,2023年,2月20日,星期三在Excel中,用Intercept(known_y’s,known_x’s)函数用来计算回归方程的截距用Slope(known_y’s,known_x’s)函数来计算回归方程的回归系数第42页,共61页,2023年,2月20日,星期三因此,得到该数据的一元线性回归方程为:y=124.15+0.42x第43页,共61页,2023年,2月20日,星期三在散点图中,选中数据点,单击右键,选择“添加趋势线”-“线性”,并在选项标签中要求给出公式和相关系数等,可以得到拟合的直线,如下图所示。第44页,共61页,2023年,2月20日,星期三第三:对线性回归方程的统计检验对回归方程检验的内容第45页,共61页,2023年,2月20日,星期三(1)回归方程的拟合优度检验回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。第46页,共61页,2023年,2月20日,星期三1.判定系数因变量的各个观测值之间的差异主要由两个方面的原因造成的,一是由自变量的不同值造成的,二是其他因素造成的。第47页,共61页,2023年,2月20日,星期三某一个观测值的变差的分解xyy{}}第48页,共61页,2023年,2月20日,星期三总平方和(SST)反映因变量的n个观察值与其均值的总离差;回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和;残差平方和(SSE)反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和;离差平方和的分解第49页,共61页,2023年,2月20日,星期三SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{第50页,共61页,2023年,2月20日,星期三回归平方和占总离差平方和的比例反映回归方程的拟合程度;取值范围在[0,1]之间;

R21,说明回归方程拟合的越好;R20,说明回归方程拟合的越差一元线性回归中,判定系数等于y和x相关系数的平方,即R2=(r)2;第51页,共61页,2023年,2月20日,星期三在Excel中,判定系数可用Rsq(known_y’s,known_x’s)函数来计算。判定系数=0.85,说明样本数据点紧密的聚集在回归直线周围,该回归方程对数据的拟合度较好。第52页,共61页,2023年,2月20日,星期三(2)回归方程的显著性检验回归方程的显著性检验是检验因变量与自变量之间的线性关系是否显著,是否可以用线性模型来描述因变量与自变量之间的关系。第53页,共61页,2023年,2月20日,星期三线性关系的检验步骤提出假设H0:1=0所有回归系数与零无显著差异,y与全体x的线性关系不显著计算检验统计量F确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F作出决策:若F>F,拒绝H0;若F<F,不能拒绝H0第54页,共61页,2023年,2月20日,星期三F统计量计算复杂,可直接借助“数据分析”命令完成**利用“回归”功能完成分析第55页,共61页,2023年,2月20日,星期三第四:利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论