版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、统计学案例相关回归分析案例一 质量控制中的简单线性回归分析1、问题的提出某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。2、 数据的收集序号回流温度()液化气收率(%)序号回流温度()液化气收
2、率(%)12345678910111213141536394343393843443740343940414413.112.811.311.412.312.511.110.813.111.913.612.212.211.811.116171819202122232425262728293042434644424145404647453839444512.311.910.910.411.512.511.111.111.110.810.512.112.511.510.9目标值确定之后,我们收集了某年某季度的回流温度与液化气收率的30组数据(如上表),进行简单直线回归分析。3.方法的确立设线性回归模
3、型为,估计回归方程为 将数据输入计算机,输出散点图可见,液化气收率y具有随着回流温度x的提高而降低的趋势。因此,建立描述y与x之间关系的模型时,首选直线型是合理的。从线性回归的计算结果,可以知道回归系数的最小二乘估计值b0=21.263和b1=-0.229,于是最小二乘直线为这就表明,回流温度每增加1,估计液化气收率将减少0.229%。(3)残差分析为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。从图中可以看到,残差基本在-0.5+0.5左右,说明建立回归模型所依赖的假定是恰当的。误差项的估计值s=0.388。(4)回归模型检验a.显著性检验在90%的显著水平下,进行t检验,拒绝
4、域为t=b1/ sb1t/2=1.7011。由输出数据可以找到b1和sb1,t=b1/ sb1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。b.拟合度检验判定系数r2=0.792。这意味着液化气收率的样本变差大约有80%可以由它与回流温度的线性关系来解释。=-0.89这样,r值为y与x之间存在中高度的负线性关系提供了进一步的证据。由于n30,我们近似确定y的90%置信区间为:=21.263-0.229x1.2820.388 = 21.263-0.229x 0.4974、结果分析由回归直线图可知,要保持液化气收率在12.24%以上,回流温度
5、必须控制在34以下。因为装置工艺卡片要求回流温度在3340之间,为确保液化气质量合格,可以将回流温度控制在3334之间。为此,应当采取各项有效措施,改善外部操作环境,将液化气收率控制在目标值范围内。案例二:轿车生产与gdp等关系研究中国的轿车生产是否与gdp、城镇居民人均可支配收入、城镇居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都有密切关系?如果有关系,它们之间是种什么关系?关系强度如何?(数据见中国统计年鉴)(1)分析轿车生产量与私人载客汽车拥有量之间的关系:首先,求的因变量轿车生产量y和自变量私人载客汽车拥有量x1的相关系数r=0.992018,说明两者间存在一定的线性相关关系且正
6、相关程度很强。然后以轿车生产量为因变量y,私人载客汽车拥有量x1为自变量进行一元线性回归分析,结果如下:由回归统计中的r=0.984101看出,所建立的回归模型对样本观测值的拟合程度很好;估计出的样本回归函数为:=1.775687+0.206783x1,说明私人载客汽车拥有量每增加1万辆,轿车生产量增加2067.83辆;由上表中和的p值分别是0.709481543和6.60805e-15,显然的p值大于显著性水平=0.05,不能拒绝原假设=0,而的p值远小于显著性水平=0.05,拒绝原假设=0,说明私人载客汽车拥有量对轿车生产量有显著影响。(2)分析轿车生产量与城镇居民家庭恩格尔系数之间的关系
7、:首先,求的因变量轿车生产量y和自变量城镇居民家庭恩格尔系数x2的相关系数r=-0.77499,说明两者间存在一定的线性相关关系但负相关程度一般。然后以轿车生产量为因变量y,城镇居民家庭恩格尔系数x2为自变量进行一元线性回归分析,结果如下:由回归统计中的r=0.600608看出,所建立的回归模型对样本观测值的拟合程度一般,综合其相关系数值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系。(3)分析轿车生产量与公路里程之间的关系:首先,求的因变量轿车生产量y和自变量公路里程x3的相关系数r=0.941214,说明两者间存在一定的线性相关关系且正相关程度较强。然后以轿车生产
8、量为因变量y,公路里程x3为自变量进行一元线性回归分析,结果如下:由回归统计中的r=0.885883看出,所建立的回归模型对样本观测值的拟合程度较好;估计出的样本回归函数为:=-125.156+1.403022x3,说明公路里程每增加1万公里,轿车生产量增加1.403022万辆;由上表中和的p值分别是5.64e-05和1.82e-08,显然和的p值均远小于显著性水平=0.05,拒绝原假设=0、=0,但由于对两者的影响更为显著,所以可以说明公路里程对轿车生产量有显著影响。(4)分析轿车生产量与gdp之间的关系:首先,求的因变量轿车生产量y和自变量gdpx4的相关系数r=0.939995,说明两者
9、间存在一定的线性相关关系且正相关程度较强。然后以轿车生产量为因变量y,gdpx4为自变量进行一元线性回归分析,结果如下:由回归统计中的r=0.88359看出,所建立的回归模型对样本观测值的拟合程度较好;估计出的样本回归函数为:=-70.7127+0.001829x4,说明gdp每增加1亿元,轿车生产量增加18.29辆;由上表中和的p值分别是0.001534和2.11e-08,显然和的p值均小于显著性水平=0.05,拒绝原假设=0、=0,但由于对两者的影响更为显著,所以可以说明gdp对轿车生产量有较显著影响。(5)分析轿车生产量与城镇居民人均可支配收入x5之间的关系:首先,求的因变量轿车生产量y
10、和自变量城镇居民人均可支配收入x5的相关系数r=0.917695,说明两者间存在一定的线性相关关系且正相关程度较强。然后以轿车生产量为因变量y,城镇居民人均可支配收入x5为自变量进行一元线性回归分析,结果如下:由回归统计中的r=0.842164看出,所建立的回归模型对样本观测值的拟合程度较好;估计出的样本回归函数为:=-92.9054+0.032928x5,说明城镇居民人均可支配收入每增加1元,轿车生产量增加329.28辆;由上表中和的p值分别是0.001444和2.12e-07,显然和的p值均小于显著性水平=0.05,拒绝原假设=0、=0,但由于对两者的影响更为显著,所以可以说明城镇居民人均
11、可支配收入对轿车生产量有显著影响。案例三:子女身高与父母身高的回归分析1、问题的提出早在19世纪后期,英国生物学家galton通过观察1078个家庭中父亲、母亲身高的平均值x和其中一个成年儿子身高y,建立了关于父母身高与子女身高的线性方程:y=33.73+0.516x从方程可以看出,子女身高有回归平均的倾向。那么,时隔一百多年后的今天,人类的物质生活和精神生活都已发生巨大的变化,父母身高与子女身高之间将呈现出什么样的关系呢?在现实生活中,我们都知道父母身高对子女身高是有影响的,但父亲与母亲的影响分别有多大?他们对儿子和女儿的影响程度是否相同?能否用定量的形式回答这个问题呢?如果可以利用回归方法
12、,进一步揭示父亲身高、母亲身高与子女身高之间量化关系的秘密,将有助于那些关注自己后代身高的年轻父母们进行早期预测,同时也可为那些未婚青年男女在选择理想配偶时提供科学的参考依据。2、数据的收集为了问题的研究,我们要求所调查的家庭满足下列条件:(1)家庭中有一个或多个子女(2)家庭成员身体健康,发育正常,无先天性和遗传性疾病,无残疾(3)子女的年龄均在23岁(含23岁)以上。考虑到调查范围的广泛性,我们随机抽取了机关干部、职员、工人、农民、城市居民、军人、大学生家庭,并特意选择了一所全国招生的院校应届毕业生,他们来自于全国各地,家庭背景相对复杂,这样使得样本更具代表性。在收回的410份(发放460
13、份)调查表中,符合要求的有290个家庭,其中,有儿子405人,有女儿270人。3、方法的确定根据所收集的数据,应用二元回归分析方法,研究父亲身高、母亲身高与儿子或女儿身高的关系。(1)建立回归方程设x1为父亲身高,x2为母亲身高,y为儿子或女儿身高。则父母身高与子女身高的回归模型为:y=0+1x1+2x2+根据样本数据建立估计二元回归方程:y=b0+b1x1+b2x2(2)显著性检验对回归方程进行f检验,拒绝区域为ff(2,n-3);对回归系数进行t检验,拒绝区域为tt/2(n-3)。(3)预测若某一家庭父亲和母亲身高分别为x10和x20,则子女身高的点估计为:y=b0+b1x10+b2x20
14、区间估计方法已超出大纲要求,在此不要求。4、结果分析(1)父母身高对儿子身高的影响y=53.640+0.368x1+0.349x2显著性检验:在=0.01的显著水平下,f=62.714f(2,400)=4.68t1=7.85t/2(400)=2.689t2=6.71t/2(400)=2.689结果说明回归方程显著,两个偏回归系数显著。因此,所建立回归方程是有意义的,即父母身高与儿子身高有显著的线性关系。(2)父母身高对女儿身高的影响y=47.140+0.249x1+0.455x2显著性检验:在=0.01的显著水平下,f=46.81f(2,300)=4.68t1=4.92t/2(300)=2.6
15、8t2=7.61t/2(300)=2.689结果说明回归方程显著,回归系数显著,故所建立回归方程有效,即女儿身高与父母身高有显著的线性关系,特别是母亲身高对女儿身高的影响更为重要。(3)从以上结果可以看出,在某种程度上,父母身高对子女身高有重要影响,且在不同时期,子女身高有回归平均身高的趋势,即个子矮的父母,其子女身高未必低于自己,个子高的父母,其子女身高未必高于自己。下表给出了部分家庭子女身高的预测值,其中,区间估计的把握程度为95%。表:部分家庭子女身高的预测值父亲身高母亲身高儿子身高女儿身高点估计下限上线点估计下限上线160155166.57165.32167.83157.50155.99159.02160160168.32167.16169.48159.78158.4316115169.41170.91161.02160.14161.90165165171.90171.01172.91163.30162.26164.33170160172.00171.53172.46162.27161.74162.79170165
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届山东省济南市金柱高考压轴卷物理试卷含解析
- 2024年花岗岩供货合同范本
- 2024年个人挂靠建筑公司承包合同
- 2024年中国铁路车载IP电话市场调查研究报告
- 《一起来分类》(教案)-2024-2025学年一年级上册数学北师大版
- 七年级地理上册 第四章 第三节 影响气候的主要因素教学设计 (新版)湘教版
- 3《学会反思》(第2课时)(教学设计) 部编版道德与法治六年级下册
- 加法与减法的关系(教学设计)2024-2025学年数学三年级上册人教版
- 2024-2025学年小学生节约资源的德育教学设计课程
- 《红烛》-2024-2025学年高一语文上学期同步课堂教学教学设计
- 《单片机基础知识》课件
- 钢筋混凝土防撞护栏施工方案
- 高处作业防护设施风险分级管控清单
- GB∕T 17794-2021 柔性泡沫橡塑绝热制品
- 聘用制干部审批表
- 部编教材二年级上册词语表(含拼音)
- 镀锌常见质量问题及其解决方法(行业经验)
- 八年级环境教育教案全册各课
- ABAQUS常见问题汇总-10版学习资料
- 三阴性乳腺癌(TNBC)治疗进展-approve
- 腹腔穿刺术教案
评论
0/150
提交评论