


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、成绩评定表学生姓名王青松班级学号15专业信息与计算科学课程设计题目合金强度与碳含量的回归分析评语组长签字:成绩日期2012年06月28日课程设计任务书学院理学院专业信息与计算科学学生姓名王青松班级学号15课程设计题目合金强度与碳含量的回归分析实践教学要求与任务:通过该课程设计,使学生进一步理解概率论与数理统计的基本概念、理论和方法;初步掌握Excel统计工作表在随机模拟中是应用,MATLAB统计软件包对数据进行统 计检验和统计分析;具备初步的运用计算机完成数据处理的技能,使课堂中学习到理 论得到应用。1 数据整理:收集数据,录入数据,画出相应图形;建立数学模型,数据的输入 与整理,各种数据的图
2、形显示。2假设检验:MATLAB绘制出直方图,做数据分布的推测;参数估计,假设检 验,绘制概率密度图。3单因素、多因素方差分析:正态总体的方差分析冋题;MATLAB统计软件中关于方差分析的相关命令,做出方差分析表,box图,能对结果进行简单分析。4一元、多元线性回归模型:回归系数的估计与检验,数据散点与回归直线的图 示,残差图。运用MATLAB统计软件,对给定的数据拟合回归方程。工作计划与进度安排:周三12节:选题,设计解决问题方法周三38节:调试程序周四14节:完成论文,答辩指导教师:张玉春2012年6月28日专业负责人:2012年7月8日学院教学副院长:2012年7月19日摘要数理统计是具
3、有广泛应用的数学分支, 而区间估计和假设检验问题在其中占 有很重要的地位。 对于正态总体期望和方差的区间估计和假设检验问题已有完备 的结论;对于非正态总体期望和方差的区间估计和假设检验问题, 在大样本的情 况下,可利用中心极限定理转化为正态总体来解决。 但实际问题中常常碰到非正 态总体,而且是小样本的情况, 因此对它的区间估计和假设检验是一个值得研究 的问题。本文利用概率纶与数理统计中的所学的回归分析知识, 对合金强度与碳含量 之间的关系建立数学模型,利用这些数据做出碳含量 x 关于合金强度 y 的线性 回归方程,并 MATLAB 与 EXCEL 软件对验数据进行分析处理,得出线性回归 系数与
4、拟合系数等数据, 并用 F 检验法检验了方法的可行性, 同时用分布参数置 信区间和假设检验问题 ,得出了碳含量 x 关于合金强度 y 的线性关系显著, 并 进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方 法。关键词: 统计量法;置信区间;假设检验;线性关系;回归分析目录1设计目的 错误!未定义书签2设计原理 错误!未定义书签2.1模型回归系数的估计 错误!未定义书签2.2回归方程显著性检验错误!未定义书签2.3回归系数的置信区间错误!未定义书签2.4利用模型预测 错误!未定义书签3设计问题 错误!未定义书签3.1 用matlab处理数据 错误!未定义书签3.2 excel
5、处理数据 错误!未定义书签4设计总结错误!未定义书签参考文献 错误!未定义书签1设计目的了解一元回归方程,回归系数检验方法及应用一元回归方程进行预测的方 法;学会应用MAATLAB软件进行一元回归实验的分析方法。2设计原理在实际问题中,经常会遇到两个变量之间的相关关系的(即直线型),而是非线性的(即曲线形)。设其中有两个变量X与丫,我们可以确定一个函数关系 式:y=(x)大致的描述丫与X的相关关系,函数(x)称为丫关于X的回归函数,方程 方程y=(x)称为丫关于X的回归方程。一元回归处理的是两个变量x与y之间的线性关系,可以设想y的值有两部 分构成:一部分是自由变量 x的线性影响所致,表示x的
6、线性函数a+bx;另一 部分只有众多其他因素,包括随机因素影响所致,这一部分可以视为随机误差项, 记为;,可以得到一元线性回归模型y=a+bx+ ;(1)式中,自变量x是可以控制的随机变量,由于;是随机误差,可根据中心极限定 理,假定 "N (0,2 ),口2是未知参数。确定丫与X的关系前,可根据散点图的形状,选择适当的曲线回归方程, 而这些方程往往可以化为线性方程或者就是线性方程:y=a+bx大致描述变量丫与X之间的关系。2.1模型回归系数的估计为了估计回归系数,假定得到两个变量x与y的n个数据对(Xj,yQ,i=1,2,,n我们将这n对观测值带入(1)式,得yi =a+bxii,
7、 i=1,2,,,n这里£ 1,色2,名n是相互独立的随机变量,均服从正态分布即eN(0,2), i=1,2,3,,n在一定意义下“最佳地”表现变量 丫与X之间的相关关系,解决该问题,可以利用所谓的最小二乘法,即要求选取的a, b的值使得随机误差;的平方和n 2 n2最小,即求使得函数Q (a, b)二';j =7 (yj 一 a bXj )取得最小值时的a,i z1i z!bo由于Q (a,b)是a,b的二元函数,利用函数存在极值的必要条件,Q (a,b)分别对求a,b偏导数,并令其为0,构成二元一次方程组n厂送(yi a bXj) = 0,i亠i _0瓦(yi a bxj
8、Xi = 0,i 二这里得到以下方程组na C Xi )bi u解此方程组得参数a,b的估计值*4' y叫、fn、n、Xi:2、XXjnnLa(迟 xi)a +(迟i丄i二2 nXi A = XiYi .i 二由观测数据Xi和y (i=1,2,, , n)得到回归方程W = a +敌 带入Xi,得到称为回归预测值。方程的直线称为回归直线。2.2回归方程显著性检验建立一元线性回归方程当且仅当变量之间存在线性相关关系时才是有意义 的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。我们首先引入几个概念:nSSr =為(yi -y)2,称为SSr总偏差平方和,
9、它表示观测值y:总的分散程度; i田2SSr二(y? -y)2,称SQ为回归平方和,它是由回归变量X的变化引起的,i T 放映了回归变量X对变量y线性关系的密切程度;nSSe二、(yi -y?)2,称SSe为残差(剩余)平方和,它是由观测误差等其他i m因素起误差,它的值越小说明回归方程与原数据拟合越好。可以证明下列关系成立SStSS Rss ennn即' (yi -戏=(y? -y)2 +W -y?)2i Ji 丄i2 SSR我们主要考虑回归平方和在总偏差和中所占的比重,记R RSSt(0<=R<=1),称R为复相关系数,用R的大小来评价模型的有效性,R越大,贝阪 映回归
10、变量与相应变量之间的线性函数关系越密切。引入F统计量。定义,SSr sse n -2可知FF (1,n-2)对于给定的显著水平a(般这里取0.05或0.01),查表可得 临界值Fa (1,n-2)如果F> F:- (1,n-2),则认为y与x之间的线性关系显著;如果F<= F: (1,n-2), 则认为y与x之间的线性关系不显著,或者不存在线性关系,在实际应用中也可 以通过F对应的概率Pv>来说明y与x之间的线性相关性显著。2.3回归系数的置信区间回归方程(1)的回归系统a,b是一个点估计值,给定置信水平 1八后,可 得到他们对应的置信区间,并且回归区间越短越好,如果摸个回归
11、系数的置信区 间包含0点,则说明该回归变量的影响不显著,需要进一步地修改回归方程,尽 量是每个回归系数的置信区间都不包含 0点。2.4利用模型预测在对所建立的回归模型进行相关程度检验与分析之后,如果预测变量y与相关变量x的每一个给定值x,带入回归模型,就可以求得一个相对应的回归预0 7 7AA测值y。, y。称为模型的点估计值。3设计问题某合金强度与碳含量有关,研究人员在生产试验中收集了该合金的强度y与碳含x的数据如下表3.1。检测模型的可行度,检查数据中有无异常点。表3.1合金的强度y与碳含x的数据x0.100.110.120.130.140.150.160.170.180.190.200.
12、23y42.041.540.145.545.047.549.055.050.055.055.560.53.1 用matlab处理数据其实现MATLAB程序代码如下:y=42.0 41.5 40.1 45.5 45.0 47.5 49.0 55.0 50.0 55.0 55.5 60.5; x=0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23; plot(x,y,'+');n=len gth(y);X=o nes( n,1),x'b,bi nt,r,ri nt,s=regress(y',X);b
13、,bi nt,s运行结果:25.0168150.7361 bint =19.652230.3814117.8538 183.61840.9125 104.32630.00004.0437整理结果如下:回归系数回归系数估计值回归系数置信区间Pc25.016819.6522,30.3814150.7361111.8538,183.6184R2 =0.9125F=104.3263P=0.0000<0.05结果表明,回归模型y=25.0168+150.7361x 成立。散点图如下:图3.1散点图残差效果图代码如下:y=42.0 41.5 40.1 45.5 45.0 47.5 49.0 55.0
14、 50.0 55.0 55.5 60.5;x=0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.20 0.21 0.23;b,bi nt,r,ri nt,s=regress(y',X);rcoplot(r,ri nt);从几个方面都可以检验模型是有效的:F检验P -接近于0; -1的置信区间不含零点;p < :;用 MATLAB 命令finv(0.95,1,10)计算得到 F°.95(1,10 )=4.9646 c F , F为统计量观测值,所以X与丫的相关性显著。残差图截图如图3.2Residual Case Order P
15、lot2468Case Number10 12图3.2残差图所谓残差是指实际观察值与回归估计值的差, 残差分析就是通过残差所提供 的信息,分析出数据的可靠性、周期性或其它干扰。从残差图可以看出,数据的 残差离零点较近,且残差的置信区间均包含零点,这说明回归模型 y=25.0168+150.7361x能很好的符合原始数据(除第八个数据外) 。3.2 excel 处理数据用 Excel “分析工具库”提供的“回归”工具,找出线性回归方程,并检验 其显著性。1 具体步骤如下:1>在【工具】菜单中选中 【数据分析】,则会弹出【数据分析】对话框, 然后“分 析工具”中选择“回归”选项,如图二所示。
16、单击【确定】后,则弹出【回归】 对话框,如图 <5>所示。2>填写【回归】对话框。如图 <6> 所示,该对话框的内容较多,可以根据需要, 选择相关项目。在“X值输入区域”内输入队因变量数据区域的引用,该区域必须有单列数据组 成,如本题中组分B;在“丫只输入区域”输入对自变量数据区域的引用,如本 题中组分 C。“标志” :如果输入区域的第一行中包含标志项,则选中此复选框,本题中的 输入区域包含标志项; 如果在输入区域中没有标志项, 则应清楚此复选框, Excel 将在输出表中生成合适的数据标志。“置信度” :如果需要在汇总输出表中包含附件的置信度信息,则选中此复选
17、框,然后在右侧的编辑框中, 输入所要使用的置信度。 Excel 默认的置信度为 95%, 相当于显著性水平 a=0.05。“常数为零” :如果要强制回归线通过原点,则选中此复选框。“输出选项” :选择“输出区域” ,在此输出对输出表左上角单元格的引用。3>“残差” :如果需要以残差输出表形式查看残差,则选中此复选框。“标准残差” :如果需要在残差输出表中包含标准残差,则选中此复选框。“残差图” :如果需要生成一张图表,绘制每个自变量及其残差,则选中此复 选框。“线性拟合图” :如果需要为预测值和观察值生成和观测值生车一个图表,则选中此复选框分析工具截图如图3.3及3.4:图3.3 Exc
18、el数据分析工具图3.4回归分析工具界面回归分析工具运行结果如下表3.1:表3. 1 回归统计SOURY OUTPUT回归统计Multiple0.955265R Square0. 912531Adjusted0.903784标准误差2. 010886观测值12在表1中,“Multiple R ”是线性回归的系数,“R Square"是拟合系数,“AdjustedR Square"调整后的拟合系数。方差分析截图如下表3.2:表3.2方差分析方差分析回归分析df1SS421. 8601MS421. 8601F;niflcanc<104. 3263 1. 31E-06残差1
19、040. 436614. 043661总计11462. 2967回归分析结果截图如下表3.3:表3.3回归分析结果1Coefficien-标准误差t StatF-valueLower 99%Ut)Der 95%T限 95, 3上限 95. 0%Intercept25. 016792. 4076711('. 39045'1.12E-061'?, 6521630. 3814119.6521630. 38141X Variabl150. 7361R.7577610. 214021.31E-06117.85381S3. 618411.8538183. 6184表3.4回归分析结
20、果残差与标准残差RESIDUALOUTPUTPROBABILITY OUTPUT观测值预测Y残差标谁残差百分比排位4. 166667Y40. 1140. 090391.9096050. 995984241.5977609776-0. 0509912. 541. 5343,10512-3, 00512-1.5673720. 8333342444* 612480. 8375220.46290129. 1666745546.11984-L 11934-0. 5840737. 545. 5G47. 6272-0.1272-0. 0663445. 8333347. 5749. 13456-0. 1345
21、6-0.0701854. 16667电9850. 641924. 3580792. 27302462, 550952.14928-2.14928-1.1209970. 83333551055.164- 164-0. 0855479. 16667551156. 67136-1,17136-0.6109487, 555. 51259. 686090. 8139140.4245195. 8333360. 5下图是残差分布图如图3.5:图3.5用EXCEL处理数据得出的残差分布图散点图如图3.6图3.6 EXCEL处理数据得出的散点图由表3可知,该回归方程的截距是 25.0168,斜率为150.736
22、1,所以回归方 程的表达式为:y=25.0168+150.7361x;根据回归统计结果,知决定系数 臣0.955625,即相关系数r=0.912531,说明自变量与因变量之间有较高的相关性; 据方差分析的结果,F=104.3623,有效的FV0.01,所以建立的回归方程非常显著。 在表五中,除了列出了回归系数,还有标准误差等项目。其中“标准误差”表示 的事对应回归系数的标准误差,其中偏回归系数的标准误差。“t Stat”就是t检验时的统计量t;如果多元线性回归,则可直接根据“ t Stat”的大小,判断因素 的主次顺序。“P-value”表示t检验偏回归系数不显著的概率,如果P-value<0.01, 则可认为该系数对应的变量对试验结果影响非常显著(* *),如果0.01< P-value <0.05,则可认为该系数对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025公基考题及解析(230题)
- 2025年福建省房屋租赁合同范本
- 2025电线电缆购销合同范本
- 上海市五年级试卷及答案
- 肇庆市实验中学高中历史二教案:第课大萧条与罗斯福新政
- 2025年事业单位标准劳动合同
- 2025年度网络广告服务合同协议书
- 电子元器件在智能电网中的应用考核试卷
- 糕点行业商业模式探索与创新实践考核试卷
- 建筑材批发商市场竞争策略的适应性调整考核试卷
- YY/T 1560-2017脊柱植入物椎体切除模型中枕颈和枕颈胸植入物试验方法
- MT/T 589-1996煤矿用防爆柴油机钢轮/齿轨机车及齿轨装置
- GB/T 6980-1995钙塑瓦楞箱
- 第十一章多孔材料课件
- 部编版语文五年级下册第四单元 复习课件
- 【完整版】锁骨骨折护理查房课件
- 护理人文关怀质量评价标准
- 防辐射内墙抹灰施工方案
- 经腋窝无充气完全腔镜甲状腺手术拉钩
- 灌溉与排水工程设计规范标准
- 《工会会计制度》管理系统升级及使用
评论
0/150
提交评论