版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、实 验 报 告 实验名称 回归分析一实验目的及要求:1. 掌握回归分析的基本理论2. 会运用回归分析相关理论进行编程和解决实际问题二实验内容:1.背景:由于有氧锻炼中,人体的耗氧能力是衡量人身体健康状况的重要指标,而耗氧能力(人体单位重量单位时间内最大的耗氧量)在日常生活中难以直接测量,故本文建立相关数学模型,采用机理分析和回归分析以及数据拟合相结合的办法,以期望使普通大众能够方便快键地对自身身体状况有更为直接的了解,也能更加合理科学地锻炼。2.题目:习题7:在有氧锻炼中人的耗氧能力 (mL/(minkg)是衡量身体状况的重要指标,它可能与以下因素有关:年龄,体重(kg),1500m跑的时间(
2、min),静止时心跳速度(次/min),跑步后心速(次/min),对24名40至57岁的志愿者进行了测试,结果如下表1.1(节选),试建立耗氧能力y与诸因素的之间的回归模型。表1.1序号123421222324Y44.645.354.359.639.446.145.454.7X14440444257545250X289.575.185.868.273.479.476.370.9X36.826.045.194.97.586.75.785.35X46262454058624848X5178185156166174156164146(1) 若中只许选择1个变量,最好的模型是什么?(2) 若中只许选择
3、2个变量,最好的模型是什么?(3) 若不限制变量的个数,最好的模型是什么?(4) 对最终模型观察残查,有无异常点,若有,剔除后如何?3.做法 :本题不同小问需要建立不同模型,由于专业知识所限,并且提供的数据较少,难以做出精确符合现实情况的模型,因此这里用最简单的线性回归法进行拟和模型基本形式如下:事实上,中的项(高次项和交互项)对于本题目来讲意义不大,因为所给定的5个自变量和因变量之间关系比较模糊,几个变量彼此之间的联系也很难说清,因此用自变量的一次线性拟和就足以适应本题的要求。但作为练习,还是将每种回归方法都使用到了,可以用于参考。具体采用的各个模型将在下面单独说明,这里不再重复。4.程序由
4、于本题需要建立多组模型,并且要在不断的调试中发现最合理的,很多命令都要在这个过程中不断使用,这里仅仅给出使用的最基本的命令。数据clear A=; %数据矩阵,略n=24; y=A(2,:); %提取各个数据x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);绘制散点图(大致判断影响情况)for i=1:5 subplot(2,3,i),plot(A(i+2,:),y,+),grid pause end pause 单参数回归(第一问)X=ones(n,1),x4; %这里检验的是自变量x4,实际操作时要分别检验x1x5 b,bint,r,rin
5、t,s=regress(y,X); %回归分析程序(=0.05)b,bint,s, %输出回归系数估计值、置信区间、以及统计量rcoplot(r,rint) %残差图Polytool(x3,y,2) %检验一元多项式回归的结果,输出交互式画面双参数回归(第二问):用逐步回归法找出最合理的两个变量X5=x1,x2,x3,x4,x5; stepwise(X5,y); %利用输出的交互式画面,可以选出最佳的两个变量XX=x3,x1; %当得到了最佳的两个变量后(这里假设是x3x1)rstool(XX,y,linear) %检验二元情况下的交互项和高次项全部参数回归(第三问):X5=x1,x2,x3,
6、x4,x5; %仍然用逐步回归法找出最合理的组合方式stepwise(X5,y) 第五问要求对残差进行分析,并且剔除异常点,可以在该问得到最终模型后,采用regress得到的残差值和置信区间并根据其绘制残差图,然后再进行剔除操作重新检验。5.运行结果及分析散点图 (1) (2) (3) (4) (5)从左上到右下的顺序为x1x5.可以由点的分布大致看出,除了x3自变量呈现比较明显的负相关趋势以外,对于其他的各个自变量都难以直接观测出其对于因变量的影响。根据这种结果,可以假设自变量x3(1500m跑后心速)最直接的与锻炼耗氧能力相关,下面通过对各个自变量的单参数回归进行检验。单参数回归被检对象0
7、11置信区间R2FPs2X164.3812-0.3599-0.8309,0.11110.10252.51150.127331.2484X252.7432-0.0644-0.4334,0.30460.00590.13100.730934.6097X383.4438-5.6682-7.1252,-4.21120.747465.095908.7943X467.1094-0.3599-0.6262,-0.09360.26317.85600.010425.6547X594.0024-0.2739-0.5095,-0.03840.20915.81690.024727.5352由单参数回归的结果可以证明X3
8、(1500m跑后心速)可以最好的反映出y(锻炼耗氧能力)的情况。由1置信区间可以看出,x1、x2包含0在内,即y可能与该参数无关,所以不选择,并且两者的p值已经明显的大于=0.05,则不考虑x1、x2。比较x3x5后发现,x3的2R-决定系数明显的大于x5的,决定系数反映的是在因量的总变化中自变量引起的那部分的比例,2R大说明x3自变量对因变量起的决定作用最大。并且x3的p和s2值也都比较小,所以最终确定x3可以最好的反映出y的情况。用Polytool检验含x3高次(2次)项的情况,参量Export如下表:012回归系数估计值122.7242-17.90720.9356置信区间下限67.187
9、8-35.0387-0.3695置信区间上限178.2605-0.77572.2408可以同之前的仅含一次项的结果进行比较,发现各个参量的置信区间都很宽,且2的置信区间过0。可以认为二次项的引入是不重要的。因此采用如下单参数模型描述y是最准确地:其中:83.4438,-5.6682其中:83.4438,-5.6682双参数回归:用stepwise作逐步回归,部分过程和最终结果如下图:根据题目要求,最终得到取双参量时的最佳结果(RMSE参量最小)是取x3 (1500m跑后心速)和x1(年龄)自变量。但事实上,实际的逐步回归过程在此时并没有结束,最终的最优结果是只取x3参量。这说明取x3、x1参量
10、同只取x3相比优势并不明显。通过rstool命令检验二元情况下的交互项和高次项情况,下图是linear情况下固定单参数进行预测的结果:项对应的系数常数项X3X1X32X12X3*X1RMSELinear90.8529-5.4671-0.1872.8704Purequadratic142.8835-14.7911-1.17180.71110.01092.9028Interaction120.1929-10.1096-0.83640.10252.9033Quadratic144.4666-16.4515-1.01990.04500.68180.00622.9786可以看到高次项和相关项的系数都非常
11、小,说明其对于y的影响不大。根据rmse的结果进行比较,仍然选择linear回归方式,即只用二元自变量的一次项。yxx其中:01390.8529,=-0.1870,-5.4671全参数回归根据以上的分析可以验证模型建立时的猜想,本题中5个字变量和y的关系都不是很直接的,除x3外其他变量的影响很小,所以在最终完整模型中,不再考虑高次项和交互项的影响,一方面简化模型,一方面大大节省的筛选的时间。所以采用stepwise命令,仅对五元变量x1x5的一次项进行回归分析,结果如下:Export参数结果:置信区间Coeff.Set-statp-valX1-0.3254-0.594 -0.0568-0.32
12、540.1288-2.52740.02X200 0-0.01310.0851-0.15390.8793X3-4.5694-6.1842 -2.9546-4.56940.7741-5.90260X400 0-0.03840.0915-0.41930.6797X5-0.1561-0.3126 0.0004-0.15610.075-2.08090.0505R2=0.814315 F=29.2364 RMSE=2.66669 P=1.64368*e-7 最终取以下三个参数得到最佳回归结果:x3 (1500m跑后心速)、x1(年龄)以及x5(跑步后心速)。但仍需要进行一般回归分析(regress)确定常
13、数项并观察残差,结果如下:最终得到的结果整体上优越于剔除异常点之前的结果(不再粘贴结果)。但是事实上,由于数据点经过剔除不断的结果,模型最终的形式和实际统计到的24组数据的整体情况偏离越来越大,也就是说:剔除异常点虽然能够一应程度上降低其对于整体情况的干扰作用,而剔除的过程也放大了其他原本正常数据点的异常性,所以异常点可能会不断产生,但是剔除的数量增加即采样数据的减少也会削弱模型反省整体性能的能力。是一对矛盾,在数据点较少的时候尤其明显。比较科学的做法是:只进行1次或少次剔除,保证整体性,又去掉了最主要的异常点。这里的最终结果采用剔除最初两个异常点(10,15号)后的结果,在此也附上完整数据(
14、剔除之前)的结果,作为第3问的答案:完整数据(第三题结果):回归参数取值置信区间118.013588.1010 147.92601-0.3254-0.5940 -0.05683-4.5694-6.1842 -2.95465-0.1561-0.3126 0.0004R2FPs20.814329.23640.00007.1112其中:=118.0135, =-0.3254, =-4.5694, =-0.1561一次剔除(最终结果)回归参数取值置信区间119495594.6827 144.30841-0.3623-0.5991 -0.12553-4.0411-5.3617 -2.72055-0.1774-0.3030 -0.0518R2FPs20862537.62690.00004.4400其中:=119.4955, =-0.03623, =-4.0411, =-0.17741500m跑后心速、年龄以及跑步后心速三个参数最能够反映锻炼耗氧量这个重要的身体状态指标。三种心跳速度越快,说明耗氧量越大;速度越慢,即时间越长,说明耗氧量越小。三实验总结:各回归模型之间的区别:5重线性回归模型是对所有的相关因素,统一作线性回归分析,没有考虑其显著程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年高中英语Unit1SchoollifeSectionⅦGuidedWriting教师用书教案牛津译林版必修1
- 2024-2025学年高中历史课时分层作业一1.1统一中国的第一个皇帝秦始皇含解析新人教版选修4
- 2025年度虚拟现实VR教育内容开发与运营合同3篇
- 旅游地产尾盘销售代理合同(2025版)9篇
- 2025年土地租赁合同终止及合同解除条件协议
- 2025临时土地出租及设施建设合作协议3篇
- 2025年度大型企业人力资源成本控制与预算合同3篇
- 2024食品行业供应链管理服务合作协议3篇
- 2024石油化工公司化工产品供应承包合同
- 2025年度知识产权保护委托维权服务协议3篇
- 中国华能集团公司风力发电场运行导则(马晋辉20231.1.13)
- 中考语文非连续性文本阅读10篇专项练习及答案
- 2022-2023学年度六年级数学(上册)寒假作业【每日一练】
- 法人不承担责任协议书(3篇)
- 电工工具报价单
- 反歧视程序文件
- 油气藏类型、典型的相图特征和识别实例
- 流体静力学课件
- 顾客忠诚度论文
- 实验室安全检查自查表
- 证券公司绩效考核管理办法
评论
0/150
提交评论