




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第五讲一元/多元线性回归(上)内容:线性回归简言之就是用统计数据寻求变量间线性相关关系的近似表达式的一种方法目的:学习回归分析的基本思想和方法,掌握Matlab的一元/多元线性回归函数和工具要求:掌握Matlab线性回归分析,处理应用问题了解回归分析的基本思想和方法了解回归分析的基本类型和实现步骤掌握线性回归函数regressrcoplotrobustfit掌握交互式回归分析工具rstoolstepwise回归分析的基本思想和方法在客观世界中普遍存在着变量之间的关系,变量之间的关系一般来说可分为确定性的与非确定性的两种。确定性关系是指变量之间可以用确定的函数关系来表达(插值或拟合)。非确定性关系,例如人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间的关系等,它们之间是有关联的,但又不能用普通函数来表示,我们称这类非确定性关系为相关关系。具有相关关系的变量在很多时候涉及到随机变量,虽然不具有确定的函数关系,但是可以借助函数关系来近似表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为回归函数,对应的数学方法称为回归分析。回归分析的基本思想和方法常见概率密度函数、累积分布函数...(helpstats
)回归分析的基本思想和方法回归分析是数学建模的有力工具,那么我们要建立回归函数的数学模型,一般需要以下步骤:1、采集一组包含自变量和因变量的数据;2、选定自变量与因变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;3、利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型;4、判断得到的模型是否适合于这组数据,诊断有无不适合回归模型的异常数据;5、利用模型对因变量做出预测或解释。
附注:在第2步中,选定自变量与因变量的模型时,一般是凭经验选取模型。回归分析主要包括一元线性回归,多元线性回归以及非线性回归一元线性回归(linearregression)基于最小二乘的一元线性回归函数regress:UnaryLinearRegressionAnalysis:b=regress(y,X)回归系数的点估计[b,bint,r,rint,stats]=regress(y,X,alpha)回归系数的点估计和区间估计,并检验回归模型范例
为实时地调整切削机床,需测定刀具的磨损程度,每隔一小时测量刀具的厚度得到以下的数据,试建立刀具厚度关于切削时间的回归模型,对模型和系数进行检验,预测15小时后刀具的厚度:时间(h)012345678910厚度(cm)30.629.128.428.128.027.727.527.227.026.826.5一元线性回归(linearregression)1、对原始数据进行观察,确定回归模型:x=0:1:10;y=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];plot(x,y,'rs','linewidth',2);从原始数据上看,可以建立一元线性回归模型:一元线性回归(linearregression)2、线性回归函数regress相关参数的统计学意义:其中,alpha表示显著性水平,缺省时为0.05;b为回归系数估计值,bint为回归系数的置信区间;r是残差,rint是残差的置信区间;stats是用于检验回归模型的统计量。统计量stats有三个数值:一是相关系数
R的平方(用于相关系数评价,R的绝对值间于0.8~1,越靠近1表明回归显著)
;二是统计量F(用于F检验法,F的值大于F1-a(v1,v2)表明回归显著);三是与F对应的概率P(P≤alpha表明回归显著,一般0.01<P≤0.05被认为是具有统计学意义,而0.001≤P≤0.01被认为具有高度统计学意义)一元线性回归(linearregression)3、计算回归模型各项系数并绘制时序残差图:x=0:1:10;y=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];alpha=0.05;x=[ones(length(x),1),x'];y=y';[b,bint,r,rint,stats]=regress(y,x,alpha);%线性回归disp(['回归系数b估计值:',num2str(b')]);disp(['相关系数R绝对值:',num2str(sqrt(stats(1)))]);%此值至少间于0.8~1,越接近1越显著disp(['假设检验统计量F:',num2str(stats(2))]);%此值大于对应反查F累积分布表值,越大于越显著。%查表finv(1-alpha,变量数,数据数-变量数-1)如finv(0.95,1,9)disp(['统计量F对应概率P:',num2str(stats(3))]);%此值小于alpha(默认0.05),越小于越显著rcoplot(r,rint)%画出残差及其置信区间(时序残差图)fprintf('回归函数为y=%.4f+%.4f*x\n',b(1),b(2));一元线性回归(linearregression)4、诊断并剔除不适合回归模型的异常数据:%为了方便多次回归,此处daoju.m已作适当改写
观察残差分布,发现第一个数据(0,30.6)残差的置信区间不包括零点,应视为异常点,将其剔除后,用剩余的数据点重新进行计算:再次计算,发现原始数据中的第二个数据(1,29.1)残差的置信区间也不包括零点,仍将该点视为异常点,将其剔除,重新计算:
提示:可在变量空间中双击变量然后右键Delete数据一元线性回归(linearregression)5、综合三种评价指数一时序残差图选定最佳回归:最后一次回归的数据残差的置信区间全部包括零点,无异常点。对比分析:对比两次剔除异常点前后的变化,发现置信区间明显缩小,相关系数平方和明显变大,表明异常点的剔除有利于更好的建立模型。一元线性回归(linearregression)6、残差向量正态性的图形检验:目的是为了检验误差的正态性假设是否合理,常用的图形检验方法与三种:normplotqqplothistqqplot分位图hist频度统计图一元线性回归(linearregression)7、利用回归模型对因变量做出预测或解释:代入最后一次回归系数估计值:28.8667-0.233333对比采样点和回归模型,并预测15小时后刀具的厚度:xdata=0:1:10;ydata=[30.6,29.1,28.4,28.1,28.0,27.7,27.5,27.2,27.0,26.8,26.5];plot(xdata,ydata,'rs','linewidth',2);holdon;x=0:0.01:16;y=b(1)+b(2)*x;plot(x,y,'b-','linewidth',2);y=b(1)+b(2)*15%ans=25.3667即该切削机床15小时后的刀具厚度预测值为25.3667
cm一元线性回归(linearregression)基于最小二乘加权迭代的稳健回归函数robustfit:RobustRegressionAnalysis:b=robustfit(X,Y)[b,stats]=robustfit(X,Y)[b,stats]=robustfit(X,Y,'wfun',tune,'const')说明
b为回归系数估计向量;stats为各种参数估计;'wfun'指定一个加权函数;'tune'为调协常数;'const'的值为'on'(默认值)时添加一个常数项;为'off'时忽略常数项。稳健回归是指此回归方法相对于其他回归方法而言,受异常值的影响较小。一元线性回归(linearregression)范例用函数y=10-2x加随机干扰项生成数据集,改变y(10)的值形成异常值,分别作regress和robustfit线性回归,观察异常数据点对回归效果的影响:x=1:1:10;y=10-2*x+randn(1,10);%生成数据并加干扰项y(10)=0;%产生异常数据点breg=regress(y',[ones(1,10);x]')brob=robustfit(x,y)%注意调用格式symsb1b2t;fun=b1+b2*t;f=inline(subs(fun,[b1,b2],[breg(1),breg(2)]));g=inline(subs(fun,[b1,b2],[brob(1),brob(2)]));plot(x,y,'rs','linewidth',2);holdon;plot(x,f(x),'g-','linewidth',2);plot(x,g(x),'b-','linewidth',2);上面的范例也可以通过运行robustdemo动态观察多元线性回归(linearregression)基于最小二乘的多元线性回归函数regress:MultipleLinearRegressionAnalysis:b=regress(y,X)[b,bint,r,rint,stats]=regress(y,X,alpha)范例
现有23位病人对医院的服务工作进行综合打分(百分制),同时也调查病人的简单情况,项目包括,病人对医院服务工作的满意程度Y,病人的年龄X1,病情严重程度X2,病人忧虑程度X3,具体调查表格如下(参见p89-90)方法1:regress多元线性回归多元线性回归(linearregression)1、对原始数据进行观察,确定回归模型:loadhospital.mat%载入数据源subplot(1,3,1);plot(x(1,:),y,'rs','linewidth',2);title('年龄vs评分');subplot(1,3,2);plot(x(2,:),y,'gs','linewidth',2);title('病情vs评分');subplot(1,3,3);plot(x(3,:),y,'bs','linewidth',2);title('忧虑vs评分');由散点图分析知:自变量年龄、病情、忧虑与因变量评分呈显著线性关系,所以可以建立多元线性回归模型多元线性回归(linearregression)2、利用数据按照最小二乘准则计算模型中的系数:loadhospital.mat%载入数据源alpha=0.05;x=[ones(length(x),1),x'];y=y';[b,bint,r,rint,stats]=regress(y,x,alpha);disp(['回归系数b估计值:',
num2str(b')]);disp(['相关系数R绝对值:',num2str(sqrt(stats(1)))]);disp(['假设检验统计量F:',num2str(stats(2))]);%finv(0.95,3,19)disp(['统计量F对应概率P:',num2str(stats(3))]);rcoplot(r,rint)%画出残差及其置信区间(时序残差图)fprintf('回归函数为y=%.4f+%.4f*x1+%.4f*x2+%.4f*x3',b(1),b(2),b(3),b(4));多元线性回归(linearreg
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第一单元 第1节 《走进互联世界》教学设计 2024-2025学年川教版(2024)信息科技 七年级上册
- 数据挖掘与知识发现出版考核试卷
- 办公设备的融资演示高效工作考核试卷
- 会展旅游企业品牌建设考核试卷
- 林业有害生物防治在气候变化背景下的应对策略考核试卷
- 第八章第二节俄罗斯第 1课时教学设计-2023-2024学年商务星球版七年级地理下册
- 中华传统文化教学计划
- 促进员工士气的激励措施计划
- 公司生产工作计划优化生产计划与订单管理系统
- 以客户为中心促进业务增长计划
- 2025年音响设备销售服务合同范本
- 2025年安徽工业经济职业技术学院单招职业技能测试题库及答案参考
- 2025年安庆医药高等专科学校单招职业适应性考试题库附答案
- 4.1 人要有自信(课件)-2024-2025学年道德与法治七年级下册 (统编版2024)
- 2025春季开学第一课安全教育班会课件-
- 生物节律调节课件
- 不分手承诺书(2025版)恋爱忠诚协议
- 2020-2025年中国国有控股公司行业发展趋势及投资前景预测报告
- 病区8S管理成果汇报
- 2025复工复产安全教育培训
- 2025年华侨港澳台学生联招考试英语试卷试题(含答案详解)
评论
0/150
提交评论