数据统计建模方法-课件

上传人：x*** IP属地：贵州上传时间：2023-07-29 格式：PPTX 页数：162 大小：2.61MB 积分：25 举报 版权申诉

已阅读5页，还剩157页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数学建模中的统计方法

12020/12/2中国大学生数学建模竞赛（CUMCM）1992年中国工业与应用数学学会(CSIAM)开始组织1994年起教育部高教司和CSIAM共同举办(每年9月)

2010年，来自全国33个省/市/自治区(包括香港和澳门特区)及新加坡和澳大利亚的1197所院校、17317个队（其中本科组14108队、专科组3209队）、5万多名大学生参加了本项竞赛（2001年起刊登于当年“工程数学学报”）

网址：

奖励：证书（“一次参赛，终身受益”）

等级：全国一等~2%、二等~6%；赛区奖~1/322020/12/2精品资料32020/12/2你怎么称呼老师？如果老师最后没有总结一节课的重点的难点，你是否会认为老师的教学方法需要改进？你所经历的课堂，是讲座式还是讨论式？教师的教鞭“不怕太阳晒，也不怕那风雨狂，只怕先生骂我笨，没有学问无颜见爹娘……”“太阳当空照，花儿对我笑，小鸟说早早早……”42020/12/2我国CUMCM竞赛规模52020/12/2学生欢迎：“一次参赛，终身受益”研究生导师们的认同企业界的认同／赞助教育改革同行的认同：“成功范例”国际同行的认同竞赛的反响62020/12/2IBM中国研究中心-招聘条件Positiontitle:BusinessOptimization(BJ)

1．Backgroundinindustrialengineering,operationsresearch,mathematics,ArtificialIntelligence,managementscienceetc.

2.Knowledgeinnetworkdesign,jobscheduling,dataanalysis,simulationandoptimization

3.Awardinmathematicalcontestinmodelingisaplus

4.Experienceinindustryisaplus

5.Experienceineclipseorprogrammingmodel/architecturedesignisaplus

--Feb.18,2006,竞赛的反响（一例）72020/12/2IBM中国研究中心:BusinessAnalysisOptimizationJobRequirements:

1、PhDM.S.inmathematics,statistics,computerscience,industrialengineeringmanagementscienceetc.

2、Self-motivated,responsible,abletowkindependentlyundertightdeadlinewillingtowkunderpressure.

3、Skillinappliedmathematics,includingmathematicalprogramming,statistics,datamining,simulationetc.

4、Knowledgeinsupplychainlogisticsstrategymodeling,simulation,planningoptimization.

5、Stronginterestbasicknowledgeaboutindustrytrends,technologies,solutionsinanalyticsoptimization.

6、ExperienceinERP/SCM/CRMsystemSCMconsultingpracticeisaplus.

7、Awardinhighlyregardedmathematicalmodelingcontestisaplus.

8、Experienceineclipse,Java,architecturedesignisaplus.--March26,2009,竞赛的反响（一例）82020/12/2CUMCM评阅标准清晰性：摘要应理解为详细摘要，提纲挈领

表达严谨、简捷，思路清新格式符合规范，严禁暴露身份创造性：特别欣赏独树一帜、标新立异，但要合理假设的合理性，建模的创造性，结果的正确性，表述的清晰性。正确性：不强调与“参考答案”的一致性和结果的精度；好方法的结果一般比较好；但不一定是最好的合理性：关键假设(不欣赏罗列大量无关紧要的假设);

要对假设的合理性进行解释，正文中引用92020/12/2CUMCM评阅标准:一些常见问题有的论文过于简单，该交代的内容省略了，难以看懂有的队罗列一系列假设或模型，又不作比较、评价，希望碰上“参考答案”或“评阅思路”，弄巧成拙数学模型最好明确、合理、简洁：有些论文不给出明确的模型，只是根据赛题的情况，实际上是用“凑”的方法给出结果，虽然结果大致是对的，没有一般性，不是数学建模的正确思路。有的论文参考文献不全，或引用他人结果不作交代;参考文献应在正文中引用102020/12/2从论文评阅看学生参加竞赛中的问题

吃透题意方面不足，没有抓住和解决主要问题；就事论事，形成数学模型的意识和能力欠缺；对所用方法一知半解，不管具体条件，套用现成的方法，导致错误；对结果的分析不够，怎样符合实际考虑不周；写作方面的问题(摘要、简明、优缺点、参考文献);

队员之间合作精神差，孤军奋战；依赖心理重，甚至违纪（指导教师、网络）。112020/12/2竞赛内容与形式内容

赛题：工程、管理中经过简化的实际问题

答卷：一篇包含问题分析、模型假设、建立、求解(通常用计算机)、结果分析和检验等的论文形式3名大学生组队，在3天内完成的通讯比赛

可使用任何“死”材料(图书/互联网/软件等),但不得与队外任何人讨论（包括上网讨论）宗旨创新意识团队精神重在参与公平竞争标准假设的合理性，建模的创造性，结果的正确性，表述的清晰性。122020/12/22020/12/213一、CUMCM历年赛题的分析3、从问题的解决方法上分析

从问题的解决方法上分析，涉及到的数学建模方法：几何理论、组合概率、统计(回归)分析、优化方法（规划）、图论与网络优化、层次分析、插值与拟合、差分方法、微分方程、排队论、模糊数学、随机决策、多目标决策、随机模拟、灰色系统理论、神经网络、时间序列、综合评价、机理分析等方法。2020/12/214

用的最多的方法是优化方法和概率统计的方法.

用到优化方法的共有21个题，占总数的70%，其中整数规划4个，线性规划6个，非线性规划14个,多目标规划5个。用到概率统计方法的有16个题，占53.3%，几乎是每年至少有一个题目用到概率统计的方法。用到图论与网络优化方法的问题有5个；用到层次分析方法的问题有３个；一、CUMCM历年赛题的分析3、从问题的解决方法上分析2020/12/215

用到插值拟合的问题有6个；用到神经网络的4个；用灰色系统理论的4个;

用到时间序列分析的至少2个;

用到综合评价方法的至少3个；机理分析方法和随机模拟都多次用到;

其他的方法都至少用到一次。大部分题目都可以用两种以上的方法来解决,即综合性较强的题目有25个，占83.3%。一、CUMCM历年赛题的分析3、从问题的解决方法上分析统计的基本概念参数估计假设检验数据的统计描述和分析162020/12/2一、统计量172020/12/2182020/12/2二、分布函数的近似求法192020/12/2三、几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.41．正态分布),(2smN密度函数：222)(21)(smsp--=xexp分布函数：dyexFyx222)(21)(smsp--¥-ò=其中m为均值，2s为方差，+¥<<¥-x.标准正态分布：N（0，1）密度函数2221)(xex-=pjdyexyx2221)(-¥-ò=Fp

分布函数202020/12/2212020/12/2222020/12/2232020/12/2242020/12/2252020/12/2F（10，50）分布的密度函数曲线262020/12/2统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见的概率分布函数4.频数直方图的描绘5.参数估计6.假设检验7.综合实例272020/12/2一、数据的录入、保存和调用

例1

上海市区社会商品零售总额和全民所有制职工工资总额的数据如下：统计工具箱中的基本统计命令282020/12/21．年份数据以1为增量，用产生向量的方法输入.

命令格式：x=a:h:b

t=78:87

2．分别以x和y代表变量职工工资总额和商品零售总额.

x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]

y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]3．将变量t、x、y的数据保存在文件data中.savedatatxy4．进行统计分析时，调用数据文件data中的数据.

loaddata方法1292020/12/21．输入矩阵：data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]2．将矩阵data的数据保存在文件data1中：savedata1data3．进行统计分析时，先用命令：loaddata1

调用数据文件data1中的数据，再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y：

t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据，可用命令：

data(:,j)方法2302020/12/2二、基本统计量对随机变量x，计算其基本统计量的命令如下：均值：mean(x)中位数：median(x)标准差：std(x)

方差：var(x)偏度：skewness(x)

峰度：kurtosis(x)例对例1中的职工工资总额x，可计算上述基本统计量.312020/12/2

例1

上海市区社会商品零售总额和全民所有制职工工资总额的数据如下：x=[23.827.631.632.433.734.943.252.863.873.4];y=[41.451.861.767.968.777.595.9137.4155.0175.0];X=[mean(x),median(x),std(x),var(x),skewness(x),kurtosis(x)]X=41.720034.300016.4544270.74620.85902.4037Y=[mean(y),median(y),std(y),var(y),skewness(y),kurtosis(y)]Y=1.0e+003*0.09320.07310.04642.14970.00070.0020322020/12/2三、常见概率分布的函数MATLAB工具箱对每一种分布都提供5类函数，其命令字符为：概率密度：pdf

概率分布：cdf逆概率分布：inv

均值与方差：stat随机数生成：rnd

（当需要一种分布的某一类函数时，将以上所列的分布命令字符与函数命令字符接起来，并输入自变量（可以是标量、数组或矩阵）和参数即可.）332020/12/2在MATLAB中输入以下命令：x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)1．密度函数：p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)如对均值为mu、标准差为sigma的正态分布，举例如下：342020/12/23．逆概率分布：x=norminv(P,mu,sigma).

即求出x

，使得P{X<x}=P.此命令可用来求分位数.2．概率分布：P=normcdf(x,mu,sigma)352020/12/24．均值与方差：[m,v]=normstat(mu,sigma)例5求正态分布N(3,52)的均值与方差.

命令为：[m,v]=normstat(3,5)

结果为：m=3,v=255．随机数生成：normrnd(mu,sigma,m,n).产生m×n阶的正态分布随机数矩阵.normrnd(0,1,4,5)ans=-0.4326-1.14650.3273-0.58831.0668-1.66561.19090.17462.18320.05930.12531.1892-0.1867-0.1364-0.09560.2877-0.03760.72580.1139-0.8323362020/12/21．给出数组data的频数表的命令为：

[N,X]=hist(data,k)

此命令将区间[min(data),max(data)]分为k个小区间（缺省为10），返回数组data落在每一个小区间的频数N和每一个小区间的中点X.2．描绘数组data的频数直方图的命令为：

hist(data,k)四、数直方图的描绘372020/12/2五、参数估计1．正态总体的参数估计

设总体服从正态分布，则其点估计和区间估计可同时由以下命令获得：

[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)

此命令在显著性水平alpha下估计数据X的参数（alpha缺省时设定为0.05），返回值muhat是X的均值的点估计值，sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计.382020/12/2data2=normrnd(10,2,100,1);[muhat,sigmahat,muci,sigmaci]=normfit(data2,0.05)muhat=10.0311sigmahat=

1.7472muci=9.684410.3777sigmaci=1.53412.0297392020/12/22．其它分布的参数估计

有两种处理办法:一、取容量充分大的样本（n>50），按中心极限定理，它近似地服从正态分布；二、使用MATLAB工具箱中具有特定分布总体的估计命令.（1）[muhat,muci]=expfit(X,alpha)──在显著性水平alpha下，求指数分布的数据X的均值的点估计及其区间估计.（2）[lambdahat,lambdaci]=poissfit(X,alpha)──在显著性水平alpha下，求泊松分布的数据X的参数的点估计及其区间估计.（3）[phat,pci]=wblfit(X,alpha)──在显著性水平alpha下，求Weibull分布的数据X的参数的点估计及其区间估计.402020/12/2六、假设检验

在总体服从正态分布的情况下，可用以下命令进行假设检验.1．总体方差已知时，总体均值的检验使用z检验

[h,sig,ci]=ztest(x,m,sigma,alpha,tail)检验数据x

的关于均值的某一假设是否成立，其中sigma

为已知方差，alpha为显著性水平，究竟检验什么假设取决于tail的取值：tail=0，检验假设“x

的均值等于

m”tail=1，检验假设“x

的均值大于

m”tail=-1，检验假设“x

的均值小于

m”tail的缺省值为0，alpha的缺省值为0.05.

返回值h为一个布尔值，h=1

表示可以拒绝假设，h=0表示不可以拒绝假设，sig

为假设成立的概率，ci

为均值的1-alpha

置信区间.412020/12/2

例

MATLAB统计工具箱中的数据文件gas.mat.中提供了美国1993年1月份和2月份的汽油平均价格（price1,price2分别是1、2月份的油价，单位为美分），它是容量为20的双样本.假设1月份油价的标准偏差是每加仑4分币（=4），试检验1月份油价的均值是否等于115.解作假设：m=115.首先取出数据，用以下命令：

loadgas然后用以下命令检验

[h,sig,ci]=ztest(price1,115,4)返回：h=0，sig=0.8668，ci=[113.3970116.9030].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115

是合理的.2.sig值为0.8668,远超过0.5,不能拒绝零假设

3.95%的置信区间为[113.4,116.9],它完全包括115,且精度很高..

422020/12/22．总体方差未知时，总体均值的检验使用t检验

[h,sig,ci]=ttest(x,m,alpha,tail)检验数据x

的关于均值的某一假设是否成立，其中alpha为显著性水平，究竟检验什么假设取决于tail

的取值：tail=0，检验假设“x

的均值等于

m”tail=1，检验假设“x

的均值大于

m”tail=-1，检验假设“x

的均值小于

m”tail的缺省值为0，alpha的缺省值为0.05.

返回值h为一个布尔值，h=1表示可以拒绝假设，h=0表示不可以拒绝假设，sig为假设成立的概率，ci为均值的1-alpha置信区间.432020/12/2返回：h=1，sig=4.9517e-004，ci=[116.8120.2].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设油价均值115是不合理的.2.95%的置信区间为[116.8120.2],它不包括

115,故不能接受假设.3.sig值为4.9517e-004,远小于0.5,不能接受零假设.

例8试检验例8中2月份油价price2的均值是否等于115.解作假设：m=115，price2为2月份的油价，不知其方差，故用以下命令检验[h,sig,ci]=ttest(price2,115)442020/12/23．两总体均值的假设检验使用t

检验

[h,sig,ci]=ttest2(x,y,alpha,tail)检验数据x，y的关于均值的某一假设是否成立，其中alpha为显著性水平，究竟检验什么假设取决于tail的取值：tail=0，检验假设“x

的均值等于

m”tail=1，检验假设“x

的均值大于

m”tail=-1，检验假设“x

的均值小于

m”tail的缺省值为0，alpha的缺省值为0.05.

返回值h为一个布尔值，h=1表示可以拒绝假设，h=0表示不可以拒绝假设，sig为假设成立的概率，ci为与x与y均值差的的1-alpha置信区间.452020/12/2返回：h=1，sig=0.0083，ci=[-5.8,-0.9].检验结果:1.布尔变量h=1,表示拒绝零假设.说明提出的假设“油价均值相同”是不合理的.2.95%的置信区间为[-5.8,-0.9],说明一月份油价比二月份油价约低1至6分.3.sig-值为0.0083,远小于0.5,不能接受“油价均相同”假设.例9试检验例8中1月份油价price1与2月份的油价price2均值是否相同.解用以下命令检验[h,sig,ci]=ttest2(price1,price2)462020/12/24．非参数检验：总体分布的检验MATLAB工具箱提供了两个对总体分布进行检验的命令:（1）h=normplot(x)（2）h=wblplot(x)

此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布，则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.

此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布，则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.472020/12/2例10

一道工序用自动化车床连续加工某种零件，由于刀具损坏等会出现故障.故障是完全随机的，并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录，故障出现时该刀具完成的零件数如下：x=[459362624542509584433748815505...612452434982640742565706593680...9266531644877346084281153593844...527552513781474388824538862659...402960885610292837473677358638...699634555570844166061062484120...447654564339280246687539790581...621724531512577496468499544645...764558378765666763217715310851];试观察该刀具出现故障时完成的零件数属于哪种分布.482020/12/2解1．数据输入2．作频数直方图

hist(x,10)3．分布的正态性检验

normplot(x)4．参数估计：

[muhat,sigmahat,muci,sigmaci]=normfit(x)（看起来刀具寿命服从正态分布）估计出该刀具的均值为587，方差199，均值的0.95置信区间为[544.9090，628.1577]，方差的0.95置信区间为[173.3397，232.9193].492020/12/25．假设检验

已知刀具的寿命服从正态分布，现在方差未知的情况下，检验其均值m是否等于587.结果：h=0，sig=0.9823，ci=[544.9090，628.1577].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设寿命均值587是合理的.2.95%的置信区间为[544.9，628.16],

它完全包括587,且精度很高.3.sig值为0.9823,远超过0.5,不能拒绝

零假设.

502020/12/2一元线性回归多元线性回归二、回归分析方法数学模型及定义模型参数估计检验、预测与控制可线性化的一元非线性回归（曲线回归）数学模型及定义模型参数估计多元线性回归中的检验与预测512020/12/2522020/12/22.1一元线性回归分析例1

测16名成年女子的身高与腿长所得数据如下：以身高x为横坐标，以腿长y为纵坐标将这些数据点（xi，yi）在平面直角坐标系上标出.散点图身高143145146147149150153154155156157158159160162164腿长88858891929393959698979698991001022.1.1数学模型532020/12/2一元线性回归分析的主要任务是：、1、用试验值（样本值）对0b1b和s作点估计；、2、对回归系数0b1b作假设检验；542020/12/22.2.2模型参数估计（1）回归系数的最小二乘估计552020/12/2其中

562020/12/2572020/12/2582020/12/2称Qe为残差平方和或剩余平方和.可以证明：592020/12/22.2.3回归方程的显著性检验602020/12/2612020/12/2且与独立1．t检验法若H0成立，即b=0，

可以用三种不同方法进行检验，它们的本质是相同的．这里介绍622020/12/2因而故为显著性水平即得H0的拒绝域为632020/12/2642020/12/2

2.F检验法：

当H0为真时，

且SSR与SSE相互独立；因此，当H0为真时，

当F≥F1-α(1,n-2)时应该放弃原假设H0。652020/12/23.r-检验法662020/12/2回归系数的置信区间672020/12/2线性回归matlab

b=regress(Y,X)1．确定回归系数的点估计值：b为一元函数y系数的估计值Y.X都是列向量682020/12/22．求回归系数的点估计和区间估计、并检验回归模型：

[b,bint,r,rint,stats]=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量，有三个数值：相关系数R2、F值、与F对应的概率p置信区间

显著性水平（缺省时为0.05）692020/12/23．画出残差及其置信区间：

rcoplot（r，rint）702020/12/2例1

测16名成年女子的身高与腿长所得数据如下：身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102clearx=[143145146147149150153154155156157158159160162164]';X=[ones(16,1)x];Y=[8885889192939395969897969899100102]';[b,bint,r,rint,stats]=regress(Y,X);b,bint,statsrcoplot(r,rint)z=b(1)+b(2)*x;figure,plot(x,Y,'k+',x,z,'r')F=finv(0.95,1,14)%及求F0.05(1,16-2)712020/12/2b=-16.07300.7194bint=-33.70711.56120.60470.8340stats=0.9282180.95310.0000F0.05(1,16-2)=4.6722020/12/2

从残差图可以看出，除第二个数据外，其余数据的残差离零点均较近，且残差的置信区间均包含零点，这说明回归模型y=-16.073+0.7194x能较好的符合原始数据，而第二个数据可视为异常点.732020/12/22.2.4预测与控制（1）预测:对固定的x值预测相应的y值742020/12/2例1

测16名成年女子的身高与腿长所得数据如下：身高143145146147149150153154155156157158159160162164腿长8885889192939395969897969899100102请你预测一下身高为170cm时该女子的腿长应该是在什么范围(置信度为0.05)clearx0=170x=[143145146147149150153154155156157158159160162164];y0=-16.073+0.7194*x0;t=tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d]752020/12/2clearx=[143145146147149150153154155156157158159160162164]';X=[ones(16,1)x];Y=[8885889192939395969897969899100102]';[b,bint,r,rint,stats]=regress(Y,X);x0=170x=[143145146147149150153154155156157158159160162164];y0=-16.073+0.7194*x0;t=tinv(0.975,16-2);Lxx=sum((x-mean(x)).^2)d=sum(r.^2)/14*t*sqrt(1+1/16+(x0-mean(x))/Lxx)yy=[y0-d,y0+d]yy=102.3216110.1284762020/12/2（2）控制772020/12/2782020/12/2用一条曲线来拟合因变量对于自变量的依赖关系通过变量替换把问题转化为一元或多元线性回归问题后，用线性回归分析的方法建立回归模型，并进行预测(即化非线性回归为线性回归)2.2可线性化的一元非线性回归曲线回归792020/12/21.用幂函数曲线拟合

设则及化非线性回归为线性回归的常用方法802020/12/22.指数函数曲线拟合设则812020/12/23.对数函数曲线拟合

设则822020/12/24.

双曲线函数拟合

设则832020/12/25.二次多项式及三次多项式842020/12/26、S型（Logistic）曲线拟合变形

设852020/12/2例2出钢时所用的盛钢水的钢包，由于钢水对耐火材料的侵蚀，容积不断增大.我们希望知道使用次数与增大的容积之间的关系.对一钢包作试验，测得的数据列于下表：862020/12/2散点图此即非线性回归或曲线回归问题（需要配曲线）配曲线的一般方法是：872020/12/2通常选择的六类曲线如下：882020/12/2clearall,clc;x=2:1:16;x1=1./x;x1=x1';X=[ones(15,1),x1];y=[6.428.209.589.509.7010.009.939.9910.4910.5910.6010.8010.6010.9010.76]';y1=log(y);[b,bint,r,rin,stats]=regress(y1,X);b,bint,statsb=2.4578-1.1107bint=2.43062.4850-1.2485-0.9729stats=0.9589303.18960.0000y=a

892020/12/22.3多元线性回归多元线性回归在工程上更为有用。2.3.1数学模型及定义902020/12/2912020/12/2922020/12/2932020/12/22.3.2模型参数估计

942020/12/2解得估计值952020/12/2962020/12/22.3.4多元线性回归中的检验与预测972020/12/2982020/12/2992020/12/21002020/12/22.4.1多元线性回归

b=regress(Y,X)1)确定回归系数的点估计值：2.4

MATLAB统计工具箱中的回归分析命令对一元线性回归，取p=1即可.1012020/12/23、画出残差及其置信区间：

rcoplot（r，rint）2)求回归系数的点估计和区间估计、并检验回归模型：

[b,bint,r,rint,stats]=regress(Y,X,alpha)回归系数的区间估计残差用于检验回归模型的统计量，有三个数值：相关系数r2、F值、与F对应的概率p置信区间

显著性水平（缺省时为0.05）1022020/12/22.4.2多项式回归（1）一元多项式回归

1）确定多项式系数的命令：[p,S]=polyfit（x，y，m）A、回归：y=a1xm+a2xm-1+…+amx+am+11032020/12/2B、预测和预测误差估计：（1）Y=polyval（p，x）求polyfit所得的回归多项式在x处的预测值Y；（2）[Y，DELTA]=polyconf（p，x，S，alpha）求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-alpha的置信区间YDELTA；alpha缺省时为0.05.一元多项式回归也可以化为多元线性回归来解。（2）一元多项式回归命令：polytool（x，y，m）

此命令产生一个交互式的画面，画面中有拟合曲线和y的置信区间。通过左下方的Export菜单，可以输出回归系数等。1042020/12/2法一

直接作二次多项式回归：

t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];

[p,S]=polyfit(t,s,2)得回归模型为：[Y,DELTA]=polyconf(p,t,S);plot(t,s,'k+',t,Y,'r')预测及作图1052020/12/2法二化为多元线性回归：t=1/30:1/30:14/30;s=[11.8615.6720.6026.6933.7141.9351.1361.4972.9085.4499.08113.77129.54146.48];T=[ones(14,1)t'(t.^2)'];[b,bint,r,rint,stats]=regress(s',T);b,stats得回归模型为：1062020/12/2polytool(x,s,2)法三1072020/12/22.4.3多元二项式回归命令：rstool（x，y，’model’,alpha）nm矩阵显著性水平（缺省时为0.05）n维列向量1082020/12/2

命令rstool产生一个交互式画面，画面中有m个图形，这m个图形分别给出了一个独立变量xi（另m-1个变量取固定值）与y的拟合曲线，以及y的置信区间。可以通过键入不同的xi值来获得相应的y值。1092020/12/2

例3

设某商品的需求量与消费者的平均收入、商品价格的统计数据如下，建立回归模型，预测平均收入为800、价格为6时的商品需求量.解

直接用多元二项式回归：x1=[10006001200500300400130011001300300];x2=[5766875439];y=[10075807050659010011060]';x=[x1'x2'];rstool(x,y,'purequadratic')1102020/12/2

在画面左下方的下拉式菜单中选”all”,则beta（回归系数）、rmse（剩余标准差）和residuals（残差）都传送到Matlab工作区中.在左边图形下方的方框中输入800，右边图形下方的方框中输入6。则画面左边的“PredictedY”下方的数据变为86.3971，即预测出平均收入为800、价格为6时的商品需求量为86.3971.1112020/12/2在Matlab工作区中输入命令：beta,rmse1122020/12/22.5非线性回归（1）确定回归系数的命令：

[beta，r，J]=nlinfit（x，y，’model’,beta0）（2）非线性回归命令：nlintool（x，y，’model’,beta0，alpha）2.5.1回归：残差Jacobian矩阵，用于估计预测误差需要的数据。回归系数的初值是事先用m-文件定义的非线性函数估计出的回归系数输入数据x、y分别为矩阵和n维列向量，对一元非线性回归，x为n维列向量。其中个参数含义同前，alpha为显著性水平，缺省时为0.05。该命令产生一个交互式的画面，画面中有拟合曲线和y的置信区间。通过左下方的Export菜单，可以输出回归系数等。1132020/12/22.5.2、预测和预测误差估计：该命令用于求nlinfit或nlintool所得的回归函数在x处的预测值Y及预测值的显著性为1-alpha的置信区间YDELTA.[Y，DELTA]=nlpredci（’model’,x，beta，r，J）1142020/12/2例4

对第一节例2，求解如下：2、输入数据：

x=2:16;

y=[6.428.209.589.59.7109.939.9910.4910.5910.6010.8010.60...10.9010.76];beta0=[82]';3、求回归系数：

[beta,r,J]=nlinfit(x',y',@volum,beta0);

beta得结果：beta=11.6036-1.0641即得回归模型为：题目1152020/12/24、预测及作图：

[YY,delta]=nlpredci(@volum,x',beta,r,J)；

plot(x,y,'k+',x,YY,'r')1162020/12/2逐步回归分析逐步回归分析（Stepwiseregresssionanalysis）1172020/12/21182020/12/21192020/12/21202020/12/21212020/12/21222020/12/21232020/12/21242020/12/21252020/12/21262020/12/21272020/12/21282020/12/21292020/12/21302020/12/21312020/12/21322020/12/21332020/12/21342020/12/21352020/12/21362020/12/21372020/12/2逐步回归逐步回归的命令是：stepwise(x,y,inmodel，penter,premove）

运行stepwise命令时产生三个图形窗口：StepwisePlot，StepwiseTable，StepwiseHistory.

在StepwisePlot窗口，显示出各项的回归系数.StepwiseTable窗口中列出了一个统计表，包括回归系数，以及模型的统计量剩余标准差（RMSE）、相关系数（R-square）、F值、与F对应的概率P.矩阵的列数的指标，给出初始模型中包括的子集（缺省时设定为全部自变量）进入容忍值自变量数据,

阶矩阵因变量数据，阶矩阵删除容忍值1382020/12/2例6

水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、

x4有关，今测得一组数据如下，试用逐步回归法确定一个线性模型.1、数据输入：x1=[7111117113122111110]';x2=[26295631525571315447406668]';x3=[615886917221842398]';x4=[6052204733226442226341212]';y=[78.574.3104.387.695.9109.2102.772.593.1115.9...83.8113.3109.4]';x=[x1x2x3x4];stepwise(x,y,4,0.06,0.1)1392020/12/2注意1402020/12/21412020/12/21422020/12/21432020/12/21442020/12/2四软件开发人员的薪金问题：一家高技术公司人事部门为研究软件开发人员的薪金与他们的资历、管理责任、教育程度等因素之间的关系，要建立一个数学模型，以便分析公司人士策略的合理性，并作为新聘用人员工资的参考。他们认为目前公司人员的薪金总体上是合理的，可以作为建模的依据，于是调查了46名开发人员的档案资料，如表。其中资历一列指从事专业工作的年数，管理一列中1表示管理人员，0表示非管理人员，教育一列中1表示中学程度，2表示大学程度，3表示更高程度（研究生）东北大学数学系1452020/12/2编号薪金资历管理教育编号薪金资历管理教育011387611113198003130211608103141141740103187011131520263413041128310216132314030511767103171284440206208722121813245502071177220219136775030810535201201596551109121952032112366601101231330222213526131114975311231383960212213713122422884612东北大学数学系1462020/12/2编号薪金资历管理教育编号薪金资历管理教育251697871136168821202261480380237241701213271740481138159901301282218481339263301312291354880140179491402301446710014125685151331159421002422783716123223174101343188381602332378010124417483160134254101112451920717023514861110146193462001开发人员的薪金与他们的资历、管理责任、教育程度东北大学数学系1472020/12/2分析与假设：按照常识，薪金自然按照资历（年）的增长而增加，管理人员的薪金高于非管理人员，教育程度越高薪金越高。薪金记作，资历（年）记作，为了表示是否为管理人员定义1，管理人员0，非管理人员为了表示三种教育程度，定义1，中学0，其它1，大学0，其它这样，中学用表示，大学用表示，研究生则用表示。东北大学数学系1482020/12/2为了简单起见，我们假定资历（年）对薪金的作用是线性的，即资历每加一年，薪金的增长是常数；管理责任、教育程度、资历诸因素之间没有交互作用，建立线性回归模型。基本模型：薪金与资历，管理责任，教育程度之间的多元线性回归模型为其中，是待估计的回归系数，是随机误差。利用MATLAB的系统工具箱可以得到回归系数及其置信区间（置信水平）、

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据统计建模方法-课件

文档简介

温馨提示

最新文档

评论

数据统计建模方法-课件

文档简介

温馨提示

最新文档

评论

相关文档