版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《应用回归分析》
模型选择问题:对于模型y=B+Bx+Bx+Bx+e,其中B=1,B=2,B=—1,B=0TOC\o"1-5"\h\z01122330123用随机数的方法产生n=40组数据,要求x〜U[—10,10],k=1,2,3,i=1,…,n;e〜N(0,1);iki并且y由iy=B+Bx+Bx+Bx+ei01i12i23i3i得出。对于这40组随机数据(y,x,x,x),i=1,…,n,我们建立了以下四ii1i2i3种模型:^①.y=B+Bx+e011y=B+Bx+Bx+eTOC\o"1-5"\h\z01122y—B+Bx+Bx+e01133④.y=B+Bx+Bx+Bx+e0112233运用我们所学的模型选择的准则在①〜④中选出最佳模型。一、产生随机数对于这个问题,我们首先要解决的是根据原模型及给定的参数分布产生问题要求的40组随机数(y,x,x,x),i=1,…,n。ii1i2i3我们知道在Matlab中,可以利用R=rand这个函数来产生一个[0,1]上的随机数,并且R是来自[0,1]的均匀分布,即R〜U[0,1];我们利用R=rand(n,k)就可以得到一个n行k列的来自均匀分布U[0,1]的随机数组成的矩阵。由此我们可以想到,利用R=10—20*rand(40,3),我们就可以得到x,k=1,2,3,i=1:40,ik我们在它的左侧加入全为1的一列,保存在X中。我们要运用林德贝格-勒维中心极限定理通过均匀分布U[0,1]的随机数来产生N(0,1)上的随机数。U[0,1]的期望和方差分别为1/2和1/12,所以12个相互独立的U[0,1]和的期望和方差分别为6和1。因此只要产生12个U[0,1]上的随机数x,x,…,x,计算x+x++x—6就得到一个来自N(0,1)的随机数。1212121211118888"18.289689.389186.53223_"0.21794"8.40813_14.75036-4.881492.18124-1.7277613.654431-6.02029-0.00045-6.627590.71993-10.320219.415590.40156-6.067291.7396221.169251-8.57708-8.094448.790580.12487-7.934851-4.60662-2.197332.014840.80141-5.2145010.22782-2.35333-0.537520.553244.362211-1.57050-7.188851.664010.948755.9965915.25433-6.10979-3.13720-1.9320615.6863810.82302-1.53443-2.55947-0.817933.362551-9.261776.341554.160321.32851-22.53651-0.936115.201361.36698-1.70398-7.777561-0.42272-7.730249.69026-0.277337.6074815.368119.42652-9.681271.015223.3249310.222050.201976.656631.034102.276221-2.481206.641467.87567-0.51016-11.11401-3.58271-9.573612.551810.801244.2094312.08970-4.253896.037630.432239.8655112.65127-0.009430.20625-0.442505.869471-9.759640.578233.210130.58418v-18.513319.245228.80762-9.03261e—0.44931Y—11.132131-7.70336-3.63944-8.40664-0.06311-10.83031-8.265749.151388.94646-0.48189-25.16471-5.923688.57109-4.75716-2.44547-21.863918.02575-0.433004.61761-1.7166015.7679C14.762588.065401.54329-1.279771.1799813.29286-6.36297-0.957421.0754615.024161-3.59456-6.35094-8.854740.713570.8753917.26894-4.448791.64512-0.1250319.861641-4.424557.00269-9.66105-0.39874-15.250517.86476-3.192113.970901.7040021.625631-3.07515-0.37190-4.02198-0.33701-5.1154010.11652-9.45949-3.326781.3918812.084411-5.58103-2.97983-0.782530.02059-7.161651-4.30074-6.00661-3.96211-1.63332-3.228191-8.074410.92405-3.33056-1.70961-17.78241-7.818451.352176.43735-1.05981-17.048813.31674-6.506287.43971-1.9170612.222701-3.974928.33060-9.981610.11329-15.167116.043807.336586.57758__-1.9456_1_3.80542_83X=413因此我们得到了40组数据(x,x,x,e),i=1,…,40,将其代入模型i1i2i3iy=B+Bx+Bx+Bx+ei01i12i23i3i就得到了上页中以矩阵形式表示的40组随机数(y,x,x,x),i=1,…,40。ii1i2i3二、模型选择准则这里我们有五种模型选取准则:1、平均平方和准则对于一个选模型,假设模型中含有p个回归变量,记:MS=1SSEpn—pp其中SSE是在此选模型下的残差平方和。计算多个选模型的MS,我们认为ppMS越小的模型效果越好。p2、Gp准则同样的,我们对选模型计算:SSEG=——n+2pp£2其中£2是全模型下的£2的最小二乘估计。G越小,模型效果越好。p3、AIC准则Y,Y,…,Y是一个样本,记含有k个参数的模型的似然函数为TOC\o"1-5"\h\z12nL(9IY,…,Y),9的MLE为J,则AIC准则要求1kAIC=ln厶(0八IY,…,Y)—k1k的值越大,选模型的效果越好。进一步地,在线性模型场合,我们有nAIC=—lnSSE+p2p的值越小越好。4、CV准则将40组原始数据的第i组数据删去,利用剩下的39组数据对选模型进行最
小二乘估计,将第i组数据(x,x,x)代入模型中得出y。对i=l,2,…,40ili2i3i重复进行上述操作40次,最后计算CV=-£(y-y)2nzzi=1CV越小,选模型效果越好。5、BIC准则SSEBIC=—+plogn其中&2是全模型下的b2的最小二乘估计,BIC越小,选模型效果越好。三、模型选择在以上几种准则中需要用到全模型下的一些数据,所以我们先就全模型即第④种模型进行分析。1、全模型y=卩+卩x+卩x+卩x+e0112233将所有数据导入到Minitab软件中,可以得到:0.83392.00381-1.035982.00381-1.03598,SSE=49.5,b2=1.37569-0.02939由此,y=0.8339+2.00381x-1.03598x-0.02939x1231SSE=MS1SSE1SSE=MSpn-ppn-pSSE丄-n+2p=1.98183nAIC=lnSSE+p=81.039452p在Matlab中利用循环可以求得CV,定义一个nx1阶的Y1用以保存每次得到的y,并且输入如下循环语句:i>>fori=1:40A=X;B=Y;A1=A(i,:);B1=B(i,:);A(i,:)=[];B(i,:)=[];R=regress(B,A);YO=A1*R;Yl(i,l)=YO;A=X;B=Y;end于是得到:1“CV=£(y-y)2=1.52538niii=1SSEBIC=p+plogn=40.78801b22、选模型①y=卩+卩x+e011将X的第3、4列删去,然后和上面一样我们可以得到:入「0.961]0=,SSE=1566.3丄9630」p由此,y=0.961+1.9630x丿1MS=—^SSE=40.16154pn—ppSSEG=p—n+2p=1100.552pb2nAIC=尹SSEp+p=148-12941“CV=£(y—y)2=43.27734(只需将上述循环中的第二行改为niii=1A=X(:,[12]);B=Y;即可)SSEBIC=p+plogn=1140.154b23、选模型②y=0+0x+0x+e01122删去X中的第4列,进行回归,得到:ii=10.8281P二2.00337,SSE=50.7-1.03221」卩所以y二0.8281+2.00337x—1.03221x12MS=1SSE=1.33421pn—ppSSEG=p—n+2p=0.85412Pb2nAIC=—InSSE+p=80.518522p1“CV=—^(y—y)2=1.50043niii=1SSEBIC=p+plogn=40.05823b24、选模型③y=卩+卩x+卩x+eTOC\o"1-5"\h\z01133删去X中的第3列,用同样的方法回归,得:_0.937_P=1.9619,SSE=1549.90.1101J"所以y=0.937+1.9619x+0.1101x13MS=—SSE=40.78684pn—ppSSEGp=£—n+2p=1090.6310nAIC=—lnSSE+p=148.91892pCV=1£(y—y)2=45.7901niiSSEBIC=p+plogn=1129.835b2四、结论将上述四种模型计算所得的MS,G,AIC,CV,BIC数据统计到同一表pp格中进行直观比较。MSpGpAICCVBIC模型140.161531100.552148.129443.277341140.154模型21.334210.8541180.518511.5004340.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 统编版(2024新版)道德与法治七年级上册期末复习知识点总结
- 2024北京燕山初三(上)期末语文试卷及答案
- 辽宁省盘锦市(2024年-2025年小学六年级语文)部编版期中考试(下学期)试卷及答案
- 宁夏石嘴山市(2024年-2025年小学六年级语文)统编版开学考试(下学期)试卷及答案
- 廊坊职业技术学院《信息技术(T)项目管理》2023-2024学年第一学期期末试卷
- 廊坊卫生职业学院《放射生物学B》2023-2024学年第一学期期末试卷
- 2025年温州道路运输从业资格考试下载
- 2025年无锡货运从业资格证模拟考试题库
- 2025年安徽货运从业资格证模拟考试题下载
- 生物学外语教学结合方案计划
- 中国脑卒中康复治疗指南课件
- 未来医疗2024年的AR手术眼镜
- 海南省2022-2023学年高一上学期期末学业水平诊断(一)数学试题
- 严重心律失常的急救处理
- 可爱的四川七年级上册期末质检及复习资料
- 最美教师的事迹演讲课件
- 人工智能概论(第二版)即问即答题目及答案 郭福春
- 《系统解剖学》课程考试复习题库大全-5骨骼部分
- 双T板吊装施工专项方案
- 临床护理科研存在的问题与对策
- 40道性格测试题及答案
评论
0/150
提交评论