数据分析作业_第1页
数据分析作业_第2页
数据分析作业_第3页
数据分析作业_第4页
数据分析作业_第5页
免费预览已结束,剩余11页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、多元线性回归分析目录实验题目:车速与其他因素的多元线性回归错误!未定义书签。1数据分析11) 数据基本处理12) 单个自变量与因变量的相关性分析32线性回3求解103结果分析121数据分析1)数据基本处理察看所给数据,发现区域变量数据没有统计完全,即对其分类没有完成,所以要进行下一步研究,必须先对数据完成分类,利用google地图,将区域变量按照1为浦东地区,2为浦西内环以内,3为浦西内环以外,完成数据统计,部分数据如下所示:多元线性回归分析道路名起登点第段高峰运行速度所在区域RaadS电newSpeedR华出并虹桥路凯旅路-寿愚路34318342虹桥路番思路-宜山北路32.609232虹桥路

2、宜山北路-漕谟北路23.S57162肇豪浜路漕澳北路-天钥桥路16.524482肇嘉浜路天钥桥路-宛平路J6.SI9062董嘉浜路宛平路高安路43.744202里嘉浜路高安路二乌鲁木齐南路J3.897742董真浜路乌鲁木齐南路一岳阳路19.572032嘉浜路岳阳路-太原路34.139312鳌袁浜路太原路-襄阳南路一”987752里嘉浜路襄阳南路-大木桥路33,022172里真浜踏大木新路-陕西南路240641S2暨嘉浜路陕西南路-瑞金南路28554722徐家汇路瑞金南路-打浦路§2招5422长宁路水城路.美掾江路31.454673长宁路芙蓉江路-古北路2S.534653长宁路古北路锦

3、屏路25.984753长宁路锦屏路-娄山关路21,417193长宁路娄山美路遵义路22.632263长宁路遵义踣-中山西路6518723长宁路中山西路-凯旋路19.210902长宁路凯旋端汇川路23,702272对于行人过街形式,虽然应分为无行人过街,1次行人过街,2次行人过街和天桥或地道4种类型,但是由于采集的数据只有无行人过街和1次行人过街2种形式,所以这里也只区分这2种。确定其他数据无误后,确定因变量是高峰运行车速(y),自变量暂定为所在区域(X1),道路长度(X2),高峰流量(X3),中央分隔(X4),机非分隔(X5),起点行人过街形式(X6),终点行人过街形式(X7)和接入口数量(X

4、8)。其中自变量道路长度、高峰流量和接入口数为数值型变量,其余自变量都是分类型自变量。对于分类型自变量都需要进行量化,即将定性的数据定量化描述,对于k个等级的定性变量,只要设定k-1个虚拟变量就行。具体定义如下表格:虚拟变量含义X11X12所在区域(X1)定性变量00浦东区10浦西内环01浦四内环外多元线性回归分析虚拟变量含义X41X42中央分隔(X4)定性变量00无分隔10中央分隔栏01中央分隔带虚拟变量含义X51X52机非分隔(X5)定性变量00无分隔10机非分隔栏01机非分隔带虚拟变量X6含义起点行人过街形式(X6)定性变量0无行人过街11次行人过街时虚拟变量X7含义终点行人过街形式(X

5、7)定性变量0无行人过街11次行人过街时2)单个自变量与因变量的相关性分析对于道路长度、高峰流量和接入口数这样的数值型自变量,我们采取画散点图观察它们各自与因变量的关系。利用sas的统计功能得如下结果:图一流量与速度散点图.高幡运行速度多元线性回归分析40-20-50015001000道路长度高峰运行谟度图二长度与速度散点图4U-0tlLI248接入口数里高幅运行速度图三接入口数与速度散点图从图中可以看出流量与速度和长度与速度的线性相关度还是很高的,所以把这2个自变量引入回归模型,并作为线性因变量,对于其对因变量的影响是否显著,将在后面分析。而对于剩下的分类型变量,我采取列联分析,去观察相关性

6、。在分析之前,我先对因变量做如下变换:速度范围(Km/h)等级10-20120-30230-40340-50450-60560-705然后使用sas得出各个分类变量与因变量的列联表,再进行工方检验。其中检验假设为:H0:速度与区域之间相互独立H1:速度与区域之间不独立统计量服从自由度为(R-1)*(C-1)的工方分布,且我选择置信水平为0.05。具体结果如下:(1)速度与所在区域列联分析结果由结果可知,卡方值为37.118对应的概率小于0.05,所以拒绝H0,表明速度与区域之间存在相关性,至于相关性是否显著将在回归之后检验分析。多元线性回归分析_G0LE(高雄运行速度)工此堂所在区嫉)1.a1

7、合计LX1Q2.7tQQ。,圜D.0C旧1S10.80辨,辨114.843$.251J013*6411扁n12.60L251。磔2,846.1722J369530333,52JE.B4朝工9n11.9E6£0,83GE.ae3146.02S15.62!22J:4133432.72719.9275,5626.56GB.647?9.4113.332908醒25.572212.50412.7!H.140.940.8J13167.3359.03110.1608.25O.OG(JJQQ.006J20-G25.1440.Of)9.0933-CSU1J0BO.OO£.34

8、00.7306Q,000.000.00L_52.3410.57j0J210.5100.01口间1100.72730.0。机®0.C000.14770.000.000.00合计L2:1乙511F11292E176"门314.77100.001£,C0L2眼_GOL3m表的统计量统计里自由度值想窣似京比卡方MintePHdenszBl卡方OOCraterV统计里37-11BO<.000134.9016o.eooi£1.4364<.C0010-45920.41730.3247TOHNG:Fisher精确检检表腾率(P)3,1Q?E-11F<=

9、PL3加EF4数(2)速度与中央分隔列联分析结果多元线性回归分析由结果可知,卡方值为25.0707对应的概率小于0.05,所以拒绝H0,表明速度与中央分隔形式之间存在相关性,至于相关性是否显著将在回归之后检验分析。_CQL?(高U蠹岸运行座居U-一T7553.3$5L52IG.G7:),a1卜-T75卷753演31.42L6(中央分2一一一8TL3754,553C.366.?9隔合计,2212.502州19.3314.773?_iaGL9013.7913.0728.4063.492241.901况!9貂.5195.1646.029310,7335.11皿的21.4391L股45J1加贝20.9

10、92?23.Z67此346V.G02S.6?4526.B7405.250.(100M25,3751J45.094.郎201L375!1.SC30J加.$2212.ED601.19320.00Q.UO0见213ELU40.904用32.58521.70ec.ooS.3058U.23/0.UDQ.000.0000.2413。风O.tJO0.90i0.617(1.5?mMuwj0.57合计422k犯4324.498151JU176100.00自由度值概率in25.07070,02103E259VO.OUOf117.0765<.01:1010.97740.3531Q.2t69Fisher精确椅蛤

11、多元线性回归分析,JC0L2米乩£"表的统计里统计亶酸比卡方Mantel-Haensel卡方矗期Cram"V统计量表概率(P)2,592E-MPr<=P9上轴E-04啊瞅二严(3)速度与机非分隔列联分析结果由结果可知,卡方值为13.8902对应的概率大于0.05,所以接受H0,表明速度与机非分隔形式之间不存在相关性,将此变量剔出模型。_COL?(曷曜廷仃廛度)(机非与篇)0jQ1752615.8753.8750.003那2.S4忆的77.2725.790.0013.3916.13含讨2212.5C2gC2S415.1111J1MM的4M$4展74,0747.

12、241214.267E*82】4138.71138n34.602332.47?7.3261J.5B1C.484*5517.76&4.4417-7841.14212.83瓯时141332.2515,9753.S750.5710.231.704辰81位用55£14.17S.50320.51143.SO30.3807Q.M1.701.140.90川加40-000.00九器6,45e0D10.10230,72160T17510.000.050.57o.ao0.00100:-00ELMO.OD8.23合计181E73110.S372.1617.614$驼4525.572212.502.

13、S410.571761。.皿多元线性回归分析SAS系统2。能年口gFREQPROCEDUREH_C0L2«_CCL7*衰的统计里统计里械比卡归MfiriteI-l-iaieriszeI卡方麻藕4宙Cr&rV统计里自由度值概率10133020.17S11014事。力G.138310J4880.2SOS0.270519帕0.7016WAFNING:Ffsher藉确梭哈表概挈(P)2.060E-07Pr仔PQ.2136射脑眇J"(4)速度与起点行人过街形式-COL2(品皤玛仃_COL8由结果可知,卡方值为13.5373对应的概率小于0.05,所以拒绝H0,表明速度与起点行

14、人过街形式之间存在相关性,至于相关性是否显著将在回归之后检验分析。麝疆雄ftt给主)23456.-一耳02.50.00b.如O1.OlO?9.20453,969.S435.385-1”白4.6517.7840.on32-5T.7013.5415.nO1Q/6820,5720.ao5.001。川蛤0.57100.005,加卜2213,612.50ICJD.0014.107471.79542.0581.3647.4一-1一,3739.sen21.0£院.2222.721919+610.80解.3白12.1644.431R2.2780.002.5S00.80640.000.00Q.00卜2

15、Z12,50印46.02,45阪“2212.502,6410.57号黑运街形式口,台*2015S17S11.施SS.64100.00多元线性回归分析FREUPROCEDURE,COL2用表的统计量统计厘自由度值概率髓比胡Mantel-Hfterisz&l卡方CrncrY统计里513.53730.0198512.31340.080717.15240.00760.277a0.2B73Q.2773昭RNIMG;5叫Fisher精确杞聆小。粉率(F)5.301E-O5Pr<=F3a2(5)速度与终点行人过街形式由结果可知,卡方值为7.0046对应的概率大于0.05,所以接受H0,表明速度

16、与终点行人过街形式之间不存在相关性,将此变量剔出模型。工院孤行人过街形式D)雷篡秘0卜1_T1-+1141.82524271«,183(,771320.375IC,2381521一一2r-t95.8831.705,7023.09r-7875.01744.9296.3。47.51353.32392.8411/19B;464041.67522_73ec.ea24.fi44511.S25ft.574.557.C900.3633C.OO(I-0&C.OO2120.37511.93况4554.63072a100.00307-4+00.11739c.ooc.aO0.001C.3261t)

17、VOO-OIJt).£l合计187.3316332.61*TT合计2212.60&1拈.024525.&?22120Z.S40.571761CD.007.O04E0,2i036.70370.2430,938313建60.199«G.W5E0.19S5IARNING:5聪Fisher精确检脑袤概率(P)Pr<=P0.00110.1932多元线性回归分析SAS系豌2颊年。FREEPROCEDURE“.COL2*taC0L957关的统计重嫦计里自由度值概率藤比卡方一Mftntel-Haenszel卡方凝蠢CramerM痴+第3)单个因变量之间的相关性分析从因

18、变量的选取来看,没有相互间绝对共线的自变量(multicollinear),但是有接近共线的自变量(nearmulticollinear),如车道长度与接入口数之间,一般的车道长度越长,接入口数余越多。但是我们不能去掉其中一个,否则会变成omittedvariableproblem,这样误差更大。所以我们应该把接入口数换成单位长度接入口数,这样既考虑了车道长度和接入口数目的影响,又消减了相互问的相关性。但是由于数据来源有限,我们在这里只能都将其引入模型。同样对于自变量流量和区域,也存在高相关性。2线性回归求解1)根据上述分析,我们将机非分隔和终点行人过街形式剔出自变量,建立线性回归模型如下:Y

19、=a0+a1X11+a2X12+a3X2+a4X3+a5X41+a6X42+a7X61+a8X62+a9X63+a10X8+其中e是服从正态分布的随即变量,利用最小二乘法,即使残差之和最小,求得各个偏回归系数(a0a14)。2)对整体进行相关检验,看整体是否符合线性相关,检验假设如下:H0:a0=a1=-a10=0H1:其中一个不等于010多元线性回归分析在符合H0时,统计量F=8/11服从F(11,164)分布,并以S残/(176-11-1)0.05为置信水平。3)对每个自变量进行相关性检验,检验假设如下:H0i:ai=0;H1i:ai=0;在符合H0时,统计量服从t(164)分布,并以0.

20、05为置信水平并对数据进行处理如下:rXHg2X?加X6跆工wc加L06113M01IJ3J00000I0划151301122瞅00L0的3冲10iL3UtHKflC,IQ1933436011103,00000L0湖34”010J40)领I0用01103,00000I0班充巧01L01.WCOOI032634260110*瞅加I02953156Di0JJ.WCOOI021S乃如0_110JJOOMOI02443S8501I0工WCMEQ129352101I02JOOOOOL0物36620iL33.1WCW0314网0I0Q011S4231000LP02.000000I班2370Q1IQ0131

21、3M加°112,(000I3?0250001122.WCOO1)13S2255G01L12.000000i20?283301i0LDOCOOI0503空001L22.mwE0BS父行0-1I04.(00I0274网01I211多元线性回归分析3结果分析利用SAS可得如下结果:如f)q年UR月?1日星期五1ThsPEGProcedureModeI:MfJDEL1DopendentV*rIftb<o:¥¥Nitmtrf?rofNumberofNuwiberof17717cflhs-erwatiorisRfcEObiervitiafktUs-cdObservitI

22、onswithMissingIusjn&lj/s<&ofVar14neaStim0fMconDFScjuar&sSquareModoIErrorJorrectFicIlotaI87h6711514昵*M翎郸15890FValuePr>F7.93C0001RootNSFDependent8.3034329.67G3627.73075R-SqIIAFAAdjR-SqCcjeffVarParaunieterEmIImiSLlesP*r*nwt«r£1and*rdYariblcLab?|lOFEtiErrvrInt*rmptIntercept12

23、9.475174.40099JdlK1117.63647£.89BBS用士XI?1岗7居趾?.?6Q53乂之210.001CCD.Ot)即5(3>C31O-OOJCO0_OOCDSM刈K4)10.ZB182i脚31b尺421U1Q4231.90940xe1-1_4fi04a2.OS90?X8般1O-06B/3D.EMJ0BDrr.?n40.2407IYaiuc8.70-3,54。总0.03i.i.If.0+5®-0.71D.13Pr?|tj<.OOCt0.0012U,OOC50.559C0,002B0.60050.56380.47S10.8S41从上表可知,回归

24、方程整体显著性检验的F统计量值为7.93,其对应的P值小于0.0001,非常显著,所以本线性回归模型整体上是显著的。通过对各个自变量对应回归系数的t检当P值的大小,可以判定各个回归系数的是否显著。在本实验0.05的显著性水平下,X11X12X3$量的P值均远远小于0.05,说明其影响显著。而其他变量的P值均大于0.05,说明其影响不显著。而对于影响不显著的变量,应该剔出模型。所以彳留X11X12X而重新进行回归分析,得如下结果:12多元线性回归分析ImpendentYari曲E;YYNumberofObseryationsRead177NumberofObservatiorisUsed176NumberofObaervation

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论