版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第10章
多元线性回归1第10章多元线性回归——目录10.1多元线性回归模型及其参数估计10.2多元线性回归模型的评估10.3多重共线性10.4一般线性模型10.5定类自变量10.6变量选择与逐步回归10.7利用回归模型进行预测10.8利用回归模型进行因果分析2
310.1多元线性回归模型及其参数估计4
10.1多元线性回归模型及其参数估计
10.1多元线性回归模型及其参数估计
10.1多元线性回归模型及其参数估计7例:某运输公司的主要业务是为它的周边地区运送货物。为了制定最佳的工作计划,公司的管理者希望估计出他们的司机每天行驶的时间。公司的管理人员认为,货车行驶的里程数和运送货物的次数都会影响到司机的行驶时间。经过统计,他们得到的数据如表10-1所示。表10-1运输公司货车的行驶里程数、运送货物次数与行驶时间10.1多元线性回归模型及其参数估计运输任务行驶里程(公里)运送货物次数行驶时间(小时)15024.6524513.05332.523437.523.954013.165013.257251245103523.25810.1多元线性回归模型及其参数估计模型平方和自由度均方F显著性回归4.87722.43938.034残差.4497.064
总计5.3269
表10-2
方差分析表910.1多元线性回归模型及其参数估计
模型未标准化系数B
标准误差标准化系数Beta
t
显著性共线性统计容差VIF(常量)-.499.470
-1.063.323
行驶里程.062.010.6866.216.000.9901.010运送货物次数.897.164.6025.458.001.9901.010表10-3运输公司货车行驶时间的二元回归模型的参数估计和检验回归系数的解释:
在控制其他变量不变的情况下,每增加一单位的行驶里程,行驶时间增加0.062单位;同理在控制其他变量如行驶里程不变的情况下,每增加一单位运送货物次数,行驶时间增加0.897单位。1010.2多元线性回归模型的评估在多元线性回归模型中,我们同样可以定义总平方和(SST)、回归平方和(SSR)和残差平方和(SSE
)。具体的形式分别为:与一元线性回归模型一致,SST、SSR和SSE满足:
1110.2多元线性回归模型的评估
1210.2多元线性回归模型的评估
1310.2多元线性回归模型的评估14
10.2多元线性回归模型的评估
15,10.2多元线性回归模型的评估
1610.3多重共线性
1710.3多重共线性一般线性模型(generallinearmodel,GLM):描述一个因变量与多个自变量之间的线性关系的方程模型,对于含有
个自变量的模型其一般形式为:
称为截距参数,称为斜率参数,变量表示误差项或干扰项。自变量并不仅仅是单个变量本身,它可以是关于观测变量的函数,如,。1810.4一般线性模型
含单变量多项式的模型是指:自变量只能取关于某个自变量的一阶或多阶函数。1910.4.1含单变量多项式的模型
令,化为一般线性模式:对于模型:只是关于自变量的一阶函数,而与其他自变量无关。
对于模型:
是交互作用项。
2010.4.2含交互项的模型例:为加强国内青少年的体育锻炼活动,助使其具有一个健康的身体和强健的体魄,各大高校纷纷开展了有奖竞跑的夏季“夜跑”活动,对于参加夜跑的学生当天即可抽取丰厚大奖。现考虑某高校每晚参加夜跑活动的学生人数,经过调查发现,影响参加夜跑活动人数的主要因素有两个:天气的温度、奖品的价值。记录一个月(30天)的参加夜跑的人数得到数据见表10-3,试建立一般线性模型,并分析自变量之间是否存在交互作用。2110.4.2含交互项的模型当天温度/℃奖品价值/元参加人数/人当天温度/℃奖品价值/元参加人数/人1520080155001121720091165001181920012018500182202001212150020822200142215002102320014422500215232001452450023924200149245002482520015225500250262001562550025328200165295002753020017230500286332001863250029334200185355002813620018837500272解:设参加人数为因变量,当天温度和奖品价值分别为自变量。当分别取200元、500元时,考虑对
的影响:22解:从图中可以看出奖品价值设为500元比奖品价值设为200元能吸引更多的学生来参加本次夜跑活动,且不同奖品够吸引的人数之差依赖于当天的温度。这种观测结果也就间接性的说明了当天温度和奖品价值之间的潜在的交互作用。10.4.2含交互项的模型23建立模型:10.4.2含交互项的模型变量替换,得:交互项“温度和价值”的显著性是0.038,交互项的影响是显著的。结论:当天温度和奖品价值之间的交互作用对参加人数的影响是显著的,即当天温度对参加人数的影响依赖于奖品价值。表10-7模型的参数估计和检验模型非标准化系数标准系数tSig.共线性统计标准误差容忍度VIF(常量)当天温度(℃)奖品价值(元)温度和价值8.88139.635
.224.824
3.2721.541.3332.123.043.1496.720.061.102.151.600.554.05817.299.009.004.6342.190.038.04422.915设劳动人员年薪为因变量(万元),接受教育年数为自变量(年),建立模型:2410.4.3变量的对数变换工资的变化量为:
工资的比例变化为:期望结果:每增加一年的教育,工资增长的比例是不变的,而不应是工资的增长量是不变的。为了得到工资比例变化近似为常数的模型,对因变量取对数:2510.4.3变量的对数变换工资的比例近似变化为:若样本回归方程为:(常数)
此时对方程的解释为:每多接受一年的教育,工资会增加约。当变化较小时:对自变量进行对数变换:2610.4.3变量的对数变换何时取对数?使用对数线性模型的经验法则:使用对数时,变量不能取0或者负值。对于钱、人数、产品数等大的正整数,通常可以取对数。以年度量的单位,通常以原有形式出现,例如年龄、工作年限、教育年数等。在回归模型中,除了需要考虑定量因素对因变量的影响,一些定性因素对因变量的影响往往也不可以忽略。例如,研究影响二手车价格的因素时,里程表计数可以作为一个定量自变量,而销售商认为颜色也是影响二手车价格的一个因素,这时需要将二手车的颜色作为一个定性自变量引入模型之中。2710.5定性自变量
2810.5定性自变量——在模型中引入定性变量
对于更复杂的定性变量,记定性变量的水平数为k,那么需要定义k-1个虚拟变量。例如,在研究某品牌电脑在各商店的销售数量时,管理人员认为付款方式也是影响销售数量的一个重要因素。因为有现金支付、刷卡支付、移动支付三种付款方式,所以需要定义2个虚拟变量。每个虚拟变量被定义为如下形式,2910.5定性自变量——在模型中引入定性变量
付款方式现金支付10刷卡支付01移动支付00
在回归模型中引入定性变量有多种方式,各种方式对回归模型的影响不同。为了直观地阐释定类变量不同的引入方式对回归模型的影响,接下来以决定小时工资的基本模型
进行说明(y:工资,x1:教育水平)。30
10.5定性自变量——含有定性变量的回归(1)引入定性变量此时定性变量的不同取值改变的是模型的截距项,体现了性别和婚姻状况对小时工资的影响。将x2(性别)和x3(婚姻状况)引入基本模型(2)定性变量之间的交互作用3110.5定性自变量——含有定性变量的回归此时含有交互作用的定性变量的不同取值改变的也是模型的截距项,体现了性别和婚姻状况对小时工资的影响。将性别和婚姻状况的交互项x2x3引入模型32
10.5定性自变量——含有定性变量的回归(3)定性变量与非定性变量的交互作用此时定性变量的不同取值不仅改变了模型的截距项,还改变了模型的斜率项,体现了性别在受教育回报上的差异。将教育水平和性别的交互项x1x2引入模型33例:中国进出口贸易总额数据(1950-1984)见表10-5-2。试检验改革开放前后该时间序列的斜率是否发生变化。(数据见表10-6中国进出口贸易总额数据(1950-1984))解:由于年份数据值较大,首先将其处理为时间x1列。定义虚拟变量x2如下:以时间x1为自变量,进出口贸易总额y为因变量,为了检验改革开放前后该时间序列的斜率是否发生变化,同时引入虚拟变量x2及其与时间的交互项x1x2。
10.5定性自变量3410.5定性自变量统计软件输出的结果如表10-10和表10-11所示:表10-12模型的参数估计和检验表10-11方差分析表
由上式可知,斜率项和截距项都发生了变化;于是得出结论:改革开放前后该时间序列的斜率发生了变化。因为各系数的估计值通过检验,所以估计结果如下:
向前选择(forwardselection):从模型没有自变量开始,逐个选入自变量。步骤如下:对于因变量y的k个自变量分别建立一元线性回归模型,对于这k个模型分别计算F统计量,将拥有最大且显著F统计量的模型的自变量选入模型;对剩余的k-1个自变量分别加入模型,计算F统计量,选择使F统计量最大且显著的自变量进入模型;反复以上过程,直到自变量均无统计显著性。35
10.6变量选择与逐步回归——向前选择向后剔除(backwardelimination):与向前选择法相反,从自变量全部进入模型开始,逐个剔除自变量。步骤如下:将所有k个自变量加入模型进行拟合,然后建立k个剔除一个自变量的回归模型,每个模型都含有k-1个自变量。计算k个模型的SSE,选择F统计量最小且不显著的自变量进行剔除;建立k-1个回归模型,每个模型中有k-2个自变量,比较每个模型增大的SSE值,选择F统计量最小且不显著的自变量进行剔除;反复以上过程,直到删除任何自变量SSE均有显著变化为止。36
10.6变量选择与逐步回归——向后剔除逐步回归(stepwiseregression):综合了向前选择和向后剔除两种方法进行自变量的选择。步骤如下:前两步与向前选择相同,但是在加入一个自变量之后,要对之前所有自变量进行考察,确定是否需要剔除变量。如果在增加了一个自变量后,之前的某个自变量对模型的作用不再显著,则需要剔除变量;反复进行这个过程,不断增加变量和剔除变量,直到增加变量不会导致SSE显著减小为止。37
10.6变量选择与逐步回归——逐步回归38例:城镇居民的平均工资受多种因素的影响,如教育水平、直接投资、基础设施、外资开放度、第三产业增量,等等。为分析平均工资的影响因素,选取2016年31个省市的国家统计数据,如右表所示,用逐步回归法建立回归方程。省市编号平均工资教育水平直接投资基础设施外资开放度产业结构11199280.03474276.29540.07731.18430.80232863050.04173751.94970.09730.74580.56443553340.0208742.50880.03680.22720.41544537050.0260680.42190.03400.28340.55455610670.021866.74410.01040.18550.43786560150.02882574.16280.03840.76190.51557560980.0295620.24280.02720.26070.42458524350.024672.33150.01310.27470.540491199350.026719014.30860.07892.81810.697810715740.027821651.13470.02730.72280.500011733260.02275000.71630.02550.72890.509912591020.0235874.80690.03010.22730.410513619730.02473917.76860.02640.98400.428814561360.0282773.12360.02400.37400.419715625390.02525477.53760.03500.41940.466816495050.02483288.67060.03350.19910.417817598310.0305707.07120.02210.27480.439418582410.0226416.94020.02220.21160.463719723260.021731237.70830.02341.48030.520120578780.0207646.92800.02200.24480.395621616630.0255479.93510.02950.65630.542522655450.03032214.05790.02530.31310.481323639260.02192074.23920.00950.31490.472324662790.019420.19620.01870.12830.446725604500.017032.37730.00940.27640.4668261032320.01340.00610.00070.20500.526727596370.03671434.37150.02240.30690.423528575750.02211.70410.00900.28870.514129665890.01280.27550.00320.17100.428130655700.021729.71430.01960.20550.454031637390.016412.99010.00350.15280.451210.6变量选择与逐步回归——逐步回归3910.6变量选择与逐步回归——逐步回归解:由统计软件输出的逐步回归结果如下各表所示模型标准估算的错误1.795.632.61910778.995表10-15
模型概要模型已输入变量已除去变量方法1产业结构.步进(准则:进入的概率F<=.050,删除的概率F>=.100)。表10-14变量的进入和移出模型平方和df均值差值FSig.1回归5790869774.07115790869774.07149.841.000b残差3369415317.34829116186735.081
总计9160285091.41930
表10-16方差分析表4010.6变量选择与逐步回归——逐步回归解:由统计软件输出的逐步回归结果如下各表所示根据以上的回归结果,该模型最终的估计方程为:
模型非标准化系数标准系数tSig.标准误差1(常量)-12372.86911410.429
-1.084.287产业结构162636.32223036.894.7957.060.000表10-17模型的参数估计和检验模型tSig.偏相关共线性统计容忍度1教育水平-.128-1.073.292-.199.889直接投资.1211.012.320.188.890基础设施.080.543.591.102.606外资开放度.2621.789.084.320.551表10-18模型移出变量41例:在此沿用上例,对城镇居民的平均工资进行预测,统计软件的输出结果如右表所示10.7利用回归模型进行预测省市编号平均工资点估计值置信下界置信上界预测下界预测上界1119928118113.78102790.02133437.5491265.64144961.9228630579412.7674066.9384758.5956728.34102097.1835533455179.3949941.6760417.1032520.2077838.5745370577811.3172765.4882857.1455195.71100426.9156106758834.6854220.2063449.1536311.3981357.9665601571459.0167295.4575622.5749023.7793894.2675609856672.6251707.3061637.9334074.8479270.3985243575518.9470855.5580182.3352985.5898052.299119935101113.8290471.35111756.2976633.89125593.76107157468939.9564941.3772938.5346534.7491345.17117332670548.8666459.1474638.5848127.2092970.52125910254382.6248990.9959774.2631687.3777077.88136197357365.1052518.1962212.0034793.0579937.15145613655893.5150788.8260998.1933264.7078522.31156253963540.6559455.2467626.0541119.7785961.52164950555579.1850416.5560741.8232937.2478221.13175983159082.0754503.9963660.1636566.2281597.93185824163049.1258926.3267171.9140621.4085476.83197232672210.7467974.7876446.7149761.9594659.54205787851972.4746084.5557860.3929154.2274790.72216166375858.9071142.7480575.0653314.5698403.24226554565902.9361930.3669875.5043502.3488303.52236392664446.7260417.9468475.5042036.1086857.34246627960281.5455867.6464695.4337798.4982764.58256045063544.8459459.7367629.9441124.0285965.652610323273289.4368932.6177646.2450817.5195761.34275963756497.6951501.6461493.7533893.1579102.24285757571231.9167088.2275375.6048800.3493663.47296658957254.0852388.5662119.6034678.0379830.14306557061464.5457191.0365738.0639008.6383920.45316373961004.8556679.4765330.2338539.0283470.69城镇居民平均工资预测表42点估计值表示给定自变量值的条件下对应的因变量的预测值,例如,第31组数据实际平均工资为63739,利用回归方程预测的平均工资为61004.85;置信下界和置信上界表示平均值的置信区间的下界和上界,预测下界和预测上界表示个别值的预测区间的下界和上界,例如,实际工资为63739的省市,均值95%的置信区间为[56679.47,65330.23],个体预测95%的预测区间为[38539.02,83470.69]。10.7利用回归模型进行预测43回归系数的进一步解释偏效应(partialeffect)是指在其他自变量保持不变条件下,某自变量(解释变量)对因变量(被解释变量)的效应。在获取样本时,我们很少能够奢侈到限制某些变量使其保持不变。多元回归分析的作用在于,尽管不能在其他条件保持不变的情况下收集数据,但它提供的系数仍然可以做其他条件不变的解释。多元回归使我们在对自变量的值不施加限制的情况下,能有效地模拟施加限制时的情况。使得我们能够在非实验的环境中,去做自然科学家在受控实验室中所能做的事情:保持其他因素不变。10.8利用回归模型进行因果分析44
10.8利用回归模型进行因果分析2018年9月30日上映的由庄文强执导的犯罪动作电影《无双》,赢得了口碑、票房的双丰收2017年7月27日,由吴京执导的动作类电影《战狼2》,更是霸屏各类网站头条,以56.8亿元雄踞国产片电影榜首2017年8月上映的由王宝强执导的处女作《大闹天竺》,未播先火,王宝强,岳云鹏,柳岩,王祖蓝,刘昊然,黄渤等都是票房号召力演员,最终却烂尾收场似乎光靠广告、明星、导演就可以吸金的时代已不复存在,互联网的发展,社会化网络的普及(微信、微博)使得观众评价信息更快速地传播,其作用也日益彰显。为此,研究观众评价如何影响电影票房及其趋势是一个亟需解决的问题,对制片方以及出品方更具有直接的现实意义。45中国电影票房案例分析—案例背景本案例以中国2011-2017年豆瓣上映的1246部电影为样本,运用多元线性回归模型,分析观众评价对电影票房的作用及其变化趋势。模型包括电影票房、评分、票价和移动网民数量等13个变量。46变量描述数据来源票房电影i的总票房艺恩数据库评分电影i的豆瓣评分豆瓣网移动网民数量对应年份移动网民数量中国互联网络信息中心首映日票房电影i的首映日票房艺恩数据库首映日排座数电影i的首映日排座数艺恩数据库票价电影i的平均票价艺恩数据库电影时长电影i的播出时长豆瓣网明星影响力虚拟变量,至少有一位明星在福布斯中国名人榜则为1福布斯中国名人榜发行商虚拟变量,属于中国十大发行商则为1艺恩数据库假期虚拟变量,电影i在假期上映则为1豆瓣网续集虚拟变量,电影i为续集电影则为1豆瓣网国外电影虚拟变量,电影i为国外制片则为1豆瓣网上映年份虚拟变量,电影i在当年上映年份则为1豆瓣网中国电影票房案例分析—数据及其说明为了概括性地描述数据的特征,对本案例的连续变量进行了描述性统计。票房、首映日票房、首映日排座数以及电影时长的波动性较大。因此对以上变量进行取对数处理(ln),这不仅使数据变得平滑同时易消除异方差的问题。47变量个数最小值最大值均值标准差票价(元)12466.0047.0030.254.01票房(万元)12461.10567877.409677.0829690.13首映日票房(万元)12460.0235600.001080.762686.21首映日排座数(个)1246867199455371652593.792662311.37电影时长(分钟)12467315397.9511.98评分12462.109.104.581.48移动网民数量(千万)12463.567.535.721.26中国电影票房案例分析—数据及其说明使用本章所学的内容,对2011-2017年1246部豆瓣上映的电影进行多元线性回归分析,主要实现两个目的:对数据中的因变量“票房”与自变量“评分”、“移动网民数量”、“首映日票房”和“首映日排座数”等进行回归分析,刻画观众评价等因素对电影票房的影响作用。在多元线性回归方程中加入观众评价与移动网民数量、首映日票房、首映日排座数的交互项,分析网民数量、首映日票房、首映日排座数对观众评价的票房影响力的调节作用。48中国电影票房案例分析—数据分析使用SPSS来分析上述问题,统计软件输出的结果如表10-21所示表10-21(a)模型汇总表10-21(b)方差分析49模型平方和自由度均方F显著性1回归7298.86615486.5911180.970.000残差506.79312300.412
总计7805.6591245
因变量:电影票房模型RR方调整后R方标准估算的错误Durbin-Watson(U)10.9670.9350.9340.6421.984因变量:电影票房中国电影票房案例分析—数据分析表10-21(c)模型汇总(因变量:电影票房)50模型变量未标准化系数标准系数tSig.共线性统计标准误差容忍度VIF(常量)4.8091.667
2.8840.004
票价0.0080.0060.0131.4720.1410.6461.547首映日票房0.6920.0800.6728.6090.0000.009115.591首映日排座0.0980.1170.0660.8390.4020.009116.756评分0.5070.2500.3002.0290.0430.002414.085移动网民数量-1.1380.391-0.573-2.9100.0040.001734.999评分*移动网民数量0.0200.0110.0781.8630.0630.03033.036评分*首映日票房0.0780.0180.5014.3700.0000.004249.223评分*首映日排座-0.0650.026-0.617-2.4900.0130.0011162.939电影时长0.0000.0020.0010.1550.8770.5881.702续集0.2430.0860.0212.8290.0050.9341.071发行商-0.0480.042-0.009-1.1440.2530.8401.190国外电影0.1340.1280.0091.0460.2960.7361.358上映年份0.6440.2580.4872.4980.0130.001719.822假期0.1780.0380.0354.6900.0000.9221.084明星影响力0.1640.0540.0283.0480.0020.6341.578中国电影票房案例分析—数据分析从电影票房的显著影响因素及其变化趋势的回归结果可以得出以下结论电影的首映日的票房、评分、续集、上映年份假期上映和明星都会显著正向影响电影的票房。移动网民数量对电影票房有显著的负向影响,既在保持其他变量不变的情况下,移动网民数量越多票房越少。评分对电影票房的正向显著作用受到首映日票房的正向调节。即在保持其他变量不变的情况下,首映日票房越高,评分对票房的正向作用越强。观众评分对电影票房的正向显著作用受到移动网民数量的正向调节。即在保持其他变量不变的情况下,移动网民数量越多,评分的正向作用越强。观众评分对电影票房的正向显著作用受到首映日排座数的负向调节。即在保持其他变量不变的情况下,首映日排作数越多,评分的正向作用越弱。51中国电影票房案例分析—结论第11章
逻辑回归52第11章逻辑回归分析——目录11.1逻辑回归模型11.2估计逻辑回归模型11.3显著性检验11.4回归系数的含义11.5案例分析53许多社会科学问题中的因变量往往是分类变量。比如,政治学中经常研究的是否选举某候选人,候选人的类型等;又如,经济学研究中所涉及的是否销售或购买某种商品、是否签订一份合同,保险是否违约,违约有哪些类型等等。这些分类变量中有一类特殊的变量,遵循二值取值原则,要么“是”或“发生”,要么“否”或“未发生”。统计上我们将这样的变量称作二分类变量(Binaryvariable)。54应用背景多元回归模型分析二分类变量的局限性被解释变量的取值区间受限制自变量的边际分析不符合实际分析二分类变量的方法利用概率转化模型调整二分类变量使其线性化,也即,使其随着自变量的变化,这一概率的值总是在0到1之间变化。11.1逻辑回归模型Logistic函数Logistic回归方程11.1逻辑回归模型——概率转换方法
似然函数其中,11.2估计逻辑回归模型——最大似然估计追求似然函数最大值的过程就是追求对数似然函数值最大值的过程。对数似然函数值越大,意味着模型较好地拟合样本数据的可能性也越大,所得模型的拟合优度越高。整体模型的检验和评价11.3显著性检验
整体模型的检验和评价11.3显著性检验判错矩阵预测值01正确率观测值01总体正确率判错矩阵是一种极为直观的评价模型优劣的方法,它通过矩阵表格的形式展现预测值与实际观测值的吻合程度。整体模型的检验和评价11.3显著性检验Cox&SnellR2统计量Cox&SnellR2统计量与一般线性回归分析中的R2有相似之处,也是方程对被解释变量变差解释程度的反映。缺点是取值范围不易确定,因此使用时不方便。NagelkerkeR2统计量Cox&SnellR2统计量取值在0~1之间,越接近1说明方程的拟合优度越高。回归系数的显著性检验
11.3显著性检验
Wald统计量多重共线性检验
应当注意,如果解释变量存在多重共线性会对Wald检验统计量产生影响。由于用于logistic回归建模的很多软件包,如
Excel,SPSS,和R并不提供共线性的问题检验,所以如果用户想检验共线性问题,可以就给定的自变量做一个线性回归模型,并输出共线性诊断指标,就可以了解自变量的相关情况。11.4逻辑回归系数的意义平均个人偏效应和平均偏效应Logistic回归模型的解释涉及到对建立回归方程所包含的自变量的分析。也即,我们常常想估计xi对响应概率P(y=1|X)的影响。若xi是(大致)连续的,则对xi的较小变化,有:比例因子
11.4逻辑回归系数的意义平均个人偏效应和平均偏效应
平均个人偏效应表示将每个解释变量都代之以样本平均值而得到常数比例因子,利用该常数比例因子乘以对应的xi的系数βi
即得到平均个人偏效应。数学表达式为:平均个人偏效应(PEA)平均偏效应表示将样本中所有个体的偏效应取平均而得到常数比例因子。数学表达式为:平均偏效应(PEA)11.4逻辑回归系数的意义
根据平均个人偏效应的定义,将年龄的样本均值40.00代入公式可计算年龄对购买该产品响应概率影响的平均个人偏效应PEA;将根据个人偏效应的定义,将年龄的样本所有取值代入公式可得年龄对购买该产品响应概率影响的个人偏效应APE。
由于logistic模型中,自变量与响应概率之间的关系是非线性的,因此平均个人偏效应和平均偏效应存在差异。11.4逻辑回归系数的意义发生比Logistic回归模型的解释涉及到对建立回归方程所包含的自变量的分析。利用logistic回归,直接解释自变量和y=1的概率之间的关系非常困难,统计学上,通过定义发生比和比值比对logistic回归方程做出解释。发生比
发生比被定义为事件将要发生的概率与该事件将不会发生的概率之比。11.4逻辑回归系数的意义比值比比值比(Oddsratio)度量了当一组自变量中只有一个自变量增加了一个单位时对事件发生概率(Odds)的影响。比值比是当给定的一组自变量中一个自变量增加了一个单位,y=1发生概率(Odds1)除以该组自变量的值都没有变化时y=1发生概率(Odds0)
比值比(Oddsratio)11.4逻辑回归系数的意义
此时,我们想要知道去年消费支出为2万元,且拥有信用卡的顾客使用优惠券的机会比与去年消费支出为2万元,但没有信用卡额度顾客使用优惠券的机会比精细比较,也即,当解释变量x2增加一个单位时的影响:
因此,去年消费支出为2万元,且拥有信用卡的顾客使用优惠券的机会比是去年消费支出为2万元,但没有信用卡的顾客使用优惠券的机会比的3倍。11.5案例分析一、案例背景
某商品销售人员在长期推销该产品的过程中发现,消费者是否购买该产品受到很强的消费者人口结构特征的影响。比如性别、年龄以及收入水平。为了验证自己的猜想,以及在未来的销售活动中能更好的,有针对性的,对可能购买该产品的顾客提供更好的服务。经与销售主管的商议,该销售团队对到达商铺的顾客进行随机的问卷调查,并对顾客最终是否购买该产品做了详细的记录。对数据进行初步的整理以后,团队成员计划通过运用logistic回归的方法来检验消费者人口特征对其是否购买该产品的影响。11.5案例分析二、数据及其说明剔除无效样本,并对数据进行编码后发现,收集到有效样本431份。数据项包括:是否购买(purchase)、性别(gender)、年龄(age)、收入水平(income)。是否购买作为被解释变量(0/1二分类变量),其余各变量作为解释变量,且其中性别和收入水平为类别变量,年龄为数值型变量。11.5案例分析三、数据分析表11-4分类表a,b
已观测已预测
是否购买百分比校正
不购买购买步骤0是否购买不购买2690100.0购买1620.0总计百分比
62.4a.模型中包括常量。b.切割值为.50011.5案例分析三、数据分析表11-5方程中的变量
BS.E,WalsdfSig.Exp(B)EXP(B)的95%C.I.下限上限步骤1aage.025.0181.9741.1601.026.9901.062gender.511.2095.9541.0151.6671.1062.513income
12.3052.002
income(1)-.787.2539.6761.002.455.277.748income(2)-.686.2437.9451.005.503.312.811常量-1.836.7865.4571.019.159
a.在步骤1中输入的变量:age,gender,income.
11.5案例分析三、结论
通过运用logistic
回归分析的方法发现,消费者是否购买该产品显著的受到性别和收入水平的影响。其中女性消费者比男性消费者更青睐于购买该产品。此外,该产品更适合于低收入群体,因为中、高收入群体购买该产品的机会比显著的小于低收入群体。因此,该商品的销售人员应该更关注于女性和低收入的消费者。但是,值得注意的是,该模型的解释力较低NagelkerkeR2
只有0.057。也就是说,消费者是否购买该产品可能还受到其他因素的影响。未来的研究可以尝试加入这些因素,如该产品的特性等。由此,便能更好的解释和预测消费者购买该产品的原因。第12章
时间序列预测73第12章时间序列预测——目录12.1时间序列构成因素12.2预测方法的评估12.3平稳序列的预测12.4趋势型序列的预测12.5趋势与季节混合型序列的预测74时间序列(timeseries)是按照一定的时间区间进行索引的随机变量序列。平稳时间序列(stationarytimeseries)指的是只包含随机波动的序列。这类序列中的各个观察值基本上在某个固定的水平上随机波动。非平稳时间序列(non-stationarytimeseries)指的是除了随机波动外,还包含趋势、季节变动和周期波动中的一种或多种成分的序列。7512.1时间序列的构成因素固定值图12-1四种要素:趋势、季节变动、周期波动和随机波动。趋势(trend)是指在一个较长时间段内,时间序列呈现出的持续向上或者持续向下的稳定变动。时间序列中的趋势可以是线性的,也可以是非线性的。7612.1时间序列的构成因素——趋势图12-2(b)图12-2(a)季节变动(seasonality)是指在一个较短时间段内(一般小于一年),时间序列呈现出的重复性的、可预测的变动。例如。电风扇的销售低谷在冬季,而销售高峰在夏天。这种季节性是气候条件,生产条件,节假日以及风俗习惯等诸多因素的联合影响所引起。这里我们所说的“季节”一词是广义的周期性变化。不仅仅代表一年四季,而是泛指任何有规律的变动周期,可以是小于一年的季,月,旬,周,日。7712.1时间序列的构成因素——季节性图12-3周期波动(cyclicity)也称循环波动(cyclicalfluctuation)是指在一个较长时间段内(一般大于一年),时间序列呈现出的围绕长期趋势的一种波浪形或振荡式变动。周期性变动是变动周期超过一年的、非固定长度的变动,但每一变动周期的长短不同,上下波动的幅度也不一致,循环波动可以是1-5年周期,也可以是10年以上的长周期。7812.1时间序列的构成因素——周期性图12-4随机波动(randomness)也称不规则波动(irregularvariations)是指除趋势、季节变动和周期波动以外,时间序列所呈现出的由临时性或偶然性因素引起的变动。如地震、洪灾、军事冲突、政治动乱或一些偶然因素对社会经济所造成的影响及结果。不规则变动是不以人的意志为转移的,是无法控制的。7912.1时间序列的构成因素——随机性图12-5时间序列分析需要把趋势(T)、季节变动(S)、周期波动(C)和随机波动(R)这几种成分从时间序列中有目的的分离出来,或者所对数据进行分解、整理,并将它们的关系用一定的数学关系式进行表达,然后分别进行分析,即建立时间序列的分解模型。按照四种成分对时间序列影响方式的不同,时间序列可分解为多种模型,比如加法模型,乘法模型等,其中比较常用的是乘法模型。80
12.1时间序列的构成因素——时间序列的分解模型乘法模型:加法模型:12.2预测方法的评估——评价预测方法预测误差:预测值与实际值的差距最优的预测方法:使预测误差最小常用的计算方法:平均绝对误差和均方误差。平均绝对误差:平均绝对误差可以避免相互抵消的问题,因而可以准确的反应实际预测误差的大小。12.2预测方法的评估——评价预测方法均方误差:如果避免误差太大对研究问题来说很重要,那就应该使用均方误差,因为它相对于平均绝对误差而言增加了相对较大误差的计算权重,反之则使用平均绝对误差。均方误差具有良好的数学性质,有利于快速求得使其最小化的模型参数。平稳序列(stationaryseries)指的是不含趋势、季节变动和循环波动的序列,即其通常只包含随机成分。本节主要介绍简单平均法、加权移动平均法和指数平滑法。8312.3平稳时间序列的预测移动平均法:把最近d期数据的算术平均值作为t+1期的观测值。简单移动平均法能消除数据的随机波动对预测结果的影响,因而适合预测较为平稳的时间序列。对每个实际观测值赋予相同的权重,忽略了一个重要的事实,在大多数情况下,远期和近期观测值对未来值的影响是不一样的。8412.3平稳时间序列的预测加权移动平均法:是基于简单移动平均法上的一种改进预测方法。对每个实际观测值赋予不同的权重—近期权数较大,远期权数较小,但权数之和为1。可以根据预测误差(如均方误差)最小原则,来寻找最优的权重组合。8512.3平稳时间序列的预测指数平滑法:
通常设1期的预测值等于1期的实际观测值2期的预测值为:3期的预测值为:4期的预测值为:结论:任何预测值是过去所有实际观测值的加权平均值。8612.3平稳时间序列的预测
87例12.1:分别用移动平均法、加权移动平均法、指数平滑法预测2016年中国的电力出口量。解:(1)移动平均法(移动间隔为4):因此,2016年中国的电力出口量为183.25亿千瓦时。序号年份电力出口量/亿千瓦时120101912201119332012177420131875201418262015187表12-12010-2015年中国的电力出口量12.3平稳时间序列的预测88解:(2)加权移动平均法:权数设置为:12.3平稳时间序列的预测则1980年的预测值为:因此,2016年中国的电力出口量为184.96亿千瓦时。89解:(3)指数平滑法():2011年的预测值为:12.3平稳时间序列的预测因此,2016年中国的电力出口量为186.0255亿千瓦时。2012年的预测值为:2013年的预测值为:2014年的预测值为:2015年的预测值为:2016年的预测值为:90线性趋势(lineartrend)是指时间序列呈现出稳定的上升或下降的线性变化规律。当时间序列含有线性趋势时,可以用一元线性回归模型进行预测,即将时间当作自变量,实际观测值当作因变量。线性回归方程:12.4趋势型时间序列的预测—线性趋势回归参数值(最小二乘法):趋势预测的效果:一元线性回归方程的判定系数、估计标准误、模型显著性等指标例12.2:根据表12-2中的蔬菜产量数据,用一元线性回归方程预测2019年的蔬菜产量,并将实际值和预测值绘制成图形进行比较。91,12.4趋势型时间序列的预测—线性趋势回归表12-22000-2018年蔬菜产量时间序列序号年份蔬菜产量(万吨)1200044467.942200148422.363200252860.564200354032.325200455064.666200556451.497200653953.058200751767.679200854457.9610200955300.3011201053030.8612201159766.6313201261624.4614201363197.9815201464948.6516201566425.1017201667434.1618201769192.6819201870346.72
92,12.4趋势型时间序列的预测—线性趋势回归(万吨)图12-6蔬菜产量的预测93当时间序列不是以固定的常数(即斜率)上升或下降的时候,则此时间序列具有非线性趋势(non-lineartrend)。当时间序列的实际观测值按指数规律变化时,需要用指数曲线(exponentialcurve)方程对时间序列进行预测。指数曲线:12.4趋势型时间序列的预测—非线性趋势回归参数的计算:先取对数,再由最小二乘法可得例12.3:根据表12-3中的人均GDP数据,用指数曲线方程预测2019年的人均GDP,并将实际值和预测值绘制成图形进行比较。94,12.4趋势型时间序列的预测—非线性趋势回归表12-32000-2018年人均GDP时间序列序号年份人均GDP(元)12000794222001871732002950642003106665200412487620051436872006167388200720494920082410010200926180112010308081220113630213201239874142013436841520144700516201550028172016536801820175920119201864644解:对取对数得:
由最小二乘法可得:
所以指数曲线方程为:
带入t=20,可得:95,12.4趋势型时间序列的预测—非线性趋势回归图12-7人均GDP的预测96当时间序列的实际观测值变化比较复杂时,如在一段时间内下降,在另一段时间内上升,或者更为复杂(存在多个拐点),此时,需要通过拟合多阶曲线来刻画这种复杂的非线性趋势。二阶曲线:1个拐点三阶曲线:2个拐点多阶曲线:12.4趋势型时间序列的预测—非线性趋势回归参数的计算:由最小二乘法可得例12.4:根据表12-4中石油占能源消费总量的比重的数据,用合适的多阶曲线方程预测2019年的石油占能源消费总量的比重,并将实际值和预测值绘制成图形进行比较。97,12.4趋势型时间序列的预测—非线性趋势回归表12-42000-2018年石油占能源消费总量的比重时间序列序号年份石油占能源消费总量的比重120000.2200220010.2120320020.2100420030.2010520040.1990620050.1780720060.1750820070.1700920080.16701020090.1640112010016801320120171015201401830172016018801920180.1890解:石油占能源消费总量的比重先下降,再上升,存在一个明显的拐点,因此,用二阶曲线方程预测较为合适。二阶曲线方程为:
由最小二乘法可得:
带入t=20,可得:98,12.4趋势型时间序列的预测—非线性趋势回归图12-8石油占能源消费总量的比重的预测99当时间序列同时存在趋势和季节性时,时间序列既在某一段时间内递增或递减,同时各年内的相同季节中存在类似的波动。为了对这种类型的时间序列进行预测,可以根据多元线性回归的思想,将时间和表示季节性的虚拟变量当作自变量,实际观测值当作因变量。引入虚拟变量的多元回归预测:12.5趋势与季节混合型—引入虚拟变量的多元回归参数的计算:最小二乘法可得虚拟变量的设置:n个虚拟变量对应表示n+1个季节预测效果:可用多元回归方程的判定系数、系数显著性、模型显著性等指标进行衡量例12.5:根据表12-5中的数据,预测布丁酒店2017年1月的客房出租率,并将实际值和预测值绘制成图形进行比较。100,表12-52005-2006年布丁酒店各月的客房出租率序号年份月份时间客房出租率12015115912015226312015336812015447012015556312015665912015776812015886412015996212015101073120151111621201512124722016113642201621469220163157322016416672201651768220166187122016719672201682071220169216522016102272220161123632201612244712.5趋势与季节混合型—引入虚拟变量的多元回归解:客房出租率同时含有季节性和趋势成分,应引入月份虚拟变量,并进行多元回归预测。
将12月设为基准变量,引入11个月份虚拟变量,则多元回归预测方程为:
由最小二乘法可得:
带入t=25,可得:所以,2017年1月布丁酒店的预测客房出租率为66.36%。101,12.5趋势与季节混合型—引入虚拟变量的多元回归102,图12-9客房出租率的预测12.5趋势与季节混合型—引入虚拟变量的多元回归103当时间序列是同时含有趋势、季节变动和随机波动的复合型序列时,需要对时间序列进行分解预测—先将时间序列的各个因素依次分解出来,然后进行预测。常用的有乘法模型和加法模型,此节仅介绍乘法模型。乘法模型:12.5趋势与季节性—时间序列分解法第1步:确定并分离季节成分以季节指数来表示时间序列中的季节成分,将季节成分从时间序列中分离出去,即用序列中的每个实际观测值除以对应的季节指数,以消
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 银行贷款展期还款合同
- 购销合同范本设计范本
- 聘用合同补充协议的签订与监管要求
- 宾馆设施完善保证
- 信息系统建设项目实施合同
- 广告牌吊装作业
- 个人信用借款合同格式样本
- 房屋买卖合同范本模板样本示例
- 售后服务协议签订纠纷解决
- 全方位集成服务合同模板
- 有效的双向沟通管理制度
- 围棋协会2022年工作计划范文
- 07讲信息系统建设和设计软件工程
- 厕所蹲位统计表10
- OptiXOSN8800产品系统硬件系统、单板介绍
- 附件1黑龙江省事业单位聘用合同制管理办法doc
- 蔬菜大棚温度控制器设计(共20页)
- LS-MASTER-K-指令手册
- 乌兹别克语字母表
- 《数据结构》课程标准
- 毕业设计(论文)基于单片机AT89C51的数字抢答器设计
评论
0/150
提交评论