版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7章线性回归分析1.掌握回归分析的基本原理及步骤。2.掌握线性回归分析模型的SPSS实现与解读方法。3.掌握对数线性回归分析模型的SPSS实现与解读方法。4.熟悉线性回归分析报告的撰写方法。学习目标引导案例
近年来,得益于国民经济的持续快速增长以及国家对文化产业的支持,整体电影文化与产业环境持续改善。作为文化娱乐市场重要组成部分的电影市场已连续多年实现电影票房的快速增长,同时,也吸引了各类社会资本积极进军电影行业,从而进一步推动了电影行业的良性快速发展。2015年12月4日,中国电影国内票房市场首次突破400亿元大关,全年票房达到440.7亿元。预计到2021年,中国将超越美国成为世界第一大电影市场,并在“十三五”期末有望达到1,173亿元的规模。引导案例
本书搜集了来源于某公司的电影票房数据,如表7.1所示。数据集见“电影票房数据.sav”。基于此数据,我们对电影票房的影响因素进行分析,以了解如何能拍出高票房的电影。在此重点强调分析方法,对于结果只是样例展示。Part7.1回归分析概述回归分析的概念回归分析的基本要素线性回归分析模型回归分析概述7.1.1回归分析的概念
回归分析是研究自变量与因变量之间的关系,并通过自变量的给定值来推算或估计因变量的值。回归分析和相关分析存在密切的相似关系,但是回归分析是使用数学公式的方式来表达变量之间的关系,而相关分析则是检验和度量变量之间关系的密切程度,在分析数据方面两者是相辅相成的。在实践中,经常用到的回归分析有线性回归、0-1回归等。其中,线性回归的因变量必须是连续型数据,例如,薪资、房价等;0-1回归的因变量是“0-1”数据也就是数据只可能有两个取值,例如,是否谈恋爱、是否出险等。7.1.2回归分析的基本要素因变量自变量是用来解释因变量的,回归分析就是研究自变量与因变量的关系,揭示自变量对因自变量的影响程度,甚至是预测因变量的值。
自变量相关性是指两个变量的关联程度。对于相关性的研究往往称为相关性分析。回归分析是研究因变量与自变量相关性的。相关性123因变量就是我们业务的核心诉求,所有的分析都是围绕着它进行的。7.1.3线性回归模型
线性回归模型分为一元线性回归模型和多元线性回归模型,一元线性回归模型是指只有一个自变量(解释性变量)的线性回归模型,用于解释因变量与自变量之间的线性关系。多元线性回归模型是指有两个或两个以上的影响因素作为自变量来解释因变量的变化的线性回归模型。1.一元线性回归模型一元线性回归的数学模型如下:上式表明,揭示因变量的变化可由两部分来解释:一是由自变量的变化引起的的线性变化;二是由其他因素引起的变化部分,即。2.多元线性回归模型多元线性回归的数学模型为:上式表示一个元线性回归模型,其中有个自变量,它表明因变量的变化可以由两部分组成:第一,由个自变量的变化引起因变量的线性变化部分,即。第二,由其他随机因素引起的的变化部分,即。都是模型中的未知参数,表示回归常数个偏回归系数,为随机误差。估计多元线性回归方程中的未知参数是多元线性回归分析的核心任务之一。Part7.2线性回归分析模型的变量准备、SPSS实现及解读线性回归分析模型的变量准备线性回归分析模型的SPSS实现及解读对数线性回归分析模型线性回归分析模型的变量准备、SPSS实现及解读7.2.1线性回归分析模型的变量准备
将“电影票房”数据导入后,我们对月份和导演年代这两个字段进行了处理。中国电影经过多年的发展已经慢慢形成了以下几个电影档期,中国电影业最大的档期是贺岁档,其次是暑期档。因此,在这里需要对月份进行处理。对月份采取以下处理方式:(1)
将12月、1月、2月认定为“贺岁档”;(2)
将7月、8月、9月认定为“暑期档”;(3)将3月、4月认定为“普通档”;(4)
将5月、6月认定为“黄金1档”;(5)将10月、11月认定为“黄金2档”;当然,我们也可以对导演的年代进行处理,原始数据中的导演年代从20世纪30年代到80年代,每十年划分一档,划分的比较细,但是30年代到50年代的导演离我们也比较久远,也不是目前关注的重点,于是可以考虑将30年代到50年代的导演合并成一,将“导演年代<50”的认定为“50以下”,其余的保持不变。创建虚拟变量虚拟变量(DummyVariables)又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的质变量,通常取值为0或1。以电影“类型”为例,它包含“主旋律”、“爱情”、“儿童”等14类,创建虚变量后就会出现14列“0-1变量”。SPSS的具体操作如下。虚拟变量创建用SPSS打开数据文件“电影票房数据.sav”。对分类变量创建虚变量。在SPSS菜单栏上选择【转换(T)】→【创建虚变量】,弹出“创建虚变量”对话框。将【变量(I)】列表框中需要创建虚变量的变量选入右侧的【针对下列变量创建虚变量(C)】列表框内,在【主效应虚变量】栏中勾选【创建主效应虚变量(M)】,在【根名称(每个选定变量各一个)(O)】文本框中输入即将生成的虚变量的列名的根部名称。例如,在【根名称(每个选定变量各一个)(O)】中输入变量名“类型”,单击【确定】按钮即可,如图所示。
虚拟变量创建变量创建虚变量说明类型_1类型=主旋律类型_2类型=儿童类型_3类型=动作类型_4类型=动画类型_5类型=励志类型_6类型=历史剧情类型_7类型=喜剧类型_8类型=家庭伦理类型_9类型=悬疑类型_10类型=惊悚类型_11类型=灾难类型_12类型=爱情类型_13类型=警匪类型_14类型=魔幻此时,在查看器窗口中会出现变量创建的表格。虚拟变量创建返回到数据视图窗口中,会出现14列创建好的虚变量。7.2.2线性回归分析模型的SPSS实现及解读用SPSS打开数据文件“电影票房数据.sav”,在菜单栏中选择【分析(A)】→【回归(R)】→【线性(L)】。7.2.2线性回归分析模型的SPSS实现及解读在弹出的“线性回归”对话框中进行因变量,自变量的设置。将“票房(万元)”放入【因变量(D)】列表框内,将剩余的变量放入【自变量(I)】列表框内。如果某一类新生成了个虚变量,则在【自变量(I)】框内只放入个虚变量,剩下的一个虚变量做基准。例如,“类型”建立了14类虚变量,就只放入13个虚变量。线性回归分析模型的SPSS解读模型摘要模型RR方调整后R方标准估算的错误1.668a.446.37613693.97952a.预测变量:(常量),是否翻拍=1.0,档期=普通档,是否真实=0.0,是否有续集=1.0,类型=悬疑,类型=儿童,类型=励志,类型=家庭伦理,类型=灾难,类型=魔幻,类型=警匪,宣发方=S,年=2012,类型=惊悚,档期=黄金1档,是否改编=S,导演是否转型=1.0,类型=喜剧,档期=黄金2档,年=2011,类型=动作,宣发方=G,导演得奖情况=1.0,类型=历史剧情,类型=动画,时长,年=2013,类型=主旋律,档期=暑期档,宣发方=L1.模型整体评价——模型摘要表R表示拟合优度(goodnessoffit),是用来衡量估计的模型对观测值的拟合程度。它的值越接近1说明模型越好。调整后的考虑了模型的复杂程度,也就是自变量的个数,其含义与非常类似,更多的被用于不同模型拟合优度的比较(因变量必须相同)。在本案例中,调整后为0.376,表示自变量可以解释因变量37.6%的变化。当然,在实际项目中,不建议一味地追求,这不是建模的目标。线性回归分析模型的SPSS解读2.模型整体评价—ANOVA模型平方和自由度均方F显著性1回归35528605830.613301184286861.026.315.000b残差44068392627.197235187525075.009
总计79596998457.810265
a.因变量:票房(万元)b.预测变量:(常量),是否翻拍=1.0,档期=普通档,是否真实=0.0,是否有续集=1.0,类型=悬疑,类型=儿童,类型=励志,类型=家庭伦理,类型=灾难,类型=魔幻,类型=警匪,宣发方=S,年=2012,类型=惊悚,档期=黄金1档,是否改编=S,导演是否转型=1.0,类型=喜剧,档期=黄金2档,年=2011,类型=动作,宣发方=G,导演得奖情况=1.0,类型=历史剧情,类型=动画,时长,年=2013,类型=主旋律,档期=暑期档,宣发方=L线性回归分析模型的SPSS解读3.模型整体评价—系数
在给出回归系数具体的解读之前,需要注意,当回归系数t检验相应的p值小于显著性水平时,该变量才是显著的,并且对于定量变量、定性变量的解读也是有差异的。具体解读如下:在控制其他因素不变,在5%的显著性水平下。定量自变量:某一自变量每增加一个单位,因变量的平均增加(系数为正)、减少(系数为负)量。以电影的时长为例,电影的时长每多一分钟,票房增加442.295万元。定性自变量:如果一个定性自变量有k个水平,在估计的过程中,结果中消失的一个水乎为基准组,某个水平的系数估计应该被解读成该水平和基准组的对比。以电影的档期为例,结果中缺少了贺岁档,则代表普通档、暑期档、黄金1档、黄金2档的票房分别比贺岁档低5212.431万元、7927.556万元,4395.342万元、7313.694万元。7.2.3对数线性回归分析模型
在数据分析类项目的实际业务中,如果因变量呈右偏分布,分析者往往会对因变量进行对数变化,使得数据更加平稳,也消弱了模型的共线性、异方差性等。本案例中票房的分布就是典型的右偏形式,因此,也可以考虑对票房取以自然对数为底的对数,然后再建立线性回归模型,此时的模型称为对数线性回归模型。
对数线性回归模型的具体实现方法与线性回归模型的实现方法一致,这里就不再一一赘述了。但是对于回归结果的解读,对数线性回归模型结果的解读与线性回归模型结果的解读还是有不同的地方需要注意。7.2.3对数线性回归分析模型
仍以“电影票房“这一数据集为例,通过绘制其因变量“票房”的直方图可以看出,票房呈右偏形式,由此,对“票房”这一变量进行对数变换。然后建立线性回归模型,利用SPSS得到建模结果。“票房”直方图对数线性回归模型结果解读变量回归系数P值备注截距项5.490<.0001类型=主旋律0.2780.454基准:爱情类型=儿童-0.1100.804类型=动作0.1500.401类型=动画0.1760.476类型=励志0.4540.315类型=历史剧情0.0960.768类型=喜剧0.0720.696类型=家庭伦理-0.4320.246类型=悬疑1.0080.006类型=惊悚-0.2760.175类型=灾难0.8070.115类型=警匪0.3450.139类型=魔幻0.8200.004对数线性回归模型结果解读变量回归系数P值备注年=2011.2250.155基准:2010年年=2012.1480.344年=2013.4330.005档期=普通档-.3360.058基准:贺岁档档期=暑期档-.2860.060档期=黄金1档-.3180.102档期=黄金2档-.4290.029宣发方=G-.1970.250基准:宣发公司-C(联合发行)宣发方=L-.4190.012宣发方=S.1800.254是否真实=0.0-.0160.950基准:真实是否有续集=1.0.3780.016基准:没有续集对数线性回归模型结果解读对于对数线性模型的解读需要注意,这与普通的线性回归是不同的。它解读为“变化率”。如上表所示,以导演是否得过奖为例。在控制其他因素不变的情况下,在5%十五显著性水平下,与基准“导演未得过奖”相比,得过奖的导演拍出的电影票房比未得过奖的导演拍出的电影票房高27.7%。变量回归系数P值备注导演得奖情况=1.0.2770.029基准:没有得奖导演是否转型=1.0.4650.004基准:没有转型时长.0310.000是否改编=S-.4300.035基准:没有改编是否翻拍=1.0.3830.044基准:没有翻拍Part7.3电影票房影响因素分析报告1.背景介绍
国家电影局发布的数据显示,我国电影市场近年来保持高速增长的态势,国内电影票房从2012年的170.7亿元增长到2018年609.8亿元,同比增长9.06%。中国电影产业在国民经济新的发展形势下实现了稳健增长。以电影票房收入衡量,我国电影市场已经成为仅次于美国的全球第二大电影市场。不仅电影票房增加,电影银幕数也节节攀升。2018年全国新增银幕9303块,银幕总数已达到60079块,银幕数量第一大国的地位更加稳固。2.数据说明变量类型变量名详细说明取值范围因变量电影票房单位:万元1010-127200自变量影片部分属性类型时长分类变量单位:分钟爱情、喜剧等14种75-156档期上映时间电影上映年份上映档期年份:2010-2013年贺岁档、暑期档、黄金1档、黄金2档、普通档品牌宣发方明星私企、国有宣发公司、小私营公司、联合发行S=明星私企;L=小私营公司;C=联合发行;G=国有宣发公司IP是否改编是否真实是否翻拍是否有续集电影是由畅销小说改编为剧本的还是原创剧本电影是否为真人真事电影是否为翻拍电影是否有续集改编、原创是、否是、否是、否导演演员部分导演得奖情况
导演是否得奖
是、否导演是否转型导演是否从演员转型是、否3.描述分析电影票房直方图
票房平均值为1.12亿元,中位数为0.482亿元。票房最高的是徐峥导演的《人在囧途之泰囧》,票房高达127168.1万元。最低的是冯小宁导演的《举起手来(之二)追击阿多丸》,只有1010.16万元。描述分析对数票房VS类型箱线图
对数票房VS宣发方箱线图
对数票房VS档期箱线图描述分析描述分析对数票房VS是否改编箱线图
对数票房VS是否真实箱线图
描述分析对数票房VS是否有续集箱线图对数票房VS是否翻拍箱线图对数票房VS导演得奖情况箱线图描述分析对数票房VS导演是否转型箱线图
对数线性回归分析模型变量回归系数P值备注截距项5.49<.0001类型=主旋律0.2780.454基准:爱情类型=儿童-0.1100.804类型=动作0.1500.401类型=动画0.1760.476类型=励志0.4540.315类型=历史剧情0.0960.768类型=喜剧0.0720.696类型=家庭伦理-0.4320.246类型=悬疑1.0080.006类型=惊悚-0.2760.175类型=灾难0.8070.115类型=警匪0.3450.139类型=魔幻0.8200.004对数线性回归分析模型变量回归系数P值备注年=20110.2250.155
基准:2010年年=20120.1480.344年=20130.4330.005档期=普通档-0.3360.058
基准:贺岁档档期=暑期档-0.2860.060档期=黄金1档-0.3180.102档期=黄金2档-0.4290.029是否真实=0.0-0.0160.950基准:真实是否有续集=1.00.3780.016基准:没有续集对数线性回归分析模型变量回归系数P值备注宣发方=G(国有宣发公司)-0.1970.250基准:宣发公司-C(联合发行)宣发方=L(小私营公司)-0.4190.012宣发方=S(明星私企)0.1800.254导演得奖情况=1.00.2770.029基准:没有得奖导演是否转型=1.00.4650.004基准:没有转型时长0.0310.000
是否改编=S-0.4300.035基准:没有改编是否翻拍=1.00.3830.044基准:没有翻拍F检验P值<0.001调整的R20.467对数线性回归分析模型变量回归系数P值备注宣发方=G(国有宣发公司)-0.1970.250基准:宣发公司-C(联合发行)宣发方=L(小私营公司)-0.4190.012宣发方=S(明星私企)0.1800.254导演得奖情况=1.00.2770.029基准:没有得奖导
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东省肇庆市实验中学高一语文第10周限时训练
- JGJ106-建筑基桩检测技术规范
- 2024年松原考客运资格证试题题库软件
- 2024年南昌驾驶员客运从业资格证模拟考试题及答案
- 2024年山南道路运输从业资格证b2
- 2024年德汉翻译服务合同
- 举升机租赁协议2024年
- 2024年西宁客车从业资格证考试试题及答案
- 2024年工业原料代理购销协议书
- 2024年防疫消毒合同范本
- 人教版五年级上册数学《-用字母表示数》说课课件
- 河南省驻马店市西平县2023-2024学年七年级上学期期中地理试题
- 干部人事档案转递单表样
- 灭火器检查记录表
- 《临床试验项目管理》课件
- 267条表情猜成语【动画版】
- 江苏省无锡市滨湖区2022-2023学年七年级上学期期中语文试题【含答案解析】
- 安徽省小餐饮食品安全承诺书
- 六年级上册数学直接得数习题
- 中国成人心理健康测试
- 青岛版小学数学【三位数乘两位数的笔算】教案
评论
0/150
提交评论